Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos

Quispe Poccohuanca, Oscar Edmit

Publicación:

Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos

dc.contributor.author	Quispe Poccohuanca, Oscar Edmit	es_PE
dc.date.accessioned	2024-05-30T23:13:38Z
dc.date.available	2024-05-30T23:13:38Z
dc.date.issued	2018
dc.description.abstract	En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar pertenezca a una sola clase. Pero en la clasificación de textos es lógico pensar que un texto puede pertenecer a una o más clases. A este tipo de clasificación se le denomina clasificación multi-etiqueta y se encuentra dentro del aprendizaje multi-etiqueta. Sobre este tipo de clasificación los clasificadores binarios o multi-clase tienen dificultades para resolver esto, debido a que restrigen la clasificación a una sola etiqueta. Para afrontar este tipo de clasificación se han propuesto algunas maneras de resolver esto. Algunos autores proponen transformar la clasificación multi-etiqueta en clasificación binaria como el método Binary Relevance (BR). Con este método se pierde la correlación de las etiquetas y a su vez aumenta el tamaño del conjunto de datos de entrenamiento. Otras propuestas que se han realizado son adaptar algoritmos de clasificación binaria o multi-clase como las Máquinas de Soporte Vectorial o Redes Neuronales. Por otro lado, investigaciones recientes utilizan técnicas de deep learning (Aprendizaje Profundo) como son: la Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para la clasificación de textos y oraciones. Por ahora estos solo trabajan con clasificación binaria y multi-clase. Analizando el modelo propuesto por Zhang, el cual es un modelo de clasificación que utiliza una representación de textos a nivel de caracteres y redes neuronales convolucionales como clasificador, se encontró que este modelo tiende a perder información, con lo cual, la precisión del clasificador disminuye. Por otro lado, dentro de los métodos de representación de textos se encuentran varios, uno que llama la atención es la Indexación Semántica Latente. Este método tiene resultados superiores a otros métodos de representación, ya que elimina la polisemia y sinonimia de palabras en los textos. En este trabajo se propone: primero representar los textos mediante Indexación Semántica Latente. Segundo, sobre esta representación utilizar Redes neuronales Convolucionales para la extracción de características, y finalmente aplicarlos sobre bases de datos con textos multi-clase y multi-etiqueta. Los resultados de los experimentos realizados, muestran que el modelo que se propone tiene una alta precisión cuando los textos a clasificar son grandes, mientras que con textos menor cantidad de caracteres el rendimiento del modelo disminuye.
dc.description.sponsorship	Fondo Nacional de Desarrollo Científico y Tecnológico - Fondecyt
dc.identifier.uri	https://hdl.handle.net/20.500.12390/1671
dc.language.iso	spa
dc.publisher	Universidad Nacional de San Agustín de Arequipa
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/pe//
dc.subject	Redes neuronales
dc.subject	Convolucionales	es_PE
dc.subject	Clasificación multi etiqueta	es_PE
dc.subject	Clasificación de textos	es_PE
dc.subject	Indexación semántica latente	es_PE
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#3.03.05
dc.title	Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
dc.type	info:eu-repo/semantics/masterThesis
dspace.entity.type	Publication
oairecerif.author.affiliation	#PLACEHOLDER_PARENT_METADATA_VALUE#
thesis.degree.discipline	Maestría en Ciencias: Informática, con mención en Tecnologías de Información
thesis.degree.grantor	Universidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Administración
thesis.degree.name	Maestro en Ciencias: Informática, con mención en Tecnologías de Información

Colecciones

1.1 Eventos institucionales
2.2 Estudios de maestría

Publicación: Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos

context-menu.actions.label

Archivos

Colecciones

Publicación:

Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos