Publicación:
Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos

dc.contributor.author Quispe Poccohuanca, Oscar Edmit es_PE
dc.date.accessioned 2024-05-30T23:13:38Z
dc.date.available 2024-05-30T23:13:38Z
dc.date.issued 2018
dc.description.abstract En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar pertenezca a una sola clase. Pero en la clasificación de textos es lógico pensar que un texto puede pertenecer a una o más clases. A este tipo de clasificación se le denomina clasificación multi-etiqueta y se encuentra dentro del aprendizaje multi-etiqueta. Sobre este tipo de clasificación los clasificadores binarios o multi-clase tienen dificultades para resolver esto, debido a que restrigen la clasificación a una sola etiqueta. Para afrontar este tipo de clasificación se han propuesto algunas maneras de resolver esto. Algunos autores proponen transformar la clasificación multi-etiqueta en clasificación binaria como el método Binary Relevance (BR). Con este método se pierde la correlación de las etiquetas y a su vez aumenta el tamaño del conjunto de datos de entrenamiento. Otras propuestas que se han realizado son adaptar algoritmos de clasificación binaria o multi-clase como las Máquinas de Soporte Vectorial o Redes Neuronales. Por otro lado, investigaciones recientes utilizan técnicas de deep learning (Aprendizaje Profundo) como son: la Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para la clasificación de textos y oraciones. Por ahora estos solo trabajan con clasificación binaria y multi-clase. Analizando el modelo propuesto por Zhang, el cual es un modelo de clasificación que utiliza una representación de textos a nivel de caracteres y redes neuronales convolucionales como clasificador, se encontró que este modelo tiende a perder información, con lo cual, la precisión del clasificador disminuye. Por otro lado, dentro de los métodos de representación de textos se encuentran varios, uno que llama la atención es la Indexación Semántica Latente. Este método tiene resultados superiores a otros métodos de representación, ya que elimina la polisemia y sinonimia de palabras en los textos. En este trabajo se propone: primero representar los textos mediante Indexación Semántica Latente. Segundo, sobre esta representación utilizar Redes neuronales Convolucionales para la extracción de características, y finalmente aplicarlos sobre bases de datos con textos multi-clase y multi-etiqueta. Los resultados de los experimentos realizados, muestran que el modelo que se propone tiene una alta precisión cuando los textos a clasificar son grandes, mientras que con textos menor cantidad de caracteres el rendimiento del modelo disminuye.
dc.description.sponsorship Fondo Nacional de Desarrollo Científico y Tecnológico - Fondecyt
dc.identifier.uri https://hdl.handle.net/20.500.12390/1671
dc.language.iso spa
dc.publisher Universidad Nacional de San Agustín de Arequipa
dc.rights info:eu-repo/semantics/openAccess
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/2.5/pe//
dc.subject Redes neuronales
dc.subject Convolucionales es_PE
dc.subject Clasificación multi etiqueta es_PE
dc.subject Clasificación de textos es_PE
dc.subject Indexación semántica latente es_PE
dc.subject.ocde https://purl.org/pe-repo/ocde/ford#3.03.05
dc.title Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
dc.type info:eu-repo/semantics/masterThesis
dspace.entity.type Publication
oairecerif.author.affiliation #PLACEHOLDER_PARENT_METADATA_VALUE#
thesis.degree.discipline Maestría en Ciencias: Informática, con mención en Tecnologías de Información
thesis.degree.grantor Universidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Administración
thesis.degree.name Maestro en Ciencias: Informática, con mención en Tecnologías de Información
Archivos