Publicación:
Reconocimiento de entidades nombradas para el idioma español utilizando Conditional Random Fields con características no supervisadas

No hay miniatura disponible
Fecha
2017
Autores
Copara Zea, Jenny Linet
Título de la revista
Revista ISSN
Título del volumen
Editor
Universidad Católica San Pablo
Proyectos de investigación
Unidades organizativas
Número de la revista
Abstracto
El reconocimiento de entidades nombradas es una tarea relevante en el a´rea de Procesamiento de Lenguaje Natural, su funci´on es identificar entidades en textos para un idioma dado. El estudio de esta tarea se ha enfocado principalmente en el idioma ingl´es. Recientes estudios en el idioma ingl´es han mostrado que utilizar caracter´ısticas no supervisadas tales como word embeddings mejoran el reconocimiento de entidades nombradas. En este trabajo se investiga si caracter´ısticas no supervisadas pueden mejorar la tarea de NER supervisado en el idioma espan˜ol. Para esto, se propone utilizar caracter´ısticas no supervisadas mediante word representations y colocaciones, as´ı como caracter´ısticas adicionales en un clasificador Conditional Random Field (CRF). Resultados experimentales (82.44% de F-score en el corpus CoNLL-2002) muestran que el enfoque propuesto, en particular cuando se utiliza cross-lingual word representations, es comparable a abordajes de aprendizaje profundo, actualmente el estado del arte para NER en español.
Descripción
Palabras clave
Word embeddings, Procesamiento de lenguaje natural, NER para español, Conditional Random Fields
Citación