Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/742
Clasificación de textos cortos usando representaciones distribucionales de los términos
JUAN MANUEL CABRERA JIMENEZ
MANUEL MONTES Y GOMEZ
HUGO JAIR ESCALANTE BALDERAS
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Text editing
Classification
Natural language processing
Distributional term representation
The amount of short documents that are available has increased considerably in recent years due to technological advances. In this context, it has motivated the development of automatic mechanisms to facilitate their access, organization and analysis. Due to the tiny length of documents and the extremely sparse document representations, the direct application of standard text categorization methods is not an effective solution to the problem. This work describes the use of distributional representations of terms (DTRs) for the classification of short texts to overcome, to some extent, the small-length/high-sparsity issues. The DTRs are a way of representing terms, using contextual information, given by their document occurrence and term co-occurrence statistical. We combine the DTRs of the terms appearing in short texts to generate better document representations that can be used with standard machine learning techniques. Thus, a document is not represented by the terms that occur in it, but by a contextual weight vector, indicating the association of terms with documents in the corpus or terms in the vocabulary. The evaluation was performed in three collections, using a variety of classification methods and two different scenarios: i) in the classification of short texts, and ii) in the classification of short texts when there are few labeled documents. The experimental results show that the use of DTRs improves performance of classifiers in short text categorization and also when one has a combination of short texts and a small training set. In particular, the document-occurrence representation outperformed the other representations we evaluated.
La cantidad de documentos cortos que está disponible se ha incrementado considerablemente en los últimos años gracias a los avances tecnológicos. En este contexto se ha motivado el desarrollo de mecanismos automáticos que faciliten su acceso, organización y análisis. Debido a la longitud de los documentos y a las representaciones tan dispersas de los documentos, la aplicación directa de los métodos de representación estándar de la categorización de texto no es una solución viable al problema. En este trabajo se describe el uso de las representaciones distribucionales de los términos (DTRs, por sus siglas en inglés) para la clasificación de los textos cortos para superar, en cierta medida, los problemas longitud/dispersión. Las DTRs son una forma de representar términos, por medio de la información contextual dada por la ocurrencia en un documento y la co-ocurrencia estadística entre términos. Combinamos las DTRs de los términos que aparecen en los textos cortos para generar mejores representaciones de documentos que se pueden utilizar con las técnicas de aprendizaje automático. De esta manera, un documento no está representado por los términos que ocurren en él, sino por un vector de pesos contextuales, que indican la asociación de términos con los documentos en el corpus o con términos en el vocabulario. La evaluación se realizó en tres colecciones, utilizando una variedad de métodos de clasificación y en dos distintos escenarios: i) en la clasificación de textos cortos, y ii) en la clasificación de textos cortos y conjunto de datos reducido. Los resultados experimentales demostraron que el uso de las DTRs es beneficioso para mejorar el rendimiento de los clasificadores en la categorización de textos cortos y también cuando se tiene una combinación de textos cortos y un conjunto de entrenamiento reducido. En particular, la representación ocurrencia-documento superó a las otras representaciones evaluadas.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2012
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Cabrera-Jimenez J.M.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
CabreraJJM.pdf1.03 MBAdobe PDFVisualizar/Abrir