Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/742
Clasificación de textos cortos usando representaciones distribucionales de los términos | |
JUAN MANUEL CABRERA JIMENEZ | |
MANUEL MONTES Y GOMEZ HUGO JAIR ESCALANTE BALDERAS | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Text editing Classification Natural language processing Distributional term representation | |
The amount of short documents that are available has increased considerably
in recent years due to technological advances. In this context, it has motivated the
development of automatic mechanisms to facilitate their access, organization and
analysis. Due to the tiny length of documents and the extremely sparse document
representations, the direct application of standard text categorization methods is
not an effective solution to the problem. This work describes the use of distributional
representations of terms (DTRs) for the classification of short texts to
overcome, to some extent, the small-length/high-sparsity issues. The DTRs are a
way of representing terms, using contextual information, given by their document
occurrence and term co-occurrence statistical. We combine the DTRs of the terms
appearing in short texts to generate better document representations that can be
used with standard machine learning techniques. Thus, a document is not represented
by the terms that occur in it, but by a contextual weight vector, indicating
the association of terms with documents in the corpus or terms in the vocabulary.
The evaluation was performed in three collections, using a variety of classification
methods and two different scenarios: i) in the classification of short texts, and ii)
in the classification of short texts when there are few labeled documents. The experimental
results show that the use of DTRs improves performance of classifiers
in short text categorization and also when one has a combination of short texts and a small training set. In particular, the document-occurrence representation
outperformed the other representations we evaluated. La cantidad de documentos cortos que está disponible se ha incrementado considerablemente en los últimos años gracias a los avances tecnológicos. En este contexto se ha motivado el desarrollo de mecanismos automáticos que faciliten su acceso, organización y análisis. Debido a la longitud de los documentos y a las representaciones tan dispersas de los documentos, la aplicación directa de los métodos de representación estándar de la categorización de texto no es una solución viable al problema. En este trabajo se describe el uso de las representaciones distribucionales de los términos (DTRs, por sus siglas en inglés) para la clasificación de los textos cortos para superar, en cierta medida, los problemas longitud/dispersión. Las DTRs son una forma de representar términos, por medio de la información contextual dada por la ocurrencia en un documento y la co-ocurrencia estadística entre términos. Combinamos las DTRs de los términos que aparecen en los textos cortos para generar mejores representaciones de documentos que se pueden utilizar con las técnicas de aprendizaje automático. De esta manera, un documento no está representado por los términos que ocurren en él, sino por un vector de pesos contextuales, que indican la asociación de términos con los documentos en el corpus o con términos en el vocabulario. La evaluación se realizó en tres colecciones, utilizando una variedad de métodos de clasificación y en dos distintos escenarios: i) en la clasificación de textos cortos, y ii) en la clasificación de textos cortos y conjunto de datos reducido. Los resultados experimentales demostraron que el uso de las DTRs es beneficioso para mejorar el rendimiento de los clasificadores en la categorización de textos cortos y también cuando se tiene una combinación de textos cortos y un conjunto de entrenamiento reducido. En particular, la representación ocurrencia-documento superó a las otras representaciones evaluadas. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2012 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Cabrera-Jimenez J.M. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
CabreraJJM.pdf | 1.03 MB | Adobe PDF | Visualizar/Abrir |