Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/478
Método semisupervisado para clasificación de documentos usando resúmenes automáticos
EMMANUEL ANGUIANO HERNANDEZ
LUIS VILLASEÑOR PINEDA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Classification
Text analysis
Natural language processing
The vast amount of information avaible as text documents demands an ordenation in order to keep it accesible. Text Categorization is the task of separate document sets into predened categories in function of their characteristics. Algorithms wich performs this task are called Classifiers, and there are a wide variety of them with distinctive features and different levels of performance for almost conditions. A dificulty with this type of algorithms is that they require large amounts of information in their training phase to produce good enought classifiers and training documents use to be manually classfied. Obtaining training documents is expensive because it requires human experts to perform the classifications. In order to solve this problem, semisupervised methods have been developed. It uses just a small set of manually labeled documents in addition with a large pool of unlabeled documents for training. Due to unlabeled documents may contain noisy information that interferes whit the training of the classifier, we need a method to lter the right infomation and remove the noise. Using automatic summarization to remove noise and keep useful information from documents, we developed a self-training based method for document categorization which performs better when compared with traditional scheme without summaries. Experimental results shows that the method is efective, use few labeled and unlabeled documents and few iterations. In this work we show the theoretical background of the proposed algorithm, a review of related work and the previous experiments. From these experiments we get the conditions for the nal system. Finally we expose the denitive system and its results over many different corpora.
La gran cantidad de información disponible en forma de documentos de texto demanda un ordenamiento para ser accesible. La Clasificación de Texto se encarga de separar conjuntos de documentos en categorías predefinidas según sus características. Los algoritmos que cumplen esta tarea se denominan Clasificadores y existe una amplia variedad de ellos con características distintivas y diferentes niveles de desempeño para condiciones diversas. Una dificultad de este tipo de algoritmos es que requieren de grandes cantidades de información en su entrenamiento para producir un buen clasificador. La información que se les proporciona suelen ser documentos clasificados manualmente. Obtener estos documentos es costoso pues requiere que expertos humanos asignen la categoría correspondiente en el dominio del problema. Para solucionar este problema se han desarrollado métodos semisupervisados que emplean un conjunto pequeño de documentos etiquetados manualmente más un conjunto numeroso de documentos no etiquetados para entrenarse. Debido a que los documentos no etiquetados pueden contener información ruidosa que interfiera en el entrenamiento del clasificador, es necesario un método que permita filtrar la información adecuada y retirar el ruido. Utilizando resúmenes automáticos para separar la información relevante de los documentos, se desarrolló un método para clasificación basado en self-training que mejora el desempeño del clasificador con respecto al caso base en el que no se emplean resúmenes. Los resultados experimentales demuestran que el método es efectivo, que emplea un número pequeño de iteraciones y pocos documentos etiquetados. En este trabajo se muestra el respaldo teórico del algoritmo propuesto, se hace una revisión de trabajos relacionados, se exponen los experimentos previos a partir de los cuales se obtuvo información que determinó las condiciones del sistema final, así como los resultados de los experimentos sobre diferentes conjuntos de datos con características diversas.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2010-12
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Anguiano-Hernandez E.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
AnguianoHE.pdf1.51 MBAdobe PDFVisualizar/Abrir