Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/478
Método semisupervisado para clasificación de documentos usando resúmenes automáticos | |
EMMANUEL ANGUIANO HERNANDEZ | |
LUIS VILLASEÑOR PINEDA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Classification Text analysis Natural language processing | |
The vast amount of information avaible as text documents demands an ordenation
in order to keep it accesible. Text Categorization is the task of separate document
sets into predened categories in function of their characteristics. Algorithms wich
performs this task are called Classifiers, and there are a wide variety of them with
distinctive features and different levels of performance for almost conditions. A dificulty
with this type of algorithms is that they require large amounts of information
in their training phase to produce good enought classifiers and training documents
use to be manually classfied. Obtaining training documents is expensive because it
requires human experts to perform the classifications.
In order to solve this problem, semisupervised methods have been developed. It
uses just a small set of manually labeled documents in addition with a large pool
of unlabeled documents for training. Due to unlabeled documents may contain noisy
information that interferes whit the training of the classifier, we need a method to
lter the right infomation and remove the noise.
Using automatic summarization to remove noise and keep useful information from
documents, we developed a self-training based method for document categorization
which performs better when compared with traditional scheme without summaries.
Experimental results shows that the method is efective, use few labeled and unlabeled
documents and few iterations.
In this work we show the theoretical background of the proposed algorithm, a
review of related work and the previous experiments. From these experiments we get
the conditions for the nal system. Finally we expose the denitive system and its
results over many different corpora. La gran cantidad de información disponible en forma de documentos de texto demanda un ordenamiento para ser accesible. La Clasificación de Texto se encarga de separar conjuntos de documentos en categorías predefinidas según sus características. Los algoritmos que cumplen esta tarea se denominan Clasificadores y existe una amplia variedad de ellos con características distintivas y diferentes niveles de desempeño para condiciones diversas. Una dificultad de este tipo de algoritmos es que requieren de grandes cantidades de información en su entrenamiento para producir un buen clasificador. La información que se les proporciona suelen ser documentos clasificados manualmente. Obtener estos documentos es costoso pues requiere que expertos humanos asignen la categoría correspondiente en el dominio del problema. Para solucionar este problema se han desarrollado métodos semisupervisados que emplean un conjunto pequeño de documentos etiquetados manualmente más un conjunto numeroso de documentos no etiquetados para entrenarse. Debido a que los documentos no etiquetados pueden contener información ruidosa que interfiera en el entrenamiento del clasificador, es necesario un método que permita filtrar la información adecuada y retirar el ruido. Utilizando resúmenes automáticos para separar la información relevante de los documentos, se desarrolló un método para clasificación basado en self-training que mejora el desempeño del clasificador con respecto al caso base en el que no se emplean resúmenes. Los resultados experimentales demuestran que el método es efectivo, que emplea un número pequeño de iteraciones y pocos documentos etiquetados. En este trabajo se muestra el respaldo teórico del algoritmo propuesto, se hace una revisión de trabajos relacionados, se exponen los experimentos previos a partir de los cuales se obtuvo información que determinó las condiciones del sistema final, así como los resultados de los experimentos sobre diferentes conjuntos de datos con características diversas. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2010-12 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Anguiano-Hernandez E. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
AnguianoHE.pdf | 1.51 MB | Adobe PDF | Visualizar/Abrir |