Mi INAOE Alertas Editar Perfil

Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/364

Título :	Clasificación automática de textos usando reducción de clases basada en prototipos
Autor:	JUAN DE DIOS ALVAREZ ROMERO
Colaborador:	MANUEL MONTES Y GOMEZ LUIS VILLASEÑOR PINEDA
Nivel de acceso:	Acceso Abierto
Licencia:	Atribución-NoComercial-SinDerivadas
Materia:	Text analysis Data mining Text categorization Text classification Computer science
Resumen o descripción:	Currently, there exist a lot of available information on the Web, digital libraries, e-mails and databases. In order to take advantage of all of it, they are necessary more efficient mechanism for information retrieval and organization. In particular, Text Categorization plays a very important roll on the arrangement of documents, since its goal is to assign a class, taken from a list previously defined categories, to each new given document. Evidently, it is expected that as the number of classes increased, the categorization task will be more complicated. As a consequence of this fact, most current classification methods tackle multi-class problems by using a combination of several binary classifiers. In this work, we study the performance that can be achieved by traditional categorization methods (i.e. Naive Bayes y SVM) when a multi-class task is reduced to a single binary problem for each document that needs to be classified. Mainly, this document proposed a new prototype scheme to represent each class in order to do the class reduction, and a new weighting scheme to evaluate the importance of terms to each class. Furthermore, we propose a similarity measure based on the intersection of the weighted terms. The experimental results show that the proposed method outperformed traditional approaches in most of the cases, and that in the rest of them, it obtained the same accuracy. La facilidad con que se producen hoy en día documentos electrónicos, tiene por consecuencia la enorme cantidad de datos existentes en Internet, bibliotecas digitales, correos electrónicos, entre otros. Toda esta información es difícil de manejar si no existen mecanismos de acceso, organización y extracción de la misma. En este sentido, la Clasificación Automática de Textos juega un papel muy importante al ordenar los documentos que se van generando, su objetivo es asignar una clase a un documento nuevo, de una lista de clases previamente definidas. Esta tarea se vuelve más complicada a medida que aumenta el número de clases, es por eso, que muchos de los clasificadores tratan los problemas multi-clase como varios problemas binarios. En el presente trabajo se estudia el desempeño que pueden alcanzar los clasificadores más usados en Clasificación de Textos (i.e. Naive Bayes y SVM), si se reduce el problema inicial multi-clase a un problema donde el clasificador sólo tenga que distinguir entre dos clases, es decir un problema binario. Para la reducción se propone un esquema de prototipo para representar a las clases, que a diferencia de otros esquemas, asigna un peso a cada atributo de acuerdo a la importancia que este tiene para cada clase. Además, se propone una medida de similitud que se base en la intersección pesada de atributos. Los experimentos realizados con este método, arrojan resultados que muestran una mejor exactitud o en el peor de los casos, de igual desempeño frente al método tradicional.
Editor:	Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación :	2009-01
Tipo de publicación :	Tesis de maestría
Idioma:	Español
Audiencia:	Estudiantes Investigadores Público en general
Forma de citación:	Alvarez-Romero J.D.
Área de conocimiento:	CIENCIA DE LOS ORDENADORES
Versión de la publicación:	Versión aceptada
Versión de la publicación:	acceptedVersion - Versión aceptada
Aparece en las colecciones:	Maestría en Ciencias Computacionales

Cargar archivos:

Fichero	Tamaño	Formato
AlvarezRJD.pdf	968.17 kB	Adobe PDF	Visualizar/Abrir