Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/364
Clasificación automática de textos usando reducción de clases basada en prototipos | |
JUAN DE DIOS ALVAREZ ROMERO | |
MANUEL MONTES Y GOMEZ LUIS VILLASEÑOR PINEDA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Text analysis Data mining Text categorization Text classification Computer science | |
Currently, there exist a lot of available information on the Web, digital libraries,
e-mails and databases. In order to take advantage of all of it, they are
necessary more efficient mechanism for information retrieval and organization. In
particular, Text Categorization plays a very important roll on the arrangement
of documents, since its goal is to assign a class, taken from a list previously defined
categories, to each new given document. Evidently, it is expected that as the
number of classes increased, the categorization task will be more complicated. As
a consequence of this fact, most current classification methods tackle multi-class
problems by using a combination of several binary classifiers. In this work, we
study the performance that can be achieved by traditional categorization methods
(i.e. Naive Bayes y SVM) when a multi-class task is reduced to a single
binary problem for each document that needs to be classified. Mainly, this document
proposed a new prototype scheme to represent each class in order to do the
class reduction, and a new weighting scheme to evaluate the importance of terms
to each class. Furthermore, we propose a similarity measure based on the intersection
of the weighted terms. The experimental results show that the proposed
method outperformed traditional approaches in most of the cases, and that in the
rest of them, it obtained the same accuracy. La facilidad con que se producen hoy en día documentos electrónicos, tiene por consecuencia la enorme cantidad de datos existentes en Internet, bibliotecas digitales, correos electrónicos, entre otros. Toda esta información es difícil de manejar si no existen mecanismos de acceso, organización y extracción de la misma. En este sentido, la Clasificación Automática de Textos juega un papel muy importante al ordenar los documentos que se van generando, su objetivo es asignar una clase a un documento nuevo, de una lista de clases previamente definidas. Esta tarea se vuelve más complicada a medida que aumenta el número de clases, es por eso, que muchos de los clasificadores tratan los problemas multi-clase como varios problemas binarios. En el presente trabajo se estudia el desempeño que pueden alcanzar los clasificadores más usados en Clasificación de Textos (i.e. Naive Bayes y SVM), si se reduce el problema inicial multi-clase a un problema donde el clasificador sólo tenga que distinguir entre dos clases, es decir un problema binario. Para la reducción se propone un esquema de prototipo para representar a las clases, que a diferencia de otros esquemas, asigna un peso a cada atributo de acuerdo a la importancia que este tiene para cada clase. Además, se propone una medida de similitud que se base en la intersección pesada de atributos. Los experimentos realizados con este método, arrojan resultados que muestran una mejor exactitud o en el peor de los casos, de igual desempeño frente al método tradicional. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2009-01 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Alvarez-Romero J.D. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
AlvarezRJD.pdf | 968.17 kB | Adobe PDF | Visualizar/Abrir |