Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/365
Método semisupervisado para la clasificación automática de textos de opinión | |
NADIA PATRICIA ARAUJO ARREDONDO | |
LUIS VILLASEÑOR PINEDA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Classification Computational linguistic | |
Today a large amount of information is available through different electronic
resources, such as digital libraries, collections of documents or Internet. The need to
access this information for its extraction and analysis has led to various forms of
information handling, among which is the classification of texts. However, the constant
growth of information turns the task of classifying documents by hand expensive
and time consuming, requiring to automate the classification process. The
automatic classification of texts involves placing a document within a group of predefined
classes. Most of the work in this area has focused on the classification of
texts by their subject or topic. However, in recent years there has been an increasing
interest in the task of non-thematic classification. Examples of non-thematic classification
are the detection of plagiarism, authorship attribution, gender classification,
and the classification of opinions. This thesis focuses on the task of opinion classification.
Specifically, it considers the problem of determining the polarity of opinion
in sentences by a Machine Learning approach using lexical features. It is worth mentioning
that one of the contributions of this thesis is the characterization of opinions
necessary for automatic classification. In addition, currently, there is no tagged corpus
in Spanish, complicating the learning process. In this work we present the first
steps towards the creation of this corpus. Specifically it proposes an approach for
semi-supervised classification of opinions, reducing the need for a large corpus and
manual tagging. Hoy en día se encuentra disponible una gran cantidad de información a través de distintos medios electrónicos, en bibliotecas digitales, en colecciones de documentos o en Internet. La necesidad de acceder a esta información para su extracción y análisis, ha llevado a la creación de diversas formas de manipulación de información, entre las que se encuentra la clasificación de textos. Sin embargo, el crecimiento constante de información hace que la tarea de clasificar documentos de forma manual sea costosa y que requiera de mucho tiempo, por lo que ha surgido el interés por realizar la clasificación de manera automática. Podemos decir entonces que la clasificación automática de textos consiste en colocar un documento dentro de un grupo de clases previamente definidas. La mayor parte del trabajo en esta área se ha enfocado en la clasificación de textos por su tema o tópico. Sin embargo, en los últimos años se ha puesto gran interés en la tarea de clasificación no temática. Algunos ejemplos de esta última son la detección de plagio, la atribución de autoría, la clasificación por género y la clasificación de opiniones. Este trabajo de tesis se enfoca en la tarea de clasificación de opiniones, específicamente se aborda el problema de determinar la polaridad de opiniones, es decir, clasificar aquellas opiniones que expresan algo a favor de aquellas que expresan algo en contra, a nivel de oración, bajo un enfoque de Aprendizaje Computacional utilizando características léxicas. Cabe mencionar que una de las contribuciones de este trabajo es la caracterización de opiniones, necesaria para su clasificación automática. Además, en la actualidad, no existe un corpus etiquetado en idioma español, lo que dificulta el proceso de aprendizaje. Es por ello que en este trabajo se dan los primeros pasos para la creación de este corpus. Específicamente se propone un enfoque de aprendizaje semisupervisado de clasificación de textos de opinión, disminuyendo la necesidad de un gran corpus ya etiquetado. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2009-02 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Araujo-Arredondo N.P. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
AraujoANP.pdf | 351.63 kB | Adobe PDF | Visualizar/Abrir |