Please use this identifier to cite or link to this item: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/365
Método semisupervisado para la clasificación automática de textos de opinión
NADIA PATRICIA ARAUJO ARREDONDO
LUIS VILLASEÑOR PINEDA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Classification
Computational linguistic
Today a large amount of information is available through different electronic resources, such as digital libraries, collections of documents or Internet. The need to access this information for its extraction and analysis has led to various forms of information handling, among which is the classification of texts. However, the constant growth of information turns the task of classifying documents by hand expensive and time consuming, requiring to automate the classification process. The automatic classification of texts involves placing a document within a group of predefined classes. Most of the work in this area has focused on the classification of texts by their subject or topic. However, in recent years there has been an increasing interest in the task of non-thematic classification. Examples of non-thematic classification are the detection of plagiarism, authorship attribution, gender classification, and the classification of opinions. This thesis focuses on the task of opinion classification. Specifically, it considers the problem of determining the polarity of opinion in sentences by a Machine Learning approach using lexical features. It is worth mentioning that one of the contributions of this thesis is the characterization of opinions necessary for automatic classification. In addition, currently, there is no tagged corpus in Spanish, complicating the learning process. In this work we present the first steps towards the creation of this corpus. Specifically it proposes an approach for semi-supervised classification of opinions, reducing the need for a large corpus and manual tagging.
Hoy en día se encuentra disponible una gran cantidad de información a través de distintos medios electrónicos, en bibliotecas digitales, en colecciones de documentos o en Internet. La necesidad de acceder a esta información para su extracción y análisis, ha llevado a la creación de diversas formas de manipulación de información, entre las que se encuentra la clasificación de textos. Sin embargo, el crecimiento constante de información hace que la tarea de clasificar documentos de forma manual sea costosa y que requiera de mucho tiempo, por lo que ha surgido el interés por realizar la clasificación de manera automática. Podemos decir entonces que la clasificación automática de textos consiste en colocar un documento dentro de un grupo de clases previamente definidas. La mayor parte del trabajo en esta área se ha enfocado en la clasificación de textos por su tema o tópico. Sin embargo, en los últimos años se ha puesto gran interés en la tarea de clasificación no temática. Algunos ejemplos de esta última son la detección de plagio, la atribución de autoría, la clasificación por género y la clasificación de opiniones. Este trabajo de tesis se enfoca en la tarea de clasificación de opiniones, específicamente se aborda el problema de determinar la polaridad de opiniones, es decir, clasificar aquellas opiniones que expresan algo a favor de aquellas que expresan algo en contra, a nivel de oración, bajo un enfoque de Aprendizaje Computacional utilizando características léxicas. Cabe mencionar que una de las contribuciones de este trabajo es la caracterización de opiniones, necesaria para su clasificación automática. Además, en la actualidad, no existe un corpus etiquetado en idioma español, lo que dificulta el proceso de aprendizaje. Es por ello que en este trabajo se dan los primeros pasos para la creación de este corpus. Específicamente se propone un enfoque de aprendizaje semisupervisado de clasificación de textos de opinión, disminuyendo la necesidad de un gran corpus ya etiquetado.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2009-02
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Araujo-Arredondo N.P.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Appears in Collections:Maestría en Ciencias Computacionales

Upload archives


File SizeFormat 
AraujoANP.pdf351.63 kBAdobe PDFView/Open