Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/755
Atribución de autoría utilizando distintos tipos de características a través de una nueva representación
ADRIAN PASTOR LOPEZ MONROY
MANUEL MONTES Y GOMEZ
LUIS VILLASEÑOR PINEDA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Attribute grammars
Computer applications
Classification
Automatic programming
Assembly languajes
Nowadays, the huge amount of information available in the Web is constantly growing. Much of this information is in plain text written by users under different contexts, for example: social networks, forums, blogs, emails, etc. In this regard, it is important to have automated tools in order to assist the analysis of such information. One situation that has gained interest in recent years is the Authorship Attribution (AA) task. In general the main goal of AA is to identify automatically documents belonging to one or more authors. For example, building methods to deal with situations such as: terrorist message verification, spam filtering, copyright disputes, etc. Currently, different algorithms and strategies for addressing AA have been proposed; especially machine learning approaches. The idea of this approach is to build classifiers using a set of training documents. Unfortunately, the available document set is not always ideal, the latter is because there are scenarios where the instances are few, imbalanced, or both. Considering the above situations, textual features that best represent the style of each author and documents representation, play a key role in the performance of machine learning algorithms. This thesis proposes an alternative method for AA that takes advantage of using different types of attributes, through a new representation. It follows the idea that different types of attributes (e.g., character n-grams, punctuation marks) provide different perspectives of the style of documents and therefore of authors. In particular, we propose: i) using sets of attributes that can retain the style of the authors, ii) characterizing textual features with a representation that considers the relationships between documents and authors, and iii) proposing alternatives to integrate representations of different types of attributes in a classification model. The evaluation is performed on the c50 corpus, which has been used in different AA works. In our experiments we measure the classification accuracy, considering scenarios with few training data and imbalanced classes for a set of authors. The experimental results showed that the proposed method and our representation is a good alternative to AA, even in settings where the training data is limited or imbalanced.
Hoy en día la inmensa cantidad de información disponible a través de internet se encuentra en constante crecimiento. Gran parte de ésta es texto escrito por usuarios bajo distintos contextos, por ejemplo: redes sociales, foros, bitácoras, correos electrónicos, etc. En este sentido, surge la necesidad de contar con mecanismos automáticos para facilitar el análisis de dicha información. Una de las situaciones que en recientes años ha estado ganando interés es la Atribución de Autoría (AA). De forma general, la AA consiste en lograr identificar automáticamente los documentos de uno o más autores. Por ejemplo, existe interés en el desarrollo de métodos para hacer frente a situaciones de: verificación de mensajes terroristas, filtrado de spam, disputas por derechos de autor, etc. Hoy en día se han propuesto diferentes algoritmos y estrategias para llevar a cabo la AA; en especial enfoques de aprendizaje automático. Con este enfoque se pretende construir clasificadores utilizando un conjunto de documentos de entrenamiento. Desafortunadamente, no siempre se tiene disponible un conjunto de documentos ideal, es decir existen escenarios donde los datos son escasos o desbalanceados. Considerando las situaciones anteriores, los atributos textuales que mejor representen el estilo de cada autor, así como la representación de los documentos, juegan un papel fundamental para el buen desempeño de los algoritmos de aprendizaje. En esta tesis se propone un método alternativo para AA que aproveche el uso de distintos tipos de atributos, por medio de una nueva representación. Se sigue la idea de que distintos tipos de atributos (e.g., n-gramas de caracteres, signos de puntuación) proporcionan distintas perspectivas del estilo de los documentos y por consiguiente de los autores. En particular, proponemos: i) utilizar conjuntos de atributos que puedan retener el estilo de los autores, ii) caracterizarlos con una representación que considere las relaciones entre documentos y autores, y iii) proponer alternativas para la integración de la representación de distintos tipos de atributos en un modelo de clasificación. La evaluación se realiza sobre el corpus c50, el cual ha sido utilizado en distintos trabajos de AA. Durante la evaluación utilizamos la exactitud para medir la clasificación, considerando escenarios con pocos datos de entrenamiento y desbalanceados.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2012
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Lopez-Monroy A.P.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
LopezMAP.pdf735.98 kBAdobe PDFVisualizar/Abrir