Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/587
Clasificación automática de textos considerando el estilo de redacción
ROSA MARIA COYOTL MORALES
LUIS VILLASEÑOR PINEDA
MANUEL MONTES Y GOMEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Machine learning
Classification
Information analysis
Nowadays there is a large amount of information available in digital format. All this information is useless if we do not have adequate mechanisms for its access, classification and analysis. In particular, text classification concerns the automatic assignment of free text documents to one or more predefined categories. Most work in this field focuses on categorizing documents by their topic. However, a document can be also classified by its written style (non-topic classification). Basically, nontopic classification considers tasks such as sentiment classification, plagiarism detection, authorship attribution, genre classification, etc. The main objective of this thesis is to propose methods for determining the lexical features that allow characterizing the written style of documents. The proposed methods consider the characterization of documents by sets of word sequences that combine content and functional words. The usefulness of this kind of characterization is demonstrated by its application in the tasks of authorship attribution and genre classification.
En la actualidad existe una inmensa cantidad de información disponible en formato electrónico. Toda esta información es improductiva si no se dispone con mecanismos apropiados para su acceso, clasificación y análisis. En particular, la clasificación automática de textos consiste en colocar un documento dentro de un grupo de clases previamente definidas. La mayor parte del trabajo en esta área se ha enfocado en la clasificación de textos por su tema o tópico. Sin embargo, un documento también puede ser clasificado de acuerdo a su estilo (clasificación notemática). En la clasificación no-temática se consideran tareas tales como la clasificación de opiniones, la detección de plagio, la atribución de autoría, la clasificación por género, etc. El objetivo principal de esta tesis es proponer métodos que permitan determinar los rasgos léxicos que hacen posible caracterizar el estilo de escritura de los documentos. Los métodos descritos consideran la caracterización de los documentos a través un conjunto de secuencias de palabras que combinan tanto palabras de contenido como funcionales. La utilidad de este tipo de caracterización se demuestra mediante su aplicación en las tareas de atribución de autoría y clasificación por género.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2007
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Coyotl-Morales RM
SISTEMAS DE RECONOCIMIENTO DE CARACTERES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
CoyotlMRM.pdf658.89 kBAdobe PDFVisualizar/Abrir