Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/587
Clasificación automática de textos considerando el estilo de redacción | |
ROSA MARIA COYOTL MORALES | |
LUIS VILLASEÑOR PINEDA MANUEL MONTES Y GOMEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Machine learning Classification Information analysis | |
Nowadays there is a large amount of information available in digital format.
All this information is useless if we do not have adequate mechanisms for its access,
classification and analysis. In particular, text classification concerns the automatic
assignment of free text documents to one or more predefined categories. Most work
in this field focuses on categorizing documents by their topic. However, a document
can be also classified by its written style (non-topic classification). Basically, nontopic
classification considers tasks such as sentiment classification, plagiarism
detection, authorship attribution, genre classification, etc. The main objective of this
thesis is to propose methods for determining the lexical features that allow
characterizing the written style of documents. The proposed methods consider the
characterization of documents by sets of word sequences that combine content and
functional words. The usefulness of this kind of characterization is demonstrated by
its application in the tasks of authorship attribution and genre classification. En la actualidad existe una inmensa cantidad de información disponible en formato electrónico. Toda esta información es improductiva si no se dispone con mecanismos apropiados para su acceso, clasificación y análisis. En particular, la clasificación automática de textos consiste en colocar un documento dentro de un grupo de clases previamente definidas. La mayor parte del trabajo en esta área se ha enfocado en la clasificación de textos por su tema o tópico. Sin embargo, un documento también puede ser clasificado de acuerdo a su estilo (clasificación notemática). En la clasificación no-temática se consideran tareas tales como la clasificación de opiniones, la detección de plagio, la atribución de autoría, la clasificación por género, etc. El objetivo principal de esta tesis es proponer métodos que permitan determinar los rasgos léxicos que hacen posible caracterizar el estilo de escritura de los documentos. Los métodos descritos consideran la caracterización de los documentos a través un conjunto de secuencias de palabras que combinan tanto palabras de contenido como funcionales. La utilidad de este tipo de caracterización se demuestra mediante su aplicación en las tareas de atribución de autoría y clasificación por género. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2007 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Coyotl-Morales RM | |
SISTEMAS DE RECONOCIMIENTO DE CARACTERES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
CoyotlMRM.pdf | 658.89 kB | Adobe PDF | Visualizar/Abrir |