Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/670
Generación automática de resúmenes de múltiples documentos
ESAU VILLATORO TELLO
LUIS VILLASEÑOR PINEDA
MANUEL MONTES Y GOMEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Cluster tools
Computational linguistics
Text analysis
In this era, where electronic text information is exponentially growing and where time is a critical resource, it has become virtually impossible for any user to browse or read large numbers of individual documents. It is therefore important to explore methods of allowing users to locate and browse information quickly within collections of documents. Automatic text summarization of multiple documents fulfills such information seeking goals by providing a method for the user to quickly view highlights and/or relevant portions of document collections. Now days, there has been little work with multi-document summarization, although single document summarization has been subject of focus in the last few years. Multi-document summarization differs from single document summarization in that the issues of compression levels, management of redundant information and the method used for the sentence selection are critical in the formation of useful summaries. If multi-document summarization needs to be useful across subject areas and languages, it must be relatively independent of natural language understanding (i.e., scarce use of linguistic resources). The proposed approach to solve the task of multi-document summarization contains two main modules. The first one, a module based on machine learning techniques has as a main goal to identify an extract relevant sentences. The main characteristic of the proposed classifier is that uses word sequences as features to represent sentences. The second module consists of a clustering process, the main goal of this is to organize the information extracted by the classifier and find the main sub-themes contained in the collection, this module also deals with the problem of redundant information and the compression levels. The main goal of the proposed approach is to reduce the portability problems of current multi-document summarization systems. Finally, in order to show the usefulness of the proposed scheme, a comparison between our proposal and two other systems was made. The evaluations showed that the proposal is useful for the creation of multi-document summaries of high quality and allows the creation of summaries that are very similar to those created by humans.
En la era actual en la que vivimos, donde la información en forma textual disponible en medios electronicos crece de manera exponencial y donde el tiempo es un recurso crítico, se ha vuelto virtualmente imposible para cualquier persona, el navegar y leer toda esta información disponible. Es por esta razón, que surge la importancia de desarrollar métodos que permitan a los usuarios buscar y localizar de una manera rápida, información contenida dentro de grandes colecciones de documentos. La generación automática de resúmenes de múltiples documentos, cumple con estos objetivos al proporcionar a los usuarios un método que permite observar la información importante y/o porciones de información relevante, contenida dentro de una colección de documentos. Actualmente los sistemas de generación de resúmenes de múltiples documentos se encuentran muy poco desarrollados, sin embargo, a la tarea de generar el resumen de un documento se le ha puesto gran interés en los últimos años. La tarea de generar resúmenes de múltiples documentos se diferencia de la tarea de generar el resumen de un documento en: los niveles de compresión que deben ser manejados, la aparición de información redundante y la forma de seleccionar las porciones de información relevantes, juega un papel crítico al momento de crear un resumen de calidad. Si se desea que el sistema de generación de resúmenes sea útil en diferentes dominios temáticos e incluso diferentes idiomas, es necesario contar con técnicas que no hagan uso de costosos recursos lingüísticos. La arquitectura que se propone para solucionar el problema de generar el resumen de múltiples documentos, se compone de dos grandes módulos. El primero, basado en técnicas de aprendizaje automático, que tiene por objetivo hacer la adecuada selección de la información relevante. La característica principal de este módulo es el uso de secuencias de palabras para representar las oraciones de los documentos. El segundo módulo, se compone de un algoritmo de agrupamiento, el cual tiene como objetivo principal organizar la información por sub-temas, eliminar redundancias y controlar los niveles de compresión. El propósito de este enfoque es eliminar los problemas de portabilidad que actualmente presentan este tipo de sistemas. Finalmente, para mostrar lo útil de la arquitectura propuesta, se compara el desempeño de ésta contra el obtenido por otros dos sistemas.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2007-02
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Villatoro-Tello E
SISTEMAS DE RECONOCIMIENTO DE CARACTERES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
VillatoroTE.pdf853.35 kBAdobe PDFVisualizar/Abrir