Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/670
Generación automática de resúmenes de múltiples documentos | |
ESAU VILLATORO TELLO | |
LUIS VILLASEÑOR PINEDA MANUEL MONTES Y GOMEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Cluster tools Computational linguistics Text analysis | |
In this era, where electronic text information is exponentially growing and where
time is a critical resource, it has become virtually impossible for any user to browse
or read large numbers of individual documents. It is therefore important to explore
methods of allowing users to locate and browse information quickly within collections
of documents. Automatic text summarization of multiple documents fulfills such information seeking goals by providing a method for the user to quickly view highlights
and/or relevant portions of document collections. Now days, there has been little
work with multi-document summarization, although single document summarization
has been subject of focus in the last few years.
Multi-document summarization differs from single document summarization in
that the issues of compression levels, management of redundant information and the
method used for the sentence selection are critical in the formation of useful summaries. If multi-document summarization needs to be useful across subject areas and
languages, it must be relatively independent of natural language understanding (i.e.,
scarce use of linguistic resources).
The proposed approach to solve the task of multi-document summarization contains two main modules. The first one, a module based on machine learning techniques
has as a main goal to identify an extract relevant sentences. The main characteristic of
the proposed classifier is that uses word sequences as features to represent sentences.
The second module consists of a clustering process, the main goal of this is to organize
the information extracted by the classifier and find the main sub-themes contained
in the collection, this module also deals with the problem of redundant information
and the compression levels.
The main goal of the proposed approach is to reduce the portability problems of
current multi-document summarization systems. Finally, in order to show the usefulness of the proposed scheme, a comparison between our proposal and two other
systems was made. The evaluations showed that the proposal is useful for the creation
of multi-document summaries of high quality and allows the creation of summaries
that are very similar to those created by humans.
En la era actual en la que vivimos, donde la información en forma textual disponible en medios electronicos crece de manera exponencial y donde el tiempo es un recurso crítico, se ha vuelto virtualmente imposible para cualquier persona, el navegar y leer toda esta información disponible. Es por esta razón, que surge la importancia de desarrollar métodos que permitan a los usuarios buscar y localizar de una manera rápida, información contenida dentro de grandes colecciones de documentos. La generación automática de resúmenes de múltiples documentos, cumple con estos objetivos al proporcionar a los usuarios un método que permite observar la información importante y/o porciones de información relevante, contenida dentro de una colección de documentos. Actualmente los sistemas de generación de resúmenes de múltiples documentos se encuentran muy poco desarrollados, sin embargo, a la tarea de generar el resumen de un documento se le ha puesto gran interés en los últimos años. La tarea de generar resúmenes de múltiples documentos se diferencia de la tarea de generar el resumen de un documento en: los niveles de compresión que deben ser manejados, la aparición de información redundante y la forma de seleccionar las porciones de información relevantes, juega un papel crítico al momento de crear un resumen de calidad. Si se desea que el sistema de generación de resúmenes sea útil en diferentes dominios temáticos e incluso diferentes idiomas, es necesario contar con técnicas que no hagan uso de costosos recursos lingüísticos. La arquitectura que se propone para solucionar el problema de generar el resumen de múltiples documentos, se compone de dos grandes módulos. El primero, basado en técnicas de aprendizaje automático, que tiene por objetivo hacer la adecuada selección de la información relevante. La característica principal de este módulo es el uso de secuencias de palabras para representar las oraciones de los documentos. El segundo módulo, se compone de un algoritmo de agrupamiento, el cual tiene como objetivo principal organizar la información por sub-temas, eliminar redundancias y controlar los niveles de compresión. El propósito de este enfoque es eliminar los problemas de portabilidad que actualmente presentan este tipo de sistemas. Finalmente, para mostrar lo útil de la arquitectura propuesta, se compara el desempeño de ésta contra el obtenido por otros dos sistemas. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2007-02 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Villatoro-Tello E | |
SISTEMAS DE RECONOCIMIENTO DE CARACTERES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
VillatoroTE.pdf | 853.35 kB | Adobe PDF | Visualizar/Abrir |