Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/623
Extracción de respuestas mediante aprendizaje automático utilizando atributos léxicos | |
ANTONIO JUAREZ GONZALEZ | |
MANUEL MONTES Y GOMEZ LUIS VILLASEÑOR PINEDA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Text analysis Computational linguistics Learning (artificial intelligence) | |
Nowadays there is a huge amount of information available in the Web as well as in
private document collections. This situation has heightened the need for automatic
techniques to facilitate the access to all this information. In particular, in the field
of automatic text processing there is a new research area called Question Answering
(QA), which addresses the problem of specific information retrieval. The purpose
of a QA system is to give answers to questions formulated in natural language. A
QA system has usually three modules: one for question processing, other for passage
retrieval, and another for answer extraction. Current developments are still unsatisfactory for treating factual questions, especially in Spanish language. The main cause
of problem lies in the answer extraction module, due to the difficulty of finding an
appropriate way to combine the lexical, syntactic and semantic attributes of the pairs
question-answer. Handmade rules and heuristic methods are the most used approaches to combine such attributes. Unfortunately, these strategies are not viable when
there are a lot of attributes. This thesis addresses the problem of answer extraction for
factual questions stated in Spanish language. The proposed method uses a machine
learning approach that automatically combines a set of 17 attributes at lexical level.
With this method we avoid the manual construction of extraction rules and heuristics
created by an intensive analysis of large question-answer sets. Experimental results
show that the proposed method may achieved a precision as high as 77% working
under ideal conditions (when receives a perfect set of passages), and that it reaches
an effectiveness of 39.86% when it was used as part of a complete QA system.
Dada la inmensa información presente en la Web y en colecciones privadas de documentos, surge la necesidad de técnicas que permitan extraer información relevante. Dentro del Tratamiento Automático de Texto, el área llamada Búsqueda de Respuestas (en Inglés Question Answering), aborda el problema de recuperación de información específica al responder preguntas sencillas formuladas en lenguaje cotidiano. Un sistema de BR (Búsqueda de Respuestas) se compone típicamente de tres módulos: Procesamiento de la Pregunta, Recuperación de Pasajes y Extracción de la Respuesta. Hoy en día, los esfuerzos realizados en los sistemas de BR son insuficientes para tratar preguntas de tipo factual, sobre todo para el idioma Español. Una de las causas del bajo desempeño de los sistemas actuales se encuentra en el módulo de Extracción de la Respuesta, debido a la dificultad que representa combinar las características léxicas, sintácticas o semánticas de los pares pregunta-respuesta. Combinaciones lineales o métodos heurísticos son las formas de combinación más utilizadas, lo cual es poco viable cuando el número de características consideradas es alto. El presente trabajo de tesis aborda el problema de Extracción de la Respuesta para preguntas factuales en idioma Español, bajo un enfoque de Aprendizaje Automático utilizando 17 características léxicas. La importancia de la propuesta radica en aprovechar sólo características léxicas de la pregunta y la respuesta, para entrenar un clasificador que automáticamente combine dichas características y determine cuál es la respuesta correcta. Esto evita el trabajo de generar de manera manual, combinaciones lineales o métodos heurísticos observando grandes conjuntos de instancias pregunta-respuesta. Resultados experimentales muestran una efectividad del módulo de extracción desarrollado de hasta un 77 %, considerando un desempeño perfecto en los dos primeros módulos, y del 39.86% al utilizarlo dentro un sistema de BR. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2007-01 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Juárez-González A | |
LENGUAJES DE PROGRAMACIÓN | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
JuarezGA.pdf | 1.47 MB | Adobe PDF | Visualizar/Abrir |