Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/623
Extracción de respuestas mediante aprendizaje automático utilizando atributos léxicos
ANTONIO JUAREZ GONZALEZ
MANUEL MONTES Y GOMEZ
LUIS VILLASEÑOR PINEDA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Text analysis
Computational linguistics
Learning (artificial intelligence)
Nowadays there is a huge amount of information available in the Web as well as in private document collections. This situation has heightened the need for automatic techniques to facilitate the access to all this information. In particular, in the field of automatic text processing there is a new research area called Question Answering (QA), which addresses the problem of specific information retrieval. The purpose of a QA system is to give answers to questions formulated in natural language. A QA system has usually three modules: one for question processing, other for passage retrieval, and another for answer extraction. Current developments are still unsatisfactory for treating factual questions, especially in Spanish language. The main cause of problem lies in the answer extraction module, due to the difficulty of finding an appropriate way to combine the lexical, syntactic and semantic attributes of the pairs question-answer. Handmade rules and heuristic methods are the most used approaches to combine such attributes. Unfortunately, these strategies are not viable when there are a lot of attributes. This thesis addresses the problem of answer extraction for factual questions stated in Spanish language. The proposed method uses a machine learning approach that automatically combines a set of 17 attributes at lexical level. With this method we avoid the manual construction of extraction rules and heuristics created by an intensive analysis of large question-answer sets. Experimental results show that the proposed method may achieved a precision as high as 77% working under ideal conditions (when receives a perfect set of passages), and that it reaches an effectiveness of 39.86% when it was used as part of a complete QA system.
Dada la inmensa información presente en la Web y en colecciones privadas de documentos, surge la necesidad de técnicas que permitan extraer información relevante. Dentro del Tratamiento Automático de Texto, el área llamada Búsqueda de Respuestas (en Inglés Question Answering), aborda el problema de recuperación de información específica al responder preguntas sencillas formuladas en lenguaje cotidiano. Un sistema de BR (Búsqueda de Respuestas) se compone típicamente de tres módulos: Procesamiento de la Pregunta, Recuperación de Pasajes y Extracción de la Respuesta. Hoy en día, los esfuerzos realizados en los sistemas de BR son insuficientes para tratar preguntas de tipo factual, sobre todo para el idioma Español. Una de las causas del bajo desempeño de los sistemas actuales se encuentra en el módulo de Extracción de la Respuesta, debido a la dificultad que representa combinar las características léxicas, sintácticas o semánticas de los pares pregunta-respuesta. Combinaciones lineales o métodos heurísticos son las formas de combinación más utilizadas, lo cual es poco viable cuando el número de características consideradas es alto. El presente trabajo de tesis aborda el problema de Extracción de la Respuesta para preguntas factuales en idioma Español, bajo un enfoque de Aprendizaje Automático utilizando 17 características léxicas. La importancia de la propuesta radica en aprovechar sólo características léxicas de la pregunta y la respuesta, para entrenar un clasificador que automáticamente combine dichas características y determine cuál es la respuesta correcta. Esto evita el trabajo de generar de manera manual, combinaciones lineales o métodos heurísticos observando grandes conjuntos de instancias pregunta-respuesta. Resultados experimentales muestran una efectividad del módulo de extracción desarrollado de hasta un 77 %, considerando un desempeño perfecto en los dos primeros módulos, y del 39.86% al utilizarlo dentro un sistema de BR.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2007-01
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Juárez-González A
LENGUAJES DE PROGRAMACIÓN
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
JuarezGA.pdf1.47 MBAdobe PDFVisualizar/Abrir