Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/545
Métodos basados en patrones léxicos para la extracción de información
CLAUDIA PATRICIA ORTA PALACIOS
LUIS VILLASEÑOR PINEDA
MANUEL MONTES Y GOMEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Pattern clustering
Pattern matching
Information extraction
Current information technologies have made possible the storage and access to large digital document collections, but they still do not facilitate the analysis of such amounts of information. In order to satisfy this requirement several text processing tasks have recently emerged. In particular, information extraction aims to automatically populate databases by identifying and collecting information pieces from free text documents. The research works on information extraction are mainly based on the discovery and application of extraction patterns. These works can be classified in two main kinds: supervised and not supervised approaches. The formers make use of labeled texts at the training phase, whereas the later ones avoid the use of such kind of documents but require the manually selection and tagging of the discovered extraction patterns. In both cases it is common to employ syntactic patterns, which make current approaches highly language dependent. This work proposes two different not supervised methods for information extraction. The main difference of these proposals compared with previous approaches is that they are exclusively based on lexical information, and therefore they are easily to adapt to different languages. In addition, the proposed methods incorporate some mechanisms that facilitate the manual selection and tagging of extraction patterns, making them more easily to move to different domains. The experimental results show that the success of these methods depends on the number of used lexical patterns.
Las tecnologías de información actuales han hecho posible el almacenamiento y acceso a grandes colecciones de documentos digitales, pero estas tecnologías aún no han facilitado el análisis de tales cantidades de información. Para satisfacer este requerimiento han surgido recientemente varias tareas de procesamiento de texto. En particular, la extracción de información tiene como fin poblar automáticamente bases de datos mediante la identificación y recolección de piezas de información de documentos de textos libres. Los trabajos de investigación sobre extracción de información se basan principalmente en el descubrimiento y aplicación de patrones de extracción. Estos trabajos pueden ser clasificados en dos clases principales: métodos supervisados y no-supervisados. El primero hace uso de textos etiquetados en la fase de entrenamiento, mientras que el último evita el uso de tales clases de documentos pero requiere la selección manual y el etiquetamiento de los patrones de extracción descubiertos. En ambos casos es común emplear patrones sintácticos, los cuales crean métodos actuales altamente dependientes del lenguaje. Este trabajo propone dos diferentes métodos supervisados para la extracción de información. La principal diferencia de dichas propuestas en comparación con métodos previos es que éstas se basan exclusivamente en información léxica y por lo tanto, son fácilmente adaptables a diferentes lenguajes. Además, los métodos propuestos incorporan algunos mecanismos que facilitan la selección y el etiquetamiento manual de los patrones de extracción, haciéndolos muchos más fáciles de mover a diferentes dominios. Los resultados experimentales muestran que el éxito de estos métodos depende del número de patrones léxicos utilizados
Instituto Nacional de Astrofísica, Óptica y Electrónica
2008
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Orta-Palacios CP
BANCOS DE DATOS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
OrtaPCP.pdf570.88 kBAdobe PDFVisualizar/Abrir