Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/545
Métodos basados en patrones léxicos para la extracción de información | |
CLAUDIA PATRICIA ORTA PALACIOS | |
LUIS VILLASEÑOR PINEDA MANUEL MONTES Y GOMEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Pattern clustering Pattern matching Information extraction | |
Current information technologies have made possible the storage and access
to large digital document collections, but they still do not facilitate the analysis
of such amounts of information. In order to satisfy this requirement several
text processing tasks have recently emerged. In particular, information
extraction aims to automatically populate databases by identifying and
collecting information pieces from free text documents.
The research works on information extraction are mainly based on the
discovery and application of extraction patterns. These works can be
classified in two main kinds: supervised and not supervised approaches. The
formers make use of labeled texts at the training phase, whereas the later
ones avoid the use of such kind of documents but require the manually
selection and tagging of the discovered extraction patterns. In both cases it is
common to employ syntactic patterns, which make current approaches highly
language dependent.
This work proposes two different not supervised methods for information
extraction. The main difference of these proposals compared with previous
approaches is that they are exclusively based on lexical information, and
therefore they are easily to adapt to different languages. In addition, the
proposed methods incorporate some mechanisms that facilitate the manual
selection and tagging of extraction patterns, making them more easily to
move to different domains. The experimental results show that the success of
these methods depends on the number of used lexical patterns.
Las tecnologías de información actuales han hecho posible el almacenamiento y acceso a grandes colecciones de documentos digitales, pero estas tecnologías aún no han facilitado el análisis de tales cantidades de información. Para satisfacer este requerimiento han surgido recientemente varias tareas de procesamiento de texto. En particular, la extracción de información tiene como fin poblar automáticamente bases de datos mediante la identificación y recolección de piezas de información de documentos de textos libres. Los trabajos de investigación sobre extracción de información se basan principalmente en el descubrimiento y aplicación de patrones de extracción. Estos trabajos pueden ser clasificados en dos clases principales: métodos supervisados y no-supervisados. El primero hace uso de textos etiquetados en la fase de entrenamiento, mientras que el último evita el uso de tales clases de documentos pero requiere la selección manual y el etiquetamiento de los patrones de extracción descubiertos. En ambos casos es común emplear patrones sintácticos, los cuales crean métodos actuales altamente dependientes del lenguaje. Este trabajo propone dos diferentes métodos supervisados para la extracción de información. La principal diferencia de dichas propuestas en comparación con métodos previos es que éstas se basan exclusivamente en información léxica y por lo tanto, son fácilmente adaptables a diferentes lenguajes. Además, los métodos propuestos incorporan algunos mecanismos que facilitan la selección y el etiquetamiento manual de los patrones de extracción, haciéndolos muchos más fáciles de mover a diferentes dominios. Los resultados experimentales muestran que el éxito de estos métodos depende del número de patrones léxicos utilizados | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2008 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Orta-Palacios CP | |
BANCOS DE DATOS | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
OrtaPCP.pdf | 570.88 kB | Adobe PDF | Visualizar/Abrir |