Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/639
Descubrimiento automático de hipónimos a partir de texto no estructurado
ROSA MARIA ORTEGA MENDOZA
LUIS VILLASEÑOR PINEDA
MANUEL MONTES Y GOMEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Natural languages
Text analysis
Computer applications
Nowadays, thanks to the Web, we dispose of a huge number of electronic texts. Given the availability and easy access to these texts, it has emerged an interest for manipulating them in an automatic way with the aim to extract prominent information. The extracted information can be used to create or to enrich lexical resources. In general, this type of resources contains knowledge about the language’s words. Typically, it proposes methods that extract semantic relationships from texts for building automatically these resources. The present investigation work is located inside the automatic construction of lexical resources. In particular, this work is focused on the construction of a hyponyms catalog. Basically, the proposed method is based on the use of patterns to treat the automatic extraction of hyponyms in non-structured texts Traditionally, methods that use patterns to solve the problem involve morphological or syntactic information in the patterns’ definition. In contrast with these methods, we work without this type of information. Therefore, the patterns are defined exclusively at a lexical level. This way, the proposed method achieves language independence and domain independence. In addition, the use of linguistic tools characteristic of a language is avoided (for example: taggers, syntactic analyzers, etc.). However, the extraction of incorrect information is favored. The proposed method confronts this inconvenience by applying two approaches in order to estimate the confidence of the extracted hyponym-hypernym couples. Finally, for showing the utility of the proposed method we evaluated the precision of the obtained catalog. The achieved results are encouraging and they show the feasibility of using lexical patterns to extract automatically hyponyms from non-structured texts.
Hoy en día, gracias a la Web, disponemos de una inmensa cantidad de textos electrónicos. Dada la disponibilidad y el fácil acceso a estos textos, ha surgido el interés por manipularlos de manera automática para extraer información relevante. La información extraída puede ser aprovechada para crear o enriquecer recursos léxicos. Generalmente, este tipo de recursos contiene conocimiento acerca de las palabras de un idioma. Típicamente, para construir automáticamente estos recursos se proponen métodos que extraen relaciones semánticas a partir del texto. El presente trabajo de investigación se ubica dentro de la construcción automática de recursos léxicos. En particular, se centra en la construcción de un catálogo de hipónimos. Básicamente, el método propuesto se basa en el uso de patrones para abordar la extracción automática de hipónimos en textos no estructurados. Tradicionalmente, los métodos que usan patrones para resolver el problema tienden a incluir información morfológica o sintáctica en la definición de los patrones. Sin embargo, en este trabajo se evita el uso de este tipo de información. Por lo tanto, los patrones se encuentran definidos en un nivel exclusivamente léxico. Esto propicia que el método sea independiente tanto del idioma como del dominio, pues se evita el uso de herramientas lingüísticas propias de un idioma (por ejemplo: etiquetadores, analizadores sintácticos, etc.); pero se favorece la extracción de información incorrecta (parejas de palabras que no representan una relación de hiponimia). Para enfrentar este inconveniente, se proponen dos enfoques que permiten estimar la confianza de las parejas hipónimo-hiperónimo extraídas. Finalmente, para mostrar la utilidad del método propuesto se evaluó la precisión del catálogo de hipónimos resultante. Los resultados obtenidos son alentadores y muestran la factibilidad de usar patrones léxicos para extraer automáticamente hipónimos a partir de textos no estructurados.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2007-12
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Ortega-Mendoza RM
SISTEMAS DE RECONOCIMIENTO DE CARACTERES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
OrtegaMRM.pdf1 MBAdobe PDFVisualizar/Abrir