Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/639
Descubrimiento automático de hipónimos a partir de texto no estructurado | |
ROSA MARIA ORTEGA MENDOZA | |
LUIS VILLASEÑOR PINEDA MANUEL MONTES Y GOMEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Natural languages Text analysis Computer applications | |
Nowadays, thanks to the Web, we dispose of a huge number of electronic
texts. Given the availability and easy access to these texts, it has emerged an
interest for manipulating them in an automatic way with the aim to extract
prominent information. The extracted information can be used to create or to
enrich lexical resources. In general, this type of resources contains
knowledge about the language’s words. Typically, it proposes methods that
extract semantic relationships from texts for building automatically these
resources.
The present investigation work is located inside the automatic construction of
lexical resources. In particular, this work is focused on the construction of a
hyponyms catalog. Basically, the proposed method is based on the use of
patterns to treat the automatic extraction of hyponyms in non-structured texts
Traditionally, methods that use patterns to solve the problem involve
morphological or syntactic information in the patterns’ definition. In contrast
with these methods, we work without this type of information. Therefore, the
patterns are defined exclusively at a lexical level. This way, the proposed
method achieves language independence and domain independence. In
addition, the use of linguistic tools characteristic of a language is avoided (for
example: taggers, syntactic analyzers, etc.). However, the extraction of
incorrect information is favored. The proposed method confronts this
inconvenience by applying two approaches in order to estimate the
confidence of the extracted hyponym-hypernym couples.
Finally, for showing the utility of the proposed method we evaluated the
precision of the obtained catalog. The achieved results are encouraging and
they show the feasibility of using lexical patterns to extract automatically
hyponyms from non-structured texts. Hoy en día, gracias a la Web, disponemos de una inmensa cantidad de textos electrónicos. Dada la disponibilidad y el fácil acceso a estos textos, ha surgido el interés por manipularlos de manera automática para extraer información relevante. La información extraída puede ser aprovechada para crear o enriquecer recursos léxicos. Generalmente, este tipo de recursos contiene conocimiento acerca de las palabras de un idioma. Típicamente, para construir automáticamente estos recursos se proponen métodos que extraen relaciones semánticas a partir del texto. El presente trabajo de investigación se ubica dentro de la construcción automática de recursos léxicos. En particular, se centra en la construcción de un catálogo de hipónimos. Básicamente, el método propuesto se basa en el uso de patrones para abordar la extracción automática de hipónimos en textos no estructurados. Tradicionalmente, los métodos que usan patrones para resolver el problema tienden a incluir información morfológica o sintáctica en la definición de los patrones. Sin embargo, en este trabajo se evita el uso de este tipo de información. Por lo tanto, los patrones se encuentran definidos en un nivel exclusivamente léxico. Esto propicia que el método sea independiente tanto del idioma como del dominio, pues se evita el uso de herramientas lingüísticas propias de un idioma (por ejemplo: etiquetadores, analizadores sintácticos, etc.); pero se favorece la extracción de información incorrecta (parejas de palabras que no representan una relación de hiponimia). Para enfrentar este inconveniente, se proponen dos enfoques que permiten estimar la confianza de las parejas hipónimo-hiperónimo extraídas. Finalmente, para mostrar la utilidad del método propuesto se evaluó la precisión del catálogo de hipónimos resultante. Los resultados obtenidos son alentadores y muestran la factibilidad de usar patrones léxicos para extraer automáticamente hipónimos a partir de textos no estructurados. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2007-12 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Ortega-Mendoza RM | |
SISTEMAS DE RECONOCIMIENTO DE CARACTERES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
OrtegaMRM.pdf | 1 MB | Adobe PDF | Visualizar/Abrir |