Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/564
Clasificación de entidades nombradas utilizando información global
CAROLINA ROCIO SANCHEZ PEREZ
MANUEL MONTES Y GOMEZ
AURELIO LOPEZ LOPEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Classification
Machine insulation
Trees (Mathematics)
The recognize and classify the names of people, locations, organizations, or quantities, is an important step, and in most cases, indispensable in different applications of Natural Language Processing (NLP), this process is the objective of the Named Entities Recognition (NER). The process of recognition of named entities is generally divided into two steps: the delimitation of named entities (NE) and their subsequent classification, in this research work we will focus on the latter. In most of the applications, classification is solved based in a local context, these methods don´t exploit the global information provided by various references in order to achieve a better performance in the classification task. This method of using global information information of a document is what is proposed in this research, using information from the context of the NE references and not only the reference by itself. This paper presents a different approach to the traditional, by integrating two steps, the NEs linking and refining of the initial classification. The purpose of this approach is to use as much information as possible, available in the different references to the ENs and support a second classification. The process of linking its based in measure the similarity between NEs using different measures to determine a link between ENS. As for the refinement of classification, vote-based approaches and decision trees approaches are used, the first based on the theory of assemblages by combining classifications obtained in a first step, the latter based on decision trees to integrate information from different references and chains like attributes. The experimental results with different methods do not present a substantial improvement with regard to the initial classification obtained, however, represent a base to analyze these approaches with different domains and scenarios, where it is believed could make more substantial improvements.
El reconocer y clasificar nombres de personas, lugares, organizaciones o cantidades, es un paso importante, y en la mayoría de los casos indispensable en distintas aplicaciones del Procesamiento del Lenguaje Natural (PLN), este proceso es el objetivo del Reconocimiento de Entidades Nombradas (REN). El proceso de reconocimiento de entidades nombradas se divide generalmente en dos pasos: la delimitación de entidades nombradas (ENs) y su posterior clasificación, en este trabajo de investigación nos enfocaremos en esta última. En la mayoría de las aplicaciones, la clasificación se resuelve basándose en un contexto local, estos métodos no aprovechan la información global que brindan las distintas menciones de una EN para alcanzar un mejor desempeño en la tarea de clasificación. Este método de utilizar la información global de un documento es el que se propone en este trabajo de investigación, utilizando la información del contexto de las referencias de una EN y no sólo la referencia en si. En este trabajo se presenta un enfoque diferente al tradicional mediante la integración de dos pasos, la vinculación de ENs y el refinamiento de la clasificación inicial. El propósito de esto es utilizar la mayor cantidad de información posible, disponible en las distintas menciones de las ENs y apoyar una segunda clasificación. El proceso de vinculación se basa en medir la similitud entre ENs utilizando distintas medidas para determinar un vinculo entre ENs. En cuanto al refinamiento de clasificación se utilizan enfoques basados en voto y basados en árboles de decisión, los primeros basados en la teoría de ensambles al combinar clasificaciones obtenidas en un primer paso; los segundos basados en árboles de decisión para integrar la información de las distintas menciones y las cadenas como atributos. Los resultados experimentales con los distintos métodos no presentan una mejora sustancial con respecto a la clasificación inicial obtenida, sin embargo, se considera que en un dominio más específico los métodos propuestos, como en el caso de los métodos de voto, tendrán una influencia positiva con respecto a la clasificación inicial; además de que este trabajo representa una pauta para analizar el impacto de la información global en distintos dominios y escenarios para el idioma español.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2008-11
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Sánchez-Pérez CR
LENGUAJES ALGORÍTMICOS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
SanchezPCR.pdf907.87 kBAdobe PDFVisualizar/Abrir