Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/564
Clasificación de entidades nombradas utilizando información global | |
CAROLINA ROCIO SANCHEZ PEREZ | |
MANUEL MONTES Y GOMEZ AURELIO LOPEZ LOPEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Classification Machine insulation Trees (Mathematics) | |
The recognize and classify the names of people, locations, organizations,
or quantities, is an important step, and in most cases, indispensable in different
applications of Natural Language Processing (NLP), this process is the objective
of the Named Entities Recognition (NER).
The process of recognition of named entities is generally divided into two
steps: the delimitation of named entities (NE) and their subsequent classification,
in this research work we will focus on the latter. In most of the applications,
classification is solved based in a local context, these methods don´t exploit the
global information provided by various references in order to achieve a better
performance in the classification task. This method of using global information
information of a document is what is proposed in this research, using information
from the context of the NE references and not only the reference by itself.
This paper presents a different approach to the traditional, by integrating two
steps, the NEs linking and refining of the initial classification. The purpose of
this approach is to use as much information as possible, available in the different
references to the ENs and support a second classification.
The process of linking its based in measure the similarity between NEs using
different measures to determine a link between ENS. As for the refinement
of classification, vote-based approaches and decision trees approaches are
used, the first based on the theory of assemblages by combining classifications
obtained in a first step, the latter based on decision trees to integrate information from different references and chains like attributes. The experimental
results with different methods do not present a substantial improvement with regard
to the initial classification obtained, however, represent a base to analyze
these approaches with different domains and scenarios, where it is believed
could make more substantial improvements.
El reconocer y clasificar nombres de personas, lugares, organizaciones o cantidades, es un paso importante, y en la mayoría de los casos indispensable en distintas aplicaciones del Procesamiento del Lenguaje Natural (PLN), este proceso es el objetivo del Reconocimiento de Entidades Nombradas (REN). El proceso de reconocimiento de entidades nombradas se divide generalmente en dos pasos: la delimitación de entidades nombradas (ENs) y su posterior clasificación, en este trabajo de investigación nos enfocaremos en esta última. En la mayoría de las aplicaciones, la clasificación se resuelve basándose en un contexto local, estos métodos no aprovechan la información global que brindan las distintas menciones de una EN para alcanzar un mejor desempeño en la tarea de clasificación. Este método de utilizar la información global de un documento es el que se propone en este trabajo de investigación, utilizando la información del contexto de las referencias de una EN y no sólo la referencia en si. En este trabajo se presenta un enfoque diferente al tradicional mediante la integración de dos pasos, la vinculación de ENs y el refinamiento de la clasificación inicial. El propósito de esto es utilizar la mayor cantidad de información posible, disponible en las distintas menciones de las ENs y apoyar una segunda clasificación. El proceso de vinculación se basa en medir la similitud entre ENs utilizando distintas medidas para determinar un vinculo entre ENs. En cuanto al refinamiento de clasificación se utilizan enfoques basados en voto y basados en árboles de decisión, los primeros basados en la teoría de ensambles al combinar clasificaciones obtenidas en un primer paso; los segundos basados en árboles de decisión para integrar la información de las distintas menciones y las cadenas como atributos. Los resultados experimentales con los distintos métodos no presentan una mejora sustancial con respecto a la clasificación inicial obtenida, sin embargo, se considera que en un dominio más específico los métodos propuestos, como en el caso de los métodos de voto, tendrán una influencia positiva con respecto a la clasificación inicial; además de que este trabajo representa una pauta para analizar el impacto de la información global en distintos dominios y escenarios para el idioma español. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2008-11 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Sánchez-Pérez CR | |
LENGUAJES ALGORÍTMICOS | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
SanchezPCR.pdf | 907.87 kB | Adobe PDF | Visualizar/Abrir |