Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/484
Representaciones vectoriales orientadas a conceptos y estructura para recuperación de información | |
MAYA CARRILLO RUIZ | |
AURELIO LOPEZ LOPEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Information retrieval Random indexing Holographic reduced representation | |
Language is one of the most impressive human abilities. Broca and Wernicke,
specialized areas of the brain, suggest to us we genetically have neurological components
for language development. Thus, throughout human history, most knowledge
has been communicated, stored and managed in the form of natural language (Greek,
Latin, English, Spanish, etc.). At the present time, knowledge continues to be treasured
through documents, books and journals, although it is now also stored in digital
form. This factor has turned the computer into an efficient tool for accessing information.
As human beings, we can not only interpret the knowledge stored in those
documents, but also perform logical inferences about content. However for computers,
that information is just a sequence of characters and nothing else. Information
retrieval is a discipline, which aims to develop methods for automatically providing
relevant information to queries submitted by users. The classical information retrieval
techniques represent documents as lists of words without any order or relation among
them. This representation ignores grammatical structure of texts and then eliminates
any possibility of understanding of their content. This research proposes a text representation,
which considers lexical, syntactic and "semantic" aspects of documents;
each linguistic aspect is handled in a separate vector space. Firstly, lexical representation
is captured with traditional bag of words representation; secondly, syntactic, with
a representation from Cognitive Science proposed by T.A. Plate, named holographic
reduced representation, and nally, the "semantic" aspect with the bag of concepts
representation proposed by Sahlgren and Coster. The latter two representations need
a methodology known as random indexing to be dened. Random indexing, proposed
by Kanerva et al, reduces the vector space produced by the bag of words approach.
This research, to the best of our knowledge, is the initial proposal for an information
retrieval model, which integrates the mentioned representations without increasing
the dimension of the vector space. The experimental results in several collections
showed that the integration of these three representations can improve the information
retrieval mean average precision (MAP), with respect to that produced by the
bag of words representation. El lenguaje es una de las habilidades más impresionantes de los seres humanos. Las áreas especializadas del cerebro, como la de Broca y la de Wernicke, sugieren que genéticamente tenemos elementos neurológicos para el desarrollo del lenguaje. Así, a lo largo de la historia de la humanidad, el conocimiento se ha comunicado, guardado y manejado en forma de lenguaje natural (griego, latín, inglés, español, etc.). En la época actual el conocimiento sigue atesorándose en documentos, libros, revistas, aunque ahora se guarda también en forma digital. Este factor ha convertido a la computadora en una herramienta para acceder de manera eciente a la información. Como seres humanos podemos interpretar el conocimiento almacenado en dichos documentos y hacer inferencias lógicas sobre su contenido. Sin embargo, para las computadoras dicha información es sólo una secuencia de caracteres y nada más. La recuperación de información es una disciplina cuyo objetivo es desarrollar métodos para suministrar automáticamente información relevante a solicitud de los usuarios. Las técnicas clásicas de recuperación de información representan los documentos como listas de palabras sin ningún orden ni relación. Esta representación ignora la estructura gramatical de los textos y entonces, elimina cualquier posibilidad de entender su contenido. La presente investigación propone una representación de documentos que considera aspectos léxicos, sintácticos y "semánticos", cada aspecto lingüístico se maneja en un espacio vectorial independiente. Los aspectos léxicos se capturan con la representación tradicional de bolsa de palabras; los sintácticos, con una representación tomada de la ciencia cognitiva propuesta por T.A. Plate, llamada representación holográfica reducida; y finalmente, los aspectos "semánticos" con la representación de bolsa de conceptos propuesta por Sahlgren y Cöster. Para crear estas dos últimas representaciones, se utiliza una metodología conocida como indexación aleatoria propuesta por Kanerva et al., la cual permite reducir el espacio vectorial producido por la aproximación de bolsa de palabras. Esta investigación, hasta donde se tiene conocimiento, es la propuesta inicial de un modelo de recuperación de información que integra las representaciones mencionadas, sin incrementar la dimensión del espacio vectorial. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2010-11 | |
Tesis de doctorado | |
Español | |
Estudiantes Investigadores Público en general | |
Carrillo-Ruiz M. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Doctorado en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
CarrilloRuM.pdf | 855.97 kB | Adobe PDF | Visualizar/Abrir |