Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/484
Representaciones vectoriales orientadas a conceptos y estructura para recuperación de información
MAYA CARRILLO RUIZ
AURELIO LOPEZ LOPEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Information retrieval
Random indexing
Holographic reduced representation
Language is one of the most impressive human abilities. Broca and Wernicke, specialized areas of the brain, suggest to us we genetically have neurological components for language development. Thus, throughout human history, most knowledge has been communicated, stored and managed in the form of natural language (Greek, Latin, English, Spanish, etc.). At the present time, knowledge continues to be treasured through documents, books and journals, although it is now also stored in digital form. This factor has turned the computer into an efficient tool for accessing information. As human beings, we can not only interpret the knowledge stored in those documents, but also perform logical inferences about content. However for computers, that information is just a sequence of characters and nothing else. Information retrieval is a discipline, which aims to develop methods for automatically providing relevant information to queries submitted by users. The classical information retrieval techniques represent documents as lists of words without any order or relation among them. This representation ignores grammatical structure of texts and then eliminates any possibility of understanding of their content. This research proposes a text representation, which considers lexical, syntactic and "semantic" aspects of documents; each linguistic aspect is handled in a separate vector space. Firstly, lexical representation is captured with traditional bag of words representation; secondly, syntactic, with a representation from Cognitive Science proposed by T.A. Plate, named holographic reduced representation, and nally, the "semantic" aspect with the bag of concepts representation proposed by Sahlgren and Coster. The latter two representations need a methodology known as random indexing to be dened. Random indexing, proposed by Kanerva et al, reduces the vector space produced by the bag of words approach. This research, to the best of our knowledge, is the initial proposal for an information retrieval model, which integrates the mentioned representations without increasing the dimension of the vector space. The experimental results in several collections showed that the integration of these three representations can improve the information retrieval mean average precision (MAP), with respect to that produced by the bag of words representation.
El lenguaje es una de las habilidades más impresionantes de los seres humanos. Las áreas especializadas del cerebro, como la de Broca y la de Wernicke, sugieren que genéticamente tenemos elementos neurológicos para el desarrollo del lenguaje. Así, a lo largo de la historia de la humanidad, el conocimiento se ha comunicado, guardado y manejado en forma de lenguaje natural (griego, latín, inglés, español, etc.). En la época actual el conocimiento sigue atesorándose en documentos, libros, revistas, aunque ahora se guarda también en forma digital. Este factor ha convertido a la computadora en una herramienta para acceder de manera eciente a la información. Como seres humanos podemos interpretar el conocimiento almacenado en dichos documentos y hacer inferencias lógicas sobre su contenido. Sin embargo, para las computadoras dicha información es sólo una secuencia de caracteres y nada más. La recuperación de información es una disciplina cuyo objetivo es desarrollar métodos para suministrar automáticamente información relevante a solicitud de los usuarios. Las técnicas clásicas de recuperación de información representan los documentos como listas de palabras sin ningún orden ni relación. Esta representación ignora la estructura gramatical de los textos y entonces, elimina cualquier posibilidad de entender su contenido. La presente investigación propone una representación de documentos que considera aspectos léxicos, sintácticos y "semánticos", cada aspecto lingüístico se maneja en un espacio vectorial independiente. Los aspectos léxicos se capturan con la representación tradicional de bolsa de palabras; los sintácticos, con una representación tomada de la ciencia cognitiva propuesta por T.A. Plate, llamada representación holográfica reducida; y finalmente, los aspectos "semánticos" con la representación de bolsa de conceptos propuesta por Sahlgren y Cöster. Para crear estas dos últimas representaciones, se utiliza una metodología conocida como indexación aleatoria propuesta por Kanerva et al., la cual permite reducir el espacio vectorial producido por la aproximación de bolsa de palabras. Esta investigación, hasta donde se tiene conocimiento, es la propuesta inicial de un modelo de recuperación de información que integra las representaciones mencionadas, sin incrementar la dimensión del espacio vectorial.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2010-11
Tesis de doctorado
Español
Estudiantes
Investigadores
Público en general
Carrillo-Ruiz M.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Doctorado en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
CarrilloRuM.pdf855.97 kBAdobe PDFVisualizar/Abrir