Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/519
Método de fusión dinámica para la recuperación de información
ANTONIO JUAREZ GONZALEZ
LUIS VILLASEÑOR PINEDA
MANUEL MONTES Y GOMEZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Information retrieval
Data reduction
Metting
The development of Information Retrieval Systems (IRS) has allowed the exploitation of the huge amount of information available nowadays. However, no IR system can satisfy all the information needs (queries) of the users. Instead, some IRSs are effective for some kind of queries while for some other kind of queries the same IRSs perform poorly. This situation leads to a scenario where, for the same query, there are available multiple retrieval result lists with different effectiveness for satisfying the information need. The problem in this situation is to decide which result list must be given to the user. The most used strategy to solve this problem is known as Data Fusion. The main goal of Data Fusion is the generation of a new list of retrieval results, constructed from the initial result lists. This new list must be more effective to satisfy the information need of the user (i.e., it must contain more relevant elements and/or rank the relevant elements better in the list) than the majority of the initial retrieved lists, preferably than all of them. Data Fusion is usually applied systematically, this is, all the available result lists for a query are fused. Nevertheless, studies about the effectiveness of Data Fusion by query show that, in most of the cases, to fuse all the available result lists, or to fuse the best global ones is not the best option. On the other hand, Data Fusion is highly sensitive to the inclusion of retrieval results with low effectiveness, which causes a decrease in the effectiveness of the fusion methods. This situation leads to a fusion result in some cases worse than all the initial retrieval results. In this research, a method that helps to increase the effectiveness of the Data Fusion methods by means of a previous selection of the result lists to be included in the fusion process, is developed. Our method, called Dynamic Fusion of Information Retrieval Results (DFIR), is based on the features of redundancy and ranking of the elements in the retrieval result lists, and does not require any information about the inner process of the IRSs used to retrieve the lists. Even more, DFIR is implemented in an unsupervised approach avoiding the dependence of the relevance judgments and a possible re-training process if the data sets or the IRSs change. Also, DFIR avoids the generation of all the possible fusions of the initial result lists, and is not linked to a single Data Fusion method.
El desarrollo de múltiples sistemas de Recuperación de Información (RI) ha permitido el buen aprovechamiento de la inmensa cantidad de información disponible en nuestros días. Sin embargo, no existe un sistema de RI que satisfaga todas las necesidades de información (peticiones) de los usuarios, sino que algunos sistemas obtienen buenos resultados para un tipo de peticiones mientras que para otro tipo de peticiones no son capaces de encontrar elementos relevantes. Esta situación ofrece un escenario donde se cuenta con diferentes resultados de recuperación, obtenidos con diferentes sistemas de RI, para una misma petición. El problema en esta situación es que se necesita entregar una sola lista de resultados al usuario. La estrategia más utilizada en este tipo de escenarios es la Fusión de Datos, la cual tiene como objetivo generar una nueva lista de resultados a partir de un conjunto de listas de resultados iniciales. Esta nueva lista debe ofrecer al usuario mejores resultados de recuperación (debe contener más elementos relevantes y/o colocarlos en las primeras posiciones de la lista) que la mayoría de las listas de resultados iniciales, preferentemente que todas ellas. Normalmente, la Fusión de Datos se utiliza sistemáticamente, es decir, se fusionan todas las listas disponibles para una petición. Sin embargo, estudios acerca de la efectividad particular de la fusión en cada petición, han revelado que en la mayoría de las veces no es apropiado fusionar todas las listas disponibles, y tampoco las listas con la mejor eficacia global. Por otro lado, la Fusión de Datos es sensible a la inclusión de listas con resultados de recuperación pobres, las cuales provocan un decremento en la efectividad de los métodos de fusión, dando como resultado una lista en ocasiones peor que cualquiera de las listas iniciales. En esta investigación se desarrolla un método que contribuye a mejorar la eficacia de los métodos de Fusión de Datos mediante la selección previa de las listas que serán incluidas en la fusión. Nuestro método, llamado Fusión Dinámica de Resultados de RI (FDRI) se basa en las características de redundancia y posicionamiento de los elementos en las listas de elementos recuperados, y no requiere información acerca de los sistemas con los que se realizó el proceso de recuperación.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2010-11
Tesis de doctorado
Español
Estudiantes
Investigadores
Público en general
Juarez-Gonzalez A.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Doctorado en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
JuarezGoA.pdf2.43 MBAdobe PDFVisualizar/Abrir