Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/519
Método de fusión dinámica para la recuperación de información | |
ANTONIO JUAREZ GONZALEZ | |
LUIS VILLASEÑOR PINEDA MANUEL MONTES Y GOMEZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Information retrieval Data reduction Metting | |
The development of Information Retrieval Systems (IRS) has allowed the exploitation
of the huge amount of information available nowadays. However, no IR system can
satisfy all the information needs (queries) of the users. Instead, some IRSs are effective
for some kind of queries while for some other kind of queries the same IRSs perform
poorly. This situation leads to a scenario where, for the same query, there are available
multiple retrieval result lists with different effectiveness for satisfying the information
need. The problem in this situation is to decide which result list must be given to
the user. The most used strategy to solve this problem is known as Data Fusion.
The main goal of Data Fusion is the generation of a new list of retrieval results,
constructed from the initial result lists. This new list must be more effective to satisfy
the information need of the user (i.e., it must contain more relevant elements and/or
rank the relevant elements better in the list) than the majority of the initial retrieved
lists, preferably than all of them. Data Fusion is usually applied systematically, this
is, all the available result lists for a query are fused. Nevertheless, studies about the
effectiveness of Data Fusion by query show that, in most of the cases, to fuse all the
available result lists, or to fuse the best global ones is not the best option. On the
other hand, Data Fusion is highly sensitive to the inclusion of retrieval results with
low effectiveness, which causes a decrease in the effectiveness of the fusion methods.
This situation leads to a fusion result in some cases worse than all the initial retrieval
results. In this research, a method that helps to increase the effectiveness of the Data
Fusion methods by means of a previous selection of the result lists to be included in
the fusion process, is developed. Our method, called Dynamic Fusion of Information
Retrieval Results (DFIR), is based on the features of redundancy and ranking of the
elements in the retrieval result lists, and does not require any information about the
inner process of the IRSs used to retrieve the lists. Even more, DFIR is implemented
in an unsupervised approach avoiding the dependence of the relevance judgments and
a possible re-training process if the data sets or the IRSs change. Also, DFIR avoids
the generation of all the possible fusions of the initial result lists, and is not linked to
a single Data Fusion method. El desarrollo de múltiples sistemas de Recuperación de Información (RI) ha permitido el buen aprovechamiento de la inmensa cantidad de información disponible en nuestros días. Sin embargo, no existe un sistema de RI que satisfaga todas las necesidades de información (peticiones) de los usuarios, sino que algunos sistemas obtienen buenos resultados para un tipo de peticiones mientras que para otro tipo de peticiones no son capaces de encontrar elementos relevantes. Esta situación ofrece un escenario donde se cuenta con diferentes resultados de recuperación, obtenidos con diferentes sistemas de RI, para una misma petición. El problema en esta situación es que se necesita entregar una sola lista de resultados al usuario. La estrategia más utilizada en este tipo de escenarios es la Fusión de Datos, la cual tiene como objetivo generar una nueva lista de resultados a partir de un conjunto de listas de resultados iniciales. Esta nueva lista debe ofrecer al usuario mejores resultados de recuperación (debe contener más elementos relevantes y/o colocarlos en las primeras posiciones de la lista) que la mayoría de las listas de resultados iniciales, preferentemente que todas ellas. Normalmente, la Fusión de Datos se utiliza sistemáticamente, es decir, se fusionan todas las listas disponibles para una petición. Sin embargo, estudios acerca de la efectividad particular de la fusión en cada petición, han revelado que en la mayoría de las veces no es apropiado fusionar todas las listas disponibles, y tampoco las listas con la mejor eficacia global. Por otro lado, la Fusión de Datos es sensible a la inclusión de listas con resultados de recuperación pobres, las cuales provocan un decremento en la efectividad de los métodos de fusión, dando como resultado una lista en ocasiones peor que cualquiera de las listas iniciales. En esta investigación se desarrolla un método que contribuye a mejorar la eficacia de los métodos de Fusión de Datos mediante la selección previa de las listas que serán incluidas en la fusión. Nuestro método, llamado Fusión Dinámica de Resultados de RI (FDRI) se basa en las características de redundancia y posicionamiento de los elementos en las listas de elementos recuperados, y no requiere información acerca de los sistemas con los que se realizó el proceso de recuperación. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2010-11 | |
Tesis de doctorado | |
Español | |
Estudiantes Investigadores Público en general | |
Juarez-Gonzalez A. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Doctorado en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
JuarezGoA.pdf | 2.43 MB | Adobe PDF | Visualizar/Abrir |