Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/676
Recuperación de información utilizando secuencias frecuentes maximales
JAVIER VAZQUEZ CUCHILLO
JOSE FRANCISCO MARTINEZ TRINIDAD
JESUS ARIEL CARRAZCO OCHOA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Information retrieval systems
Information retrieval system evaluation
Search engines
The main objective of Information Retrieval (IR) methods is to solve a user's query that expresses an information need, by retrieving a set of documents, belonging to a collection, which contain information related to the query. In all IR methods, it is necessary to use a special representation for documents and queries, commonly through words using a vector model. Word vectors are not the only way to represent the documents; also other representations based on ngram (n consecutive words obtained from the documents) have been used. Both representations have the disadvantage of generating a large number of terms for identifying documents, and also the word representation lost the word sequential order. To solve some of these drawbacks, in this research we propose some methods for IR, which use Maximal Frequent Sequences (MFS's) -by documentto represent the documents. A MFS by document is a sequence of words that frequently appears in the document, and it is not contained in any other frequent sequence within the same document. The results show that, when the query is a small set of words, the use of MFS's by document in the proposed IR methods does not have good results compared against a method based on word representation (LUCENE), because the documents used to evaluate the IR methods were very small, and therefore the number of MFS’s in each document also was very small, moreover, some documents could not be represented because they did not contain any MFS. Additionally, we propose an IR method based on MFS’s by document where the query is a complete document. Using this method, good results were obtained.
El objetivo principal de los métodos de Recuperación de Información (RI) es resolver la consulta de un usuario que expresa una necesidad de información, recuperando un conjunto de documentos pertenecientes a una colección, que contienen la información relacionada a dicha consulta. En todos los métodos de RI es necesario utilizar una forma de representación para los documentos y las consultas, comúnmente mediante palabras utilizando un modelo vectorial. El uso de palabras no es la única manera de representar a los documentos, también se han usado otras formas basadas en n-gramas (n palabras consecutivas obtenidas de los documentos). Ambas representaciones tienen la desventaja de generar un gran número de términos para identificar a los documentos, y en el caso de la representación por palabras además se pierde el orden secuencial. Para resolver las desventajas anteriores, en este trabajo de investigación se proponen métodos de RI que utilizan las Secuencias Frecuentes Maximales (SFM’s) -por documento- para representar los documentos. Una SFM por documento es una secuencia de palabras que no está contenida en alguna otra secuencia frecuente dentro del mismo documento. Los resultados muestran que el uso de SFM’s por documento en los métodos de RI propuestos, donde la consulta es un conjunto pequeño de palabras, no tienen buenos resultados comparándolos con un método que utiliza la representación basada en palabras, ya que los documentos utilizados para evaluar los métodos de RI son muy pequeños, lo cual provocó que el número de SFM’s en cada documento fuera reducido. Adicionalmente, se propone un método de RI basado en SFM por documento donde la consulta es un documento completo. Utilizando este método se obtuvieron buenos resultados en la tarea de recuperación de documentos.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2008
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Vázquez-Cuchillo J
BANCOS DE DATOS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
VazquezCJ.pdf1.14 MBAdobe PDFVisualizar/Abrir