Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/676
Recuperación de información utilizando secuencias frecuentes maximales | |
JAVIER VAZQUEZ CUCHILLO | |
JOSE FRANCISCO MARTINEZ TRINIDAD JESUS ARIEL CARRAZCO OCHOA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Information retrieval systems Information retrieval system evaluation Search engines | |
The main objective of Information Retrieval (IR) methods is to solve a user's
query that expresses an information need, by retrieving a set of documents,
belonging to a collection, which contain information related to the query. In all IR
methods, it is necessary to use a special representation for documents and
queries, commonly through words using a vector model. Word vectors are not
the only way to represent the documents; also other representations based on ngram
(n consecutive words obtained from the documents) have been used. Both
representations have the disadvantage of generating a large number of terms for
identifying documents, and also the word representation lost the word sequential
order. To solve some of these drawbacks, in this research we propose some
methods for IR, which use Maximal Frequent Sequences (MFS's) -by documentto
represent the documents. A MFS by document is a sequence of words that
frequently appears in the document, and it is not contained in any other frequent
sequence within the same document. The results show that, when the query is a
small set of words, the use of MFS's by document in the proposed IR methods
does not have good results compared against a method based on word
representation (LUCENE), because the documents used to evaluate the IR
methods were very small, and therefore the number of MFS’s in each document
also was very small, moreover, some documents could not be represented
because they did not contain any MFS.
Additionally, we propose an IR method based on MFS’s by document where the
query is a complete document. Using this method, good results were obtained. El objetivo principal de los métodos de Recuperación de Información (RI) es resolver la consulta de un usuario que expresa una necesidad de información, recuperando un conjunto de documentos pertenecientes a una colección, que contienen la información relacionada a dicha consulta. En todos los métodos de RI es necesario utilizar una forma de representación para los documentos y las consultas, comúnmente mediante palabras utilizando un modelo vectorial. El uso de palabras no es la única manera de representar a los documentos, también se han usado otras formas basadas en n-gramas (n palabras consecutivas obtenidas de los documentos). Ambas representaciones tienen la desventaja de generar un gran número de términos para identificar a los documentos, y en el caso de la representación por palabras además se pierde el orden secuencial. Para resolver las desventajas anteriores, en este trabajo de investigación se proponen métodos de RI que utilizan las Secuencias Frecuentes Maximales (SFM’s) -por documento- para representar los documentos. Una SFM por documento es una secuencia de palabras que no está contenida en alguna otra secuencia frecuente dentro del mismo documento. Los resultados muestran que el uso de SFM’s por documento en los métodos de RI propuestos, donde la consulta es un conjunto pequeño de palabras, no tienen buenos resultados comparándolos con un método que utiliza la representación basada en palabras, ya que los documentos utilizados para evaluar los métodos de RI son muy pequeños, lo cual provocó que el número de SFM’s en cada documento fuera reducido. Adicionalmente, se propone un método de RI basado en SFM por documento donde la consulta es un documento completo. Utilizando este método se obtuvieron buenos resultados en la tarea de recuperación de documentos. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2008 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Vázquez-Cuchillo J | |
BANCOS DE DATOS | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
VazquezCJ.pdf | 1.14 MB | Adobe PDF | Visualizar/Abrir |