Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/1679
Representaciones multinivel para el filtrado de información
Adrian Fonseca Bruzón
AURELIO LOPEZ LOPEZ
José Eladio Medina Pagola
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Information filtering
Documents representation
Random indexing
Term relations
Document Filtering has the purpose of allowing users to concentrate on the documents that are of interest to them, without having to carry out an exhaustive exploration of all the information that is continuously generated. One variation of the typical document filtering systems is commonly referred to as Adaptive Document Filtering. This variation allows users to provide the system with information about its behavior, which allows it to adjust to the changing in users' needs and information stream. These methods employ a user profile for representing the users' information needs. On the other hand, humans tend to organize information in documents in a logical and intentional way. This organization, which we will call textual structure, can be composed of sections, chapters, paragraphs, or sentences; according to the type of document. This structure facilitates the understanding of the content that we want to transmit in them. However, this structure, in which we usually encode the semantic content of the information, is not usually exploited by the filtering methods for the construction of the user profile. This work constitutes a first approximation aiming at filling that gap in the filtering task. We propose two different types of representation in which the textual structure of the documents is taken into account. The first of them based on sets of frequent terms and the second one on Random Indexing. Additionally, we propose methods for obtaining these representations taking into consideration the presence of imbalance between the documents that satisfy the information needs of the users, as well as the Cold Start problem (having scarce information) during the initial construction of the user profile. The experiments carried out allow us to assess the impact on the filtering task of the proposed representations and the methods for obtaining them.
Los métodos de Filtrado Adaptativo de Información tienen la finalidad de permitir a los usuarios concentrarse en los documentos que le son de interés, sin necesidad de realizar una exploración exhaustiva de toda la información que continuamente es generada. Estos métodos, a diferencia de los enfoques de filtrado tradicionales, permiten a los usuarios proporcionar al sistema retroalimentación concerniente a su funcionamiento, lo cual posibilita que él mismo se ajuste con el transcurrir del tiempo a las necesidades cambiantes de los usuarios y el flujo de información. Estos métodos emplean un perfil de usuario para representar las necesidades de información de los usuarios. Por otro lado, los humanos solemos organizar la información en los documentos de forma lógica e intencionada. Esta organización, a la cual llamaremos estructura textual, puede estar compuesta por secciones, capítulos, párrafos, u oraciones; según sea el tipo de documento. Esta estructura facilita la comprensión del contenido que en ellos deseamos transmitir. Sin embargo, esta estructura en la cual solemos codificar el contenido semántico de la información no suele ser aprovechada por los métodos de filtrado para la construcción del perfil de los usuarios. Este trabajo constituye una primera aproximación orientada a llenar ese vacío en la tarea del filtrado. En él proponemos dos tipos diferentes de representación en las cuales es tomada en consideración la estructura textual de los documentos. La primera de ellas basada en los conjuntos de términos frecuentes y la segunda en el Indexado Aleatorio. Adicionalmente, en este trabajo se proponen métodos para la obtención de estas representaciones tomando en consideración el desbalance presente entre los documentos que satisfacen la necesidad de información de los usuarios, así como al problema del Inicio en Frío (contar con muy poca información) en la construcción inicial del perfil de usuario. Los experimentos realizados permitieron valorar el impacto de las representaciones empleadas en la tarea de filtrado adaptativo de documentos.
Instituto Nacional de Astrofísica, Óptica y Electrónica.
2019-02
Tesis de doctorado
Español
Estudiantes
Investigadores
Público en general
Fonseca Bruzón, A., (2019), Representaciones multinivel para el filtrado de información, Tesis de Doctorado, Instituto Nacional de Astrofísica, Óptica y Electrónica.
LENGUAJES DE PROGRAMACIÓN
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Doctorado en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
FonsecaBrA.pdf932.23 kBAdobe PDFVisualizar/Abrir