Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/503
Cohesión semántica para la anotación y recuperación de imágenes
HUGO JAIR ESCALANTE BALDERAS
MANUEL MONTES Y GOMEZ
LUIS ENRIQUE SUCAR SUCCAR
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Information systems
Multimedia computing
Pattern classification
This document describes the methods we proposed for image annotation and retrieval that are based on the semantic cohesion among multimodal terms. The semantic cohesion is the degree of association among the terms that compose a document according to their meaning in a certain context. Hence, the proposed techniques aim at exploiting the relationship among terms from different modalities, but that occur in common documents, to improve the performance of current techniques for annotation and retrieval of images. On the one hand, we propose an energy-based model for automatic image annotation that attempts to maximize an estimate of the semantic cohesion among labels assigned to adjacent regions in segmented images. The proposed method incorporates visual information extracted from the images as well as estimates of association among labels. Visual information is incorporated by means of the outputs of supervised classification techniques; whereas the association among labels, which is estimated through co-occurrence statistics, is incorporated directly into the model. Experimental results in several collections give evidence of the validity of our approach. Our results outperformed those obtained by related works on the same image collections. Furthermore, the proposed model is very general, which facilitates its application to heterogeneous collections, is highly efficient and can be extended in several ways. On the other hand, we propose methods based on the semantic cohesion among labels and text to represent documents for the task of multimedia image retrieval. Specifically, we propose two indexing techniques that take advantage of distributional term representations. Under our approach the content of images is modeled through occurrence and co-occurrence statistics among multimodal terms derived from images. In this way, we attempt to represent each image by patterns that reflect the cohesion of the multimodal terms that occur in it. We also study standard methods for combining information from labels and text. Experimental results show that standard techniques are very effective; however, the latter techniques were significantly outperformed by the representations based on semantic cohesion. Our results motivate further research in several aspects that we would like to explore as future work. During our research the need of a data set that allowed us to evaluate our methods (both on annotation and retrieval) arose.
En este documento se proponen métodos para la anotación y recuperación de imágenes que se basan en la cohesión semántica entre términos multimodales. La cohesión semántica es el grado de relación entre los términos de un documento de acuerdo al significado de estos en cierto contexto. Así, los métodos propuestos intentan explotar la asociación entre términos de distintas modalidades pero que ocurren en documentos comunes para mejorar la efectividad de las técnicas para anotación y recuperación existentes. Por un lado, se propone un modelo basado en energía para anotación automática de imágenes que intenta maximizar un estimado de la cohesión semántica entre etiquetas asignadas a regiones adyacentes en imágenes segmentadas. El método propuesto incorpora atributos visuales extraídos de las imágenes así como información de asociación entre etiquetas. Los atributos visuales se integran por medio de las predicciones de métodos de clasificación supervisada; mientras que la asociación entre etiquetas, estimada a través de coocurrencias, se incorpora directamente al modelo. Resultados experimentales obtenidos en varias colecciones dan evidencia de la validez del enfoque propuesto, superando a trabajos relacionados que han usado las mismas colecciones. Además, el método propuesto es muy general, lo que facilita su aplicación en bases de datos de características heterogéneas, es altamente eficiente y puede ser extendido de varias maneras. Por otro lado, se proponen métodos basados en la cohesión semántica entre etiquetas y texto para representar documentos para la recuperación multimodal de imágenes. Específicamente, se proponen dos métodos de indexado que modelan el contenido de imágenes por medio de estadísticas de ocurrencia y coocurrencia entre términos multimodales derivados de las imágenes. De esta manera, intentamos representar cada documento por patrones que reflejen la cohesión de los términos multimodales que ocurren en el documento. También, se estudian métodos estándar para combinar etiquetas y texto. Resultados experimentales muestran que los métodos estándar son altamente efectivos para buscar imágenes, aunque estos últimos fueron superados significativamente por las técnicas de indexado que se basan en la cohesión semántica. Durante el desarrollo de la investigación surgió la necesidad de considerar una colección que permitiera la evaluación de los métodos propuestos (tanto en anotación como en recuperación).
Instituto Nacional de Astrofísica, Óptica y Electrónica
2010-03
Tesis de doctorado
Español
Estudiantes
Investigadores
Público en general
Escalante-Balderas H.J.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Doctorado en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
EscalanteBaHJ.pdf40.57 MBAdobe PDFVisualizar/Abrir