Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/492
Etiquetado automático de imágenes digitales mediante un algoritmo de ensamble semi-supervisado
HEIDY MARISOL MARIN CASTRO
LUIS ENRIQUE SUCAR SUCCAR
EDUARDO FRANCISCO MORALES MANZANARES
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Assemble
Machine learning
Semi-supervised
Content-based image retrieval is a technique that uses the visual content of images such as color, form or texture to search images from large image collections. One way to carry out content-based image retrieval consists of image annotation, that is, assigning a keyword to each object or region in the image and using these keywords to retrieve images. Manual image annotation of a large collection of images is a complex and a subjective task, and it consumes a lot of time. An alternative approach is to automatic annotate images using machine learning techniques. In this thesis, a new algorithm called WSA (Weighted Semi-Supervised Ada-Boost) is proposed for automatic digital image annotation. WSA is based on an assemble of bayesian classifiers using a semi-supervised learning approach. The algorithm WSA uses Naive Bayes as its base classifier. A set of these is combined in a cascade based on the AdaBoost technique. However, when training the ensemble of Bayesian classifiers, it also considers the unlabeled images in each stage. These are annotated based on the classifier from the previous stage, and then used to train the next classifier. The unlabeled instances are weighted according to a confidence measure based on their predicted probability value; while the labeled instances are weighted according to the classifier error, as in standard AdaBoost. The performance of WSA was evaluated using different databases and was compared against other classifiers like NaiveBayes, AdaBoost and the algorithm SA. In the experiments, WSA obtained better performance in the prediction of labels of the images.
La recuperación de imágenes por contenido es una técnica que usa el contenido visual de las imágenes como color, forma y textura, entre otras, para guiar el proceso de búsqueda de imágenes dentro de grandes colecciones. Una de las formas para llevar a cabo la recuperación de imágenes por contenido consiste en etiquetar imágenes, asignando una palabra clave a cada uno de los objetos o regiones de la imagen y utilizar esas palabras clave para realizar búsqueda de las imágenes. El etiquetado manual de una gran cantidad de imágenes es una tarea compleja, subjetiva y consume mucho tiempo. Un enfoque alternativo para realizar esta tarea es etiquetar automáticamente el conjunto de imágenes utilizando técnicas de aprendizaje computacional. En este trabajo de tesis se propone un nuevo algoritmo para el etiquetado automático de imágenes digitales llamado WSA (Weighted Semi-Supervised AdaBoost). WSA está basado en un ensamble de clasificadores bayesianos bajo un enfoque de aprendizaje semi-supervisado, es decir, utiliza imágenes etiquetadas y no etiquetadas para predecir etiquetas de nuevas imágenes. En WSA un conjunto de clasificadores bayesianos son combinados en cascada en base a la técnica AdaBoost. Sin embargo, cuando el ensamble de clasificadores se entrena, éste considera las imágenes no etiquetadas en cada etapa. Estas imágenes son etiquetadas en base al clasificador de la etapa anterior y son usadas para entrenar al siguiente clasificador. Las instancias no etiquetadas son pesadas de acuerdo a una medida de confianza basada en su valor de probabilidad predictiva; mientras que las instancias etiquetadas son pesadas de acuerdo al error del clasificador, como en el algoritmo AdaBoost standard. El desempeño del algoritmo WSA fue evaluado con diferentes bases de datos. Comparado contra otros clasificadores como el algoritmo probabilístico NaiveBayes, el algoritmo AdaBoost y el algoritmo SA, WSA obtuvo mejores resultados en la predición de etiquetas de nuevas regiones de imágenes.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2008-02
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Marin-Castro HM
LENGUAJES DE PROGRAMACIÓN
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
MarinCHM.pdf1.91 MBAdobe PDFVisualizar/Abrir