Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2612
Clasificación de Imágenes con Arquitecturas Ligeras de Redes Neuronales en el Espacio de Fourier
Daniel Lima López
Pilar Gomez_Gil
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Image classification
CNN
Convolution theorem
Fourier Networks
Convolutional Neural Networks (CNN) are one of the most used tools in the area of computer vision. When working with low-resolution images, its low memory cost per filter allows building deep architectures with a high level of accuracy. However, the deeper the architecture or the higher the resolution, the higher the computational cost. This is due to the convolution operation, which makes its implementation difficult, mainly in low-end devices. Several works have studied how to leverage the properties of the convolution theorem to reduce this cost, performing in the Fourier space (frequency representation). However, such proposal has drawbacks that hinders its implementation, for example, the definition of each basic CNN component in the frequency representation, including convolutional layers, activation functions and pooling layers. Furthermore, working in the frequency domain incurs in a considerable increase of the size of the filters, resulting in a greater demand for memory. In this work, two alternatives are proposed to address these problems in the context of image classification, one focused on low-resolution images and the other for high-resolution images. In the first approach, two architectures are proposed, denominated type-R and type-LT; the type-R architectures work with a subset of the frequency components of the images, which we denominate reduced representation. The type-LT architectures, together with a novel layer denominated Linear Transform, dynamically build a reduced representation, which contains the most relevant information of the entire frequency representation. In the second approach, the Butterworth-CNN (BW-CNN) architecture is proposed, which uses all frequency components, with a mechanism with a small number of parameters, which generates Butterworth filters, and with a novel pooling layer called Spectral Average Pooling. The results using five data sets showed that the proposed architectures present substantial improvements, compared to other Fourier domain architectures in the state-of-the-art. Additionally, advantages over CNN in accuracy and computational cost were observed in some cases.
Las redes neuronales convolucionales (CNN por sus siglas en inglés) son una de las herramientas más utilizadas en el área de visión por computadora. Cuando se manejan imágenes pequeñas, el bajo costo de memoria por filtro permite construir arquitecturas profundas con un alto nivel de exactitud. Sin embargo, a medida que se trabaja con arquitecturas más profundas o imágenes en alta resolución, el alto costo computacional de la operación de convolución dificulta su implementación, principalmente en dispositivos con recursos limitados. Varios trabajos han estudiado cómo aprovechar las cualidades del teorema de la convolución para aligerar este costo, operando en el espacio de Fourier (representación frecuencial). Sin embargo, estas propuestas presentan algunas dificultades en su implementación, como por ejemplo, la definición de todos los componentes básicos de una CNN en la representación frecuencial, incluyendo capas convolucionales, funciones de activación y capas de pooling. Además, trabajar en el dominio frecuencial conlleva un aumento considerable en el tamaño de los filtros, lo que resulta en una mayor demanda de memoria. En este trabajo se proponen dos alternativas para afrontar estos inconvenientes en problemas de clasificación de imágenes, una enfocada en imágenes pequeñas y otra para imágenes grandes. En el primer enfoque, se proponen dos arquitecturas, llamadas tipo-R y tipo-LT; las arquitecturas tipo-R trabajan con un subconjunto de las componentes frecuenciales de las imágenes, lo que denominamos representación reducida. Las arquitecturas tipo-LT, en conjunto con una nueva capa denominada Linear Transform, construyen de manera dinámica una representación reducida que contiene la información más relevante de toda la representación frecuencial. Para el segundo enfoque, se propone la arquitectura Butterworth-CNN (BW-CNN), la cual usa todas las componentes frecuenciales, a través de un mecanismo con pocos parámetros que genera filtros tipo Butterworth, y una nueva capa de pooling denominada Spectral Average Pooling. Los resultados utilizando 5 bases de datos mostraron que las arquitecturas propuestas presentan mejoras sustanciales en comparación con otras arquitecturas en el dominio de Fourier encontradas en el estado del arte. Además, en algunos casos se observaron ventajas en la exactitud y costo computacional en contraste con CNN.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2024-08
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Lima López, D., (2024), Clasificación de Imágenes con Arquitecturas Ligeras de Redes Neuronales en el Espacio de Fourier, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica.
OTRAS ESPECIALIDADES TECNOLÓGICAS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Reportes Técnicos de Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
LIMALD_MCC.pdf10.63 MBAdobe PDFVisualizar/Abrir