Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2670
Adaptive methods for Human Action Recognition | |
Andrea Burgos Madrigal | |
Leopoldo Altamirano | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Deformable Convolutions image and video recognition Quantifying Static and Dynamic information | |
Las acciones de video se caracterizan por diferencias incontrolables como las condiciones de luz, la resolución de vídeo, el muestreo temporal, los fondos y las oclusiones que varían la complejidad de la escena. Los esquemas actuales basados en redes neuronales convolucionales (CNN) presentan inconvenientes para modelar las transformaciones geométricas causadas por la localidad de la operación de convolución. Las CNN se confunden durante el reconocimiento porque no se ajustan a estas variaciones, lo que disminuye su eficacia. Normalmente se naden datos al entrenamiento para aprender mejor, pero siempre habrá un límite de recursos de almacenamiento y procesamiento. Este trabajo se centra en encontrar una metodología que permita aprovechar los recursos. Esto se consigue mediante la adaptabilidad del método a los datos de entrada. Para ello, realizamos varios experimentos utilizando Convoluciones Deformables (DCONs) aplicadas a las capas que forman un pequeño modelo CNN de cuatro capas y a las cuatro capas de varios modelos ResNets con profundidades 18, 34, 50 y 101. También se exploró el uso de redes de Kolmogorov-Arnold (KAN). Los modelos se probaron en clases binarias equilibradas con datos 2D y 3D. La solución gana robustez porque puede adaptarse al objeto de interés disminuyendo los flops requeridos y mejorando la precisión de los modelos. Observamos que el kernel con dimensión 3 × 3 resulta ser el óptimo para la convolución deformable. La precisión disminuye si el tamaño del kernel se reduce al tamaño 1 × 1, ya que el mecanismo de desplazamiento del campo receptivo se anula, mientras que el aumento del kernel al tamaño 5 × 5 no presenta una mejora significativa de la precisión. Por el contrario, aumenta el coste computacional. Demostramos que aumentar la profundidad de las redes neuronales no refleja necesariamente una mejora en su reconocimiento, como suele creerse. Los mejores resultados de precisión en todos los conjuntos de datos evaluados se obtuvieron normalmente en los modelos de menor profundidad, ResNet-18 y ResNet-34 0,842 y 0,849 respectivamente. En modelos más profundos, como ResNet-50 y ResNet-101 0,820 y 0,816 respectivamente en 2D. Nuestra hipótesis es que este inconveniente se debe a la acumulación de muchas capas deformables en niveles muy profundos, donde probablemente el mecanismo de cuello de botella puede contribuir al bajo rendimiento de estas arquitecturas más profundas. Video actions are characterized by uncontrollable differences such as light conditions, video resolution, time sampling, backgrounds, and occlusions that vary the scene complexity. Current schemes based on convolutional neural networks (CNNs) present drawbacks to modeling geometric transformations caused by the convolution operation’s locality. CNNs get confused during recognition because they do not fit these variations, diminishing their effectiveness. Data is usually added to the training to learn better, but there will always be a limit on storage and processing resources. This work focuses on finding a methodology that allows us to take advantage of the resources. This is achieved through the adaptability of the method to input data. To this end, we conducted several experiments using Deformable Convolutions (DCONs) applied to the layers that form a small four-layer CNN model and to the four layers of several ResNets models with depths 18, 34, 50, and 101. Also, we explored the usage of Kolmogorov-Arnold Networks (KANs). The models were tested in binary balanced classes with 2D and 3D data. The solution gains robustness because it can adapt to the object of interest by decreasing the required flops and improving the accuracy of the models. We observed that the kernel with dimension 3 × 3 suits to be the optimal to use for deformable convolution. The accuracy decreases if the kernel size is reduced to size 1 × 1, because the receptive field displacement mechanism is nullified while increasing the kernel to size 5 × 5 does not present a significant improvement in accuracy. On the contrary, the computational cost increases. We showed that increasing the depth of neural networks does not necessarily reflect an improvement in their recognition as usually believed. The best accuracy results in all evaluated datasets were usually obtained in the smaller depth models, ResNet-18 and ResNet-34 0.842 and 0.849 respectively. Poor performance was observed in deeper models, such as ResNet-50 and ResNet-101 0.820 and 0.816 respectivelyin 2D. We hypothesize that this drawback is caused by accumulating many deformable layers at very deep levels, where probably the bottleneck mechanism may contribute to the poor performance of these deeper architectures. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2024-11 | |
Tesis de doctorado | |
Inglés | |
Estudiantes Investigadores Público en general | |
Burgos Madrigal A., (2024), Adaptive methods for Human Action Recognition, Tesis de Doctorado, Instituto Nacional de Astrofísica, Óptica y Electrónica | |
OTRAS ESPECIALIDADES TECNOLÓGICAS | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Doctorado en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
BURGOSMA_MCC.pdf | 7.18 MB | Adobe PDF | Visualizar/Abrir |