Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2639
Weighted Attention in Multimodal Transformers for the Detection of Questionable Content in Videos
Arnold Morales
Hugo Jair Escalante Balderas
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Transformers Multimodales
Atención Ponderada
Atención Cruzada Multimodal
Unidades Multimodales por Compuertas
We address the problem of questionable content filtering in video platforms, with a specific focus on identifying and flagging comic mischief. These contents mix elements such as violence, adult content or sarcasm with humor, which complicates their detection. Current methodologies rely heavily on attention-based models, prominently featuring Hierarchical Cross-Attention (HCA) to fuse information across different modalities. While HCA has proven to be effective, its optimal applicability in this context remains uncertain. This work explores an innovative approach termed Parallel Cross-Attention (ParCA) as an alternative mechanism for enhancing model in identifying nuanced forms of comic mischief. Furthermore, we advocate for the integration of Gated Multimodal Units (GMU) into the framework. GMUs offer a refined method for combining multiple attention mechanisms, surpassing the traditional concatenation approach by dynamically adjusting the importance of modalities at various stages of processing. This hybrid approach promises to improve the interpretability and performance of the model in discerning subtle comic elements amidst diverse multimedia content. Our experimental results substantiate the efficacy of ParCA and GMU integra- tion, revealing substantial performance enhancements compared to the HCA-based baseline. Specifically, our approach achieves notable improvements in F1-Score metric, demonstrating its capacity to effectively filter and flag comic mischief in video content. This research underscores the importance of innovative model architectures and multimodal fusion techniques in advancing content filtering capabilities for evolving digital platforms.
Abordamos el problema del filtrado de contenido cuestionable en plataformas de video, con un enfoque específico en la identificación y señalización de diferentes tipos de comedia. Las metodologías actuales dependen en gran medida de modelos basados en atención, destacando el uso de la Atención Cruzada Jerárquica (HCA) para fusionar información a través de diferentes modalidades. Aunque HCA ha demostrado ser eficaz, su aplicabilidad óptima en este contexto sigue siendo incierta. Este trabajo explora un enfoque innovador denominado Atención Cruzada Paralela (ParCA) como un mecanismo alternativo para mejorar el modelo en la identificación de formas sutiles de travesuras cómicas. Además, abogamos por la integración de Unidades Multimodales por Compuertas (GMU) en el marco de trabajo. Las GMU ofrecen un método refinado para combinar múltiples mecanismos de atención, superando el enfoque tradicional de concatenación al ajustar dinámicamente la importancia de las modalidades en diversas etapas del procesamiento. Este enfoque híbrido promete mejorar la interpretabilidad y el rendimiento del modelo en la detección de elementos cómicos sutiles en medio de contenido multimedia diverso. Los resultados experimentales obtenidos confirman la eficacia de la integración de ParCA y GMU, revelando mejoras importantes en el rendimiento en comparación con el modelo original basado en HCA. Específicamente, nuestro enfoque logra mejoras notables en F1-Score, demostrando su capacidad para filtrar y señalar efectivamente los tipos de comedia en contenido de video. Este trabajo enfatiza la importancia de arquitecturas de modelos innovadoras y técnicas de fusión multimodal en el avance de las capacidades de filtrado de contenido para plataformas digitales en evolución.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2024-03
Tesis de maestría
Inglés
Estudiantes
Investigadores
Público en general
Morales Morales A., (2024), Weighted Attention in Multimodal Transformers for the Detection of Questionable Content in Videos, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica.
OTRAS ESPECIALIDADES TECNOLÓGICAS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
MORALESMA_MCC.pdf8.49 MBAdobe PDFVisualizar/Abrir