Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2660
Aumento de datos para detección de deterioro cognitivo en habla espontánea | |
Migan Giuseppe Galban Pineda | |
Luis Villaseñor-Pineda Manuel Montes y Gómez | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Mild Cognitive Impairment (MCI) Spontaneous speech Acoustic data augmentation Acoustic representations Neural Embeddings WGAN-GP (Wasserstein GAN with Gradient Penalty) Deep Neural Networks | |
El procesamiento de voz a través de técnicas de aprendizaje profundo (deep learning) ha alcanzado excelentes resultados en los últimos años. No obstante, es necesario contar con grandes cantidades de datos para poder trabajar con dichos modelos. La carencia o falta de datos es un reto por enfrentar en este tipo de situaciones. En particular, dentro del ámbito de las aplicaciones médicas esto se convierte en un importante cuello de botella. En este trabajo se aborda dicho problema mediante la exploración de diferentes técnicas de aumento de datos para la detección de deterioro cognitivo leve en voz espontánea, además de los procesos y análisis que esto conlleva; es por esto que el presente trabajo consideró diferentes aspectos como: (i) técnicas de extracción de características en audios, (ii) el aprovechamiento de modelos preentrenados en audio para extracción de embeddings, (iii) técnicas de aumento agregando datos reales de una clase similar, (iv) técnicas de aumento que modifican la señal de audio, (v) técnicas de aumento que usan la representación del elemento, y (vi) técnicas de aumento usando redes neuronales profundas generativas. Bajo este último punto, específicamente se analizaron dos variantes de la Wasserstein Generative Adversarial Networks with Gradient Penalty (WGAN-GP), que usan capas convolucionales unidimensionales, para la generación de datos sintéticos a partir de embeddings de audio. Mediante la experimentación con la colección de datos de la competencia (Alzheimer’s Dementia Recognition through Spontaneous Speech (audio only)) ADReSSo, que contiene audio de entrevistas diagnósticas a personas con deterioro cognitivo y sanos; se encontró que la adición de datos de pacientes con deterioro cognitivo avanzado, así como la aplicación de técnicas de aumento que modifican la señal de audio, mejoran la detección del deterioro cognitivo leve. Aunque los modelos generativos no superaron el rendimiento de muchas de estas técnicas de aumento, este trabajo representa una primera exploración del uso de redes neuronales profundas generativas para la generación de datos sintéticos en la detección del deterioro cognitivo leve. Speech processing through deep learning techniques has achieved excellent results in recent years. However, it is necessary to have large amounts of data to be able to work with such models. The lack of data is a challenge to be faced in this type of situation. Particularly, within the field of medical applications this becomes a major bottleneck. This work addresses this problem by exploring different data augmentation techniques for the detection of Mild Cognitive Impairment in speech, in addition to the processes and analysis involved. The present work considers different aspects such as: (i) feature extraction techniques in audios, (ii) the exploitation of pretrained models in audio for embeddings extraction, (iii) augmentation techniques adding real data from a similar class, (iv) augmentation techniques modifying the audio signal, (v) augmentation techniques using element representation, and (vi) augmentation techniques using deep generative neural networks, specifically two variants of Wasserstein Generative Adversarial Networks with Gradient Penalty (WGAN-GP), which use one-dimensional convolutional layers, for synthetic data generation from audio embeddings. We experimented on the ADReSSo (Alzheimer’s Dementia Recognition through Spontaneous Speech (audio only)) challenge data collection, which contains audio from diagnostic interviews of cognitively impaired and healthy people, it was found that the addition of data from patients with advanced cognitive impairment, as well as the application of augmentation techniques that modify the audio signal, improve the detection of mild cognitive impairment. Although the generative models did not outperform these augmentation techniques, this work represents a first exploration of the use of generative deep neural networks for synthetic data generation in the detection of mild cognitive impairment using voice. Overall this work demonstrates the potential of artificial data augmentation to improve the detection of Mild Cognitive Impairment from spontaneous speech, laying the groundwork for future research in the use of Deep Learning techniques to aid in the diagnosis of Alzheimer’s-related Mild Cognitive Impairment. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2024-12 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Galban Pineda, M. G., (2024), Aumento de datos para detección de deterioro cognitivo en habla espontánea, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica. | |
OTRAS ESPECIALIDADES TECNOLÓGICAS | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
GALBANPMG_MCC.pdf | 7.85 MB | Adobe PDF | Visualizar/Abrir |