Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2490
Reconocimiento de células sanguíneas por medio de aprendizaje profundo y generación de datos sintéticos
Nohemí Sánchez Medel
Raquel Diaz Hernandez
Acceso Abierto
Atribución-NoComercial-SinDerivadas
data augmentation
deep learning
algorithm design
hematological diseases
image analysis
El aumento de datos (Data Augmentation) es una técnica que adopta el enfoque de generar más datos de entrenamiento a partir de los datos disponibles. El aumento de datos también es útil para mejorar el rendimiento y la precisión de los modelos de aprendizaje profundo, mediante la creación de ejemplos nuevos y diferentes para entrenar conjuntos de datos. En este trabajo de tesis, se experimenta con algoritmos de aumento de datos para la generación de imágenes sintéticas tradicionales y poligonales, con el fin de contar con un mayor número de imágenes para realizar el entrenamiento de los modelos, reconociendo enfermedades hematológicas mediante imágenes de células sanguíneas. Esto con la finalidad de resolver el problema de la escasez de datos y clases desbalanceadas al momento de entrenar redes neuronales. Se generaron imágenes sintéticas tradicionales mediante procedimientos clásicos como efecto espejo, rotaciones, contraste, brillo, entre otros; y se generaron imágenes sintéticas poligonales mediante la aplicación de máscaras. Se realizó el reconocimiento de células sanguíneas por medio del aprendizaje profundo. Se utilizó el conjunto de datos ALL-IDB2, el cual contiene 260 imágenes originales segmentadas de células normales y blásticas. Se generaron 12000 imágenes sintéticas tradicionales mediante transformaciones geométricas, y se generaron 12000 imágenes sintéticas poligonales mediante máscaras. Se probaron 5 modelos diferentes: Compact, MobileNetV2, AlexNet, ResNet-50 y Enhanced. Se comprobó que con la utilización de imágenes sintéticas se aumenta la precisión para el reconocimiento de enfermedades hematológicas. Los beneficios de este trabajo se pueden resumir en la obtención de más datos para el entrenamiento, se reducen los costos de recopilación y etiquetado de datos, se mejora el desempeño de los modelos y se elimina el sobreajuste al tener variabilidad en los datos. Como beneficio adicional, con la técnica del aumento de datos se elimina el desequilibrio de clases. Se muestra la precisión de cada una de las pruebas realizadas, y se presenta la gráfica comparativa de los resultados obtenidos. Por último, se observó que con las imágenes sintéticas poligonales los porcentajes de precisión se sitúan por encima del 98% y con base en los resultados obtenidos se deduce que el número ideal de imágenes para entrenar los 5 modelos de aprendizaje profundo se sitúa entre 2500 y 5000.
Data augmentation is a technique that takes the approach of generating more training data from the available data. Data augmentation is also useful for improving the performance and accuracy of deep learning models by creating new and different examples to train datasets. In this thesis work, we experiment with data augmentation algorithms for the generation of traditional and polygonal synthetic images, to have a larger number of images to perform model training, recognizing hematological diseases using blood cell images. This is to solve the problem of data scarcity and unbalanced classes when training neural networks. Traditional synthetic images were generated employing classical procedures such as mirror effect, rotations, contrast, and brightness, among others; and polygonal synthetic images were generated by applying masks. Blood cell recognition was performed utilizing deep learning. The ALL-IDB2 dataset was used, which contains 260 original segmented images of normal and blast cells. 12000 traditional synthetic images were generated by geometric transformations, and 12000 polygonal synthetic images were generated by masks. Five different models were tested: Compact, MobileNetV2, AlexNet, ResNet-50, and Enhanced. It was found that the use of synthetic images increases the accuracy of the recognition of hematologic diseases. The benefits of this work can be summarized as obtaining more data for training, reducing data collection and labeling costs, improving model performance, and eliminating over-fitting by having variability in the data. As an additional benefit, with the data augmentation technique, the class imbalance is eliminated. The precision of each of the tests performed is shown, and the comparative graph of the results obtained is presented. Finally, it was observed that with the polygonal synthetic images, the accuracy percentages are above 98%, and based on the results obtained it is deduced that the ideal number of images to train the 5 deep learning models is between 2500 and 5000.
Instituto Nacional de Astrofísica, Óptica y Electrónica
17-02-2023
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Sánchez Medel, N., (2023), Reconocimiento de células sanguíneas por medio de aprendizaje profundo y generación de datos sintéticos, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica
OTRAS ESPECIALIDADES MÉDICAS
Aparece en las colecciones: Maestría en Ciencias y Tecnologías Biomédicas

Cargar archivos:


Fichero Tamaño Formato  
SANCHEZMN_MCTB.pdf2.77 MBAdobe PDFVisualizar/Abrir