Mi INAOE Alertas Editar Perfil

Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/2490

Título :	Reconocimiento de células sanguíneas por medio de aprendizaje profundo y generación de datos sintéticos
Autor:	Nohemí Sánchez Medel
Colaborador:	Raquel Diaz Hernandez
Nivel de acceso:	Acceso Abierto
Licencia:	Atribución-NoComercial-SinDerivadas
Materia:	data augmentation deep learning algorithm design hematological diseases image analysis
Resumen o descripción:	El aumento de datos (Data Augmentation) es una técnica que adopta el enfoque de generar más datos de entrenamiento a partir de los datos disponibles. El aumento de datos también es útil para mejorar el rendimiento y la precisión de los modelos de aprendizaje profundo, mediante la creación de ejemplos nuevos y diferentes para entrenar conjuntos de datos. En este trabajo de tesis, se experimenta con algoritmos de aumento de datos para la generación de imágenes sintéticas tradicionales y poligonales, con el fin de contar con un mayor número de imágenes para realizar el entrenamiento de los modelos, reconociendo enfermedades hematológicas mediante imágenes de células sanguíneas. Esto con la finalidad de resolver el problema de la escasez de datos y clases desbalanceadas al momento de entrenar redes neuronales. Se generaron imágenes sintéticas tradicionales mediante procedimientos clásicos como efecto espejo, rotaciones, contraste, brillo, entre otros; y se generaron imágenes sintéticas poligonales mediante la aplicación de máscaras. Se realizó el reconocimiento de células sanguíneas por medio del aprendizaje profundo. Se utilizó el conjunto de datos ALL-IDB2, el cual contiene 260 imágenes originales segmentadas de células normales y blásticas. Se generaron 12000 imágenes sintéticas tradicionales mediante transformaciones geométricas, y se generaron 12000 imágenes sintéticas poligonales mediante máscaras. Se probaron 5 modelos diferentes: Compact, MobileNetV2, AlexNet, ResNet-50 y Enhanced. Se comprobó que con la utilización de imágenes sintéticas se aumenta la precisión para el reconocimiento de enfermedades hematológicas. Los beneficios de este trabajo se pueden resumir en la obtención de más datos para el entrenamiento, se reducen los costos de recopilación y etiquetado de datos, se mejora el desempeño de los modelos y se elimina el sobreajuste al tener variabilidad en los datos. Como beneficio adicional, con la técnica del aumento de datos se elimina el desequilibrio de clases. Se muestra la precisión de cada una de las pruebas realizadas, y se presenta la gráfica comparativa de los resultados obtenidos. Por último, se observó que con las imágenes sintéticas poligonales los porcentajes de precisión se sitúan por encima del 98% y con base en los resultados obtenidos se deduce que el número ideal de imágenes para entrenar los 5 modelos de aprendizaje profundo se sitúa entre 2500 y 5000. Data augmentation is a technique that takes the approach of generating more training data from the available data. Data augmentation is also useful for improving the performance and accuracy of deep learning models by creating new and different examples to train datasets. In this thesis work, we experiment with data augmentation algorithms for the generation of traditional and polygonal synthetic images, to have a larger number of images to perform model training, recognizing hematological diseases using blood cell images. This is to solve the problem of data scarcity and unbalanced classes when training neural networks. Traditional synthetic images were generated employing classical procedures such as mirror effect, rotations, contrast, and brightness, among others; and polygonal synthetic images were generated by applying masks. Blood cell recognition was performed utilizing deep learning. The ALL-IDB2 dataset was used, which contains 260 original segmented images of normal and blast cells. 12000 traditional synthetic images were generated by geometric transformations, and 12000 polygonal synthetic images were generated by masks. Five different models were tested: Compact, MobileNetV2, AlexNet, ResNet-50, and Enhanced. It was found that the use of synthetic images increases the accuracy of the recognition of hematologic diseases. The benefits of this work can be summarized as obtaining more data for training, reducing data collection and labeling costs, improving model performance, and eliminating over-fitting by having variability in the data. As an additional benefit, with the data augmentation technique, the class imbalance is eliminated. The precision of each of the tests performed is shown, and the comparative graph of the results obtained is presented. Finally, it was observed that with the polygonal synthetic images, the accuracy percentages are above 98%, and based on the results obtained it is deduced that the ideal number of images to train the 5 deep learning models is between 2500 and 5000.
Editor:	Instituto Nacional de Astrofísica, Óptica y Electrónica
Fecha de publicación :	17-02-2023
Tipo de publicación :	Tesis de maestría
Idioma:	Español
Audiencia:	Estudiantes Investigadores Público en general
Forma de citación:	Sánchez Medel, N., (2023), Reconocimiento de células sanguíneas por medio de aprendizaje profundo y generación de datos sintéticos, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica
Área de conocimiento:	OTRAS ESPECIALIDADES MÉDICAS
Aparece en las colecciones:	Maestría en Ciencias y Tecnologías Biomédicas

Cargar archivos:

Fichero	Tamaño	Formato
SANCHEZMN_MCTB.pdf	2.77 MB	Adobe PDF	Visualizar/Abrir