Please use this identifier to cite or link to this item: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/720
Procesamiento difuso de características para la clasificación de clases traslapadas en el caso de leucemia aguda
ALEJANDRO ROSALES PEREZ
CARLOS ALBERTO REYES GARCIA
MARIA DEL PILAR GOMEZ GIL
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Genetic algorithms
Pattern classification
Fuzzy logic
In the field of medicine, it is desirable to have accurate methods to identify diseases properly. From a computational point of view, this identification involves several steps, among which we highlight classification. Classification has been used in the recognition of different diseases, acute leukemia being one of these. In the other hand, several classification problems contains types and subtypes, where the subtypes are morphologically similar among them, making difficult their differentiation. This thesis proposes an automatic selection of adequate ensemble of fuzzy classification models, adjusted to a specific problem represented by a training data set. Our model is based on a fuzzy processing of the features to reduce the degree of overlapping in the data set. This also provides a linguistic description of features, which are used in the building of the classifier. The system automatically determines the set of fuzzy _optimal_ classification models for different data sets, showing overlap among classes. For data sets with types and subtypes, as in a leukemia data set, a second step is executed, which consists of building a hierarchical classification path. In this way, information of class types of acute leukemia is used to classify subtypes of it. To get an optimal classification model, we use genetic algorithms to find a right combination of feature selection methods, type of fuzzy processing and fuzzy classifiers. This genetic algorithm allows to minimize the error over a cross validation scheme, and it determines the set of the most diverse fuzzy classifiers for the training data. These classifiers are part of an ensemble. The proposed method is tested in several data sets of acute leukemia and data sets from the UCI repository. Among the most important results obtained with our method is a 95:58% in correct classification of lymphoblastic and myeloid types of acute leukemia; a 90:72% in correct classification of subtypes of acute lymphoblastic leukemia, up to 94:94% in myeloid acute leukemia subtypes. Classification using a hierarchical path reported a 93:02% in subtypes of acute leukemia. With respect to classification of five data bases taken from UCI repository our proposed method got a 98:19% in the best case.
En el campo de la medicina es deseable contar con métodos cada vez más precisos que permitan identificar enfermedades de manera adecuada. Esta identificación, desde el punto de vista computacional, involucra varias etapas, entre las que podemos destacar la clasificación. La clasificación ha sido usada en el reconocimiento de diferentes enfermedades, siendo la leucemia aguda una de éstas. Por otro lado, en varios problemas de clasificación existen tipos y sub-tipos, donde estos últimos tienen características morfológicas similares entre ellos, lo que dificulta su reconocimiento. En el presente trabajo se propone la determinación automática de un ensamble de modelos de clasificación difusos adecuados al problema representado en los datos de entrenamiento. El modelo está basado en un preprocesamiento difuso de las características para reducir el grado de traslape en el conjunto de datos. Esto permite proveer a las características una descripción lingüística, las cuales son usadas en la clasificación. El sistema automáticamente determina el conjunto de modelos de clasificación difusos _óptimos_ para los diferentes conjuntos de datos, que presentan traslape entre sus clases. Para conjuntos de datos con tipos y subtipos, como en la base de datos de leucemia aguda, un segundo paso es ejecutado, el cual consiste en la construcción de un camino jerárquico para la clasificación. De esta manera, la información de las clases de tipos de leucemia aguda es usada para clasificar los subtipos de ésta. Para obtener un modelo “óptimo”, usamos algoritmos genéticos para encontrar la combinación correcta de método de selección de características, tipo de procesamiento difuso y clasificador difuso. Este algoritmo genético permite minimizar el error a través del esquema de validación cruzada, y determinar el conjunto de clasificadores difusos más diversos, dado el conjunto de entrenamiento. Estos clasificadores son parte de un ensamble. El método propuesto es probado con varios conjuntos de datos de leucemia aguda y conjuntos de datos disponibles en el repositorio UCI. Entre los resultados más importantes destacan 95:58% en clasificación correcta de tipos de leucemia aguda; 90:72% en clasificación correcta de subtipos de leucemia linfoide aguda, hasta un 94:94% en subtipos de leucemia mieloide aguda. En la clasificación usando la jerarquía se reporta un 93:02% en sub-tipos de leucemia aguda.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2011
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Rosales-Perez A.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Appears in Collections:Maestría en Ciencias Computacionales

Upload archives


File SizeFormat 
RosalesPA.pdf1.17 MBAdobe PDFView/Open