Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/720
Procesamiento difuso de características para la clasificación de clases traslapadas en el caso de leucemia aguda | |
ALEJANDRO ROSALES PEREZ | |
CARLOS ALBERTO REYES GARCIA MARIA DEL PILAR GOMEZ GIL | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Genetic algorithms Pattern classification Fuzzy logic | |
In the field of medicine, it is desirable to have accurate methods to identify
diseases properly. From a computational point of view, this identification involves
several steps, among which we highlight classification. Classification has been used
in the recognition of different diseases, acute leukemia being one of these. In the
other hand, several classification problems contains types and subtypes, where the
subtypes are morphologically similar among them, making difficult their differentiation.
This thesis proposes an automatic selection of adequate ensemble of fuzzy
classification models, adjusted to a specific problem represented by a training data
set. Our model is based on a fuzzy processing of the features to reduce the
degree of overlapping in the data set. This also provides a linguistic description of
features, which are used in the building of the classifier. The system automatically
determines the set of fuzzy _optimal_ classification models for different data sets,
showing overlap among classes. For data sets with types and subtypes, as in a
leukemia data set, a second step is executed, which consists of building a hierarchical
classification path. In this way, information of class types of acute leukemia
is used to classify subtypes of it.
To get an optimal classification model, we use genetic algorithms to find a right
combination of feature selection methods, type of fuzzy processing and fuzzy classifiers. This genetic algorithm allows to minimize the error over a cross validation scheme, and it determines the set of the most diverse fuzzy classifiers for the
training data. These classifiers are part of an ensemble.
The proposed method is tested in several data sets of acute leukemia and data
sets from the UCI repository. Among the most important results obtained with
our method is a 95:58% in correct classification of lymphoblastic and myeloid
types of acute leukemia; a 90:72% in correct classification of subtypes of acute
lymphoblastic leukemia, up to 94:94% in myeloid acute leukemia subtypes. Classification using a hierarchical path reported a 93:02% in subtypes of acute leukemia.
With respect to classification of five data bases taken from UCI repository our
proposed method got a 98:19% in the best case. En el campo de la medicina es deseable contar con métodos cada vez más precisos que permitan identificar enfermedades de manera adecuada. Esta identificación, desde el punto de vista computacional, involucra varias etapas, entre las que podemos destacar la clasificación. La clasificación ha sido usada en el reconocimiento de diferentes enfermedades, siendo la leucemia aguda una de éstas. Por otro lado, en varios problemas de clasificación existen tipos y sub-tipos, donde estos últimos tienen características morfológicas similares entre ellos, lo que dificulta su reconocimiento. En el presente trabajo se propone la determinación automática de un ensamble de modelos de clasificación difusos adecuados al problema representado en los datos de entrenamiento. El modelo está basado en un preprocesamiento difuso de las características para reducir el grado de traslape en el conjunto de datos. Esto permite proveer a las características una descripción lingüística, las cuales son usadas en la clasificación. El sistema automáticamente determina el conjunto de modelos de clasificación difusos _óptimos_ para los diferentes conjuntos de datos, que presentan traslape entre sus clases. Para conjuntos de datos con tipos y subtipos, como en la base de datos de leucemia aguda, un segundo paso es ejecutado, el cual consiste en la construcción de un camino jerárquico para la clasificación. De esta manera, la información de las clases de tipos de leucemia aguda es usada para clasificar los subtipos de ésta. Para obtener un modelo “óptimo”, usamos algoritmos genéticos para encontrar la combinación correcta de método de selección de características, tipo de procesamiento difuso y clasificador difuso. Este algoritmo genético permite minimizar el error a través del esquema de validación cruzada, y determinar el conjunto de clasificadores difusos más diversos, dado el conjunto de entrenamiento. Estos clasificadores son parte de un ensamble. El método propuesto es probado con varios conjuntos de datos de leucemia aguda y conjuntos de datos disponibles en el repositorio UCI. Entre los resultados más importantes destacan 95:58% en clasificación correcta de tipos de leucemia aguda; 90:72% en clasificación correcta de subtipos de leucemia linfoide aguda, hasta un 94:94% en subtipos de leucemia mieloide aguda. En la clasificación usando la jerarquía se reporta un 93:02% en sub-tipos de leucemia aguda. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2011 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Rosales-Perez A. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
RosalesPA.pdf | 1.17 MB | Adobe PDF | Visualizar/Abrir |