Please use this identifier to cite or link to this item: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/533
Aprendizaje automático a partir de conjuntos de datos no balanceados y su aplicación en el diagnóstico y pronóstico médico
LUIS JAVIER MENA CAMARE
JESUS ANTONIO GONZALEZ BERNAL
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Artificial intelligence
Decision trees
Data mining
When working with real-world applications we often find imbalanced datasets, those for which there exists a majority class with normal data and a minority class with abnormal or important data. In this work, we make an overview of the class imbalance problem; we review consequences, possible causes and existing strategies to cope with the inconveniences associated to this problem. As an effort to contribute to the solution of this problem, we propose a new rule induction algorithm named Rule Extraction for MEdical Diagnosis (REMED), as a symbolic one-class learning approach. For the evaluation of the proposed method, we used different medical diagnosis datasets taking into account quantitative metrics, comprehensibility, and reliability. We performed a comparison of REMED versus C4.5 and RIPPER combined with over-sampling and cost-sensitive strategies. This empirical analysis of the REMED algorithm showed it to be quantitatively competitive with C4.5 and RIPPER in terms of the area under the Receiver Operating Characteristic curve (AUC) and the geometric mean, but outperformed them in terms of comprehensibility and reliability. Results of our experiments show that REMED generated rules more comprehensible with patterns closer to well-known abnormal values associated to each considered medical dataset. Keywords: machine learning; imbalanced datasets; one-class learning; classification algorithm; rule extraction
Cuando trabajamos con aplicaciones del mundo real frecuentemente encontramos conjuntos de datos no balanceados, aquellos donde existe una clase mayoritaria con ejemplos normales y una clase minoritaria con ejemplos anormales o importantes. En este trabajo presentamos una revisión general del problema de clases no balanceadas, dicha revisión incluye consecuencias, posibles causas y estrategias existentes para enfrentar los inconvenientes asociados a este problema. Como un esfuerzo por contribuir con la solución del mismo, en este trabajo proponemos un nuevo algoritmo de inducción de reglas llamado Rule Extraction for Medical Diagnosis (REMED), el cual es un algoritmo simbólico basado en la técnica de aprendizaje de una sola clase. Para evaluar el método propuesto utilizamos diferentes conjuntos de datos médicos y tomamos en cuenta diferentes métricas cuantitativas, así como también la comprensibilidad y fiabilidad de los resultados. El desempeño de REMED fue comparado con el de los algoritmos simbólicos C4.5 y RIPPER, ambos combinados con estrategias costo-sensitivas y de sobre-muestreo. El análisis empírico de REMED mostró que éste fue cuantitativamente competitivo con C4.5 y RIPPER en términos de área bajo la curva ROC (AUC) y la media geométrica, pero superó a éstos en términos de comprensibilidad y fiabilidad. Los resultados de nuestros experimentos muestran que REMED generó sistemas de reglas más comprensibles, y con patrones más cercanos a los valores anormales conocidos que están asociados a cada uno de los datos médicos considerados. Palabras Clave: aprendizaje automático; conjuntos de datos no balanceado; aprendizaje de una sola clase; algoritmos de clasificación; extracción de reglas
Instituto Nacional de Astrofísica, Óptica y Electrónica
2008-09
Trabajo de grado, doctorado
Español
Estudiantes
Investigadores
Público en general
Mena-Camaré LJ
LENGUAJES DE PROGRAMACIÓN
Versión aceptada
acceptedVersion - Versión aceptada
Appears in Collections:Doctorado en Ciencias Computacionales

Upload archives


File SizeFormat 
MenaCaLJ.pdf1.85 MBAdobe PDFView/Open