Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/335
SMOTE-D, Una versión determinista de SMOTE
FREDY RODRIGUEZ TORRES
JESUS ARIEL CARRAZCO OCHOA
JOSE FRANCISCO MARTINEZ TRINIDAD
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Determinist of SMOTE
Minority class
SMOTE
Over-sampling based on SMOTE
En diferentes aplicaciones prácticas es común que se presente desbalance entre clases. Este problema aparece cuando la cantidad de objetos en una clase es mucho menor que en la otra. Esta diferencia en el tamaño de las clases causa que los métodos de clasificación favorezcan a la clase con mayor cantidad de objetos (mayoritaria), produciendo un mal desempeño de clasificación para la clase con menor cantidad de objetos (minoritaria). Las soluciones propuestas en la literatura, para el problema de desbalance entre clases, pueden dividirse en dos tipos: soluciones a nivel algorítmico y soluciones a nivel de datos. Las soluciones a nivel algorítmico modifican los algoritmos de clasificación para mejorar la clasificación en la clase minoritaria. Por otra parte, las soluciones a nivel de datos utilizan métodos de re-muestreo para balancear el conjunto de datos. Dentro de los métodos de re-muestreo podemos encontrar 3 tipos: submuestreo, sobre-muestreo y re-muestreo híbrido. Los métodos de sub-muestreo reducen la cantidad de objetos en la clase mayoritaria con el objetivo de balancear el conjunto de datos, esto tiene la ventaja de que los modelos de clasificación sean más simples y rápidos. Los métodos de sobre-muestreo incrementan la cantidad de objetos de la clase minoritaria al generar nuevos objetos sintéticos. Dicha generación tiene como objetivo balancear el conjunto de datos, resultando a la vez en una mejora de la clasificación para los objetos de la clase minoritaria, los cuales usualmente son los de mayor interés. Finalmente, los métodos de re-muestreo híbrido combinan los dos tipos de métodos anteriores, persiguiendo las ventajas de ambos. En esta tesis se propone una versión determinista de SMOTE (Synthetic Minority Over-sampling Technique), uno de los métodos de sobre-muestreo más conocidos de la literatura, el cual genera objetos sintéticos de forma aleatoria entre dos objetos de la clase minoritaria. En esta tesis no estudiamos los métodos de sub-muestreo, ya que nuestro principal interés es mejorar la clasificación de objetos de la clase minoritaria, sin eliminar objetos de la clase mayoritaria, lo cual puede producir pérdida de información importante. Finalmente, se realizó una comparación del método propuesto contra SMOTE y algunos métodos de sobre-muestreo basados en SMOTE, utilizando conjuntos de datos con desbalance obtenidos del repositorio KEEL, mostrando las bondades del método propuesto.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2017-03
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Rodriguez-Torres F.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Descripción Tamaño Formato  
RodriguezTF.pdf1.34 MBAdobe PDFVisualizar/Abrir