Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/335
SMOTE-D, Una versión determinista de SMOTE | |
FREDY RODRIGUEZ TORRES | |
JESUS ARIEL CARRAZCO OCHOA JOSE FRANCISCO MARTINEZ TRINIDAD | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Determinist of SMOTE Minority class SMOTE Over-sampling based on SMOTE | |
En diferentes aplicaciones prácticas es común que se presente desbalance entre clases. Este problema aparece cuando la cantidad de objetos en una clase es mucho menor que en la otra. Esta diferencia en el tamaño de las clases causa que los métodos de clasificación favorezcan a la clase con mayor cantidad de objetos (mayoritaria), produciendo un mal desempeño de clasificación para la clase con menor cantidad de objetos (minoritaria). Las soluciones propuestas en la literatura, para el problema de desbalance entre clases, pueden dividirse en dos tipos: soluciones a nivel algorítmico y soluciones a nivel de datos. Las soluciones a nivel algorítmico modifican los algoritmos de clasificación para mejorar la clasificación en la clase minoritaria. Por otra parte, las soluciones a nivel de datos utilizan métodos de re-muestreo para balancear el conjunto de datos. Dentro de los métodos de re-muestreo podemos encontrar 3 tipos: submuestreo, sobre-muestreo y re-muestreo híbrido. Los métodos de sub-muestreo reducen la cantidad de objetos en la clase mayoritaria con el objetivo de balancear el conjunto de datos, esto tiene la ventaja de que los modelos de clasificación sean más simples y rápidos. Los métodos de sobre-muestreo incrementan la cantidad de objetos de la clase minoritaria al generar nuevos objetos sintéticos. Dicha generación tiene como objetivo balancear el conjunto de datos, resultando a la vez en una mejora de la clasificación para los objetos de la clase minoritaria, los cuales usualmente son los de mayor interés. Finalmente, los métodos de re-muestreo híbrido combinan los dos tipos de métodos anteriores, persiguiendo las ventajas de ambos. En esta tesis se propone una versión determinista de SMOTE (Synthetic Minority Over-sampling Technique), uno de los métodos de sobre-muestreo más conocidos de la literatura, el cual genera objetos sintéticos de forma aleatoria entre dos objetos de la clase minoritaria. En esta tesis no estudiamos los métodos de sub-muestreo, ya que nuestro principal interés es mejorar la clasificación de objetos de la clase minoritaria, sin eliminar objetos de la clase mayoritaria, lo cual puede producir pérdida de información importante. Finalmente, se realizó una comparación del método propuesto contra SMOTE y algunos métodos de sobre-muestreo basados en SMOTE, utilizando conjuntos de datos con desbalance obtenidos del repositorio KEEL, mostrando las bondades del método propuesto. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2017-03 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Rodriguez-Torres F. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
RodriguezTF.pdf | 1.34 MB | Adobe PDF | Visualizar/Abrir |