Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/235
Agrupamiento en grandes conjuntos de datos mezclados | |
RICARDO MERLO GALEAZZI | |
JESUS ARIEL CARRAZCO OCHOA JOSE FRANCISCO MARTINEZ TRINIDAD | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Clustering Mixed data Large data K-means Divide and conquer method Convex clustering | |
En clasificación no supervisada (agrupamiento) se parte de un conjunto de datos no etiquetados para realizar la clasificación de los mismos. Existe una gran variedad de algoritmos para abordar el problema de clasificación no supervisada. Sin embargo, hoy en día el uso de diferentes dispositivos permite recabar fácilmente grandes canti-dades de información, lo que origina que muchos de los algoritmos de agrupamiento no puedan ser aplicados a grandes conjuntos de datos. Además, existen muchos pro-blemas en los cuales los objetos de estudio están descritos por variables numéricas y no numéricas (objetos mezclados), en donde para agrupar conjuntos datos mezclados es necesario aplicar un tratamiento especial de acuerdo al tipo de datos. Dar solución a estos problemas es la motivación para la búsqueda de un método de agrupamiento en grandes conjuntos de datos mezclados. En la literatura podemos encontrar buenos algoritmos de agrupamiento para datos mezclados que generan agrupamientos con formas convexas. Por ejemplo, el algo-ritmo de agrupamiento Fast Global k-Means permite construir agrupamientos con buena calidad en un tiempo razonable. Sin embargo, estos algoritmos resultan inapli-cables en grandes conjuntos de datos. Por esta razón, en esta tesis hemos propuesto un método de agrupamiento para grandes conjuntos de datos mezclados basado enuna estrategia divide y vencerás, teniendo como base al algoritmo Fast Global k-Means. El método propuesto es evaluado y comparado contra otros métodos de agrupamiento para grandes conjuntos de datos numéricos, reportados recientemente. El método pro-puesto ha mostrado obtener buenos resultados en términos de la calidad de los agru-pamientos construidos y del tiempo para construirlos, teniendo poca sensibilidad al orden del conjunto de datos a agrupar. También, se muestra la escalabilidad del mé-todo propuesto al agrupar grandes conjuntos de datos mezclados. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2013-12 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Merlo-Galeazzi R. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
MerloGR.pdf | 6.99 MB | Adobe PDF | Visualizar/Abrir |