Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/506
Árboles de decisión para grandes conjuntos de datos
ANILU FRANCO ARCEGA
JESUS ARIEL CARRAZCO OCHOA
GUILLERMO SANCHEZ DIAZ
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Decision trees
Very large databases
Artificial intelligence
Pattern recognition
Decision Trees are are among the most used supervised classification algorithms. Currently, there are several algorithms for building decision trees, however, just a few of these algorithms allow processing large datasets. Besides, those algorithms designed for processing large datasets have some restrictions, for example: spatial restrictions; the number of times that they have to scan the whole training set for building the decision tree; some algorithms only use a small subsample of the training set, but for obtaining this subsample they spend a lot of time, specially for large datasets; other algorithms use several parameters, which can be very difficult to determine by the user. For this reason, in this thesis we propose algorithms for building decision trees for large datasets, that solve the restrictions of the most recent algorithms in the state of the art, considering that the number of classes is lesser than the number of instances in the training set. The proposed algorithms use the whole training set for building the decision tree, without storing the whole training set in memory. In particular, in this thesis, we propose two algorithms for building multivariate decision trees for instances described by numeric attributes. The first algorithm uses all the attributes in the internal nodes of the decision tree. However, if the instances are described by a large number of attributes, the time needed for traversing the tree can be too long. For this reason, we propose a second algorithm, which uses splitting attribute subsets in the internal nodes. Although the previous algorithm generates multivariate decision trees using splitting attribute subsets, the time needed for traversing the decision tree can also be too long. Hence, in this thesis, we propose two algorithms for building univariate decision trees. The first one for instances described by numeric attributes, and the second for instances with mixed attributes. Based on the experimental results, we can conclude that our algorithms are faster than the most recent algorithms for building decision trees for large datasets, maintaining competitive accuracy. Therefore, the proposed algorithms are a good option for building decision trees for large datasets.
Los Árboles de Decisión son de los algoritmos de clasificación supervisada más utilizados. Actualmente existen diversos algoritmos de generación de árboles de decisión, sin embargo, son pocos los que permiten procesar grandes conjuntos de datos. Además, aquellos que lo permiten tienen diversas restricciones, por ejemplo, en cuanto al manejo de memoria y al número de veces que recorren el conjunto de entrenamiento para generar el árbol de decisión, o bien algunos algoritmos no usan el conjunto de entrenamiento completo o tienen parámetros que pueden ser difíciles de determinar por el usuario. Por esta razón, en esta tesis se proponen algoritmos para la generación de árboles de decisión para grandes conjuntos de datos, que superan las limitaciones de los algoritmos más recientes del estado del arte, asumiendo que el número de clases es mucho menor que el número de objetos en el conjunto de entrenamiento. Los algoritmos propuestos usan todo el conjunto de entrenamiento para generar el árbol de decisión, sin necesidad de almacenarlo completo en memoria. En particular, en esta tesis se proponen dos algoritmos que generan árboles de decisión multivaluados para objetos descritos por atributos numéricos. El primer algoritmo utiliza todo el conjunto de atributos, como atributos de prueba, en los nodos internos del árbol de decisión. Sin embargo, si los objetos están descritos en términos de una gran cantidad de atributos, el tiempo de procesamiento que emplea este algoritmo, cuando se recorre el árbol de decisión, puede ser muy grande. Por esta razón, se propone el segundo algoritmo, el cual utiliza subconjuntos de atributos en los nodos internos. No obstante, aunque se generen árboles de decisión multivaluados con subconjuntos de atributos, el recorrido del árbol de decisión puede ser costoso todavía. Por este motivo, en esta tesis también se proponen dos algoritmos para generar árboles de decisión univaluados. El primero de estos algoritmos es para objetos descritos por atributos numéricos y el segundo es para objetos con atributos mezclados. Con base en los resultados experimentales, concluimos que los algoritmos propuestos en esta tesis son más rápidos que los algoritmos más recientes para generación de árboles de decisión a partir de grandes conjuntos de datos, obteniendo una calidad de clasificación competitiva.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2010-07
Tesis de doctorado
Español
Estudiantes
Investigadores
Público en general
Franco-Arcega A.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Doctorado en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
FrancoArA.pdf1.84 MBAdobe PDFVisualizar/Abrir