Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/506
Árboles de decisión para grandes conjuntos de datos | |
ANILU FRANCO ARCEGA | |
JESUS ARIEL CARRAZCO OCHOA GUILLERMO SANCHEZ DIAZ | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Decision trees Very large databases Artificial intelligence Pattern recognition | |
Decision Trees are are among the most used supervised classification algorithms.
Currently, there are several algorithms for building decision trees,
however, just a few of these algorithms allow processing large datasets. Besides,
those algorithms designed for processing large datasets have some restrictions,
for example: spatial restrictions; the number of times that they
have to scan the whole training set for building the decision tree; some algorithms
only use a small subsample of the training set, but for obtaining
this subsample they spend a lot of time, specially for large datasets; other
algorithms use several parameters, which can be very difficult to determine
by the user.
For this reason, in this thesis we propose algorithms for building decision
trees for large datasets, that solve the restrictions of the most recent algorithms
in the state of the art, considering that the number of classes is lesser
than the number of instances in the training set. The proposed algorithms
use the whole training set for building the decision tree, without storing the
whole training set in memory. In particular, in this thesis, we propose two
algorithms for building multivariate decision trees for instances described by
numeric attributes. The first algorithm uses all the attributes in the internal
nodes of the decision tree. However, if the instances are described by a
large number of attributes, the time needed for traversing the tree can be
too long. For this reason, we propose a second algorithm, which uses splitting
attribute subsets in the internal nodes. Although the previous algorithm generates
multivariate decision trees using splitting attribute subsets, the time
needed for traversing the decision tree can also be too long. Hence, in this
thesis, we propose two algorithms for building univariate decision trees. The
first one for instances described by numeric attributes, and the second for
instances with mixed attributes.
Based on the experimental results, we can conclude that our algorithms
are faster than the most recent algorithms for building decision trees for
large datasets, maintaining competitive accuracy. Therefore, the proposed
algorithms are a good option for building decision trees for large datasets. Los Árboles de Decisión son de los algoritmos de clasificación supervisada más utilizados. Actualmente existen diversos algoritmos de generación de árboles de decisión, sin embargo, son pocos los que permiten procesar grandes conjuntos de datos. Además, aquellos que lo permiten tienen diversas restricciones, por ejemplo, en cuanto al manejo de memoria y al número de veces que recorren el conjunto de entrenamiento para generar el árbol de decisión, o bien algunos algoritmos no usan el conjunto de entrenamiento completo o tienen parámetros que pueden ser difíciles de determinar por el usuario. Por esta razón, en esta tesis se proponen algoritmos para la generación de árboles de decisión para grandes conjuntos de datos, que superan las limitaciones de los algoritmos más recientes del estado del arte, asumiendo que el número de clases es mucho menor que el número de objetos en el conjunto de entrenamiento. Los algoritmos propuestos usan todo el conjunto de entrenamiento para generar el árbol de decisión, sin necesidad de almacenarlo completo en memoria. En particular, en esta tesis se proponen dos algoritmos que generan árboles de decisión multivaluados para objetos descritos por atributos numéricos. El primer algoritmo utiliza todo el conjunto de atributos, como atributos de prueba, en los nodos internos del árbol de decisión. Sin embargo, si los objetos están descritos en términos de una gran cantidad de atributos, el tiempo de procesamiento que emplea este algoritmo, cuando se recorre el árbol de decisión, puede ser muy grande. Por esta razón, se propone el segundo algoritmo, el cual utiliza subconjuntos de atributos en los nodos internos. No obstante, aunque se generen árboles de decisión multivaluados con subconjuntos de atributos, el recorrido del árbol de decisión puede ser costoso todavía. Por este motivo, en esta tesis también se proponen dos algoritmos para generar árboles de decisión univaluados. El primero de estos algoritmos es para objetos descritos por atributos numéricos y el segundo es para objetos con atributos mezclados. Con base en los resultados experimentales, concluimos que los algoritmos propuestos en esta tesis son más rápidos que los algoritmos más recientes para generación de árboles de decisión a partir de grandes conjuntos de datos, obteniendo una calidad de clasificación competitiva. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2010-07 | |
Tesis de doctorado | |
Español | |
Estudiantes Investigadores Público en general | |
Franco-Arcega A. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Doctorado en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
FrancoArA.pdf | 1.84 MB | Adobe PDF | Visualizar/Abrir |