Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/1948
Hierarchical classification with bayesian networks and chained classifiers
JONATHAN SERRANO PEREZ
Luis Enrique Sucar Succar
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Hierarchical classification
Bayesian networks
Artificial datasets
Hierarchical classification (HC) is a especial type of multi-label classification, that is, there is a set of labels, and instances can be associated to a subset of the labels. Nevertheless, in HC, the labels are arranged in a predefined structure, which is usually tree but in its general form is a Directed Acyclic Graph (DAG). Furthermore, in HC there are different problems, which can be described by the type of hierarchical structure, the number of paths which an instance can be associated and the depth of the paths. In this work is proposed a method for hierarchical classification, which can handle tree and DAG hierarchies, and predicts a single path which always reaches a leaf node. The method takes advantage of the hierarchical structure to inuence the prediction of local classifiers with their neighbors, to achieve this, two different strategies are combined. The first is to represent the hierarchical structure as a Bayesian network, which represents the data distribution in the nodes while maintains the hierarchical constraint; the second is to train chained classifiers, that feed the Bayesian network, in this way, the classifiers are considering the hierarchical structure. Furthermore, four different variants of the method were implemented, the main difference between them is the neighbors that inuence the predictions on the chained classifiers. Due to the different hierarchical classification problems, the real world datasets for each problem are limited. So, a way to evaluate or extend the analysis of a method is to generate Artificial Datasets (AD). Thus, a method to build artificial datasets for different hierarchical classification problems is proposed. The method generates instances from the distribution of each node, so, it requires as input the distribution for each leaf node, the distributions for internal nodes are estimated by the method. In this way, several artificial datasets have been generated, which are divided in two main groups, those with hierarchy tree type and those with hierarchy DAG type. Both groups were made available to the scientific community. Finally, the different variants of the proposed method for HC were evaluated with real world and artificial datasets. Later, their results were compared against standard and state of the art methods, then all the results were analyzed with Friedman test and its post-hoc the Nemenyi test.
Clasificación Jerárquica (HC por sus siglas en ingles) es un tipo especial de clasificación multi-etiqueta, es decir, hay un conjunto de etiquetas a las cuales las instancias pueden estar asociadas. Sin embargo, en HC, las etiquetas están ordenadas en una estructura predefinida, la cual comúnmente es un árbol, pero en su forma general es un Grafo Acíclico Dirigido o DAG (del ingles Directed Acyclic Graph). Además, en HC hay diferentes problemas, los cuales pueden ser descritos por el tipo de estructura jerárquica, el número de trayectorias a las cuales una instancia puede estar asociada y la profundidad de las trayectorias. En este trabajo, se propone un método para la clasificación jerárquica, el cual funciona para jerarquías de tipo árbol y DAG, se predice una unica trayectoria la cual siempre alcanza un nodo hoja. El método toma ventaja de la estructura jerárquica para inuenciar las predicciones de los clasificadores locales con sus vecinos, para lograr esto, dos estrategias diferentes son combinadas. La primera es representar la estructura jerárquica como una red Bayesiana, la cual contiene la distribución de los datos en los nodos, mientras mantiene la restricción jerárquica; la segunda es entrenar clasificadores encadenados, los cuales alimentaran a la red Bayesiana, de esta forma, los clasificadores están considerando la estructura jerárquica. Además, cuatro diferentes variantes del método fueron implementadas, donde la principal diferencia entre ellas es los vecinos que inuencian las predicciones en los clasificadores encadenados. Debido a los diferentes problemas de clasificacifón jerárquica, los conjuntos de datos del mundo real para cada uno de ellos, es limitado. Por lo que, una forma para evaluar o extender el análisis de un método es utilizar conjunto de datos artífiales. Por lo tanto, un método para generar conjuntos de datos artificiales es propuesto. El método genera instancias de la distribución asociada a cada nodo, por lo que requiere como datos de entrada, las distribuciones asociadas a cada nodo hoja, pero las distribuciones para los nodos internos son estimadas por el método. De esta forma, varios conjuntos de datos artificiales fueron generados, los cuales se dividieron en dos grupos principales, aquellos con jerarquías de tipo árbol, y aquellos con jerarquías tipo DAG. Ambos grupos se hicieron disponibles a la comunidad científica.
Instituto Nacional de Astrofísica, Óptica y Electrónica.
2019-11
Tesis de maestría
Inglés
Estudiantes
Investigadores
Público en general
Serrano Pérez, J., (2019, Hierarchical classification with bayesian networks and chained classifiers, Tesis de Maestría, Instituto Nacional de Astrofísica, Óptica y Electrónica.
LENGUAJES DE PROGRAMACIÓN
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
SerranoPJ.pdf4.38 MBAdobe PDFVisualizar/Abrir