Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/604
Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper
SAUL SOLORIO FERNANDEZ
JESUS ARIEL CARRAZCO OCHOA
JOSE FRANCISCO MARTINEZ TRINIDAD
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Calinski harabase index
Laplacian score
Feature ranking
Unsupervised feature selection
Pattern clustering
Unsupervised clustering
Through the years, feature selection has played an important role in areas such as: Pattern Recognition, Machine Learning and Data Mining, this because in many real world problems, data are processed as multidimensional vectors (objects of study), which are described or represented by a feature set. However, in many situations not all features often contribute to the proper classification or data analysis; so it can have negative impact the consideration of these features. Such features are commonly called irrelevant and/or redundant features. In unsupervised classification, also known as clustering, feature selection methods have been less studied in comparison with the feature selection methods for supervised classification. This is mainly because there is no standard measure for assessing the quality of the clusters, and therefore for assess the relevance of a feature subset without resorting to the class labels of the objects of study, since for unsupervised classification problems, labels are not available during the classification and/or selection process. As in supervised classification, it is advisable to apply feature selection methods in the context of unsupervised classification, since irrelevant or redundant features can adversely and drastically affect the outcome of the clustering algorithms. Also, because applying the feature selection methods, requirements both storage and processing are reduced; nowadays, feature selection methods have become very popular and necessary. There are two main approaches for unsupervised feature selection: methods that are based on a filter approach, and the methods with a wrapper approach. The first methods are characterized by fast and scalable, suitable for working with many features; on the other hand, the methods with a wrapper approach are often characterized by the high quality of the feature subsets selected. Recently, hybrid feature selection methods with a filter-wrapper approach have been developed. These methods have been less studied than the others, and with them are intended to have a good compromise between speed that characterizes the methods with filter approach and the quality of the methods with a wrapper approach. On the other hand, most hybrid methods in the literature perform “random sampling of objects”, since they are not able to process the entire dataset due to its high computational cost.
A través de los años, la selección de variables ha jugado un papel importante en áreas tales como: Reconocimiento de Patrones, Aprendizaje Automático y Minería de Datos, esto debido a que, en muchos problemas del mundo real, habitualmente se procesan datos en forma de vectores multidimensionales (objetos de estudio) descritos o representados por un conjunto de variables. Sin embargo, en muchas situaciones no todas las variables suelen contribuir a la correcta clasificación o análisis de los datos; pudiendo tener efectos negativos su consideración. Este tipo de variables se conocen comúnmente como variables irrelevantes y/o redundantes. En clasificación no supervisada, conocida también como clustering, los métodos de selección de variables han sido menos estudiados en comparación con los métodos de selección de variables para clasificación supervisada. Esto se debe principalmente a que no existe una medida estándar para evaluar la calidad de los agrupamientos, y por lo tanto para evaluar la relevancia de un subconjunto de variables sin recurrir a la clase a la que pertenecen los objetos de estudio; ya que en escenarios no supervisados, las clases no están disponibles durante los procesos de clasificación y/o selección. Al igual que en clasificación supervisada, es aconsejable aplicar métodos de selección variables en el contexto de clasificación no supervisada, ya que las variables irrelevantes o redundantes pueden afectar drásticamente el resultado de los algoritmos de agrupamiento. También, debido a que al aplicar los métodos de selección de variables los requerimientos tanto de almacenamiento como de procesamiento se reducen; los métodos de selección de variables se han vuelto muy populares y necesarios en la actualidad. Existen dos enfoques principales para la selección de variables en clasificación no supervisada: los métodos que se basan en un enfoque filter, y los métodos con un enfoque wrapper. Los primeros se caracterizan por ser rápidos y escalables, adecuados para trabajar con muchas variables; por su parte, los métodos con un enfoque wrapper a menudo se caracterizan por la buena calidad de los subconjuntos de variables seleccionados. Recientemente los métodos con un enfoque híbrido filter-wrapper han sido desarrollados. Estos métodos han sido menos estudiados que los anteriores, y con ellos se pretende tener un buen compromiso entre la rapidez que caracteriza a los métodos con enfoque filter y la calidad de los métodos con un enfoque wrapper.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2010-11
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
Solorio-Fernandez S.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
SolorioFS.pdf4.66 MBAdobe PDFVisualizar/Abrir