Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/604
Selección de variables para clasificación no supervisada utilizando un enfoque híbrido Filter-Wrapper | |
SAUL SOLORIO FERNANDEZ | |
JESUS ARIEL CARRAZCO OCHOA JOSE FRANCISCO MARTINEZ TRINIDAD | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Calinski harabase index Laplacian score Feature ranking Unsupervised feature selection Pattern clustering Unsupervised clustering | |
Through the years, feature selection has played an important role in areas such as:
Pattern Recognition, Machine Learning and Data Mining, this because in many real
world problems, data are processed as multidimensional vectors (objects of study),
which are described or represented by a feature set. However, in many situations
not all features often contribute to the proper classification or data analysis; so it
can have negative impact the consideration of these features. Such features are
commonly called irrelevant and/or redundant features.
In unsupervised classification, also known as clustering, feature selection
methods have been less studied in comparison with the feature selection methods
for supervised classification. This is mainly because there is no standard measure
for assessing the quality of the clusters, and therefore for assess the relevance of a
feature subset without resorting to the class labels of the objects of study, since for
unsupervised classification problems, labels are not available during the
classification and/or selection process.
As in supervised classification, it is advisable to apply feature selection methods
in the context of unsupervised classification, since irrelevant or redundant features
can adversely and drastically affect the outcome of the clustering algorithms. Also,
because applying the feature selection methods, requirements both storage and
processing are reduced; nowadays, feature selection methods have become very
popular and necessary.
There are two main approaches for unsupervised feature selection: methods that
are based on a filter approach, and the methods with a wrapper approach. The first
methods are characterized by fast and scalable, suitable for working with many
features; on the other hand, the methods with a wrapper approach are often
characterized by the high quality of the feature subsets selected. Recently, hybrid
feature selection methods with a filter-wrapper approach have been
developed. These methods have been less studied than the others, and with them
are intended to have a good compromise between speed that characterizes the methods with filter approach and the quality of the methods with a wrapper
approach.
On the other hand, most hybrid methods in the literature perform “random
sampling of objects”, since they are not able to process the entire dataset due to its
high computational cost. A través de los años, la selección de variables ha jugado un papel importante en áreas tales como: Reconocimiento de Patrones, Aprendizaje Automático y Minería de Datos, esto debido a que, en muchos problemas del mundo real, habitualmente se procesan datos en forma de vectores multidimensionales (objetos de estudio) descritos o representados por un conjunto de variables. Sin embargo, en muchas situaciones no todas las variables suelen contribuir a la correcta clasificación o análisis de los datos; pudiendo tener efectos negativos su consideración. Este tipo de variables se conocen comúnmente como variables irrelevantes y/o redundantes. En clasificación no supervisada, conocida también como clustering, los métodos de selección de variables han sido menos estudiados en comparación con los métodos de selección de variables para clasificación supervisada. Esto se debe principalmente a que no existe una medida estándar para evaluar la calidad de los agrupamientos, y por lo tanto para evaluar la relevancia de un subconjunto de variables sin recurrir a la clase a la que pertenecen los objetos de estudio; ya que en escenarios no supervisados, las clases no están disponibles durante los procesos de clasificación y/o selección. Al igual que en clasificación supervisada, es aconsejable aplicar métodos de selección variables en el contexto de clasificación no supervisada, ya que las variables irrelevantes o redundantes pueden afectar drásticamente el resultado de los algoritmos de agrupamiento. También, debido a que al aplicar los métodos de selección de variables los requerimientos tanto de almacenamiento como de procesamiento se reducen; los métodos de selección de variables se han vuelto muy populares y necesarios en la actualidad. Existen dos enfoques principales para la selección de variables en clasificación no supervisada: los métodos que se basan en un enfoque filter, y los métodos con un enfoque wrapper. Los primeros se caracterizan por ser rápidos y escalables, adecuados para trabajar con muchas variables; por su parte, los métodos con un enfoque wrapper a menudo se caracterizan por la buena calidad de los subconjuntos de variables seleccionados. Recientemente los métodos con un enfoque híbrido filter-wrapper han sido desarrollados. Estos métodos han sido menos estudiados que los anteriores, y con ellos se pretende tener un buen compromiso entre la rapidez que caracteriza a los métodos con enfoque filter y la calidad de los métodos con un enfoque wrapper. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2010-11 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
Solorio-Fernandez S. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
SolorioFS.pdf | 4.66 MB | Adobe PDF | Visualizar/Abrir |