Please use this identifier to cite or link to this item: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/386
Clasificadores rápidos basados en el algoritmo del vecino más similar para datos mezclados
SELENE HERNANDEZ RODRIGUEZ
JOSE FRANCISCO MARTINEZ TRINIDAD
JESUS ARIEL CARRAZCO OCHOA
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Pattern recognition
Classification
Pattern classification
Nowadays, the classification task is very important in many fields such as Medicine, Geology, Astronomy, etc. The k nearest neighbor (k-NN) classifier has been widely used in Pattern Recognition, because of its simplicity and its good performance. The k-NN classifier uses a training set (T) of prototypes, whose class is known a priori. To decide the class of a new prototype, the k-NN classifier performs an exhaustive comparison between the prototype to classify and the prototypes in the training set, assigning to the new prototype a class, according to the classes of its k nearest neighbors in T. However, when the training set is large, the exhaustive comparison is expensive and sometimes inapplicable. In order to do fewer comparisons among prototypes, many fast k-NN classifiers have been developed; most of them are based on metric properties. Hence, the existing fast k-NN classifiers are applicable only when the comparison function is a metric (usually for numerical data). However, in some sciences such as Medicine, Geology, Sociology, etc., the prototypes are usually described by numerical and non numerical features (mixed data). In these cases, the comparison function does not necessarily satisfy metric properties. For this reason, it is important to develop fast k most similar neighbor (k-MSN) classifiers for mixed data and non metric comparisons functions.
Actualmente, el proceso de clasificación es muy importante en diversas áreas, como la Medicina, Geociencias, Astronomía, etc. Uno de los algoritmos más utilizados para clasificar, debido a su simplicidad y capacidad para resolver problemas complejos de Reconocimiento de Patrones, es el clasificador supervisado k vecinos más cercanos (k-NN). El clasificador k-NN está basado en un conjunto de prototipos de entrenamiento (T) cuya clase es conocida a priori. Dado un nuevo prototipo a clasificar, k-NN realiza una comparación exhaustiva entre el prototipo a clasificar y los prototipos del conjunto T, asignando al nuevo prototipo una clase, con base en las clases de sus k vecinos más cercanos en T. Sin embargo, cuando el conjunto de entrenamiento es muy grande, la comparación exhaustiva se vuelve costosa o inaplicable en algunos casos. Con el objetivo de realizar menos comparaciones entre prototipos, se han propuesto diversos clasificadores rápidos k-NN, basados en propiedades métricas de la función de distancia y por lo tanto son aplicables solamente cuando se dispone de una distancia (usualmente con datos numéricos). Sin embargo, en algunas ciencias como la Medicina, Geociencias, Sociología, etc., los prototipos generalmente están descritos por atributos numéricos y no numéricos (datos mezclados). En este caso, no siempre es posible asumir que la función de comparación cumple propiedades métricas. Por esta razón, existe la necesidad de proponer clasificadores rápidos basados en la búsqueda de los k vecinos más similares (k- MSN), los cuales sean aplicables a datos mezclados y funciones de comparación no métricas.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2009
Tesis de doctorado
Español
Estudiantes
Investigadores
Público en general
Hernandez-Rodriguez S.
CIENCIA DE LOS ORDENADORES
Versión aceptada
acceptedVersion - Versión aceptada
Appears in Collections:Doctorado en Ciencias Computacionales

Upload archives


File SizeFormat 
HernandezRoS.pdf1.51 MBAdobe PDFView/Open