Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/386
Clasificadores rápidos basados en el algoritmo del vecino más similar para datos mezclados | |
SELENE HERNANDEZ RODRIGUEZ | |
JOSE FRANCISCO MARTINEZ TRINIDAD JESUS ARIEL CARRAZCO OCHOA | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Pattern recognition Classification Pattern classification | |
Nowadays, the classification task is very important in many fields such as Medicine, Geology,
Astronomy, etc. The k nearest neighbor (k-NN) classifier has been widely used in Pattern
Recognition, because of its simplicity and its good performance.
The k-NN classifier uses a training set (T) of prototypes, whose class is known a priori. To
decide the class of a new prototype, the k-NN classifier performs an exhaustive comparison
between the prototype to classify and the prototypes in the training set, assigning to the new
prototype a class, according to the classes of its k nearest neighbors in T. However, when the
training set is large, the exhaustive comparison is expensive and sometimes inapplicable.
In order to do fewer comparisons among prototypes, many fast k-NN classifiers have been
developed; most of them are based on metric properties. Hence, the existing fast k-NN
classifiers are applicable only when the comparison function is a metric (usually for numerical
data). However, in some sciences such as Medicine, Geology, Sociology, etc., the prototypes
are usually described by numerical and non numerical features (mixed data). In these cases,
the comparison function does not necessarily satisfy metric properties. For this reason, it is
important to develop fast k most similar neighbor (k-MSN) classifiers for mixed data and non
metric comparisons functions. Actualmente, el proceso de clasificación es muy importante en diversas áreas, como la Medicina, Geociencias, Astronomía, etc. Uno de los algoritmos más utilizados para clasificar, debido a su simplicidad y capacidad para resolver problemas complejos de Reconocimiento de Patrones, es el clasificador supervisado k vecinos más cercanos (k-NN). El clasificador k-NN está basado en un conjunto de prototipos de entrenamiento (T) cuya clase es conocida a priori. Dado un nuevo prototipo a clasificar, k-NN realiza una comparación exhaustiva entre el prototipo a clasificar y los prototipos del conjunto T, asignando al nuevo prototipo una clase, con base en las clases de sus k vecinos más cercanos en T. Sin embargo, cuando el conjunto de entrenamiento es muy grande, la comparación exhaustiva se vuelve costosa o inaplicable en algunos casos. Con el objetivo de realizar menos comparaciones entre prototipos, se han propuesto diversos clasificadores rápidos k-NN, basados en propiedades métricas de la función de distancia y por lo tanto son aplicables solamente cuando se dispone de una distancia (usualmente con datos numéricos). Sin embargo, en algunas ciencias como la Medicina, Geociencias, Sociología, etc., los prototipos generalmente están descritos por atributos numéricos y no numéricos (datos mezclados). En este caso, no siempre es posible asumir que la función de comparación cumple propiedades métricas. Por esta razón, existe la necesidad de proponer clasificadores rápidos basados en la búsqueda de los k vecinos más similares (k- MSN), los cuales sean aplicables a datos mezclados y funciones de comparación no métricas. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2009 | |
Tesis de doctorado | |
Español | |
Estudiantes Investigadores Público en general | |
Hernandez-Rodriguez S. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Doctorado en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
HernandezRoS.pdf | 1.51 MB | Adobe PDF | Visualizar/Abrir |