Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/598
Nuevos métodos de selección de objetos y su aplicación sinérgica | |
MILTON GARCÍA BORROTO | |
JOSE FRANCISCO MARTINEZ TRINIDAD | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Object selection Object selection methods combination Supervised classification Nearest neighbor rule Mixed and incomplete data | |
The k Nearest Neighbor rule is one of the most popular classifiers used nowadays,
because of its simplicity and good results with not a priori knowledge about statistical
data distribution. However, for practical problems, this rule has some drawbacks. In this
work we face the solution of two of the most important: intolerance to noisy objects and
high computational cost for classification.
In the related literature many methods can be found, with dissimilar behavior in different
databases. A more recent approach is related with synergic methods combination, where
some methods are combined, obtaining a superior behavior.
In this work two new editing methods and two new condensing methods are proposed.
They have a good individual behavior and a very good combined behavior. All of them
can efficiently and correctly deal with mixed and incomplete data. A significant
modification of Pareto frontier, when including our methods in the combinations, shows
an improvement in the state of the art.
A deeper study in different combination strategies reveals some properties of each one.
The relationship between the quality of results and class mixing were also determined.
The degree of class mixing was properly measured using metadata. La regla de los k Vecinos más Cercanos es uno de los clasificadores más populares en la actualidad, tanto por su sencillez de funcionamiento y buenos resultados prácticos, como por no necesitar ningún conocimiento a priori de las distribuciones de los datos. Sin embargo, para resolver problemas prácticos, presenta varios inconvenientes. En este trabajo se aborda la solución de dos de los más importantes: la intolerancia a objetos ruidosos, y el alto costo computacional de la clasificación. En la revisión bibliográfica realizada, se pudo verificar que existen una cantidad muy grande de métodos, con comportamientos disimilares en diferentes bases de datos. Otra tendencia detectada es la utilización de combinaciones de métodos, que aprovechen de manera sinérgica las ventajas de cada método, ayudando a mitigar sus puntos débiles. En este trabajo se presentan dos nuevos métodos de edición y dos nuevos métodos de condensación, con buen comportamiento individual, y muy buen comportamiento en combinaciones, tanto con datos mezclados e incompletos como con datos numéricos. La modificación apreciable de la frontera de Pareto al incluirlos en las comparaciones muestra que se realizó un aporte al estado del arte. Un estudio con mayor profundidad de los resultados de diferentes estrategias de combinación de métodos permitió enunciar propiedades de cada una de ellas. Además se determinó la dependencia entre la calidad de los resultados de cada estrategia y el entremezclado de las clases, medido mediante un meta – dato. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2007 | |
Tesis de maestría | |
Español | |
Estudiantes Investigadores Público en general | |
García-Borroto M | |
BANCOS DE DATOS | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Maestría en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
GarciaBM.pdf | 790.86 kB | Adobe PDF | Visualizar/Abrir |