Por favor, use este identificador para citar o enlazar este ítem: http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/598
Nuevos métodos de selección de objetos y su aplicación sinérgica
MILTON GARCÍA BORROTO
JOSE FRANCISCO MARTINEZ TRINIDAD
Acceso Abierto
Atribución-NoComercial-SinDerivadas
Object selection
Object selection methods combination
Supervised classification
Nearest neighbor rule
Mixed and incomplete data
The k Nearest Neighbor rule is one of the most popular classifiers used nowadays, because of its simplicity and good results with not a priori knowledge about statistical data distribution. However, for practical problems, this rule has some drawbacks. In this work we face the solution of two of the most important: intolerance to noisy objects and high computational cost for classification. In the related literature many methods can be found, with dissimilar behavior in different databases. A more recent approach is related with synergic methods combination, where some methods are combined, obtaining a superior behavior. In this work two new editing methods and two new condensing methods are proposed. They have a good individual behavior and a very good combined behavior. All of them can efficiently and correctly deal with mixed and incomplete data. A significant modification of Pareto frontier, when including our methods in the combinations, shows an improvement in the state of the art. A deeper study in different combination strategies reveals some properties of each one. The relationship between the quality of results and class mixing were also determined. The degree of class mixing was properly measured using metadata.
La regla de los k Vecinos más Cercanos es uno de los clasificadores más populares en la actualidad, tanto por su sencillez de funcionamiento y buenos resultados prácticos, como por no necesitar ningún conocimiento a priori de las distribuciones de los datos. Sin embargo, para resolver problemas prácticos, presenta varios inconvenientes. En este trabajo se aborda la solución de dos de los más importantes: la intolerancia a objetos ruidosos, y el alto costo computacional de la clasificación. En la revisión bibliográfica realizada, se pudo verificar que existen una cantidad muy grande de métodos, con comportamientos disimilares en diferentes bases de datos. Otra tendencia detectada es la utilización de combinaciones de métodos, que aprovechen de manera sinérgica las ventajas de cada método, ayudando a mitigar sus puntos débiles. En este trabajo se presentan dos nuevos métodos de edición y dos nuevos métodos de condensación, con buen comportamiento individual, y muy buen comportamiento en combinaciones, tanto con datos mezclados e incompletos como con datos numéricos. La modificación apreciable de la frontera de Pareto al incluirlos en las comparaciones muestra que se realizó un aporte al estado del arte. Un estudio con mayor profundidad de los resultados de diferentes estrategias de combinación de métodos permitió enunciar propiedades de cada una de ellas. Además se determinó la dependencia entre la calidad de los resultados de cada estrategia y el entremezclado de las clases, medido mediante un meta – dato.
Instituto Nacional de Astrofísica, Óptica y Electrónica
2007
Tesis de maestría
Español
Estudiantes
Investigadores
Público en general
García-Borroto M
BANCOS DE DATOS
Versión aceptada
acceptedVersion - Versión aceptada
Aparece en las colecciones: Maestría en Ciencias Computacionales

Cargar archivos:


Fichero Tamaño Formato  
GarciaBM.pdf790.86 kBAdobe PDFVisualizar/Abrir