Por favor, use este identificador para citar o enlazar este ítem:
http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/718
Descubrimiento de patrones similares frecuentes para la minería de reglas de asociación sobre datos mezclados | |
ANSEL YOAN RODRIGUEZ GONZALEZ | |
JOSE FRANCISCO MARTINEZ TRINIDAD | |
Acceso Abierto | |
Atribución-NoComercial-SinDerivadas | |
Data mining Association rules Frequent patterns Knowledge discovery in data | |
Association Rule Mining is an important task in Knowledge Discovery from Data. It
has been applied to marketing, crime analysis, bioinformatics, medicine, network security,
etc. The aim of Association Rule Mining is finding interesting ”if-then” rules between
combinations of feature values that describe the objects in a dataset. Commonly, an
association rule is considered interesting if its frequency and confidence2 are greater
than or equal to user-specified frequency and confidence thresholds.
Usually, mining association rules consists in: I) Searching frequent patterns (descriptions
of objects whose frequency is greater than or equal to a minimum threshold frequency);
II) Extracting interesting association rules from frequent patterns.
The first step (also called Frequent Pattern Mining) is the most computationally
expensive. Consequently, many works have focused on this problem. Frequent patterns
represent regularities that appear in the data. Depending on the application area, these
patterns could be interpreted as user profiles, modus operandi, syndromes and risk factors,
among others. Frequent patterns have also been used in other data mining tasks,
different from association rule mining, such as classification and clustering.
In the traditional approach for mining frequent patterns and mining association rules,
datasets are described only by Boolean features. However, there are application areas like
geology, medicine, biology and sociology where datasets may contain objects described
simultaneously by numerical and non-numerical features (Mixed Data). Additionally, in
many applications, two objects are almost never exactly equal, and therefore similarity
functions different from the equality are used to compare objects.
The literature reports only one algorithm for association rule mining using similarity
functions different from the equality, which finds association rules hidden for the
traditional approach. Nevertheless, this algorithm was designed for Boolean similarity
functions that satisfy that: if two objects are not similar with respect to a set of features,
then they are not similar with respect to any superset of it. However, there are problems
where the similarity function between object descriptions and subscriptions does not
satisfy this property. Moreover, there are problems where the similarity functions are not
Boolean. La Minería de Reglas de Asociación es una tarea importante del descubrimiento de conocimiento en datos. La misma ha sido aplicada en mercadeo, análisis de crímenes, bioinformática, medicina, seguridad de redes, etc. El objetivo de la Minería de Reglas de Asociación es encontrar asociaciones interesantes de la forma “si antecedente entonces consecuente”, entre combinaciones de los valores de los atributos que describen a los objetos de una colección de datos. Comúnmente, una regla de asociación es interesante si su frecuencia y su confianza1 son mayores o iguales que umbrales de frecuencia y confianza especificados por el usuario. Generalmente, minar reglas de asociación, consiste en: I) Encontrar todos los patrones frecuentes (descripciones de objetos cuya frecuencia es mayor o igual que un umbral de mínima frecuencia); II) Extraer las reglas de asociación interesantes a partir de los patrones frecuentes. El primer paso (también llamado Minado de Patrones Frecuentes) es el más costoso computacionalmente. Como consecuencia, muchos trabajos se han enfocado en este problema. Los patrones frecuentes representan regularidades que aparecen en los datos. En dependencia del área de aplicación, estos patrones pueden ser interpretados como perfiles de usuarios, modus operandi, síndromes o factores de riesgo, entre otros. Los patrones frecuentes también han sido usados en otras tareas de minería de datos, diferentes del minado de reglas de asociación, como la clasificación y el agrupamiento. En el enfoque tradicional de minado de patrones frecuentes y de reglas de asociación, las colecciones de datos están descritas exclusivamente por atributos Booleanos. Sin embargo, existen áreas de aplicación como geología, medicina, biología y sociología donde las colecciones de datos pueden contener objetos descritos simultáneamente por atributos numéricos y no numéricos (Datos Mezclados). Adicionalmente, en muchas aplicaciones, dos objetos casi nunca son exactamente iguales, y por lo tanto, para compararlos se utilizan funciones de semejanza diferentes de la igualdad. En la literatura solo se ha reportado un algoritmo para el minado de reglas de asociación usando funciones de semejanzas diferentes de la igualdad, el cual encuentra reglas de asociación ocultas para el enfoque tradicional. | |
Instituto Nacional de Astrofísica, Óptica y Electrónica | |
2011-03 | |
Tesis de doctorado | |
Español | |
Estudiantes Investigadores Público en general | |
Rodriguez-Gonzalez A.Y. | |
CIENCIA DE LOS ORDENADORES | |
Versión aceptada | |
acceptedVersion - Versión aceptada | |
Aparece en las colecciones: | Doctorado en Ciencias Computacionales |
Cargar archivos:
Fichero | Tamaño | Formato | |
---|---|---|---|
RodriguezGoAY.pdf | 2.65 MB | Adobe PDF | Visualizar/Abrir |