Algoritmos de Asociación
Algoritmos de Asociación
Algoritmos de Asociación
ALGORITMOS DE ASOCIACIN
INTEGRANTES:
MARIO BARRIOS PACHECO
GUSTAVO RODRGUEZ ROMERO
PRESENTADO A:
JOHN ARRIETA ARRIETA
UNIVERSIDAD DE CARTAGENA
JUNIO DE 2015
Algoritmos de asociacin
Son algoritmos que buscan correlaciones entre diferentes atributos de un conjunto
de datos. La aplicacin ms comn de esta clase de algoritmo es la creacin de
reglas de asociacin.
Los algorimos de este tipo son:
A priori
Eclat
Partition
FP-Grow
Algoritmo A priori
El algoritmo tiene dos pasos: el paso JOIN(junta) y el paso PRUNE(optimizacin).
El paso JOIN consiste en calcular los conjuntos de K tems frecuentes, y el paso
PRUNE se encarga de depurar aquellos conjuntos de K tems que incluyen algn
K-1conjuntos de tems no frecuentes dentro o que no ha alcanzado el nivel de
soporte mnimo reduciendo la cantidad de K tems frecuentes, optimizando as el
proceso.
Ejemplo
Un gran supermercado lleva un seguimiento de los datos de ventas de la unidad
de mantenimiento de stock (SKU) para cada artculo, y por lo tanto es capaz de
saber qu artculos son comprados usualmente juntos. A priori es una forma
moderadamente eficaz de construir una lista de pares frecuentes comprado el
objeto de estos datos. La base de datos de transacciones consisten en los
conjuntos {1,2,3,4}, {1,2,3,4,5}, {2,3,4}, {2,3,5}, {1,2,4}, {1,3,4}, {2,3,4 , 5}, {1,3,4,5},
{3,4,5}, {1,2,3,5}. cada nmero de corresponde a un producto como "mantequilla"
o "agua". El primer paso de Apriori es contar las frecuencias, llamado los soportes,
de cada artculo miembro por separado:
Item
Support
Podemos definir un nivel de soporte mnimo para calificar como "frecuente", que
depende del contexto. Para este caso, dejar que el min support = 4. Por lo tanto,
todos son frecuentes. El siguiente paso es generar una lista de todos los 2 pares
de los elementos frecuentes. Haban cualquiera de los puntos anteriores no han
sido frecuentes, no habran sido incluidos como posible miembro de posibles
pares de 2 artculos. De esta manera, Apriori poda el rbol de todos los conjuntos
posibles. En la prxima paso que nuevamente seleccionamos slo estos
elementos (ahora 2 pares son elementos) que son frecuentes (los pares escritas
en negritatexto):
Item
support
{1,2}
{1,3}
{1,4}
{1,5}
{2,3}
{2,4}
{2,5}
{3,4}
{3,5}
{4,5}
Support
{1,2,4}
{2,3,4}
{2,3,5}
{3,4,5}
Support
Item
support
{1,2}
{1,3}
{1,4}
{1,5}
{2,3}
{2,4}
{2,5}
{3,4}
{3,5}
{4,5}
Algoritmo Eclat
El algoritmo Eclat se utiliza para realizar la minera de conjunto de elementos. Esto
nos permite encontrar patrones frecuentes en los datos como por ejemplo, si un
consumidor compra leche, tambin compra pan. Este tipo de patrn se llama
reglas de asociacin y se utiliza en muchos dominios de aplicacin.
La idea bsica del algoritmo Eclat es utilizar intersecciones en el conjunto de datos
para calcular el soporte de un conjunto de elementos candidatos para evitar la
generacin de subconjuntos que no existen en el rbol de prefijo.
Se basan en realizar un agrupamiento (clustering) entre los tems
para aproximarse al conjunto de tems frecuentes maximales y luego
emplean algoritmos eficientes para generar los tems frecuentes contenidos en
cada grupo. Para el agrupamiento proponen dos mtodos que son
empleados despus de descubrir los conjuntos frecuentes de dos elementos:
el primero, por clases de equivalencia: esta tcnica agrupa los itemsets que
tienen el primer tem igual. El segundo, por la bsqueda de cliques
Con la primera de las tcnicas se generan los conjuntos de tems frecuentes, con
la segunda se generan slo los conjuntos frecuentes maximales, los restantes
conjuntos frecuentes son subconjuntos de estos.
Algoritmo Partition
Este algoritmo propone fraccionar la base de datos en tantas partes como fueren
necesarias para que todas las transacciones en cada particin estn en la
memoria (Savesere, Omiecinski, y Navatie, 1995). En contraste con los vistos
hasta el momento, este algoritmo recorre la base de datos slo dos veces. En la
primera, cada particin es minada independientemente para encontrar los
conjuntos de tems frecuentes en la particin y luego se mezclan estos para
generar el total de los conjuntos de tems candidatos.
Muchos de estos pueden ser falsos positivos, pero ninguno falso negativo
(notemos que si existen m particiones, para que un itemset tenga soporte s debe
poseer un soporte no menor que s/m al menos en una de las m particiones, los
conjuntos candidatos sern por tanto los que cumplan esta condicin). En la
segunda pasada se cuenta la ocurrencia de cada candidato, aquellos cuyo soporte
es mayor que el mnimo soporte especificado se retienen como conjuntos
frecuentes. Este algoritmo emplea el mecanismo de interseccin entre conjuntos
para determinar su soporte, en este caso cada tem en una particin mantiene la
lista de los identificadores de las transacciones que contienen a dicho tem.