Que Es Datamining
Que Es Datamining
Que Es Datamining
DataMining?
Agend
a
Qué es Data Mining?
Cómo se integra en el proceso de
Descubrimiento del conocimiento?
Funcionalidades del Data Mining
Técnicas
Supervisadas
Redes neuronales
Árboles
Regresión
No supervisadas
Clustering
Reglas de Asociación
Qué es Data
Mining?
“Es la extracción de patrones o información
interesante ( no trivial, implícita, previamente
desconocida y potencialmente útil) de grandes
bases de datos”
Preproceso y
Transformación
Data Mining
Conocimiento
Classifier
Testin
g Unseen Data
Data
(Jeff, Professor, 4)
NAM E R A N K YEARS TENURED
Tom Assistant Prof 2 no Tenured?
M erlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
Redes Neuronales
(1)
Son sistemas :
Capaces de aprender
Adaptarse a a condiciones variantes
Adaptarse al ruido
Predecir el estado futuro
Enfrentar problemas que eran resueltos sólo
por el cerebro humano
Redes Neuronales
(2)
No son algorítmicas
No se programan haciéndoles
seguir una secuencia predefinida
de instrucciones.
Las RNA generan ellas mismas sus
propias
"reglas", para asociar la respuesta a
su entrada;
Aprenden por ejemplos y de sus
propios errores.
Utilizan un procesamiento paralelo
mediante
un gran numero de elementos
altamente interconectados.
Redes Neuronales –
Aplicaciones
La clase de problemas que mejor se resuelven con las redes
neuronales son los mismos que el ser humano resuelve mejor
pero a gran escala.
Asociación,
Evaluación
Reconocimiento de Patrones.
Las redes neuronales son ideales para problemas que son muy
difíciles de calcular
No requieren de respuestas perfectas,
Sólo respuestas rápidas y buenas.
Ejemplos
Escenario bursátil: ¿Compro? ¿Vendo? ¿Mantengo?
Reconocimiento: ¿se parece? ¿es lo mismo con una
modificación?
Redes Neuronales - Neurona
Modelo
I1
ΣΣ
W1
W2
I2
W3
I3
I1.W1+ I2.W2+ I3.W3
Redes Neuronales - Red
Modelo
Σ
W1
I1 W2
W3
Σ
W1
W2
W3
I2
Σ
W1
W2
W3
Σ
W1
W2
W3
I3
Σ
W1
W2
W3
Árbol de Decisión para ver
quien compra una
computadora
Edad
<=30 overcas
30 - 40 >40
t
Estudiante Si Crédito
No Si excelente pobre
No Si No Si
Clasificación por medio
de Árboles de
Decisión
Árboles de Decisión
Los nodos internos son preguntas sobre los
atributos
Las hojas representan las etiquetas o clases
resultantes
<=30 overcas
30 - 40 >40
t
Si 90
Estudiante Si NO 60
Crédito
P 0.6
No Si excelente pobre
Si 30 Si 70
No Si
NO
20
160
Si Si
NO
190
50
No NO 120 Si NO 30
P 0.8 P 0.7
P 0.88 P 0.8
Extración de reglas de
clasificación a partir de
losel árboles
Representa conocimiento en la forma de reglas de
IF-
THEN
Se genera una regla para cada camino desde la
raíz hasta las hojas.
Cada par atributo – valor forma una conjunción
La hoja tiene la clase a predecir
Las reglas son fácilmente entendibles por los seres
humanos
Ejemplos:
IF edad = “<=30” AND estudiante = “no” THEN compra_PC = “no”
IF edad = “<=30” AND estudiante = “yes” THEN compra_PC =
IF edad = “31 - 40” THEN compra_PC = “si” “si”
IF edad = “>40” AND credito = “excelente” THEN compra_PC =
“si”
IF edad = “>40” AND credito = “pobre” THEN compra_PC = “no”
Evitar el Overfitting en la
clasificación
El árbol obtenido puede hacer overfitting sobre el
conjunto de
entrenamiento
Si hay demasiadas ramas algunas pueden reflejar
anomalías
Como consecuencia de esto se tiene una
performance muy mala sobre ejemplos nuevos
Dos aproximaciones para evitar el overfitting
Prepruning: Interrumpir la construcción del arbol en
forma anticipada. No partir un nodo si la mejora que
esto podruce está por debajo de un cierto umbral.
Es dificil encontrar el umbral adecuado
Postpruning: quitar ramas de un árbol ya
contruido
Se puede usar un conjunto
diferentedel de entrenamiento para hacer
esto.
Matriz de
confusión
Clase Predicha
Bueno Malo
Clase Real Bueno 15 5
Malo 10 115
5/145
Ejemplo
s
Detección de Valores
Extremos,
Los conjuntos de Outliers
datos que analizamos generalmente
proporcionan un subconjunto de datos en el que existe una
variabilidad y/o una serie de errores. Estos datos siguen un
comportamiento diferente al resto del conjunto ya sea en una o
varias variables. Muchas veces es útil estudiarlos para detectar
anormalidades, mientras que otras veces es mejor descartarlos
de los análisis porque ensucian o influyen en los resultados (por
ejemplo en los promedios).
Orígenes de la
Variación
Variabilidad de la fuente. Es la que se manifiesta en la
observaciones y que se puede considerar como un
comportamiento natural de la población en relación a la variable
que se estudia.
Observación atípica: Es aquel valor que presenta una gran variabilidad de tipo inherente.
Observación errónea: Es aquel valor que se encuentra afectado de algún tipo de error, sea
del medio, del experimentador, o de ambos.
41
Distanci
as p
xj k
d ij W k x ik City-Block (Manhatan)
k 1
d ij
W x ik x jk
2 Euclídea
k 1 k
d ij W x ik x jk
0 Minkowski
k 1 k
Otras
p p
x ik x x ik xi x
jk jk
xj
k p 1 k p 1
d ij d ij
p
x ik2
x 2
jl
2
k 1 l 1
x
x ik 2
k 1 jl
j
l 1
Manhattan versus
Euclidean
e (x f
Normalizar (z-score)
xif m f
zif sf
44
Variables
binarias
Una tabla de contingencia
Object j
1 0 sum
1 a b a b
0
c d cd
Object i
sum a c b d p
Coeficiente d(i, j) b c
simple a
b c d
Coeficiente de d(i, j) b
Jaccard : c
a b
c
45
Variables
Nominales
Pueden tomar más de dos estados : estado
civil
Método1: Macheo Simple
m: # de coincidencias, p: # total de
variables
d ( i , j ) p p m
46
Variables
ordinales
Puede ser discreta o continua, el orden es
importante, por ejemplo nivel de educación
Pueden ser tratadas como las numéricas
comunes
Reemplazando por su lugar en el ranking
r i f {1,...,M f }
normalizar r 1
z
M if
if
f
1
47
Formas de obtener un
cluster
Jerárquicas
No
jerárquicas
Clustering
Jerárquico
Usa la matriz de distancia como criterio. No
requiere que el número de cluster sea uno
de los parámetros de input
Soporte
Confianza
Lift (Improvement)
Ejempl
o
T1 = {A, B, C,
D} T2 = {B,
C}
T3 = {A, B, C}
T4 = {B, C,
D}
T5 = {A, D}
T6 = {A, B}
Soport
e
Es la cantidad (%) de transacciones en
donde se encuentra la regla.