Primera Parte Curso DM
Primera Parte Curso DM
Primera Parte Curso DM
Minería de datos
Profesor: Fredy Troncoso
TRATAMIENTO DE VALORES NULOS
¿QUÉ PASA SI HAY UNA CANTIDAD CONSIDERABLE DE
VALORES NULOS EN UNA VARIABLE?
Los valores nulos en una variable ocurren cuando no se almacena el valor del dato en la
observación respectiva.
Los valores nulos son comunes y pueden inducir distorsión en las conclusiones obtenidas de los
datos.
Los datos nulos pueden ser de tres tipos:
◦ Completamente aleatorios (MCAR: missing completely at random): donde la probabilidad de dato nulo es el
mismo para todo registro.
◦ Aleatorios (MAR: missing at random): donde la probabilidad que la variable sea nula depende del valor de
otra variable. Por ejemplo, la probabilidad que una persona responda su edad en una encuesta depende del
genero.
◦ No aleatorios (NMAR: not missing at random ), donde el dato nulo depende de eventos no medibles o que no
se pueden controlar. Por ejemplo, el sensor del cual se obtienen los datos falla y no registra datos.
Ejemplo: Lista de pacientes con edad y resultado de un test
Patient ID: identificador
Age: variable independiente
Test Result: variable dependiente
MCAR: Pr(Test Result missing/ Age=23)= Pr(Test Result missing/ Age=75)
and Pr(Test Result missing/Test Result)= Pr(Test Result missing)
MAR: Pr(Test Result missing/ Age=23)=0,5 mientras que Pr(Test Result
missing/ Age=75)=0,0.
Pr(Test Result missing/Test Result <2000)= 0 mientras que para
Pr(Test Result missing/Test Result >2000)= 1,0
¿QUÉ PASA SI HAY UNA CANTIDAD CONSIDERABLE DE
VALORES NULOS EN UNA VARIABLE?
El método simplista para tratar los valores nulos es descartar las filas con valores
nulos.
Sin embargo, este método es práctico solo cuando las filas contienen un
pequeño número de valores nulos y cuando el análisis no induce un sesgo serio
en la inferencia.
Por otro lado, si un número significativo de filas contienen valores nulos para
una cantidad pequeña de atributos, puede ser provechoso la imputación de los
valores nulos.
CONSIDERABLE CANTIDAD DE VALORES NULOS EN UNA
VARIABLE O ATRIBUTO
◦ Los valores nulos son de tipo no aleatorio (NMAR), donde el dato no es posible reconstruirlo
debido a que el valor de un dato nulo no depende de otro dato.
◦ No se puede hacer imputación de datos pues no existe correlación entre el atributo que contiene
gran cantidad de valores nulos y otras variables.
◦ Que la cantidad de filas (casos) con valores nulos sean una baja proporción del total de filas.
◦ Cuando el análisis de todos los datos no produce un sesgo importante por no utilizar los registros
con datos perdidos.
MÉTODOS DE ELIMINACIÓN DE DATOS
Existen dos tipos de métodos de eliminación de datos:
◦ Eliminación de casos (listwise deletion): donde se conservan sólo aquellas filas (casos) que están
completos, es decir, se elimina cualquier fila que posea a lo menos un valor nulo.
◦ Eliminación de pares de casos (pairwise deletion): donde se conservan aquellas filas completas y
aquellos que tienen datos faltantes que no son variables necesarias para el análisis.
Estos métodos son simples, sin embargo no se recomienda su aplicación en los
siguientes casos:
◦ Si los datos nulos no se pueden ignorara, es decir, aportan información al análisis requerido.
MÉTODOS DE IMPUTACIÓN
MEAN INPUTATION (adecuado para MCAR):
◦ Para datos continuos el dato faltante es reemplazado por la media del atributo
correspondiente. Para datos discretos, el dato faltante es reemplazado por el valor más
frecuente (moda) del atributo correspondiente.
◦ La técnica usada por el software SPSS, es una regla similar a esta en la que si el registro de la
observación en una variable era mayor (menor) que la suma (resta), entre la media de la
variables y 2 veces la desviación estándar de esta, entonces se consideraba un valor fuera de
rango.
IDENTIFICACIÓN Y TRATAMIENTO DE OUTLIERS
MÉTODO DE LOS CUARTILES
◦ Los cuartiles son los tres valores (Q1, Q2, Q3) que dividen al conjunto de datos ordenados en
cuatro partes porcentualmente iguales.
◦ La diferencia entre el tercer cuartil y el primero se conoce como rango inter cuartílico,
RIC=Q3-Q1.
◦ En este método los valores outliers son los valores que se encuentran fuera del rango entre el
primer cuartil y el tercer cuartil.
◦ Los valores de los cuartiles se pueden obtener mediante la siguiente función Excel:
CUARTIL(Datos;N) donde los “Datos” corresponde a la columna de datos de una variable que
se quiere analizar y N corresponde al número de cuartil por el cual se está consultando.
IDENTIFICACIÓN Y TRATAMIENTO DE OUTLIERS
MÉTODO DE LOS CUARTILES
◦ Un criterio para determinar outlier a un punto P cualquiera es:
◦ Smoothing (suavizamiento), por ejemplo: usar promedios para reemplazar errores en los
datos.
◦ Agregación, por ejemplo: mostrar información en meses en lugar de días.
◦ Generalización, por ejemplo: definir a la gente como joven, adulta o anciana en lugar de su
edad exactamente.
◦ Normalización que es llevar los datos a una escala fija.
TIPOS DEVARIABLES O ATRIBUTOS
Variables Cualitativas: se usan para describir características
.
TRANSFORMACIÓN DE VARIABLES CUALITATIVAS A
NUMÉRICAS
Variables Cualitativas: se usan para describir características.
◦ Variables Cualitativas Nominales Dicotómicas: recodificar con números binarios, por ejemplo
Hombre=0 y Mujer=1.
◦ Variables Cualitativas Nominales Politómicas: creación de variables Dummy.
◦ Esta transformación comprime la escala para valores pequeños y la expande para valores
altos.
TRANSFORMACIÓN DE VARIABLES CUANTITATIVAS:
Transformaciones no lineales
◦ Para distribuciones asimétricas positivas se usan las transformaciones √x, ln(x) y 1/x, que
comprimen los valores altos y expanden los pequeños.
◦ El efecto de estas transformaciones está en orden creciente: menos efecto √x, más ln(x) y más
aún 1/x.
TRANSFORMACIÓN DE VARIABLES CUANTITATIVAS:
Transformaciones no lineales
Una propiedad de las transformaciones vistas es que:
◦ Son monótonas, es decir:
Lo que permite que las medidas basadas en el orden de los datos, como la mediana y los
cuartiles se mantenga igual y el resto cambia
◦ Métodos de filtro
◦ Métodos wrapper
◦ Métodos embebidos
SELECCIÓN DE ATRIBUTOS: método de filtro
En los métodos basados en filtros, los atributos son calificados de acuerdo a su poder predictivo
y luego son clasificados (ranking).
Los atributos con mayor calificación son seleccionados y usados para la el entrenamiento de un
modelo.
Los filtros tienen tres etapas principales descripción:
◦ Selección de un conjunto de atributos a ser evaluados
◦ Medición de la información contenida en el conjunto de atributos, bajo un umbral asociado a la
medición o criterio de parada.
◦ Prueba del conjunto de atributos seleccionado a través de un algoritmo de aprendizaje
SELECCIÓN DE ATRIBUTOS: métodos de filtro
SELECCIÓN DE ATRIBUTOS: método de filtro
Las ventajas de los métodos de filtro es que son rápidos y fáciles de interpretar.
Por otro lado, la mayor desventaja del enfoque de filtros es que ignora totalmente los efectos
del subconjunto de atributos seleccionados en el desempeño del algoritmo de inducción.
Las características de los modelos de filtro son :
◦ Los atributos se consideran independientes.
◦ Atributos redundantes pueden ser incluidos.
◦ Algunos atributos que como grupo tienen un fuerte poder discriminatorio pero son débiles
individualmente pueden ignorarse.
◦ El procedimiento de filtrado es independiente del método de clasificación.
SELECCIÓN DE ATRIBUTOS: métodos wrappers
Los métodos wrapper usan búsqueda iterativa en la cual muchos subconjuntos de atributos son
calificados en base a su desempeño en la clasificación. Luego, el mejor es usado.
Existen dos enfoques de selección de subconjuntos:
◦ Forward Selection: los atributos son progresivamente incorporadas en subconjuntos cada vez mas
grandes.
◦ Backward Elimination: se comienza con un conjunto equivalente a todos los atributos y se van
eliminando progresivamente.
◦ Computacionalmente costoso pues el clasificador (predictor) debe ser construido y evaluado para cada
subconjunto de atributos.
◦ Solo puede aplicarse búsqueda greedy (partir por los favoritos) debido a que una búsqueda exhaustiva
es imposible. La ventaja de la búsqueda greedy es su simpleza y rapidez para encontrar una solución. Su
desventaja es que la solución no es necesariamente optima.
La tabla de contingencia permite tener información cruzada sobre ambas variables, en este ejemplo
se puede observar que de los 108 hombres 65 fuman y 43 no, mientras que en el caso de las mujeres
58 fuman y 67 no.
En términos simples lo que se busca saber mediante esta tabla y el test X2 es, si influye ser hombre o
mujer en la condición de fumador o no fumador.
Métodos de filtro: Test X2(Chi-Cuadrado)
Para la aplicación del test X2 como método de filtro de variables, es necesario seguir los
siguientes pasos.
Identificar las variables cualitativas y cuantitativas.
Transformar las variables cuantitativas a cualitativas: Esta transformación se puede realizar
mediante la creación de categorías. Por ejemplo pasar de valores de ingreso a categorías como
Bajo, Medio o Alto.
Crear la tabla de contingencia para cada atributo con la variable objetivo. Los valores de esta
tabla serán los valores observados Oij.
Métodos de filtro: Test X2(Chi-Cuadrado)
Construir una tabla de contingencia con los valores esperados Eij .
Estos valores esperados reflejan la distribución esperada de la variable objetivo si esta fuera
dependiente de la distribución del atributo. Para esto se distribuye el total de cada clase (total
de si, total de no) de la variable objetivo según la distribución del atributo.
Se obtiene el valor del estadístico X2 para cada atributo según la siguiente formula:
Mediante algún criterio se escoge el subconjunto de los valores con menor valor de X2.
Ejemplo : Determine la importancia de los siguientes atributos para la
compra de un computador, según el estadístico de X2 .
Id edad Ingreso Actividad Evaluación crediticia Compra computador
1 25 1500 Medico 5,5 No
2 24 1200 Ingeniero 6,5 No
3 33 1000 Abogado 5,8 Si
4 42 550 Tecnico Mecánico 5,6 Si
5 45 200 Estudiante 5,6 Si
6 44 300 Estudiante 6,6 No
7 35 250 Estudiante 7 Si
8 28 650 Ed. Parvulos 5,8 No
9 26 350 Estudiante 5,9 Si
10 41 700 Estudiante 5,4 Si
11 21 650 Estudiante 6,3 Si
12 38 750 Psicologo 6,5 Si
13 33 1300 Estudiante 5,7 Si
14 46 800 Enfermera 6,8 No
La tabla transformada
Id edad Ingreso Actividad Evaluación crediticia Compra computador Id edad Ingreso Estudiante Evaluación crediticia Compra computador
1 25 1500 Medico 5,5 No 1 <=30 Alto no Buena No
2 24 1200 Ingeniero 6,5 No 2 <=30 Alto no Exelente No
3 33 1000 Abogado 5,8 Si 3 31...40 Alto no Buena Si
4 42 550 Tecnico Mecánico 5,6 Si 4 >40 Medio no Buena Si
5 45 200 Estudiante 5,6 Si 5 >40 Bajo si Buena Si
6 44 300 Estudiante 6,6 No 6 >40 Bajo si Exelente No
7 35 250 Estudiante 7 Si 7 31...40 Bajo si Exelente Si
8 28 650 Ed. Parvulos 5,8 No 8 <=30 Medio no Buena No
9 26 350 Estudiante 5,9 Si 9 <=30 Bajo si Buena Si
10 41 700 Estudiante 5,4 Si 10 >40 Medio si Buena Si
11 21 650 Estudiante 6,3 Si 11 <=30 Medio si Exelente Si
12 38 750 Psicologo 6,5 Si 12 31...40 Medio no Exelente Si
13 33 1300 Estudiante 5,7 Si 13 31...40 Alto si Buena Si
14 46 800 Enfermera 6,8 No 14 >40 Medio no Exelente No
Las tablas de contingencia: Valor Observado Oij
OBSERVADO Edad
Compra Computador <=30 31...40 >40 Total
Si 2 4 3 9
No 3 0 2 5
Total 5 4 5 14
0,36 0,28 0,36
OBSERVADO Ingreso
Compra Computador Alto Medio Bajo Total
Si 2 4 3 9
No 2 2 1 5
Total 4 6 4 14
0,285 0,43 0,285
OBSERVADO Estudiante
Compra Computador Si No Total
Si 6 3 9
No 1 4 5
Total 7 7 14
0,5 0,5
Información
contenida en A
respecto de la
clasificación
Información
necesaria para Ignorancia o
la clasificación entropía del
atributo A Por lo tanto a mayor valor de Ganancia de
respecto a la información un atributo es más importante
clasificación para la clasificación.
Métodos de filtro: Ganancia de Información
Gain (A) = I(s1,s2,…,sm) – E(A)
𝐼 𝑠1 , 𝑠2 , … , 𝑠𝑚 = - 𝑚 𝑣 𝑠1𝑗 +⋯+𝑠𝑚𝑗
𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 E 𝐴 = 𝑗=1 𝑠
𝐼 𝑠1𝑗 , … , 𝑠𝑚𝑗
𝑚
𝐼 𝑠1𝑗 , … , 𝑠𝑚 = - 𝑖=1 𝑝𝑖𝑗 𝑙𝑜𝑔2 𝑝𝑖𝑗
El valor mínimo del índice Gini(S) es cero, es decir, todos los miembros en el conjunto llegan a la misma
clase.
El valor del índice de Gini de un atributo A estará dado por:
2
𝑣 𝑠𝑗 𝑚 𝑠𝑖𝑗
Gini(A) = 𝑗=1 𝑠 (1- 𝑖=1 𝑠 )
𝑗
Edad 0,116
Poder predictivo (A) = Gini(S) – Gini(A) Ingreso 0,019
Estudiante 0,092
Evaluación Crediticia 0,428
Métodos de filtro: Índice de Correlación de Pearson
El coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables
aleatorias cuantitativas.
Es independiente de la escala de medida de las variables.
Puede utilizarse para medir el grado de relación lineal entre dos atributos o variables siempre y
cuando ambas sean cuantitativas.
El coeficiente de correlación de Pearson está dado por:
𝑐𝑜𝑣(𝑥,𝑦)
ρ=
σ 𝑥 σ𝑦
Donde:
𝑐𝑜𝑣 𝑥, 𝑦 : covarianza entre x e y.
σ𝑥 : Es la desviación estándar de x.
σ𝑦: Es la desviación estándar de y.
Métodos de filtro: Índice de Correlación de Pearson
El coeficiente de correlación de Pearson es representado comúnmente por la letra r cuando es
aplicado a una muestra.
Se puede obtener una expresión para r mediante la estimación de la covarianza y las varianzas
dadas por:
𝒏
𝒊=𝟏 𝑿𝒊 −𝑿 𝒀𝒊 −𝑿
r=
𝒏 𝑿𝒊 −𝑿 𝟐 𝒏 𝒀𝒊 −𝑿 𝟐
𝒊=𝟏 𝒊=𝟏