Primera Parte Curso DM

LIMPIEZA DE LA BASE DE DATOS
Minería de datos
Profesor: Fredy Troncoso
TRATAMIENTO DE VALORES NULOS
¿QUÉ PASA SI HAY UNA CANTIDAD CONSIDERABLE DE
VALORES NULOS EN UNA VARIABLE?
Los valores nulos en una variable ocurren cuando no se almacena el valor del dato en la
observación respectiva.
Los valores nulos son comunes y pueden inducir distorsión en las conclusiones obtenidas de los
datos.
Los datos nulos pueden ser de tres tipos:
◦ Completamente aleatorios (MCAR: missing completely at random): donde la probabilidad de dato nulo es el
mismo para todo registro.
◦ Aleatorios (MAR: missing at random): donde la probabilidad que la variable sea nula depende del valor de
otra variable. Por ejemplo, la probabilidad que una persona responda su edad en una encuesta depende del
genero.
◦ No aleatorios (NMAR: not missing at random ), donde el dato nulo depende de eventos no medibles o que no
se pueden controlar. Por ejemplo, el sensor del cual se obtienen los datos falla y no registra datos.
Ejemplo: Lista de pacientes con edad y resultado de un test
Patient ID: identificador
Age: variable independiente
Test Result: variable dependiente
MCAR: Pr(Test Result missing/ Age=23)= Pr(Test Result missing/ Age=75)
and Pr(Test Result missing/Test Result)= Pr(Test Result missing)
MAR: Pr(Test Result missing/ Age=23)=0,5 mientras que Pr(Test Result
missing/ Age=75)=0,0.
Pr(Test Result missing/Test Result <2000)= 0 mientras que para
Pr(Test Result missing/Test Result >2000)= 1,0
¿QUÉ PASA SI HAY UNA CANTIDAD CONSIDERABLE DE
VALORES NULOS EN UNA VARIABLE?
El método simplista para tratar los valores nulos es descartar las filas con valores
nulos.
Sin embargo, este método es práctico solo cuando las filas contienen un
pequeño número de valores nulos y cuando el análisis no induce un sesgo serio
en la inferencia.
Por otro lado, si un número significativo de filas contienen valores nulos para
una cantidad pequeña de atributos, puede ser provechoso la imputación de los
valores nulos.
CONSIDERABLE CANTIDAD DE VALORES NULOS EN UNA
VARIABLE O ATRIBUTO
Al existir una cantidad considerable de valores nulos en alguna de los atributos:
◦ Se pierde información que podría ser relevante y

◦ Se disminuye la importancia de este atributo en el modelo, pues no contiene la información
suficiente como para considerarla un atributo relevante.
Si se utiliza un criterio de elección de filas en donde se consideran solo aquellas

con campos llenos, se corre el riesgo de quedarse sin filas.
CONSIDERABLE CANTIDAD DE VALORES NULOS EN UNA
VARIABLE O ATRIBUTO
La existencia de una cantidad considerable de valores nulos en una variable

dificulta el análisis de los datos, ya que usualmente no permite la aplicación de
las técnicas existentes que posibilitan la extracción de conocimiento.
Existen tres tipos de problemas asociados con los valores nulos:

◦ Perdida de información y eficiencia en el análisis;
◦ Complicación en el uso de los datos, debido a inaplicabilidad de las herramientas o software
estándar; y
◦ La existencia potencial de alto sesgo atribuible a las diferencias sistemáticas entre los datos
observados y los datos perdidos.
ELIMINACIÓN DE VARIABLES
La eliminación de un atributo, debido a la existencia de muchos valores nulos se justifica
cuando:
◦ Existe independencia entre la variable dependiente e independiente. Esta independencia puede

ser determinada a través de un test estadístico.
◦ Los valores nulos son de tipo no aleatorio (NMAR), donde el dato no es posible reconstruirlo
debido a que el valor de un dato nulo no depende de otro dato.
◦ No se puede hacer imputación de datos pues no existe correlación entre el atributo que contiene
gran cantidad de valores nulos y otras variables.
◦ El analista en base a experiencia y conocimiento determina que la mejor opción es la eliminación

del atributo.
MÉTODOS PARA HACER FRENTE A DATOS NULOS
Los dos métodos principales para hacer frente a los datos nulos son:
◦ Descartar los casos (FILAS) con datos faltantes.
◦ La sustitución de valores no informados en una observación por otros (IMPUTACION DE

DATOS).
¿BAJO QUE SUPUESTOS SE PODRÍA CONSIDERAR ACEPTABLE
LA ELIMINACIÓN DE UN REGISTRO EN UNA BASE DE DATOS?
Las condiciones para eliminar una observación con valores nulos son:
◦ Que esta observación presente un valor nulo en la variable dependiente.
◦ Que la cantidad de filas (casos) con valores nulos sean una baja proporción del total de filas.
◦ Cuando la fila contienen un pequeño número de valores nulos.
◦ Cuando el análisis de todos los datos no produce un sesgo importante por no utilizar los registros
con datos perdidos.
MÉTODOS DE ELIMINACIÓN DE DATOS
Existen dos tipos de métodos de eliminación de datos:
◦ Eliminación de casos (listwise deletion): donde se conservan sólo aquellas filas (casos) que están
completos, es decir, se elimina cualquier fila que posea a lo menos un valor nulo.
◦ Eliminación de pares de casos (pairwise deletion): donde se conservan aquellas filas completas y
aquellos que tienen datos faltantes que no son variables necesarias para el análisis.
Estos métodos son simples, sin embargo no se recomienda su aplicación en los
siguientes casos:
◦ Si la cantidad de filas a eliminar es excesivamente grande respecto al total de filas.
◦ Si los datos nulos no se pueden ignorara, es decir, aportan información al análisis requerido.
MÉTODOS DE IMPUTACIÓN
MEAN INPUTATION (adecuado para MCAR):
◦ Para datos continuos el dato faltante es reemplazado por la media del atributo
correspondiente. Para datos discretos, el dato faltante es reemplazado por el valor más
frecuente (moda) del atributo correspondiente.
HOT DECK (adecuado para MAR):

◦ Para cada fila (caso) que contiene valores perdidos se debe encontrar una la fila mas similar.
◦ Luego, se imputa el valor perdido con el valor encontrado en la fila mas similar.
◦ Si la fila mas similar contiene valores perdidos para el mismo atributo, entonces se debe
descartar y encontrar la segunda fila mas similar.
◦ Este procedimiento se repite hasta que el valor perdido sea exitosamente imputado.
REGRESIÓN (adecuado para MAR)

◦ La imputación por regresión utiliza modelos de regresión que utilizan datos de otras variables
para predecir las observaciones faltantes.
VALORES FUERA DE RANGO O OUTLIERS
VALORES FUERA DE RANGO U OUTLIERS
Los outliers son datos que están alejados del resto de los datos. Su presencia
puede deberse a:
◦ Errores de medición
◦ A una distribución de los datos con alta curtosis, es decir, que la cola de la distribución de los
datos tiene mayor peso que en una distribución normal.
Si los outliers se deben a errores de medición, sería conveniente eliminar los

datos o tratarlos de alguna forma.
Para identificar un outlier, se pueden utilizar distintas técnicas, basadas en
estadísticas descriptivas, en distribución de frecuencia y en técnicas de
agrupamiento.
IDENTIFICACIÓN Y TRATAMIENTO DE OUTLIERS
MEDIA Y DESVIACIÓN ESTÁNDAR
◦ Una forma sencilla es calcular la media y desviación estándar de los datos, y eliminar los
datos más alejados de la media, por sobre (o por debajo) un factor multiplicado por la
desviación estándar (solo para todos los niveles de datos excepto nominal y ordinal).
◦ La técnica usada por el software SPSS, es una regla similar a esta en la que si el registro de la
observación en una variable era mayor (menor) que la suma (resta), entre la media de la
variables y 2 veces la desviación estándar de esta, entonces se consideraba un valor fuera de
rango.
MÉTODO DE LOS CUARTILES
◦ Los cuartiles son los tres valores (Q1, Q2, Q3) que dividen al conjunto de datos ordenados en
cuatro partes porcentualmente iguales.
◦ La diferencia entre el tercer cuartil y el primero se conoce como rango inter cuartílico,
RIC=Q3-Q1.
◦ En este método los valores outliers son los valores que se encuentran fuera del rango entre el
primer cuartil y el tercer cuartil.
◦ Los valores de los cuartiles se pueden obtener mediante la siguiente función Excel:
CUARTIL(Datos;N) donde los “Datos” corresponde a la columna de datos de una variable que
se quiere analizar y N corresponde al número de cuartil por el cual se está consultando.
MÉTODO DE LOS CUARTILES
◦ Un criterio para determinar outlier a un punto P cualquiera es:
◦ P ˃ Q3 + 1,5 RIC que es el límite superior o

◦ P ˂ Q1 – 1,5 RIC que es el límite inferior.
◦ Y se puede decir que P es un extreme outlier si:
◦ P ˃ Q3 + 3 RIC límite superior o

◦ P ˂ Q1 - 3 RIC límite inferior
BOX PLOT o DIAGRAMA DE CAJA
◦ Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualizan un
conjunto de datos. Esta compuesto por un rectángulo, la caja, y los brazos, lo bigotes.
◦ Proporciona una visión generan de la simetría de la distribución de los datos. Si la mediana no

esta en el centro del rectángulo la distribución no es simétrica. Son útiles para ver la
presencia de valores atípicos u outliers.
HISTOGRAMAS DE FRECUENCIA
◦ Útil para muestras pequeñas, permite identificar por inspección datos que distorsionen la
distribución de los datos, o que sean inconsistentes, al observar la distribución de datos
según cada valor único y sus frecuencias.
TRANSFORMACIÓN DE VARIABLES O ATRIBUTOS
Dentro del contexto de Data Mining, la transformación de atributos o más bien, la
transformación de datos, es una etapa que esta después de la limpieza de datos y antes de la
reducción de datos.
Consiste en transformar los datos en un formato apropiado para la utilización de minería de
datos.
“Los métodos de minería de datos esperan un formato altamente estructurado, que requiere una
exhaustiva preparación. O bien, tenemos que trasformar los datos originales, o los datos que son
suministrados, en un formato muy estructurado” [Weiss, Indurkha, Zhang & Damerau (2005)]
El proceso de transformación de atributos puede incluir:
◦ Smoothing (suavizamiento), por ejemplo: usar promedios para reemplazar errores en los
datos.
◦ Agregación, por ejemplo: mostrar información en meses en lugar de días.
◦ Generalización, por ejemplo: definir a la gente como joven, adulta o anciana en lugar de su
edad exactamente.
◦ Normalización que es llevar los datos a una escala fija.
TIPOS DEVARIABLES O ATRIBUTOS
Variables Cualitativas: se usan para describir características
◦ Variables Cualitativas Ordinales: representan características relacionadas con un orden, por

ejemplo: Primero, segundo, tercero; Niño, Joven, Adulto; Cabo, Teniente, Capitán.
◦ Variables Cualitativas Nominales: representan características no relacionadas con un orden,

por ejemplo: Genero; Comuna; Nacionalidad; Nombre.
◦ Las Variables Cualitativas pueden ser:

◦ Dicotómicas: adquieren dos valores.
◦ Politómicas: adquieren mas de tres valores.
TIPOS DEVARIABLES O ATRIBUTOS
Variables Cuantitativas: son aquellas que toman como argumento cantidades
numéricas.
◦ Variables Cuantitativas Discretas: toma valores en el conjunto de los números naturales, por
ejemplo: número de hijos, edad.
◦ Variables Cuantitativas Continuas: Toman valores dentro del conjunto de los reales, por
ejemplo: masa, longitud, presión.
Variable Dependiente: es aquella cuyos valores dependen de los que tomen

otra variable.
Variable Independiente: es aquella cuyo valor no depende de otra variable.
.
TRANSFORMACIÓN DE VARIABLES CUALITATIVAS A
NUMÉRICAS
Variables Cualitativas: se usan para describir características.
◦ Variables Cualitativas Nominales Dicotómicas: recodificar con números binarios, por ejemplo
Hombre=0 y Mujer=1.
◦ Variables Cualitativas Nominales Politómicas: creación de variables Dummy.
Id Estado Civil Sexo Id Casado Soltero Viudo Sexo

1 Casado Femenino 1 1 0 0 1
2 Soltero Masculino 2 0 1 0 0
3 Viudo Masculino 3 0 0 1 0
4 Casado Femenino 4 1 0 0 1
TRANSFORMACIÓN DE VARIABLES CUANTITATIVAS:
Transformaciones lineales
Las transformaciones lineales se utilizan normalmente para eliminar la
dependencia de una variable de la unidad de medida empleada.
◦ Desviación absoluta de la media: Es la media de la diferencia en valor absoluto de los valores

con respecto a la media. Se calcula de la siguiente manera:
Donde Zi es el valor estandarizado, Xi es el valor i-ésimo de una variable y es el promedio.

Transformaciones lineales
◦ Método Min-Max: Disminuir la escala de los valores al rango continuo [0, 1].
◦ Normalización de variables: Transformar los valores de una variables a valores de una

distribución normal con media 0 y desviación estándar igual a 1. La transformación se realiza
de la siguiente manera:
Donde µ es la media y σ la desviación estándar.

Transformaciones no lineales
Las transformaciones no lineales permiten realizar una transformación que conduce a una
distribución simétrica, y más cercana a la distribución normal.
◦ Cuando se tienen distribuciones de frecuencias con asimetría negativa (frecuencias altas

hacia el lado derecho de la distribución), es conveniente aplicar la transformación y = x2.
◦ Esta transformación comprime la escala para valores pequeños y la expande para valores
altos.
◦ Para distribuciones asimétricas positivas se usan las transformaciones √x, ln(x) y 1/x, que
comprimen los valores altos y expanden los pequeños.
◦ El efecto de estas transformaciones está en orden creciente: menos efecto √x, más ln(x) y más
aún 1/x.
Una propiedad de las transformaciones vistas es que:
◦ Son monótonas, es decir:
Lo que permite que las medidas basadas en el orden de los datos, como la mediana y los
cuartiles se mantenga igual y el resto cambia
◦ Al tomar una forma similar a la normal, se adquieren propiedades interesantes como:

◦ Simetría respecto de su media, μ , siendo esta igual a la moda y la mediana.
◦ En el intervalo [μ -3σ, μ + 3σ] se encuentra comprendida, aproximadamente, el 99,74% de la distribución.
Estas transformaciones permiten reducir el efecto de los outliers y las propiedades antes
descritas permitiendo utilizar en forma más exhaustiva las técnicas de identificación de outliers
vistas.
◦ MÉTODO DE LOS CUARTILES

◦ MEDIA Y DESVIACIÓN ESTÁNDAR
◦ HISTOGRAMAS DE FRECUENCIAS
Ejemplo: Transforme adecuadamente el siguiente conjunto de datos correspondientes al índice

de precios al consumo de 24 países. Compare el número de outliers identificados antes y
después de la transformación, mediante el método de los cuartiles, el método de la media y
desviación estándar e histograma de frecuencias.
EXTRACCIÓN Y SELECCIÓN DE ATRIBUTOS
EXTRACIÓN DE ATRIBUTOS
El objetivo principal de la extracción de atributos es utilizar transformaciones para generar
atributos nuevos y más usables desde los originales.
Una de las instancias en la que más suele aplicarse la extracción de atributos es poder obtener
información principalmente de fechas, las cuales por si solas no entregan información relevante
sobre algún comportamiento.
Tansacciones mensuales clientes año 2013 M$ Transacción anual priomedio M$

Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Cliente 1 1046
Cliente 1 500 300 2600 800 600 250 600 1200 2600 1300 800 1000 . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . Cliente N 775
Cliente N 600 520 400 900 1500 1800 630 400 800 450 700 600
EXTRACIÓN DE ATRIBUTOS
Resumen de compras por cliente : Cliente 1
Fecha n° de items
20-01-2013 30
25-01-2013 5
03-02-2013 30
04-03-2013 15
15-03-2013 15
. .
. .
. . Dias promedio entre compras Items Promedio Items/día
22-12-2013 45 Cliente 1 14 23 Cliente 1 1,64
. . . .
. . . .
Resumen de compras por cliente : Cliente N Cliente n 18 49 Cliente n 2,72
Fecha n° de items
15-01-2013 56
24-01-2013 10
09-02-2013 60
10-03-2013 28
28-03-2013 60
. .
. .
. .
23-12-2013 80
SELECCION DE ATRIBUTOS: ¿Por qué?
El uso de muchos atributos reduce el rendimiento predictivo
Reduce los requerimiento para el almacenamiento
Es posible generar modelos más simples
SELECCIÓN DE ATRIBUTOS
La selección de atributos se puede definir como el problema de encontrar el subconjunto de
atributos de un determinado tamaño que conduzca a la mayor generalización posible o de forma
equivalente a un error mínimo.
Cada subconjunto de atributos es modelado por un vector de variables indicatrices:
1 𝑠𝑖 𝑒𝑙 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑖 𝑒𝑠𝑡á 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒

◦ σi =
0 𝑠𝑖 𝑛𝑜
◦ Donde L es una función de error, f un clasificador que predice el valor de y en base a un

conjunto de parámetros α y un conjunto de atributos σ*x, y dP(x,y) es la función de
distribución del conjunto de datos.
◦ La idea es encontrar los valores de σ y α, que permitan minimizar el error.
SELECCIÓN DE ATRIBUTOS
Los métodos de selección de atributos pueden clasificarse en tres categorías:
◦ Métodos de filtro
◦ Métodos wrapper
◦ Métodos embebidos
SELECCIÓN DE ATRIBUTOS: método de filtro
En los métodos basados en filtros, los atributos son calificados de acuerdo a su poder predictivo
y luego son clasificados (ranking).
Los atributos con mayor calificación son seleccionados y usados para la el entrenamiento de un
modelo.
Los filtros tienen tres etapas principales descripción:
◦ Selección de un conjunto de atributos a ser evaluados
◦ Medición de la información contenida en el conjunto de atributos, bajo un umbral asociado a la
medición o criterio de parada.
◦ Prueba del conjunto de atributos seleccionado a través de un algoritmo de aprendizaje
SELECCIÓN DE ATRIBUTOS: métodos de filtro
SELECCIÓN DE ATRIBUTOS: método de filtro
Las ventajas de los métodos de filtro es que son rápidos y fáciles de interpretar.
Por otro lado, la mayor desventaja del enfoque de filtros es que ignora totalmente los efectos
del subconjunto de atributos seleccionados en el desempeño del algoritmo de inducción.
Las características de los modelos de filtro son :
◦ Los atributos se consideran independientes.
◦ Atributos redundantes pueden ser incluidos.
◦ Algunos atributos que como grupo tienen un fuerte poder discriminatorio pero son débiles
individualmente pueden ignorarse.
◦ El procedimiento de filtrado es independiente del método de clasificación.
SELECCIÓN DE ATRIBUTOS: métodos wrappers
Los métodos wrapper usan búsqueda iterativa en la cual muchos subconjuntos de atributos son
calificados en base a su desempeño en la clasificación. Luego, el mejor es usado.
Existen dos enfoques de selección de subconjuntos:
◦ Forward Selection: los atributos son progresivamente incorporadas en subconjuntos cada vez mas
grandes.
◦ Backward Elimination: se comienza con un conjunto equivalente a todos los atributos y se van
eliminando progresivamente.
El procedimiento de trabajo de un wrappers es igual que el del Filtro, a excepción de la etapa de

medición, la cual es reemplazada por un algoritmo de aprendizaje.
Esta es la razón principal del porque el desempeño de los wrappers es lento.
Las características de los métodos wrapper son:
◦ Computacionalmente costoso pues el clasificador (predictor) debe ser construido y evaluado para cada
subconjunto de atributos.
◦ Solo puede aplicarse búsqueda greedy (partir por los favoritos) debido a que una búsqueda exhaustiva
es imposible. La ventaja de la búsqueda greedy es su simpleza y rapidez para encontrar una solución. Su
desventaja es que la solución no es necesariamente optima.
◦ El sobreajuste es frecuente en este método.

SELECCIÓN DE ATRIBUTOS: métodos embebidos
Los métodos embebidos o integrados se diferencian de otros métodos de selección de atributos
en la forma que interactúa la selección de atributos con el algoritmo de inducción.
Los métodos embebidos utilizar los conocimientos sobre la estructura específica de la función
de clasificación o regresión para la selección del subconjunto de atributos.
En contraste con filtro y Wrappers, en los métodos embebidos el algoritmo de inducción
(aprendizaje) y la selección de atributos no puede ser separados.
Como en estos métodos el proceso de selección de atributos esta incluido en el algoritmo de
inducción los que se intenta hacer es formar simultáneamente un clasificador (predictor) y un
subconjunto de atributos.
Estos métodos frecuentemente optimizan una función objetivo que recompensa la exactitud de
la clasificación y penaliza el uso de más atributos.
SELECCIÓN DE ATRIBUTOS: métodos embebidos
SELECCIÓN DE ATRIBUTOS: comparación entre
métodos
Métodos de filtro: Test X2(Chi-Cuadrado)
Para poder identificar las relaciones de dependencia entre las variables cualitativas en una tabla
de contingencia, se utiliza un análisis estadístico basado en la prueba de Chi-cuadrado de
Pearson.
La obtención del estadístico X2 permite afirmar con un nivel de confianza estadístico
determinado si los valores de una variable cualitativa influyen en los valores de la otra variable
cualitativa analizada.
Las hipótesis utilizadas en el test son:
◦ Ho: No hay dependencia entre las variables(hipótesis nula)
◦ H1: Si hay dependencia entre las variables
En términos de importancia de un atributo por sobre otro, considerando el valor del

estadístico X2 un atributo será más importante que otro mientras menor valor de X2 tenga.
Para la aplicación del test X2 en necesario la ceración de una tabla de contingencia.
Las tablas de contingencia, son tablas de doble entrada en las cuales en cada casilla figura el número
de casos o individuos que poseen cierto nivel de uno de los factores o características analizadas y otro
nivel del otro factor analizado.
La tabla de contingencia permite tener información cruzada sobre ambas variables, en este ejemplo
se puede observar que de los 108 hombres 65 fuman y 43 no, mientras que en el caso de las mujeres
58 fuman y 67 no.
En términos simples lo que se busca saber mediante esta tabla y el test X2 es, si influye ser hombre o
mujer en la condición de fumador o no fumador.
Para la aplicación del test X2 como método de filtro de variables, es necesario seguir los
siguientes pasos.
Identificar las variables cualitativas y cuantitativas.
Transformar las variables cuantitativas a cualitativas: Esta transformación se puede realizar
mediante la creación de categorías. Por ejemplo pasar de valores de ingreso a categorías como
Bajo, Medio o Alto.
Crear la tabla de contingencia para cada atributo con la variable objetivo. Los valores de esta
tabla serán los valores observados Oij.
Construir una tabla de contingencia con los valores esperados Eij .
Estos valores esperados reflejan la distribución esperada de la variable objetivo si esta fuera
dependiente de la distribución del atributo. Para esto se distribuye el total de cada clase (total
de si, total de no) de la variable objetivo según la distribución del atributo.
Se obtiene el valor del estadístico X2 para cada atributo según la siguiente formula:
Mediante algún criterio se escoge el subconjunto de los valores con menor valor de X2.
Ejemplo : Determine la importancia de los siguientes atributos para la
compra de un computador, según el estadístico de X2 .
Id edad Ingreso Actividad Evaluación crediticia Compra computador
1 25 1500 Medico 5,5 No
2 24 1200 Ingeniero 6,5 No
3 33 1000 Abogado 5,8 Si
4 42 550 Tecnico Mecánico 5,6 Si
5 45 200 Estudiante 5,6 Si
6 44 300 Estudiante 6,6 No
7 35 250 Estudiante 7 Si
8 28 650 Ed. Parvulos 5,8 No
12 38 750 Psicologo 6,5 Si
14 46 800 Enfermera 6,8 No
La tabla transformada
Id edad Ingreso Actividad Evaluación crediticia Compra computador Id edad Ingreso Estudiante Evaluación crediticia Compra computador
1 25 1500 Medico 5,5 No 1 <=30 Alto no Buena No
2 24 1200 Ingeniero 6,5 No 2 <=30 Alto no Exelente No
3 33 1000 Abogado 5,8 Si 3 31...40 Alto no Buena Si
4 42 550 Tecnico Mecánico 5,6 Si 4 >40 Medio no Buena Si
5 45 200 Estudiante 5,6 Si 5 >40 Bajo si Buena Si
6 44 300 Estudiante 6,6 No 6 >40 Bajo si Exelente No
7 35 250 Estudiante 7 Si 7 31...40 Bajo si Exelente Si
8 28 650 Ed. Parvulos 5,8 No 8 <=30 Medio no Buena No
9 26 350 Estudiante 5,9 Si 9 <=30 Bajo si Buena Si
10 41 700 Estudiante 5,4 Si 10 >40 Medio si Buena Si
11 21 650 Estudiante 6,3 Si 11 <=30 Medio si Exelente Si
12 38 750 Psicologo 6,5 Si 12 31...40 Medio no Exelente Si
13 33 1300 Estudiante 5,7 Si 13 31...40 Alto si Buena Si
14 46 800 Enfermera 6,8 No 14 >40 Medio no Exelente No
Las tablas de contingencia: Valor Observado Oij
OBSERVADO Edad
Compra Computador <=30 31...40 >40 Total
Si 2 4 3 9
No 3 0 2 5
Total 5 4 5 14
0,36 0,28 0,36
OBSERVADO Ingreso
Compra Computador Alto Medio Bajo Total
Si 2 4 3 9
No 2 2 1 5
Total 4 6 4 14
0,285 0,43 0,285
OBSERVADO Estudiante
Compra Computador Si No Total
Si 6 3 9
No 1 4 5
Total 7 7 14
0,5 0,5
OBSERVADO Evaluación Crediticia

Compra Computador Exelente Buena Total
Si 3 6 9
No 3 2 5
Total 6 8 14
0,43 0,57
Las tablas de contingencia: Valor esperado Eij
OBSERVADO Edad
ESPERADO Edad
Compra Computador <=30 31...40 >40 Total
Si 2 4 3 9 Compra Computador <=30 31...40 >40
No 3 0 2 5 Si 3,24 2,52 3,24
Total 5 4 5 14 No 1,8 1,4 1,8
0,36 0,28 0,36
OBSERVADO Ingreso ESPERADO Ingreso

Compra Computador Alto Medio Bajo Total Compra Computador Alto Medio Bajo
Si 2 4 3 9 Si 2,56 3,87 2,56
No 2 2 1 5 No 1,425 2,15 1,43
Total 4 6 4 14
0,285 0,43 0,285
OBSERVADO Estudiante ESPERADO Estudiante

Compra Computador Si No Total Compra Computador Si No
Si 6 3 9 Si 4,5 4,5
No 1 4 5 No 2,5 2,5
Total 7 7 14
0,5 0,5
OBSERVADO Evaluación Crediticia ESPERADO Evaluación Crediticia

Compra Computador Exelente Buena Total Compra Computador Exelente Buena
Si 3 6 9 Si 3,87 5,13
No 3 2 5 No 2,15 5,85
Total 6 8 14
0,43 0,57
Las tablas de contingencia: Valor de X2
OBSERVADO Edad ESPERADO Edad
Compra Computador <=30 31...40 >40 Total Compra Computador <=30 31...40 >40
Si 2 4 3 9 Si 3,24 2,52 3,24 3,58
No 3 0 2 5 No 1,8 1,4 1,8
Total 5 4 5 14
0,36 0,28 0,36
OBSERVADO Ingreso ESPERADO Ingreso

Compra Computador Alto Medio Bajo Total Compra Computador Alto Medio Bajo
0,57
Si 2 4 3 9 Si 2,56 3,87 2,56
No 2 2 1 5 No 1,425 2,15 1,43
Total 4 6 4 14
0,285 0,43 0,285
OBSERVADO Estudiante ESPERADO Estudiante

Compra Computador Si No Total Compra Computador Si No
Si 4,5 4,5 2,80
Si 6 3 9
No 1 4 5 No 2,5 2,5
Total 7 7 14
0,5 0,5
OBSERVADO Evaluación Crediticia ESPERADO Evaluación Crediticia

0,9
Compra Computador Exelente Buena Total Compra Computador Exelente Buena
Si 3 6 9 Si 3,87 5,13
No 3 2 5 No 2,15 5,85
Total 6 8 14
0,43 0,57
Métodos de filtro: Ganancia de Información
Este método utiliza como criterio de filtro la información contenida en un atributo y que sirve
para clasificar un objeto dentro de una clase, definiéndose una clase como los valores que toma
la variable objetivo (0, 1; Si, No; Malo; Bueno, Excelente).
La ganancia de información de un atributo para clasificar la variable objetivo estará dada por:
◦ Gain(A)= Información esperada necesaria para clasificar un conjunto de registros – Entropía

contenida en el atributo A.
La entropía estadística es una medida probabilística de la incertidumbre o la ignorancia que el
atributo A tiene respecto de la clasificación de un registro.
De esta forma la ganancia de información del atributo A refleja la reducción de la incertidumbre
a causa de conocer el atributo A.
Información
contenida en A
respecto de la
clasificación
Información
necesaria para Ignorancia o
la clasificación entropía del
atributo A Por lo tanto a mayor valor de Ganancia de
respecto a la información un atributo es más importante
clasificación para la clasificación.
Gain (A) = I(s1,s2,…,sm) – E(A)
𝐼 𝑠1 , 𝑠2 , … , 𝑠𝑚 = - 𝑚 𝑣 𝑠1𝑗 +⋯+𝑠𝑚𝑗
𝑖=1 𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 E 𝐴 = 𝑗=1 𝑠
𝐼 𝑠1𝑗 , … , 𝑠𝑚𝑗
𝑚
𝐼 𝑠1𝑗 , … , 𝑠𝑚 = - 𝑖=1 𝑝𝑖𝑗 𝑙𝑜𝑔2 𝑝𝑖𝑗
-pi: probabilidad de encontrar la clase i donde pi= si/s

-si : número de observaciones de la clase i con i= 1…m
-v: número de categorías del atributo A.
-sij: número de registros de la clase i con la categoría j del atributo A, con j=1..v y i=1..m
-pij: probabilidad de encontrar la categoría j de la tributo A, sea de la clase i, con j=1..v y i=1..m donde
pij=sij/sj
Determine la importancia de cada atributo mediante la Ganancia de Información.
Id edad Ingreso Estudiante Evaluación crediticia Compra computador

1 <=30 Alto no Buena No
2 <=30 Alto no Exelente No
3 31...40 Alto no Buena Si
4 >40 Medio no Buena Si
Edad 0,24
5 >40 Bajo si Buena Si
6 >40 Bajo si Exelente No Estudiante 0,15
7 31...40 Bajo si Exelente Si Evaluación crediticia 0,05
8 <=30 Medio no Buena No Estudiante 0,03
9 <=30 Bajo si Buena Si
10 >40 Medio si Buena Si
11 <=30 Medio si Exelente Si
12 31...40 Medio no Exelente Si
13 31...40 Alto si Buena Si
14 >40 Medio no Exelente No
Métodos de filtro: Índice Gini
El coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini.
Normalmente se utiliza para medir la desigualdad en los ingresos, dentro de un país, pero puede
utilizarse para medir cualquier forma de distribución desigual.
El coeficiente de Gini se calcula como una proporción de las áreas en el diagrama de la curva de
Lorenz.
Métodos de filtro: Índice de Gini
El coeficiente de Gini se calcula como una proporción de las áreas en el diagrama de la curva de
Lorenz.
Si el área entre la línea de perfecta igualdad y la curva de Lorenz es a, y el área por debajo de la
curva de Lorenz es b, entonces el coeficiente de Gini es a/(a+b).
El índice de Gini de un subconjunto S de registros separados en m clases se mediará como:
𝑚 2
Gini(S) = 1- 𝑖 𝑝𝑖
El valor mínimo del índice Gini(S) es cero, es decir, todos los miembros en el conjunto llegan a la misma
clase.
El valor del índice de Gini de un atributo A estará dado por:
2
𝑣 𝑠𝑗 𝑚 𝑠𝑖𝑗
Gini(A) = 𝑗=1 𝑠 (1- 𝑖=1 𝑠 )
𝑗
Poder predictivo (A) = Gini(S) – Gini(A)

El valor del índice de Gini de la variable dependiente compra computador es:
Compra computador
No
No
Si
Si
Si
No
Si 0,4591
No
Si
Si
Si
Si
Si
No
El valor del índice de Gini de cada atributo es:

1 <=30 Alto no Buena No
2 <=30 Alto no Exelente No
3 31...40 Alto no Buena Si
4 >40 Medio no Buena Si
Edad 0,34
5 >40 Bajo si Buena Si
Ingreso 0,44
6 >40 Bajo si Exelente No Estudiante 0,367
7 31...40 Bajo si Exelente Si Evaluación Crediticia 0,428
8 <=30 Medio no Buena No
9 <=30 Bajo si Buena Si
10 >40 Medio si Buena Si
11 <=30 Medio si Exelente Si
12 31...40 Medio no Exelente Si
13 31...40 Alto si Buena Si
14 >40 Medio no Exelente No
El poder predictivo de cada atributo según el índice de Gini es:
Edad 0,116
Poder predictivo (A) = Gini(S) – Gini(A) Ingreso 0,019
Estudiante 0,092
Evaluación Crediticia 0,428
Métodos de filtro: Índice de Correlación de Pearson
El coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables
aleatorias cuantitativas.
Es independiente de la escala de medida de las variables.
Puede utilizarse para medir el grado de relación lineal entre dos atributos o variables siempre y
cuando ambas sean cuantitativas.
El coeficiente de correlación de Pearson está dado por:
𝑐𝑜𝑣(𝑥,𝑦)
ρ=
σ 𝑥 σ𝑦
Donde:
𝑐𝑜𝑣 𝑥, 𝑦 : covarianza entre x e y.
σ𝑥 : Es la desviación estándar de x.
σ𝑦: Es la desviación estándar de y.
El coeficiente de correlación de Pearson es representado comúnmente por la letra r cuando es
aplicado a una muestra.
Se puede obtener una expresión para r mediante la estimación de la covarianza y las varianzas
dadas por:
𝒏
𝒊=𝟏 𝑿𝒊 −𝑿 𝒀𝒊 −𝑿
r=
𝒏 𝑿𝒊 −𝑿 𝟐 𝒏 𝒀𝒊 −𝑿 𝟐
𝒊=𝟏 𝒊=𝟏
Si el resultado es +1 o -1 implica que los atributos presentan relaciones lineales perfectas.

Determine la importancia de cada atributo mediante el índice de Correlación de
Pearson.
Id edad Ingreso Actividad Evaluación crediticia Compra computador
1 25 1500 Medico 5,5 No
2 24 1200 Ingeniero 6,5 No
3 33 1000 Abogado 5,8 Si
4 42 550 Tecnico Mecánico 5,6 Si
6 44 300 Estudiante 6,6 No
7 35 250 Estudiante 7 Si
8 28 650 Ed. Parvulos 5,8 No
12 38 750 Psicologo 6,5 Si
14 46 800 Enfermera 6,8 No
Id edad Ingreso Actividad Evaluación crediticia Compra computador Id edad Ingreso Estudiante Evaluación crediticia Compra computador
1 25 1500 Medico 5,5 No 1 25 1500 no 5,5 No
2 24 1200 Ingeniero 6,5 No 2 24 1200 no 6,5 No
3 33 1000 Abogado 5,8 Si 3 33 1000 no 5,8 Si
4 42 550 Tecnico Mecánico 5,6 Si 4 42 550 no 5,6 Si
5 45 200 Estudiante 5,6 Si 5 45 200 si 5,6 Si
6 44 300 Estudiante 6,6 No 6 44 300 si 6,6 No
7 35 250 Estudiante 7 Si 7 35 250 si 7 Si
8 28 650 Ed. Parvulos 5,8 No 8 28 650 no 5,8 No
12 38 750 Psicologo 6,5 Si 12 38 750 no 6,5 Si
14 46 800 Enfermera 6,8 No 14 46 800 no 6,8 No

1 25 1500 1 1 0
2 24 1200 1 0 0
3 33 1000 1 1 1
4 42 550 1 1 1
5 45 200 0 1 1
6 44 300 0 0 0
7 35 250 0 0 1
8 28 650 1 1 0
9 26 350 0 1 1
10 41 700 0 1 1
11 21 650 0 0 1
12 38 750 1 0 1
13 33 1300 0 1 1
14 46 800 1 0 0
1 25 1500 1 1 0
2 24 1200 1 0 0 edad Ingreso Estudiante Evaluación crediticia Compra computador
3 33 1000 1 1 1
4 42 550 1 1 1 edad 1
5 45 200 0 1 1 Ingreso -0,431544698 1
6 44 300 0 0 0
7 35 250 0 0 1
Estudiante 0,07823721 -0,49753211 1
8 28 650 1 1 0 Evaluación crediticia 0,032622976 -0,156923774 -3,20494E-17 1
9 26 350 0 1 1 Compra computador 0,08682392 -0,310405592 0,447213595 -0,25819889 1
10 41 700 0 1 1
11 21 650 0 0 1
12 38 750 1 0 1
13 33 1300 0 1 1
14 46 800 1 0 0
Análisis de Componentes Principales PCA
Es un procedimiento estadístico que usa una transformación ortogonal para convertir un
conjunto de atributos posiblemente correlacionados en un nuevo conjunto de atributos
linealmente no correlacionados.
Estos nuevos atributos son conocidos como componentes principales.
Esta técnica permite la transformación y selección de atributos, basándose en las siguientes
observaciones:
◦ Si un objeto es registrado, este tendrá un conjunto de atributos.
◦ Cada uno de los atributos tiene una varianza y probablemente estén relacionados entre si por lo que
habrá covarianza entre pares de variables.
◦ El conjunto de datos como un todo también tendrá una varianza la cual es la suma de las varianzas
individuales.
◦ Cada atributo puede ser definido como un eje o dimensión
Lo que hace el Análisis de Componentes Principales es transformar los datos para describir la
misma varianza total con el mismo número de ejes y número de variables pero de tal manera
que:
◦ El primer eje contiene la mayor cantidad posible de la varianza total;

◦ El segundo eje contiene toda la cantidad remanente posible de varianza, no correlacionándose con el
primer eje;
◦ El tercer eje contiene toda la varianza total remanente después de ser contenida por los dos primeros
ejes, si estar correlacionado con los otros dos ejes;
◦ y así para los otros ejes.
Los nuevos ejes o dimensiones no están correlacionados con los otros y son ponderados de
acuerdo a la cantidad de varianza total que describen.
Este resultado genera pocos ejes explicando gran parte de la varianza total y muchos ejes
explicando solo una pequeña parte de la varianza total.
Los atributos con poca varianza pueden ser descartados del análisis, generando un conjunto de
atributos más pequeño.
Id edad Ingreso Estudiante Evaluación crediticia Compra computador Id edad Ingreso Estudiante Evaluación crediticia Compra computador
1 25 1500 1 1 0 1 0,543478261 1 1 1 0
2 24 1200 1 0 0 2 0,52173913 0,8 1 0 0
3 33 1000 1 1 1 3 0,717391304 0,666666667 1 1 1
4 42 550 1 1 1 4 0,913043478 0,366666667 1 1 1
5 45 200 0 1 1 5 0,97826087 0,133333333 0 1 1
6 44 300 0 0 0 6 0,956521739 0,2 0 0 0
7 35 250 0 0 1 7 0,760869565 0,166666667 0 0 1
8 28 650 1 1 0 8 0,608695652 0,433333333 1 1 0
9 26 350 0 1 1 9 0,565217391 0,233333333 0 1 1
10 41 700 0 1 1 10 0,891304348 0,466666667 0 1 1
11 21 650 0 0 1 11 0,456521739 0,433333333 0 0 1
12 38 750 1 0 1 12 0,826086957 0,5 1 0 1
13 33 1300 0 1 1 13 0,717391304 0,866666667 0 1 1
14 46 800 1 0 0 14 1 0,533333333 1 0 0
Varianza 0,034361433 0,071916972 0,269230769 0,263736264 0,639245437
Porcentaje 0,053753113 0,11250291 0,421169638 0,412574339
Acumulado 0,053753113 0,166256023 0,587425661 1
Id edad Ingreso Estudiante Evaluación crediticia
Compra computador Id pc1 pc2 pc3 pc4 Compra computador
1 0,54347826 1 1 1 0 1 -0,73297573 -0,29790441 0,3354864 -0,03146136 0
2 0,52173913 0,8 1 0 0 2 -0,4361989 0,67253385 0,28307815 0,05741531 0
3 0,7173913 0,66666667 1 1 1 3 -0,61827164 -0,29081368 -0,02055835 0,00570967 1
4 0,91304348 0,36666667 1 1 1 4 -0,51286369 -0,28418077 -0,36279202 0,00673755 1
5 0,97826087 0,13333333 0 1 1 5 0,48211444 -0,53366931 -0,30315924 -0,0472595 1
6 0,95652174 0,2 0 0 0 6 0,69485876 0,43198973 -0,1482193 -0,10341227 0
7 0,76086957 0,16666667 0 0 1 7 0,69449143 0,43133085 -0,06517087 0,07684664 1
8 0,60869565 0,43333333 1 1 0 8 -0,55078287 -0,28732979 -0,14145082 0,22268277 0
9 0,56521739 0,23333333 0 1 1 9 0,42765153 -0,53811366 0,00463768 0,24062938 1
10 0,89130435 0,46666667 0 1 1 10 0,37224208 -0,54020169 0,00445576 -0,15648842 1
11 0,45652174 0,43333333 0 0 1 11 0,59354788 0,42459741 0,31168147 0,18401978 1
12 0,82608696 0,5 1 0 1 12 -0,32475128 0,6798647 -0,11969272 -0,03162916 1
13 0,7173913 0,86666667 0 1 1 13 0,23652988 -0,54848722 0,41233756 -0,22991681 1
14 1 0,53333333 1 0 0 14 -0,32559189 0,68038399 -0,19063371 -0,19387359 0
Varianza 0,03436143 0,07191697 0,26923077 0,26373626 0,639245437 Varianza 0,29345569 0,26415743 0,06005628 0,02157603 0,639245437
Porcentaje 0,05375311 0,11250291 0,42116964 0,41257434 Porcentaje 0,45906576 0,41323319 0,0939487 0,03375235
Acumulado 0,05375311 0,16625602 0,58742566 1 Acumulado 0,45906576 0,87229895 0,96624765 1

Primera Parte Curso DM

Cargado por

Copyright:

Formatos disponibles

Primera Parte Curso DM

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Primera Parte Curso DM

Cargado por

Copyright:

Formatos disponibles

LIMPIEZA DE LA BASE DE DATOS

Al existir una cantidad considerable de valores nulos en alguna de los atributos:

◦ Se pierde información que podría ser relevante y

Si se utiliza un criterio de elección de filas en donde se consideran solo aquellas

La existencia de una cantidad considerable de valores nulos en una variable

Existen tres tipos de problemas asociados con los valores nulos:

◦ Existe independencia entre la variable dependiente e independiente. Esta independencia puede

◦ El analista en base a experiencia y conocimiento determina que la mejor opción es la eliminación

◦ Descartar los casos (FILAS) con datos faltantes.

◦ La sustitución de valores no informados en una observación por otros (IMPUTACION DE

◦ Que esta observación presente un valor nulo en la variable dependiente.

◦ Cuando la fila contienen un pequeño número de valores nulos.

◦ Si la cantidad de filas a eliminar es excesivamente grande respecto al total de filas.

HOT DECK (adecuado para MAR):

REGRESIÓN (adecuado para MAR)

Si los outliers se deben a errores de medición, sería conveniente eliminar los

◦ P ˃ Q3 + 1,5 RIC que es el límite superior o

◦ Y se puede decir que P es un extreme outlier si:

◦ P ˃ Q3 + 3 RIC límite superior o

◦ Proporciona una visión generan de la simetría de la distribución de los datos. Si la mediana no

◦ Variables Cualitativas Ordinales: representan características relacionadas con un orden, por

◦ Variables Cualitativas Nominales: representan características no relacionadas con un orden,

◦ Las Variables Cualitativas pueden ser:

Variable Dependiente: es aquella cuyos valores dependen de los que tomen

Variable Independiente: es aquella cuyo valor no depende de otra variable.

Id Estado Civil Sexo Id Casado Soltero Viudo Sexo

◦ Desviación absoluta de la media: Es la media de la diferencia en valor absoluto de los valores

Donde Zi es el valor estandarizado, Xi es el valor i-ésimo de una variable y es el promedio.

◦ Normalización de variables: Transformar los valores de una variables a valores de una

Donde µ es la media y σ la desviación estándar.

◦ Cuando se tienen distribuciones de frecuencias con asimetría negativa (frecuencias altas

◦ Al tomar una forma similar a la normal, se adquieren propiedades interesantes como:

◦ MÉTODO DE LOS CUARTILES

Ejemplo: Transforme adecuadamente el siguiente conjunto de datos correspondientes al índice

Tansacciones mensuales clientes año 2013 M$ Transacción anual priomedio M$

1 𝑠𝑖 𝑒𝑙 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑖 𝑒𝑠𝑡á 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒

◦ Donde L es una función de error, f un clasificador que predice el valor de y en base a un

El procedimiento de trabajo de un wrappers es igual que el del Filtro, a excepción de la etapa de

◦ El sobreajuste es frecuente en este método.

En términos de importancia de un atributo por sobre otro, considerando el valor del

OBSERVADO Evaluación Crediticia

OBSERVADO Ingreso ESPERADO Ingreso

OBSERVADO Estudiante ESPERADO Estudiante

OBSERVADO Evaluación Crediticia ESPERADO Evaluación Crediticia

OBSERVADO Ingreso ESPERADO Ingreso

OBSERVADO Estudiante ESPERADO Estudiante

OBSERVADO Evaluación Crediticia ESPERADO Evaluación Crediticia

◦ Gain(A)= Información esperada necesaria para clasificar un conjunto de registros – Entropía

-pi: probabilidad de encontrar la clase i donde pi= si/s

Id edad Ingreso Estudiante Evaluación crediticia Compra computador

Poder predictivo (A) = Gini(S) – Gini(A)

Id edad Ingreso Estudiante Evaluación crediticia Compra computador

Si el resultado es +1 o -1 implica que los atributos presentan relaciones lineales perfectas.

Id edad Ingreso Estudiante Evaluación crediticia Compra computador

◦ El primer eje contiene la mayor cantidad posible de la varianza total;

También podría gustarte