Analisis Exploratorio de Datos
Analisis Exploratorio de Datos
Analisis Exploratorio de Datos
2021
WWW.NUBEMINERA.CL
Análisis Exploratorio de Datos
• ¿Qué es el AED?
• Importancia del AED
• Etapas de cualquier AED
• Herramientas del AED
• Estadística univariada
• Estadística bivariada
• Estadística multivariada
• Regresión lineal y mínimos cuadrados
1
Análisis
Exploratorio
de Datos
1
¿Qué es el AED?
Es un conjunto de técnicas estadísticas y gráficas que permiten establecer un
buen entendimiento básico del comportamiento de los datos y de las
relaciones existentes entre las variables que se estudian.
2
Importancia del AED
• El AED es un paso previo e indispensable para la aplicación exitosa de
cualquier método estadístico.
3
Etapas de un AED
1. Realizar un examen gráfico de la naturaleza de las variables individuales y un análisis
descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos.
2. Realizar un examen gráfico de las relaciones entre las variables y un análisis descriptivo
numérico que cuantifique el grado de interrelación existente entre ellas.
3. Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por ejemplo,
normalidad, linealidad y homocedasticidad.
4. Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial que puedan
ejercer en análisis estadísticos posteriores.
5. Evaluar, el impacto potencial que pueden tener los datos ausentes (missing) sobre la
representatividad de los datos analizados.
4
Herramientas del AED
1. Estadística univariada
2. Estadística multivariada
6
Estadística univariada
Variable Aleatoria (V.A.): Es una variable Z que puede tomar una serie
de valores o realizaciones (zi) cada una de las cuales tienen asociadas
una probabilidad de ocurrencia (pi).
a) pi 0, i b) p
i
i =1
7
Estadística
Univariada
1
Estadística univariada
1
1. Variable Aleatoria Discreta: cuando el número de
ocurrencias es finito o contable, se conoce como
variable aleatoria discreta.
• Ejemplo: Tipos de roca en un yacimiento.
2
2. Variable Aleatoria Continua: si el número de
ocurrencias posibles es infinito.
• Ejemplo: la concentración de cobre (Cu) en la roca
en el intervalo [0,100%].
8
Estadística univariada
Función de Distribución de Probabilidad (FDP)
La FDP caracteriza completamente a la VA.
Se define como:
F ( z) = Pr Z z 0,1
Su gráfica es el histograma acumulativo
9
Estadística univariada
Función de Densidad de Probabilidad (fdp).
dF ( z )
Se define como: f ( z) =
Su gráfica es el histograma. dz
10
Estadística univariada
Percentiles o cuantiles de una distribución .
• El percentil de una distribución F(z) es el valor zp de la V.A. que
corresponde a un valor p de probabilidad acumulada, es decir:
F (zp ) = p
−1
z p = F ( p)
11
Estadística univariada
Algunos cuantiles de interés:
12
Estadística univariada
Ejemplo de cuartiles y rango intercuartil
13
Estadística univariada
Valor esperado o esperanza matemática de una VA.
Es el valor más probable que puede tomar una VA. Se conoce también como valor medio
o media. Se define como:
+ +
m = E Z = zdF ( z) = zf ( z)dz
− −
Se calcula como el promedio de todas las observaciones de la variable Z
N
1
m=
N
z i =1
i
14
Estadística univariada
+ +
r = E ( Z − m ) = ( z − m) dF ( z) = ( z − m ) f ( z)dz
r r r
− −
15
Estadística univariada
Varianza de una VA (2do momento centrado)
= Var Z = E ( Z − m ) 0
2 2
• Se define como
• Y caracteriza la dispersión de la distribución alrededor de la media.
N
1
= ( zi − m )
2 2
• Se calcula como
N − 1 i =1
16
Estadística univariada
Distribución Normal o Gaussiana.
• Esta distribución está completamente caracterizada por
sus dos parámetros: media y varianza y se designa
mediante
• La fdp normal o Gaussina está dada por: N ( m, 2 )
1 1 z − m 2
g ( z) = exp −
2 2
17
Estadística univariada
Ejemplos de distribuciones Gaussianas
18
Estadística univariada
Distribución LogNormal
• Una VA positiva Y se dice que tiene una distribución lognormal si su
logaritmo ln(Y) esta normalmente distribuido.
Y 0 → log N ( m, 2 ) , si X = ln Y → N ( , 2 )
19
Estadística univariada
Ejemplos de distribuciones Lognormales
20
Estadística univariada
• Desviación Estándar = Var Z
4
• Coeficiente de curtosis (medida del achatamiento) 2 = 2 − 3
2
21
Estadística univariada
Simetría y Curtosis de una distribución
22
Estadística univariada
BOX PLOT
23
Estadística univariada
BOX PLOT
24
Estadística univariada
Histograma (Ley de cobre) Estadística Valor
No_muestras 532
Minimo 0.17
Cuartil_1er 0.56
Mediana 0.945
Media 1.1366
Cuartil_3er 1.4
Maximo 6.9
Rango 6.73
Rango_Intercuartil 0.84
Varianza 0.8053
Desv_Estandar 0.89738
Simetria 2.99332
Curtosis 16.20216
25
Estadística univariada
Transformación raiz cuadrada Estadística Valor
No_muestras 532
Minimo 0.4123
Cuartil_1er 0.7483
Mediana 0.9721
Media 1.0067
Cuartil_3er 1.1832
Maximo 2.6268
Rango 2.2145
Rango_Intercuartil 0.4349
Varianza 0.1233
Desv_Estandar 0.3511
Simetria 1.2992
Curtosis 6.221
25
Estadística univariada
Transformación logarítmica Estadística Valor
No_muestras 532
Minimo -9.2103
Cuartil_1er -2.0441
Mediana 0.0271
Media -0.5712
Cuartil_3er 1.5009
Maximo 4.2464
Rango 13.4567
Rango_Intercuartil 3.545
Varianza 8.7983
Desv_Estandar 2.9662
Simetria -1.1775
Curtosis 4.5141
25
Estadística univariada
Con valores atípicos (outliers)
No_muestras 200
Minimo 58.2
Cuartil_1er 82.25
Mediana 97.85
Media 108.9925
Cuartil_3er 110.325
Maximo 1499
Rango 1440.8
Rango_Intercuartil 28.075
Varianza 14873.08823
Desv_Estandar 121.95527
Simetria 9.92162
Curtosis 104.73871
30
Estadística univariada
Sin valores atípicos (outliers)
No_muestras 196
Minimo 58.2
Cuartil_1er 82
Mediana 97.5
Media 96.3265
Cuartil_3er 110
Maximo 140.2
Rango 82
Rango_Intercuartil 28
Varianza 319.7503
Desv_Estandar 17.8816
Simetria 0.0291
Curtosis 2.3889
31
Estadística univariada
Transformación logarítmica sin outliers Estadísticas Valor
No_muestras 526
Minimo -1.772
Cuartil_1er -0.5798
Mediana -0.0672
Media -0.12
Cuartil_3er 0.3221
Maximo 1.6658
Rango 3.4378
Rango_Intercuartil 0.9019
Varianza 0.4027
Desv_Estandar 0.6346
Simetria -0.0911
Curtosis 2.5609
25
Estadística univariada Estadística Valor
Valores atípicos? No_muestras 46
Minimo 0.49
Cuartil_1er 0.77
Mediana 1.05
Media 1.15
Cuartil_3er 1.25
Maximo 2.94
¿valores atípicos? Rango 2.45
Rango_Intercuartil 0.49
Varianza 0.30
Desv_Estandar 0.54
Simetria 1.50
Curtosis 5.07
25
Estadística univariada
Después de eliminar los valores atípicos Estadística Valor
No_muestras 42
Minimo 0.49
Cuartil_1er 0.75
Mediana 1.00
Media 1.03
¿nuevos Cuartil_3er 1.20
valores
Maximo 1.93
atípicos?
Rango 1.44
Rango_Intercuartil 0.45
Varianza 0.12
Desv_Estandar 0.35
Simetria 0.76
Curtosis 3.22
33
Estadística
Bivariada
1
Estadística bivariada
• Hasta el momento, sólo hemos considerado a las variables
aleatorias por separado, sin que exista ninguna interrelación
entre éstas.
35
Estadística bivariada
Función de Distribución de Probabilidad Bivariada
FXY ( x, y) = Pr X x, Y y
• En la práctica se estima mediante la proporción de pares de valores
de X y Y que se encuentran por debajo del umbral x, y
respectivamente.
36
Estadística bivariada
Diagrama de Dispersión (Scattergram)
• El equivalente bivariado del histograma es
el diagrama de dispersión o scattergram,
donde cada par (xi, yi) es un punto.
37
Estadística bivariada
• Covarianza
• Se define la covarianza de manera análoga a los
momentos centrales univariados, como
• Se calcula como
Cov ( X , Y ) = XY = E ( X − mX )(Y − mY )
1 N 1 N
XY = ( xi − mX )( yi − mY ) = xi yi − mX mY
N i =1 N i =1
38
Estadística bivariada
Semivariograma
• Es el momento de inercia del diagrama de dispersión con
respecto a una línea con pendiente de 45o y se define
como
N N
1 1
XY = d = x − y
2 2
i i i
N i =1 2N i =1
39
Estadística bivariada
y
Semivariograma
x
40
Estadística bivariada
Coeficiente de correlación lineal de Pearson
• Se define como:
XY Cov X , Y
XY = = −1,1
XY Var X Var Y
41
Estadística bivariada
Coeficiente de correlación de rango de Spearman
• Se define como:
42
Estadística bivariada
Coeficiente de correlación de rango de Kendall
• Se define como:
43
Estadística bivariada
Sin transformar
Coeficiente de correlación=0.7761
44
Estadística bivariada
Después de transformar
Coeficiente de correlación=0.7467
Valores atípicos
45
Estadística bivariada
Después de transformar y sin valores atípicos
Coeficiente de correlación=0.7447
45
Estadística
Multivariada
1
Estadística multivariada
Existen muchas técnicas multivariadas:
• Análisis de Regresión
• Análisis de Conglomerados
• Análisis de Componentes Principales
• Análisis Factorial
• Análisis Discriminante, etc
46
Regresión
Lineal y
Mínimos Cuadrados
1
Regresión lineal
• La regresión trata de establecer relaciones funcionales entre
variables aleatorias.
• En particular la regresión lineal consiste en establecer una relación
descrita mediante una recta.
• Los modelos de regresión nos permiten hacer predicciones o
pronósticos a partir del modelo establecido.
• El método que se emplea para estimar los parámetros del modelo
de regresión es el de los Mínimos Cuadrados
47
Mínimos cuadrados
• El método que se emplea para estimar los parámetros del modelo
de regresión es el de los Mínimos Cuadrados
47
Regresión lineal
Dados N valores de dos v.a. X y Y.
Suponemos que:
1. X es una variable independiente
2. Y depende de X en forma lineal
Modelo lineal:
Donde Y= 0 + 1 X
yi = 0 + 1 xi + ei , i =1,...,N
0 , 1 − son los parámetros del modelo
ei − errores o residuos del modelo
48
Regresión lineal
• Condiciones que deben cumplir los residuos
49
Mínimos Cuadrados Ordinarios (MCO)
• Mínimos Cuadrados Ordinarios consiste en hallar los parámetros
del modelo de manera que la suma de los cuadrados de los errores
sea mínima.
( )
N N N 2
SCR = e = yi − yˆi = yi − ˆ0 + ˆ1xi
2 2
i =1
i
i =1 i =1
50
Mínimos Cuadrados Ordinarios (MCO)
Coeficiente de determinación R2
• Para los modelos lineales
1. Mide el grado de la bondad del ajuste
51
Mínimos Cuadrados Ordinarios (MCO)
Criterios de la bondad del ajuste
52
Regresión lineal
Antes de transformar
53
Análisis de Residuos
Antes de transformar Estadísticas Valor
No_muestras 532
Minimo -20.028
Cuartil_1er -3.363
Mediana -0.252
Media -0.0035
Cuartil_3er 1.905
Maximo 47.892
Rango 67.92
Rango_Intercuartil 5.268
Varianza 37.5032
Desv_Estandar 6.124
Simetria 2.0793
Curtosis 14.4913
53
Regresión lineal
Después de transformar
Valores atípicos
54
Regresión lineal
Después de transformar y sin valores atípicos
54
Análisis de Residuos
Después de transformar y sin valores atípicos Estadísticas Valor
No_muestras 504
Minimo -5.2963
Cuartil_1er -0.9879
Mediana 0.0684
Media -0.0012
Cuartil_3er 1.0689
Maximo 3.1917
Rango 8.4879
Rango_Intercuartil 2.0569
Varianza 2.1834
Desv_Estandar 1.4776
Simetria -0.423
Curtosis 3.258
54
Análisis de los residuos
Antes de transformar
59
Análisis de los residuos
Después de transformar
60
Gracias por su atención