Clase4 - Regresion y Correlación
Clase4 - Regresion y Correlación
Clase4 - Regresion y Correlación
Nota: Puede usarse regresión simple para casos como, solo una variable
independiente (X) y una dependiente (Y):
1
Ejemplo 1.
Datos de Corrosión. Trece aleaciones del tipo 90/10 Cu-Ni, cada una con
un contenido específico de hierro son estudiadas bajo un proceso de
corrosión. Tras un período de 60 días se obtiene la pérdida de peso (en
miligramos al cuadrado por decímetro y día) de cada una de las aleaciones
debido al proceso de corrosión. El objetivo es estudiar el nivel de corrosión
en función del contenido de hierro. A continuación, se realiza la primera
inspección gráfica ( β1 < 0 hay relación lineal negativa).
2
En la figura anterior se observa como al ir aumentando el contenido en
hierro de la aleación disminuye linealmente la pérdida de peso. El modelo
estadístico que propongamos deberá ser capaz de explicar dicho
comportamiento. Los puntos parecen haberse desprendido de una línea
recta con pendiente negativa.
Ejemplo 2.
Datos de Papel Queremos estudiar la relación existente entre la
concentración de madera contenida en la pulpa a partir de la que se
elabora papel (madera), y la resistencia (tensión, en términos de tensión
que soporta) del papel resultante. El objetivo del análisis es describir la
tendencia observada. A continuación, se realiza la primera inspección
gráfica. Los puntos parecen haberse desprendido de una línea cuadrática o
de una curva.
3
1.REGRESIÓN LINEAL SIMPLE
El análisis de regresión lineal simple se limita a la exploración de la relación
lineal de las dos variables X, Y, donde X es la variable que se supone es la
independiente o causal o predictora o explicativa, junto a la variable Y que
se supone es la variable dependiente o respuesta.
La regresión lineal puede escribirse como una línea recta con parámetros
β0, β1
yi= β0 + β1xi + ei yi= a + bxi + ei
4
Los estimadores valores bo y b1 se calculan fácilmente al resolver el sistema
de dos ecuaciones de mínimos cuadrados; Las ecuaciones:
n n
∑Yi ∑ Xi
i=1 = n bo + b1 i=1
n n n
∑YiX ∑ Xi ∑
i=1 i = bo i=1 + b1 i=1 Xi2
Nota: También puede resolverse de manera matricial
^ X ' X )−1 X ' Y
β=( Donde :
X '1 : X , X , X , … X
11 12 13 1n
Ejemplo:
Trece aleaciones del tipo 90/10 Cu-Ni, cada una con un contenido
específico de hierro son estudiadas bajo un proceso de corrosión. Tras un
período de 60 días se obtiene la pérdida de peso (en miligramos al
cuadrado por decímetro y día) de cada una de las aleaciones debido al
proceso de corrosión. El objetivo es estudiar el nivel de corrosión en
función del contenido de hierro. A continuación, se presenta el banco de
5
datos y se realiza la primera inspección gráfica (β1 < 0 hay relación lineal
negativa).
Cantidad 0.01 0.48 0.71 0.95 1.19 0.01 0.48 1.44 0.71 1.96 0.01 1.44 1.96
hierro: X
Pérdida 127.6 124 110.8 103.9 101.5 130.1 122 92.3 113.1 83.7 128 91.4 86.2
peso:Y
6
n n
∑Yi ∑ Xi
i=1 = 1414.6 i=1 = 11.35 n= 13
n n
∑YiX ∑
i=1 i= 1097.928 i=1 Xi2= 15.6183
1414.6 = 13 bo + 11.35 b1
1097.928 = 4263 bo + 15.6183 b1
¿
La ecuación de la línea recta : y = 129.7866 – 24.0199x
7
como referencia un valor mínimo del 80%). Muchas calculadoras pueden
obtener estos resultados.
¿
y = 129.7866 – 24.0199(0.60) = 115.3747 mg.
8
El modelo de regresión lineal múltiple con p variables predictoras X1,…Xp,
es de la siguiente forma:
¿
Y = b0 + b1X1 + b2X2 +. . . +bpXp
Los valores bo , b1, b2 , … bp se calculan al resolver el sistema de p+1
ecuaciones de mínimos cuadrados;
^ −1
También se obtienen por el método matricial con β=( X ' X ) X ' Y
Existen programas de cómputo para encontrar los bi como por ejemplo el
SPSS-26.
Ejemplo.- Las mediciones que se presentan en la tabla siguiente se
hicieron en 11 trabajadores. El investigador que reunió los datos deseaba
saber la naturaleza e intensidad de la relación entre las tres variables.
Trabajador Puntaje Puntaje en Rendimiento
capacitación(X1) estrés(X2) laboral(Y)
9
Solución:
a) El modelo
Y : Rendimiento laboral
X1 : Puntaje en capacitación
X2 : Puntaje en estrés.
0 = 160.60
1 = 0.566
2 = -0.945 R2=0.68
10
Los modelos parabólicos permiten encontrar el valor de la variable
independiente x que puede optimizar la variable respuesta o rendimiento y,
derivando al modelo respecto a “x” e igualándolo a cero.
11
Porcentaje de óxido de Elasticidad
cromo(X) (Y)
12 62
16 65
20 74
25 75
30 73
31 78
42 79
42 82
45 76
50 75
52 68
55 66
12
Al resolver el sistema de ecuaciones para este modelo se obtiene:
¿ ¿
Y = b0 + b1X + b2X Y = 37.977 + 2.305X – 0.0323X2
2
13
Ejemplo 1
Suponga que se tiene información del colesterol de la carne de gallina(Y),
el peso de la gallina en gramos (X1), la edad de la gallina en semanas(X2) y
cantidad de compuesto químico agregado al alimento promedio semanal
consumido en gramos(X3). Los datos se dan a continuación:
Gallina i Yi:Colesterol X1i:peso X2i:edad X3i:compuesto
1 125 3240 30 120
2 132 3300 33 132
3 130 3320 32 125
4 137 3380 35 136
5 142 3600 40 150
6 125 3180 29 110
7 138 3500 39 145
8 150 3720 43 152
9 140 3600 42 140
10 120 3250 28 122
Vector:x1 3240 3300 3320 3380 3600 3180 3500 3720 3600 3250
Vector:X2 30 33 32 35 40 29 39 43 42 28
Vector:X3 120 132 125 136 150 110 145 152 140 122
Vector:Y' 125 132 130 137 142 125 138 150 140 120
14
Así por ejemplo para estimar el colesterol de una gallina cuyo peso es de
X1=4000g, una edad de X2=45 semanas, y un consumo de compuesto
químico promedio semanal de alimento de X3=160g, se tiene:
¿
Y = 74.058 – 0.002(4000) + 1.295(45) + 0.147(160) = 148
Cada bi representa el incremento del colesterol por cada unidad de
incremento del respectivo X cuando las otras variables permanecen
invariables; Para b2=1.295 (respecto a la edad) se interpreta que el
colesterol se incrementa en 1.295 puntos por el aumento de edad de 1
semana de la gallina, cuando las otras variables permanecen constantes.
CORRELACION
15
El coeficiente de correlación poblacional se denomina ρ xy ( )
generalmente desconocido.
- El rango de variación es de -1 r 1.
- Si r = 1 la relación es perfecta.
- Si r = 0 no existe correlación.
insignificante.
16
Para obtener el coeficiente de correlación muestral puede usarse la
siguiente fórmula (Pearson):
n ∑ xy - ∑x∑ y
r =
√(n ∑ x 2
-
2 2
( ∑ x ) )(n ∑ y 2 - ( ∑ y ) )
Correlación positiva:
17
Correlación negativa:
18
Correlación nula:
Cuando r 0 b1 0
19
Ejemplo
concentraciones (en partes por millón) de CO2 y las temperaturas (en °C)
X = CO2 314 317 320 326 331 339 346 354 361 369
Y = °C 13. 14.0 13.9 14.1 14.0 14.3 14.1 14.5 14.5 14.4
20
n ∑ xy - ∑x∑ y
r =
√(n ∑ x 2
-
2 2
( ∑ x ) )(n ∑ y 2 - ( ∑ y ) )
21
22