Tema 7 - Correlación y Regresión Lineal
Tema 7 - Correlación y Regresión Lineal
Tema 7 - Correlación y Regresión Lineal
Regresión Lineal
2 / 39
Asociación Lineal
Parece razonable modelar la relación talla-peso mediante una recta:
3 / 39
Asociación Lineal
Esta recta se denomina recta de regresión y su ecuación es de la forma:
y = b0 + b1 x
y = β0 + β1 x
es un estimador de β (pendiente)
1
muestra de puntos?
4 / 39
El modelo de regresión lineal simple
La recta de regresión es, en realidad, un modelo aproximado de la relación
entre x e y. Para cada sujeto de la población la relación exacta es de la forma:
y = β0 + β1 x + ε
ε ≈ N (0, σε )
5 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Supondremos que:
Yi = β0 + β1 Xi + εi
Por tanto:
Para cada i = 1, … , n:
Yi ≈ N (β0 + β1 Xi , σε )
E [Y |Xi = x ] = β0 + β1 x
6 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Como Y i ≈ N (β0 + β1 Xi , σε ) , la función de densidad de Y cuando X = x es: i
2
1 1 y − (β0 + β1 xi )
fβ (y |X = xi ) = exp(− ( ) )
0 ,β1 ,σε
2 σε
σε √2π
n n
n 2
1 1 yi − (β0 + β1 xi )
L (β0 , β1 , σε ) = ∏ fβ ,β1 ,σε (yi ) = ( ) exp(− ∑( ) )
0
σε √2π 2 σε
i=i
i=1
7 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Para obtener los valores de β , β y σ que maximizan la log-verosimilitud
0 1 ε
derivamos e igualamos a 0:
n n
∂ 1
ℓ (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi )) = 0 ⇒ ∑ (yi − (β0 + β1 xi )) = 0
2
∂β0 σε i=i i=i
n n
∂ 1
ℓ (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi )) xi = 0 ⇒ ∑ (yi − (β0 + β1 xi )) xi = 0
2
∂β1 σε i=i i=i
n n
∂ n 1 2 2 2
ℓ (β0 , β1 , σε ) = − + ∑ (yi − (β0 + β1 xi )) = 0 ⇒ ∑ (yi − (β0 + β1 xi )) = nσε
3
∂σε σε σε i=i i=i
8 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
De la primera ecuación se obtiene:
n n n n
∑ (yi − β0 − β1 xi ) = 0 ⇒ ∑ yi − ∑ β0 − ∑ β1 xi = 0 ⇒
n n
∑ yi ∑ xi
n n
i=1 i=1
⇒ ∑ yi − nβ0 − β1 ∑ xi = 0 ⇒ β0 = − β1 ⇒
n n
i=1 i=1
⇒ β0 = ȳ − β1 x̄
9 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Sustituyendo en la segunda ecuación:
n
i=1
n n
¯
¯¯ ¯
¯¯
∑ (yi − y ) xi − β1 ∑ (xi − x) xi = 0 ⇒
i=1 i=1
n n
¯
¯¯ ¯
¯¯ ¯
¯¯
∑ (yi − y ) xi ∑ (yi − y ) (xi − x)
i=1 i=1
Sxy
β1 = = =
n n 2
Sx
¯
¯¯ ¯
¯¯ ¯
¯¯
∑ (xi − x) xi ∑ (xi − x) (xi − x)
i=1 i=1
n n
i=1 i=1
10 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Como β 0 = ȳ − β1 x̄ :
Sxy
^ ^
β = ȳ − β x̄ = ȳ − x̄
0 1 2
Sx
Sustituyendo β por y 0
¯
¯¯
− β1 x
¯
, tras operar y simplificar, queda:
¯¯
n n
1 2 2 1
2 ¯
¯¯ 2 ¯
¯¯ 2 2 2
σε = (∑ (yi − y ) − β ∑ (xi − x) ) = ((n − 1) Sy − β (n − 1) Sx )
1 1
n n
i=1 i=1
y por tanto:
2
n − 1 2 n − 1 Sxy
2 2 ^ 2 2
σ
^ = (Sy − β Sx ) = (Sy − )
ε 1 2
n n Sx
11 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
En resumen:
Sxy
^
β =
1 2
Sx
^ ^
β = ȳ − β x̄
0 1
Sxy
r =
Sx Sy
se tiene finalmente:
2
n − 1 Sxy n − 1
2 2 2 2
σ
^ = (Sy − ) = Sy (1 − r )
ε 2
n Sx n
12 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Nótese que maximizar la verosimilitud:
n
1 2
ℓ (β0 , β1 , σε ) = −n log(σε ) − n log(√2π) − ∑ (yi − (β0 + β1 xi ))
2
2σε
i=i
es equivalente a minimizar:
n
2
D (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi ))
i=i
Por tanto:
13 / 39
Ejemplo
Volvemos a los datos de los salmones que vimos al principio. En este caso x=
Talla e y= Peso. Queremos, por tanto, ajustar la recta:
P eso = β0 + β1 ⋅ T alla
Utilizando R obtenemos:
Sxy 62.792
^
β = = = 0.22
1 2
Sx 285.548
^ ^
β = ȳ − β1 x̄ = 7.258 − 0.22 ⋅ 83.52 = −11.108
0
14 / 39
Ejemplo: Regresión lineal con R
R dispone de la función lm para ajustar la recta de regresión:
##
## Call:
## lm(formula = peso ~ talla, data = salmones)
##
## Coefficients:
## (Intercept) talla
## -11.1082 0.2199
15 / 39
Ejemplo: Regresión lineal con R
La varianza del error es:
2 2
n − 1 Sxy 99 62.792
2 2
^
σ = (Sy − ) = (17.107 − ) = 3.333
ε 2
n Sx 100 285.548
summary(recta)$sigma^2
## [1] 3.332849
16 / 39
Interpretación de los coe cientes de la regresión:
y = β0 + β1 x + ε, ε ≈ N (0, σε )
17 / 39
Ejemplo: Interpretación de los coe cientes.
En el caso de los salmones:
P eso = −11.108 + 0.22 ⋅ T alla
^
β
1
= 0.22 : significa que por cada
centímetro que se incrementa la
longitud de un salmón, su peso esperado
se incrementa en 0.22 kg.
^
β
0
= −11.108 : si quisiéramos
interpretarlo como el valor de Y cuando
x = 0, significaría que un salmón de 0
18 / 39
Ejemplo: Interpretación de los coe cientes.
19 / 39
Interpretación de los coe cientes: no extrapolar
Los riesgos de extrapolar:
20 / 39
Predicción usando la recta de regresión con R
Para realizar predicciones de la recta de regresión utilizando R se utiliza la
función predict.
Ejemplo:
Para prededir, con la recta anterior, el peso esperado de salmones para tallas
de 80 y 100 cm:
predict(recta,newdata=data.frame(talla=c(80,100)))
## 1 2
## 6.483947 10.881974
21 / 39
Inferencia en regresión lineal
Cuando ajustamos una recta a una nube de puntos observados obtenemos
unos valores estimados β^ , β^ y σ^
0 1
2
22 / 39
Inferencia en regresión lineal simple
Si las observaciones {(x , y ) i = 1, … , n} se ajustan al modelo y = β
i i i 0 + β1 xi + εi ,
siendo los ε ≈ N (0, σ ) e independientes, se puede demostrar que:
i ε
^
β1 − β
1
≈ tn−2
1
σ
^ε √
2
Sx (n−1)
^
β0 − β
0
≈ tn−2
2
¯
¯¯
1 x
^ε √
σ +
n 2
Sx (n−1)
2
(n − 2) σ
^
ε 2
≈ χ
2 n−2
σε
23 / 39
Inferencia en regresión lineal simple: Intervalos de
con anza
De las distribuciones anteriores es fácil deducir los siguientes intervalos de
confianza:
Pendiente:
σ
^ε
^
β1 ∈ [ β ± tn−2,α/2 ]
1
√n − 1 Sx
Ordenada:
2
1 x̄
^
β0 ∈ [β ^ε √
± tn−2,α/2 σ + ]
0
2
n (n − 1) Sx
24 / 39
Inferencia en regresión lineal simple: Intervalos de
con anza
Varianza residual σ 2
ε
2 2
(n − 2) σε (n − 2) σε
2
σε ∈ ( , )
2 2
χ χ
n−2,α/2 n−2,1−α/2
25 / 39
Inferencia en regresión lineal simple: Intervalos de
con anza
También puede probarse que un intervalo de confianza para la
predicción de los posibles valores de y cuando X = x es:
2
1 (x − x̄)
^ (x) ± t ^ε √ 1 + ^
^(x) = β ^
y (x) ∈ [y n−2,α/2
σ + ] y + β x
2 0 1
n (n − 1) S
X
2
1 (x − x̄)
^ ^
ȳ (x) ∈ [y
^ (x) ± tn−2,α/2 σ
^ε √ + ] y
^(x) = β + β x
2 0 1
n (n − 1) S
X
26 / 39
Ejemplo: Intervalos de con anza para la regresión en R.
En R es muy fácil obtener los intervalos de confianza. Una vez ajustada la
recta mediante lm, los intervalos para los coeficientes (ordenada y pendiente)
se obtienen mediante confint:
##
## Call:
## lm(formula = peso ~ talla, data = salmones)
##
## Coefficients:
## (Intercept) talla
## -11.1082 0.2199
confint(recta)
## 2.5 % 97.5 %
## (Intercept) -12.943903 -9.2724186
## talla 0.198354 0.2414487
27 / 39
Ejemplo: Intervalos de con anza para la regresión en R.
Los intervalos para las predicciones individuales se obtienen mediante:
Nótese que la predicción del valor medio tiene un intervalo más estrecho
que la predicción de valores individuales; es lógico que sea así, pues el valor
medio es siempre menos variable que los valores individuales.
28 / 39
Coe ciente de correlación
El coeficiente de correlación lineal de Pearson es:
Cov(X, Y )
ρ =
σX ⋅ σY
29 / 39
Coe ciente de correlación
30 / 39
Intervalo de con anza para el coe ciente de
correlación
Si definimos:
1 1 + r
zr = ln( )
2 1 − r
1 1 + ρ 1
zr ≈ N ( ln( ), )
2 1 − ρ √n − 3
Por tanto:
∣ 1 1 + ρ ∣ 1
P (∣zr − ln( )∣ ≤ zα/2 ) = 1 − α
∣ 2 1 − ρ ∣ √n − 3
de donde:
1 1 + ρ 1
ln( ) ∈ [zr ± zα/2 ]
2 1 − ρ √n − 3
31 / 39
Intervalo de con anza para el coe ciente de
correlación
A partir de la expresión anterior, llamando:
1 1
zinf = zr − zα/2 , zsup = zr + zα/2
√n − 3 √n − 3
2zinf 2zsup
e − 1 e − 1
ρ ∈ [ , ]
2zinf 2zsup
e + 1 e + 1
32 / 39
Ejemplo: Coe ciente de correlación en R
Cálculo del coeficiente de correlación entre la talla y el peso de los
salmones:
with(salmones,cor(talla,peso))
## [1] 0.898414
Intervalo de confianza:
with(salmones,cor.test(talla,peso)$conf.int)
33 / 39
Correlación y causalidad
Que dos variables X e Y tengan una fuerte asociación lineal (valor alto de
correlación, próximo a 1 ó a -1) no implica que X sea la causa de Y , ni que
Y sea la causa de X .
Ejemplo:
Se ha observado que cuando aumenta la venta de helados, aumenta de forma
prácticamente lineal el número de personas que son atacadas por tiburones:
¿significa eso que podemos disminuir el número de ataques de tiburón
simplemente vendiendo menos helados?
34 / 39
Correlación y causalidad
35 / 39
Correlación y causalidad
Obviamente la respuesta es no; la venta de helados no es la causa de los
ataques de los tiburones (ni al revés), por muy fuerte que sea la asociación
entre estas dos variables.
36 / 39
Correlación y causalidad
Se pueden encontrar muchos más ejemplos de correlaciones espurias
(relación entre variables sin conexión lógica entre ellas) en la web
tylervigen
37 / 39
Coe ciente de determinación R
2
donde:
VARIABILIDAD TOTAL: V
n 2
¯
¯¯
T = ∑ (yi − y )
i=1
VARIABILIDAD EXPLICADA: V
n 2
¯
¯¯
E = ∑ (y
^ − y)
i=1 i
VARIABILIDAD RESIDUAL: V
n 2
R = ∑ ^ )
(yi − y
i=1 i
Es decir:
n n n
2 2 2
¯
¯¯ ¯
¯¯
∑ (yi − y ) = ∑ (y
^ − y) + ∑ (yi − y
^ )
i i
38 / 39
Coe ciente de determinación R
2
R
2
se suele expresar en porcentaje.
39 / 39