Tema 7 - Correlación y Regresión Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

Tema 7: Correlación y

Regresión Lineal

Estadística. Grado en Ciencias del Mar


Asociación Lineal
Se dispone de datos de 100 salmones capturados en tres zonas costeras de
Argentina y Chile. Para cada ejemplar se ha medido su talla (en cm) y su peso
(en kg). A continuación se muestran los datos de algunos de los salmones de
esta muestra, y la nube de puntos talla-peso:

2 / 39
Asociación Lineal
Parece razonable modelar la relación talla-peso mediante una recta:

3 / 39
Asociación Lineal
Esta recta se denomina recta de regresión y su ecuación es de la forma:
y = b0 + b1 x

Si tomásemos otra muestra de 100 salmones en las mismas localizaciones,


podríamos esperar una nube de puntos parecida , y por tanto unos valores
parecidos de b y b
0 1

Si dispusiéramos de datos de la población de salmones podríamos calcular la


recta de regresión ajustada a la población:

y = β0 + β1 x

Si nuestra muestra es representativa, b es un estimador de β (ordenada) y b


0 0 1

es un estimador de β (pendiente)
1

¿Cómo estimar β y β ?, es decir, ¿cómo calculamos b y b a partir de una


0 1 0 1

muestra de puntos?

4 / 39
El modelo de regresión lineal simple
La recta de regresión es, en realidad, un modelo aproximado de la relación
entre x e y. Para cada sujeto de la población la relación exacta es de la forma:

y = β0 + β1 x + ε

donde ε representa la distancia entre el punto observado (x, y) y la recta.

Si podemos asumir que el valor de ε es un valor aleatorio consecuencia de


múltiples pequeñas causas independientes que se suman y contribuyen a
apartar el punto de la recta, por efecto del Teorema Central del Límite es
razonable modelar ε como una variable aleatoria con distribución normal:

ε ≈ N (0, σε )

5 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Supondremos que:

Se dispone de n observaciones de dos variables {(X , Y ) , i i i = 1, … , n}

Los valores de Y se ajustan al modelo:


i

Yi = β0 + β1 Xi + εi

Los valores ε son N (0, σ


i ε) e independientes.

Por tanto:

Para cada i = 1, … , n:

Yi ≈ N (β0 + β1 Xi , σε )

Para cada valor X i = x fijo:

E [Y |Xi = x ] = β0 + β1 x

Es decir, los valores individuales de Y se distribuyen alrededor la recta


y = β + β x, centrados en ella, y con varianza constante σ .
2
0 1 ε

6 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Como Y i ≈ N (β0 + β1 Xi , σε ) , la función de densidad de Y cuando X = x es: i

2
1 1 y − (β0 + β1 xi )
fβ (y |X = xi ) = exp(− ( ) )
0 ,β1 ,σε
2 σε
σε √2π

La función de verosimilitud cuando se ha observado la muestra


{(x , y ) , i = 1, … , n} es entonces:
i i

n n
n 2
1 1 yi − (β0 + β1 xi )
L (β0 , β1 , σε ) = ∏ fβ ,β1 ,σε (yi ) = ( ) exp(− ∑( ) )
0
σε √2π 2 σε
i=i
i=1

Tomando logaritmos se obtiene la log-verosimilitud:


n
1 2
ℓ (β0 , β1 , σε ) = −n log(σε ) − n log(√2π) − ∑ (yi − (β0 + β1 xi ))
2
2σε
i=i

7 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Para obtener los valores de β , β y σ que maximizan la log-verosimilitud
0 1 ε

derivamos e igualamos a 0:
n n
∂ 1
ℓ (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi )) = 0 ⇒ ∑ (yi − (β0 + β1 xi )) = 0
2
∂β0 σε i=i i=i

n n
∂ 1
ℓ (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi )) xi = 0 ⇒ ∑ (yi − (β0 + β1 xi )) xi = 0
2
∂β1 σε i=i i=i

n n
∂ n 1 2 2 2
ℓ (β0 , β1 , σε ) = − + ∑ (yi − (β0 + β1 xi )) = 0 ⇒ ∑ (yi − (β0 + β1 xi )) = nσε
3
∂σε σε σε i=i i=i

(Ecuaciones normales de la regresión)

8 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
De la primera ecuación se obtiene:
n n n n

∑ (yi − β0 − β1 xi ) = 0 ⇒ ∑ yi − ∑ β0 − ∑ β1 xi = 0 ⇒

i=1 i=1 i=1 i=1

n n

∑ yi ∑ xi
n n
i=1 i=1
⇒ ∑ yi − nβ0 − β1 ∑ xi = 0 ⇒ β0 = − β1 ⇒
n n
i=1 i=1

⇒ β0 = ȳ − β1 x̄

9 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Sustituyendo en la segunda ecuación:
n

∑ (yi − β0 − β1 xi )xi = 0 ⇒ ∑ (yi − (ȳ − β1 x̄) − β1 xi )xi = 0 ⇒

i=1

n n

¯
¯¯ ¯
¯¯
∑ (yi − y ) xi − β1 ∑ (xi − x) xi = 0 ⇒

i=1 i=1

n n
¯
¯¯ ¯
¯¯ ¯
¯¯
∑ (yi − y ) xi ∑ (yi − y ) (xi − x)
i=1 i=1
Sxy
β1 = = =
n n 2
Sx
¯
¯¯ ¯
¯¯ ¯
¯¯
∑ (xi − x) xi ∑ (xi − x) (xi − x)
i=1 i=1

n n

NOTA: Se ha usado que ¯


¯¯ ¯
¯¯
∑ (yi − y ) x = ∑ (xi − x) x = 0
¯
¯¯ ¯
¯¯

i=1 i=1

10 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Como β 0 = ȳ − β1 x̄ :
Sxy
^ ^
β = ȳ − β x̄ = ȳ − x̄
0 1 2
Sx

Por último, de la tercera ecuación se obtiene:


n
1 2
2
σε = ∑ (yi − (β0 + β1 xi ))
n
i=i

Sustituyendo β por y 0
¯
¯¯
− β1 x
¯
, tras operar y simplificar, queda:
¯¯

n n
1 2 2 1
2 ¯
¯¯ 2 ¯
¯¯ 2 2 2
σε = (∑ (yi − y ) − β ∑ (xi − x) ) = ((n − 1) Sy − β (n − 1) Sx )
1 1
n n
i=1 i=1

y por tanto:
2
n − 1 2 n − 1 Sxy
2 2 ^ 2 2
σ
^ = (Sy − β Sx ) = (Sy − )
ε 1 2
n n Sx

11 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
En resumen:

Sxy
^
β =
1 2
Sx

^ ^
β = ȳ − β x̄
0 1

Además teniendo en cuenta que el coeficiente de correlación lineal es:

Sxy
r =
Sx Sy

se tiene finalmente:

2
n − 1 Sxy n − 1
2 2 2 2
σ
^ = (Sy − ) = Sy (1 − r )
ε 2
n Sx n

12 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Nótese que maximizar la verosimilitud:
n
1 2
ℓ (β0 , β1 , σε ) = −n log(σε ) − n log(√2π) − ∑ (yi − (β0 + β1 xi ))
2
2σε
i=i

es equivalente a minimizar:
n
2
D (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi ))

i=i

Por tanto:

Si ε ≈ N (0, σ ) los estimadores MV de β y β son los que minimizan la suma


ε 0 1

de cuadrados de las distancias de los puntos a la recta; en definitiva,


producen una recta que pasa por el centro de la nube de puntos.

13 / 39
Ejemplo
Volvemos a los datos de los salmones que vimos al principio. En este caso x=
Talla e y= Peso. Queremos, por tanto, ajustar la recta:
P eso = β0 + β1 ⋅ T alla

Utilizando R obtenemos:

## mean(talla) mean(peso) var(talla) var(peso)


## 83.520 7.258 285.548 17.107
## cov(talla,peso)
## 62.792

Sxy 62.792
^
β = = = 0.22
1 2
Sx 285.548

^ ^
β = ȳ − β1 x̄ = 7.258 − 0.22 ⋅ 83.52 = −11.108
0

Por tanto la recta es:

P eso = −11.108 + 0.22 ⋅ T alla

14 / 39
Ejemplo: Regresión lineal con R
R dispone de la función lm para ajustar la recta de regresión:

recta <- lm(peso~talla,data=salmones)


recta

##
## Call:
## lm(formula = peso ~ talla, data = salmones)
##
## Coefficients:
## (Intercept) talla
## -11.1082 0.2199

15 / 39
Ejemplo: Regresión lineal con R
La varianza del error es:
2 2
n − 1 Sxy 99 62.792
2 2
^
σ = (Sy − ) = (17.107 − ) = 3.333
ε 2
n Sx 100 285.548

Con R puede calcularse mediante:

summary(recta)$sigma^2

## [1] 3.332849

16 / 39
Interpretación de los coe cientes de la regresión:
y = β0 + β1 x + ε, ε ≈ N (0, σε )

Pendiente ( β ): Representa el cambio que se produce en y por cada


1

unidad de incremento en el valor la variable x.

Ordenada ( β ): Representa el valor esperado de Y cuando la x = 0. Sólo


0

tiene sentido interpretar así este coeficiente cuando los puntos


observados realmente pasan por x = 0. En caso contrario β debe 0

entenderse como un simple coeficiente de ajuste sin mayor


interpretación.

Predicción ( β 0 + β1 xi ): representa el valor esperado de Y cuando la X vale


x .
i

Desviación típica residual ( σ ): representa la variabilidad de Y en torno


ε

a su valor esperado β + β x cuando X = x . Se asume que es constante a


0 1 i i

lo largo de todo el recorrido de la recta.

17 / 39
Ejemplo: Interpretación de los coe cientes.
En el caso de los salmones:
P eso = −11.108 + 0.22 ⋅ T alla

^
β
1
= 0.22 : significa que por cada
centímetro que se incrementa la
longitud de un salmón, su peso esperado
se incrementa en 0.22 kg.

^
β
0
= −11.108 : si quisiéramos
interpretarlo como el valor de Y cuando
x = 0, significaría que un salmón de 0

cm de longitud pesaría −11.108 kg;


dado que no se han observado salmones
de 0 cm de longitud (ni siquiera existen),
^
el valor β 0
solo puede interpetarse como
un coeficiente de ajuste, necesario para
que la recta pase por la nube de puntos.

18 / 39
Ejemplo: Interpretación de los coe cientes.

Nunca debe utilizarse una recta de regresión para extrapolar ya que, en


general, no podemos estar seguros de que la relación entre X e Y sea la
misma fuera del rango observado.

Para talla = 80 cm, la recta


predice un peso esperado de:
peso = −11.108 + 0.22 ⋅ 80 = 6.484 kg

Para talla = 100 cm, la recta


predice un peso esperado de:
peso = −11.108 + 0.22 ⋅ 100 = 10.882 kg

Para talla = 200 cm: no deben


hacerse predicciones, pues no se han
observado salmones en ese rango de
talla

19 / 39
Interpretación de los coe cientes: no extrapolar
Los riesgos de extrapolar:

Enlace a la fuente original de la viñeta

20 / 39
Predicción usando la recta de regresión con R
Para realizar predicciones de la recta de regresión utilizando R se utiliza la
función predict.

Ejemplo:
Para prededir, con la recta anterior, el peso esperado de salmones para tallas
de 80 y 100 cm:

predict(recta,newdata=data.frame(talla=c(80,100)))

## 1 2
## 6.483947 10.881974

21 / 39
Inferencia en regresión lineal
Cuando ajustamos una recta a una nube de puntos observados obtenemos
unos valores estimados β^ , β^ y σ^
0 1
2

Si de la misma población observamos una nueva muestra de puntos,


obtendremos otros valores de β^ , β^ y σ^ distintos (aunque seguramente
0 1
2
ε

parecidos) a los anteriores.

¿Cuánto se aproximan estos valores estimados a los verdaderos valores


de β , β y σ en la población?
0 1
2
ε

Cuando se realiza una predicción utilizando los valores estimados β^ y


0

β , ¿qué margen de error cabe esperar en esta predicción?


^
1

22 / 39
Inferencia en regresión lineal simple
Si las observaciones {(x , y ) i = 1, … , n} se ajustan al modelo y = β
i i i 0 + β1 xi + εi ,
siendo los ε ≈ N (0, σ ) e independientes, se puede demostrar que:
i ε

^
β1 − β
1
≈ tn−2
1
σ
^ε √
2
Sx (n−1)

^
β0 − β
0
≈ tn−2
2
¯
¯¯
1 x
^ε √
σ +
n 2
Sx (n−1)

2
(n − 2) σ
^
ε 2
≈ χ
2 n−2
σε

23 / 39
Inferencia en regresión lineal simple: Intervalos de
con anza
De las distribuciones anteriores es fácil deducir los siguientes intervalos de
confianza:

Pendiente:

σ

^
β1 ∈ [ β ± tn−2,α/2 ]
1
√n − 1 Sx

Ordenada:

2
1 x̄
^
β0 ∈ [β ^ε √
± tn−2,α/2 σ + ]
0
2
n (n − 1) Sx

24 / 39
Inferencia en regresión lineal simple: Intervalos de
con anza
Varianza residual σ 2
ε

2 2
(n − 2) σε (n − 2) σε
2
σε ∈ ( , )
2 2
χ χ
n−2,α/2 n−2,1−α/2

25 / 39
Inferencia en regresión lineal simple: Intervalos de
con anza
También puede probarse que un intervalo de confianza para la
predicción de los posibles valores de y cuando X = x es:

2
1 (x − x̄)
^ (x) ± t ^ε √ 1 + ^
^(x) = β ^
y (x) ∈ [y n−2,α/2
σ + ] y + β x
2 0 1
n (n − 1) S
X

Si se desea un intervalo de confianza para el valor medio de todas las y


que se pueden observar para un x fijo, éste es de la forma:

2
1 (x − x̄)
^ ^
ȳ (x) ∈ [y
^ (x) ± tn−2,α/2 σ
^ε √ + ] y
^(x) = β + β x
2 0 1
n (n − 1) S
X

26 / 39
Ejemplo: Intervalos de con anza para la regresión en R.
En R es muy fácil obtener los intervalos de confianza. Una vez ajustada la
recta mediante lm, los intervalos para los coeficientes (ordenada y pendiente)
se obtienen mediante confint:

recta <- lm(peso~talla,data=salmones)


recta

##
## Call:
## lm(formula = peso ~ talla, data = salmones)
##
## Coefficients:
## (Intercept) talla
## -11.1082 0.2199

confint(recta)

## 2.5 % 97.5 %
## (Intercept) -12.943903 -9.2724186
## talla 0.198354 0.2414487

27 / 39
Ejemplo: Intervalos de con anza para la regresión en R.
Los intervalos para las predicciones individuales se obtienen mediante:

predict(recta, newdata=data.frame(talla=c(80,100)), interval="predict

## fit lwr upr


## 1 6.483947 2.842226 10.12567
## 2 10.881974 7.223767 14.54018

Los intervalos para la predicción de valores medios se obtienen mediante:

predict(recta, newdata=data.frame(talla=c(80,100)), interval="confide

## fit lwr upr


## 1 6.483947 6.113807 6.854088
## 2 10.881974 10.374679 11.389269

Nótese que la predicción del valor medio tiene un intervalo más estrecho
que la predicción de valores individuales; es lógico que sea así, pues el valor
medio es siempre menos variable que los valores individuales.
28 / 39
Coe ciente de correlación
El coeficiente de correlación lineal de Pearson es:

Cov(X, Y )
ρ =
σX ⋅ σY

Se estima a partir de la muestra mediante:


Sxy
r =
Sx ⋅ Sy

Valores próximos a 1 (o a -1) indican habitualmente un buen ajuste a una


recta de pendiente positiva (o negativa, respectivamente)

Valores próximos a cero indican que la nube de puntos no se parece a una


recta (aunque podría adoptar alguna otra forma geométrica, lo que
indicaría algún otro tipo de asociación entre x e y).

29 / 39
Coe ciente de correlación

¡¡ Siempre conviene representar gráficamente la nube de puntos. !!

Cuarteto de Anscombe: En los cuatro


casos r = 0.82; sin embargo las nubes
de puntos son completamente
diferentes y en los casos II, III y IV se
apartan notablemente de la
linealidad.

Datasaurus dozen: Otro ejemplo de


nubes de puntos completamente
diferentes y con la misma
correlación aquí

30 / 39
Intervalo de con anza para el coe ciente de
correlación
Si definimos:

1 1 + r
zr = ln( )
2 1 − r

se puede probar (Fisher) que:

1 1 + ρ 1
zr ≈ N ( ln( ), )
2 1 − ρ √n − 3

Por tanto:

∣ 1 1 + ρ ∣ 1
P (∣zr − ln( )∣ ≤ zα/2 ) = 1 − α
∣ 2 1 − ρ ∣ √n − 3

de donde:

1 1 + ρ 1
ln( ) ∈ [zr ± zα/2 ]
2 1 − ρ √n − 3

31 / 39
Intervalo de con anza para el coe ciente de
correlación
A partir de la expresión anterior, llamando:
1 1
zinf = zr − zα/2 , zsup = zr + zα/2
√n − 3 √n − 3

se obtiene el siguiente intervalo de confianza a nivel 1 − α para ρ:

2zinf 2zsup
e − 1 e − 1
ρ ∈ [ , ]
2zinf 2zsup
e + 1 e + 1

32 / 39
Ejemplo: Coe ciente de correlación en R
Cálculo del coeficiente de correlación entre la talla y el peso de los
salmones:

with(salmones,cor(talla,peso))

## [1] 0.898414

Intervalo de confianza:

with(salmones,cor.test(talla,peso)$conf.int)

## [1] 0.8524176 0.9306119


## attr(,"conf.level")
## [1] 0.95

33 / 39
Correlación y causalidad

Que dos variables X e Y tengan una fuerte asociación lineal (valor alto de
correlación, próximo a 1 ó a -1) no implica que X sea la causa de Y , ni que
Y sea la causa de X .

Ejemplo:
Se ha observado que cuando aumenta la venta de helados, aumenta de forma
prácticamente lineal el número de personas que son atacadas por tiburones:
¿significa eso que podemos disminuir el número de ataques de tiburón
simplemente vendiendo menos helados?

34 / 39
Correlación y causalidad

35 / 39
Correlación y causalidad
Obviamente la respuesta es no; la venta de helados no es la causa de los
ataques de los tiburones (ni al revés), por muy fuerte que sea la asociación
entre estas dos variables.

En este caso es una tercera variable (factor de confusión), la temperatura en


este caso, la que dispara simultáneamente la compra de helados y el número
de bañistas en la playa (que tiene como efecto colateral que hay más
posibilidades de que alguien sea atacado por un tiburón)

36 / 39
Correlación y causalidad
Se pueden encontrar muchos más ejemplos de correlaciones espurias
(relación entre variables sin conexión lógica entre ellas) en la web
tylervigen

Para establecer que la asociación entre dos variables es real y no espuria


(inducida por un tercer factor oculto, o factor de confusión) es preciso
encontrar un mecanismo plausible que explique la causalidad, y ponerlo
a prueba mediante la realización de experimentos adecuadamente
diseñados para descartar la intervención de factores ocultos.

37 / 39
Coe ciente de determinación R
2

La variabilidad total presente en la variable respuesta Y puede


descomponerse en la variabilidad explicada por (o debida al efecto de) la
variable explicativa X, más la variabilidad residual (variabilidad no
explicada por X):

VARIABILIDAD TOTAL = VARIABILIDAD EXPLICADA + VARIABILIDAD


RESIDUAL

donde:

VARIABILIDAD TOTAL: V
n 2
¯
¯¯
T = ∑ (yi − y )
i=1

VARIABILIDAD EXPLICADA: V
n 2
¯
¯¯
E = ∑ (y
^ − y)
i=1 i

VARIABILIDAD RESIDUAL: V
n 2
R = ∑ ^ )
(yi − y
i=1 i

Es decir:
n n n
2 2 2
¯
¯¯ ¯
¯¯
∑ (yi − y ) = ∑ (y
^ − y) + ∑ (yi − y
^ )
i i

i=1 i=1 i=1

38 / 39
Coe ciente de determinación R
2

Se denomina Coeficiente de determinación al cociente:


n 2
¯
¯¯
VE ∑ (y
^ − y)
i=1 i
2
R = =
n 2
VT ¯
¯¯
∑ (yi − y )
i=1

Este coeficiente mide la proporción de la variabilidad en la variable


respuesta Y que es explicada (o está determinada) por la variable
explicativa X.

Cuanto más se aproxime su valor a 1, mejor es el modelo; cuanto más se


aproxime a cero tanto peor.

Se puede probar que R 2


= r
2

R
2
se suele expresar en porcentaje.
39 / 39

También podría gustarte