Tema 7 - Correlación y Regresión Lineal

Tema 7: Correlación y
Regresión Lineal
Estadística. Grado en Ciencias del Mar

Asociación Lineal
Se dispone de datos de 100 salmones capturados en tres zonas costeras de
Argentina y Chile. Para cada ejemplar se ha medido su talla (en cm) y su peso
(en kg). A continuación se muestran los datos de algunos de los salmones de
esta muestra, y la nube de puntos talla-peso:
2 / 39
Asociación Lineal
Parece razonable modelar la relación talla-peso mediante una recta:
3 / 39
Asociación Lineal
Esta recta se denomina recta de regresión y su ecuación es de la forma:
y = b0 + b1 x
Si tomásemos otra muestra de 100 salmones en las mismas localizaciones,

podríamos esperar una nube de puntos parecida , y por tanto unos valores
parecidos de b y b
0 1
Si dispusiéramos de datos de la población de salmones podríamos calcular la

recta de regresión ajustada a la población:
y = β0 + β1 x
Si nuestra muestra es representativa, b es un estimador de β (ordenada) y b

0 0 1
es un estimador de β (pendiente)
1
¿Cómo estimar β y β ?, es decir, ¿cómo calculamos b y b a partir de una

0 1 0 1
muestra de puntos?
4 / 39
El modelo de regresión lineal simple
La recta de regresión es, en realidad, un modelo aproximado de la relación
entre x e y. Para cada sujeto de la población la relación exacta es de la forma:
y = β0 + β1 x + ε
donde ε representa la distancia entre el punto observado (x, y) y la recta.
Si podemos asumir que el valor de ε es un valor aleatorio consecuencia de

múltiples pequeñas causas independientes que se suman y contribuyen a
apartar el punto de la recta, por efecto del Teorema Central del Límite es
razonable modelar ε como una variable aleatoria con distribución normal:
ε ≈ N (0, σε )
5 / 39
Regresión Lineal: Estimación por Máxima Verosimilitud
Supondremos que:
Se dispone de n observaciones de dos variables {(X , Y ) , i i i = 1, … , n}
Los valores de Y se ajustan al modelo:

i
Yi = β0 + β1 Xi + εi
Los valores ε son N (0, σ

i ε) e independientes.
Por tanto:
Para cada i = 1, … , n:
Yi ≈ N (β0 + β1 Xi , σε )
Para cada valor X i = x fijo:
E [Y |Xi = x ] = β0 + β1 x
Es decir, los valores individuales de Y se distribuyen alrededor la recta

y = β + β x, centrados en ella, y con varianza constante σ .
2
0 1 ε
6 / 39
Como Y i ≈ N (β0 + β1 Xi , σε ) , la función de densidad de Y cuando X = x es: i
2
1 1 y − (β0 + β1 xi )
fβ (y |X = xi ) = exp(− ( ) )
0 ,β1 ,σε
2 σε
σε √2π
La función de verosimilitud cuando se ha observado la muestra

{(x , y ) , i = 1, … , n} es entonces:
i i
n n
n 2
1 1 yi − (β0 + β1 xi )
L (β0 , β1 , σε ) = ∏ fβ ,β1 ,σε (yi ) = ( ) exp(− ∑( ) )
0
σε √2π 2 σε
i=i
i=1
Tomando logaritmos se obtiene la log-verosimilitud:

n
1 2
ℓ (β0 , β1 , σε ) = −n log(σε ) − n log(√2π) − ∑ (yi − (β0 + β1 xi ))
2
2σε
i=i
7 / 39
Para obtener los valores de β , β y σ que maximizan la log-verosimilitud
0 1 ε
derivamos e igualamos a 0:
n n
∂ 1
ℓ (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi )) = 0 ⇒ ∑ (yi − (β0 + β1 xi )) = 0
2
∂β0 σε i=i i=i
n n
∂ 1
ℓ (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi )) xi = 0 ⇒ ∑ (yi − (β0 + β1 xi )) xi = 0
2
∂β1 σε i=i i=i
n n
∂ n 1 2 2 2
ℓ (β0 , β1 , σε ) = − + ∑ (yi − (β0 + β1 xi )) = 0 ⇒ ∑ (yi − (β0 + β1 xi )) = nσε
3
∂σε σε σε i=i i=i
(Ecuaciones normales de la regresión)
8 / 39
De la primera ecuación se obtiene:
n n n n
∑ (yi − β0 − β1 xi ) = 0 ⇒ ∑ yi − ∑ β0 − ∑ β1 xi = 0 ⇒
i=1 i=1 i=1 i=1
n n
∑ yi ∑ xi
n n
i=1 i=1
⇒ ∑ yi − nβ0 − β1 ∑ xi = 0 ⇒ β0 = − β1 ⇒
n n
i=1 i=1
⇒ β0 = ȳ − β1 x̄
9 / 39
Sustituyendo en la segunda ecuación:
n
∑ (yi − β0 − β1 xi )xi = 0 ⇒ ∑ (yi − (ȳ − β1 x̄) − β1 xi )xi = 0 ⇒
i=1
n n
¯
¯¯ ¯
¯¯
∑ (yi − y ) xi − β1 ∑ (xi − x) xi = 0 ⇒
i=1 i=1
n n
¯
¯¯ ¯
¯¯ ¯
¯¯
∑ (yi − y ) xi ∑ (yi − y ) (xi − x)
i=1 i=1
Sxy
β1 = = =
n n 2
Sx
¯
¯¯ ¯
¯¯ ¯
¯¯
∑ (xi − x) xi ∑ (xi − x) (xi − x)
i=1 i=1
n n
NOTA: Se ha usado que ¯

¯¯ ¯
¯¯
∑ (yi − y ) x = ∑ (xi − x) x = 0
¯
¯¯ ¯
¯¯
i=1 i=1
10 / 39
Como β 0 = ȳ − β1 x̄ :
Sxy
^ ^
β = ȳ − β x̄ = ȳ − x̄
0 1 2
Sx
Por último, de la tercera ecuación se obtiene:

n
1 2
2
σε = ∑ (yi − (β0 + β1 xi ))
n
i=i
Sustituyendo β por y 0
¯
¯¯
− β1 x
¯
, tras operar y simplificar, queda:
¯¯
n n
1 2 2 1
2 ¯
¯¯ 2 ¯
¯¯ 2 2 2
σε = (∑ (yi − y ) − β ∑ (xi − x) ) = ((n − 1) Sy − β (n − 1) Sx )
1 1
n n
i=1 i=1
y por tanto:
2
n − 1 2 n − 1 Sxy
2 2 ^ 2 2
σ
^ = (Sy − β Sx ) = (Sy − )
ε 1 2
n n Sx
11 / 39
En resumen:
Sxy
^
β =
1 2
Sx
^ ^
β = ȳ − β x̄
0 1
Además teniendo en cuenta que el coeficiente de correlación lineal es:
Sxy
r =
Sx Sy
se tiene finalmente:
2
n − 1 Sxy n − 1
2 2 2 2
σ
^ = (Sy − ) = Sy (1 − r )
ε 2
n Sx n
12 / 39
Nótese que maximizar la verosimilitud:
n
1 2
ℓ (β0 , β1 , σε ) = −n log(σε ) − n log(√2π) − ∑ (yi − (β0 + β1 xi ))
2
2σε
i=i
es equivalente a minimizar:
n
2
D (β0 , β1 , σε ) = ∑ (yi − (β0 + β1 xi ))
i=i
Por tanto:
Si ε ≈ N (0, σ ) los estimadores MV de β y β son los que minimizan la suma

ε 0 1
de cuadrados de las distancias de los puntos a la recta; en definitiva,

producen una recta que pasa por el centro de la nube de puntos.
13 / 39
Ejemplo
Volvemos a los datos de los salmones que vimos al principio. En este caso x=
Talla e y= Peso. Queremos, por tanto, ajustar la recta:
P eso = β0 + β1 ⋅ T alla
Utilizando R obtenemos:
## mean(talla) mean(peso) var(talla) var(peso)

## 83.520 7.258 285.548 17.107
## cov(talla,peso)
## 62.792
Sxy 62.792
^
β = = = 0.22
1 2
Sx 285.548
^ ^
β = ȳ − β1 x̄ = 7.258 − 0.22 ⋅ 83.52 = −11.108
0
Por tanto la recta es:
P eso = −11.108 + 0.22 ⋅ T alla
14 / 39
Ejemplo: Regresión lineal con R
R dispone de la función lm para ajustar la recta de regresión:
recta <- lm(peso~talla,data=salmones)

recta
##
## Call:
## lm(formula = peso ~ talla, data = salmones)
##
## Coefficients:
## (Intercept) talla
## -11.1082 0.2199
15 / 39
Ejemplo: Regresión lineal con R
La varianza del error es:
2 2
n − 1 Sxy 99 62.792
2 2
^
σ = (Sy − ) = (17.107 − ) = 3.333
ε 2
n Sx 100 285.548
Con R puede calcularse mediante:
summary(recta)$sigma^2
## [1] 3.332849
16 / 39
Interpretación de los coe cientes de la regresión:
y = β0 + β1 x + ε, ε ≈ N (0, σε )
Pendiente ( β ): Representa el cambio que se produce en y por cada

1
unidad de incremento en el valor la variable x.
Ordenada ( β ): Representa el valor esperado de Y cuando la x = 0. Sólo

0
tiene sentido interpretar así este coeficiente cuando los puntos

observados realmente pasan por x = 0. En caso contrario β debe 0
entenderse como un simple coeficiente de ajuste sin mayor

interpretación.
Predicción ( β 0 + β1 xi ): representa el valor esperado de Y cuando la X vale

x .
i
Desviación típica residual ( σ ): representa la variabilidad de Y en torno

ε
a su valor esperado β + β x cuando X = x . Se asume que es constante a

0 1 i i
lo largo de todo el recorrido de la recta.
17 / 39
Ejemplo: Interpretación de los coe cientes.
En el caso de los salmones:
P eso = −11.108 + 0.22 ⋅ T alla
^
β
1
= 0.22 : significa que por cada
centímetro que se incrementa la
longitud de un salmón, su peso esperado
se incrementa en 0.22 kg.
^
β
0
= −11.108 : si quisiéramos
interpretarlo como el valor de Y cuando
x = 0, significaría que un salmón de 0
cm de longitud pesaría −11.108 kg;

dado que no se han observado salmones
de 0 cm de longitud (ni siquiera existen),
^
el valor β 0
solo puede interpetarse como
un coeficiente de ajuste, necesario para
que la recta pase por la nube de puntos.
18 / 39
Ejemplo: Interpretación de los coe cientes.
Nunca debe utilizarse una recta de regresión para extrapolar ya que, en

general, no podemos estar seguros de que la relación entre X e Y sea la
misma fuera del rango observado.
Para talla = 80 cm, la recta

predice un peso esperado de:
peso = −11.108 + 0.22 ⋅ 80 = 6.484 kg
Para talla = 100 cm, la recta

predice un peso esperado de:
peso = −11.108 + 0.22 ⋅ 100 = 10.882 kg
Para talla = 200 cm: no deben

hacerse predicciones, pues no se han
observado salmones en ese rango de
talla
19 / 39
Interpretación de los coe cientes: no extrapolar
Los riesgos de extrapolar:
Enlace a la fuente original de la viñeta
20 / 39
Predicción usando la recta de regresión con R
Para realizar predicciones de la recta de regresión utilizando R se utiliza la
función predict.
Ejemplo:
Para prededir, con la recta anterior, el peso esperado de salmones para tallas
de 80 y 100 cm:
predict(recta,newdata=data.frame(talla=c(80,100)))
## 1 2
## 6.483947 10.881974
21 / 39
Inferencia en regresión lineal
Cuando ajustamos una recta a una nube de puntos observados obtenemos
unos valores estimados β^ , β^ y σ^
0 1
2
Si de la misma población observamos una nueva muestra de puntos,

obtendremos otros valores de β^ , β^ y σ^ distintos (aunque seguramente
0 1
2
ε
parecidos) a los anteriores.
¿Cuánto se aproximan estos valores estimados a los verdaderos valores

de β , β y σ en la población?
0 1
2
ε
Cuando se realiza una predicción utilizando los valores estimados β^ y

0
β , ¿qué margen de error cabe esperar en esta predicción?

^
1
22 / 39
Inferencia en regresión lineal simple
Si las observaciones {(x , y ) i = 1, … , n} se ajustan al modelo y = β
i i i 0 + β1 xi + εi ,
siendo los ε ≈ N (0, σ ) e independientes, se puede demostrar que:
i ε
^
β1 − β
1
≈ tn−2
1
σ
^ε √
2
Sx (n−1)
^
β0 − β
0
≈ tn−2
2
¯
¯¯
1 x
^ε √
σ +
n 2
Sx (n−1)
2
(n − 2) σ
^
ε 2
≈ χ
2 n−2
σε
23 / 39
Inferencia en regresión lineal simple: Intervalos de
con anza
De las distribuciones anteriores es fácil deducir los siguientes intervalos de
confianza:
Pendiente:
σ
^ε
^
β1 ∈ [ β ± tn−2,α/2 ]
1
√n − 1 Sx
Ordenada:
2
1 x̄
^
β0 ∈ [β ^ε √
± tn−2,α/2 σ + ]
0
2
n (n − 1) Sx
24 / 39
con anza
Varianza residual σ 2
ε
2 2
(n − 2) σε (n − 2) σε
2
σε ∈ ( , )
2 2
χ χ
n−2,α/2 n−2,1−α/2
25 / 39
con anza
También puede probarse que un intervalo de confianza para la
predicción de los posibles valores de y cuando X = x es:
2
1 (x − x̄)
^ (x) ± t ^ε √ 1 + ^
^(x) = β ^
y (x) ∈ [y n−2,α/2
σ + ] y + β x
2 0 1
n (n − 1) S
X
Si se desea un intervalo de confianza para el valor medio de todas las y

que se pueden observar para un x fijo, éste es de la forma:
2
1 (x − x̄)
^ ^
ȳ (x) ∈ [y
^ (x) ± tn−2,α/2 σ
^ε √ + ] y
^(x) = β + β x
2 0 1
n (n − 1) S
X
26 / 39
Ejemplo: Intervalos de con anza para la regresión en R.
En R es muy fácil obtener los intervalos de confianza. Una vez ajustada la
recta mediante lm, los intervalos para los coeficientes (ordenada y pendiente)
se obtienen mediante confint:
recta <- lm(peso~talla,data=salmones)

recta
##
## Call:
## lm(formula = peso ~ talla, data = salmones)
##
## Coefficients:
## (Intercept) talla
## -11.1082 0.2199
confint(recta)
## 2.5 % 97.5 %
## (Intercept) -12.943903 -9.2724186
## talla 0.198354 0.2414487
27 / 39
Ejemplo: Intervalos de con anza para la regresión en R.
Los intervalos para las predicciones individuales se obtienen mediante:
predict(recta, newdata=data.frame(talla=c(80,100)), interval="predict
## fit lwr upr

## 1 6.483947 2.842226 10.12567
## 2 10.881974 7.223767 14.54018
Los intervalos para la predicción de valores medios se obtienen mediante:
predict(recta, newdata=data.frame(talla=c(80,100)), interval="confide
## fit lwr upr

## 1 6.483947 6.113807 6.854088
## 2 10.881974 10.374679 11.389269
Nótese que la predicción del valor medio tiene un intervalo más estrecho
que la predicción de valores individuales; es lógico que sea así, pues el valor
medio es siempre menos variable que los valores individuales.
28 / 39
Coe ciente de correlación
El coeficiente de correlación lineal de Pearson es:
Cov(X, Y )
ρ =
σX ⋅ σY
Se estima a partir de la muestra mediante:

Sxy
r =
Sx ⋅ Sy
Valores próximos a 1 (o a -1) indican habitualmente un buen ajuste a una

recta de pendiente positiva (o negativa, respectivamente)
Valores próximos a cero indican que la nube de puntos no se parece a una

recta (aunque podría adoptar alguna otra forma geométrica, lo que
indicaría algún otro tipo de asociación entre x e y).
29 / 39
Coe ciente de correlación
¡¡ Siempre conviene representar gráficamente la nube de puntos. !!
Cuarteto de Anscombe: En los cuatro

casos r = 0.82; sin embargo las nubes
de puntos son completamente
diferentes y en los casos II, III y IV se
apartan notablemente de la
linealidad.
Datasaurus dozen: Otro ejemplo de

nubes de puntos completamente
diferentes y con la misma
correlación aquí
30 / 39
Intervalo de con anza para el coe ciente de
correlación
Si definimos:
1 1 + r
zr = ln( )
2 1 − r
se puede probar (Fisher) que:
1 1 + ρ 1
zr ≈ N ( ln( ), )
2 1 − ρ √n − 3
Por tanto:
∣ 1 1 + ρ ∣ 1
P (∣zr − ln( )∣ ≤ zα/2 ) = 1 − α
∣ 2 1 − ρ ∣ √n − 3
de donde:
1 1 + ρ 1
ln( ) ∈ [zr ± zα/2 ]
2 1 − ρ √n − 3
31 / 39
Intervalo de con anza para el coe ciente de
correlación
A partir de la expresión anterior, llamando:
1 1
zinf = zr − zα/2 , zsup = zr + zα/2
√n − 3 √n − 3
se obtiene el siguiente intervalo de confianza a nivel 1 − α para ρ:
2zinf 2zsup
e − 1 e − 1
ρ ∈ [ , ]
2zinf 2zsup
e + 1 e + 1
32 / 39
Ejemplo: Coe ciente de correlación en R
Cálculo del coeficiente de correlación entre la talla y el peso de los
salmones:
with(salmones,cor(talla,peso))
## [1] 0.898414
Intervalo de confianza:
with(salmones,cor.test(talla,peso)$conf.int)
## [1] 0.8524176 0.9306119

## attr(,"conf.level")
## [1] 0.95
33 / 39
Correlación y causalidad
Que dos variables X e Y tengan una fuerte asociación lineal (valor alto de
correlación, próximo a 1 ó a -1) no implica que X sea la causa de Y , ni que
Y sea la causa de X .
Ejemplo:
Se ha observado que cuando aumenta la venta de helados, aumenta de forma
prácticamente lineal el número de personas que son atacadas por tiburones:
¿significa eso que podemos disminuir el número de ataques de tiburón
simplemente vendiendo menos helados?
34 / 39
35 / 39
Obviamente la respuesta es no; la venta de helados no es la causa de los
ataques de los tiburones (ni al revés), por muy fuerte que sea la asociación
entre estas dos variables.
En este caso es una tercera variable (factor de confusión), la temperatura en

este caso, la que dispara simultáneamente la compra de helados y el número
de bañistas en la playa (que tiene como efecto colateral que hay más
posibilidades de que alguien sea atacado por un tiburón)
36 / 39
Se pueden encontrar muchos más ejemplos de correlaciones espurias
(relación entre variables sin conexión lógica entre ellas) en la web
tylervigen
Para establecer que la asociación entre dos variables es real y no espuria

(inducida por un tercer factor oculto, o factor de confusión) es preciso
encontrar un mecanismo plausible que explique la causalidad, y ponerlo
a prueba mediante la realización de experimentos adecuadamente
diseñados para descartar la intervención de factores ocultos.
37 / 39
Coe ciente de determinación R
2
La variabilidad total presente en la variable respuesta Y puede

descomponerse en la variabilidad explicada por (o debida al efecto de) la
variable explicativa X, más la variabilidad residual (variabilidad no
explicada por X):
VARIABILIDAD TOTAL = VARIABILIDAD EXPLICADA + VARIABILIDAD

RESIDUAL
donde:
VARIABILIDAD TOTAL: V
n 2
¯
¯¯
T = ∑ (yi − y )
i=1
VARIABILIDAD EXPLICADA: V
n 2
¯
¯¯
E = ∑ (y
^ − y)
i=1 i
VARIABILIDAD RESIDUAL: V
n 2
R = ∑ ^ )
(yi − y
i=1 i
Es decir:
n n n
2 2 2
¯
¯¯ ¯
¯¯
∑ (yi − y ) = ∑ (y
^ − y) + ∑ (yi − y
^ )
i i
i=1 i=1 i=1
38 / 39
Coe ciente de determinación R
2
Se denomina Coeficiente de determinación al cociente:

n 2
¯
¯¯
VE ∑ (y
^ − y)
i=1 i
2
R = =
n 2
VT ¯
¯¯
∑ (yi − y )
i=1
Este coeficiente mide la proporción de la variabilidad en la variable

respuesta Y que es explicada (o está determinada) por la variable
explicativa X.
Cuanto más se aproxime su valor a 1, mejor es el modelo; cuanto más se

aproxime a cero tanto peor.
Se puede probar que R 2

= r
2
R
2
se suele expresar en porcentaje.
39 / 39

Tema 7 - Correlación y Regresión Lineal

Cargado por

Copyright:

Formatos disponibles

Tema 7 - Correlación y Regresión Lineal

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 7 - Correlación y Regresión Lineal

Cargado por

Copyright:

Formatos disponibles

Tema 7: Correlación y

Estadística. Grado en Ciencias del Mar

Si tomásemos otra muestra de 100 salmones en las mismas localizaciones,

Si dispusiéramos de datos de la población de salmones podríamos calcular la

Si nuestra muestra es representativa, b es un estimador de β (ordenada) y b

¿Cómo estimar β y β ?, es decir, ¿cómo calculamos b y b a partir de una

donde ε representa la distancia entre el punto observado (x, y) y la recta.

Si podemos asumir que el valor de ε es un valor aleatorio consecuencia de

Se dispone de n observaciones de dos variables {(X , Y ) , i i i = 1, … , n}

Los valores de Y se ajustan al modelo:

Los valores ε son N (0, σ

Para cada valor X i = x fijo:

Es decir, los valores individuales de Y se distribuyen alrededor la recta

La función de verosimilitud cuando se ha observado la muestra

Tomando logaritmos se obtiene la log-verosimilitud:

(Ecuaciones normales de la regresión)

i=1 i=1 i=1 i=1

∑ (yi − β0 − β1 xi )xi = 0 ⇒ ∑ (yi − (ȳ − β1 x̄) − β1 xi )xi = 0 ⇒

NOTA: Se ha usado que ¯

Por último, de la tercera ecuación se obtiene:

Además teniendo en cuenta que el coeficiente de correlación lineal es:

Si ε ≈ N (0, σ ) los estimadores MV de β y β son los que minimizan la suma

de cuadrados de las distancias de los puntos a la recta; en definitiva,

## mean(talla) mean(peso) var(talla) var(peso)

Por tanto la recta es:

P eso = −11.108 + 0.22 ⋅ T alla

recta <- lm(peso~talla,data=salmones)

Con R puede calcularse mediante:

Pendiente ( β ): Representa el cambio que se produce en y por cada

unidad de incremento en el valor la variable x.

Ordenada ( β ): Representa el valor esperado de Y cuando la x = 0. Sólo

tiene sentido interpretar así este coeficiente cuando los puntos

entenderse como un simple coeficiente de ajuste sin mayor

Predicción ( β 0 + β1 xi ): representa el valor esperado de Y cuando la X vale

Desviación típica residual ( σ ): representa la variabilidad de Y en torno

a su valor esperado β + β x cuando X = x . Se asume que es constante a

lo largo de todo el recorrido de la recta.

cm de longitud pesaría −11.108 kg;

Nunca debe utilizarse una recta de regresión para extrapolar ya que, en

Para talla = 80 cm, la recta

Para talla = 100 cm, la recta

Para talla = 200 cm: no deben

Enlace a la fuente original de la viñeta

Si de la misma población observamos una nueva muestra de puntos,

parecidos) a los anteriores.

¿Cuánto se aproximan estos valores estimados a los verdaderos valores

Cuando se realiza una predicción utilizando los valores estimados β^ y

β , ¿qué margen de error cabe esperar en esta predicción?

Si se desea un intervalo de confianza para el valor medio de todas las y

recta <- lm(peso~talla,data=salmones)

predict(recta, newdata=data.frame(talla=c(80,100)), interval="predict

## fit lwr upr

Los intervalos para la predicción de valores medios se obtienen mediante:

predict(recta, newdata=data.frame(talla=c(80,100)), interval="confide

## fit lwr upr

Se estima a partir de la muestra mediante:

Valores próximos a 1 (o a -1) indican habitualmente un buen ajuste a una

Valores próximos a cero indican que la nube de puntos no se parece a una