1 EIN6017 C5 Video 10 PDF
1 EIN6017 C5 Video 10 PDF
1 EIN6017 C5 Video 10 PDF
Regresión Lineal
1 Resultado de aprendizaje.
2 Introducción
3 Diagrama de dispersión.
4 Covarianza.
5 Correlación.
6 Coeficientes de correlación.
7 Interpretación del coeficiente de correlación.
8 Principio de los mínimos cuadrados.
9 Regresión lineal (elementos).
10 Ecuación de la recta de regresión lineal.
Introducción
• Lo habitual es que tendamos a considerar un conjunto
amplio de características para describir a cada individuo
de una población, y que características puedan presentar
relación entre ellas.
• En la vida cotidiana existen diversas situaciones en las que
interesa observar si dos variables (características) están
relacionadas, y en ese caso, en que medida.
• En estadística, la relación entre variables, es uno de los
aspectos mas relevantes a estudiar, ya que resulta de
interés conocer el efecto que una o varias variables pueden
causar sobre otra, e incluso predecir valores de una
variable a partir de otra.
Introducción
• El análisis de regresión lineal es una técnica estadística
utilizada para estudiar la relación entre variables. Permite
explorar y cuantificar la relación entre una variable
llamada dependiente y una o más variables llamadas
independientes, y así desarrollar un modelo (ecuación)
adecuado con él fin de poder predecir valores futuros.
• Al estudiar la relación entre dos variables de una misma
población, debemos ser capaces de responder si ellas están
relacionadas y en que grado. Esto se puede responder a
través de una representación grafica, como el Diagrama de
Dispersión y utilizando las medidas estadísticas de
asociación entre variables como la Covarianza y
Coeficiente de Correlación.
5/38 IMFE Universidad de las Américas
Diagrama de dispersión
Diagrama de dispersión
Covarianza
Es un valor que indica el grado de variación conjunta de dos
variables aleatorias respecto a sus medias.
Pn n
i=1 (xi − x)(yi − y) 1 X
Cov(X,Y ) = = x i yi − x · y
n n
i=1
Covarianza
Por lo que:
• Si Sxy > 0; La relación entre la variable X e Y es directa o
creciente, es decir, si una de las variables aumenta la otra
también aumenta.
• Si Sxy < 0; La relación entre la variable X e Y es inversa o
decreciente, es decir, si una de las variables aumenta la
otra disminuye y viceversa.
• Si Sxy = 0; No hay relación entre la variable X e Y.
Correlación
Es la relación lineal (no siempre) entre dos variables. La
correlación entre dos variables no implica necesariamente
causalidad.
Cov(X,Y )
ρ(X,Y ) = ,
SX · SY
donde: Cov(X,Y ) es la covarianza, SX es la desviación estándar
de X y SY es la desviación estándar de Y.
Ó
Pn
− x)(yi − y)
i=1 (xi
ρ(X,Y ) = pPn pPn .
2 2
i=1 (xi − x) i=1 (yi − y)
Pn
6 i=1 d2i
ρ(X,Y ) (spearman) = 1 − 2
,
n(n − 1)
Edad (X) 25 28 35 43 23 30
N° de días (Y) 5 3 2 1 4 2
Pn
i=1 xi yi
Cov(X,Y ) = −x·y
n
25 · 5 + 28 · 3 + 35 · 2 + 43 · 1 + 23 · 4 + 30 · 2
= − 30, 67 · 2, 83
6
474
= − 86, 7961 = −7, 7961
6
17/38 IMFE Universidad de las Américas
Desarrollo Ejemplo 1
Calculamos Sx y Sy .
rP
n
i=1 (xi − x)2
Sx =
r n
(25 − 30, 67)2 + (28 − 30, 67)2 + · · · + (30 − 30, 67)2
= = 6, 6999
6
rP
n
i=1 (yi − y)2
Sy =
r n
(5 − 2, 83)2 + (3 − 2, 83)2 + · · · + (2 − 2, 83)2
= = 1, 3437
6
Calculamos d2i :
n
X
d2i = 0 + 1 + 1 + 1 + 1 = 4
i=1
Posteriormente:
6×4
ρX,Y (spearman) = 1 − 2
= 0, 8
5(5 − 1)
Regresión Lineal
Y =a+b·X
Y = a + b · X + εi
Donde,
a: Intercepto, parámetro constante que representa a la ordenada
en el origen
b: Pendiente de la recta, indica como cambia la variable
respuesta al cambiar la variable de predicción en una unidad.
εi : Error o perturbación aleatoria, representa a un conjunto de
factores no controlados, que provoca que la relación entre las
variables no sea perfecta.
Y = a + bX + εi
εi = Yi − a − b · Xi
n
X n
X
ε2i = (Yi − a − b · Xi )2
i=1 i=1
a = Y − bX,
b
a + bb · X
Yb = b
Trabajador 1 2 3 4 5 6 7 8 9 10
Horas
180 225 200 200 224 222 180 225 200 200
trabajadas
Sueldo, en
800 900 750 650 900 900 800 900 900 850
miles de $
Trabajador 11 12 13 14 15 16 17 18 19 20
Horas
200 225 200 200 224 222 224 222 200 195
trabajadas
Sueldo, en
650 950 750 650 900 900 910 900 750 900
miles de $
Desarrollo:
Obtendremos los estimadores de a y b, para calcualr la recta de
regresión.
a = Y − bX,
b
Pn Pn Pn
bb = n i=1 xi yi − i=1 xi i=1 yi
Pn Pn 2 ,
2
n i=1 xi − ( i=1 xi )
n
X
xi yi = 180 · 800 + 225 · 900 + · · · + 200 · 750 + 195 · 900 = 3478690
i=1
n
X
xi = 180 + 225 + 200 + 200 + · · · + 222 + 200 + 195 = 4168
i=1
n
X
yi = 800 + 900 + 750 + 650 + · · · + 910 + 900 + 750 + 900 = 16610
i=1
n
X
x2i = 1802 + 2252 + 2002 + 2002 + · · · + 2222 + 2002 + 1952 = 873080
i=1
Pn
i=1 xi 180 + 225 + 200 + 200 + · · · + 222 + 200 + 195
X= = = 208, 4
n 20
Pn
i=1 yi 800 + 900 + 750 + 650 + · · · + 900 + 750 + 900
Y = = = 830, 5
n 20