Regresion Lineal Ejemplo
Regresion Lineal Ejemplo
Regresion Lineal Ejemplo
Captulo
Captulo 10
Captulo 5
Introduccion
Un modelo de regresion es un modelo que permite describir como inuye
una variable X sobre otra variable Y.
Estudiar como inuye la estatura del padre sobre la estatura del hijo.
Si
1
> 0 hay relacion lineal positiva.
Si
1
< 0 hay relacion lineal negativa.
Relacin lineal positiva
X
Y
-2 -1 0 1 2
-6
-2
2
6
10
Relacin lineal negativa
X
Y
-2 -1 0 1 2
-6
-2
2
6
10
Los datos tienen un aspecto recto.
Introduccion
Tipos de relacion
i =1
(x
i
x) (y
i
y)
n 1
i =1
(x
i
x)
2
n 1
y s
2
y
=
n
i =1
(y
i
y)
2
n 1
-1 cor (x, y) 1
y
i
representa el valor de la variable respuesta para la observacion
i-esima.
x
i
representa el valor de la variable explicativa para la observacion
i-esima.
u
i
representa el error para la observacion i-esima que se asume
normal,
u
i
N(0, )
0
y
1
son los coecientes de regresion:
0
: intercepto
1
: pendiente
Los parametros que hay que estimar son:
0
,
1
y .
El modelo de regresion lineal simple
El objetivo es obtener estimaciones
0
y
1
de
0
y
1
para calcular la
recta de regresion:
y =
0
+
1
x
que se ajuste lo mejor posible a los datos.
Ejemplo: Supongamos que la recta de regresion del ejemplo anterior es:
Costo = 15,65 + 1,29 Volumen
Plot of Fitted Model
Volumen
C
o
s
t
o
s
26 31 36 41 46 51 56
0
20
40
60
80
Se estima que una empresa que produce 25 mil unidades tendra un costo:
costo = 15,65 + 1,29 25 = 16,6 mil euros
El modelo de regresion lineal simple
La diferencia entre cada valor y
i
de la variable respuesta y su estimacion
y
i
se llama residuo:
e
i
= y
i
y
i
Valor observado
Dato (y)
Recta de
regresin
estimada
Ejemplo (cont.): Indudablemente, una empresa determinada que haya
producido exactamente 25 mil unidades no va a tener un gasto de
exactamente 16,6 mil euros. La diferencia entre el costo estimado y el
real es el residuo. Si por ejemplo el costo real de la empresa es de 18 mil
euros, el residuo es:
e
i
= 18 16,6 = 1,4mil euros
Hipotesis del modelo de regresion lineal simple
0
y
1
que mejor se ajustan a los datos:
y
i
=
0
+
1
x
i
El metodo consiste en minimizar la suma de los cuadrados de las
distancias verticales entre los datos y las estimaciones, es decir, minimizar
la suma de los residuos al cuadrado,
n
i =1
e
2
i
=
n
i =1
(y
i
y
i
)
2
=
n
i =1
_
y
i
_
0
+
1
x
i
__
2
6 Regresin Lineal
Modelo
) , 0 ( ,
2
1 0
V E E N u u x y
i i i i
o
y
i
: Variable dependiente
x
i
: Variable independiente
u
i
: Parte aleatoria
0
V
7 Regresin Lineal
Recta de regresin
y
i
e
i
y
x
i
x
8 Regresin Lineal
Recta de regresin
x y
1 0
E E
y
Pendiente
1
E
x y
1 0
E E
x
9 Regresin Lineal
Residuos
N N
Residuo
Previsto Valor
Observado Valor
1 0 i i i
e x y
E E
i
y
i i
x y
1 0
E E
i
e
i
x
Estimadores de mnimos cuadrados
El resultado que se obtiene es:
1
=
cov(x, y)
s
2
x
=
n
i =1
(x
i
x) (y
i
y)
n
i =1
(x
i
x)
2
0
= y
1
x
6 Regresin Lineal
Modelo
) , 0 ( ,
2
1 0
V E E N u u x y
i i i i
o
y
i
: Variable dependiente
x
i
: Variable independiente
u
i
: Parte aleatoria
0
V
7 Regresin Lineal
Recta de regresin
y
i
e
i
y
x
i
x
8 Regresin Lineal
Recta de regresin
x y
1 0
E E
y
Pendiente
1
E
x y
1 0
E E
x
9 Regresin Lineal
Residuos
N N
Residuo
Previsto Valor
Observado Valor
1 0 i i i
e x y
E E
i
y
i i
x y
1 0
E E
i
e
i
x
Estimadores de mnimos cuadrados
Ejercicio 4.1
Los datos de la produccion de trigo en toneladas (X) y el precio del kilo de
harina en pesetas (Y) en la decada de los 80 en Espa na fueron:
Produccion de trigo 30 28 32 25 25 25 22 24 35 40
Precio de la harina 25 30 27 40 42 40 50 45 30 25
Ajusta la recta de regresi on por el metodo de mnimos cuadrados
Resultados
1
=
10
X
i =1
x
i
y
i
n x y
10
X
i =1
x
2
i
n x
2
=
9734 10 28,6 35,4
8468 10 28,6
2
= 1,3537
0
= y
1
x = 35,4 + 1,3537 28,6 = 74,116
La recta de regresion es:
y = 74,116 1,3537x
Estimadores de mnimos cuadrados
Ejercicio 4.1
Los datos de la produccion de trigo en toneladas (X) y el precio del kilo de
harina en pesetas (Y) en la decada de los 80 en Espa na fueron:
Produccion de trigo 30 28 32 25 25 25 22 24 35 40
Precio de la harina 25 30 27 40 42 40 50 45 30 25
Ajusta la recta de regresi on por el metodo de mnimos cuadrados
Resultados
1
=
10
X
i =1
x
i
y
i
n x y
10
X
i =1
x
2
i
n x
2
=
9734 10 28,6 35,4
8468 10 28,6
2
= 1,3537
0
= y
1
x = 35,4 + 1,3537 28,6 = 74,116
La recta de regresion es:
y = 74,116 1,3537x
Estimadores de mnimos cuadrados
Plot of Fitted Model
Produccion en kg.
P
r
e
c
i
o
e
n
p
t
a
s
.
22 25 28 31 34 37 40
25
30
35
40
45
50
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 74,1151 8,73577 8,4841 0,0000
Slope -1,35368 0,3002 -4,50924 0,0020
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
0
i =1
e
2
i
n
que es el estimador maximo verosmil de
2
, pero es un estimador
sesgado.
Un estimador insesgado de
2
es la varianza residual,
s
2
R
=
n
i =1
e
2
i
n 2
Estimacion de la varianza
Ejercicio 4.2
Calcula la varianza residual en el ejercicio 4.1.
Resultados
Calculamos primero los residuos, e
i
, usando la recta de regresion,
y
i
= 74,116 1,3537x
i
x
i
30 28 32 25 25 25 22 24 35 40
y
i
25 30 27 40 42 40 50 45 30 25
y
i
33.5 36.21 30.79 40.27 40.27 40.27 44.33 41.62 26.73 19.96
e
i
-8.50 -6.21 -3.79 -0.27 1.72 -0.27 5.66 3.37 3.26 5.03
La varianza residual es:
s
2
R
=
n
X
i =1
e
2
i
n 2
=
207,92
8
= 25,99
Estimacion de la varianza
Ejercicio 4.2
Calcula la varianza residual en el ejercicio 4.1.
Resultados
Calculamos primero los residuos, e
i
, usando la recta de regresion,
y
i
= 74,116 1,3537x
i
x
i
30 28 32 25 25 25 22 24 35 40
y
i
25 30 27 40 42 40 50 45 30 25
y
i
33.5 36.21 30.79 40.27 40.27 40.27 44.33 41.62 26.73 19.96
e
i
-8.50 -6.21 -3.79 -0.27 1.72 -0.27 5.66 3.37 3.26 5.03
La varianza residual es:
s
2
R
=
n
X
i =1
e
2
i
n 2
=
207,92
8
= 25,99
Estimacion de la varianza
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 74,1151 8,73577 8,4841 0,0000
Slope -1,35368 0,3002 -4,50924 0,0020
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 528,475 1 528,475 20,33 0,0020
Residual 207,925 8 25,9906
-----------------------------------------------------------------------------
Total (Corr.) 736,4 9
Correlation Coefficient = -0,84714
R-squared = 71,7647 percent
Standard Error of Est. = 5,0981
2
R
S
1
sigue una distribucion normal porque es una combinacion
lineal de normales,
1
=
n
i =1
(x
i
x)
(n 1)s
2
X
y
i
=
n
i =1
w
i
y
i
donde y
i
=
0
+
1
x
i
+ u
i
, que cumple que y
i
N
_
0
+
1
x
i
,
2
_
.
Ademas,
1
es un estimador insesgado de
1
,
E
_
1
_
=
n
i =1
(x
i
x)
(n 1)s
2
X
E [y
i
] =
1
y su varianza es,
Var
_
1
_
=
n
i =1
_
(x
i
x)
(n 1)s
2
X
_
2
Var [y
i
] =
2
(n 1)s
2
X
Por tanto,
1
N
_
1
,
2
(n 1)s
2
X
_
Intervalo de conanza para la pendiente
Queremos ahora obtener el intervalo de conanza para
1
de nivel 1 .
Como
2
es desconocida, la estimamos con s
2
R
. El resultado basico
cuando la varianza es desconocida es:
s
2
R
(n 1)s
2
X
t
n2
que nos permite obtener el intervalo de conanza para
1
:
1
t
n2,/2
s
2
R
(n 1)s
2
X
La longitud del intervalo disminuira si:
1
_
s
2
R
/(n 1)s
2
X
> t
n2,/2
Equivalentemente, si el cero esta fuera del intervalo de conanza para
1
de nivel 1 , rechazamos la hipotesis nula a ese nivel. El p-valor del
contraste es:
p-valor = 2 Pr
_
t
n2
>
1
_
s
2
R
/(n 1)s
2
X
_
Inferencia para la pendiente
Ejercicio 4.3
1. Calcula un intervalo de conanza al 95 % para la pendiente de la recta de
regresion obtenida en el ejercicio 4.1.
2. Contrasta la hipotesis de que el precio de la harina depende linealmente de
la produccion de trigo, usando un nivel de signicacion de 0.05.
Resultados
1. t
n2,/2
= t
8,0,025
= 2,306
2,306
1,3537
1
q
25,99
932,04
2,306
2,046
1
0,661
2. Como el intervalo no contiene al cero, rechazamos que
1
= 0 al nivel 0.05.
De hecho:
1
p
s
2
R
/ (n 1) s
2
X
1,3537
q
25,99
932,04
1
p
s
2
R
/ (n 1) s
2
X
1,3537
q
25,99
932,04
X R
s n s
2
2
) 1 (
X
R
s n
s
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 528,475 1 528,475 20,33 0,0020
Residual 207,925 8 25,9906
-----------------------------------------------------------------------------
Total (Corr.) 736,4 9
Correlation Coefficient = -0,84714
R-squared = 71,7647 percent
Standard Error of Est. = 5,0981
Inferencia para el intercepto
El estimador
0
sigue una distribucion normal porque es una combinacion
lineal de normales,
0
=
n
i =1
_
1
n
xw
i
_
y
i
donde w
i
= (x
i
x) /ns
2
X
y donde y
i
=
0
+
1
x
i
+ u
i
, que cumple que
y
i
N
_
0
+
1
x
i
,
2
_
. Ademas,
0
es un estimador insesgado de
0
,
E
_
0
_
=
n
i =1
_
1
n
xw
i
_
E [y
i
] =
0
y su varianza es,
Var
_
0
_
=
n
i =1
_
1
n
xw
i
_
2
Var [y
i
] =
2
_
1
n
+
x
2
(n 1)s
2
X
_
y por tanto,
0
N
_
0
,
2
_
1
n
+
x
2
(n 1)s
2
X
__
Intervalo de conanza para el intercepto
Queremos ahora obtener el intervalo de conanza para
0
de nivel 1 .
Como
2
es desconocida, la estimamos con s
R
. El resultado basico
cuando la varianza es desconocida es:
s
2
R
_
1
n
+
x
2
(n 1)s
2
X
_
t
n2
que nos permite obtener el intervalo de conanza para
0
:
0
t
n2,/2
_
s
2
R
_
1
n
+
x
2
(n1)s
2
X
_
La longitud del intervalo disminuira si:
0
_
s
2
R
_
1
n
+
x
2
(n1)s
2
X
_
> t
n2,/2
Equivalentemente, si el cero esta fuera del intervalo de conanza para
0
de nivel 1 , rechazamos la hipotesis nula a ese nivel. El p-valor es:
p-valor = 2 Pr
_
_
_
_
t
n2
>
0
_
s
2
R
_
1
n
+
x
2
(n1)s
2
X
_
_
_
_
_
Inferencia para el intercepto
Ejercicio 4.4
1. Calcula un intervalo de conanza al 95 % para el intercepto de la recta de
regresion obtenida en el ejercicio 4.1.
2. Contrasta la hipotesis de que la recta de regresion pasa por el origen,
usando un nivel de signicacion de 0.05.
Resultados
1. t
n2,/2
= t
8,0,025
= 2,306
2,306
74,1151
0
r
25,99
1
10
+
28,6
2
932,04
2,306 53,969
0
94,261
2. Como el intervalo no contiene al cero, rechazamos que
0
= 0 al nivel 0.05.
De hecho:
0
r
s
2
R
1
n
+
x
2
(n1)s
2
X
74,1151
r
25,99
1
10
+
28,6
2
932,04
1
10
+
28,6
2
932,04
2,306 53,969
0
94,261
2. Como el intervalo no contiene al cero, rechazamos que
0
= 0 al nivel 0.05.
De hecho:
0
r
s
2
R
1
n
+
x
2
(n1)s
2
X
74,1151
r
25,99
1
10
+
28,6
2
932,04
+
2
2
2
0
) 1 (
1
X
R
s n
x
n
s
+
2
2
2
) 1 (
1
X
R
s n
x
n
s
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 528,475 1 528,475 20,33 0,0020
Residual 207,925 8 25,9906
-----------------------------------------------------------------------------
Total (Corr.) 736,4 9
Correlation Coefficient = -0,84714
R-squared = 71,7647 percent
Standard Error of Est. = 5,0981
Inferencia para la varianza
El resultado basico es que:
(n 2) s
2
R
2
2
n2
Utilizando este resultado podemos:
2
n2,/2
2
(n 2) s
2
R
2
n2,1/2
0
+
1
x
0
= y +
1
(x
0
x)
Pero la precision de las estimaciones es diferente.
Estimacion de una respuesta promedio
Teniendo en cuenta que:
Var ( y
0
) = Var ( y) + (x
0
x)
2
Var
_
1
_
=
2
_
1
n
+
(x
0
x)
2
(n 1) s
2
X
_
El intervalo de conanza para la respuesta promedio es:
y
0
t
n2,/2
_
s
2
R
_
1
n
+
(x
0
x)
2
(n 1) s
2
X
_
Prediccion de una nueva respuesta
La varianza de la prediccion de una nueva respuesta es el error cuadratico
medio de la prediccion:
E
_
(y
0
y
0
)
2
_
= Var (y
0
) + Var ( y
0
)
=
2
_
1 +
1
n
+
(x
0
x)
2
(n 1) s
2
X
_
El intervalo de conanza para la prediccion de una nueva respuesta es:
y
0
t
n2,/2
_
s
2
R
_
1 +
1
n
+
(x
0
x)
2
(n 1) s
2
X
_
La longitud de este intervalo es mayor que la del anterior (menos
precision) porque no corresponde a un valor medio sino a uno especco.
Estimacion de una respuesta promedio y prediccion de una
nueva respuesta
En rojo se muestran los intervalos para las medias estimadas y en rosa los
intervalos de prediccion. Se observa que la amplitud de estos ultimos es
considerablemente mayor.
Plot of Fitted Model
22 25 28 31 34 37 40
Produccion en kg.
25
30
35
40
45
50
P
r
e
c
i
o
e
n
p
t
a
s
.