REGRESIÓN LINEAL SIMPLE v4
REGRESIÓN LINEAL SIMPLE v4
REGRESIÓN LINEAL SIMPLE v4
Regresin: conjunto de tcnicas que son usadas para establecer una relacin entre una variable cuantitativa llamada variable dependiente y una o ms variables independientes, llamadas predictoras. Estas tambin deberan ser cuantitativas, sin embargo algunas de ellas podran ser cualitativas. Modelo de regresin. Ecuacin que representa la relacin entre las variables. Para estimar la ecuacin del modelo se debe tener una muestra de entrenamiento.
Y = + X +
Considerando la muestra (xi, yi) para i=1,n
Yi = + X i+ei
Suposiciones del modelo:
La variable X es no aleatoria. Los errores i son variables aleatorias con media 0 y varianza constante 2. Los errores i y j (ij=1,n) son independientes entre si.
4
VARIABLES
VARIABLE INDEPENDIENTE VARIABLE DEPENDIENTE
: expresa la magnitud del cambio de y por cada unidad de x E(y|x) E(y|x)=+x E(y|x) x {
Constante Parmetro de intercepcin
X E(y|x) = x
Es la pendiente Parmetro de pendiente
Caso Homocedstico
f(yi)
sto
yi
ga
. .
x1=80
x2=100
renta
xi
Caso Heterocedstico
f(yi)
sto a
.
x1 x2 x3
.
renta
.
xt
10
Q(, ) =
n i =1
2 i
(y
i =1
xi ) 2
nxi yi xi yi
i=1
nxi2 (xi )2
i =1 i=1
i=1 n
i =1
equivalentemente
S S
xy xx
= y x
11
Donde:
Sxx = ( xi x ) 2
i =1
y y4 e4 {
(RRP) E(y) = + x
.
(RRM) y = b0 + b1x
y3 y2
e2 {.
.}e3
y1
} e1 .
x1 x2 x3 x4 x
12
13
Ejemplo de estudio de la altura en grupos familiares de Pearson Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm. Alto, pero no tanto como el padre. Regresa a la media.
14
2 La varianza de es
Sxx
1 x2 y la de es ( + ) n Sxx
)
2
Nota: la covarianza:
15
e x
i =1 n i =1
i i
=0
) ei yi = 0
16
n2
e
i =1
2 i
n2
(MSE)
17
( yi y ) 2 =
i =1
) ( yi yi ) 2 +
i =1
(y
i =1
y)2
SSR =
( xi x ) 2
i =1
18
El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
R2 = SSR SST
Un modelo de regresin con R2 mayor o igual a 75% se puede considerar bastante optimista. R Nota: El valor de es afectado por la presencia de valores anormales.
2
19
1 x2 2 ~ N ( , ( + ) ) n S xx
20
Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los siguientes resultados: i)
SST
~ '(2n 1)
ii)
SSE
2 ( n2)
Equivalentemente
(n 2) s 2
~ (2n 2 )
iii)
SSR
~ '(21)
E ( SSR ) = E ( 2 S xx ) = 2 + 2 S xx
21
22
23
1 x2 ) 1 x2 ( t ( n 2, / 2 ) s + , + t ( n 2, / 2 ) s + ) n Sxx n Sxx )
24
=0
A
>0
B
1< 0
C
25
*
s Sxx
Rechazar Ho
si tcal<-t(,n-2) si |tcal |>t(/2,n-2) si tcal>t(,n-2) *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
26
Rechazar Ho
Rechazar Ho
si tcal<-t(,n-2) si |tcal |>t(/2,n-2) si tcal>t(,n-2) *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
27
28
Se rechazara la hiptesis nula Ho:=0 si el P-value de la prueba de F es menor de . En este caso, X se relaciona de manera importante con Y
29
y es independiente de
30
Luego,
31
Ejemplo: En el ejemplo de la dureza de los paneles de partculas versus la temperatura de produccin, se obtiene las bandas de confianza para la recta media:
recta estimada lmite inferior del intervalo lmite superior del intervalo
32
Problemas: Estimaciones simultneas. i) Bonferroni: Reemplazar por /n, donde n es el nmero de estimaciones que se desea realizar (nmero de valores de X0). ii) Scheff: Reemplazar valor por
33
Problema: No conocemos , ni .
34
estar en
35
36
Ejemplo: Bandas de confianza para la Recta Media (curvas interiores) e Intervalos de Prediccin para nuevas observaciones (curvas exteriores)
37
y la regresin
Interpretacin de
vs
38
y la regresin
Entonces:
39
Ejemplo Consideremos el ejemplo de la presin atmosfrica versus la temperatura de ebullicin del agua. Ajustamos los modelos: Modelo 1)
pressure
22
24
26
28
30
195
200 boil.point
205
210
40
Modelo 2)
0.4 pressure.star -0.2 -0.4 0.0 0.2
-0.2
0.0 boil.point.star
0.2
0.4
con
41
El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se define como: Cov( X , Y ) = x y a) 1 1 b) La media condicional de Y dado X es E(Y / X ) = + x , y donde: y = =
x
y x
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relacin entre las 42 variables.
r =
Sxy SxxSyy
Notar que:
) Sxx r= Syy
r2 =
Sxx
Syy
)2
SSR SST
El cuadrado del coeficiente de correlacin es igual al coeficiente de determinacin. r es til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo de relaciones (cuadrtica, logartmica,...)
43
t=
r n2 1 r2
44
CONSIDERACIONES PARA LA VALIDEZ DEL TEST Los residuos ( e ) deben ser : - Normales - Homocedsticos - Independientes Testar la Ho: = 0 equivale a ensayar la Ho: = 0
45
46
Solucin
Se calculan los estadsticos bsicos de las variables X e Y,
47
48
49
50
El coeficiente de correlacin es
51
52
53
54
55
56
57
58
59
60
61
62
63
64