REGRESION
REGRESION
REGRESION
LINEAL SIMPLE
Introduccin
y = 3 + 0.5 x
S R2 = 1.52 R 2 = 0.82
n n
n( 0 0 ) + 2 xi ( 0 0 )( 1 1 ) + x 2 i ( 1 1 )
2
i =1 i =1
F , 2,n2
2 MSE
1 ( x x ) 2
YXi : YXi MSE 1 + +
i
n S xx
Test para la correlacin
Para probar la hiptesis H0: = 0 contra H1: 0 , donde 0 no
es cero. Si n 25 se utiliza el estadstico transformacin-z de
Fisher:
1 1+ r
Z = arctanh ( r ) = ln
2 1 r
1
y desviacin estndar: =
2
n3
Z
Z Z
tanh arctanhr / 2 tanh arctanhr + / 2
n3 n3
Riesgos en el uso de la regresin
Hay varios abusos comunes en el uso de la regresin que deben
ser mencionados:
i
x 2
i =1
2
xh
^
Yh ta / 2, n 2 MSE 1 + n
2
xi
i =1
Ejemplo
El tiempo requerido por un tendero para surtir su negocio de
refrescos as como el nmero de envases colocados se muestra en
la siguiente tabla. En este caso si el nmero de envases X = 0
entonces el tiempo Y = 0.
el coeficiente es significativo a un alfa de 0.01.
Utilizando un modelo con interseccin resultando en:
La figura sugiere que hay una relacin estadstica inversa entre la resistencia
al corte y la antigedad del propelente, y el supuesto de relacin lineal parece
ser razonable, para estimar los parmetros del modelo se calcula Sxx y Sxy:
Forma alterna
Pruebas de hiptesis de la pendiente e intercepcin
Anlisis de varianza
Coeficiente de determinacin
Con los datos del ejemplo para
la suma de cuadrados de la
regresin y la suma de
cuadrados total se tiene:
ADECUACIN DEL MODELO DE REGRESIN LINEAL
Introduccin
Anlisis de los residuos
Ruido Blanco
Preguntas que responden los grficos
de residuos
1. Verificar normalidad.
2. Verificar el efecto del tiempo si su orden es conocido en
los datos.
3. Verificar la constancia de la varianza y la posible
necesidad de transformar los datos en Y.
4. Verificar la curvatura de ms alto orden que ajusta en las
Xs.
Anlisis grficos de residuales
Relaciones no lineales
Grficos de residuos
Linealidad
Si los datos son de tipo temporal conviene hacer un grfico para ver si
los datos tienen estructura temporal
Residuos
Tiempo
Normalidad
La hiptesis de normalidad es necesaria para justificar las distribuciones
de los estimadores:
2
2 x2
1 ~ N 1 , 2
0 ~ N 0 , 1 + 2
S
nS x n x
Intervalos de confianza
Ausencia de normalidad puede invalidar
Contrastes de hiptesis
Se verifica que:
Propiedades de los Residuos:
Regla de decisin
Studentizados Internamente:
Algunas propiedades:
es pequea.
Studentizados Externamente:
Se demuestra que:
Residuos predichos
Propiedades Residuos Predichos
Medidas de influencia a posteriori
Indican si un valor afecta a la estimacin del modelo
Ejemplo: .
(iii) Vienen todos los datos del mismo modelo?
No es necesariamente malo.
o que
Ejemplo: Residuos Internamente Studentizados. Datos de Forbes.
Residuos Externamente Studentizados. Datos de Forbes.
Puntos Extremos (o de apalancamiento).
(1) (2)
Puntos de Influencia.
Cmo se afectan y ?
Cmo se afecta ?
Cmo se afecta ?
La medida de Cook
Conseguir homocedasticidad
Conseguir normalidad
y = 0 e 1x log( y ) = log( 0 ) + 1 x
x
y = e
log(y)
y
log(y) = a + x
a = log()
x x
Modelo de regresin exponencial
y = 0 x log( y ) = %0 + %1 log( x)
1
y = 0 x 1 log( y ) = %0 + %1 log( x)
1< 0
log(y)
y
x log(x)
e = e x y = %0 + %1 log( x)
y 0 1
e y = e 0 x 1 y = %0 + %1 log( x)
y y
x log(x)
Consecuencia de las transformaciones