REGRESION

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 111

ANLISIS DE REGRESIN

LINEAL SIMPLE
Introduccin

Ejemplo: Anscombe (1973) Graphs in Statistical Analysis

x(a)(b)(c) y(a) y(b) y(c) x(d) y(d)

10 8.04 9.14 7.46 8 6.58


8 6.95 8.14 6.77 8 5.76
13 7.58 8.74 12.74 8 7.71
9 8.81 8.77 7.11 8 8.84
11 8.33 9.26 7.81 8 8.47
14 9.96 8.10 8.84 8 7.04
6 7.24 6.13 6.08 8 5.25
4 4.26 3.10 5.39 19 12.50
12 10.84 9.13 8.15 8 5.56
7 4.82 7.26 6.42 8 7.91
5 5.68 4.74 5.73 8 6.89
Ejemplo: Anscombe (1973) Graphs in Statistical Analysis
(Las Grficas en el Anlisis Estadstico)

En todos los casos, la recta de regresin de y sobre x es:

y = 3 + 0.5 x

S R2 = 1.52 R 2 = 0.82

Por lo tanto las cuatro regresiones parecen idnticas.

El anlisis de los residuos refleja una situacin completamente distinta.


Ejemplo: Anscombe (1973) Graphs in Statistical Analysis
Residuales
Inferencia simultanea para los parmetros del modelo
Para una estimacin conjunta de Beta0 y Beta1 en una regin donde
estemos seguros con 100(1-alfa) por ciento de que ambos estimados son
correctos es:

n n
n( 0 0 ) + 2 xi ( 0 0 )( 1 1 ) + x 2 i ( 1 1 )
2

i =1 i =1
F , 2,n2
2 MSE

Estimacin simultanea de la respuesta media


Es posible construir m-intervalos de confianza de la respuesta media de
un conjunto de m-valores especficos X, por ejemplo, X1, X2, ., Xm, que
tengan un coeficiente de confianza conjunta de la menos 100(1-alfa) por
ciento.
1 ( x x ) 2

E (Y X i ) : YXi MSE +
i

n S xx

La Delta de Bonferroni como sigue: = (2 F , 2,n 2 )1/ 2

Prediccin de nuevas observaciones


El conjunto de intervalos de prediccin para m nuevas observaciones en
los niveles X1, X2,, Xm que tienen un nivel de confianza de al menos
(1-alfa) es:

1 ( x x ) 2


YXi : YXi MSE 1 + +
i

n S xx
Test para la correlacin
Para probar la hiptesis H0: = 0 contra H1: 0 , donde 0 no
es cero. Si n 25 se utiliza el estadstico transformacin-z de
Fisher:
1 1+ r
Z = arctanh ( r ) = ln
2 1 r

Con media: Z = arctanh( )

1
y desviacin estndar: =
2

n3
Z

En base a la frmula de la distribucin normal, se calcula el


estadstico Z0 siguiente para probar la hiptesis Ho: = 0,
Z 0 = ( arctanh( r ) arctanh( 0 )( n 3

Z Z
tanh arctanhr / 2 tanh arctanhr + / 2
n3 n3
Riesgos en el uso de la regresin
Hay varios abusos comunes en el uso de la regresin que deben
ser mencionados:

Los modelos de regresin son vlidos como ecuaciones de


interpolacin sobre el rango de las variables utilizadas en el
modelo. No pueden ser vlidas para extrapolacin fuera de este
rango.

La disposicin de los valores X juega un papel importante en el


ajuste de mnimos cuadrados. Mientras que todos los puntos
tienen igual peso en la determinacin de la recta, su pendiente
est ms influenciada por los valores extremos de X. En este caso
debe hacerse un anlisis minucioso de estos puntos y en todo
caso eliminarlos y re estimar el modelo.
Extrapolacin
Generalizacin
En la figura se observan dos puntos que influyen en el modelo de ajuste,
ya que si se quitaran, el modelo de lnea recta se modificara.

Dos observaciones con mucha influencia (A,B)


Los outliers u observaciones malas pueden distorsionar
seriamente el ajuste de mnimos cuadrados. En la figura, la
observacin A parece ser un outlier o valor malo ya que cae muy
lejos de la lnea de ajuste de los otros datos. Debe investigarse esta
observacin.

Localizacin de un outlier (A)


Si se encuentra que dos variables estn relacionadas
fuertemente, no implica que la relacin sea causal, se debe
investigar la relacin causa efecto entre ellas. Por ejemplo el
nmero de enfermos mentales vs. nmero de licencias recibidas.
Causalidad
Correlacin ecolgica
En algunas aplicaciones el valor de la variable regresora X
requerida para predecir a Y es desconocida, por ejemplo al tratar
de predecir la carga elctrica el da de maana en relacin con la
mxima temperatura de maana, primero debe estimarse cul es
esa temperatura.

Regresin a travs del origen

Algunas situaciones implican que pase la lnea recta a travs del


origen y deben adecuar a los datos. Un modelo de no interseccin
frecuentemente se presenta en los procesos qumicos y otros
procesos de manufactura, el modelo queda como:
y = 1 x
^ x02 MSE
Y0 t a / 2,n2 n

i
x 2

i =1


2
xh
^
Yh ta / 2, n 2 MSE 1 + n
2
xi
i =1
Ejemplo
El tiempo requerido por un tendero para surtir su negocio de
refrescos as como el nmero de envases colocados se muestra en
la siguiente tabla. En este caso si el nmero de envases X = 0
entonces el tiempo Y = 0.
el coeficiente es significativo a un alfa de 0.01.
Utilizando un modelo con interseccin resultando en:

El estadstico t para la prueba Ho: 0 = 0 es to = -0.65, por tanto el


coeficiente no es significativo a un alfa de 0.01, implicando que el modelo
de no interseccin puede proporcionar una estimacin superior, en este
caso MSE = 0.2988 y R2 = 0.9983 y, como MSE es menor que en el
modelo con intercepto, es superior.
Ejemplo
Un motor se fabrica con dos partes. La
resistencia al corte entre las dos partes
(Y) es una caracterstica importante de
calidad que se sospecha es funcin de
la antigedad del propelente (X). Los
datos se muestran a continuacin:
El diagrama de dispersin de la resistencia al corte versus el propelente se
muestra a continuacin

La figura sugiere que hay una relacin estadstica inversa entre la resistencia
al corte y la antigedad del propelente, y el supuesto de relacin lineal parece
ser razonable, para estimar los parmetros del modelo se calcula Sxx y Sxy:
Forma alterna
Pruebas de hiptesis de la pendiente e intercepcin
Anlisis de varianza

Decisin: rechazar Fo = 165.21 > F0.05; 1, 18 = 4.414


Estimacin por intervalo en 1 y
Intervalo de estimacin para la respuesta media
Prediccin de nuevas observaciones:

Por tanto, al 95% de confianza, un motor nuevo hecho con un propelente de 10


semanas de antigedad tendr una resistencia al corte de entre 2048.32 a
2464.32 psi.
Inferencia simultanea para los parmetros del modelo
La regin del 95% de confianza para 0 y 1, si 0est = 2627.82 y 1est = -37.15,
suma Xi2 = 4677.69, MSE = 9244.59 y F0.05,2,18 = 3.55 se tiene de la frmula:
Estimacin simultanea de la respuesta media
Prediccin de nuevas observaciones

Sea Xi = 10 y 18. Los estimadores puntuales de estas observaciones


futuras son Yest x1 = 2256.282 psi y Yest x2 = 1959.050 psi,
respectivamente. Para la regresin lineal simple y m = 2 se tiene:

Coeficiente de determinacin
Con los datos del ejemplo para
la suma de cuadrados de la
regresin y la suma de
cuadrados total se tiene:
ADECUACIN DEL MODELO DE REGRESIN LINEAL
Introduccin
Anlisis de los residuos
Ruido Blanco
Preguntas que responden los grficos
de residuos

Es lineal la relacin entre las variables?

Depende la varianza del valor de x?

Hay datos atpicos?

Son los datos independientes?

Son los datos normales?


Por lo anterior los residuos representan los errores observados si
el modelo es correcto.

Los residuos pueden ser graficados para:

1. Verificar normalidad.
2. Verificar el efecto del tiempo si su orden es conocido en
los datos.
3. Verificar la constancia de la varianza y la posible
necesidad de transformar los datos en Y.
4. Verificar la curvatura de ms alto orden que ajusta en las
Xs.
Anlisis grficos de residuales
Relaciones no lineales

Grficos de residuos
Linealidad

El mtodo de mnimos cuadrados estimar una recta de regresin


tanto si hay relacin lineal como si no la hay.

Comprobar si el modelo lineal se ajusta a los datos

Contraste de hiptesis Grfico de y frente a x


para la parmetros
Grfico de residuos frente
Contraste de regresin a valores predichos
Soluciones a la falta de linealidad

Transformar las variables para intentar conseguir linealidad

Introducir variable adicionales (regresin polinmica)

Detectar la presencia de datos atpicos o ausencia de otras


variables importantes para explicar la variable respuesta
Soluciones a la falta de homocedasticidad

Si la variabilidad de la respuesta aumenta con x segn la


ecuacin var(y/x)=g(x), dividimos la ecuacin de regresin por
g(x).

Transformar la variable respuesta y puede que tambin x

Si lo anterior no funciona, cambiar el mtodo de estimacin

Mnimos cuadrados ponderados


Independencia

Los residuos deben ser aleatorios y no estar correlacionados.

Si la variable respuesta ha sido medida en el tiempo es esperable que


exista dependencia temporal.

Si los datos son de tipo temporal conviene hacer un grfico para ver si
los datos tienen estructura temporal

Residuos

Tiempo
Normalidad
La hiptesis de normalidad es necesaria para justificar las distribuciones
de los estimadores:

2
2 x2
1 ~ N 1 , 2
0 ~ N 0 , 1 + 2
S


nS x n x
Intervalos de confianza
Ausencia de normalidad puede invalidar
Contrastes de hiptesis

Grficos para comprobar la normalidad:

Grfico probabilstico normal de los residuos

Histograma de los residuos


Si la distribucin de los residuos es normal, el grfico ha de mostrar
aproximadamente una lnea recta
Los Residuos como medida de Ajuste:

Si el modelo es cierto, los errores cumplen:

Sin embargo, estos errores son no observables.

Se definen los residuos del modelo como:

Se verifica que:
Propiedades de los Residuos:

Los residuos no son una muestra aleatoria de una N(0,2)


Ejemplo
Se realizaron 25 observaciones de la variable Y y X como sigue: Hallar
los residuales originales, estandarizados y estudentizados.
Recta estimada
Anlisis de Varianza

El anlisis de varianza es una herramienta que sirve para probar la


adecuacin del modelo de regresin, para lo cual es necesario calcular
las sumas de cuadrados correspondientes.
Grfica de probabilidad normal
Se utiliza la grfica de probabilidad normal para identificar si algunos
residuos sesgan la respuesta de la normal. Normalmente se requieren
20 puntos para verificar la normalidad.
Residuales vs Fits
Observacin
Los residuales no son variables aleatorias independientes porque involucran los valores ajustados
basados en los estimadores b0 y b1 por lo cual se asocian con (n-2) grados de libertad. Sin
embargo, cuando el nmero de residuales es grande, comparado con el nmero de parmetros del
modelo, el efecto de no independencia se vuelve relativamente intrascendente.
DETECCIN Y TRATAMIENTO DE OBSERVACIONES
REMOTAS (OUTLIERS)
De acuerdo con Draper y Smith
Efectos de una observacin sobre el modelo
estimado
Efecto de un en punto
Medidas basadas en los residuos
Efectos de los diferentes tipos de puntos sobre la regresin

Se va a analizar el efecto de los valores potencialmente influyentes


segn su distancia a la media en el espacio de variables
independientes:

1. Valores cercanos a la media


2. Valores intermedios
3. Valores alejados de la media
Observaciones no alejadas de la media

Difcilmente son influyentes


Observaciones intermedia

Son influyentes si son atpicos


Observaciones alejadas de la media

Normalmente son influyentes aunque no sean atpicos


Niveles de influencia (Medidas de influencia a priori)
Forma grfica para detectar observaciones remotas.

Los valores normalizados del error mayor a 4 pueden marcarse como


posibles observaciones remotas.

Las observaciones remotas pueden crear gran dificultad, al empujar


desproporcionadamente la lnea ajustada de regresin, pero slo seran
descartables ante evidencias como mala toma de datos o procesamiento de
los datos.
Valores LEVERAGE

Otra forma simple no grfica de medir su influencia es a travs del vector


palanca o leverage que se evaluara como:

Un punto dato (xi) se dice que ejerce un apalancamiento (grande) si est


desproporcionadamente distante de la mayor parte de los valores del
regresor. Cada hi refleja la influencia de cada xi sobre el modelo de
regresin ajustado. Si existen esos puntos de influencia quiz sea necesario
evaluar de nuevo la necesidad de mantenerlos en el modelo.

Regla de decisin

Sea p es el nmero total de variables en el modelo, valores de hi que


superen el valor:

son indicadores de una alta influencia en el modelo


Medidas de extraeza

Medidas que indican si un punto tiene un comportamiento muy diferente del


resto

Studentizados Internamente:

formalmente el residuo internamente studentizado se obtiene como

Algunas propiedades:

es pequea.
Studentizados Externamente:

Se define el residuo externamente studentizado como:

el subndice (i) indica la exclusin del dato i-simo.

Se demuestra que:
Residuos predichos
Propiedades Residuos Predichos
Medidas de influencia a posteriori
Indican si un valor afecta a la estimacin del modelo

Medidas de la robustez del modelo a los datos


Medidas de robustez de los coeficientes estimados

Donde ajj es el j-simo elemento de la inversa de XX


Si | DFBETA | > 2/n observacin influyente
Medidas de robustez de los valores estimados de la
dependiente

Si | DFFITS | > 2 (p/n) dato influyente ( p = parmetros)


Medidas de robustez de los estimadores de la varianza

Si COVRATIO > 1 + 3p/n o < 1 3p/n dato influencial


Y: Pressure
Case Number X:Temp (F) (Inches Hg)
Ejemplo: 1 194.5 20.79
2 194.3 20.79
Analizar los datos de Forbes 1857. 3 197.9 22.40
Punto de Ebullicin y la Presin 4 198.4 22.67
Baromtrica para 17 los lugares en 5 199.4 23.15
los Alpes y Escocia. 6 199.9 23.35
7 200.9 23.89
8 201.1 23.99
9 201.4 24.02
10 201.3 24.01
11 203.6 25.14
12 204.6 26.57
13 209.5 28.49
14 208.6 27.76
15 210.7 29.04
16 211.9 29.88
17 212.2 30.06
(i) Est bien identificada la funcin para la media???

Podemos mirar el grfico vs. . Esperamos no encontrar patrones.

Ejemplo: (Datos de Forbes) Se aprecia curvatura.


Tambin podemos mirar el grfico vs.

Ejemplo: Datos de Forbes.

Ambos grficos entregan la misma informacin: No est bien identificada la


media.

Podemos mirar el grfico NO. (Por qu?)


(ii) Es constante la varianza??

Podemos mirar el grfico vs. . Esperamos encontrar variabilidad


homognea.

Ejemplo: .
(iii) Vienen todos los datos del mismo modelo?

Outliers (observaciones remotas o alejadas)

Son datos tales que la respuesta es muy grande o muy pequea en


comparacin al resto de los datos.

No es necesariamente malo.

Cmo detectarlo? Usando que

o que
Ejemplo: Residuos Internamente Studentizados. Datos de Forbes.
Residuos Externamente Studentizados. Datos de Forbes.
Puntos Extremos (o de apalancamiento).

El valor del predictor est muy alejado.

No siempre tiene relevancia.

Tambin se denominan Puntos de Palanca o valores Leverage

La palanca se define como:


Ejemplo: Los dos puntos en el extremo derecho tienen la misma palanca. Sin
embargo, el segundo caso es de mayor importancia.

(1) (2)
Puntos de Influencia.

La idea es magnificar la influencia de cada punto en la regresin.

Cmo se afectan y ?

Cmo se afecta ?

Cmo se afecta ?

La medida de Cook

entrega una medida de la influencia de cada observacin.


Ejemplo 1: Distancia de Cook (Datos de Forbes)
Ejemplo 2: Distancia de Cook (Datos Ficticios (1), dato no influyente)
Ejemplo 2: Distancia de Cook (Datos Ficticios (2), dato influyente)
Pruebas de hiptesis con los residuales
Existen ocasiones en que los anlisis grficos a veces no permite decidir
con claridad acerca de un aspecto en particular acerca de los errores.
Soluciones a la falta de linealidad

Transformar las variables para intentar conseguir linealidad

Introducir variable adicionales (regresin polinmica)

Detectar la presencia de datos atpicos o ausencia de otras


variables importantes para explicar la variable respuesta
Soluciones a la falta de homocedasticidad

Si la variabilidad de la respuesta aumenta con x segn la


ecuacin var(y/x)=g(x), dividimos la ecuacin de regresin por
g(x).

Transformar la variable respuesta y puede que tambin x

Si lo anterior no funciona, cambiar el mtodo de estimacin

Mnimos cuadrados ponderados


Transformaciones
Las transformaciones se utilizan fundamentalmente por tres razones:

Linealizar relaciones no-lineales

Conseguir homocedasticidad

Conseguir normalidad

Al transformar los datos no se pierde informacin pero hay que tener


cuidado a la hora de interpretar los coeficientes.

El modelo transformado ha de ser tambin validado


y = 0 e 1x log( y ) = %0 + %1 x

%1 representa el incremento porcentual de y cuando x aumenta


una unidad

y = 0 e 1x log( y ) = log( 0 ) + 1 x

x
y = e

log(y)
y

log(y) = a + x
a = log()
x x
Modelo de regresin exponencial

y = 0 x log( y ) = %0 + %1 log( x)
1

%1 representa el incremento porcentual de y cuando x aumenta un 1%

y = 0 x 1 log( y ) = %0 + %1 log( x)

1< 0

log(y)
y

x log(x)
e = e x y = %0 + %1 log( x)
y 0 1

%1/100 representa el incremento de y cuando x aumenta en un 1%

e y = e 0 x 1 y = %0 + %1 log( x)

y y

x log(x)
Consecuencia de las transformaciones

La interpretacin de los parmetros se refiere a la relacin entre las


variables transformadas, no a las originales

También podría gustarte