REGRESION

ANLISIS DE REGRESIN
LINEAL SIMPLE
Introduccin
Ejemplo: Anscombe (1973) Graphs in Statistical Analysis
x(a)(b)(c) y(a) y(b) y(c) x(d) y(d)
10 8.04 9.14 7.46 8 6.58

8 6.95 8.14 6.77 8 5.76
13 7.58 8.74 12.74 8 7.71
9 8.81 8.77 7.11 8 8.84
11 8.33 9.26 7.81 8 8.47
14 9.96 8.10 8.84 8 7.04
6 7.24 6.13 6.08 8 5.25
4 4.26 3.10 5.39 19 12.50
12 10.84 9.13 8.15 8 5.56
7 4.82 7.26 6.42 8 7.91
5 5.68 4.74 5.73 8 6.89
(Las Grficas en el Anlisis Estadstico)
En todos los casos, la recta de regresin de y sobre x es:
y = 3 + 0.5 x
S R2 = 1.52 R 2 = 0.82
Por lo tanto las cuatro regresiones parecen idnticas.
El anlisis de los residuos refleja una situacin completamente distinta.

Residuales
Inferencia simultanea para los parmetros del modelo
Para una estimacin conjunta de Beta0 y Beta1 en una regin donde
estemos seguros con 100(1-alfa) por ciento de que ambos estimados son
correctos es:
n n
n( 0 0 ) + 2 xi ( 0 0 )( 1 1 ) + x 2 i ( 1 1 )
2
i =1 i =1
F , 2,n2
2 MSE
Estimacin simultanea de la respuesta media

Es posible construir m-intervalos de confianza de la respuesta media de
un conjunto de m-valores especficos X, por ejemplo, X1, X2, ., Xm, que
tengan un coeficiente de confianza conjunta de la menos 100(1-alfa) por
ciento.
1 ( x x ) 2

E (Y X i ) : YXi MSE +
i

n S xx
La Delta de Bonferroni como sigue: = (2 F , 2,n 2 )1/ 2
Prediccin de nuevas observaciones

El conjunto de intervalos de prediccin para m nuevas observaciones en
los niveles X1, X2,, Xm que tienen un nivel de confianza de al menos
(1-alfa) es:
1 ( x x ) 2

YXi : YXi MSE 1 + +
i

n S xx
Test para la correlacin
Para probar la hiptesis H0: = 0 contra H1: 0 , donde 0 no
es cero. Si n 25 se utiliza el estadstico transformacin-z de
Fisher:
1 1+ r
Z = arctanh ( r ) = ln
2 1 r
Con media: Z = arctanh( )
1
y desviacin estndar: =
2
n3
Z
En base a la frmula de la distribucin normal, se calcula el

estadstico Z0 siguiente para probar la hiptesis Ho: = 0,
Z 0 = ( arctanh( r ) arctanh( 0 )( n 3
Z Z
tanh arctanhr / 2 tanh arctanhr + / 2
n3 n3
Riesgos en el uso de la regresin
Hay varios abusos comunes en el uso de la regresin que deben
ser mencionados:
Los modelos de regresin son vlidos como ecuaciones de

interpolacin sobre el rango de las variables utilizadas en el
modelo. No pueden ser vlidas para extrapolacin fuera de este
rango.
La disposicin de los valores X juega un papel importante en el

ajuste de mnimos cuadrados. Mientras que todos los puntos
tienen igual peso en la determinacin de la recta, su pendiente
est ms influenciada por los valores extremos de X. En este caso
debe hacerse un anlisis minucioso de estos puntos y en todo
caso eliminarlos y re estimar el modelo.
Extrapolacin
Generalizacin
En la figura se observan dos puntos que influyen en el modelo de ajuste,
ya que si se quitaran, el modelo de lnea recta se modificara.
Dos observaciones con mucha influencia (A,B)

Los outliers u observaciones malas pueden distorsionar
seriamente el ajuste de mnimos cuadrados. En la figura, la
observacin A parece ser un outlier o valor malo ya que cae muy
lejos de la lnea de ajuste de los otros datos. Debe investigarse esta
observacin.
Localizacin de un outlier (A)

Si se encuentra que dos variables estn relacionadas
fuertemente, no implica que la relacin sea causal, se debe
investigar la relacin causa efecto entre ellas. Por ejemplo el
nmero de enfermos mentales vs. nmero de licencias recibidas.
Causalidad
Correlacin ecolgica
En algunas aplicaciones el valor de la variable regresora X
requerida para predecir a Y es desconocida, por ejemplo al tratar
de predecir la carga elctrica el da de maana en relacin con la
mxima temperatura de maana, primero debe estimarse cul es
esa temperatura.
Regresin a travs del origen
Algunas situaciones implican que pase la lnea recta a travs del

origen y deben adecuar a los datos. Un modelo de no interseccin
frecuentemente se presenta en los procesos qumicos y otros
procesos de manufactura, el modelo queda como:
y = 1 x
^ x02 MSE
Y0 t a / 2,n2 n
i
x 2
i =1

2
xh
^
Yh ta / 2, n 2 MSE 1 + n
2
xi
i =1
Ejemplo
El tiempo requerido por un tendero para surtir su negocio de
refrescos as como el nmero de envases colocados se muestra en
la siguiente tabla. En este caso si el nmero de envases X = 0
entonces el tiempo Y = 0.
el coeficiente es significativo a un alfa de 0.01.
Utilizando un modelo con interseccin resultando en:
El estadstico t para la prueba Ho: 0 = 0 es to = -0.65, por tanto el

coeficiente no es significativo a un alfa de 0.01, implicando que el modelo
de no interseccin puede proporcionar una estimacin superior, en este
caso MSE = 0.2988 y R2 = 0.9983 y, como MSE es menor que en el
modelo con intercepto, es superior.
Ejemplo
Un motor se fabrica con dos partes. La
resistencia al corte entre las dos partes
(Y) es una caracterstica importante de
calidad que se sospecha es funcin de
la antigedad del propelente (X). Los
datos se muestran a continuacin:
El diagrama de dispersin de la resistencia al corte versus el propelente se
muestra a continuacin
La figura sugiere que hay una relacin estadstica inversa entre la resistencia
al corte y la antigedad del propelente, y el supuesto de relacin lineal parece
ser razonable, para estimar los parmetros del modelo se calcula Sxx y Sxy:
Forma alterna
Pruebas de hiptesis de la pendiente e intercepcin
Anlisis de varianza
Decisin: rechazar Fo = 165.21 > F0.05; 1, 18 = 4.414

Estimacin por intervalo en 1 y
Intervalo de estimacin para la respuesta media
Prediccin de nuevas observaciones:
Por tanto, al 95% de confianza, un motor nuevo hecho con un propelente de 10

semanas de antigedad tendr una resistencia al corte de entre 2048.32 a
2464.32 psi.
Inferencia simultanea para los parmetros del modelo
La regin del 95% de confianza para 0 y 1, si 0est = 2627.82 y 1est = -37.15,
suma Xi2 = 4677.69, MSE = 9244.59 y F0.05,2,18 = 3.55 se tiene de la frmula:
Estimacin simultanea de la respuesta media
Prediccin de nuevas observaciones
Sea Xi = 10 y 18. Los estimadores puntuales de estas observaciones

futuras son Yest x1 = 2256.282 psi y Yest x2 = 1959.050 psi,
respectivamente. Para la regresin lineal simple y m = 2 se tiene:
Coeficiente de determinacin
Con los datos del ejemplo para
la suma de cuadrados de la
regresin y la suma de
cuadrados total se tiene:
ADECUACIN DEL MODELO DE REGRESIN LINEAL
Introduccin
Anlisis de los residuos
Ruido Blanco
Preguntas que responden los grficos
de residuos
Es lineal la relacin entre las variables?
Depende la varianza del valor de x?
Hay datos atpicos?
Son los datos independientes?
Son los datos normales?

Por lo anterior los residuos representan los errores observados si
el modelo es correcto.
Los residuos pueden ser graficados para:
1. Verificar normalidad.
2. Verificar el efecto del tiempo si su orden es conocido en
los datos.
3. Verificar la constancia de la varianza y la posible
necesidad de transformar los datos en Y.
4. Verificar la curvatura de ms alto orden que ajusta en las
Xs.
Anlisis grficos de residuales
Relaciones no lineales
Grficos de residuos
Linealidad
El mtodo de mnimos cuadrados estimar una recta de regresin

tanto si hay relacin lineal como si no la hay.
Comprobar si el modelo lineal se ajusta a los datos
Contraste de hiptesis Grfico de y frente a x

para la parmetros
Grfico de residuos frente
Contraste de regresin a valores predichos
Soluciones a la falta de linealidad
Transformar las variables para intentar conseguir linealidad
Introducir variable adicionales (regresin polinmica)
Detectar la presencia de datos atpicos o ausencia de otras

variables importantes para explicar la variable respuesta
Soluciones a la falta de homocedasticidad
Si la variabilidad de la respuesta aumenta con x segn la

ecuacin var(y/x)=g(x), dividimos la ecuacin de regresin por
g(x).
Transformar la variable respuesta y puede que tambin x
Si lo anterior no funciona, cambiar el mtodo de estimacin
Mnimos cuadrados ponderados

Independencia
Los residuos deben ser aleatorios y no estar correlacionados.
Si la variable respuesta ha sido medida en el tiempo es esperable que

exista dependencia temporal.
Si los datos son de tipo temporal conviene hacer un grfico para ver si
los datos tienen estructura temporal
Residuos
Tiempo
Normalidad
La hiptesis de normalidad es necesaria para justificar las distribuciones
de los estimadores:
2
2 x2
1 ~ N 1 , 2
0 ~ N 0 , 1 + 2
S

nS x n x
Intervalos de confianza
Ausencia de normalidad puede invalidar
Contrastes de hiptesis
Grficos para comprobar la normalidad:
Grfico probabilstico normal de los residuos
Histograma de los residuos

Si la distribucin de los residuos es normal, el grfico ha de mostrar
aproximadamente una lnea recta
Los Residuos como medida de Ajuste:
Si el modelo es cierto, los errores cumplen:
Sin embargo, estos errores son no observables.
Se definen los residuos del modelo como:
Se verifica que:
Propiedades de los Residuos:
Los residuos no son una muestra aleatoria de una N(0,2)

Ejemplo
Se realizaron 25 observaciones de la variable Y y X como sigue: Hallar
los residuales originales, estandarizados y estudentizados.
Recta estimada
Anlisis de Varianza
El anlisis de varianza es una herramienta que sirve para probar la

adecuacin del modelo de regresin, para lo cual es necesario calcular
las sumas de cuadrados correspondientes.
Grfica de probabilidad normal
Se utiliza la grfica de probabilidad normal para identificar si algunos
residuos sesgan la respuesta de la normal. Normalmente se requieren
20 puntos para verificar la normalidad.
Residuales vs Fits
Observacin
Los residuales no son variables aleatorias independientes porque involucran los valores ajustados
basados en los estimadores b0 y b1 por lo cual se asocian con (n-2) grados de libertad. Sin
embargo, cuando el nmero de residuales es grande, comparado con el nmero de parmetros del
modelo, el efecto de no independencia se vuelve relativamente intrascendente.
DETECCIN Y TRATAMIENTO DE OBSERVACIONES
REMOTAS (OUTLIERS)
De acuerdo con Draper y Smith
Efectos de una observacin sobre el modelo
estimado
Efecto de un en punto
Medidas basadas en los residuos
Efectos de los diferentes tipos de puntos sobre la regresin
Se va a analizar el efecto de los valores potencialmente influyentes

segn su distancia a la media en el espacio de variables
independientes:
1. Valores cercanos a la media

2. Valores intermedios
3. Valores alejados de la media
Observaciones no alejadas de la media
Difcilmente son influyentes

Observaciones intermedia
Son influyentes si son atpicos

Observaciones alejadas de la media
Normalmente son influyentes aunque no sean atpicos

Niveles de influencia (Medidas de influencia a priori)
Forma grfica para detectar observaciones remotas.
Los valores normalizados del error mayor a 4 pueden marcarse como

posibles observaciones remotas.
Las observaciones remotas pueden crear gran dificultad, al empujar

desproporcionadamente la lnea ajustada de regresin, pero slo seran
descartables ante evidencias como mala toma de datos o procesamiento de
los datos.
Valores LEVERAGE
Otra forma simple no grfica de medir su influencia es a travs del vector

palanca o leverage que se evaluara como:
Un punto dato (xi) se dice que ejerce un apalancamiento (grande) si est

desproporcionadamente distante de la mayor parte de los valores del
regresor. Cada hi refleja la influencia de cada xi sobre el modelo de
regresin ajustado. Si existen esos puntos de influencia quiz sea necesario
evaluar de nuevo la necesidad de mantenerlos en el modelo.
Regla de decisin
Sea p es el nmero total de variables en el modelo, valores de hi que

superen el valor:
son indicadores de una alta influencia en el modelo

Medidas de extraeza
Medidas que indican si un punto tiene un comportamiento muy diferente del

resto
Studentizados Internamente:
formalmente el residuo internamente studentizado se obtiene como
Algunas propiedades:
es pequea.
Studentizados Externamente:
Se define el residuo externamente studentizado como:
el subndice (i) indica la exclusin del dato i-simo.
Se demuestra que:
Residuos predichos
Propiedades Residuos Predichos
Medidas de influencia a posteriori
Indican si un valor afecta a la estimacin del modelo
Medidas de la robustez del modelo a los datos

Medidas de robustez de los coeficientes estimados
Donde ajj es el j-simo elemento de la inversa de XX

Si | DFBETA | > 2/n observacin influyente
Medidas de robustez de los valores estimados de la
dependiente
Si | DFFITS | > 2 (p/n) dato influyente ( p = parmetros)

Medidas de robustez de los estimadores de la varianza
Si COVRATIO > 1 + 3p/n o < 1 3p/n dato influencial

Y: Pressure
Case Number X:Temp (F) (Inches Hg)
Ejemplo: 1 194.5 20.79
2 194.3 20.79
Analizar los datos de Forbes 1857. 3 197.9 22.40
Punto de Ebullicin y la Presin 4 198.4 22.67
Baromtrica para 17 los lugares en 5 199.4 23.15
los Alpes y Escocia. 6 199.9 23.35
7 200.9 23.89
8 201.1 23.99
9 201.4 24.02
10 201.3 24.01
11 203.6 25.14
12 204.6 26.57
13 209.5 28.49
14 208.6 27.76
15 210.7 29.04
16 211.9 29.88
17 212.2 30.06
(i) Est bien identificada la funcin para la media???
Podemos mirar el grfico vs. . Esperamos no encontrar patrones.
Ejemplo: (Datos de Forbes) Se aprecia curvatura.

Tambin podemos mirar el grfico vs.
Ejemplo: Datos de Forbes.
Ambos grficos entregan la misma informacin: No est bien identificada la

media.
Podemos mirar el grfico NO. (Por qu?)

(ii) Es constante la varianza??
Podemos mirar el grfico vs. . Esperamos encontrar variabilidad

homognea.
Ejemplo: .
(iii) Vienen todos los datos del mismo modelo?
Outliers (observaciones remotas o alejadas)
Son datos tales que la respuesta es muy grande o muy pequea en

comparacin al resto de los datos.
No es necesariamente malo.
Cmo detectarlo? Usando que
o que
Ejemplo: Residuos Internamente Studentizados. Datos de Forbes.
Residuos Externamente Studentizados. Datos de Forbes.
Puntos Extremos (o de apalancamiento).
El valor del predictor est muy alejado.
No siempre tiene relevancia.
Tambin se denominan Puntos de Palanca o valores Leverage
La palanca se define como:

Ejemplo: Los dos puntos en el extremo derecho tienen la misma palanca. Sin
embargo, el segundo caso es de mayor importancia.
(1) (2)
Puntos de Influencia.
La idea es magnificar la influencia de cada punto en la regresin.
Cmo se afectan y ?
Cmo se afecta ?
Cmo se afecta ?
La medida de Cook
entrega una medida de la influencia de cada observacin.

Ejemplo 1: Distancia de Cook (Datos de Forbes)
Ejemplo 2: Distancia de Cook (Datos Ficticios (1), dato no influyente)
Ejemplo 2: Distancia de Cook (Datos Ficticios (2), dato influyente)
Pruebas de hiptesis con los residuales
Existen ocasiones en que los anlisis grficos a veces no permite decidir
con claridad acerca de un aspecto en particular acerca de los errores.
Soluciones a la falta de linealidad
Transformar las variables para intentar conseguir linealidad
Introducir variable adicionales (regresin polinmica)
Detectar la presencia de datos atpicos o ausencia de otras

variables importantes para explicar la variable respuesta
Soluciones a la falta de homocedasticidad
Si la variabilidad de la respuesta aumenta con x segn la

ecuacin var(y/x)=g(x), dividimos la ecuacin de regresin por
g(x).
Transformar la variable respuesta y puede que tambin x
Si lo anterior no funciona, cambiar el mtodo de estimacin
Mnimos cuadrados ponderados

Transformaciones
Las transformaciones se utilizan fundamentalmente por tres razones:
Linealizar relaciones no-lineales
Conseguir homocedasticidad
Conseguir normalidad
Al transformar los datos no se pierde informacin pero hay que tener

cuidado a la hora de interpretar los coeficientes.
El modelo transformado ha de ser tambin validado

y = 0 e 1x log( y ) = %0 + %1 x
%1 representa el incremento porcentual de y cuando x aumenta

una unidad
y = 0 e 1x log( y ) = log( 0 ) + 1 x
x
y = e
log(y)
y
log(y) = a + x
a = log()
x x
Modelo de regresin exponencial
y = 0 x log( y ) = %0 + %1 log( x)
1
%1 representa el incremento porcentual de y cuando x aumenta un 1%
y = 0 x 1 log( y ) = %0 + %1 log( x)
1< 0
log(y)
y
x log(x)
e = e x y = %0 + %1 log( x)
y 0 1
%1/100 representa el incremento de y cuando x aumenta en un 1%
e y = e 0 x 1 y = %0 + %1 log( x)
y y
x log(x)
Consecuencia de las transformaciones
La interpretacin de los parmetros se refiere a la relacin entre las

variables transformadas, no a las originales

REGRESION

Cargado por

Copyright:

Formatos disponibles

REGRESION

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

REGRESION

Cargado por

Copyright:

Formatos disponibles

ANLISIS DE REGRESIN

Ejemplo: Anscombe (1973) Graphs in Statistical Analysis

x(a)(b)(c) y(a) y(b) y(c) x(d) y(d)

10 8.04 9.14 7.46 8 6.58

En todos los casos, la recta de regresin de y sobre x es:

Por lo tanto las cuatro regresiones parecen idnticas.

El anlisis de los residuos refleja una situacin completamente distinta.

Estimacin simultanea de la respuesta media

La Delta de Bonferroni como sigue: = (2 F , 2,n 2 )1/ 2

Prediccin de nuevas observaciones

Con media: Z = arctanh( )

En base a la frmula de la distribucin normal, se calcula el

Los modelos de regresin son vlidos como ecuaciones de

La disposicin de los valores X juega un papel importante en el

Dos observaciones con mucha influencia (A,B)

Localizacin de un outlier (A)

Regresin a travs del origen

Algunas situaciones implican que pase la lnea recta a travs del

El estadstico t para la prueba Ho: 0 = 0 es to = -0.65, por tanto el

Decisin: rechazar Fo = 165.21 > F0.05; 1, 18 = 4.414

Por tanto, al 95% de confianza, un motor nuevo hecho con un propelente de 10

Sea Xi = 10 y 18. Los estimadores puntuales de estas observaciones

Es lineal la relacin entre las variables?

Depende la varianza del valor de x?

Hay datos atpicos?

Son los datos independientes?

Son los datos normales?

Los residuos pueden ser graficados para:

El mtodo de mnimos cuadrados estimar una recta de regresin

Comprobar si el modelo lineal se ajusta a los datos

Contraste de hiptesis Grfico de y frente a x

Transformar las variables para intentar conseguir linealidad

Introducir variable adicionales (regresin polinmica)

Detectar la presencia de datos atpicos o ausencia de otras

Si la variabilidad de la respuesta aumenta con x segn la

Transformar la variable respuesta y puede que tambin x

Si lo anterior no funciona, cambiar el mtodo de estimacin

Mnimos cuadrados ponderados

Los residuos deben ser aleatorios y no estar correlacionados.

Si la variable respuesta ha sido medida en el tiempo es esperable que

Grficos para comprobar la normalidad:

Grfico probabilstico normal de los residuos

Histograma de los residuos

Si el modelo es cierto, los errores cumplen:

Sin embargo, estos errores son no observables.

Se definen los residuos del modelo como:

Los residuos no son una muestra aleatoria de una N(0,2)

El anlisis de varianza es una herramienta que sirve para probar la

Se va a analizar el efecto de los valores potencialmente influyentes

1. Valores cercanos a la media

Difcilmente son influyentes

Son influyentes si son atpicos

Normalmente son influyentes aunque no sean atpicos

Los valores normalizados del error mayor a 4 pueden marcarse como

Las observaciones remotas pueden crear gran dificultad, al empujar

Otra forma simple no grfica de medir su influencia es a travs del vector

Un punto dato (xi) se dice que ejerce un apalancamiento (grande) si est

Sea p es el nmero total de variables en el modelo, valores de hi que

son indicadores de una alta influencia en el modelo