6 Tema 6
6 Tema 6
6 Tema 6
residuos ya no es constante?
EL PROBLEMA DE HETEROCEDASTICIDAD
1
¿Cuáles son los supuestos del Modelo de Regresión
Lineal?
• El modelo de regresión es lineal en los parámetros.
• Esperado de los errores igual a 0
• LOS ERRORES TIENEN UNA VARIANZA CONSTANTE.
• Los errores no tienen autocorrelación serial; es decir, no existe correlación entre los
errores de diferentes periodos de tiempo.
• No existe correlación entre las variables explicativas y los errores.
• No existe colinealidad perfecta entre las variables explicativas incluidas en el modelo
• El modelo esta perfectamente identificado
• El número de observaciones debe ser mayor al número de parámetros a estimar
• EL TÉRMINO DE ERROR DEBE ESTAR NORMALMENTE DISTRIBUIDO
Kingdon, G. G., & Theopold, N. (2008). Do returns to education matter to schooling participation? Evidence from India. Education
Economics, 16(4), 329-350.
3
Formichella, M. M., & Alderete, M. V. (2020). El efecto de las tic en el desempeño educativo:, el análisis de la comprensión lectora. Semestre
Económico, 23(54), 181-199.
4
Montenegro, E., Tinajero, F., & Pacheco, I. (2017).
Estimación del riesgo de acciones a través de un
modelo financiero y de modelos de heteroscedasticidad
condicional autorregresiva. UTCiencia, 1(2), 61-71.
5
Implicaciones de asumir normalidad
Los estimadores se distribuyen como una función de distribución normal
መ
𝛽~𝑁(𝛽, 𝜎 2 𝑋′𝑋 −1 )
• T-Student
• F-estadística
• Chi-cuadrado
6
¿Qué implica en términos de la funciónde
distribución?
Dado el supuesto anterior, el modelo se distribuye como una función de densidad de
probabilidad normal
1 1
𝑓 𝑌 𝑋𝛽, 𝜎 2 = 𝑒𝑥𝑝 − 2 (𝑌 − 𝑋𝛽)′(𝑌 − 𝑋𝛽)
𝜎 2𝜋 2𝜎
7
¿Qué nos asegura que los errores sigan una
distribución normal?
El hecho que los errores sigan una distribución normal permite
asegurar que su varianza es constante y que la media de los mismos
es cero.
8
¿Cómo vemos la normalidad de una variable?
Se puede ver la normalidad de una variable a través del tercer y cuarto momento de
una variable. A continuación, se muestran los cuatro momentos de una variable:
𝐸(𝑋−𝜇𝑋 )3
Tercer momento: La simetría 𝑆(𝑋) =
𝜎3
𝐸(𝑋−𝜇𝑋 )4
Cuarto momento: La curtosis 𝐾 𝑋 =
𝜎4
9
Principales estadísticos
.4
descriptivos en una
variable que sigue una
.3
distribución normal
Density
.2
Estadístico Valor
.1
Media 0.0031
Varianza 1.0043
0
Simetría 0.0188
-4 -2 0 2 4
Variable normalmente distribuida
Curtosis 2.985 kernel = epanechnikov, bandwidth = 0.1421
10
Pruebas para ver la normalidad de una variable
11
Q-Q plot (Cuantiles-Cuantiles gráfico)
Gráfica los valores observados de la variable que se esta analizando con los valores
de una variable que sigue una distribución normal.
Si la variable que se analiza sigue una distribución normal, los valores de la misma
(cuantiles) formarían una línea recta con los valores teóricos de la distribución
normal.
En stata el comando que permite hacer este análisis se llama qnorm y su sintaxis es
la siguiente:
12
Analizando la normalidad de los residuos
ℎ𝑎𝑧𝑖 = 𝛽1 + 𝛽2 𝐸𝑚𝑎𝑑𝑟𝑒𝑖 + 𝛽3 𝑃𝑛𝑎𝑐𝑒𝑟𝑖 + 𝛽4 𝑂𝑛𝑎𝑐𝑖𝑚𝑖𝑒𝑛𝑡𝑜𝑖 + 𝛽5 𝐸𝑚𝑒𝑠𝑒𝑠𝑖 + 𝜇𝑖
4
2
Residuals
0
-2
-4
-4 -2 0 2 4
Inverse Normal
13
Prueba de Jarque Bera (i)
Esta prueba consiste en evaluar la curtosis y la asimetría de una variable. La
hipótesis nula es que la variable se distribuye normalmente, para lo cual evalúa los
valores de la simetría y curtosis de la variable.
14
Prueba de Jarque Bera (ii)
A un nivel de significancia del 5% el estadístico ꭓ2(2) tiene como valor crítico o de tablas de
5.99. Entonces, si el valor del estadístico estimado es menor al de tablas, se acepta la
hipótesis nula de normalidad de la variable; en caso contrario, se rechaza la nula y la
variable seria no normal.
Usando el ejemplo anterior, se tiene que la simetría de los errores estimados es 0.06 y la
curtosis toma el valor de 3.39. Así reemplazando los valores en el estadístico de JB se tiene:
7111 (3.39 − 3) 2
𝐽𝐵 = (0.06)2 + = 1185.17 0.0036 + 0.038 = 49.30
6 4
15
Prueba de Shapiro y Wilks
El método consiste en ordenar las observaciones de menor a mayor, luego se comienzan
a calcular las diferencias entre los valores extremos ponderadas: primero menos el
último, el segundo menos el penúltimo y así sucesivamente.
𝐷2
𝑊= , 𝑑𝑜𝑛𝑑𝑒 𝐷 = σℎ𝑖=1 𝑎𝑖 (𝑋𝑛+1−𝑖 − 𝑋𝑖 )
𝑛𝑆 2
17
Prueba de swilk
Al igual que la prueba de Jarque-Bera, 1
el swilk realiza la prueba de
normalidad de una variable.
swilk residuos
De esta manera podemos ver que los datos o la variable
sometida a prueba no sigue una distribución normal: p-value
menor a 0.05.
18
Prueba de la
simetría y la
curtosis (sktest)
Al igual que la prueba de Jarque-Bera,
el sktest realiza tres pruebas de
hipótesis. En primer lugar hace la 1 2 3
prueba de hipótesis de que la simetría
de la variable es igual a 0, luego que la
curtosis es igual a 3, y finalmente hace
la prueba conjunta; es decir, que tanto De esta manera podemos ver que los datos o la variable
la simetría de la variable es 0 y que la
curtosis es igual a 3. sometida a prueba no sigue una distribución normal (prueba
sktest residuos, noadj conjunta -3- ), así como la probabilidad que la simetría -1- y
curtosis -2- sean iguales a 0 y 3 respectivamente son menores
a 0.05.
19
Consecuencias por la ausencia de normalidad en
los errores
Las principales consecuencias de que los errores no sigan una distribución normal
son:
• Los parámetros estimados del modelo MCO dejan de ser eficientes dado que la
varianza no sería constante.
20
Si no existe normalidad de los residuos, uno de los
causantes es la presencia de Heterocedasticidad
21
Causas de la Heterocedasticidad
Las causas mas comunes de la heterocedasticidad son:
• Cambio estructural.
✓Un cambio estructural puede provocar una estimación errónea de los
parámetros. Esto se produce en algunas secciones de la muestra y genera
diversos problemas en el modelo
22
Formas de detectar la Heterocedascidad
• Si no se cuenta con información previa sobre la naturaleza de la
heterocedasticidad, se debe estimar el modelo de regresión para
luego hacer análisis de los residuos del modelo estimado.
23
Análisis Gráfico de los errores al cuadrado y elvalor
estimado de Y
• De acuerdo a los supuestos del
Modelo MCO, los residuos no deben
estar correlacionados o asociados con
el valor promedio estimado de la
variable dependiente.
24
Usando el ejemplo anterior
predicho de la dependiente
10
5
0
-3 -2 -1 0 1
HAZ - predicho
25
Análisis Gráfico de los errores al cuadrado ylos
valores de X
• De acuerdo a los supuesto del Modelo
MCO, los residuos no deben estar
correlacionados o asociados con las
variables explicativas o
independientes ( E[µ|X]=0 ).
26
Usando el ejemplo anterior
20
20
15
15
Residuos al cuadrado
escolaridad de la madre y
10
10
orden de nacimiento, se
puede apreciar cierta
5
5
asociación.
0
0
0 5 10 15 20 1 2 3 4 5 6
Anhos de educacion de la madre Peso al nacer
20
20
15
15
Residuos al cuadrado
10
10
5
5
0
0
0 5 10 15 10 20 30 40 50 60
Numero de orden al momento de nacer Edad en meses
27
Pruebas estadísticas para ver la presencia de
heterocedasticidad
Existen tres pruebas comúnmente usadas para ver la presencia de
heterocedasticidad:
✓ Prueba de Park
✓ Prueba de Glesjer
✓ Prueba de Breusch-Pagan
✓ Prueba de White
28
Pasos a seguir para la estimación de las pruebasde
heterocedasticidad (i)
Paso 1: Estimar el modelo de regresión a testear
𝜇Ƹ = 𝑌 − 𝑌
29
Pasos a seguir para la estimación de las pruebasde
heterocedasticidad (ii)
Paso4a: Prueba de Park (Dependiente es el logaritmo natural
de los residuos al cuadrado)
30
Pasos a seguir para la estimación de las pruebasde
heterocedasticidad (ii)
Paso4c: Prueba de Breusch-Pagan (Dependiente: residuos al cuadrado)
31
Pasos a seguir para la estimación de las pruebasde
heterocedasticidad (iii)
• En las pruebas de Park y Glesjer se requiere saber que variable es la
posible fuente de heterocedasticidad.
32
Prueba de Park
Se evalúan los coeficientes de cada
variable (t y p-value). La hipótesis nula
(Ho) es que la variable no esta
asociado a los errores por tanto seria
homocedastico con relación a la
variable analizada. En caso contrario,
existiría heterocedasticidad.
33
Prueba de Glesjer
Se evalúan los coeficientes de cada
variable (t y p-value). La hipótesis nula
(Ho) es que la variable no esta
asociado a los errores por tanto seria
homocedastico con relación a la
variable analizada. En caso contrario,
existiría heterocedasticidad.
34
Prueba de Breusch-Pagan
El test de Breusch-Pagan, una vez que se estima el
modelo, se guarda el valor del R2 (0.0051) y se
construye el índice que será igual a: nR2 que sigue una
distribución Chi- cuadrado con tantos grados de
libertad como variables explicativas se incluyan en el
modelo (k=4).
Estadistico de B-P nR2=36.27 ~χ(4) En caso de rechazar la nula, las variables que resultan
36.21 vs 9.49 → Rechaza la Ho significativas para explicar los residuos son posibles
causantes del problema de heterocedasticidad.
35
Prueba de White
El test de White, una vez que se estima el modelo, se
guarda el valor del R2 (0.295) y se construye el índice
que será igual a: nR2 que sigue una distribución Chi-
cuadrado con tantos grados de libertad como variables
explicativas se incluyan en el modelo.
La hipótesis nula (Ho) en el test de White es de
Homocedasticidad, por tanto, si el valor del estadístico
calculado excede al valor de tablas, se rechaza la nula y
existe heterocedasticidad en los errores.
37
38
En el caso del test de White
Después de realizada la regresión se escribe: whitetst
Comparamos el estadístico
estimado con el de tablas:
39
¿Cómo corregimos el problema de
heterocedasticidad?
MÍNIMOS CUADRADOS GENERALIZADOS
40
¿Qué pasa cuando tenemos el problema de
heterocedasticidad? (i)
Si la varianza de los residuos no son constantes a lo largo de las diferentes
observaciones, el modelo de regresión presenta heterocedastidad. Esto se puede
expresar de la siguiente forma:
𝑉 𝜇Ƹ 𝑖 = 𝜎𝑖2 𝑖 = 1, 2, 3, … , 𝑛
41
¿Qué pasa cuando tenemos el problema de
heterocedasticidad? (ii)
Los que nos indica el segundo panel es que la varianza
es distinta para las diferentes observaciones, en otras
palabras, 𝜎𝑡2 ≠ 𝜎𝑠2 donde t ≠ s
42
¿Cómo es la matriz de varianzas y covarianzas de los
residuos?
De forma matricial, se puede expresar el problema de heterocedasticidad de la
siguiente manera:
𝜎12 ⋯ 0 𝑤1 ⋯ 0
𝐸 𝑈𝑈 ′ =∑= ⋮ ⋱ ⋮ = 𝜎2 ⋮ ⋱ ⋮ → 𝐸 𝑈𝑈 ′ = ∑ = 𝜎 2 Ω
0 ⋯ 𝜎𝑛2 0 ⋯ 𝑤𝑛
43
¿Qué ocurre si estimamos los parámetros del
modelo usando MCO?
Del modelo de “k” variables se tenia lo siguiente:
𝛽መ = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌
𝛽መ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑈
𝐸 𝛽መ = 𝐸 𝛽 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 = 𝐸(𝛽) + 𝐸( 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈)
𝐸 𝛽መ = 𝛽 + 𝑋 ′ 𝑋 −1 𝐸(𝑋 ′ 𝑈)
𝐸 𝛽መ = 𝛽
44
¿Qué ocurre si estimamos la matriz de varianzas y
covarianzas del modelo usando MCO?
𝑉 𝛽መ = 𝐸 (𝛽መ − 𝐸 𝛽መ )(𝛽መ − 𝐸 𝛽መ )′ = 𝐸 (𝛽 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 − 𝛽)(𝛽 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 − 𝛽)′
𝑉 𝛽መ = 𝐸 ( 𝑋 ′ 𝑋 −1
𝑋 ′ 𝑈)( 𝑋 ′ 𝑋 −1
𝑋 ′ 𝑈)′ = 𝐸 𝑋 ′ 𝑋 −1 ′
𝑋 𝑈𝑈 ′ 𝑋 𝑋 ′ 𝑋 −1
𝑉 𝛽መ = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐸 𝑈𝑈 ′ 𝑋 𝑋 ′ 𝑋 −1 = 𝜎2 𝑋′𝑋 −1 𝑋 ′ Ω𝑋 𝑋′𝑋 −1
45
Mínimos Cuadrados Generalizados (i)
Consiste en transformar el modelo original de tal manera que los coeficientes
estimados no cambien y solo sea la matriz de varianzas y covarianzas del modelo
la que cambie, de tal forma que los nuevos errores estimados tengan varianza
media 0 y varianza constante.
Para lograr este fin, se pre-multiplica a todas las variables del modelo de
regresión por una matriz P de dimensión n x n.
Modelo original: Y = Xβ + U
Por otro lado, ninguna de estas nuevas variables tienen un significado económico
claro; sin embargo, dado el supuesto de linealidad, se tiene que los coeficientes
βs siguen siendo lineales.
47
Mínimos Cuadrados Generalizados (iii)
En el caso de la matriz de varianzas y covarianzas de los errores, ahora se tendría
la siguiente especificación:
Dado lo anterior, se puede ver que P tiene que ser una matriz tal que PΩP’ sea
igual a la matriz identidad.
48
Mínimos Cuadrados Generalizados (iv)
Si Ω es igual a VV’ entonces para convertirla en la matriz identidad, debemos:
49
Mínimos Cuadrados Generalizados (v)
Dado lo anterior, se tiene:
Y ∗ = V −1 Y
X ∗ = V −1 X
U ∗ = V −1 U
E U ∗ = E V −1 U = V −1 E U = 0
Var U∗ = Var V −1 U = σ2 V −1 Ω V −1 ′ = σ2 I
50
Mínimos Cuadrados Generalizados (vi)
y el estimador de los parámetros usando el modelo de MCG sería el siguiente:
β MCG = X ∗ ′X ∗ −1 X ∗ ′Y ∗
reemplazando
β MCG = X′Ω−1 X −1
X′Ω−1 Y
De esta manera, para obtener el estimador de MCG se puede seguir dos caminos:
i) encontrar la matriz Ω que será igual a VV’, una vez encontrada V, se premultiplica el
modelo de regresión por la inversa de esta matriz y luego se estima el modelo MCO
con las variables transformadas.
ii) Si se conoce la matriz Ω simplemente se reemplaza en las formulas halladas para la
estimación de los coeficientes y la varianza.
52
Se tiene el siguiente modelo heterocedastico 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜇𝑖 con n=5 y 𝑣𝑎𝑟 𝜇𝑖 = 𝜎 2𝑋𝑖
. Y es el gasto en salud anual y X la renta anual de las familias. Lo que nos estaría indicando los
errores es que las familias de rentas altas son las que tienen mayor variación en el gasto por
salud, a diferencia de las familias de bajos niveles de ingresos.
53
La Matriz Ω y P
MATRIZ Ω MATRIZ P
Matriz Σ Matriz P
X1 0 0 0 0 1/√X1 0 0 0 0
0 X2 0 0 0 0 1/√X2 0 0 0
0 0 X3 0 0 0 0 1/√X3 0 0
0 0 0 X4 0 0 0 0 1/√X4 0
0 0 0 0 X5 0 0 0 0 1/√X5
La transformación del modelo
𝑌 𝑋 𝜇 1
𝑌∗ = , 𝑋∗ = , 𝜇∗ = , 𝛽0∗ =
𝑋 𝑋 𝑋 𝑋
𝜇 1 1 2
𝑉 𝜇∗ =𝑉 = 𝑉 𝜇 = 𝜎 𝑋 = 𝜎2
𝑋 𝑋 𝑋
Original Transformado
Familia Gasto (Yi) Ingreso (Xi) Familia Gasto (Yi*) Intercepto Ingreso (Xi*)
1 7.0 10 1 2.214 0.316 3.162
2 12.8 20 2 2.862 0.224 4.472
3 18.3 35 3 3.093 0.169 5.916
4 25.3 50 4 3.678 0.141 7.071
5 33.4 60 5 4.312 0.129 7.746
Ahora aplicamos MCO al modelo
transformado
2.125
𝛽መ𝑀𝐶𝐺 = 𝑋 ∗′ 𝑋 ∗ −1 𝑋 ∗′ 𝑌 ∗ =
0.496
De esta manera, el método de MCG puede verse como el resultado de dividir a cada
una de las observaciones de todas las variables por la desviación estándar de la
variable causante de la heterocedasticidad; es decir, se ponderan las observaciones
con el peso 1/ 𝑓(. ). Por este motivo al MCG se le conoce también como Mínimos
Cuadrados Ponderados.
¿Qué pasa si no llegamos a conocer la
fuente de la Heterocedasticidad?
Puede pasar que no lleguemos a conocer la posible fuente de heterocedasticidad en
nuestro modelo; en otras palabras, no conocemos ∑. En estos casos, se puede usar el
estimador de WHITE.
𝑉 𝛽መ = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐸 𝑈𝑈 ′ 𝑋 𝑋 ′ 𝑋 −1 = 𝑋 ′ 𝑋 −1 𝑋 ′ Σ𝑋 𝑋 ′ 𝑋 −1
Var β White = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑆𝑋 𝑋 ′ 𝑋 −1
57
Corrección de White
De esta manera, si no conocemos la posible fuente de heterocedasticidad en el
modelo, la mejor opción es usar MCO con la matriz de varianzas y covarianzas
corregidas por el método de White.
Var β White = 𝑋 ′ 𝑋 −1
𝑋 ′ 𝑆𝑋 𝑋 ′ 𝑋 −1
58
Estimación de
los errores
robustos
Al momento de estimar el
modelo usando el paquete
estadístico, se procede a
agregar la opción “robust”
60