Tema 4
Tema 4
Tema 4
Cuestiones importantes
en el MLG
Econometría
Universidad Complutense de Madrid
¿Qué aprenderá en este tema?
4.1 Colinealidad
4
Colinealidad
Si X X 0
T
existe multicolinealidad de grado
Ejemplo 1: yt 1 2 xt 2 3 xt 3 t con xt 2 xt 3
yt 1 ( 2 3 ) xt 3 t yt 1 3* x3 t
con 3* 2 3
frecuentemente.
12
Efectos de la colinealidad de grado
• Los efectos de la multicolinealidad de grado serán parecidos
a los de disponer de una muestra pequeña
(micronumerosidad) o de una variable independiente que
varíe poco por sí misma (aún sin estar relacionada
linealmente con otras).
1
VIFj
j
1 R 2
max
N º de condición
min
– Mayor número de condición implica mayor colinealidad
– Valores por encima de 20 ó 25 sugieren la presencia de
alta colinealidad
17
¿Qué hacer en presencia de colinealidad
de grado?
La solución pasa por incorporar nueva infomación, o bien,
simplificar o redefinir el modelo. Algunas soluciones pueden ser:
2) Suprimir variables
– Esta solución es tanto mejor cuanto mayor sea la correlación entre las
explicativas
– Problema: podemos causar sesgo por omisión de variable relevante.
3) Transformar variables
– Si la colinealidad se debe a que los regresores de un modelo comparten
una tendencia común en el tiempo.
18
Ejemplo: dataset hprice1.gdt (Wooldridge)
19
Ejemplo: dataset hprice1.gdt (Wooldridge)
Modelo 1: MCO, usando las observaciones 1-88
Variable dependiente: price
Estimaciones de MCO
Variable dependiente: price La colinealidad se debe a que la muestra no
contiene información suficiente para estimar con
(1) (2) (3)
un nivel satisfactorio de precisión todos los
const -40,45* -24,13 -39,70* parámetros que se han especificado
(21,59) (29,60) (21,32)
assess 0,9041** 0,9272**
(0,1043) (0,05564) Las estrategias para resolver este problema se
bdrms 9,630 11,00 11,35*
basan en añadir información o en redefinir el
(6,916) (9,515) (6,303) modelo
lotsize 0,0005993 0,002076**
(0,0004971) (0,0006427) La idea es que, si no tenemos suficiente
sqrft 0,001071 0,1242** información para estimar todos los parámetros
(0,01720) (0,01334) es razonable renunciar a algunos de ellos
colonial 9,548 13,72
(10,65) (14,64) El inconveniente de esta solución es que se
n 88 88 88 pierde algo de ajuste.
R2 0,8206 0,6602 0,8221
23
corregido
4.2 Variables ficticias
¿Qué son y para qué sirven?
• Variables ficticias, binarias, dicotómicas, o dummies: son
variables discretas construidas por el investigador.
- Permiten clasificar a las observaciones de una muestra en
categorías exhaustivas y excluyentes relativas a una
característica.
- Suelen tomar el valor 1 (cuando la característica está presente)
ó 0 (cuando no lo está).
• Usos:
- Inclusión de información cualitativa al análisis de regresión
Ejemplos: el sexo de un individuo, nivel de estudios, el sector al que pertenece una
compañía, día de la semana, mes …
0 0 N 3 ˆ 3 iE 3 wi
Nj
wi
• Por lo tanto ˆ j i 1 w j es el salario medio en cada nivel de
Nj
estudios 28
Definición e interpretación
• Atención con la trampa de las ficticias. Si la ecuación de
salarios incluye un término constante:
Wi 0 1Ei1 2 Ei 2 3 Ei 3 i i 1,2...N
Tendremos un problema de multicolinealidad exacta puesto que
Ei1 Ei 2 Ei3 1, i y no podremos estimar.
Wi 1 (1 Ei 2 Ei 3 ) 2 Ei 2 3 Ei 3 i i 1,2...N
Wi 1 ( 2 1 ) Ei 2 ( 3 1 ) Ei 3 i
Wi 1 2 Ei 2 3 Ei 3 i
29
Definición e interpretación
• ¿Cómo se interpretan ahora los coeficientes?
31
Ejemplo: dataset beauty.gdt (Wooldridge)
32
Ejemplo: uso de variables ficticias
Vamos a especificar dos modelos Modelo 1 Wi 0 malei 1 femalei i
diferentes pero equivalentes para Model 1: OLS, using observations 1-1260
analizar el salario medio de hombres y Dependent variable: wage
En este modelo, un hombre (female = 0) female -3.06947 0.262207 -11.71 4.05e-030 ***
$/hora. Log-likelihood
Schwarz criterion
-3661.554
7337.386
Akaike criterion
Hannan-Quinn
7327.108
7330.970
33
Ejemplo: uso de variables ficticias
exacta. ---------------------------------------------------------
const 4.29936 0.212042 20.28 2.57e-079 ***
male 3.06947 0.262207 11.71 4.05e-030 ***
34
Ejemplo: uso de variables ficticias
Incluyamos ahora un regresor Wi 0 0 female i 1 exp eri i
continuo en la ecuación del salario, la Modelo 4: MCO, usando las observaciones 1-1260
salario de una mujer y de un hombre, exper 0,0652070 0,0106104 6,146 1,07e-09 ***
35
Interpretación de las ficticias con log(y)
• Si la variable dependiente en un modelo es log(y), el coeficiente
de una variable ficticia, multiplicado por 100, se interpreta como
la diferencia porcentual en y, manteniendo todo lo demás igual
• Ejemplo:
Log(salario estimado) = 0.417 - 0.297mujer + 0.029 exper
– Aproximación:
• Δ%y ≈ 100 Δlog(y), es decir, Δ%y ≈ 100*β1 ,
• Es decir, el salario de la mujer es, aproximadamente, un
29,7% inferior al del grupo de referencia (hombre), ceteris
paribus
• Esta aproximación funciona mejor cuanto menor es el
coeficiente
• El cambio porcentual exacto sería:
% y exp(0.297) 1 *100 25.7%
36
Demostración
exp log(
ˆ ym )
exp( ˆ1 )
exp log(
ˆ yh )
ym
exp( ˆ1 )
yh
ym
1 exp( ˆ1 ) 1
yh
% y exp( ˆ1 ) 1 *100
37
¿Cómo permitir pendientes distintas?
Las interacciones entre variables ficticias y no ficticias permiten que existan
diferencias de pendientes entre grupos. Por ejemplo, permitimos que el efecto
de la experiencia sobre el salario sea distinto para hombre y mujeres. Para ello,
es necesario definir una nueva variable semi-continua: exper*female.
En nuestro ejemplo 0 0 y 1 0
Wi 0 0 femalei 1 exp eri 1 exp eri femalei i Por lo tanto, el término
constante es menor para las
mujeres y la pendiente en
hombres:
función de la experiencia
Wi 0 1 experi Pendiente = 1
también es menor.
W
y
Si D 0
y 0 1 x
Si D 1
y ( 0 0 ) ( 1 1 ) x
x
40
Contraste de cambio estructural
En general, existe un cambio estructural en un modelo de regresión
cuando sus parámetros no son constantes a lo largo de toda la muestra.
¿Qué puede provocar esta inestabilidad paramétrica?
02
Al estimar obtendremos la suma de cuadrados de
residuos para cada regresión: SCRL1 y SCRL2
42
Test de estabilidad estructural de Chow
• La hipótesis nula consiste en la igualdad de cada uno de los
coeficientes i en las dos submuestras (ausencia de cambio estructural
u homogeneidad paramétrica entre submuestras):
H0: 10= 20 ; 11= 21 H1: 10 20 ; 11 21
coefficient std. error t-ratio p-value coefficient std. error t-ratio p-value
--------------------------------------------------------- ---------------------------------------------------------
const -1.62488 0.673703 -2.412 0.0160 ** const -0.920837 0.813507 -1.132 0.2579
exper 0.110644 0.0104735 10.56 4.73e-025 *** exper 0.102006 0.0123301 8.273 3.30e-016 ***
educ 0.470979 0.0477427 9.865 3.68e-022 *** educ 0.495225 0.0562609 8.802 4.36e-018 ***
female -0.219410 1.35928 -0.1614 0.8718
Mean dependent var 6.306690 S.D. dependent var 4.660639 femexp -0.0587202 0.0230312 -2.550 0.0109 **
Sum squared resid 23984.98 S.E. of regression 4.368195 femeduc -0.111982 0.0975468 -1.148 0.2512
R-squared 0.122953 Adjusted R-squared 0.121558
F(2, 1257) 88.10955 P-value(F) 1.55e-36 Mean dependent var 6.306690 S.D. dependent var 4.660639
Log-likelihood -3644.042 Akaike criterion 7294.083 Sum squared resid 22099.70 S.E. of regression 4.198019
Schwarz criterion 7309.500 Hannan-Quinn 7299.877 R-squared 0.191891 Adjusted R-squared 0.188669
F(5, 1254) 59.55431 P-value(F) 9.68e-56
Log-likelihood -3592.468 Akaike criterion 7196.935
Schwarz criterion 7227.768 Hannan-Quinn 7208.522
H 0 : 0 0; 1 0; 2 0
F
RL2 RR2 / 3 Rechazamos la nula los
1 RL2 / 1254 35.64 modelos de salarios son diferentes
p valor prob( F3,1254 35.65 ) 0.000
entre hombres y mujeres
45
Ejemplo: ¿difiere el modelo de salarios entre
hombres y mujeres?
• Usando el estadístico de Chow
Wi 0 1 exp eri 2educ i Wi F 0F 1F exp eri 2F educ iF
Model 6: OLS, using observations 1-1260 Modelo 8: MCO, usando las observaciones 1-436 female=1
Dependent variable: wage Variable dependiente: wage
coefficient std. error t-ratio p-value Coeficiente Desv. Típica Estadístico t Valor p
--------------------------------------------------------- ----------------------------------------------------------------
const -1.62488 0.673703 -2.412 0.0160 ** const -1,14025 1,03136 -1,106 0,2695
exper 0.110644 0.0104735 10.56 4.73e-025 *** exper 0,0432856 0,0184235 2,349 0,0192 **
educ 0.470979 0.0477427 9.865 3.68e-022 *** educ 0,383243 0,0754715 5,078 5,68e-07 ***
Mean dependent var 6.306690 S.D. dependent var 4.660639 Media de la vble. dep. 4,299358 D.T. de la vble. dep. 4,097392
Sum squared resid 23984.98 S.E. of regression 4.368195 Suma de cuad. residuos 6844,840 D.T. de la regresión 3,975921
R-squared 0.122953 Adjusted R-squared 0.121558 R-cuadrado 0,062742 R-cuadrado corregido 0,058413
F(2, 1257) 88.10955 P-value(F) 1.55e-36 F(2, 433) 14,49303 Valor p (de F) 8,08e-07
Log-likelihood -3644.042 Akaike criterion 7294.083 Log-verosimilitud -1218,944 Criterio de Akaike 2443,888
Schwarz criterion 7309.500 Hannan-Quinn 7299.877 Criterio de Schwarz 2456,120 Crit. de Hannan-Quinn 2448,715
47
4.3 Introducción de términos
polinómicos en el modelo
Mala especificación funcional
Dentro de los problemas de especificación de un modelo de
regresión encontramos el de mala especificación de la relación
funcional cuando proponemos una relación inadecuada entre
la variable dependiente y las explicativas.
Puede deberse a:
• La omisión de funciones de las variables independientes
- Ej: Si el salario hora viene dado por: log(wage)=β0+ β1educ+ β2exper+ β3exper2+u
…y omitimos exper2, entonces β0, β1, β2 estarán sesgados. El verdadero efecto de la
experiencia es (β2+ 2β3exper), no el β2 sesgado.
50
Contraste RESET
• En lugar de añadir directamente al modelo funciones de las x´s,
añadimos y contrastamos la inclusión de polinomios de los
valores ajustados por MCO (es decir, funciones de ŷ)
Wi
donde: 2 2 3 EXPi
EXPi