0% encontró este documento útil (0 votos)
77 vistas56 páginas

Tema 4

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 56

Tema 4.

Cuestiones importantes
en el MLG

Econometría
Universidad Complutense de Madrid
¿Qué aprenderá en este tema?

4.1 Colinealidad

4.2 Variables ficticias

4.3 Introducción de términos polinómicos en el modelo.


Contraste RESET.
4.1 Colinealidad
Colinealidad

• La multicolinealidad surge cuando las variables


explicativas de un modelo econométrico están
relacionadas linealmente entre sí. Este es un problema
complejo, porque en cualquier regresión las variables
explicativas van a presentar algún grado de correlación.

• Por ello, debemos distinguir entre:

multicolinealidad exacta (perfecta), y

multicolinealidad de grado (aproximada)

4
Colinealidad

• Matemáticamente, existe multicolinealidad cuando


tenemos problemas a la hora de invertir la matriz (XTX)

Si X T X  0 existe multicolinealidad exacta

Si X X  0
T
existe multicolinealidad de grado

• Si es exacta, se incumple uno de los supuestos de


partida del MLG:
H5. Independencia lineal entre las variables
explicativas
5
Colinealidad exacta

• La multicolinealidad exacta (perfecta): ocurre cuando


una variable explicativa es combinación lineal exacta de
todas las demás (o de algunas de ellas).

Ejemplo 1: yt  1   2 xt 2   3 xt 3   t con xt 2   xt 3
yt  1  (  2    3 ) xt 3   t yt  1   3* x3   t
con  3*   2    3

Ejemplo 2: Pi   0  1 K i   2 NOFi   3 NOTEi   4 NOTOi  ui


Pi : Producción total
con NOTOi = NOFi + NOTEi
Ki: Cantidad de capital
NOFi: número de obreros fijos
NOTEi: número obreros temporales
NOTOi: número total de obreros. 6
Colinealidad exacta
• En este caso, Rango (X) = Rango (XTX) < k+1, el determinante
de (XTX) es igual a cero y no se puede invertir la matriz (XTX)

• El sistema de ecuaciones normales tiene infinitas soluciones y


la matriz de varianzas y covarianzas del estimador MCO no
está definida.

• Situaciones más habituales en las que habría relaciones


lineales exactas:
– Metemos en el modelo la misma variable en distintas unidades
– Metemos en el modelo todas las categorías de una variable ficticia
– Metemos en el modelo una variable que no varía (constante)

• Fácil de detectar: no es posible estimar por MCO


– El software nos avisa de que no se puede estimar
• Fácil de resolver: eliminando algún regresor colineal con otro(s)
7
Colinealidad de grado
• La multicolinealidad de grado (aproximada): ocurre cuando
una variable explicativa es aproximadamente igual a una
combinación lineal de las restantes. Es decir, hay variables
explicativas altamente correlacionadas.

Ejemplo: yt  1   2 xt 2   3 xt 3   t con xt 2  xt 3   t

• En este caso, Rango (X) = Rango (XTX) = k+1, el determinante


de (XTX) es distinto de cero pero muy pequeño y se puede invertir
la matriz (XTX). El sistema de ecuaciones normales tiene una
única solución
-La solución del sistema de ecuaciones normales es poco precisa.

• No es fácil de detectar ni de solucionar. Una pista para detectar


este tipo de multicolinealidad es reconocer una serie de efectos
perniciosos que presenta sobre los resultados de la estimación
MCO. 8
Efectos de la colinealidad de grado
(1) Los estimadores presentan varianzas y covarianzas
grandes y seremos poco precisos en la estimación de su
efecto sobre la endógena
- Tenemos poca variabilidad “propia” de la variable para estimar su efecto

Las varianzas y covarianzas estimadas de los parámetros se


hacen muy grandes conforme aumenta el grado de
colinealidad.
T
Adj ( X X)
ˆ ˆ )  ˆ 2 ( X T X )1  ˆ 2
var(
XT X

al ser el determinante cercano a cero, esto infla las varianzas y


covarianzas de los parámetros estimados la precisión de la
estimación disminuye a medida que aumenta la colinealidad
9
Efectos de la colinealidad de grado
2
var( ˆ j )  n
Más varianza del estimador
 (x
i 1
j  x j ) 2
(1  R 2
j)
quiere decir menor precisión

• R2j = R2 de la regresión de xj sobre las demás x (incluyendo un


término constante).
• Componentes de la varianza:
– Varianza del error (σ2): Cuanto mayor sea la variación en
los no observables que afectan a y, menos preciso será
– Variación muestral total en xj: cuanto más dispersas estén
las xj mayor precisión en la estimación de βj. Y aumenta al
aumentar la muestra!
– Relaciones lineales entre las variables independientes
(R2j ): Proporción de la varianza de xj explicada por el resto
de variables independientes
 Cuanto mayor sea, menos precisa será la estimación de10βj
Efectos de la colinealidad de grado
(2) Los estadísticos t de significación individual ˆ j
estarán sesgados a la baja. Esto hará que t
tendamos a NO RECHAZAR la H0: βj = 0 más
var  
ˆ ˆ j

frecuentemente.

(3) El contraste de significación global de las


pendientes del modelo no se verá afectado. R2 k
F
La bondad del ajuste seguirá siendo parecida (1  R 2 ) n  k  1
ante la presencia de variables explicativas
superfluas.

De hecho, un síntoma claro de multicolinealidad de grado es


que los parámetros NO sean INDIVIDUALMENTE significativos,
pero SÍ lo sean de manera CONJUNTA. Esto es una contradicción
estadística, salvo que exista un problema en los datos.
11
Efectos de la colinealidad de grado
(4) Otro síntoma de multicolinealidad de grado es que ligeros
cambios en la matriz de datos de X e Y (por ejemplo, añadiendo
o suprimiendo unas pocas observaciones) pueden llevar a
grandes cambios en los parámetros estimados.
- Esto nos puede llevar erróneamente a considerar la posibilidad de cambio
estructural, cuando en realidad se trata de otro problema.

12
Efectos de la colinealidad de grado
• Los efectos de la multicolinealidad de grado serán parecidos
a los de disponer de una muestra pequeña
(micronumerosidad) o de una variable independiente que
varíe poco por sí misma (aún sin estar relacionada
linealmente con otras).

• El problema de la menor precisión de los estimadores (por


multicolinealidad, muestra pequeña o escasa variabilidad de
las variables independientes):
– Se debe a que no disponemos de suficiente información
(nuestra muestra no es lo bastante “rica”) para estimar
adecuadamente todos los parámetros.

• Que dos variables estén muy relacionadas linealmente NO


afecta a la precisión de la estimación del efecto de una
tercera variable
13
Detección de la colinealidad
(a) Métodos basados en la correlación entre variables explicativas

(a.1) Calcular la correlación lineal simple existente entre pares


de variables explicativas. Si hacemos esto para los k
regresores del modelo, obtenemos una matriz R con la
forma:
1 r12 . r1k 
r 1 . r2 k 
R   21
. . 1 . 
 
 rk 1 rk 2 . 1

• Si las correlaciones entre pares de variables explicativas son


elevadas (cercanas a uno en valor absoluto)  síntoma de
multicolinealidad. Sin embargo, estas correlaciones no captan
dependencias lineales más complejas entre las variables
explicativas. 14
Detección de la colinealidad
(a.2) Calcular los llamados “factores de inflación de varianza” o
VIF para cada regresor j 1,…, k

1
VIFj 
 j
1  R 2

Donde R2j es el R2 de la regresión de cada variable explicativa j


sobre el resto de regresores del modelo.
 El mínimo valor del VIF es 1
 VIF superiores a 4 sugieren que puede haber colinealidad
(→Rj2 > 0.75, variación propia del regresor j <25%)
 VIF superiores a 10 indican alta multicolinealidad
(→Rj2 > 0.9, variación propia del regresor j <10%)
15
Detección de la colinealidad
(b) Métodos basados en medir el tamaño de la matriz (XTX)

– Se podría calcular el valor numérico del determinante de


XTX. El problema es que este determinante depende de
las unidades de medida de las variables explicativas.

– Se podría usar la propiedad de que el determinante de


una matriz simétrica es igual al producto de sus
autovalores. Es decir, X T X  1  2  ...  k . Si alguno de
estos autovalores es cercano a cero, el determinante
también lo será. El problema es que los autovalores de
una matriz también dependen de las unidades de medida
de las variables explicativas.
16
Detección de la colinealidad
(b) Métodos basados en medir el tamaño de la matriz (XTX)

– Para eliminar el problema de las unidades de medida, se


suele medir el tamaño relativo de los autovalores. En
concreto, se calcula el “número de condición” de la matriz
(XTX) como la raíz cuadrada del cociente entre el mayor y
el menor autovalor

max
 N º de condición
min
– Mayor número de condición implica mayor colinealidad
– Valores por encima de 20 ó 25 sugieren la presencia de
alta colinealidad
17
¿Qué hacer en presencia de colinealidad
de grado?
La solución pasa por incorporar nueva infomación, o bien,
simplificar o redefinir el modelo. Algunas soluciones pueden ser:

1) Aumentar el tamaño de la muestra

2) Suprimir variables
– Esta solución es tanto mejor cuanto mayor sea la correlación entre las
explicativas
– Problema: podemos causar sesgo por omisión de variable relevante.

3) Transformar variables
– Si la colinealidad se debe a que los regresores de un modelo comparten
una tendencia común en el tiempo.
18
Ejemplo: dataset hprice1.gdt (Wooldridge)

Descripción de los datos: 88 viviendas

- precio de la casa (price, en miles de dls)


- valor de tasación (assess, en miles de dls)
- nº de habitaciones (bdrms)
- tamaño de la parcela (lotsize, en pies cuadrados)
- tamaño de la casa (sqrft, en pies cuadrados)
- estilo de la casa (colonial)

Estimamos el precio de la casa en función de todos los


posibles determinantes

19
Ejemplo: dataset hprice1.gdt (Wooldridge)
Modelo 1: MCO, usando las observaciones 1-88
Variable dependiente: price

Coeficiente Desv. Típica Estadístico t Valor p


const -40.4477 21.5942 -1.8731 0.06462 *
assess 0.904078 0.104268 8.6707 <0.00001 ***
bdrms 9.63026 6.91629 1.3924 0.16757
lotsize 0.000599268 0.000497077 1.2056 0.23145
sqrft 0.00107136 0.0171966 0.0623 0.95047
colonial 9.54757 10.6473 0.8967 0.37250

Media de la vble. dep. 293.5460 D.T. de la vble. dep. 102.7134


Suma de cuad. residuos 155242.4 D.T. de la regresión 43.51092
R-cuadrado 0.830864 R-cuadrado corregido 0.820551
F(5, 82) 80.56328 Valor p (de F) 3.59e-30
Log-verosimilitud -453.7845 Criterio de Akaike 919.5689
Criterio de Schwarz 934.4330 Crit. de Hannan-Quinn 925.5573

 ¿Quiere eso decir que el número de habitaciones, el tamaño de la casa,


el de la parcela o el estilo no afectan al precio?
 Puede ser que la información contenida en estas variables esté recogida,
total o parcialmente, en el valor de tasación
20
Ejemplo: dataset hprice1.gdt (Wooldridge)
Detección: matriz de correlaciones (Ver / Matriz de correlación)
Coeficientes de correlación, usando las observaciones 1 - 88
valor crítico al 5% (a dos colas) = 0.2096 para n = 88

assess bdrms lotsize sqrft colonial El valor de tasación (assess) y el


1.0000 0.4825 0.3281 0.8656 0.0829 assess
1.0000 0.1363 0.5315 0.3046 bdrms
tamaño de la casa (sqrft)
1.0000 0.1838 0.0140 lotsize contienen información sobre el
1.0000 0.0654 sqrft resto de variables
1.0000 colonial

Detección: regresiones auxiliares


Modelo 2: MCO, usando las observaciones 1-88
Variable dependiente: assess  Ajustando regresiones auxiliares
Coeficiente Desv. Típica Estadístico t Valor p entre las variables presuntamente
const 18,0528 22,646 0,7972 0,42762 colineales captamos relaciones de
bdrms 1,51982 7,27896 0,2088 0,83512
lotsize 0,00163323 0,000491614 3,3222 0,00133 ***
colinealidad más complejas.
sqrft 0,136234 0,0102035 13,3517 <0,00001 ***
colonial 4,61019 11,1972 0,4117 0,68160  Este modelo muestra que el valor
de tasación (asess) comparte
Media de la vble. dep. 315,7364 D.T. de la vble. dep. 95,31444
Suma de cuad. residuos 174138,7 D.T. de la regresión 45,80455 mucha información con el resto de
R-cuadrado 0,779678 R-cuadrado corregido 0,769060 variables, especialmente con
F(4, 83) 73,43017 Valor p (de F) 1,82e-26
Log-verosimilitud -458,8385 Criterio de Akaike 927,6770 “lotsize” y “sqrft””
Criterio de Schwarz 940,0637 Crit. de Hannan-Quinn 932,6673 21
Ejemplo: dataset hprice1.gdt (Wooldridge)

Detección: Una idea para realizar sistemáticamente el análisis de regresiones auxiliares


consiste en calcular los “factores de inflación de varianza” (VIFs), que se obtienen a partir
del R2 de todas las regresiones auxiliares posibles

VIFs (luego de estimar, Contrastes / Colinealidad)

Factores de inflación de varianza (VIF)


Mínimo valor posible = 1.0
Valores mayores que 10.0 pueden indicar un problema de colinealidad
assess 4.539
bdrms 1.556
lotsize 1.175
sqrft 4.527
colonial 1.121
VIF(j) = 1/(1 - R(j)^2), donde R(j) es el coeficiente de correlación múltiple
entre la variable j y las demás variables independientes

Propiedades de la matriz X'X:


norma-1 = 1.8140033e+010
Determinante = 2.8519724e+027
Número de condición recíproca = 1.8419781e-010

El nº de condición de la matriz X'X es muy alto


22
Ejemplo: dataset hprice1.gdt (Wooldridge)
• Solución 1: eliminar variables explicativas
Modelo 1 : price   0   1 assess   2 bdrms   3lotsize   4 sqrft   5 colonial  
Modelo 2 : price   0   1bdrms   2 lotsize   3 sqrft   4 colonial  
Modelo 3 : price   0   1 assess   2 bdrms  

Estimaciones de MCO
Variable dependiente: price  La colinealidad se debe a que la muestra no
contiene información suficiente para estimar con
(1) (2) (3)
un nivel satisfactorio de precisión todos los
const -40,45* -24,13 -39,70* parámetros que se han especificado
(21,59) (29,60) (21,32)
assess 0,9041** 0,9272**
(0,1043) (0,05564)  Las estrategias para resolver este problema se
bdrms 9,630 11,00 11,35*
basan en añadir información o en redefinir el
(6,916) (9,515) (6,303) modelo
lotsize 0,0005993 0,002076**
(0,0004971) (0,0006427)  La idea es que, si no tenemos suficiente
sqrft 0,001071 0,1242** información para estimar todos los parámetros
(0,01720) (0,01334) es razonable renunciar a algunos de ellos
colonial 9,548 13,72
(10,65) (14,64)  El inconveniente de esta solución es que se
n 88 88 88 pierde algo de ajuste.
R2 0,8206 0,6602 0,8221
23
corregido
4.2 Variables ficticias
¿Qué son y para qué sirven?
• Variables ficticias, binarias, dicotómicas, o dummies: son
variables discretas construidas por el investigador.
- Permiten clasificar a las observaciones de una muestra en
categorías exhaustivas y excluyentes relativas a una
característica.
- Suelen tomar el valor 1 (cuando la característica está presente)
ó 0 (cuando no lo está).

• Usos:
- Inclusión de información cualitativa al análisis de regresión
Ejemplos: el sexo de un individuo, nivel de estudios, el sector al que pertenece una
compañía, día de la semana, mes …

- División de la muestra en períodos (series de tiempo) o grupos


(sección cruzada) a fin de hacer contrastes de cambio estructural
25
Definición e interpretación
• Supongamos que queremos explicar las diferencias salariales
de un conjunto de individuos con diferentes niveles de estudios.
En un principio, definimos tantas ficticias como niveles de
estudio, es decir:

1 si el individuo tiene estudios primarios


Ei1   
 0 resto de los casos 
1 si el individuo tiene estudios secundarios
Ei 2   
 0 resto de los casos 
1 si el individuo tiene estudios superiores
Ei3   
 0 resto de los casos 
26
Definición e interpretación

• Denotando por W al salario del individuo i-ésimo, una primera


especificación de esta función de salarios que sólo depende del
nivel de estudios es:
W i   1 E i1   2 E i 2   3 E i 3   i  i  1,2...N

• ¿Cómo se interpretan los coeficientes?


Como el salario
E (W i / E i 1  1, E i 2  0, E i 3  0 )   1 esperado (medio) de un
individuo con estudios
E (W i / E i 1  0 , E i 2  1, E i 3  0 )   2 primarios, con estudios
secundarios y con
E (W i / E i1  0, E i 2  0, E i 3  1)   3 estudios superiores,
respectivamente
27
Definición e interpretación
 1 0 0 
 N 11 
• Matricialmente: X  0 1 0 
  N 21 
 0 0 1 
  N 31
• Donde Nj11 es un vector columna de “unos” de dimensión igual
al número de trabajadores con estudios de nivel j (Nj). Las
ecuaciones normales son:
 N1 0 0   ˆ   iE1 w 
  1 i
X T Xˆ  X T Y  X T Xˆ  X T W  0 N 2 0   ˆ   iE 2 w 
  2   i

0 0 N 3  ˆ 3   iE 3 wi 
 
Nj
 wi
• Por lo tanto ˆ j  i 1  w j es el salario medio en cada nivel de
Nj
estudios 28
Definición e interpretación
• Atención con la trampa de las ficticias. Si la ecuación de
salarios incluye un término constante:

Wi   0  1Ei1   2 Ei 2   3 Ei 3   i  i  1,2...N
Tendremos un problema de multicolinealidad exacta puesto que
Ei1  Ei 2  Ei3  1, i y no podremos estimar.

• Solución: eliminar una de las variables ficticias (por ejemplo, la


primera). Como Ei1  1  Ei 2  Ei 3 i, el modelo sería:

Wi  1 (1  Ei 2  Ei 3 )   2 Ei 2   3 Ei 3   i  i  1,2...N
Wi  1  (  2  1 ) Ei 2  (  3  1 ) Ei 3   i
Wi  1   2 Ei 2   3 Ei 3   i
29
Definición e interpretación
• ¿Cómo se interpretan ahora los coeficientes?

E Wi / Ei 2  0 , Ei 3  0   1 Salario esperado (medio) de un


individuo con estudios primarios
E Wi / Ei 2  1, Ei 3  0   1   2 (grupo base), con estudios
secundarios y con estudios
E Wi / Ei 2  0, Ei 3  1  1   3 superiores, respectivamente

• En la formulación que incluye término constante, los coeficientes


que acompañan a las dummies reflejan las diferencias en el
salario medio de un individuo que pertenece a determinada
categoría de estudios, respecto a uno con estudios primarios (la
categoría base)
 2   2  1
 3   3  1
30
Definición e interpretación
• En general, si se quieren distinguir g grupos diferentes se
deben incluir g-1 variables ficticias en el modelo más un
término constante.
• El grupo omitido es el base o de referencia. Todas las
comparaciones se hacen respecto a ese grupo.
• El valor del intercepto del modelo representa el valor medio de
la variable dependiente para la categoría de base.
• Los coeficientes asociados a las variables dummies se
conocen como coeficientes de intercepto diferencial, ya que
indican la diferencia estimada entre el intercepto de ese grupo
y el del grupo de comparación.
• Excluir el término constante no suele ser aconsejable ya que
algunos paquetes de regresión cambian la forma de calcular el
R2 en regresiones sin término constante.

31
Ejemplo: dataset beauty.gdt (Wooldridge)

Vamos a ilustrar estas ideas


usando el dataset beauty.gdt
(en Gretl ir a Archivo/datos de
muestra/ Wooldridge).

La base recoge el salario por


hora en dólares de 1260
trabajadores y sus
determinantes potenciales
(educación, experiencia,
pertenencia a un sindicato, a un
sector de actividad, etc.).

32
Ejemplo: uso de variables ficticias
Vamos a especificar dos modelos Modelo 1 Wi   0 malei  1 femalei   i
diferentes pero equivalentes para Model 1: OLS, using observations 1-1260
analizar el salario medio de hombres y Dependent variable: wage

mujeres. coefficient std. error t-ratio p-value


---------------------------------------------------------
male 7.36882 0.154242 47.77 6.20e-285 ***
female 4.29936 0.212042 20.28 2.57e-079 ***
El Modelo 1 implica que el salario medio Mean dependent var 6.306690 S.D. dependent var 4.660639
de un hombre (male = 1 y female = 0) en Sum squared resid
R-squared
24661.05
0.098232
S.E. of regression
Adjusted R-squared
4.427570
0.097515
esta muestra es de 7.37 $/hora. Sin F(1, 1258)
Log-likelihood
137.0369
-3661.554
P-value(F)
Akaike criterion
4.05e-30
7327.108
embargo, el salario medio de una mujer Schwarz criterion 7337.386 Hannan-Quinn 7330.970

(male = 0 y female = 1) es sólo de 4.30


$/hora
Modelo 2 Wi   0   0 female i  i
El Modelo 2 es equivalente al Modelo 1, Model 2: OLS, using observations 1-1260
Dependent variable: wage

al incluir término constante y eliminar coefficient std. error t-ratio p-value

una de las variables ficticias (male). ---------------------------------------------------------


const 7.36882 0.154242 47.77 6.20e-285 ***

En este modelo, un hombre (female = 0) female -3.06947 0.262207 -11.71 4.05e-030 ***

gana en media 7.37 $/hora y una mujer Mean dependent var


Sum squared resid
6.306690
24661.05
S.D. dependent var
S.E. of regression
4.660639
4.427570

(female = 1) gana 7.37 -3.07 = 4.30 R-squared


F(1, 1258)
0.098232
137.0369
Adjusted R-squared
P-value(F)
0.097515
4.05e-30

$/hora. Log-likelihood
Schwarz criterion
-3661.554
7337.386
Akaike criterion
Hannan-Quinn
7327.108
7330.970

33
Ejemplo: uso de variables ficticias

La interpretación del coeficiente de female depende de la formulación del


modelo, pero las implicaciones de ambos modelos son coherentes.

Si el modelo incluye un término


constante y las dos ficticias Model 3: OLS, using observations 1-1260

excluyentes (male y female), Dependent variable: wage


Omitted due to exact collinearity: female

generamos multicolinealidad coefficient std. error t-ratio p-value

exacta. ---------------------------------------------------------
const 4.29936 0.212042 20.28 2.57e-079 ***
male 3.06947 0.262207 11.71 4.05e-030 ***

La solución es eliminar una de Mean dependent var


Sum squared resid
6.306690
24661.05
S.D. dependent var
S.E. of regression
4.660639
4.427570

ellas. Gretl da un mensaje R-squared


F(1, 1258)
0.098232
137.0369
Adjusted R-squared
P-value(F)
0.097515
4.05e-30

advirtiendo del problema y Log-likelihood


Schwarz criterion
-3661.554
7337.386
Akaike criterion
Hannan-Quinn
7327.108
7330.970

elimina una de ellas.

34
Ejemplo: uso de variables ficticias
Incluyamos ahora un regresor Wi   0   0 female i  1 exp eri   i
continuo en la ecuación del salario, la Modelo 4: MCO, usando las observaciones 1-1260

experiencia (exper). El coeficiente Variable dependiente: wage

que acompaña a female es la Coeficiente Desv. Típica Estadístico t Valor p


-----------------------------------------------------------------

diferencia, en promedio, entre el const


female
6,04142
-2,66423
0,264137
0,266736
22,87
-9,988
4,35e-097 ***
1,17e-022 ***

salario de una mujer y de un hombre, exper 0,0652070 0,0106104 6,146 1,07e-09 ***

para un nivel dado de experiencia (la Media de la vble. dep. 6,306690


Suma de cuad. residuos 23941,70
D.T. de la vble. dep.
D.T. de la regresión
4,660639
4,364252

mujer gana 2,6 $/hora menos). R-cuadrado


F(2, 1257)
0,124536
89,40508
R-cuadrado corregido
Valor p (de F)
0,123143
4,97e-37
Log-verosimilitud -3642,904 Criterio de Akaike 7291,808
Criterio de Schwarz 7307,224 Crit. de Hannan-Quinn 7297,601

Gráficamente, esta situación se


puede interpretar como un cambio
en el término constante entre hombres:
W
Wi  0  1 experi
hombres y mujeres, que no depende Pendiente = 1
del nivel de experiencia.
 0 es el término constante para los 0
hombres (grupo base) y  0 es la
mujeres:
diferencia en el término constante 0  0 Wi  ( 0  0 )  1 exp eri
para las mujeres respecto de los
hombres (  0  0 en el ejemplo) exper

35
Interpretación de las ficticias con log(y)
• Si la variable dependiente en un modelo es log(y), el coeficiente
de una variable ficticia, multiplicado por 100, se interpreta como
la diferencia porcentual en y, manteniendo todo lo demás igual
• Ejemplo:
Log(salario estimado) = 0.417 - 0.297mujer + 0.029 exper
– Aproximación:
• Δ%y ≈ 100 Δlog(y), es decir, Δ%y ≈ 100*β1 ,
• Es decir, el salario de la mujer es, aproximadamente, un
29,7% inferior al del grupo de referencia (hombre), ceteris
paribus
• Esta aproximación funciona mejor cuanto menor es el
coeficiente
• El cambio porcentual exacto sería:
% y   exp(0.297)  1 *100  25.7%
36
Demostración

ˆ yh )  ˆ1 ; Tomamos la exponencial:


ˆ ym )  log(
log(
exp  log( m
ˆ y )  exp( ˆ ); Por propiedades de la exponencial:
ˆ y )  log( h 1

exp  log(
ˆ ym ) 
 exp( ˆ1 )
exp  log(
ˆ yh ) 
ym
 exp( ˆ1 )
yh
ym
 1  exp( ˆ1 )  1
yh
 % y  exp( ˆ1 )  1 *100

37
¿Cómo permitir pendientes distintas?
Las interacciones entre variables ficticias y no ficticias permiten que existan
diferencias de pendientes entre grupos. Por ejemplo, permitimos que el efecto
de la experiencia sobre el salario sea distinto para hombre y mujeres. Para ello,
es necesario definir una nueva variable semi-continua: exper*female.

Wi   0   0 femalei  1 exp eri  1 exp eri  femalei   i


Modelo 5: MCO, usando las observaciones 1-1260
Variable dependiente: wage Este modelo implica que, ceteris
Coeficiente Desv. Típica Estadístico t Valor p paribus, 1 año adicional de
-----------------------------------------------------------------
const 5,78596 0,296010 19,55 1,71e-074 *** experiencia aumenta el salario
female -1,94974 0,460222 -4,237 2,44e-05 ***
exper 0,0777560 0,0124812 6,230 6,36e-010 *** en 0.078 $/hora si female=0
experfem -0,0450076 0,0236372 -1,904 0,0571 *

Media de la vble. dep. 6,306690 D.T. de la vble. dep. 4,660639


Suma de cuad. residuos 23872,78 D.T. de la regresión 4,359701 No obstante, si eres mujer
R-cuadrado 0,127056 R-cuadrado corregido 0,124971
F(3, 1256) 60,93642 Valor p (de F) 8,82e-37 (female=1), el efecto neto de un
Log-verosimilitud -3641,088 Criterio de Akaike 7290,176
Criterio de Schwarz 7310,731 Crit. de Hannan-Quinn 7297,900 año más de experiencia es
menor: 0.078 - 0.045 = 0.033
Hombres : Wˆi  5.78  0.078 exp eri $/hora
Mujeres : Wˆ  5.78  1.95   (0.078  0.045 ) exp er
i i

Wˆi  3.83  0.033 exp eri


38
¿Cómo permitir pendientes distintas?
Ya vimos que  0 mide la diferencia entre los términos constantes entre hombre y
mujeres; ahora  1 mide la diferencia en la rentabilidad de la experiencia entre
hombres y mujeres. Gráficamente:

En nuestro ejemplo  0  0 y 1  0
Wi   0   0 femalei  1 exp eri  1 exp eri  femalei   i Por lo tanto, el término
constante es menor para las
mujeres y la pendiente en
hombres:
función de la experiencia
Wi  0  1 experi Pendiente = 1
también es menor.
W

Esto significa que las mujeres


ganan menos que los hombres
0
en todos los niveles de
experiencia y que la brecha
0  0 Pendiente = 1 1
mujeres: salarial se hace más grande a
Wi  ( 0  0 )  ( 1  1 ) exp eri medida que aumenta la
exper experiencia.
39
Ejemplo con α0 > 0 y α 1 < 0
• Sea una variable binaria, D, y una continua, x:
y   0   0 D  1 x   1 D  x  

y
Si D  0
y   0  1 x  

Si D  1
y  (  0   0 )  ( 1   1 ) x  

x
40
Contraste de cambio estructural
En general, existe un cambio estructural en un modelo de regresión
cuando sus parámetros no son constantes a lo largo de toda la muestra.
¿Qué puede provocar esta inestabilidad paramétrica?

• En los datos de series temporales, algún suceso ocurrido en el


período muestral puede hacer cambiar la relación entre la endógena y
las variables explicativas, generando así cambios en los coeficientes
del modelo
- Ej: la irrupción de una crisis si estamos estimando la función consumo; la implantación de una
normativa disuasoria del consumo del tabaco si estamos estimando un modelo de demanda de
dicho producto.

• En los datos de corte transversal, se puede pensar que existen


grupos claramente diferenciados dentro de la muestra, y que por lo
tanto, los coeficientes del modelo serán diferentes entre ellos
- Ej: diferencias entre hombres y mujeres si estimamos un modelo de salarios, diferencias entre
empresas exportadoras y no exportadoras si estimamos un modelo de financiación de empresas
industriales
41
Test de estabilidad estructural de Chow
Supongamos estamos estimando el consumo agregado en función de la
renta usando datos de series temporales. Sospechamos que puede
haber un shock en el momento T1 que provoque un cambio en todos los
coeficientes del modelo (consumo autónomo y PMC).

• El modelo restringido, MR, estima los coeficientes utilizando toda la


muestra:
Ct   0  1 PIBt   t t  1,2,..., T1 , T1  1,..., N
Al estimar obtendremos la suma de cuadrados de residuos (SCRR)
• El modelo no restringido o libre, ML, estima dos modelos por
separado, uno para cada submuestra, permitiendo que los
coeficientes sean diferentes:
 12
Ct   01  11PIBt   t t  1,2 ,...,T1
 11
Ct     PIBt   t t  T1  1,..., N
2
0 1
2
 01

 02
Al estimar obtendremos la suma de cuadrados de
residuos para cada regresión: SCRL1 y SCRL2
42
Test de estabilidad estructural de Chow
• La hipótesis nula consiste en la igualdad de cada uno de los
coeficientes i en las dos submuestras (ausencia de cambio estructural
u homogeneidad paramétrica entre submuestras):
H0: 10= 20 ; 11= 21 H1: 10  20 ; 11  21

El estadístico de contraste se calcula como:

SCRR  SCRL1  SCRL 2  / k  1


F  Fk 1,n2 ( k 1)
SCRL1  SCRL 2 / n  2(k  1)

• Donde n-2(k+1) son los grados de libertad del modelo no restringido o


libre (en el ejemplo, n-4) y k+1 es el número de restricciones en la
hipótesis nula (en el ejemplo, 2). Este caso particular del estadístico F,
se conoce como estadístico de Chow
• Si se rechaza la nula, decimos que ha habido un cambio estructural
que provoca variaciones significativas en los parámetros en la función
consumo. 43
Uso de variables ficticias para contrastar
cambio estructural
• Alternativamente, podemos contrastar la existencia de cambio
estructural en un modelo de regresión utilizando variables ficticias. Si
nuestro modelo es:
Ct   0  1 PIBt   t t  1,2,..., N
• Estimamos el modelo:
Ct   0   0 Dt  1 PIBt  1 Dt PIBt    t t  1,2,..., N
• Donde la variable ficticia Dt discrimina entre las dos sub-muestras:
1 si t  T1  Ct   0   0   1  1 PIBt   t
Dt  
0 si t  T1  Ct   0  1 PIBt   t

• El contraste de cambio estructural global (en el consumo autónomo y


la PMC) en el modelo se reduce a contrastar la hipótesis nula:
H0: α0= 0; α1 = 0 H1: α0  0; α1  0
Si se rechaza la nula, decimos que ha habido un cambio
44
estructural global en la función de consumo.
Ejemplo: ¿difiere el modelo de salarios entre
hombres y mujeres?
• Utilizando variables ficticias

Wi   0  1 exp eri   2educ   i Wi   0   0 femalei  1 exp eri  1 exp eri  femalei 


  2educ   2educi  femalei   i
Model 6: OLS, using observations 1-1260 Model 7: OLS, using observations 1-1260
Dependent variable: wage Dependent variable: wage

coefficient std. error t-ratio p-value coefficient std. error t-ratio p-value
--------------------------------------------------------- ---------------------------------------------------------
const -1.62488 0.673703 -2.412 0.0160 ** const -0.920837 0.813507 -1.132 0.2579
exper 0.110644 0.0104735 10.56 4.73e-025 *** exper 0.102006 0.0123301 8.273 3.30e-016 ***
educ 0.470979 0.0477427 9.865 3.68e-022 *** educ 0.495225 0.0562609 8.802 4.36e-018 ***
female -0.219410 1.35928 -0.1614 0.8718
Mean dependent var 6.306690 S.D. dependent var 4.660639 femexp -0.0587202 0.0230312 -2.550 0.0109 **
Sum squared resid 23984.98 S.E. of regression 4.368195 femeduc -0.111982 0.0975468 -1.148 0.2512
R-squared 0.122953 Adjusted R-squared 0.121558
F(2, 1257) 88.10955 P-value(F) 1.55e-36 Mean dependent var 6.306690 S.D. dependent var 4.660639
Log-likelihood -3644.042 Akaike criterion 7294.083 Sum squared resid 22099.70 S.E. of regression 4.198019
Schwarz criterion 7309.500 Hannan-Quinn 7299.877 R-squared 0.191891 Adjusted R-squared 0.188669
F(5, 1254) 59.55431 P-value(F) 9.68e-56
Log-likelihood -3592.468 Akaike criterion 7196.935
Schwarz criterion 7227.768 Hannan-Quinn 7208.522

H 0 :  0  0; 1  0; 2  0

F
RL2  RR2  / 3 Rechazamos la nula  los
1  RL2  / 1254  35.64 modelos de salarios son diferentes
p  valor  prob( F3,1254  35.65 )  0.000
entre hombres y mujeres
45
Ejemplo: ¿difiere el modelo de salarios entre
hombres y mujeres?
• Usando el estadístico de Chow
Wi   0  1 exp eri   2educ   i Wi F   0F  1F exp eri   2F educ   iF
Model 6: OLS, using observations 1-1260 Modelo 8: MCO, usando las observaciones 1-436 female=1
Dependent variable: wage Variable dependiente: wage

coefficient std. error t-ratio p-value Coeficiente Desv. Típica Estadístico t Valor p
--------------------------------------------------------- ----------------------------------------------------------------
const -1.62488 0.673703 -2.412 0.0160 ** const -1,14025 1,03136 -1,106 0,2695
exper 0.110644 0.0104735 10.56 4.73e-025 *** exper 0,0432856 0,0184235 2,349 0,0192 **
educ 0.470979 0.0477427 9.865 3.68e-022 *** educ 0,383243 0,0754715 5,078 5,68e-07 ***

Mean dependent var 6.306690 S.D. dependent var 4.660639 Media de la vble. dep. 4,299358 D.T. de la vble. dep. 4,097392
Sum squared resid 23984.98 S.E. of regression 4.368195 Suma de cuad. residuos 6844,840 D.T. de la regresión 3,975921
R-squared 0.122953 Adjusted R-squared 0.121558 R-cuadrado 0,062742 R-cuadrado corregido 0,058413
F(2, 1257) 88.10955 P-value(F) 1.55e-36 F(2, 433) 14,49303 Valor p (de F) 8,08e-07
Log-likelihood -3644.042 Akaike criterion 7294.083 Log-verosimilitud -1218,944 Criterio de Akaike 2443,888
Schwarz criterion 7309.500 Hannan-Quinn 7299.877 Criterio de Schwarz 2456,120 Crit. de Hannan-Quinn 2448,715

H 0 :  0F   0M ; 1F  1M ;  2F   2M Wi M   0M  1M exp eri   2M educ   iM

SCRR  ( SCRL1  SCRL 2 )  / 3  35.65 female=0


Modelo 9: MCO, usando las observaciones 1-824
Variable dependiente: wage
F
( SCRL1  SCRL 2 ) / 1254
Coeficiente Desv. Típica Estadístico t Valor p
-----------------------------------------------------------------
const -0,920837 0,835313 -1,102 0,2706

p  valor  prob( F3,1254  35.65)  0.000 exper


educ
0,102006
0,495225
0,0126606
0,0577690
8,057
8,572
2,75e-015 ***
4,99e-017 ***

Media de la vble. dep. 7,368823 D.T. de la vble. dep. 4,592508


Rechazamos la nula  salvo por errores de Suma de cuad. residuos 15254,86 D.T. de la regresión 4,310549
R-cuadrado 0,121163 R-cuadrado corregido 0,119022
redondeo es idéntico al contraste basado en F(2, 821) 56,59437 Valor p (de F) 9,43e-24
Log-verosimilitud -2371,620 Criterio de Akaike 4749,241
el R2 de los modelos con y sin términos de Criterio de Schwarz 4763,383 Crit. de Hannan-Quinn 4754,666
46
interacción
Un resumen
• Las variables ficticias permiten introducir información cualitativa en
el análisis de regresión y estudiar potenciales diferencias entre
grupos o períodos dentro de una muestra

• Todas las estimaciones de los coeficientes de las variables ficticias


se interpretan en relación con el grupo base (para el cual no se
incluye dummy en el modelo)

• Las variables ficticias se pueden combinar con las cuantitativas


para formar términos de interacción que permiten la existencia de
diferentes pendientes entre los grupos

• El contraste de Chow permite detectar si hay algún tipo de


diferencias entre los grupos dentro del modelo. También se pueden
detectar usando variables ficticias.

47
4.3 Introducción de términos
polinómicos en el modelo
Mala especificación funcional
Dentro de los problemas de especificación de un modelo de
regresión encontramos el de mala especificación de la relación
funcional cuando proponemos una relación inadecuada entre
la variable dependiente y las explicativas.

Puede deberse a:
• La omisión de funciones de las variables independientes
- Ej: Si el salario hora viene dado por: log(wage)=β0+ β1educ+ β2exper+ β3exper2+u
…y omitimos exper2, entonces β0, β1, β2 estarán sesgados. El verdadero efecto de la
experiencia es (β2+ 2β3exper), no el β2 sesgado.

• La omisión de términos de interacción entre variables


independientes
- Ej: si omitimos exper*female en la ecuación de salarios, cuando importa

• El uso de variables en nivel cuando es más apropiado el


logaritmo
-Ej: si usamos wage en lugar de log(wage) 49
Mala especificación funcional
• Una herramienta para detectar la mala especificación funcional
es el estadístico F de restricciones de exclusión conjunta:
 añadimos términos cuadráticos (y términos de interacción)
de las variables explicativas del modelo y contrastamos su
significatividad conjunta.

• Sin embargo, si hay muchos regresores en el modelo,


podemos tener problemas de grados de libertad insuficientes.

• Podemos usar el contraste RESET (Regression specification


error test) de Ramsey como contraste general de mala
especificación funcional

50
Contraste RESET
• En lugar de añadir directamente al modelo funciones de las x´s,
añadimos y contrastamos la inclusión de polinomios de los
valores ajustados por MCO (es decir, funciones de ŷ)

• Si el modelo original (restringido) es:


y =  0  1 x1 + 2 x2 +...+ k xk + u
Lo estimamos por MCO y nos quedamos con la variable ŷ
y con la suma residual SCRR

• Estimamos la regresión auxiliar (ampliada):


y   0  1 x1  ...   k xk  d 1 yˆ 2  d 2 yˆ 3  ...  d q yˆ q  u
• Nos quedamos con la suma residual SCRL y construimos un
estadístico F de sumas residuales para contrastar si la
especificación es correcta: SCRR  SCRL  / q
H0: d1 = 0, d2 = 0; …; dq = 0 F  Fq ,nk q 1
SCRL / n  k  q  1 51
Ejemplo: contraste RESET
Continuamos trabajando con el dataset beauty.gdt (Wooldridge). Regresamos los
salarios sobre todas las variables explicativas excepto “looks”
Modelo 1: MCO, usando las observaciones 1-1260
Variable dependiente: wage

Coeficiente Desv. Típica Estadístico t Valor p


-----------------------------------------------------------------
const -0,944681 0,853953 -1,106 0,2688
belavg -0,773514 0,369733 -2,092 0,0366 **
abvavg 0,172261 0,267684 0,6435 0,5200
exper 0,0776535 0,0106804 7,271 6,30e-013 ***
union 0,585648 0,267916 2,186 0,0290 **
goodhlth -0,0224538 0,475927 -0,04718 0,9624
black -0,134521 0,461914 -0,2912 0,7709
female -2,12282 0,276517 -7,677 3,28e-014 ***
married 0,809871 0,274540 2,950 0,0032 ***
south 0,375755 0,312114 1,204 0,2289
bigcity 1,70265 0,336678 5,057 4,89e-07 ***
smllcity 0,559318 0,274449 2,038 0,0418 **
service -0,475618 0,288366 -1,649 0,0993 *
educ 0,426410 0,0500689 8,516 4,67e-017 ***

Media de la vble. dep. 6,306690 D.T. de la vble. dep. 4,660639


Suma de cuad. residuos 21333,38 D.T. de la regresión 4,137813
R-cuadrado 0,219913 R-cuadrado corregido 0,211774
F(13, 1246) 27,01983 Valor p (de F) 1,33e-58
Log-verosimilitud -3570,234 Criterio de Akaike 7168,468
Criterio de Schwarz 7240,412 Crit. de Hannan-Quinn 7195,504

• ¿Cómo saber si la especificación funcional es correcta?


• Alternativa1: Generar cuadrados de las variables e introducirlos
52
• Alternativa2: Guardar valores estimados, generar sus cuadrados e introducirlos
Alternativa 1
• Añadir/Cuadrados de las variables seleccionadas (educ y exper)
Modelo 2: MCO, usando las observaciones 1-1260
Variable dependiente: wage

Coeficiente Desv. Típica Estadístico t Valor p


-----------------------------------------------------------------
const 1,72076 1,69456 1,015 0,3101
belavg -0,848700 0,366852 -2,313 0,0209 **
abvavg 0,169241 0,265271 0,6380 0,5236
exper 0,241191 0,0389939 6,185 8,39e-010 ***
union 0,508510 0,265882 1,913 0,0560 *
goodhlth -0,00326653 0,472386 -0,006915 0,9945
black -0,0798286 0,458365 -0,1742 0,8618
female -2,07418 0,274637 -7,552 8,24e-014 ***
married 0,646110 0,276127 2,340 0,0194 **
south 0,396681 0,309233 1,283 0,1998
bigcity 1,79496 0,334177 5,371 9,32e-08 ***
smllcity 0,631426 0,272983 2,313 0,0209 **
service -0,678060 0,292769 -2,316 0,0207 **
educ -0,189374 0,260250 -0,7277 0,4670
sq_educ 0,0244134 0,0106126 2,300 0,0216 **
sq_exper -0,00384513 0,000863438 -4,453 9,22e-06 ***

Media de la vble. dep. 6,306690 D.T. de la vble. dep. 4,660639


Suma de cuad. residuos 20902,51 D.T. de la regresión 4,099105
R-cuadrado 0,235669 R-cuadrado corregido 0,226452
F(15, 1244) 25,57108 Valor p (de F) 1,74e-62
Log-verosimilitud -3557,380 Criterio de Akaike 7146,759
Criterio de Schwarz 7228,981 Crit. de Hannan-Quinn 7177,657

• El estadístico F de significación conjunta de sq_educ y sq_exper es F(2, 1244) =


12,8216 con valor-p=3,079e-006
• Se rechaza que el modelo lineal esté bien especificado 53
Alternativa2
• Guardar/Valores estimados (en Modelo 1)
• Añadir/Cuadrados de las variables seleccionadas
Modelo 3: MCO, usando las observaciones 1-1260
Variable dependiente: wage

Coeficiente Desv. Típica Estadístico t Valor p


---------------------------------------------------------------
const 1,88991 1,25204 1,509 0,1314
belavg -0,225662 0,408993 -0,5517 0,5812
abvavg 0,0551434 0,269457 0,2046 0,8379
exper 0,0143565 0,0231043 0,6214 0,5345
union 0,182503 0,297236 0,6140 0,5393
goodhlth 0,0154510 0,474465 0,03257 0,9740
black -0,0400140 0,461358 -0,08673 0,9309
female -0,638576 0,554221 -1,152 0,2495
married 0,212368 0,335158 0,6336 0,5264
south 0,0660106 0,326837 0,2020 0,8400
bigcity 0,293627 0,566531 0,5183 0,6043
smllcity 0,171609 0,300977 0,5702 0,5687
service -0,155734 0,305499 -0,5098 0,6103
educ 0,105918 0,115198 0,9194 0,3580
sq_yhat1 0,0614049 0,0198934 3,087 0,0021 ***

Media de la vble. dep. 6,306690 D.T. de la vble. dep. 4,660639


Suma de cuad. residuos 21171,36 D.T. de la regresión 4,123725
R-cuadrado 0,225838 R-cuadrado corregido 0,217132
F(14, 1245) 25,94211 Valor p (de F) 7,20e-60
Log-verosimilitud -3565,431 Criterio de Akaike 7160,863
Criterio de Schwarz 7237,946 Crit. de Hannan-Quinn 7189,829

• Al ser un único parámetro, podemos utilizar el estadístico t


• Si incluyésemos el cubo habría que utilizar el estadístico F
• También nos dice que el modelo lineal está mal especificado 54
Contraste RESET
• Rechazar H0 sugiere un problema de especificación funcional

• El orden de no linealidades de los valores ajustados que se


incluyen en la regresión auxiliar lo decide el investigador.
En general, los términos al cuadrado y al cubo suelen ser
suficientes.

• Problema: los contrastes RESET no son informativos. Es


decir, cuando se rechaza la hipótesis nula, no sabemos cuál
es el modelo alternativo más adecuado en relación al inicial

• A veces, el modelo no lineal alternativo surge del sentido


económico del modelo o del sentido común
(Ej: efectos de la educación y la experiencia sobre el salario)
55
Introducción de términos polinómicos
 Por ejemplo, si en una función de salarios, pensamos que a partir
de un determinado nº de años de experiencia, el salario ya no crece
más (llega a un punto máximo), podemos modelizar este hecho
como:
Wi  1   2 EXPi   3 EXPi  ui
2

Wi
donde:   2  2 3 EXPi
EXPi

 O bien, cuando pensamos que el efecto marginal que tiene la


educación sobre el salario depende también de la experiencia de la
persona, podemos modelizar como:
Wi  1   2 EXPi   3 EDUCi   4 EDUCi  EXPi  ui
Wi
donde:   3   4 EXPi
EDUCi
y el regresor EDUCi  EXPi se llama término de interacción. 56

También podría gustarte