Tema 4

Tema 4.
Cuestiones importantes
en el MLG
Econometría
Universidad Complutense de Madrid
¿Qué aprenderá en este tema?
4.1 Colinealidad
4.2 Variables ficticias
4.3 Introducción de términos polinómicos en el modelo.

Contraste RESET.
4.1 Colinealidad
Colinealidad
• La multicolinealidad surge cuando las variables

explicativas de un modelo econométrico están
relacionadas linealmente entre sí. Este es un problema
complejo, porque en cualquier regresión las variables
explicativas van a presentar algún grado de correlación.
• Por ello, debemos distinguir entre:
multicolinealidad exacta (perfecta), y
multicolinealidad de grado (aproximada)
4
Colinealidad
• Matemáticamente, existe multicolinealidad cuando

tenemos problemas a la hora de invertir la matriz (XTX)
Si X T X  0 existe multicolinealidad exacta
Si X X  0
T
existe multicolinealidad de grado
• Si es exacta, se incumple uno de los supuestos de

partida del MLG:
H5. Independencia lineal entre las variables
explicativas
5
Colinealidad exacta
• La multicolinealidad exacta (perfecta): ocurre cuando

una variable explicativa es combinación lineal exacta de
todas las demás (o de algunas de ellas).
Ejemplo 1: yt  1   2 xt 2   3 xt 3   t con xt 2   xt 3
yt  1  (  2    3 ) xt 3   t yt  1   3* x3   t
con  3*   2    3
Ejemplo 2: Pi   0  1 K i   2 NOFi   3 NOTEi   4 NOTOi  ui

Pi : Producción total
con NOTOi = NOFi + NOTEi
Ki: Cantidad de capital
NOFi: número de obreros fijos
NOTEi: número obreros temporales
NOTOi: número total de obreros. 6
Colinealidad exacta
• En este caso, Rango (X) = Rango (XTX) < k+1, el determinante
de (XTX) es igual a cero y no se puede invertir la matriz (XTX)
• El sistema de ecuaciones normales tiene infinitas soluciones y

la matriz de varianzas y covarianzas del estimador MCO no
está definida.
• Situaciones más habituales en las que habría relaciones

lineales exactas:
– Metemos en el modelo la misma variable en distintas unidades
– Metemos en el modelo todas las categorías de una variable ficticia
– Metemos en el modelo una variable que no varía (constante)
• Fácil de detectar: no es posible estimar por MCO

– El software nos avisa de que no se puede estimar
• Fácil de resolver: eliminando algún regresor colineal con otro(s)
7
Colinealidad de grado
• La multicolinealidad de grado (aproximada): ocurre cuando
una variable explicativa es aproximadamente igual a una
combinación lineal de las restantes. Es decir, hay variables
explicativas altamente correlacionadas.
Ejemplo: yt  1   2 xt 2   3 xt 3   t con xt 2  xt 3   t
• En este caso, Rango (X) = Rango (XTX) = k+1, el determinante

de (XTX) es distinto de cero pero muy pequeño y se puede invertir
la matriz (XTX). El sistema de ecuaciones normales tiene una
única solución
-La solución del sistema de ecuaciones normales es poco precisa.
• No es fácil de detectar ni de solucionar. Una pista para detectar

este tipo de multicolinealidad es reconocer una serie de efectos
perniciosos que presenta sobre los resultados de la estimación
MCO. 8
Efectos de la colinealidad de grado
(1) Los estimadores presentan varianzas y covarianzas
grandes y seremos poco precisos en la estimación de su
efecto sobre la endógena
- Tenemos poca variabilidad “propia” de la variable para estimar su efecto
Las varianzas y covarianzas estimadas de los parámetros se

hacen muy grandes conforme aumenta el grado de
colinealidad.
T
Adj ( X X)
ˆ ˆ )  ˆ 2 ( X T X )1  ˆ 2
var(
XT X
al ser el determinante cercano a cero, esto infla las varianzas y

covarianzas de los parámetros estimados la precisión de la
estimación disminuye a medida que aumenta la colinealidad
9
2
var( ˆ j )  n
Más varianza del estimador
 (x
i 1
j  x j ) 2
(1  R 2
j)
quiere decir menor precisión
• R2j = R2 de la regresión de xj sobre las demás x (incluyendo un

término constante).
• Componentes de la varianza:
– Varianza del error (σ2): Cuanto mayor sea la variación en
los no observables que afectan a y, menos preciso será
– Variación muestral total en xj: cuanto más dispersas estén
las xj mayor precisión en la estimación de βj. Y aumenta al
aumentar la muestra!
– Relaciones lineales entre las variables independientes
(R2j ): Proporción de la varianza de xj explicada por el resto
de variables independientes
 Cuanto mayor sea, menos precisa será la estimación de10βj
(2) Los estadísticos t de significación individual ˆ j
estarán sesgados a la baja. Esto hará que t
tendamos a NO RECHAZAR la H0: βj = 0 más
var  
ˆ ˆ j
frecuentemente.
(3) El contraste de significación global de las

pendientes del modelo no se verá afectado. R2 k
F
La bondad del ajuste seguirá siendo parecida (1  R 2 ) n  k  1
ante la presencia de variables explicativas
superfluas.
De hecho, un síntoma claro de multicolinealidad de grado es

que los parámetros NO sean INDIVIDUALMENTE significativos,
pero SÍ lo sean de manera CONJUNTA. Esto es una contradicción
estadística, salvo que exista un problema en los datos.
11
(4) Otro síntoma de multicolinealidad de grado es que ligeros
cambios en la matriz de datos de X e Y (por ejemplo, añadiendo
o suprimiendo unas pocas observaciones) pueden llevar a
grandes cambios en los parámetros estimados.
- Esto nos puede llevar erróneamente a considerar la posibilidad de cambio
estructural, cuando en realidad se trata de otro problema.
12
• Los efectos de la multicolinealidad de grado serán parecidos
a los de disponer de una muestra pequeña
(micronumerosidad) o de una variable independiente que
varíe poco por sí misma (aún sin estar relacionada
linealmente con otras).
• El problema de la menor precisión de los estimadores (por

multicolinealidad, muestra pequeña o escasa variabilidad de
las variables independientes):
– Se debe a que no disponemos de suficiente información
(nuestra muestra no es lo bastante “rica”) para estimar
adecuadamente todos los parámetros.
• Que dos variables estén muy relacionadas linealmente NO

afecta a la precisión de la estimación del efecto de una
tercera variable
13
Detección de la colinealidad
(a) Métodos basados en la correlación entre variables explicativas
(a.1) Calcular la correlación lineal simple existente entre pares

de variables explicativas. Si hacemos esto para los k
regresores del modelo, obtenemos una matriz R con la
forma:
1 r12 . r1k 
r 1 . r2 k 
R   21
. . 1 . 
 
 rk 1 rk 2 . 1
• Si las correlaciones entre pares de variables explicativas son

elevadas (cercanas a uno en valor absoluto)  síntoma de
multicolinealidad. Sin embargo, estas correlaciones no captan
dependencias lineales más complejas entre las variables
explicativas. 14
(a.2) Calcular los llamados “factores de inflación de varianza” o
VIF para cada regresor j 1,…, k
1
VIFj 
 j
1  R 2
Donde R2j es el R2 de la regresión de cada variable explicativa j

sobre el resto de regresores del modelo.
 El mínimo valor del VIF es 1
 VIF superiores a 4 sugieren que puede haber colinealidad
(→Rj2 > 0.75, variación propia del regresor j <25%)
 VIF superiores a 10 indican alta multicolinealidad
(→Rj2 > 0.9, variación propia del regresor j <10%)
15
(b) Métodos basados en medir el tamaño de la matriz (XTX)
– Se podría calcular el valor numérico del determinante de

XTX. El problema es que este determinante depende de
las unidades de medida de las variables explicativas.
– Se podría usar la propiedad de que el determinante de

una matriz simétrica es igual al producto de sus
autovalores. Es decir, X T X  1  2  ...  k . Si alguno de
estos autovalores es cercano a cero, el determinante
también lo será. El problema es que los autovalores de
una matriz también dependen de las unidades de medida
de las variables explicativas.
16
(b) Métodos basados en medir el tamaño de la matriz (XTX)
– Para eliminar el problema de las unidades de medida, se

suele medir el tamaño relativo de los autovalores. En
concreto, se calcula el “número de condición” de la matriz
(XTX) como la raíz cuadrada del cociente entre el mayor y
el menor autovalor
max
 N º de condición
min
– Mayor número de condición implica mayor colinealidad
– Valores por encima de 20 ó 25 sugieren la presencia de
alta colinealidad
17
¿Qué hacer en presencia de colinealidad
de grado?
La solución pasa por incorporar nueva infomación, o bien,
simplificar o redefinir el modelo. Algunas soluciones pueden ser:
1) Aumentar el tamaño de la muestra
2) Suprimir variables
– Esta solución es tanto mejor cuanto mayor sea la correlación entre las
explicativas
– Problema: podemos causar sesgo por omisión de variable relevante.
3) Transformar variables
– Si la colinealidad se debe a que los regresores de un modelo comparten
una tendencia común en el tiempo.
18
Ejemplo: dataset hprice1.gdt (Wooldridge)
Descripción de los datos: 88 viviendas
- precio de la casa (price, en miles de dls)

- valor de tasación (assess, en miles de dls)
- nº de habitaciones (bdrms)
- tamaño de la parcela (lotsize, en pies cuadrados)
- tamaño de la casa (sqrft, en pies cuadrados)
- estilo de la casa (colonial)
Estimamos el precio de la casa en función de todos los

posibles determinantes
19
Modelo 1: MCO, usando las observaciones 1-88
Variable dependiente: price
Coeficiente Desv. Típica Estadístico t Valor p

const -40.4477 21.5942 -1.8731 0.06462 *
assess 0.904078 0.104268 8.6707 <0.00001 ***
bdrms 9.63026 6.91629 1.3924 0.16757
lotsize 0.000599268 0.000497077 1.2056 0.23145
sqrft 0.00107136 0.0171966 0.0623 0.95047
colonial 9.54757 10.6473 0.8967 0.37250
Media de la vble. dep. 293.5460 D.T. de la vble. dep. 102.7134

Suma de cuad. residuos 155242.4 D.T. de la regresión 43.51092
R-cuadrado 0.830864 R-cuadrado corregido 0.820551
F(5, 82) 80.56328 Valor p (de F) 3.59e-30
Log-verosimilitud -453.7845 Criterio de Akaike 919.5689
Criterio de Schwarz 934.4330 Crit. de Hannan-Quinn 925.5573
 ¿Quiere eso decir que el número de habitaciones, el tamaño de la casa,

el de la parcela o el estilo no afectan al precio?
 Puede ser que la información contenida en estas variables esté recogida,
total o parcialmente, en el valor de tasación
20
Detección: matriz de correlaciones (Ver / Matriz de correlación)
Coeficientes de correlación, usando las observaciones 1 - 88
valor crítico al 5% (a dos colas) = 0.2096 para n = 88
assess bdrms lotsize sqrft colonial El valor de tasación (assess) y el

1.0000 0.4825 0.3281 0.8656 0.0829 assess
1.0000 0.1363 0.5315 0.3046 bdrms
tamaño de la casa (sqrft)
1.0000 0.1838 0.0140 lotsize contienen información sobre el
1.0000 0.0654 sqrft resto de variables
1.0000 colonial
Detección: regresiones auxiliares

Variable dependiente: assess  Ajustando regresiones auxiliares
Coeficiente Desv. Típica Estadístico t Valor p entre las variables presuntamente
const 18,0528 22,646 0,7972 0,42762 colineales captamos relaciones de
bdrms 1,51982 7,27896 0,2088 0,83512
lotsize 0,00163323 0,000491614 3,3222 0,00133 ***
colinealidad más complejas.
sqrft 0,136234 0,0102035 13,3517 <0,00001 ***
colonial 4,61019 11,1972 0,4117 0,68160  Este modelo muestra que el valor
de tasación (asess) comparte
Media de la vble. dep. 315,7364 D.T. de la vble. dep. 95,31444
Suma de cuad. residuos 174138,7 D.T. de la regresión 45,80455 mucha información con el resto de
R-cuadrado 0,779678 R-cuadrado corregido 0,769060 variables, especialmente con
F(4, 83) 73,43017 Valor p (de F) 1,82e-26
Log-verosimilitud -458,8385 Criterio de Akaike 927,6770 “lotsize” y “sqrft””
Criterio de Schwarz 940,0637 Crit. de Hannan-Quinn 932,6673 21
Detección: Una idea para realizar sistemáticamente el análisis de regresiones auxiliares

consiste en calcular los “factores de inflación de varianza” (VIFs), que se obtienen a partir
del R2 de todas las regresiones auxiliares posibles
VIFs (luego de estimar, Contrastes / Colinealidad)
Factores de inflación de varianza (VIF)

Mínimo valor posible = 1.0
Valores mayores que 10.0 pueden indicar un problema de colinealidad
assess 4.539
bdrms 1.556
lotsize 1.175
sqrft 4.527
colonial 1.121
VIF(j) = 1/(1 - R(j)^2), donde R(j) es el coeficiente de correlación múltiple
entre la variable j y las demás variables independientes
Propiedades de la matriz X'X:

norma-1 = 1.8140033e+010
Determinante = 2.8519724e+027
Número de condición recíproca = 1.8419781e-010
El nº de condición de la matriz X'X es muy alto

22
• Solución 1: eliminar variables explicativas
Modelo 1 : price   0   1 assess   2 bdrms   3lotsize   4 sqrft   5 colonial  
Modelo 2 : price   0   1bdrms   2 lotsize   3 sqrft   4 colonial  
Modelo 3 : price   0   1 assess   2 bdrms  
Estimaciones de MCO
Variable dependiente: price  La colinealidad se debe a que la muestra no
contiene información suficiente para estimar con
(1) (2) (3)
un nivel satisfactorio de precisión todos los
const -40,45* -24,13 -39,70* parámetros que se han especificado
(21,59) (29,60) (21,32)
assess 0,9041** 0,9272**
(0,1043) (0,05564)  Las estrategias para resolver este problema se
bdrms 9,630 11,00 11,35*
basan en añadir información o en redefinir el
(6,916) (9,515) (6,303) modelo
lotsize 0,0005993 0,002076**
(0,0004971) (0,0006427)  La idea es que, si no tenemos suficiente
sqrft 0,001071 0,1242** información para estimar todos los parámetros
(0,01720) (0,01334) es razonable renunciar a algunos de ellos
colonial 9,548 13,72
(10,65) (14,64)  El inconveniente de esta solución es que se
n 88 88 88 pierde algo de ajuste.
R2 0,8206 0,6602 0,8221
23
corregido
4.2 Variables ficticias
¿Qué son y para qué sirven?
• Variables ficticias, binarias, dicotómicas, o dummies: son
variables discretas construidas por el investigador.
- Permiten clasificar a las observaciones de una muestra en
categorías exhaustivas y excluyentes relativas a una
característica.
- Suelen tomar el valor 1 (cuando la característica está presente)
ó 0 (cuando no lo está).
• Usos:
- Inclusión de información cualitativa al análisis de regresión
Ejemplos: el sexo de un individuo, nivel de estudios, el sector al que pertenece una
compañía, día de la semana, mes …
- División de la muestra en períodos (series de tiempo) o grupos

(sección cruzada) a fin de hacer contrastes de cambio estructural
25
Definición e interpretación
• Supongamos que queremos explicar las diferencias salariales
de un conjunto de individuos con diferentes niveles de estudios.
En un principio, definimos tantas ficticias como niveles de
estudio, es decir:
1 si el individuo tiene estudios primarios

Ei1   
 0 resto de los casos 
1 si el individuo tiene estudios secundarios
Ei 2   
1 si el individuo tiene estudios superiores
Ei3   
26
• Denotando por W al salario del individuo i-ésimo, una primera

especificación de esta función de salarios que sólo depende del
nivel de estudios es:
W i   1 E i1   2 E i 2   3 E i 3   i  i  1,2...N
• ¿Cómo se interpretan los coeficientes?

Como el salario
E (W i / E i 1  1, E i 2  0, E i 3  0 )   1 esperado (medio) de un
individuo con estudios
E (W i / E i 1  0 , E i 2  1, E i 3  0 )   2 primarios, con estudios
secundarios y con
E (W i / E i1  0, E i 2  0, E i 3  1)   3 estudios superiores,
respectivamente
27
 1 0 0 
 N 11 
• Matricialmente: X  0 1 0 
  N 21 
 0 0 1 
  N 31
• Donde Nj11 es un vector columna de “unos” de dimensión igual
al número de trabajadores con estudios de nivel j (Nj). Las
ecuaciones normales son:
 N1 0 0   ˆ   iE1 w 
  1 i
X T Xˆ  X T Y  X T Xˆ  X T W  0 N 2 0   ˆ   iE 2 w 
  2   i
0 0 N 3  ˆ 3   iE 3 wi 
 
Nj
 wi
• Por lo tanto ˆ j  i 1  w j es el salario medio en cada nivel de
Nj
estudios 28
• Atención con la trampa de las ficticias. Si la ecuación de
salarios incluye un término constante:
Wi   0  1Ei1   2 Ei 2   3 Ei 3   i  i  1,2...N
Tendremos un problema de multicolinealidad exacta puesto que
Ei1  Ei 2  Ei3  1, i y no podremos estimar.
• Solución: eliminar una de las variables ficticias (por ejemplo, la

primera). Como Ei1  1  Ei 2  Ei 3 i, el modelo sería:
Wi  1 (1  Ei 2  Ei 3 )   2 Ei 2   3 Ei 3   i  i  1,2...N
Wi  1  (  2  1 ) Ei 2  (  3  1 ) Ei 3   i
Wi  1   2 Ei 2   3 Ei 3   i
29
• ¿Cómo se interpretan ahora los coeficientes?
E Wi / Ei 2  0 , Ei 3  0   1 Salario esperado (medio) de un

individuo con estudios primarios
E Wi / Ei 2  1, Ei 3  0   1   2 (grupo base), con estudios
secundarios y con estudios
E Wi / Ei 2  0, Ei 3  1  1   3 superiores, respectivamente
• En la formulación que incluye término constante, los coeficientes

que acompañan a las dummies reflejan las diferencias en el
salario medio de un individuo que pertenece a determinada
categoría de estudios, respecto a uno con estudios primarios (la
categoría base)
 2   2  1
 3   3  1
30
• En general, si se quieren distinguir g grupos diferentes se
deben incluir g-1 variables ficticias en el modelo más un
término constante.
• El grupo omitido es el base o de referencia. Todas las
comparaciones se hacen respecto a ese grupo.
• El valor del intercepto del modelo representa el valor medio de
la variable dependiente para la categoría de base.
• Los coeficientes asociados a las variables dummies se
conocen como coeficientes de intercepto diferencial, ya que
indican la diferencia estimada entre el intercepto de ese grupo
y el del grupo de comparación.
• Excluir el término constante no suele ser aconsejable ya que
algunos paquetes de regresión cambian la forma de calcular el
R2 en regresiones sin término constante.
31
Ejemplo: dataset beauty.gdt (Wooldridge)
Vamos a ilustrar estas ideas

usando el dataset beauty.gdt
(en Gretl ir a Archivo/datos de
muestra/ Wooldridge).
La base recoge el salario por

hora en dólares de 1260
trabajadores y sus
determinantes potenciales
(educación, experiencia,
pertenencia a un sindicato, a un
sector de actividad, etc.).
32
Ejemplo: uso de variables ficticias
Vamos a especificar dos modelos Modelo 1 Wi   0 malei  1 femalei   i
diferentes pero equivalentes para Model 1: OLS, using observations 1-1260
analizar el salario medio de hombres y Dependent variable: wage
mujeres. coefficient std. error t-ratio p-value

---------------------------------------------------------
male 7.36882 0.154242 47.77 6.20e-285 ***
female 4.29936 0.212042 20.28 2.57e-079 ***
El Modelo 1 implica que el salario medio Mean dependent var 6.306690 S.D. dependent var 4.660639
de un hombre (male = 1 y female = 0) en Sum squared resid
R-squared
24661.05
0.098232
S.E. of regression
Adjusted R-squared
4.427570
0.097515
esta muestra es de 7.37 $/hora. Sin F(1, 1258)
Log-likelihood
137.0369
-3661.554
P-value(F)
Akaike criterion
4.05e-30
7327.108
embargo, el salario medio de una mujer Schwarz criterion 7337.386 Hannan-Quinn 7330.970
(male = 0 y female = 1) es sólo de 4.30

$/hora
Modelo 2 Wi   0   0 female i  i
El Modelo 2 es equivalente al Modelo 1, Model 2: OLS, using observations 1-1260
Dependent variable: wage
al incluir término constante y eliminar coefficient std. error t-ratio p-value
una de las variables ficticias (male). ---------------------------------------------------------

const 7.36882 0.154242 47.77 6.20e-285 ***
En este modelo, un hombre (female = 0) female -3.06947 0.262207 -11.71 4.05e-030 ***
gana en media 7.37 $/hora y una mujer Mean dependent var

Sum squared resid
6.306690
24661.05
S.D. dependent var
S.E. of regression
4.660639
4.427570
(female = 1) gana 7.37 -3.07 = 4.30 R-squared

F(1, 1258)
0.098232
137.0369
Adjusted R-squared
P-value(F)
0.097515
4.05e-30
$/hora. Log-likelihood
Schwarz criterion
-3661.554
7337.386
Akaike criterion
Hannan-Quinn
7327.108
7330.970
33
La interpretación del coeficiente de female depende de la formulación del

modelo, pero las implicaciones de ambos modelos son coherentes.
Si el modelo incluye un término

constante y las dos ficticias Model 3: OLS, using observations 1-1260
excluyentes (male y female), Dependent variable: wage

Omitted due to exact collinearity: female
generamos multicolinealidad coefficient std. error t-ratio p-value
exacta. ---------------------------------------------------------
const 4.29936 0.212042 20.28 2.57e-079 ***
male 3.06947 0.262207 11.71 4.05e-030 ***
La solución es eliminar una de Mean dependent var

Sum squared resid
6.306690
24661.05
S.D. dependent var
S.E. of regression
4.660639
4.427570
ellas. Gretl da un mensaje R-squared

F(1, 1258)
0.098232
137.0369
Adjusted R-squared
P-value(F)
0.097515
4.05e-30
advirtiendo del problema y Log-likelihood

Schwarz criterion
-3661.554
7337.386
Akaike criterion
Hannan-Quinn
7327.108
7330.970
elimina una de ellas.
34
Incluyamos ahora un regresor Wi   0   0 female i  1 exp eri   i
continuo en la ecuación del salario, la Modelo 4: MCO, usando las observaciones 1-1260
experiencia (exper). El coeficiente Variable dependiente: wage
que acompaña a female es la Coeficiente Desv. Típica Estadístico t Valor p

-----------------------------------------------------------------
diferencia, en promedio, entre el const

female
6,04142
-2,66423
0,264137
0,266736
22,87
-9,988
4,35e-097 ***
1,17e-022 ***
salario de una mujer y de un hombre, exper 0,0652070 0,0106104 6,146 1,07e-09 ***
para un nivel dado de experiencia (la Media de la vble. dep. 6,306690

Suma de cuad. residuos 23941,70
D.T. de la vble. dep.
D.T. de la regresión
4,660639
4,364252
mujer gana 2,6 $/hora menos). R-cuadrado

F(2, 1257)
0,124536
89,40508
R-cuadrado corregido
Valor p (de F)
0,123143
4,97e-37
Log-verosimilitud -3642,904 Criterio de Akaike 7291,808
Criterio de Schwarz 7307,224 Crit. de Hannan-Quinn 7297,601
Gráficamente, esta situación se

puede interpretar como un cambio
en el término constante entre hombres:
W
Wi  0  1 experi
hombres y mujeres, que no depende Pendiente = 1
del nivel de experiencia.
 0 es el término constante para los 0
hombres (grupo base) y  0 es la
mujeres:
diferencia en el término constante 0  0 Wi  ( 0  0 )  1 exp eri
para las mujeres respecto de los
hombres (  0  0 en el ejemplo) exper
35
Interpretación de las ficticias con log(y)
• Si la variable dependiente en un modelo es log(y), el coeficiente
de una variable ficticia, multiplicado por 100, se interpreta como
la diferencia porcentual en y, manteniendo todo lo demás igual
• Ejemplo:
Log(salario estimado) = 0.417 - 0.297mujer + 0.029 exper
– Aproximación:
• Δ%y ≈ 100 Δlog(y), es decir, Δ%y ≈ 100*β1 ,
• Es decir, el salario de la mujer es, aproximadamente, un
29,7% inferior al del grupo de referencia (hombre), ceteris
paribus
• Esta aproximación funciona mejor cuanto menor es el
coeficiente
• El cambio porcentual exacto sería:
% y   exp(0.297)  1 *100  25.7%
36
Demostración
ˆ yh )  ˆ1 ; Tomamos la exponencial:

ˆ ym )  log(
log(
exp  log( m
ˆ y )  exp( ˆ ); Por propiedades de la exponencial:
ˆ y )  log( h 1
exp  log(
ˆ ym ) 
 exp( ˆ1 )
exp  log(
ˆ yh ) 
ym
 exp( ˆ1 )
yh
ym
 1  exp( ˆ1 )  1
yh
 % y  exp( ˆ1 )  1 *100
37
¿Cómo permitir pendientes distintas?
Las interacciones entre variables ficticias y no ficticias permiten que existan
diferencias de pendientes entre grupos. Por ejemplo, permitimos que el efecto
de la experiencia sobre el salario sea distinto para hombre y mujeres. Para ello,
es necesario definir una nueva variable semi-continua: exper*female.
Wi   0   0 femalei  1 exp eri  1 exp eri  femalei   i

Variable dependiente: wage Este modelo implica que, ceteris
Coeficiente Desv. Típica Estadístico t Valor p paribus, 1 año adicional de
-----------------------------------------------------------------
const 5,78596 0,296010 19,55 1,71e-074 *** experiencia aumenta el salario
female -1,94974 0,460222 -4,237 2,44e-05 ***
exper 0,0777560 0,0124812 6,230 6,36e-010 *** en 0.078 $/hora si female=0
experfem -0,0450076 0,0236372 -1,904 0,0571 *

Suma de cuad. residuos 23872,78 D.T. de la regresión 4,359701 No obstante, si eres mujer
R-cuadrado 0,127056 R-cuadrado corregido 0,124971
F(3, 1256) 60,93642 Valor p (de F) 8,82e-37 (female=1), el efecto neto de un
Criterio de Schwarz 7310,731 Crit. de Hannan-Quinn 7297,900 año más de experiencia es
menor: 0.078 - 0.045 = 0.033
Hombres : Wˆi  5.78  0.078 exp eri $/hora
Mujeres : Wˆ  5.78  1.95   (0.078  0.045 ) exp er
i i
Wˆi  3.83  0.033 exp eri

38
¿Cómo permitir pendientes distintas?
Ya vimos que  0 mide la diferencia entre los términos constantes entre hombre y
mujeres; ahora  1 mide la diferencia en la rentabilidad de la experiencia entre
hombres y mujeres. Gráficamente:
En nuestro ejemplo  0  0 y 1  0
Wi   0   0 femalei  1 exp eri  1 exp eri  femalei   i Por lo tanto, el término
constante es menor para las
mujeres y la pendiente en
hombres:
función de la experiencia
Wi  0  1 experi Pendiente = 1
también es menor.
W
Esto significa que las mujeres

ganan menos que los hombres
0
en todos los niveles de
experiencia y que la brecha
0  0 Pendiente = 1 1
mujeres: salarial se hace más grande a
Wi  ( 0  0 )  ( 1  1 ) exp eri medida que aumenta la
exper experiencia.
39
Ejemplo con α0 > 0 y α 1 < 0
• Sea una variable binaria, D, y una continua, x:
y   0   0 D  1 x   1 D  x  
y
Si D  0
y   0  1 x  
Si D  1
y  (  0   0 )  ( 1   1 ) x  
x
40
Contraste de cambio estructural
En general, existe un cambio estructural en un modelo de regresión
cuando sus parámetros no son constantes a lo largo de toda la muestra.
¿Qué puede provocar esta inestabilidad paramétrica?
• En los datos de series temporales, algún suceso ocurrido en el

período muestral puede hacer cambiar la relación entre la endógena y
las variables explicativas, generando así cambios en los coeficientes
del modelo
- Ej: la irrupción de una crisis si estamos estimando la función consumo; la implantación de una
normativa disuasoria del consumo del tabaco si estamos estimando un modelo de demanda de
dicho producto.
• En los datos de corte transversal, se puede pensar que existen

grupos claramente diferenciados dentro de la muestra, y que por lo
tanto, los coeficientes del modelo serán diferentes entre ellos
- Ej: diferencias entre hombres y mujeres si estimamos un modelo de salarios, diferencias entre
empresas exportadoras y no exportadoras si estimamos un modelo de financiación de empresas
industriales
41
Test de estabilidad estructural de Chow
Supongamos estamos estimando el consumo agregado en función de la
renta usando datos de series temporales. Sospechamos que puede
haber un shock en el momento T1 que provoque un cambio en todos los
coeficientes del modelo (consumo autónomo y PMC).
• El modelo restringido, MR, estima los coeficientes utilizando toda la

muestra:
Ct   0  1 PIBt   t t  1,2,..., T1 , T1  1,..., N
Al estimar obtendremos la suma de cuadrados de residuos (SCRR)
• El modelo no restringido o libre, ML, estima dos modelos por
separado, uno para cada submuestra, permitiendo que los
coeficientes sean diferentes:
 12
Ct   01  11PIBt   t t  1,2 ,...,T1
 11
Ct     PIBt   t t  T1  1,..., N
2
0 1
2
 01
 02
Al estimar obtendremos la suma de cuadrados de
residuos para cada regresión: SCRL1 y SCRL2
42
Test de estabilidad estructural de Chow
• La hipótesis nula consiste en la igualdad de cada uno de los
coeficientes i en las dos submuestras (ausencia de cambio estructural
u homogeneidad paramétrica entre submuestras):
H0: 10= 20 ; 11= 21 H1: 10  20 ; 11  21
El estadístico de contraste se calcula como:
SCRR  SCRL1  SCRL 2  / k  1

F  Fk 1,n2 ( k 1)
SCRL1  SCRL 2 / n  2(k  1)
• Donde n-2(k+1) son los grados de libertad del modelo no restringido o

libre (en el ejemplo, n-4) y k+1 es el número de restricciones en la
hipótesis nula (en el ejemplo, 2). Este caso particular del estadístico F,
se conoce como estadístico de Chow
• Si se rechaza la nula, decimos que ha habido un cambio estructural
que provoca variaciones significativas en los parámetros en la función
consumo. 43
Uso de variables ficticias para contrastar
cambio estructural
• Alternativamente, podemos contrastar la existencia de cambio
estructural en un modelo de regresión utilizando variables ficticias. Si
nuestro modelo es:
Ct   0  1 PIBt   t t  1,2,..., N
• Estimamos el modelo:
Ct   0   0 Dt  1 PIBt  1 Dt PIBt    t t  1,2,..., N
• Donde la variable ficticia Dt discrimina entre las dos sub-muestras:
1 si t  T1  Ct   0   0   1  1 PIBt   t
Dt  
0 si t  T1  Ct   0  1 PIBt   t
• El contraste de cambio estructural global (en el consumo autónomo y

la PMC) en el modelo se reduce a contrastar la hipótesis nula:
H0: α0= 0; α1 = 0 H1: α0  0; α1  0
Si se rechaza la nula, decimos que ha habido un cambio
44
estructural global en la función de consumo.
Ejemplo: ¿difiere el modelo de salarios entre
hombres y mujeres?
• Utilizando variables ficticias
Wi   0  1 exp eri   2educ   i Wi   0   0 femalei  1 exp eri  1 exp eri  femalei 

  2educ   2educi  femalei   i
Model 6: OLS, using observations 1-1260 Model 7: OLS, using observations 1-1260
Dependent variable: wage Dependent variable: wage
coefficient std. error t-ratio p-value coefficient std. error t-ratio p-value
--------------------------------------------------------- ---------------------------------------------------------
const -1.62488 0.673703 -2.412 0.0160 ** const -0.920837 0.813507 -1.132 0.2579
exper 0.110644 0.0104735 10.56 4.73e-025 *** exper 0.102006 0.0123301 8.273 3.30e-016 ***
educ 0.470979 0.0477427 9.865 3.68e-022 *** educ 0.495225 0.0562609 8.802 4.36e-018 ***
female -0.219410 1.35928 -0.1614 0.8718
Mean dependent var 6.306690 S.D. dependent var 4.660639 femexp -0.0587202 0.0230312 -2.550 0.0109 **
Sum squared resid 23984.98 S.E. of regression 4.368195 femeduc -0.111982 0.0975468 -1.148 0.2512
R-squared 0.122953 Adjusted R-squared 0.121558
F(2, 1257) 88.10955 P-value(F) 1.55e-36 Mean dependent var 6.306690 S.D. dependent var 4.660639
Log-likelihood -3644.042 Akaike criterion 7294.083 Sum squared resid 22099.70 S.E. of regression 4.198019
Schwarz criterion 7309.500 Hannan-Quinn 7299.877 R-squared 0.191891 Adjusted R-squared 0.188669
F(5, 1254) 59.55431 P-value(F) 9.68e-56
Log-likelihood -3592.468 Akaike criterion 7196.935
Schwarz criterion 7227.768 Hannan-Quinn 7208.522
H 0 :  0  0; 1  0; 2  0
F
RL2  RR2  / 3 Rechazamos la nula  los
1  RL2  / 1254  35.64 modelos de salarios son diferentes
p  valor  prob( F3,1254  35.65 )  0.000
entre hombres y mujeres
45
Ejemplo: ¿difiere el modelo de salarios entre
hombres y mujeres?
• Usando el estadístico de Chow
Wi   0  1 exp eri   2educ   i Wi F   0F  1F exp eri   2F educ   iF
Model 6: OLS, using observations 1-1260 Modelo 8: MCO, usando las observaciones 1-436 female=1
Dependent variable: wage Variable dependiente: wage
coefficient std. error t-ratio p-value Coeficiente Desv. Típica Estadístico t Valor p
--------------------------------------------------------- ----------------------------------------------------------------
const -1.62488 0.673703 -2.412 0.0160 ** const -1,14025 1,03136 -1,106 0,2695
exper 0.110644 0.0104735 10.56 4.73e-025 *** exper 0,0432856 0,0184235 2,349 0,0192 **
educ 0.470979 0.0477427 9.865 3.68e-022 *** educ 0,383243 0,0754715 5,078 5,68e-07 ***
Mean dependent var 6.306690 S.D. dependent var 4.660639 Media de la vble. dep. 4,299358 D.T. de la vble. dep. 4,097392
Sum squared resid 23984.98 S.E. of regression 4.368195 Suma de cuad. residuos 6844,840 D.T. de la regresión 3,975921
R-squared 0.122953 Adjusted R-squared 0.121558 R-cuadrado 0,062742 R-cuadrado corregido 0,058413
F(2, 1257) 88.10955 P-value(F) 1.55e-36 F(2, 433) 14,49303 Valor p (de F) 8,08e-07
Log-likelihood -3644.042 Akaike criterion 7294.083 Log-verosimilitud -1218,944 Criterio de Akaike 2443,888
Schwarz criterion 7309.500 Hannan-Quinn 7299.877 Criterio de Schwarz 2456,120 Crit. de Hannan-Quinn 2448,715
H 0 :  0F   0M ; 1F  1M ;  2F   2M Wi M   0M  1M exp eri   2M educ   iM
SCRR  ( SCRL1  SCRL 2 )  / 3  35.65 female=0

Variable dependiente: wage
F
( SCRL1  SCRL 2 ) / 1254
-----------------------------------------------------------------
const -0,920837 0,835313 -1,102 0,2706
p  valor  prob( F3,1254  35.65)  0.000 exper

educ
0,102006
0,495225
0,0126606
0,0577690
8,057
8,572
2,75e-015 ***
4,99e-017 ***

Rechazamos la nula  salvo por errores de Suma de cuad. residuos 15254,86 D.T. de la regresión 4,310549
redondeo es idéntico al contraste basado en F(2, 821) 56,59437 Valor p (de F) 9,43e-24
el R2 de los modelos con y sin términos de Criterio de Schwarz 4763,383 Crit. de Hannan-Quinn 4754,666
46
interacción
Un resumen
• Las variables ficticias permiten introducir información cualitativa en
el análisis de regresión y estudiar potenciales diferencias entre
grupos o períodos dentro de una muestra
• Todas las estimaciones de los coeficientes de las variables ficticias

se interpretan en relación con el grupo base (para el cual no se
incluye dummy en el modelo)
• Las variables ficticias se pueden combinar con las cuantitativas

para formar términos de interacción que permiten la existencia de
diferentes pendientes entre los grupos
• El contraste de Chow permite detectar si hay algún tipo de

diferencias entre los grupos dentro del modelo. También se pueden
detectar usando variables ficticias.
47
4.3 Introducción de términos
polinómicos en el modelo
Mala especificación funcional
Dentro de los problemas de especificación de un modelo de
regresión encontramos el de mala especificación de la relación
funcional cuando proponemos una relación inadecuada entre
la variable dependiente y las explicativas.
Puede deberse a:
• La omisión de funciones de las variables independientes
- Ej: Si el salario hora viene dado por: log(wage)=β0+ β1educ+ β2exper+ β3exper2+u
…y omitimos exper2, entonces β0, β1, β2 estarán sesgados. El verdadero efecto de la
experiencia es (β2+ 2β3exper), no el β2 sesgado.
• La omisión de términos de interacción entre variables

independientes
- Ej: si omitimos exper*female en la ecuación de salarios, cuando importa
• El uso de variables en nivel cuando es más apropiado el

logaritmo
-Ej: si usamos wage en lugar de log(wage) 49
Mala especificación funcional
• Una herramienta para detectar la mala especificación funcional
es el estadístico F de restricciones de exclusión conjunta:
 añadimos términos cuadráticos (y términos de interacción)
de las variables explicativas del modelo y contrastamos su
significatividad conjunta.
• Sin embargo, si hay muchos regresores en el modelo,

podemos tener problemas de grados de libertad insuficientes.
• Podemos usar el contraste RESET (Regression specification

error test) de Ramsey como contraste general de mala
especificación funcional
50
Contraste RESET
• En lugar de añadir directamente al modelo funciones de las x´s,
añadimos y contrastamos la inclusión de polinomios de los
valores ajustados por MCO (es decir, funciones de ŷ)
• Si el modelo original (restringido) es:

y =  0  1 x1 + 2 x2 +...+ k xk + u
Lo estimamos por MCO y nos quedamos con la variable ŷ
y con la suma residual SCRR
• Estimamos la regresión auxiliar (ampliada):

y   0  1 x1  ...   k xk  d 1 yˆ 2  d 2 yˆ 3  ...  d q yˆ q  u
• Nos quedamos con la suma residual SCRL y construimos un
estadístico F de sumas residuales para contrastar si la
especificación es correcta: SCRR  SCRL  / q
H0: d1 = 0, d2 = 0; …; dq = 0 F  Fq ,nk q 1
SCRL / n  k  q  1 51
Ejemplo: contraste RESET
Continuamos trabajando con el dataset beauty.gdt (Wooldridge). Regresamos los
salarios sobre todas las variables explicativas excepto “looks”

-----------------------------------------------------------------
const -0,944681 0,853953 -1,106 0,2688
belavg -0,773514 0,369733 -2,092 0,0366 **
abvavg 0,172261 0,267684 0,6435 0,5200
exper 0,0776535 0,0106804 7,271 6,30e-013 ***
union 0,585648 0,267916 2,186 0,0290 **
goodhlth -0,0224538 0,475927 -0,04718 0,9624
black -0,134521 0,461914 -0,2912 0,7709
female -2,12282 0,276517 -7,677 3,28e-014 ***
married 0,809871 0,274540 2,950 0,0032 ***
south 0,375755 0,312114 1,204 0,2289
bigcity 1,70265 0,336678 5,057 4,89e-07 ***
smllcity 0,559318 0,274449 2,038 0,0418 **
service -0,475618 0,288366 -1,649 0,0993 *
educ 0,426410 0,0500689 8,516 4,67e-017 ***

Suma de cuad. residuos 21333,38 D.T. de la regresión 4,137813
F(13, 1246) 27,01983 Valor p (de F) 1,33e-58
• ¿Cómo saber si la especificación funcional es correcta?

• Alternativa1: Generar cuadrados de las variables e introducirlos
52
• Alternativa2: Guardar valores estimados, generar sus cuadrados e introducirlos
Alternativa 1
• Añadir/Cuadrados de las variables seleccionadas (educ y exper)

-----------------------------------------------------------------
const 1,72076 1,69456 1,015 0,3101
belavg -0,848700 0,366852 -2,313 0,0209 **
abvavg 0,169241 0,265271 0,6380 0,5236
exper 0,241191 0,0389939 6,185 8,39e-010 ***
union 0,508510 0,265882 1,913 0,0560 *
goodhlth -0,00326653 0,472386 -0,006915 0,9945
black -0,0798286 0,458365 -0,1742 0,8618
female -2,07418 0,274637 -7,552 8,24e-014 ***
married 0,646110 0,276127 2,340 0,0194 **
south 0,396681 0,309233 1,283 0,1998
bigcity 1,79496 0,334177 5,371 9,32e-08 ***
smllcity 0,631426 0,272983 2,313 0,0209 **
service -0,678060 0,292769 -2,316 0,0207 **
educ -0,189374 0,260250 -0,7277 0,4670
sq_educ 0,0244134 0,0106126 2,300 0,0216 **
sq_exper -0,00384513 0,000863438 -4,453 9,22e-06 ***

F(15, 1244) 25,57108 Valor p (de F) 1,74e-62
• El estadístico F de significación conjunta de sq_educ y sq_exper es F(2, 1244) =

12,8216 con valor-p=3,079e-006
• Se rechaza que el modelo lineal esté bien especificado 53
Alternativa2
• Guardar/Valores estimados (en Modelo 1)
• Añadir/Cuadrados de las variables seleccionadas

---------------------------------------------------------------
const 1,88991 1,25204 1,509 0,1314
belavg -0,225662 0,408993 -0,5517 0,5812
abvavg 0,0551434 0,269457 0,2046 0,8379
exper 0,0143565 0,0231043 0,6214 0,5345
union 0,182503 0,297236 0,6140 0,5393
goodhlth 0,0154510 0,474465 0,03257 0,9740
black -0,0400140 0,461358 -0,08673 0,9309
female -0,638576 0,554221 -1,152 0,2495
married 0,212368 0,335158 0,6336 0,5264
south 0,0660106 0,326837 0,2020 0,8400
bigcity 0,293627 0,566531 0,5183 0,6043
smllcity 0,171609 0,300977 0,5702 0,5687
service -0,155734 0,305499 -0,5098 0,6103
educ 0,105918 0,115198 0,9194 0,3580
sq_yhat1 0,0614049 0,0198934 3,087 0,0021 ***

F(14, 1245) 25,94211 Valor p (de F) 7,20e-60
• Al ser un único parámetro, podemos utilizar el estadístico t

• Si incluyésemos el cubo habría que utilizar el estadístico F
• También nos dice que el modelo lineal está mal especificado 54
Contraste RESET
• Rechazar H0 sugiere un problema de especificación funcional
• El orden de no linealidades de los valores ajustados que se

incluyen en la regresión auxiliar lo decide el investigador.
En general, los términos al cuadrado y al cubo suelen ser
suficientes.
• Problema: los contrastes RESET no son informativos. Es

decir, cuando se rechaza la hipótesis nula, no sabemos cuál
es el modelo alternativo más adecuado en relación al inicial
• A veces, el modelo no lineal alternativo surge del sentido

económico del modelo o del sentido común
(Ej: efectos de la educación y la experiencia sobre el salario)
55
Introducción de términos polinómicos
 Por ejemplo, si en una función de salarios, pensamos que a partir
de un determinado nº de años de experiencia, el salario ya no crece
más (llega a un punto máximo), podemos modelizar este hecho
como:
Wi  1   2 EXPi   3 EXPi  ui
2
Wi
donde:   2  2 3 EXPi
EXPi
 O bien, cuando pensamos que el efecto marginal que tiene la

educación sobre el salario depende también de la experiencia de la
persona, podemos modelizar como:
Wi  1   2 EXPi   3 EDUCi   4 EDUCi  EXPi  ui
Wi
donde:   3   4 EXPi
EDUCi
y el regresor EDUCi  EXPi se llama término de interacción. 56

Tema 4

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Tema 4

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 4

Cargado por

Copyright:

Formatos disponibles

Tema 4.

4.2 Variables ficticias

4.3 Introducción de términos polinómicos en el modelo.

• La multicolinealidad surge cuando las variables

• Por ello, debemos distinguir entre:

multicolinealidad exacta (perfecta), y

multicolinealidad de grado (aproximada)

• Matemáticamente, existe multicolinealidad cuando

Si X T X  0 existe multicolinealidad exacta

• Si es exacta, se incumple uno de los supuestos de

• La multicolinealidad exacta (perfecta): ocurre cuando

Ejemplo 2: Pi   0  1 K i   2 NOFi   3 NOTEi   4 NOTOi  ui

• El sistema de ecuaciones normales tiene infinitas soluciones y

• Situaciones más habituales en las que habría relaciones

• Fácil de detectar: no es posible estimar por MCO

Ejemplo: yt  1   2 xt 2   3 xt 3   t con xt 2  xt 3   t

• En este caso, Rango (X) = Rango (XTX) = k+1, el determinante

• No es fácil de detectar ni de solucionar. Una pista para detectar

Las varianzas y covarianzas estimadas de los parámetros se

al ser el determinante cercano a cero, esto infla las varianzas y

• R2j = R2 de la regresión de xj sobre las demás x (incluyendo un

(3) El contraste de significación global de las

De hecho, un síntoma claro de multicolinealidad de grado es

• El problema de la menor precisión de los estimadores (por

• Que dos variables estén muy relacionadas linealmente NO

(a.1) Calcular la correlación lineal simple existente entre pares

• Si las correlaciones entre pares de variables explicativas son

Donde R2j es el R2 de la regresión de cada variable explicativa j

– Se podría calcular el valor numérico del determinante de

– Se podría usar la propiedad de que el determinante de

– Para eliminar el problema de las unidades de medida, se

1) Aumentar el tamaño de la muestra

Descripción de los datos: 88 viviendas

- precio de la casa (price, en miles de dls)

Estimamos el precio de la casa en función de todos los

Coeficiente Desv. Típica Estadístico t Valor p

Media de la vble. dep. 293.5460 D.T. de la vble. dep. 102.7134

 ¿Quiere eso decir que el número de habitaciones, el tamaño de la casa,

assess bdrms lotsize sqrft colonial El valor de tasación (assess) y el

Detección: regresiones auxiliares

Detección: Una idea para realizar sistemáticamente el análisis de regresiones auxiliares

VIFs (luego de estimar, Contrastes / Colinealidad)

Factores de inflación de varianza (VIF)

Propiedades de la matriz X'X:

El nº de condición de la matriz X'X es muy alto

- División de la muestra en períodos (series de tiempo) o grupos

1 si el individuo tiene estudios primarios

• Denotando por W al salario del individuo i-ésimo, una primera

• ¿Cómo se interpretan los coeficientes?

• Solución: eliminar una de las variables ficticias (por ejemplo, la

E Wi / Ei 2  0 , Ei 3  0   1 Salario esperado (medio) de un

• En la formulación que incluye término constante, los coeficientes

Vamos a ilustrar estas ideas

La base recoge el salario por

mujeres. coefficient std. error t-ratio p-value

(male = 0 y female = 1) es sólo de 4.30

al incluir término constante y eliminar coefficient std. error t-ratio p-value

una de las variables ficticias (male). ---------------------------------------------------------

gana en media 7.37 $/hora y una mujer Mean dependent var