Pichihua 2003 - Econometría - Teoría y Aplicaciones

UNIVERSIDAD NACIONAL AGRARIA LA
MOLINA
FACULTAD DE ECONOMIA Y PLANIFICACIÓN
ECONOMETRIA:
TEORIA Y APLICACIONES
RELACIÓN CRECIMIENTO Y EMPLEO

4
TASA DE CRECIMIENTO DEL EMPLEO (%)
0
0 1 2 3 4 5 6 7 8
-1
-2
TASA DE CRECIMIENTO DEL PBI (%)
Econ. Juan Pichihua Serna, M.A.

Profesor Principal del Departamento Académico de Economía y Planificación
Sobre el Autor:
Zósimo Juan Pichihua Serna. Economista experto en Políticas Sociales y Modelación

Econométrica, es Profesor Principal del Departamento Académico de Economía y
Planificación de la Universidad Nacional Agraria La Molina – UNALM, carrera
docente que inició en Abril de 1982. En 1996, obtuvo el grado de Master of Arts en
Economía de la Universidad de Georgetown, optando como área mayor la especialidad
de “Políticas Sociales”. También, obtuvo el grado de Magíster Scientiae en Economía
Agrícola de la UNALM en 1985, y ha seguido estudios complementarios de
especialización en métodos cuantitativos para el análisis de políticas agrarias en la
Universidad del Estado de Iowa-ISU en1990.
El Profesor Pichihua ha sido consultor en la Dirección General de Asuntos Económicos

del Ministerio de Economía y Finanzas entre1988-1889 y 1999-2000 desarrollando
modelos macroeconométricos de equilibrio general para análisis de corto plazo y para el
pronóstico de largo plazo de los agregados económicos y sectoriales. Como Consultor
experto en Políticas Sociales, ha participado en el diseño, implementación y conducción
del Seguro Materno Infantil entre 1998 y el 2001; en el diseño e implementación del
Seguro Integral de Salud entre el 2001 y el 2002, ambos en el Ministerio de Salud, y en
la evaluación de la Etapa I del Programa “A Trabajar-Rural” del FONCODES (2002).
En 1994 el Profesor Pichihua ha recibido el “Premio Nacional a la Investigación

Socioeconómica” que otorga la Fundación Bustamante de la Puente con el trabajo de
“Transparencia en la Información y la Comercialización de Alimentos en el Perú”,
trabajo en el que participara como líder de un equipo de profesores del Departamento
Académico de Economía y Planificación de la UNALM.
El Profesor Pichihua puede ser contactado al E-mail: jpichihua@lamolina.edu.pe

A mis hijos Juan Diego, Laura y Sofía
A mi esposa Any por su

comprensión y aliento
para seguir avanzando
Econometría: Teoría y Aplicaciones Juan Pichihua Serna
INDICE
Prólogo ii
Introducción iii
Capítulo I: Econometría Campo y Usos
1.1 Definición y campo de la econometría 2
1.2 Etapas de la Construcción de un Modelo Econométrico 5
1.3 Usos de los Modelos Econométricos 9
1.4 Los Modelos Econométricos y sus Elementos 10
1.5 Los Modelos Econométricos y sus Problemas 12
1.6 Regresión y Causalidad 13
Capítulo 2: Modelo de Regresión Lineal Simple
2.1 Especificación 16
2.2 Estimación por Mínimos Cuadrados Ordinarios 20
2.3 Validación 32
2.4 Estimación por Máxima Verosimilitud 44
2.5 Especificaciones No Lineales del Modelo de Regresión 50
2.6 Experimentos de Monte Carlo y Bootstrap 53
2.7 Aplicaciones y Problemas 58
Capítulo 3: Modelo de Regresión Lineal General
3.2 Supuestos en el Modelo de Regresión Clásico: 69
3.3 Problemas Frente a los Supuestos del Modelo de Regresión Clásico 69
3.4 Estimación por Mínimos Cuadrados Ordinarios (MCO) 71
3.5 Estimación por Máxima Verosimilitud (MV) 80
3.6 Estimación por Mínimos Cuadrados Restringidos (MCR) 86
3.7 Pruebas de Hipótesis 92
3.8 Variables Dummy 109
Capítulo 4: Violación de los Supuestos del Modelo de Regresión Clásico
4.1 Revisión de los Supuestos del Modelo de Regresión Clásico 129
4.2 Sesgo de Especificación 130
4.3 No Normalidad de los Errores 137
4.4 Errores con Media Diferente de Cero 138
4.5 Errores No Esféricos 139
4.6 Heterocedasticidad 145
4.7 Autocorrelación 158
4.8 Multicolinealidad 177
4.9 Problemas de Endogeneidad en las Variables Explicativas 194
4.10Aplicaciones y Problemas 203
Capítulo 5: Modelos Lineales Multiecuacionales
5.2 Tipos de Modelos Multiecuacionales 217
5.3 Modelo de Ecuaciones Recursivas (MER) 217
5.4 Modelo de Ecuaciones Aparentemente No Relacionadas (MEANR) 219
5.5 Modelo de Ecuaciones Simultáneas (MES) 223
5.6 Estimación de Modelos de Ecuaciones Simultáneas 239
5.7 Uso de los Modelos de Ecuaciones Simultáneas 257
Bibliografía 271
i
PROLOGO
Quisiera decir al lector de este libro, lo que a mi entender, es su principal interés.

Tenemos a nuestra disposición muchos buenos libros que tratan de la econometría.
Podríamos preguntarnos ¿para qué otro libro sobre el tema?. Podemos constatar que la
aplicación de los métodos estadísticos a los problemas económicos es también una
cuestión de lenguaje y contenido. Muchas veces nos avocamos a enseñar sin buscar una
relación pedagógica, y así proporcionamos conocimientos y dejamos que nuestros
estudiantes tiendan el puente entre la teoría y la realidad.
Sin duda, el texto no está dirigido para aquellos que dan sus primeros pasos en esta
rama del conocimiento, es un texto de nivel intermedio, con aplicaciones interesantes y
motivadoras usando datos de nuestra realidad, este sólo hecho amerita su lectura en
primera instancia y posterior “reprocesamiento”, las lecciones aprendidas por el autor a
lo largo de su trayectoria académica y profesional son trasmitidas con lucidez y
claridad.
En esta relación teoría y realidad, por el contenido que invita a todos aquellos que se
interesan en el tema a seguir avanzando y el lenguaje preciso y adaptado a nuestras
necesidades encontramos que Juan Pichihua nos presenta una visión pertinente entre la
modelística y su tratamiento, esperemos que continúe en este camino y que este trabajo
sea la primera entrega en esta apasionante tarea de la elaboración de modelos y análisis
de datos.
Alvaro Ortiz Sarabia

Profesor Principal UNALM
Facultad de Economía y Planificación
ii
INTRODUCCIÓN
En el verano de 1987, tuve la oportunidad de participar como asistente en un equipo de

modelación macroeconométrica - “ECOPOL”, que se estaba conformando en el
Ministerio de Economía y Finanzas. Por esos tiempos, era muy joven y obviamente no
tenía más experiencia en el área, que el haber llevado el curso de “Introducción a la
Econometría” que se dictaba en la Universidad Agraria.
Coincidentemente, en dicho verano, mientras en el Departamento de Economía se

estaba programando los cursos del para el semestre I-1987, se me informó que el curso
de “Programación Lineal”, que había dictado el semestre anterior, había sido pedido por
otro profesor y que tenía disponible el curso de “Introducción a la Econometría”. Esa
feliz coincidencia me dio la oportunidad de enseñar econometría paralelamente a
aprender a hacer modelos. Entre 1988 y 1989 se me dio la oportunidad de continuar en
el MEF como consultor en modelación econométrica, es decir, el destino ya me había
embarcado en el fascinante mundo de la econometría.
Antes de los años 80, los textos de econometría eran básicamente de Métodos
Econométricos muy cargado de procedimientos estadísticos y matemáticos. A inicios de
los 80 aparecieron los primeros textos con una fuerte tendencia a la construcción de
Modelos Econométricos, con muchísimas aplicaciones empíricas. Los textos de
econometría de los 90, han tratado de encontrar un equilibrio entre los métodos y los
modelos econométricos. Sin embargo, queda aún la sensación que falta algo. En mi
opinión falta darle integralidad a la econometría con el análisis económico. En ese
sentido, el propósito del libro es mostrar al estudiante cómo dar los saltos cualitativos
necesarios que le permitan pasar de una hipótesis económica a la especificación de un
modelo econométrico, de allí a la estimación de sus parámetros y a la validación
económica, estadística y empírica del modelo, e iniciarlos en el uso de los modelos
econométricos.
Por su contenido, el libro desarrolla la parte “clásica” de la econometría y está dirigido a

alumnos del nivel pre-grado. Las primeras versiones circularon como notas de clase
entre mis ex – alumnos, quienes detectaron muchos errores de edición, pero, debo
agradecer especialmente a Mercedes Barrera, Carmen Cantuarias, Freddy Rojas, José
Antonio Balbín, y Waldy Bejarano, por quienes guardo un aprecio especial, por su
atención en la revisión de los textos. De igual modo, agradezco al Profesor Alvaro
Ortiz, por quien guardo el mayor respeto y admiración, por su gentileza de hacer el
prólogo del libro. Sin embargo, como es de rigor, todos los errores y omisiones son de
mi entera responsabilidad.
Juan Pichihua Serna
iii
Econometría: Teoría y Aplicaciones Juan Pichihua Serna 1
CAPITULO 1:
ECONOMETRIA,
CAMPO Y USOS
1.1 Definición y campo de la econometría 2

1.2 Etapas de la Construcción de un Modelo Econométrico 5
1.3 Usos de los Modelos Econométricos 9
1.4 Los Modelos Econométricos y sus Elementos 10
1.5 Los Modelos Econométricos y sus Problemas 12
1.6 Regresión y Causalidad 13
2 Capítulo 1: Econometría, campo y usos
CAPITULO I: ECONOMETRIA CAMPO Y USOS

1.1 DEFINICIÓN Y CAMPO DE LA ECONOMETRÍA
Aunque han pasado más de 70 años en que se fundara la Sociedad Econométrica (1930),
aún no existe una definición “generalmente aceptada” respecto a qué es la econometría.
La explicación probablemente se encuentre en que la econometría y la modelación
econométrica son dos caras de una misma moneda, permitiendo que la ciencia y el arte
avancen simultáneamente en procesos muchas veces contradictorios.
En el año 1933, en el editorial del primer número de la revista especializada

“Econometrica” publicada por la Sociedad Econométrica, Frish (1933) afirma::
“la revista ... promoverá los estudios que contribuyan a la unificación de las
aproximaciones teórico-cuantitativos y empírico-cuantitativos de los problemas
económicos........ sin embargo, no debiera confundirse la econometría con
cualquier aproximación matemática de la economía, ni con la economía
estadística. ... La experiencia muestra que ... con la unificación de la estadística,
la teoría económica y las matemáticas se constituye la econometría”.
Veinte años después, Tintner (1953) dedicó todo un artículo pretendiendo poner punto
final a la discusión sobre lo que es la econometría, basándose en la referencia del qué
hacer los econometristas, concluyendo que “la econometría es el estudio de la
aplicación estadística al análisis de los fenómenos económicos”.
La contribución de Tintner, sin dejar de ser importante, es insuficiente. Al que Maddala

refuerza señalando que “la econometría es la aplicación de métodos estadísticos y
matemáticos al análisis de los datos económicos, con el propósito de dar un contenido
empírico a las teorías económicas y verificarlas o refutarlas”, Maddala (1996).
En el mismo sentido, Greene señala que “la econometría es el campo de la economía

que se refiere a la aplicación de la estadística matemática y los instrumentos de la
estadística inferencial a la medición empírica de las relaciones postuladas por la teoría
económica”, Greene (2000).
Finalmente, Leamer (1983), Eichenbaum (1996) y Dorfman & McIntosh (1998)

adoptan un papel crítico sobre el rol “autónomo” que vienen tomando los
econometristas en validar los modelos econométricos planteados, olvidando que lo
importante es validar la teoría económica y no el modelo en sí mismo. Los modelos
presentan alguna dimensión errónea por ser simplificaciones de una realidad más
compleja. La batería de pruebas a las que se somete a un modelo no tienen como
propósito encontrar el modelo verdadero sino brindar contenido empírico y fortalecer la
teoría económica.
Todos los autores, arriba mencionados, señalan que la econometría es mucho más que
su significado literal, “medición económica”; que existe un elemento central sobre el
cual gira su trabajo, el “modelo” que está detrás de las relaciones entre variables
postuladas por la teoría económica y que permite: i) poner a prueba a las hipótesis
planteadas, ii) hacer pronóstico sobre las variables de interés y iii) hacer evaluaciones de
política económica. En ese sentido, se plantea la siguiente definición:
Definición: La econometría es la parte de la Economía dedicada a la medición de las

relaciones entre las variables económicas, para lo cual estima los parámetros del
modelo econométrico y los valida teóricamente y empíricamente. Véase Diagrama 1.
Algunas de las relaciones entre las variables económicas (respuestas cuantitativas) que
pueden ser realizadas por la econometría tenemos:
x La relación entre el ingreso disponible y el gasto en bienes de consumo,

x La relación entre la tasa de interés y la inversión,
x La relación entre la educación y los niveles salariales,
x La relación entre el crecimiento de la economía y el crecimiento del empleo,
x La relación entre los gastos en publicidad y las ventas de una empresa,
x La relación entre la tasa de fecundidad y el nivel de educación femenina,
x La relación entre los precios de las medicinas y las consultas médicas, etc.
La Econometría surge de la unión de la economía y la estadística. La Teoría Económica

proporciona un conjunto de hipótesis cualitativas donde se rescatan dos elementos:
Las variables involucradas en la relación económica y

El sentido de causalidad entre las variables incluidas en el modelo.
Por ejemplo, la teoría de la demanda dice que un individuo que tiene un presupuesto
limitado y que es maximizador de su función de utilidad, encuentra la cantidad
demandada de equilibrio, Q d , para un bien X, si conoce el precio del bien, PX , el precio
de otros bienes relacionados, PY , y su ingreso o presupuesto, I . Esto se resume en la
ecuación implícita:
§ ·
¨ ¸ (1.1)
Q Xd f ¨ P X , PY , I ¸
¨ () (r ) (r ) ¸
© ¹
La “ley de la demanda” plantea que el precio y la cantidad demandada guardan una

relación inversa. Es decir, a mayor precio menor cantidad demandada y viceversa.
§ · (1.2)
Q Xd f ¨¨ P X ¸¸
© () ¹
La Economía Matemática plantea diferentes formas funcionales en las que se pueden

expresar una hipótesis económica. Para una curva de demanda, por ejemplo podemos
plantear la relación lineal inversa entre el precio y la cantidad demandada:
Q Xd a bP X (1.3)
Los Métodos Estadísticos proporcionan métodos alternativos para estimar parámetros

poblacionales desconocidos de un modelo econométrico y validarlas a partir de datos
disponibles. Para ello el modelo matemático es transformado en un modelo
econométrico al que se añade un término de perturbación aleatorio P .
Q Xd D E PX P (1.4)
DIAGRAMA 1: ECONOMETRIA: CAMPO Y USOS
Teoría Teoría
económica estadística
Economía Métodos
Matemática estadísticos
Métodos
econométricos
Especificación Realidad:
Etapa I Datos
Econométrica
Modelación
Política
Estimación
Económica
Etapa II
Validación
Etapa III
Usos
Los métodos estadísticos permiten estimar los parámetros desconocidos D y E del

modelo. A través de los estimadores se valida la existencia de la relación entre las
variables, la dirección de la relación (signo) y la magnitud de la relación entre la
variable dependiente y la(s) variable(s) independiente(s), es decir, validan las hipótesis
económicas. Un modelo que ha sido validado económicamente y estadísticamente
puede ser utilizado ya sea en el análisis estructural, en el pronóstico o en la evaluación
de política.
Campo de la econometría: El campo de la econometría es la construcción de modelos

econométricos.
1.2 ETAPAS DE LA CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS

La construcción de un modelo econométrico pasa por tres etapas sucesivas: la
especificación del modelo, la estimación de los parámetros del modelo y la validación
del modelo.
Etapa I: Especificación
La especificación del modelo consiste en transformar la hipótesis económica en una

relación estocástica entre las variables involucradas en la hipótesis. De acuerdo al
avance de la teoría económica, puede existir algunas aproximaciones matemáticas con
respecto a la relación de las variables económicas, pero en general, la teoría económica
no llega a tanto.
En econometría, la formulación de los modelos es en realidad un arte, pues, se debe

conjugar lo deseable con lo posible. Mientras las hipótesis económicas son cualitativas,
el modelo econométrico expresa una relación cuantitativa, y tiene un conjunto de
propiedades matemáticas que dan contenido empírico a la hipótesis económica. En
general, para especificar un modelo, el econometrista debe responder:
¿Qué variables estarán incluidas en el modelo?. Omitir una variable relevante puede
producir pérdida de eficiencia y sesgos en la estimación de los parámetros. El incluir
variables irrelevantes también traerá problemas, aunque menos graves.
¿Cómo se especificarán las variables incluidas?. Depende de qué tipo de modelo se
quiere estimar en niveles, pudiendo darse en diferencias, en variaciones
porcentuales, en ratios (proporciones o participaciones), etc.
¿Cuál será la forma funcional del modelo?. Se debe elegir entre un modelo dinámico
o estático, y entre un modelo lineal o en un modelo no lineal. En ambos casos
dependerá del carácter dinámico de las variables (con efectos transitorios o con
efectos permanentes) y del concepto de linealidad que se esté utilizando (lineal en
variables o lineal en parámetros).
Ejemplo 1.1: Curva de la Demanda
Supongamos un individuo representativo de la sociedad y dos bienes X e Y. La teoría

del comportamiento del consumidor señala que un individuo racional debe maximizar
una función de utilidad, U (Q X , QY ) , sujeto a un presupuesto limitado (un ingreso, I)
para comprar las cantidades Q de los bienes X e Y. Esto es:
MaxU (Q X , QY ) sujeto a I PX .Q X PY .QY ; donde: P = precio y Q = cantidad
Resolviendo el problema del consumidor se obtiene las funciones de demanda de X e Y:
QX f ( PX , PY , I ) y QY f ( PX , PY , I )
Para el modelo de la demanda del bien X, de todas las alternativas modelísticas

posibles, se plantean por ejemplo, dos, un modelo lineal y otro no lineal en variables.
Modelo Ecuación
Lineal QX E 1 E 2 PX E 3 PY E 4 I P
Exponencial QX DPXJ PYJ I J e P
2 3 4
wQ X PX
Si usamos el concepto estándar de elasticidad precio: H x . se encuentra que
wPX Q X
el modelo lineal tiene elasticidad precio que cambia con el nivel del precio,
específicamente, será inelástico a precios “bajos” y elástico a precio “altos”. En cambio,
el modelo exponencial (no lineal) tiene una elasticidad precio constante, es decir, es
independiente del nivel del precio. Continuando el ejercicio para la elasticidad cruzada
y la elasticidad ingreso, encontraremos que estas características se mantienen, es decir:
Modelo Elasticidad Elasticidad Cruzada Elasticidad

Precio de X (con respecto al Precio de Y) Ingreso
P P I
Lineal E2. X E3. Y E4.
QX QX QX
Exponencial J2 J3 J4
Ejemplo 1.2: Función Gasto en Alimentos y la “Curva de Engel”
La teoría económica señala que la fracción gastada en alimentos disminuye a medida

que el ingreso aumenta. Esta hipótesis económica puede recogerse en un modelo con
características cóncavas. Dos alternativas modelísticas son:
Modelo Ecuación
Cuadrático GA E1 E 2 I E 3 I 2 P
Exponencial GA DI J 2 e P
Donde: GA = Gasto en Alimentos, I= ingreso.
La teoría económica se cumple si los parámetros del modelo lineal

satisfacen: E 1 t 0; E 2 ! 0; E 3 0 o los parámetros del modelo exponencial satisfacen:
D t 0 ; 0 J 2 1.
Ejemplo 1.3: El Modelo CAPM en Finanzas
La piedra angular de la moderna teoría de las finanzas de empresas se basa en el modelo

de fijación de precios de los activos financieros o Capital Asset Pricing Model (CAPM).
Una versión sencilla del modelo CAPM señala que la tasa de retorno de una empresa
está relacionada con la tasa de retorno de todo el mercado. Por lo tanto, si el riesgo
sistemático asociado a los retornos de una empresa es mayor que el riesgo de todo el
mercado, entonces sus retornos también deberán ser más altos que el promedio del
mercado y viceversa, si los riesgos que asume la empresa son bajos sus retornos
también serán bajos.
Para operativizar está hipótesis se plantea un modelo donde las variables se expresan
como netos de los retornos libre de riesgos, como pueden ser los bonos del Banco
Central de Reserva o del tesoro público. El modelo se puede plantear así:
r j , t r f ,t D E rm,t r f ,t H t (1.5)
Donde:
rj,t = tasa de retorno mensual de la empresa, por ejemplo las acciones de la Telefónica.
rm,t = tasa de retorno mensual del mercado, por ejemplo de la Bolsa de Valores de Lima.
rf,t = Tasa de retorno mensual de activos libre de riesgo, por ejemplo Bonos del BCR.
Según el modelo CAPM dice que si una compañía es “más riesgosa” que el mercado en
su conjunto debe tener un coeficiente “Beta”, E , mayor que uno y viceversa.
Etapa II: Estimación
En la etapa de estimación el econometrista utiliza métodos estadísticos e información

disponible para encontrar los estimadores de los parámetros incluidos en el modelo
econométrico. Los métodos de estimación más difundidos son los mínimos cuadrados y
máxima verosimilitud, entre otros.
Por ejemplo, la Teoría Keynesiana afirma que hay una relación directa entre el gasto en
bienes de consumo y el ingreso disponible. En la etapa de especificación se plantea un
modelo lineal entre las variables Consumo Privado (CPR) y el Producto Bruto Interno
(PBI), que son una expresión de la forma empírica de las variables consumo e ingreso
planteadas en la hipótesis económica.
CPRt D E * PBI t Pt
En la etapa de estimación interesa encontrar valores para los parámetros desconocidos

D y E . El parámetro D se interpreta como el consumo autónomo y el parámetro E
como la propensión marginal a consumir. La variable P t expresa un término de
perturbación, que representa la naturaleza aleatoria de las variables económicas.
Con datos del Banco Central de Reserva del Perú para el consumo y el ingreso, y el
método de estimación de los mínimos cuadrados se obtiene los valores estimados para
D y E . D̂ =2790.6 y Ê =0.614. De modo que la línea de regresión estimada es:
CPˆ Rt Dˆ Eˆ * PBI t
o también:
CPˆ Rt 2790.6 0.614 * PBI t

35000 25000
CPR
30000
PBI
20000
25000
20000
15000
CPR
15000
10000
10000
15000 20000 25000 30000 35000
90 91 92 93 94 95 96 97 98 99 00 PBI
Gráfico 1.2 Consumo Privado vs PBI

Gráfico 1.1 Consumo Privado y PBI: 1990 - 2000
Cuadro 1.1 Consumo Privado y PBI

(Nuevos Soles de 1994)
obs CPR PBI obs CPR PBI obs CPR PBI
1990:1 16369.69 21887.23 1994:1 16341.97 22100.11 1998:1 20118.52 28419.20
1990:2 16094.17 21818.01 1994:2 18604.66 25116.55 1998:2 22181.79 30090.72
1990:3 13715.22 18363.69 1994:3 17572.78 24889.14 1998:3 20206.52 28964.05
1990:4 14716.57 19913.75 1994:4 18786.86 26471.64 1998:4 19915.48 29121.27
1991:1 14679.93 19464.58 1995:1 18607.75 25800.16 1999:1 19549.79 28219.48
1991:2 16550.95 21720.38 1995:2 20459.26 27759.27 1999:2 22000.96 30721.88
1991:3 15747.70 21263.79 1995:3 19436.91 26697.15 1999:3 20078.75 28929.47
1991:4 16011.54 21310.94 1995:4 19555.38 26768.15 1999:4 20613.55 30338.92
1992:1 15620.92 20231.13 1996:1 18856.86 25744.89 2000:1 20507.73 29999.88
1992:2 16201.54 21136.47 1996:2 21299.32 28765.45 2000:2 22991.00 32291.27
1992:3 14819.02 20362.52 1996:3 19642.06 27084.98 2000:3 20841.74 29871.53
1992:4 16146.29 21670.44 1996:4 20129.80 28087.39
1993:1 15132.32 20007.49 1997:1 19639.26 27468.35
1993:2 16903.17 22310.81 1997:2 22412.54 31009.81
1993:3 16227.62 22127.08 1997:3 20506.69 28907.32
1993:4 16671.59 22929.20 1997:4 20717.89 29697.33
FUENTE: BCRP, Gerencia de Estudios Económicos
Etapa III: Validación
La validación de un modelo consiste en evaluar la respuesta del modelo estimado a una

batería de pruebas. Como consecuencia de ello se puede rechazar o aceptar la hipótesis
o la teoría económica que implícita o explícitamente se utilizó en la etapa de
especificación del modelo. En general se puede plantear la validación en tres niveles:
económica, estadística y empírica.
La validación económica consiste examinar la concordancia del modelo estimado con

las teorías económicas que la sustentan. Para ello el econometrista debe examinar
cuidadosamente la magnitud y el signo de los estimadores de los parámetros. Las
pruebas de hipótesis y los intervalos de confianza se pueden utilizar para confirmar los
valores estimados.
Por ejemplo, si se está estimando una curva de demanda, es inadmisible los modelos
estimados que muestran una relación directa entre el precio y la cantidad demandada,
también sería inadmisible con la teoría económica que la propensión marginal a
consumir sea negativa o mayor que uno en la función consumo. En estos casos
significa que hay algún problema en la especificación del modelo, o un problema en la
calidad de los datos, entre otros.
La validación estadística consiste en examinar la significación estadística de los

estimadores de los parámetros. Si se verifica que los estimadores de los parámetros son
significativamente distintos de cero, implica que las variables explicativas incorporadas
en el modelo son estadísticamente significativas, por lo tanto ayudan a explicar el
comportamiento de la variable endógena.
La validación empírica consiste en evaluar la capacidad del modelo para replicar la

realidad. Un buen modelo de largo plazo permite captar la tendencia de la variable
endógena, mientras un buen modelo de corto plazo capta los cambios de la tendencia
(quiebres de corto plazo).
1.3 USOS DE LOS MODELOS ECONOMÉTRICOS

Siguiendo el esquema de Intriligator (1983) los usos principales de los modelos
econométricos son tres: el análisis estructural, el pronóstico y la evaluación de política
que corresponden a los usos descriptivos, predictivos y prescriptivos de la econometría.
El análisis estructural se refiere al uso del modelo econométrico estimado para

cuantificar la interrelación subyacente en el sistema bajo estudio. Según cómo se
especifiquen las variables en un modelo, la interpretación a los valores estimados de los
parámetros podrá significar los efectos marginales, las elasticidades o los
multiplicadores de impacto. De igual modo, la interpretación de los estimadores
cambiará entre el corto y el largo plazo según el modelo empleado, estático o dinámico.
Por ejemplo, supongamos dos especificaciones de la función consumo:
Modelo Especificación
Estático CPˆ Rt Dˆ EˆPBI = 2790.6 0.614 * PBI
t t
Dinámico CPˆ Rt ˆ ˆ
G TPBI t JˆCPRt 4 = 2633 0.528 * PBI t 0.132 * CPRt 4
'CPRt
Las propensiones marginales a consumir (PMgC= ) son:
'PBI t
Modelo Corto Plazo Largo Plazo

Estático Ê =0.614 Ê =0.614
Tˆ 0.528
Dinámico Tˆ =0.528 = =0.608
1 Jˆ 1 0.132
El uso del modelo estimado con fines de pronóstico se refiere a la predicción

cuantitativa para la variable dependiente o endógena del modelo para otros tiempos y
otros casos, en la que se supone conocido los valores de las variables explicativas.
El pronóstico de una variable dependiente, utilizando el modelo estimado, se llama “ex -

ante” si se refiere a la predicción de la variable dependiente, más allá de la muestra
utilizada en la fase de estimación. Por ejemplo, si en la fase de estimación de la función
consumo se ha utilizado datos hasta el año 2002 y se utiliza el modelo para pronosticar
el consumo privado, CPR, para el período 2003 – 2007. El pronóstico se llama “ex –
post” si la predicción corresponde a una parte o a todo el período muestral que ya ha
ocurrido. Por ejemplo, la función consumo pudo ser estimada utilizando una muestra
que llega hasta el año 2000, y se utiliza el modelo para replicar el período 2001 y 2002.
El uso del modelo con fines de evaluación de política se refiere a la determinación del
efecto cuantitativo de varias alternativas de política económica. En este caso se plantea
diferentes escenarios de política. En cada escenario las variables exógenas pueden tomar
valores distintos; por ejemplo, si tenemos un modelo de determinación del tipo de
cambio como función de la cantidad de dinero en la economía, se puede plantear
diferentes escenarios de crecimiento de la cantidad de dinero, y como consecuencia de
esto se tendrá resultados diferentes para el crecimiento del tipo de cambio. El modelo
estimado permitirá simular cada escenario y cuantificar las magnitudes de impacto en
el tipo de cambio.
1.4 LOS MODELOS ECONOMÉTRICOS Y SUS ELEMENTOS

Un modelo es una representación simplificada de la realidad, sus elementos son las
ecuaciones, las variables y los parámetros.
Según el número de ecuaciones los modelos pueden clasificarse en modelos uni-

ecuacionales y modelos multi-ecuacionales, por ejemplo:
Tipo de Modelo Modelo

QX E 1 E 2 PX E 3 PY E 4 I P
Donde:
Uniecuacional Q X = cantidad demandada de X
(Función de demanda del bien X) PX = precio del bien X
PY = precio de otros bienes relacionados a X
I = ingreso.
CPR t D E * PBI t J * CPR t 1 H
PBI t CPRt INVt
Multiecuacional Donde:
(Modelo macroeconómico simple) CPR = Consumo Privado
PBI = Producto Bruto Interno
INV = Inversión.
Los modelos multiecuacionales pueden clasificarse en modelos recursivos, modelos

aparentemente no relacionados y modelos simultáneos.
Las ecuaciones pueden ser ecuaciones de comportamiento o identidades. Entre las

ecuaciones de comportamiento se tiene la función de demanda o la función consumo. La
identidad está representado por la identidad de cuentas nacionales del PBI por el gasto
en el modelo multiecuacional.
Las variables pueden clasificarse en endógenas y predeterminadas. Las variables

endógenas son las variables que se obtienen de la solución del modelo econométrico.
En un modelo multiecuacional algunas variables endógenas son variables de interés (o
variable endógena objetivo) del modelo, y el resto son variables endógenas
complementarias. Las variables predeterminadas se dividen en exógenas y rezagadas.
Las variables exógenas son aquellas que vienen dadas desde fuera del modelo. Las
variables rezagadas son aquellas variables endógenas o exógenas retardadas en el
tiempo. Algunas variables exógenas sirven como instrumentos de política económica.
Se les dice “instrumentos” porque están bajo el control del hacedor de política, por
ejemplo, el gasto público, los impuestos y los subsidios en un modelo macroeconómico
están bajo control del Ministerio de Economía y Finanzas. Las variables expectativas,
son variables no observables, según el caso pueden representar valores de equilibrio y
en otros casos representan el valor esperado de una variable en el valor futuro. Por esa
razón pueden ser utilizadas como variables endógenas o como variables
predeterminadas en el modelo.
Una clasificación de las variables de un modelo es la siguiente:
x Variables objetivo (de interés)

x Variables Endógenas
x Otras variables endógenas complementarias
x Instrumentos de política
x Variables Exógenas
x Otras variables exógenas
x Variables Predeterminadas
x Endógenas rezagadas
x Variables Rezagadas
x Exógenas rezagadas
x Variables No observables x Variables expectativas
En cualquier modelo, las variables predeterminadas (exógenas o rezagadas) son

insumos para obtener las variables endógenas.
Una de las variables que hemos ignorado hasta ahora es el término de perturbación.
Esta variable permite transformar el modelo de una relación determinística a una
relación estocástica. La existencia del término de perturbación se justifica por tres
razones (no necesariamente mutuamente excluyentes):
a) La omisión de innumerables eventos que tienen influencia en la variable endógena.

La omisión de variables relevantes constituye un tipo de “error de especificación”.
Por ejemplo, en una función consumo, seguramente hay muchas variables además
del ingreso que permiten decidir cuánto de ese ingreso debe dedicarse al consumo,
por ejemplo, la tasa de interés, el monto del patrimonio o de la riqueza, etc.
b) Errores de medida. Puede haber casos en los que la variable no puede ser medida
con precisión por problemas conceptuales o por dificultades en su medición, está
imprecisión, finalmente se transmite en el término de perturbación.
c) Indeterminación humana. El término de perturbación representa la naturaleza
inherentemente aleatoria del comportamiento humano.
Finalmente, un modelo se completa con los parámetros. Los parámetros son las
constantes que caracterizan las ecuaciones de un modelo. Sin embargo debe
diferenciarse un parámetro del estimador del parámetro y de un valor estimado del
parámetro. Por ejemplo, sea el parámetro E ; un estimador del parámetro E , Ê , es la
ecuación, la fórmula o la “receta” que permite obtener un valor estimado del parámetro
E , digamos Ê X , es decir, el estimador de E se obtiene como el valor promedio de
la variable X; y un valor estimado del parámetro E es el valor particular que toma el
estimador dado los datos muestrales disponibles, digamos Ê =0.4, es decir, si el
promedio de la variable X es 0.4, Ê tomará dicho valor.
1.5 LOS MODELOS ECONOMÉTRICOS Y SUS PROBLEMAS

Un modelo econométrico óptimo es aquel que tiene un conjunto de cualidades que lo
hacen deseable, para ello ha soportado una batería de pruebas estadísticas y de análisis
económico que lo han validado como un modelo confiable o robusto.
La confiabilidad de un modelo depende de una serie de factores, tales como:
a) El horizonte de predicción,
b) La estabilidad de los parámetros,
c) La cantidad y calidad de los datos, y
d) La especificación correcta del modelo.
Cuánto más largo sea el período de pronóstico, el modelo pierde precisión en la

predicción de las variables endógenas y viceversa. La especificación adecuada del
modelo será importante según se quiera hacer pronósticos de corto, de mediano o de
largo plazo. En ese sentido, no se puede utilizar un modelo de “corto plazo” para hacer
pronóstico de “largo plazo”. Si el propósito del modelo es el pronóstico de largo plazo,
se debe elegir un modelo que permita captar las tendencias de las variables endógenas
objetivo, y no usar un modelo de corto plazo, cuyo interés es captar los “quiebres” de
corto plazo en las variables de interés.
Mientras un parámetro es una “constante”, un estimador es una variable aleatoria. Un

modelo es confiable si los estimadores de los parámetros son “estables”, esto quiere
decir que a medida que crece el tamaño de la muestra, el valor del estimador debe
converger a un valor estable.
Como se puede observar en el gráfico 1.3, los valores estimados para el parámetro
“Beta” son bastante estables; y el intervalo de confianza disminuye rápidamente a
medida que aumenta el número de observaciones.
12 1.0
0.9
8
0.8
4
0.7
0
0.6
-4 0.5
78 80 82 84 86 88 90 92 94 96 98 92 93 94 95 96 97 98 99 00
Gráfico 1.3 Beta Estimado ± 2 S.E. Gráfico 1.4 Alfa Estimado ± 2 S.E.
Contrariamente, un estimador no es estable si muestra “cambios o quiebres

estructurales” como sucede en el gráfico 1.4. El estimador del parámetro “alfa” en este
modelo es bastante más inestable que el anterior, por lo tanto, el primer modelo se
presenta más confiable que el segundo.
La cantidad y la calidad de los datos afecta la precisión de los estimadores, es decir, la

varianza de los estimadores puede crecer más allá de lo deseable. Hay dos tipos básicos
de problemas en los datos; por un lado, las variables exógenas pueden no guardar la
independencia deseable para captar los efectos que tienen cada una de ellas sobre la
variable endógenas, a este problema se le denomina “multicolinealidad”; por otro lado,
puede haber errores de medida en las variables. Si bien en ambos casos aumentan las
varianzas de los estimadores, en el primer caso no afecta la relación de las varianzas,
pero si en el segundo caso, es decir, en el segundo caso hay pérdida de eficiencia en los
estimadores.
La especificación incorrecta del modelo produce pérdida de eficiencia en los

estimadores pues el término de perturbación comienza a recibir la influencia de factores
estructurales además de los factores puramente aleatorios asociados a las variables
económicas. Cuando el modelo está especificado incorrectamente, mostrará evidencias
de errores autocorrelacionados (denominado también autocorrelación serial de errores)
y/o errores con varianzas no constantes (a este problema se le denomina
heterocedasticidad).
1.6 REGRESIÓN Y CAUSALIDAD
Un modelo econométrico, es respuesta modelística a una hipótesis económica, por lo

tanto, tiene tras de sí una idea de causalidad entre las variables involucradas, esto es, la
variable endógena es explicada (causada) por el comportamiento de otras variables
predeterminadas o exógenas, o por otras variables endógenas. Por ejemplo, en la
función consumo, CPRt D E * Yd t P t , se asume la hipótesis keynesiana que
cambios en el Ingreso Disponible, Yd, producen cambios en el Consumo Privado, CPR,
En consecuencia, la función consumo, supone que el sentido de la causalidad va del Yd
al CPR y no lo contrario.
En cambio, el análisis de regresión, como herramienta estadística, permite estimar el

valor promedio de la variable dependiente a partir de un conjunto de variables
independientes. En el análisis de regresión no se discute qué variable debe tomar el rol
de variable dependiente y qué variable debe tomar el rol de variable independiente. En
ese sentido, el análisis de regresión es independiente de la posición de las variables, no
interesa qué variable causa a que variable, sino si se puede establecer una relación de
dependencia estadística, que no es lo mismo que causalidad.
Por lo tanto, para el análisis de regresión se puede estimar tanto el

modelo E >CPRt Yd t @ D E * Yd t como el modelo E >Yd t CPRt @ G J * CPRt . En el
caso del modelo econométrico solo tiene sentido el primer modelo, pues el sentido de la
causalidad entre las variables es lo más importante.
Econometría: Teoría y aplicaciones Juan Pichihua Serna 15
CAPITULO 2:
MODELO DE
REGRESION LINEAL SIMPLE
2.1.1 Función de Regresión Poblacional 16
2.1.2 Función de Regresión Muestral 17
2.1.3 Supuestos del Modelo de Regresión Lineal Clásico 18
2.2 Estimación por Mínimos Cuadrados Ordinarios 20
2.2.1 Mínimos Cuadrados Ordinarios (MCO) 20
2.2.2 Propiedades de los Estimadores de MCO 25
a) Propiedades de Ê 25
b) Propiedades de D̂ 27

c) Covarianza Dˆ , Eˆ 28
d) Estimador de la Varianza del Error, V u2 30
e) Teorema de Gauss-Markov 31
2.3 Validación 32
2.3.1 Validación Económica 32
2.3.2 Validación Estadística 32
a) Bondad de Ajuste 33
b) Prueba de Hipótesis 35
c) Intervalos de Confianza 38
2.3.3 Validación Empírica 39
a) Predicción Media 39
b) Predicción Punto 40
c) Evaluación del Pronóstico 43
2.4 Estimación por Máxima Verosimilitud 44
2.4.1 Máxima Verosimilitud (MV) 45
2.4.2 Propiedades de los Estimadores de MV 46
2.4.3 Matriz de Varianzas y Covarianzas de los Estimadores de MV 46
2.4.4 Pruebas de Bondad de Ajuste de un Modelo Estimado por MV 48
2.5 Especificaciones No Lineales del Modelo de Regresión 50
2.6 Experimentos de Monte Carlo y Bootstrap 53
16 Capítulo 2: Modelo de Regresión Lineal Simple
CAPITULO 2: MODELO DE REGRESION LINEAL

SIMPLE
Este capítulo muestra como una hipótesis económica que relaciona dos variables puede
ser cuantificada utilizando la especificación más simple de un modelo econométrico, el
modelo de regresión lineal simple. Pero que a pesar de la sencillez y limitaciones de este
modelo, no pierde utilidad para explicar muchos casos de la vida empresarial y
económica, en general.
A diferencia del análisis de correlación1, el modelo de regresión lineal especifica una

relación de dependencia estadística entre una variable explicativa (X, variable
independiente) y una variable endógena (Y, variable dependiente). La variable
endógena se transforma en una variable aleatoria a través de un término de perturbación
estocástico (error), lo que significa que la relación entre las variables Y y X es no-
exacta. Pero además, el modelo de regresión lineal tiene una interpretación causal, es
decir, en un modelo de regresión la variable independiente (X) causa a la variable
dependiente (Y), toda vez que el modelo es el reflejo de una hipótesis económica.
2.1 ESPECIFICACIÓN
Sea el Modelo de Regresión Lineal Simple:
Yi D EX i u i (2.1)
Donde:
Yi : es la variable dependiente o endógena.
Xi : es la variable independiente o explicativa.
ui : es el término de perturbación.
D, E : son los parámetros del modelo.
El subíndice i se refiere a la i-ésima observación. indica el número o la posición de la

observación y el tipo u origen de los datos. Por convención se utiliza:
x el subíndice i se refiere a la i-ésima observación en datos de corte transversal.

x el subíndice t se refiere a la observación del período t en series de tiempo.
x el subíndice it se refiere a la i-ésima observación en el momento t en datos de panel.
2.1.1 Función de regresión poblacional
La función de regresión poblaciónal o verdadera, es la parte estructural del modelo

econométrico especificado en la ecuación (2.1). La FRP muestra la relación de
dependencia condicional fija (no aleatoria) entre la variable dependiente y la variable
independiente. La parte aleatoria está compuesta por el término de perturbación, que
hace que en la realidad el valor observado de la variable dependiente se aleje de su valor
esperado según la función de regresión poblacional2.
1
La correlación simple mide la asociación lineal entre entre dos variables (Y, X)
2
En el capítulo anterior vimos que las fuentes de error en el modelo econométrico podían ser la
especificación incorrecta de la ecuación, la omisión de variables y el comportamiento humano.
De este modo el modelo de regresión lineal simple, también se puede expresar como:
Yi E >Yi X i @ u i (2.2)
Siendo la función de regresión poblacional:

E >Yi X i @ D EX i (2.3)
Y FRP:
Observación
i-ésima E[Yi X i ] D EX i
(Xi ;Yi)
Yi
ui
E[Yi X i ]
X
Xi
Gráfico 2.1 Función de Regresión Poblacional - FRP
2.1.2 Función de Regresión Muestral
Dado que los parámetros de la función de regresión poblacional y que los valores que
toma variable aleatoria u i son desconocidos, la función de regresión poblacional, o
verdadera, no se puede observar. Lo más que se puede tener es una función de regresión
muestral – FRM, ecuación 2.4, producto de la información muestral disponible.
Yî Dˆ EˆX i (2.4)
Y FRP:
Observación
i-ésima E[Yi X i ] D EX i
(Xi ;Yi)
Yi
FRM:
ui
û i Yî Dˆ EˆX i
E[Yi X i ]
Yî
X
Xi
Gráfico 2.2 Función de Regresión Poblacional – FRP
y Función de Regresión Muestral - FRM
Como es evidente, la función de regresión poblacional y la función de regresión

muestral no tienen porqué coincidir; sin embargo, cuanto más representativa sea la
muestra, los estimadores de los parámetros, D̂ y Ê tendrán un conjunto de propiedades
deseables.
La discrepancia entre el error verdadero modelo de regresión planteado, ui, y el residuo

de la estimación, uˆ i , se explica fundamentalmente por el sesgo de la estimación de los
parámetros.
El error verdadero se obtiene de la diferencia entre las ecuaciones 2.1 y 2.3:
ui Yi E >Yi X i @
ui Yi D EX i (2.5)
El error estimado se obtiene de la diferencia entre las ecuaciones 2.1 y 2.4:
uˆ i Yi Yî
uˆ i Yi Dˆ EˆX i (2.6)
La discrepancia entre los errores observados y los errores estimados es:
u i uˆ i (D Dˆ ) ( E Eˆ ) X i (2.7)
Para asegurarnos que el valor esperado para la discrepancia entre ambos errores sea
cero, es necesario garantizar que los estimadores de los parámetros son insesgados.
Estos resultados se pueden obtener trabajando con una muestra representativa y
utilizando el método de estimación adecuado para lograr estimadores insesgados.
2.1.3 Supuestos del modelo de regresión lineal clásico
Supuesto 1: El modelo es lineal Yi D EX i u i , i 1,2,....., n.
Esto implica que existe una relación estocástica lineal entre la variable dependiente (Y)
y la variable explicativa (X).
Supuesto 2: El error, ui , es una variable aleatoria con las siguientes características:
a) Distribución normal: ui a N
Esto implica que la función de densidad de probabilidad del error o término de
perturbación sigue la regla de una distribución normal.
ui2
1 2V u2
f (u i ) e
2SV u2
b) Media cero: E (u i ) 0 , i 1,2,....., n.

Esto implica que el término de pertubación se distribuye alrededor de cero.
c) Homocedasticidad: Var (u i ) V u2 , i 1,2,....., n.

La homocedasticidad significa que la varianza de los errores es constante en todas
las observaciones.
d) No autocorrelación: E (u i u i r s ) 0 , s z 0.
La no autocorrelación de errores implica que el error en una observación es
independiente del error en otra observación.
En resumen: ui a N (0, V u2 ) y Cov(u i , u i r s ) 0
Supuesto 3: La variable X i y el error son independientes: E ( X i u i ) 0
Para el modelo de regresión simple la variable explicativa, X i , debe ser

estocásticamente independiente del error, u i . Esto significa que aunque X i fuera una
variable aleatoria, debe tener un comportamiento independiente del error.
En el caso extremo del modelo de regresión clásico se supone que la variable X i es una
variable no aleatoria, por lo tanto, sus valores son exógenos al modelo, cumpliendose
también: E ( X i u i ) X i E (u i ) 0 .
Supuesto 4: La variable X i tiene varianza finita: Var ( X i ) ! 0, finita , i

Esto implica que la variable X i no debe tener todos sus valores iguales y que debe ser
una variable estacionaria.
Supuesto 5: No quiebre estructural. Esto implica que los parámetros del modelo son
constantes para todos las observaciones.
Corolario
Si Yi D EX i u i donde D y E son constantes y X i es una variable exógena:
Corolario 1: Si ui a N entonces Yi a N
Si X i es una variable no aleatoria (exógena), Yi es una variable aleatoria cuya

distribución depende únicamente de la distribución del error.
Corolario 2: Si E (u i ) 0 entonces E (u i X i ) 0 y E (Yi X i ) D EX i

Dado X i es una variable exógena e independiente del error, es decir, la esperanza

condicional del error es nulo y por lo tanto la esperanza condicional de Yi dado X i es la
Función de Regresión Poblacional.
E >Yi X i @ E >D EX i u i X i @ D EX i
Corolario 3: Si Var (u i ) V u2 entonces Var (Yi ) V u2
E >Yi E (Yi )@ E >D EX i u i D EX i @

2 2
V (Yi ) E (u i2 ) V (u i ) V u2
Corolario 4: Si Cov(u i , u i rs ) 0 entonces Cov(Yi , Yi rs ) 0.
C (Yi , Y j ) E[{Yi E[Yi ]}{Y j E[Y j ]}]
C (Yi , Y j ) E[(D EX i u i D EX i )(D EX j u j D EX j )]
C (Yi , Y j ) E[u i u j ] C (u i , u j ) 0
2.2 ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

2.2.1 Mínimos Cuadrados Ordinarios (MCO)
Sea el modelo de regresión lineal simple Yi D EX i u i . Despejando ui tenemos:
ui Yi D EX i (2.8)
Luego,
u i2 Yi D EX i 2 (2.9)
n n
¦ Yi D EX i
2
¦ u i2 (2.10)
i 1 i 1
n
El método de MCO consiste en minimizar la ¦ u i2 con respecto a D y E para obtener
i 1
los valores estimados para D y E , esto es, D̂ y Ê .
n n
n
2 w ¦ u i2 w ¦ u i2
Min¦ u
i 1
i
i 1
0 y i 1
0 D̂ y Ê .
D, E wD wE
Derivando la ecuación 2.10 con respecto a D y E :

n
w ¦ u i2 n
i 1
2¦ Yi D EX i (2.11)
wD i 1
n
w ¦ u i2 n
i 1
2¦ Yi D EX i X i (2.12)
wE i 1
Igualando a cero y simplificando las ecuaciones 2.11 y 2.12:

n
¦ (Y Dˆ EˆX ) 0
i i (2.13)
i 1
n
¦ (Yi Dˆ EˆX i )X i 0 (2.14)
i 1
Introduciendo la sumatoria y despejando obtenemos las ecuaciones normales:
n n
¦ Yi nDˆ Eˆ ¦ X i (2.15)
i 1 i 1
n n n
¦ Yi X i Dˆ ¦ X i Eˆ ¦ X i2 (2.16)
i 1 i 1 i 1
Resolviendo las ecuaciones 2.15 y 2.16 obtendremos los estimadores D̂ y Ê .

n n
¦ Yi ¦ Xi
Dˆ i 1
Eˆ i 1
Y EX (2.17)
n n
§ n X ·§ n Y ·
n ¨ ¦ i ¸¨ ¦ i ¸ n n
© i 1 ¹© i 1 ¹
¦ Yi X i ¦ (Yi Y )( X i X ) ¦ y i xi
Ê i 1 n i 1 i 1
(2.18)
2 n n
¦ X i X
n 2
§ X · ¦x 2
n ¨¦ i ¸ i
2 ©i 1 ¹ i 1 i 1
¦ Xi
i 1 n
Donde yi Yi Y y xi X i X (variables expresadas en términos de desviación)
Propiedades de las variables expresadas en términos de desviación
n n n n ¦ Xi n n
¦ xi ¦ ( X i X ) ¦ X i Xn ¦ X i i 1 n ¦ Xi ¦ Xi 0
i 1 i 1 i 1 i 1 n i 1 i 1
n n n n ¦ Yi n n
¦ yi ¦ (Yi Y ) ¦ Yi Y n ¦ Yi i 1 n ¦ Yi ¦ Yi 0
i 1 i 1 i 1 i 1 n i 1 i 1
n n n ¦ X i 2
¦ xi2 ¦ ( X i X ) 2 ¦ ( X i2 2 XX i X 2 ) ¦ X i2 nX 2 ¦ X i2
i 1 i 1 i 1 n
n n 2 n ¦ Yi 2
¦ yi2 ¦ (Yi Y ) ¦ (Yi 2 2Y Yi Y 2 ) ¦ Yi 2 nY 2 ¦ Yi 2
i 1 i 1 i 1 n
n n n (¦Yi )(¦ X i )
¦ yi xi ¦ (Yi Y )(X i X ) ¦ (Yi X i YX i XYi XY ) ¦Yi X i nYX ¦Yi X i
i 1 i 1 i 1 n
De las ecuaciones 2.17 y 2.18 se puede concluir que los estimadores de MCO:
1° D̂ y Ê son estimadores puntuales de D y E (valor único para cada estimador).

2° D̂ y Ê están expresados en función de variables observables X i e Yi .
De la ecuación 2.17 se puede demostrar que:

3° el punto ( X , Y ) pertenece a la línea de regresión.
Dˆ Y EˆX Y Dˆ EˆX , luego, si X i X , entonces Yî Y , por lo tanto, el punto

( X , Y ) FRM, donde la FRM (función de regresión muestral) o línea de regresión.
Observación
Y i-ésima
(Xi ;Yi)
Yi
FRM:
û i Yî Dˆ EˆX i
Yî Y
( X , Y ) FRM
Ê
D̂ pendiente
X
Xi X
Gráfico 2.3: Función de Regresión Muestral - FRM
4° Si Dˆ z 0 la línea de regresión no pasa por el origen.

5° La suma de los residuos y el promedio de los residuos son cero.
n n
¦ (Yi Dˆ EˆX i ) ¦ uˆ i 0 (2.19)
i 1 i 1
n
¦ uˆ i
i 1
uˆ 0 (2.20)
n

6° los residuos y la variable exógena son ortogonales (independientes uno del otro).
n n
¦ (Yi Dˆ EˆX i )X i ¦ uˆ i X i 0 (2.21)
i 1 i 1
n n n n n
¦ uˆ i xi ¦ uˆ i ( X i X ) ¦ uˆ i X i X ¦ uˆ i ¦ uˆ i X i 0 (2.22)
i 1 i 1 i 1 i 1 i 1
Ejemplo 2.1: Estimación de Parámetros e interpretación de resultados
A continuación se presenta datos anuales de 1945 a 1960 de ventas y gastos en

publicidad (ambos en miles de US$) de la compañía Lydia Pinkham. Esta empresa era
una empresa que producía extracto de hierbas en solución alcohólica y cuyos datos
fueron públicos luego de un litigio familiar. Heyse & Wei lo publicaron en 1985 en el
Journal of Forecasting.
Gastos en 3000
Ventas
Año Publicidad
Y X
1945 2637 1145
1946 2177 1012 2500
1947 1920 836
1948 1910 941 V
1949 1984 981 E 2000
1950 1787 974 N
T
1951 1689 766 A
1952 1866 920 S
1953 1896 964 1500
1954 1684 811
1955 1633 789
1956 1657 802 1000
1957 1569 770 400 600 800 1000 1200
1958 1390 639
1959 1387 644 Gastos Publicidad
1960 1289 564
Suma 28475 13558 Figura 2.1 Ventas vs Gastos en Publicidad
Promedio 1779,6875 847,375
Cálculo de sumas de cuadrados y sumas de productos:
Año y Y Y x X X y2 x2 yx
1945 857,3125 297,6250 734984,7227 88580,6406 255157,6328
1946 397,3125 164,6250 157857,2227 27101,3906 65407,5703
1947 140,3125 -11,3750 19687,5977 129,3906 -1596,0547
1948 130,3125 93,6250 16981,3477 8765,6406 12200,5078
1949 204,3125 133,6250 41743,5977 17855,6406 27301,2578
1950 7,3125 126,6250 53,4727 16033,8906 925,9453
1951 -90,6875 -81,3750 8224,2227 6621,8906 7379,6953
1952 86,3125 72,6250 7449,8477 5274,3906 6268,4453
1953 116,3125 116,6250 13528,5977 13601,3906 13564,9453
1954 -95,6875 -36,3750 9156,0977 1323,1406 3480,6328
1955 -146,6875 -58,3750 21517,2227 3407,6406 8562,8828
1956 -122,6875 -45,3750 15052,2227 2058,8906 5566,9453
1957 -210,6875 -77,3750 44389,2227 5986,8906 16301,9453
1958 -389,6875 -208,3750 151856,3477 43420,1406 81201,1328
1959 -392,6875 -203,3750 154203,4727 41361,3906 79862,8203
1960 -490,6875 -283,3750 240774,2227 80301,3906 139048,5703
Suma 0,0000 0,0000 1637459,4375 361823,7500 720634,8750
Los estimadores de mínimos cuadrados ordinarios son:
Eˆ
¦ y i xi 720634.875
1.99167
¦ xi2 361823.75
Dˆ Y EX 1779.6875 1.99167 * 847.375 91.9929
Interpretación de resultados:
x Dˆ E >Y X 0@ 91.9929 (en miles de US$). Esto significa que si la empresa no

hace gastos en publicidad, X=0, se esperan ventas anuales (Y) por US$ 91,992.90.
dY
x Eˆ 1.99167 . Esto significa que por cada mil dólares adicionales de gastos en
dX
publicidad (dX)la empresa obtiene como retorno un incremento en las ventas (dY)
por US$1,991.67, o lo que es lo mismo, por cada dólar de gasto en publicidad
adicional se incrementan las ventas en 1.99 dólares.
Elasticidad de la publicidad en las ventas:

dY X
x En microeconomía se aprende que la elasticidad se define como H Y , X . .
dX Y
Tomando como referencia las ventas y los gastos en publicidad promedios, la
elasticidad de las ventas con respecto al gasto en publicidad de la compañía Lydia
Pinkham es:
847.375
H Y , X 1.99167. 0.9483
1779.6875
Esto significa que las ventas son inelásticas con respecto de los gastos en
publicidad, pues, por cada 1% de incremento en los gastos en publicidad, las ventas
solo aumentan en 0.94%.
Aplicaciones en economía de la empresa:
x Conocida la elasticidad de las ventas con respecto de los gastos en publicidad se

puede utilizar Regla de oro de la Publicidad, para saber si la empresa está
invirtiendo adecuadamente en publicidad o no. La regla es:
'Y H Y , X .'X
x La regla de oro de la publicidad significa que una empresa puede incrementar un

dólar más en gastos en publicidad hasta el incremento de las ventas se iguale a la
elasticidad de la demanda con respecto a los gastos en publicidad.
En el ejemplo, la pendiente de la línea de regresión (1.99) es mayor que la elasticidad de

los gastos en publicidad (0.94), por lo tanto el efecto de los gastos en publicidad tienen
un retorno lo suficientemente alto que todavía es posible aumentarlas para maximizar
ganancias.
2.2.2 Propiedades de los estimadores de MCO
a) Propiedades de Ê
Sea el modelo de regresión Yi D EX i u i y el estimador de Ê (ecuación 2.18):
n
¦ y i xi ¦ y i xi
i 1
Ê n ¦ k i yi (2.23)
¦x 2
i
¦ xi2
i 1
Donde:
xi
ki donde xi Xi X (2.24)
¦ xi2
Donde k i es una variable no aleatoria con las siguientes características:
1° ¦ ki 0
§ xi · ¦ xi 0
¦ ki ¦ ¨¨ 2
¸¸ 0
© ¦ xi ¹ ¦ xi2 ¦ xi2
1
2° ¦ k i2
¦ xi2
2 2
2 § x · ¦ xi 1
¦ ki ¦ ¨¨ i 2 ¸¸
© ¦ xi ¹ ¦
xi2
2
¦ xi
2
3° ¦ k i xi ¦ ki X i 1 .
§ x · § x · ¦ xi2
¦ k i xi ¦ ki X i ¦ ¨¨ i 2 ¸¸ X i ¦ ¨¨ i 2 ¸¸ xi 1
© ¦ xi ¹ © ¦ xi ¹ ¦ xi2
La ecuación 2.23 también se puede expresar como:
Ê ¦ k i yi ¦ k i (Yi Y ) ¦ k i Yi Y ¦ k i ¦ k i Yi (2.25)
Eˆ ¦ k i (D EX i u i ) D ¦ k i E ¦ k i X i ¦ k i u i E ¦ ki ui (2.26)
De las ecuaciones 2.25 y 2.26 se deduce que:
1° Ê es un estimador lineal, esto es, Ê es una combinación lineal en Yi , o de u i .
2° Si u i a N , entonces, Yi a N , y por lo tanto, de Ê a N .
Distribución de Ê :
Media (Valor Esperado) de Ê , E [ Eˆ ] :
De la ecuación 2.26: Ê E ¦ ki ui
E[ Eˆ ] E ¦ k i E[u i ] E (2.27)
Por lo tanto, Ê es un estimador insesgado de E .
Varianza de Ê , V ( Eˆ ) :
De la ecuación 2.26: Eˆ E ¦ k i u i Eˆ E ¦ ki ui
V ( Eˆ ) E[( Eˆ E[ Eˆ ] ) 2 ] E[( Eˆ Eˆ ) 2 ] E[(¦ k i u i ) 2 ] (2.28)
Pero,
¦ k i u i 2 ¦ k i2 ui2 ¦ ¦ k i k j u i u j , i z j (2.29)
i j
Luego,
ª º
V ( Eˆ ) E «¦ k i2 u i2 ¦ ¦ k i k j u i u j » ¦ k i2 E >u i2 @ ¦ ¦ k i k j E >u i u j @
¬ i j ¼ i j
§ 1 ·
V ( Eˆ ) ¦ k i2V u2 ¦ ¦ k i k j 0 V u2 ¦ k i2 V u2 ¨¨ ¸
2 ¸
(2.30)
i j © ¦ xi ¹
§ V2 ·
En resumen, Ê a N ¨¨ E , u 2 ¸¸
© ¦ xi ¹
b) Propiedades de D̂
Sea el modelo de regresión Yi D EX i u i y el estimador de D̂ (ecuación 2.17):
¦ Y §¨ ¦ yx ·¸ ª1 º
Dˆ Y EX X ¦ « X .ki »Yi ¦ wiYi , (2.31)
n ¨© ¦ x 2 ¸¹ ¬n ¼
Donde:
1
wi X .ki (2.32)
n
xi
Siendo k i (ecuación 2.24).
2
¦ xi
Donde wi es una variable no aleatoria con las siguientes características:
a) ¦ wi 1
§ 1 ·
¦ wi ¦ ¨ X .k i ¸ 1 X ¦ k i 1
©n ¹
2 2
1 X ¦ Xi
b) ¦ wi2
n ¦ xi2 n ¦ xi2
2
2 §1 · n ¦ ki 1 X2
¦ wi ¦ ¨ Xk i ¸ 2
2X X 2 ¦ k i2
©n ¹ n n n ¦ xi2
c) ¦ wi X i 0.
§1 · ¦ Xi
¦ wi xi ¦ ¨ Xki ¸ X i X ¦ ki xi X X 0
©n ¹ n
d) ¦ wi xi X
¦ wi xi ¦ wi ( X i X ) ¦ wi X i X ¦ wi 0 X X
La ecuación 2.31 también se puede expresar como:
Dˆ ¦ wi (D EX i u i ) D ¦ wi E ¦ wi X i ¦ wi u i D ¦ wi u i (2.33)
De las ecuación 2. 31 y 2.33 se deduce que:
1° D̂ es un estimador lineal, esto es, D̂ es una combinación lineal en Yi , o de u i .

2° Si u i a N , entonces, Yi a N , y por lo tanto, de D̂ a N .
Distribución de D̂ :
Media (Valor Esperado) de D̂ :
De la ecuación 2.33: D̂ D ¦ wi u i
E >Dˆ @ D ¦ wi E >u i @ D (2.34)
Por lo tanto, D̂ es un estimador insesgado de D .
Varianza de D̂ , V (Dˆ ) :
De la ecuación 2.33: Dˆ D ¦ wi u i Dˆ D ¦ wi u i
E[Dˆ E >Dˆ @ ] E[Dˆ D ] E[¦ wi u i ]
2 2 2
V (D ) (2.35)
Pero,
¦ wi u i 2 2 2
¦ wi u i ¦ ¦ wi w j u i u j , i z j (2.36)
i j
Luego,
ª º
V (Dˆ ) E «¦ wi2 u i2 ¦ ¦ wi w j u i u j » ¦ wi2 E[u i2 ] ¦ ¦ wi w j E[u i u j ]
¬ i j ¼ i j
§ 1 X 2 ·¸
V (Dˆ ) 2 2
¦ wi V u ¦ ¦ wi w j 0 V u2 ¦ wi2 V u2 ¨ (2.37)
¨ 2 ¸
i j © n ¦ xi ¹
§ ª1 X 2 º·
En resumen, D̂ a N ¨D , V u2 « » ¸¸
¨ 2
«¬ n ¦ xi »¼ ¹
©

c) Covarianza Dˆ , Eˆ
Cov[Dˆ , Eˆ ] C (Dˆ , Eˆ ) E[(Dˆ E[Dˆ ] ) ( Eˆ E[ Eˆ ] ) E[(Dˆ D )( Eˆ E )] (2.38)
De las ecuaciones 2.26 y 2.33 se tiene que:
Eˆ E ¦ k i u i Eˆ E ¦ ki ui
Dˆ D ¦ wi u i Dˆ D ¦ wi u i (2.39)
C (Dˆ , Eˆ ) E[(¦ wi u i )(¦ k i u i )] (2.40)
Pero,
¦ wi u i ¦ k i u i ¦ wi k i u i2 ¦ ¦ wi k j u i u j , i z j (2.41)
i i j
Luego,
ª º
C (Dˆ , Eˆ ) E «¦ wi k i u i2 ¦ ¦ wi k j u i u j » ¦ wi k i E[u i2 ] ¦ ¦ wi k j E[u i u j ]
¬i i j ¼ i i j
§ X ·
C (Dˆ , Eˆ ) ¦ wi k iV u2 ¦ ¦ wi k j (0) V u2 ¦ wi k i V u2 ¨¨ ¸
2 ¸
(2.42)
i i j i © ¦ x i ¹
Donde:
§ 1· § xi · ¦ xi X ¦ k i xi X
¦ wi k i ¦ ¨ Xk i ¸¨¨ 2
¸
¸ (2.43)
i ©n ¹© ¦ xi ¹ n¦ xi2 ¦ xi2 ¦ xi2
Por lo tanto, la matriz de varianzas y covarianzas de los estimadores D̂ y Ê es:

ª 2§ 1 X2 · § X ·º
¨
«V u ¨ ¸ V u2 ¨ ¸»
§ Dˆ · ª V Dˆ C (Dˆ , Eˆ )º 2 ¸ ¨ ¦ x2 ¸
V ¨¨ ˆ ¸¸ « © n ¦ xi ¹ © i ¹» (2.44)
« ˆ » «
©E ¹ ˆ
¬C (Dˆ , E ) V ( E ) ¼ 2§ X · § 1 ·»
« V u ¨¨ ¸
2 ¸
V u2 ¨¨ 2
¸¸»
«¬ © ¦ x i ¹ © ¦ xi ¹»¼
d) Estimador de la varianza del error, V u2
Sea el modelo de regresión lineal simple: Yi D EX i u i

Sea la línea de regresión estimada: Yˆ Dˆ EˆX i i
Por lo tanto, el residuo, o estimador del error aleatorio es:
uˆ i Yi Yî D EX i u i Dˆ EˆX i (D Dˆ ) ( E Eˆ ) X i u i (2.45)
¦ uˆ i2 ¦ [(D Dˆ ) ( E Eˆ ) X i u i ] 2 n(D Dˆ ) 2 ( E Eˆ ) 2 ¦ X i2 (2.46)

¦ u i2 2(D Dˆ )( E Eˆ )¦ X i 2(D Dˆ )¦ u i 2( E Eˆ )¦ X i u i
E[¦ uˆ i2 ] nE[D Dˆ ] 2 E ( E Eˆ ) 2 ¦ X i2 ¦ E[u i2 ] (2.47)

2 E[(D Dˆ )( E Eˆ )]¦ X i 2 E[(Dˆ D )¦ u i ] 2 E[( Eˆ E )¦ X i u i ]
Pero,
(Dˆ D )¦ u i (¦ wi u i )¦ u i ¦ wi u i2 ¦ ¦ wi u i u j i z j (2.48)
i i j
( Eˆ E )¦ X i u i (¦ k i u i ) ¦ X i u i ¦ k i X i ui2 ¦¦ k i X j ui u j i z j (2.49)
i i j
Luego,
E[Dˆ D ¦ u i ] ¦ wi E[u i2 ] ¦ ¦ wi E[ui u j ] V u2 (2.50)
i i j
E[( Eˆ E )¦ X i ui ] ¦ k i X i E[ui2 ] ¦¦ k i X j E[ui u j ] V u2 (2.51)

i i j
Introduciendo los resultados de 2.50 y 2.51 en la ecuación 2.47 se tiene:

2 ª1 X 2 º ª V u2 º X ¦ Xi
>
E ¦ ui
ˆ 2
@
nV u « 2 »
« 2 »¦
X i2 nV u2 2V u2 2
2V u2 2V u2
¬ n ¦ xi ¼ ¬ ¦ xi ¼ ¦ xi
ª nX 2 ¦ X i2 X ¦ Xi º
>
E ¦ uˆ i2 @ V u2 «1 2
2
2 2
n 4»
¬ ¦ xi ¦ xi ¦ xi ¼
2 2 2
2 ª ¦ X i nX 2 X ¦ X i º 2 ª¦(Xi X ) º
>
E ¦ uˆ i2 @ Vu « n 3» V u « n 3»
¬ ¦ xi2 ¼ ¬ ¦ xi2 ¼
2
ª ¦ xi º
>
E ¦ uˆ i2 @ V u2 « 2
n 3» V u2 >1 n 3@ V u2 ( n 2) (2.52)
¬ ¦ xi ¼
Pasando (n-2) al otro miembro:

ª ¦ uˆ i2 º 2
E« » Vu (2.53)
«¬ ( n 2 ) »¼
Por lo tanto, si se define al estimador de la varianza del error como:

2
¦ uˆ i
Vˆ u2ˆ (2.54)
( n 2)
Se encuentra que Vˆ u2ˆ es el estimador insesgado de la varianza del error, V û2 .
ª ¦ uˆ i2 º
> @
E Vˆ u2ˆ E« 2
» V uˆ (2.55)
«¬ ( n 2) »¼
Matrix de varianzas y covarianzas del Ejemplo 2.1

Year Y =ventas Ŷ û û 2
1945 2.637 2.372,4594 264,5406 69.981,7248
1946 2.177 2.107,5668 69,4332 4.820,9699
1947 1.920 1.757,0322 162,9678 26.558,5003
1948 1.910 1.966,1580 -56,1580 3.153,7162
1949 1.984 2.045,8249 -61,8249 3.822,3193
1950 1.787 2.031,8832 -244,8832 59.967,7778
1951 1.689 1.617,6150 71,3850 5.095,8116
1952 1.866 1.924,3328 -58,3328 3.402,7165
1953 1.896 2.011,9665 -115,9665 13.448,2185
1954 1.684 1.707,2404 -23,2404 540,1146
1955 1.633 1.663,4235 -30,4235 925,5920
1956 1.657 1.689,3153 -32,3153 1.044,2788
1957 1.569 1.625,5817 -56,5817 3.201,4935
1958 1.390 1.364,6725 25,3275 641,4834
1959 1.387 1.374,6308 12,3692 152,9960
1960 1.289 1.215,2969 73,7031 5.432,1406
Suma 28.475 28.475,0000 0,0000 202.189,8537
2
Vˆ u2ˆ
¦ uˆ i2 202.189,8537
(120.1754 ) 2
¦ x =361.823,75. X 847,3750
( n 2) 16 2
ª 2§ 1 X 2 · § ·º
«Vˆ u ¨¨ ¸ Vˆ u2 ¨ X ¸»
¨ ¦ x 2 ¸»
« © n ¦ xi ¸¹
2
§ Dˆ · © i ¹ ª 29563.25 33,82283º
V ¨¨ ˆ ¸¸ « » « 33,82283 0.039915 »
©E ¹ §
« Vˆ u2 ¨ X ¸
· 2§¨ 1 ·¸» ¬ ¼
¨ ¦ x2 ¸
Vˆ u¨ 2¸
«¬ © i ¹ © ¦ xi ¹»¼
e) Teorema de Gauss-Markov
Dado que los estimadores de mínimos cuadrados ordinarios, D̂ , Ê , y Vˆ u2ˆ son

estimadores lineales e insesgados del error, u , estos estimadores son los mejores
estimadores de D , E , y V u2 , que cualquier otro estimador lineal e insesgado.
D̂ , Ê , y Vˆ u2ˆ son MELI
Demostración:
De las ecuaciones 2.26 y 2.33: Ê E ¦ ki ui D̂ D ¦ wi u i
La Varianza de Ê es mínima:
~
Supongamos que existe otro estimador lineal de E , digamos E E ¦ k i u i c , donde
~
c es una constante cualquiera distinta de cero. Si la varianza de E no es menor que la
varianza de Ê , entonces, la varianza de Ê será mínima.
~
E E ¦ kiui c
~
(E E ) 2 (¦ k i u i c) 2 ¦ k i2 u i2 ¦ ¦ k i k j u i u j 2c ¦ k i u i
i j
~
E[ E E ] 2 E[(¦ k i u i c) 2 ] ¦ k i2 E[u i2 ] ¦ ¦ k i k j E[u i u j ] 2c ¦ k i E[u i ]
i j
~ ~ V u2
V (E ) E[ E E ] 2 V u2 ¦ k i2 ¦ ¦ k i k j 0 2c ¦ k i (0)
i j ¦ xi2
~
Por lo tanto: V E V Eˆ . El estimador de E de MCO, Ê , tiene varianza mínima.
La Varianza de D̂ es mínima:
Supongamos que existe otro estimador lineal de D , digamos D~ D ¦ wiui c , donde

c es una constante cualquiera distinta de cero. Si la varianza de D~ no es menor que la
varianza de D̂ , entonces, la varianza de D̂ será mínima.
D~ D ¦ wiui c
(D~ D ) 2 (¦ wi u i c) 2 ¦ wi2 u i2 ¦ ¦ wi w j u i u j 2c ¦ wi u i
i j
E[D~ D ] 2 E[¦ wi u i c] 2 2 2
¦ w E[u ] ¦ ¦ wi w j E[u i u j ] 2c ¦ wi E[u i ]
i i
i j
ª1 X2 º
V (D~ ) >
E D~ D
2
@ V u2 ¦ wi2 ¦ ¦ wi w j 0 2c ¦ wi (0) V u2 « 2 »
i j ¬ n ¦ xi ¼
Por lo tanto: V D~ V Dˆ . El estimador de D de MCO, D̂ , tiene varianza mínima.
2.3 VALIDACIÓN
Todo modelo econométrico requiere ser validado en tres niveles: validación económica,
validación estadística y validación empírica.
2.3.1 Validación Económica:
La validación económica consiste en contrastar el signo y la magnitud de los

estimadores con los planteados por la teoría económica. Por ejemplo: sea la función
consumo: C i D EYd i u i .
Las hipótesis económicas sugieren que si D ! 0 y 0 E 1 , el multiplicador

1
keynesiano del gasto autónomo, , será siempre mayor que 1. Si los resultados
1 E
para D̂ y Ê en términos de magnitud y signo concuerdan con los valores esperados
según las hipótesis económicas entonces, el modelo tiene coherencia con teoría
económica. En otro caso, por ejemplo, si los resultados del modelo estimado encontrara
que Eˆ ! 1 implicaría que el multiplicador keynesiano fuera negativo, lo cual no tendría
soporte teórico.
Otro ejemplo, puede aplicarse a la teoría de la demanda, donde un modelo no podría ser
aceptado como teóricamente válido si la demanda no tienen pendiente negativa con
respecto al precio del bien.
2.3.2 Validación estadística:
Consiste en evaluar el modelo sobre la base de los criterios “bondad de ajuste”,

significación estadística e intervalos de confianza de los estimadores.
a) Bondad de Ajuste:
El estadístico de mayor uso para medir la bondad de ajuste de un modelo es el

Coeficiente de Determinación o R 2 . El R 2 mide el porcentaje de la variación total que
es explicada por la regresión. Un modelo muestra mejor “ajuste” que otro si tiene mayor
R2 .
SCExp
R2 (2.56)
SCT
Donde:
SCExp : Suma de cuadrados explicada por la regresión
SCT : Suma de cuadrados totales
Para encontrar el R 2 se debe seguir el siguiente proceso algebraico:
Sea el modelo de regresión lineal simple: Yi D EX i u i , y

Sea el modelo estimado: Yˆ Dˆ EˆX i i
El residuo, û i , se obtiene como la diferencia entre el valor observado y el valor

estimado de la variable dependiente, es decir: uˆ Y Yˆ . i i i
Esto significa que el valor observado también se puede expresar como:
Yi Yî uˆ i (2.57)
La Suma de Cuadrados Totales (SCT), ¦ y i2 , es:

i
¦ Yi Y
2 2 2 2
¦y i ¦ Yi nY (2.58)
i
A partir de la ecuación 2.57, la SCT puede descomponerse de la siguiente manera:
Yi Y Yˆ Y uˆ
i i
¦ Yi Y ¦ >Yˆ Y uˆ @ , o también
2 2
i i
¦ > yˆ i uî @
2
¦ yi2 ¦ yˆ i2 ¦ uˆ i2 2¦ uˆ i yˆ i
Pero ¦ uˆ i yˆ i 0 porque ¦ uˆ i x i 0 (ver ecuación 2.22):

¦ uî yˆ i ¦ uî (Yî Y ) ¦ uî (Dˆ EˆX i Dˆ EˆX ) Eˆ ¦ uî ( X i X ) Eˆ ¦ uî xi 0
Luego,
¦ yi2 ¦ yˆ i2 ¦ uˆ i2 (2.59)
SCT SCExp SC Re s (2.60)

Es decir, la suma de cuadrados totales (SCT) se puede descomponer en la parte que es

explicada por la regresión (suma de cuadrados explicada, SCExp) y la no explicada por
la regresión (suma de cuadrados residuales, SCRes)
La suma de cuadrados explicada, SCExp, se obtiene de:
¦ yˆ i
2

¦ Yî Y 2
¦ Dˆ EˆX i Dˆ EˆX 2 Eˆ 2 ¦ xi2 Eˆ ¦ xi y i (2.61)
i
De la ecuación 2.23: Eˆ
¦ xi y i
¦ xi2
La suma de cuadrados residuales, SCRes, es:
¦ uî2 ¦ yi2 ¦ yî2 ¦ yi2 Eˆ 2 ¦ xi2 ¦ yi2 Eˆ ¦ xi yi (2.62)

i
De la ecuación 2.60, dividiendo por SCT y reordenando, se puede demostrar que el

SCExp
coeficiente de determinación, R 2 , toma valores que va de cero a uno, toda
SCT
vez que las sumas de cuadrados sólo toman valores positivos:
SCExp SC Re s
R2 1 ; 0 d R2 d 1 (2.63)
SCT SCT
El R 2 también se puede expresar como:
Eˆ 2 ¦ xi2 Eˆ ¦ xi yi ¦ yi2 Eˆ ¦ xi yi ¦ yi2 Eˆ 2 ¦ xi2

R2 1 1 (2.64)
¦ yi2 ¦ yi2 ¦ yi2 ¦ yi2
R 2 En el ejemplo 2.1
SCExp (1.9916) 2 720634.8750

2 SC Re s 202189.8537
R 1 1 0.8765
SCT 1637459.4375 SCT 1637459.4375
El 87.65% de la variación de las ventas (Y) son explicadas por las variaciones en los
gastos en publicidad (X).
Coeficiente de correlación simple
§ ¦ yx ·§ ¦ yx · § ·
rY , X rX ,Y
¦ yx
¨ ¸¨ ¸ Eˆ ¨ ¦ yx ¸ R 2 0.9362
¨ ¦ x 2 ¸¨ ¦ y 2 ¸
¦ y2 ¦ x2 ¨ ¦ y2 ¸
© ¹© ¹ © ¹
Mide el grado de asociación lineal entre las variables X e Y. 1 d r d 1 . En el ejemplo
1, un r=+0.93 significa una alta asociación lineal directa entre Y y X.
Ejemplo 2.12 Comparación de modelos según su “bondad de ajuste”
Cuando se compara la “bondad de ajuste” de diferentes modelos econométricos

estimados se debe tener cuidado en verificar que la variable dependiente en todos ellos
sea la misma, esto garantiza que la suma de cuadrados totales sea la misma en todos los
modelos. Supongamos tres modelos A, B y C:
Modelo A: Yi D A E A X i u i
Modelo B: Yi D B E B log X i vi
Modelo C: Z i logYi D C E C X i K i
Sólo se podrían comparar directamente los R 2 de los modelos A y B, R A2 vs RB2 ,

porque tienen la misma variable dependienteYi , pero, no se podría comparar RC2 vs R A2
~
o RC2 vs RB2 . Sin embargo, se puede adecuar el R 2 del modelo C, RC2 , para hacerlo
comparable con el R 2 del modelo A o B, R A2 o RB2 . Pasos:
Paso 1: Obtener zî Dˆ C Eˆ C X i .

Paso 2: Calcular Anti log(Zˆ i ) Yî C
~
Paso 3: Obtener el RC2 de la regresión: Yi G JYî C H i
~
RC2 , si es comparable con R A2 o RB2 porque tienen la misma variable dependiente Yi .
b) Prueba de hipótesis:
Un modelo es estadísticamente válido si los estimadores de los parámetros son

estadísticamente significativos, es decir, la variable explicativa asociada al estimador
contribuye significativamente a explicar las variaciones de la variable dependiente, Y.
Sea el modelo de regresión lineal simple: Yi D EX i u i

Sea el modelo estimado: Yˆ Dˆ EˆX
i i
Los estimadores D̂ y Ê son estadísticamente significativos si rechazan la hipótesis
nula, Ho, en caso contrario significaría que sería mejor especificar un modelo de
regresión sin intercepto y que las variaciones de X no ayudan a explicar las variaciones
de Y.
Hipótesis Estadístico de Prueba Criterio de Decisión

H 0 :D 0 Se rechaza la Ho si
Dˆ
H a :D z 0 tDˆ tDˆ ! t n 2 gl
S (Dˆ )
Ho: la línea de regresión pasa por el ó
S (Dˆ ) V (Dˆ ) tDˆ ! 2
origen
H0 : E 0 Se rechaza la Ho si
Eˆ
t Eˆ t Eˆ ! t n 2 gl
Ha : E z 0 S ( Eˆ )
Ho: la variable X no ayuda a explicar ó
las variaciones de la variable Y. S ( Eˆ ) V ( Eˆ ) t Eˆ ! 2
Usualmente se utiliza 2 como valor crítico para el estadístico t, porque la distribución t

converge a una distribución normal. En ese sentido, si tomamos el intervalo de + ó – 2
desviaciones estándar del estimador tendremos un área del 95% de confianza, o un 5%
de probabilidad (nivel de significación) de rechazar una hipótesis nula.
En caso de aceptar la hipótesis nula, H 0 : D 0 , significa que la línea de regresión

pasa por el origen, lo que implica que el modelo de regresión se puede representar
¦ X i Yi
como: Yi EX i u i ; por lo tanto, el estimador de E se modifica a: Eˆ .
2
¦ Xi
Una aplicación de estos modelos es cuando las variables tienen un promedio igual a
cero, o cuando las variables representan la diferencia entre la variable original y sus
promedios, por ejemplo:
(a) Wi D EZ i vi
(b) W D EZ v
(a-b) Wi W E Zi Z vi vi
Si se sustituye Yi Wi W ; Xi Zi Z ; y ui vi vi
Yi EX i ui
Y
E >Yi X i @ EX i u i
Yi

Eˆ
¦ X i Yi
¦ Xi
2

X
0
Gráfico 2.4 La línea de regresión pasa por el origen
Note que Y y X tienen media cero, por lo tanto, la línea de regresión pasa por el origen.
Por ejemplo, si corremos un modelo de tasa de interés activa efectiva mensual que
cobra el sistema bancario a sus clientes (TIA) contra la tasa de inflación mensual (INF)
notaremos que ambas variables en los últimos años se muestran como variables
estacionarias con respecto a sus promedios; por lo tanto, podemos expresarlas en
términos de desviación con respecto a su media y correr el modelo sin intercepto:
Yt EX t u t Donde: Yt TIAt T I A y X t INFt I N F ;

En caso de aceptar la hipótesis nula, H 0 : E 0 , significa que la línea de regresión es

una línea paralela al eje X, su pendiente es cero, o lo que es lo mismo, la variable
independiente, X i , no ayuda a explicar los valores de la variable dependiente Yi . Según
esto, el modelo de regresión se puede representar como: Yi D u i y por lo tanto el
estimador de D se modifica a: D̂ Y.
Yi
E >Yi X i @ D u i
D E >Yi X i @

D̂ Y
^ 0
X
Gráfico 2.5 X no influye en Y
Una aplicación de estos modelos es cuando la variable dependiente, Yi , es estacionaria

con respecto a su media, es decir, los valores de Yi se mueven alrededor de una
constante. Por ejemplo, si se quiere estimar la tasa de inflación promedio mensual del
Perú en los últimos 2 ó 3 años, bastaría con especificar el modelo:
INFLACION t S u t .
Donde Sˆ será igual al promedio de la inflación observada, porque û =0.
Para probar la hipótesis H 0 : E 0 , en el modelo Yi D EX i u i , puede utilizarse el

estadístico t visto arriba, pero también el estadístico F , donde:
2
SCExp / 1 Eˆ 2 ¦ xi2 Eˆ 2 ¦ xi2 Eˆ 2 Eˆ 2 § Eˆ ·
FEˆ ¨ ¸ t E2ˆ
¨ S ( Eˆ ) ¸
SC Re s ¦ yi2 Eˆ 2 ¦ xi2 Vˆ u2 Vˆ u2 V ( Eˆ ) © ¹
n2 n2 ¦ xi2
Para la misma hipótesis, también se puede probar que:

SCExp
SCExp / 1 SCExp SCT § R2 ·
FEˆ n 2 n 2¨¨ ¸
2 ¸
SC Re s SCT SCExp SCT SCExp © 1 R ¹
n2 n2 SCT
En ambos casos, el FÊ debe ser comparado con el F con 1 y n-2 grados de libertad.
FÊ a F1,n 2 gl
Prueba de Hipótesis en el ejemplo 2.1
Dependent Variable: VENTAS

Method: Least Squares
Included observations: 16
Variable Coefficient Std. Error t-Statistic Prob.
C (Intercepto) 91.99293 171.9397 0.535030 0.6010
GAST_PUBLICIDAD 1.991674 0.199787 9.968988 0.0000
R-squared 0.876522 Mean dependent var 1779.688
S.E. of regression 120.1754 F-statistic 99.38072
Sum squared resid 202189.9 Prob(F-statistic) 0.000000
Note que el estadístico t para el intercepto (variable C) es menor que 2, esto implica que
se acepta la hipótesis nula que el intercepto no es estadísticamente distinto de cero. En
cambio, el estimador de E asociado a la variable explicativa GAST_PUBLICIDAD
tiene un t=9.96, o sea mayor que 2, lo que rechaza la hipótesis nula que E 0 . En otras
palabras, los gastos en publicidad si ayudan a explicar las variaciones de las ventas. El
estadístico F=99.38 es mayor que F1,14gl 4.6 , lo que rechaza la hipótesis nula que
E 0.
b.3 Intervalos de confianza:
Un intervalo de confianza para una variable aleatoria se define como los límites
[Tˆ1 ;Tˆ2 ] que tienen una probabilidad de 1 O de contener al verdadero parámetro T ,
donde O es el nivel de significación o probabilidad de rechazar una hipótesis verdadera.
En general un intervalo de confianza se puede expresar de la siguiente manera:
IC ªTˆ t O S (Tˆ) d T d Tˆ t O S (Tˆ)º 1 O (2.65)

«¬ 2 2 »¼
Se interpreta como que el intervalo [Tˆ1 ;Tˆ2 ] tiene una probabilidad de 1 O * 100 de
contener al verdadero parámetro T . Si O 0.05 , estaremos hablando de un intervalo
que tiene el 95% de confianza. El t O se obtiene con n-2 grados de libertad.
2
Los intervalos de confianza para los parámetros D y E son:

IC ªDˆ t O * S (Dˆ ) d D d Dˆ t O * S (Dˆ )º 1 O (2.66)
«¬ 2 2 »¼
IC ª Eˆ t O * S ( Eˆ ) d E d Eˆ t O * S ( Eˆ )º 1 O (2.67)
«¬ 2 2 »¼
El intervalo de confianza para el parámetro V u2 se obtiene de:

ª 2 n 2 Vˆ u2ˆ º
IC « F 1O d 2
d F O2 » 1 O (2.68)
¬ 2 Vu 2
¼
ª Vˆ 2 n 2Vˆ u2 º»
« n 2 u 2
IC dVu d 1 O (2.68)
« F O2 F 12O »
¬ 2 2 ¼
En este caso el F 2 se construye con n-2 grados de libertad.
Intervalos de confianza para D y E en el Ejemplo 2.1
Los intervalos de confianza del 95% para los parámetros D y E son:

IC >91.99 2 * 171.9397 d D d 91.99 2 * 171.9397@ 1 0.05
IC > 251.8864 d D d 435.8732@ 0.95
El intervalo > 251.8;435.8@ tiene una probabilidad del 95% de contener al verdadero D
IC >1.9916 2 * 0.1997 d E d 1.9916 2 * 0.1997)@ 1 0.05

IC >1.5920 d E d 2.3912)@ 0.95
El intervalo >1.59;2.39@ tiene una probabilidad del 95% de contener al verdadero E .
2.3.3 Validación empírica:
Un modelo se valida empíricamente si es capaz de reproducir la realidad con una

proporción de error “aceptable”. Un modelo es mejor que otro si tiene menor error de
pronóstico.
a) Predicción Media
Consiste en construir el intervalo de confianza por donde puede pasar la función de

regresión verdadera E >Yi X i @ D EX i
Como no se conoce por dónde puede estar pasando la función de regresión verdadera, a
partir de la función de regresión muestral estimada se construye un área que tenga una
alta confianza de contener a la verdadera regresión.
Pero, los estimadores de la Función de Regresión Muestral (FRM): Yî Dˆ EˆX i tienen
la siguiente distribución:
§ 2 ª1 X 2 º ·¸ § V u2 · V u2 X
¨
D̂ a N ¨D ; V u « ; ¨
Ê a N ¨D ; ¸ y C (D , E ) .
2 »¸ 2 ¸
© ¬ n ¦ xi ¼ ¹ © ¦ xi ¹ ¦ xi2
Además, sea Yi D EX i u i con las siguientes características:


u i a N 0; V u2 ; E >ui ui rs @ 0 ; Yi a N D EX i ;V u2
¿Cuál es la distribución de la Función de Regresión Muestral, Yî Dˆ EˆX i ?
Media de Yî , E Yî : > @

> @ E>Dˆ EˆX i @
E Yî D EX i (2.69)
Varianza de Yî , V Yî > @

> @ V >Dˆ EˆX @
V Yî i V (Dˆ ) X i2V ( Eˆ ) 2 X i C (Dˆ , Eˆ )
ª1 X 2 º V u2 X i2 V u2 X i X ª 1 X 2 X i2 2 X i X º
>@
V Yî V u2 « 2 »
2
V u2 « »
¬ n ¦ xi ¼ ¦ xi ¦ xi2 ¬n ¦ xi2 ¼
ª 1 X i X 2 º
>@
V Yî 2
V «
u » S Y2ˆ (2.70)
¬« n ¦ xi2 ¼» i
Intervalo de confianza para el E >Yi X i @:
IC E >Yi X i @ ªYî S Yˆ i .t O d E >Yi X i @ d Yî S Yˆ i .t O º 1 O (2.71)

«¬ 2 2»
¼
ª 1 X X 2 º
Donde: S (Yî ) V [Yî ] V u « i 2 » y t O con n-2 grados de libertad.
¬« n ¦ x i ¼» 2
b) Predicción Punto
Sea el verdadero valor de la variable dependiente y su predictor en el período o la

observación p-ésima de pronóstico.
Yp D EX p u p
Yˆp Dˆ EˆX p
Sea uˆ p el error de pronóstico,:
uˆ p Y p Yˆp (D Dˆ ) ( E Eˆ ). X p u p
Media del error de pronóstico, E[uˆ p ] :
E[uˆ p ] E[D Dˆ ] E[ E Eˆ ]. X p E[u p ] 0 (2.72)

Varianza del error de pronóstico,V [uˆ p ] :

V [uˆ ] V [(D Dˆ ) ( E Eˆ ) X u ]
p p p
V [uˆ p ] V [(D Dˆ ) V [( E Eˆ ) X p ] V [u p ] 2.C[(D Dˆ )( E Eˆ ) X p ]

2.C[(D Dˆ )u ] 2.C[( E Eˆ ) X u ]
p p p
Dado que E >D Dˆ u i @ E >D Dˆ @.E >u i @ 0 y E[(E Eˆ ) X p u p ] E[ E Eˆ ].E[ X p u p ] 0

2 2
ª1 X 2 º Vu X p 2V u2 X p X
> @
V uˆ p 2
V «
u 2 »
2
Vu
¬« n ¦ xi ¼» ¦ xi ¦ xi2
2
ª 1 X p X 2 º
> @
V uˆ p 2
V «1
u
» S uˆ2p (2.73)
«¬ n ¦ xi2 »¼
Intervalo de confianza para el Y p :
ICYp ªYˆp S uˆ p .t O d Y p d Yˆp S uˆ p ..t O º 1 O (2.74)

«¬ 2 2»
¼
Donde: S uˆ p . V [uˆ p ] Vu
ª 1 X X
«1 p 2
2
º
» y tO con n-2 grados de libertad.
« n ¦ xi » 2
¬ ¼
Predicción Media y Predicción Individual en el Ejemplo 2.1
Predicción Media Predicción Individual

Año Yi Yî
Yî 2 SYˆ Yî 2 S Yˆ SYˆ
i
Yî 2 Suˆ p Yî 2 Suˆ p Suˆ p
i i
1945 1145 2372,46 2239,22 2505,70 66,62 2097,65 2647,27 137,41

1946 1012 2107,57 2018,47 2196,66 44,55 1851,23 2363,90 128,17
1947 836 1757,03 1696,77 1817,29 30,13 1509,24 2004,82 123,89
1948 941 1966,16 1895,38 2036,94 35,39 1715,60 2216,71 125,28
1949 981 2045,82 1965,44 2126,21 40,19 1792,39 2299,26 126,72
1950 974 2031,88 1953,33 2110,44 39,28 1779,02 2284,74 126,43
1951 766 1617,62 1549,29 1685,94 34,16 1367,74 1867,49 124,94
1952 920 1924,33 1857,60 1991,06 33,36 1674,89 2173,77 124,72
1953 964 2011,97 1935,93 2088,01 38,02 1759,87 2264,06 126,05
1954 811 1707,24 1645,42 1769,06 30,91 1459,07 1955,41 124,09
1955 789 1663,42 1598,97 1727,88 32,23 1414,58 1912,27 124,42
1956 802 1689,32 1626,55 1752,08 31,38 1440,90 1937,73 124,21
1957 770 1625,58 1558,01 1693,16 33,79 1375,91 1875,25 124,83
1958 639 1364,67 1261,99 1467,35 51,34 1103,31 1626,04 130,68
1959 644 1374,63 1273,57 1475,70 50,53 1113,90 1635,37 130,37
1960 564 1215,30 1087,11 1343,48 64,09 942,90 1487,69 136,20
PREDICCIÓN MEDIA
PREDICCION INDIVIDUAL
2,400
2,400
LIMITE
LIMITE Y
SUPERIOR Estimad SUPERIOR
o
Y
LIMITE ESTIMADO
INFERIOR
VENTAS
VENTAS
1,800 1,800
LIMITE
INFERIOR
1,200 1,200
600 850 1,100
600 850 1,100
GASTOS EN PUBLICIDAD
GASTOS EN PUBLICIDAD
Los errores estándar para la predicción individual y predicción media han sido
calculadas para todos los valores observados para la variable X, gastos en publicidad.
La media de X y la suma de cuadrados de X son las mismas que las utilizadas en los
ejemplos anteriores. De igual modo, la varianza del error es la misma que la utilizada
anteriormente.
2
¦ uî
2
¦ x =361.823,75. X 847,3750 Vˆ u2ˆ (120.1754 ) 2
( n 2)
Note que el intervalo de confianza en la predicción individual es mayor que el intervalo
de confianza de la predicción media.
c) Evaluación del Pronóstico.
Sea el error de pronóstico, u p Yt Yˆt , la diferencia entre el valor actual, Yt , y el valor

pronosticado, Yˆ , para la variable dependiente. El Coeficiente de desigualdad de Theil
t
(U-Theil) mide el porcentaje error promedio del pronóstico, definido como:
§1·

¨ ¸¦ Yˆt Yt
2

©m¹
U Theil (2.75)
§ 1 · ˆ2 §1·
¨ ¸¦ Yt ¨ ¸¦ Yt
2
©m¹ ©m¹
Donde m es el número de períodos (u observaciones) que se pronostican.
El valor del coeficiente U está comprendido entre 0 y 1, excepto en el caso de que tanto
las predicciones como los valores reales, sean todos cero, en este caso el coeficiente U
será indeterminado.
a) U=0 (error cero) si los valores predichos coinciden con los valores observados.
b) U=1 (100% de error), la predicción es totalmente errónea. Este caso puede ocurrir
en tres casos:
x Predicción nula para valores observadas distintas de cero.
x Predicciones no nulas para valores observados iguales a cero.
x Que las predicciones se equivoquen sistemáticamente de capturar los quiebres o
cambios de rumbo.
Otras tres medidas del error promedio del pronóstico comúnmente utilizados son:
El error cuadrático medio (ECM): mide la varianza promedio del error de pronóstico.
§1·

ECM ¨ ¸¦ Yˆt Yt
2
(2.76)
©m¹
La raíz del error cuadrático médio (RECM): mide una la desviación promedio del error.
RECM
§1· ˆ
¨ ¸¦ Yt Yt 2 (2.77)
©m¹
El porcentaje de la raíz del error cuadrático medio (%RECM): mide el porcentaje

promedio del error.
2
§ 1 · §¨ Yˆt Yt ·
¸ * 100
% RECM ¨ ¸¦ ¨ ¸ (2.78)
© m ¹ © Yt ¹
El error cuadrático medio puede ser descompuesto en tres fuentes de error:

§1·
¨ ¸¦ (Yˆt Yt )
2
(Yˆ Y ) 2 ( S Yˆ S Y ) 21 r S Yˆ .S Y (2.79)
©m¹
Donde Yˆ , Y , SYˆ , SY son las medias y las desviaciones estándar de Yˆt y Y . r es el

coeficiente de correlación simple entre Yˆt y Y .
Dividiendo cada término por el ECM se puede descomponer las fuentes generadoras del
error de pronóstico, donde la suma de las “fuentes” del error de pronóstico es uno.
U M U S UC 1 (2.80)
Proporción del error explicado por el sesgo: Mide el porcentaje del error de pronóstico
que es explicado por la no captación de la media o tendencia de largo plazo.
(Yˆ Y ) 2
UM (2.81)
§1·
¨ ¸¦ (Yˆt Yt )
2
©m¹
Proporción del error explicado por la varianza: Mide el porcentaje del error de
pronóstico que se produce por no captar los cambios de tendencia (“quiebres” de corto
plazo).
S Yˆ S Y
US (2.82)
§1·
¨ ¸¦ (Yˆt Yt )
2
©m¹
Proporción del error de Covarianza: Mide el porcentaje del error de pronóstico que no
es explicado por los errores de sesgo o los errores de varianza, sino producto de la
covariación y que no es explicado por ninguno de los ratios anteriores, esto implica que
es explicado por factores puramente aleatorios.
2(1 r ) S Yˆ .S Y
UC (2.83)
§1·
¨ ¸¦ (Yˆt Yt )
2
©m¹
Un modelo se valida si tiene error de pronóstico “pequeño” y las fuentes de error de

tendencia y de varianza son pequeños, siendo el error explicado básicamente por
razones puramente aleatorias no sistemáticos.
Evaluación del Pronóstico en el Ejemplo 2.1

P REDICCION DE LAS VENTAS
VERSUS VENTAS OBSERVADAS
Forecast: SALESF 2800
Actual: SALES
Forecast sample: 1 16 2400
Root Mean Squared Error 112.4138 2000
Mean Absolute Error 84.96578
Mean Absolute Percentage Error 4.510589
1600
Theil Inequality Coefficient 0.031114
Bias Proportion 0.000000
Variance Proportion 0.032936 1200
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Covariance Proportion 0.967064
VENTAS (OBSERVADA) VENTAS (PREDICCION)
Según el U-Theil el modelo tiene un error promedio de 0.031, es decir, 3.1% de error
entre el valor predicho y el valor observado.
2.4 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
2.4.1 Máxima Verosimilitud (MV)
Este método de estimación se utiliza cuando se supone conocida la función de densidad

de probabilidad (pdf) del término de perturbación del modelo de regresión lineal simple
Yi D EX i u i . Donde ui a NID(0, V u2 ) y E (u i u i rs ) 0 , s z 0.
Entonces, el pdf de u i (para la observación i-ésima) es:

1 2
ui
1 2V u2
f (u i ) e (2.85)
2SV u2
La función de densidad conjunta para las n observaciones independientes de u i :

1 2
n n ui
1 2V u2
f (u ) f (u i ) f (u1 ). f (u 2 )....... f (u n ) e
i 1 i 1 2SV u2
n § 1 ·
§ 1 · 2 ¨¨© 2V u2 ¸ ¦ ui2
¸
f (u ) ¨ ¸ e ¹ (2.86)
¨ 2SV 2 ¸
© u ¹
Si reemplazamos u i por Yi D EX i obtenemos la Función de Verosimilitud L(.) :
§ 1 ·
n ¨ 2 ¸ ¦ Yi D EX i 2
f (u ) L(D , E , V u2 Yi , X i )
2SV u2 2
¨ 2V
e© u
¸
¹ (2.87)
Para facilitar los procesos de optimización se haya el logarítmo de la función de

verosimilitud, l (.) log( L(.)) :
§ 1 ·
§n·
l (D , E , V u2 ) ¨
© 2 ¹
§n·
© 2¹
2
¨ ¸

¸ log2S ¨ ¸ log V u ¨ 2 ¸¦ Yi D EX i
2
(2.88)
© 2V u ¹
El método de máxima verosimilitud consiste en maximizar la función de verosimilitud o

su equivalente, la función log verosimilitud (log likelihood):
wl (.) wl (.) wl (.) ~

Max l (D , E , V u2 ) 0 ; 0 ; 0 D~, E , V~u2
wD wE wV u2
Esto es:
wl (.) 2 ~
wD 2V~u2
¦ Y i
D~ E X i 1 0 (2.89)
wl (.) 2 ~
wE ~ 2

¦ Yi D~ E X i X i 0 (2.90)
2V
wl (.) § n · § 1 ·
¨ ¸¨ ¸¦ Yi D~ E~X i
2 0 (2.91)
wV 2 ¨ 2V~ 2 ¸ ¨ 2V~ 4 ¸
© u ¹ © u ¹
De la ecuación 2.89, 2.90 y 2.91 se obtiene, respectivamente:
~
D~ Y EX (2.92)
~ ¦ Yi Y X i X ¦ yi xi
E (2.93)
¦ X i X
2 2
¦ xi
~
V~ 2

¦ Yi D~ E X i 2 (2.94)
u
n
2.4.2 Propiedades muestrales y asintóticas de los estimadores de MV

~
Dado que D~ Dˆ y E Eˆ los estimadores de Máxima Verosimilitud mantienen las
propiedades de ser los Mejores Estimadores Lineales e Insesgados (MELI), tal como los
estimadores de MCO.
~
Por lo tanto, las medias, las varianzas y las covarianzas de los estimadores D~ y E son:
§ ª1 X 2 º· ~ § V u2 ·¸ ~ § X ·
D~ a N ¨D , V u2 «
¨
» ¸ ; E a N ¨ E ,
¨ ¦ x2 ¸
; y C D~, E V u2 ¨ ¸
¨ ¦ x2 ¸
(2.95)
«¬ n ¦ x i »¼ ¸¹
2
© © i ¹ © i ¹
A diferencia del estimador de la varianza de mínimos cuadrados, el estimador de la

varianza de máxima verosimilitud es sesgado pero consistente.
ª ¦ u~i2 º ~2
§ n 2 · ª ¦ ui º
> @
E V~ 2 u E« » ¨ ¸.E « »
© n ¹ «¬ n 2 »¼
§ 2 · 2 ~2
¨1 ¸V u , V u es sesgado (2.96)
«¬ n »¼ © n¹
Lim _ E V~u2 > @ § 2·

Lim ¨1 ¸V u2
n of © n¹
V u2 . Luego, V~u2 es consistente (2.97)
n of
2.4.3 Matriz de información y la varianza-covarianzas de los estimadores de MV
ª w 2 l (.) º
Sea J ' >D @
E V 2 , La matriz de información es: I J E « ».
«¬ wJwJ ' »¼
Donde:
ª 2 º
« w l (.) 2 w 2 l (.) w 2 l (.) »
« wD wDwE wDwV u2 »
2 « w l (.)
2 2 »
w l (.) w l (.) w 2 l (.) (2.98)
« wEwD 2»
wJwJ ' « wE 2 wEwV u »
2
«w l (.) w 2 l (.) 2
w l (.) »
« »
¬
wV u2 wD wV u2 wE 2
w V u2 ¼
La propiedad de la matriz de información es que su inversa proporciona la matriz de

varianzas y covarianzas de los estimadores de máxima verosimilitud, llamado también
límite inferior de Cramer-Rao.
I 1 J~ ¦ J~ (2.98)
Luego,
w 2 l (.) n ª w 2 l (.) º n
E« » (2.99)
wD 2 V u2 «¬ wD 2 »¼ V u2
w 2 l (.) 1 ª w 2 l (.) º 1
¦ Xi E« » ¦ Xi (2.100)
wDwE V u2 «¬ wDwE »¼ V u2
w 2 l (.) 1 ª w 2 l (.) º 1
¦ ui E« » ¦ E >u i @ 0 (2.101)
wDwV u2 V u4 2
«¬ wDwV u »¼ V u4
w 2 l (.) 1 2
ª w 2 l (.) º 1 2
2
¦ Xi E« » ¦ Xi (2.102)
wE V u2 «¬ wE »¼
2
V u2
w 2 l (.) 1 ª w 2 l (.) º 1
wEwV u2 V 4 ¦ X i ui E« 2 »
V u4
¦ X E>u @ i i 0 (2.103)
u ¬ wEwV u ¼
wl (.) n 2V u2 2
ª wl (.) º n n n
¦ u i E « » (2.104)

w V u2
2
2V u4 2V u8
2
«¬ w V u2 »¼ 2V 4
u V 4
u 2V u4
Luego, la matriz de información, I J y la matriz de varianza, ¦ J~ son:

ª n ¦ Xi 0 º
« V2 V u2 »
u
ª w 2l (.) º « 2 »
X
«¦ i ¦ Xi
I J E « » 0 » (2.105)
«¬ wJwJ ' »¼ « V u2 V u2 »
« n »
« 0 0 2»
2V u
¬ ¼
ª §1 X 2 · XV u2 º
«V u2 ¨ ¸ 0 »
« ¨© n ¦ x i2 ¸
¹ ¦ xi
2
»
« »
XV u2 V u2
¦ J~ I 1 J~ « 0 » (2.106)
« ¦ xi
2 2
¦ xi »
« »
« 2V u4 »
« 0 0
n »
¬ ¼
La diagonal de la matriz ¦ J~ proporciona las varianzas y el resto de elementos de la

matriz proporciona las covarianzas de los estimadores de máxima verosimilitud.
2.4.4 Bondad de Ajuste.de un modelo estimado por MV
La función log verosimilitud (log likelihood) estimada se obtiene de:
§ 1 ·
~ §n·
l (D~, E , V~u2 ) ¨
§n·
~
¸ log2S ¨ ¸ log V~u ¨ ~ 2 ¸¦ Yi D~ EX i
© 2 ¹ © 2¹
2
¨ 2V ¸
2 (2.107)
© u¹
La bondad de ajuste se mide por la razón de verosimilitud entre el valor de la función de

log verosimilitud de un modelo Restringido ( R ) y de un modelo no restringido (NR):
ª L(J~ ) º
RV 2 log« ~ R » 2>log L(J~R ) log L(J~NR )@ 2>l (J~R ) l (J~NR )@ (2.108)
¬ L(J NR ) ¼
Donde:
RV a F 2 con 1 grado de libertad (2.110)
§ 1 ·
§n·
l (J~R ) ¨
© 2 ¹
¸ log2S
§n·
¨ ¸
© 2¹

log ~
V 2
u, R ¨
¨ ~ 2
¸¦ Y D~ 2
¸ i R (2.111)
© 2V u, R ¹
§ 1 ·
§n· §n·

l (J~NR) ¨ ¸ log2S ¨ ¸ log V~u2, NR ¨ 2 ¸¦ Yi D~NR E NR Xi
© 2 ¹ © 2¹ ¨ ~ ¸
~
2 (2.112)
© 2V u, NR ¹
El modelo no restringido esYi D EX i u i y el modelo restringido Yi D ui .
Estimación por máxima verosimilitud en el Ejemplo 2.1
Con el propósito de facilitar la estimación y comprensión se supone que el error se

distribuye normalmente, al igual que lo visto arriba. De igual modo, se utiliza el
software Eviews para estimar los parámetros del modelo. Para ello se debe utilizar el
comando LOGL (log likelihood, log verosimilitud) y en la ventana que aparece debe
escribirse el siguiente programa:
@PARAM c(1) 100 c(2) 1 c(3) 120

@LOGL LOGL
RES=VENTAS-C(1)-C(2)*GASTOS_PUBLICID
VAR=c(3)^2
LOGL=LOG(@DNORM(RES/@SQRT(VAR)))-LOG(VAR)/2
Seguido al comando @PARAM se debe escribir los valores iniciales de los tres
parámetros que serán estimados el intercepto, c(1), la pendiente c(2) y la varianza c(3).
En el ejemplo toman respectivamente los valores 100, 1 y 120.
Seguido al comando @LOGL se pone el nombre de la función log likelihood (log de

verosimilitud). En este caso se le nombra como LOGL.
Luego se define las ecuaciones para el residuo (RES), la varianza del error (VAR) y de
la función de log verosimilitud (log likelihood).
Los resultados de la estimación son:
Method: Maximum Likelihood (Marquardt)

Evaluation order: By observation
Convergence achieved after 67 iterations
Coefficient Std. Error z-Statistic Prob.
C(1) 92.01581 221.9801 0.414523 0.6785
C(2) 1.991646 0.224750 8.861615 0.0000
C(3) 112.4128 19.36271 5.805634 0.0000
Log likelihood -98.25801 Akaike info criterion 12.65725
Avg. log likelihood -6.141125 Schwarz criterion 12.80211
Number of Coefs. 3 Hannan-Quinn criter. 12.66467
2
¦ ui
La varianza del error estimada es: V~u2 12636.63
n
La matriz de varianzas y covarianzas de los estimadores, es decir, la inversa de la matriz
de información es:
ª V (D~ ) ~
C (D~, E ) C (D~,V~u2 ) º ª 49275.17 - 49.47468 1812.246 º
« ~ ~ ~ ~ » «- 49.47468 0.050512 1.942629»
ˆ~
¦J « C (D , E ) V (E ) C ( E ,V~u2 )» « »
«C (D~,V~ 2 ) C ( E~,V~ 2 ) V (V~ 2 ) » «¬ 1812.246 1.942629 374.9144 »¼
¬ u u u ¼
La estimación del modelo restringido (sólo con el intercepto) es:

C(1) 1779.705 92.27703 19.28655 0.0000
C(3) 319.8997 53.00843 6.034883 0.0000
El ratio de verosimilitud, que prueba la bondad de ajuste del modelo es:
RV 2 * (98.25901 (114.9916)) 33.46

F 02.95,1gl =3.84
Como se puede observar, el RV supera largamente el chi-cuadrado para un 5% de error

tipo I (95% de confianza).
2.5 Especificaciones No Lineales del modelo de regresión simple
Tradicionalmente, existen dos razones principales de porqué se aborda el tema de la

especificación del modelo. Por un lado, es el tema de la “representatividad” del modelo,
esto es, el modelo al ser una representación simplificada de la realidad debe “ajustarse”
a los datos muestrales. De acuerdo a esto, el modelo que mejor representa la realidad es
el modelo que tiene el mayor “R cuadrado”.
Otra razón de por la que se experimenta diferentes especificaciones modelísticas es la

practicidad de la interpretación de los efectos marginales y/o de las elasticidades que se
derivan del modelo. Esto es, si bien el ajuste es importante, lo son también sus
parámetros, para ello se debe tener mucho cuidado con las propiedades matemáticas del
modelo matemático especificado. Por ejemplo, se especificará de manera diferente al
modelo si nos interesa tener pendiente constante o si la elasticidad es constante. O
también si se desea encontrar un punto o valor de X que maximiza o minimiza el valor
de la variable dependiente Y.
En el siguiente cuadro la resume la mayoría de casos de transformaciones utilizadas en

los modelos econométricos.
Efecto
Nombre del Elasticidad
Forma Funcional Marginal
Modelo (dY/dX)(X/Y)
(dY/dX)
X
Lineal Y E1 E 2 X E2 E2
Y
Lineal-Log o E2 E2
Y E 1 E 2 ln X
Semilogarítmica X Y
E E
Reciproca Y E 1 E 2 (1 / X ) 22 2
X XY
Cuadrática (E 2 2E 3 X ) X
Y E1 E 2 X E 3 X 2 E 2 2E 3 X
o Polinómica Y
Términos de (E 2 E 3 Z ) X
Y E 1 E 2 X E 3 XZ E 2 E3Z
Interacción Y
Log-Lineal ln Y E1 E 2 X E 2Y E2 X
E 2Y
Log-Log ln Y E 1 E 2 ln X E2
X
ª Y º
Logística ln « E1 E 2 X E 2Y (1 Y ) E 2 X (1 Y )
¬1 Y »¼
O 1 O
Y O 1 X O 1 §X· §X·
Box-Cox E1 E 2 E2¨ ¸ E2¨ ¸
O O ©Y ¹ ©Y ¹
Ejemplo 2.13: Aplicaciones de modelos no lineales del modelo de regresión
Caso 1:Estimación de la recaudación tributaria
Frecuentemente, en modelos de programación financiera se suele utilizar un modelo de

regresión lineal simple para estimar la Recaudación Tributaria (IMP) como función del
ingreso o del PBI.
Modelo: Y E1 E 2 X

Estimación: IMP t 100 0.12 PBI t
Donde:
IMP = Recaudación Tributaria (Millones de Nuevos Soles)
PBI = Producto Bruto Interno (en Millones de Nuevos Soles)
Interpretación: La pendiente 0.12 implica que por cada 1.00 Millón de Nuevos Soles de
crecimiento del PBI, la recaudación tributaria aumenta en 120.00 Mil Nuevos Soles. Si
bien el intercepto no tiene significado práctico, se puede asumir que si el PBI fuera cero,
el Gobierno tendría que pagar a las familias un total de 100.00 Millones de Nuevos
Soles.
Caso 2: Estimación de la demanda de un bien manufacturado
La elasticidad de la demanda suele ser un parámetro crítico en la estimación de la

demanda de un bien cualquiera. Si se especificara un modelo lineal la elasticidad
variaría de punto en punto, en cambio, si se especifica un modelo doble logarítmico se
obtiene una elasticidad constante.
Modelo: ln Y E 1 E 2 ln X

Estimación: ln Q 3.96 0.25 ln P
Donde:
Q = Cantidad demandada del bien (miles de TM)
P = Precio del bien (en Nuevos Soles/TM)
Interpretación: El coeficiente –0.25 representa la elasticidad precio de la demanda, su

interpretación es, que por cada 1% de aumento en el precio del bien la cantidad
demandada disminuye en 0.25%. Al igual que antes, el intercepto suele no tener
significado, pero el antilog de 3.96, es decir, 52.45, representa la cantidad demandada
en TM si el precio fuera cero.
Caso 3: Estimación del crecimiento de la economía
La propiedad de un modelo semilogarítmico del tipo Log-Lineal es que produce la tasa

de crecimiento de Y ante un cambio unitario de X. Si X fuera una variable de tendencia,
t, que aumenta de 1 en 1 (período a período) se obtiene la tasa de crecimiento de Y; por
ejemplo, el PBI. Si se parte de la fórmula del interés compuesto:
Yt Y0 (1 r ) t , tomando logarítmos
ln Yt ln Y0 t ln(1 r )
ln Yt E1 E 2t , Donde E 1 lnY0 y E 2 ln(1 r )
Modelo: ln Y E1 E 2 X . Donde X t.

Estimación: ln PBI 12.007 0.025t
Donde:
PBI = Producto Bruto Interno (Miles de Millones de Dólares)
t = Tendencia en años (t=1,2,3,4,5,...)
Interpretación: El coeficiente 0.025 representa la tasa de crecimiento del PBI, su

interpretación es que en el período muestral el PBI ha crecido a una tasa del 2.5% anual.
Al igual que antes, el intercepto suele no tener significado.
Caso 4: Impacto del Dinero en la Economía
Cuánto puede impactar en el PBI el crecimiento de un porcentaje de la cantidad de

dinero en la economía.
Modelo: Y E 1 E 2 ln X
Estimación: PBI t 1600.9 25000.3 ln M ts
Donde:
PBI = Producto Bruto Interno (en Millones de Dólares)
M ts = Oferta de dinero (en Millones de Dólares)
Interpretación: La interpretación del coeficiente 25,000.3, es que si la cantidad de dinero

aumenta en 1%, el PBI crece en 250.3 Millones de Dólares. Esto porque dY=0.01E2.
Caso 5: Curva de Phillips
Si la idea es determinar el efecto de la reducción de un punto porcentual de la tasa de

desempleo en los salarios según la curva de Phillips (medido en cambios porcentuales),
se puede especificar un modelo recíproco.
Modelo: Y E 1 E 2 (1 / X )
Estimación: wˆ t 0.2594 20.588(1 / u t )
Donde:
w = tasa de variación de los salarios (variación porcentual, %)
u = tasa de desempleo (puntos porcentuales, %), u > 0%.
Interpretación: El “piso salarial” es –0.2594, es decir, a medida que aumenta la tasa de

desempleo, la variación porcentual de los salarios puede llegar a ese límite, y reducirse
hasta 0.25%. La tasa de cambio de los salarios depende del nivel de desempleo, y del
coeficiente 20.588.
2.6 EXPERIMENTOS DE MONTE CARLO Y BOOTSTRAP

Los experimentos de Monte Carlo son estudios para probar las propiedades de los
estimadores de los parámetros de un modelo en muestras pequeñas pero repetidas M
veces. En el contexto del modelo de regresión lineal el experimento de Monte Carlo
tiene tres etapas:
Primero, generar los valores de la variable dependienteYi suponiendo:
1. Que es el proceso generador de datos del término de perturbación, ui , esto es, su
función de densidad de probablidad pdf(u). Se puede generar tantas muestras
aleatorias de tamaño n para ui . Por ejemplo, se puede suponer que los errores se
encuentran normal e independientemente distribuidas con media 0 y varianza V2.
Por lo que se puede generar 100, 1000, o más muestras de tamaño n.
2. Que se conoce los verdaderos valores de parámetros D y E , y
3. Se dispone de un set de datos para la(s) variable(s) independiente(s), X, las que se
mantendrán fijas en todas las M muestras repetidas.
4. Que los valores para la variable dependiente, Yi , se obtiene del modelo de regresión
Yi D EX i u i . Se obtendrá los M vectores de valores simulados de Yi , una por
cada muestra aleatoria generada de ui .
Segundo, estimar los parámetros para cada una de las M muestras repetidas
Para cada una de las M muestras de Yi se estima los parámetros del modelo
Yi D EX i u i , con lo cual se obtiene M valores estimados para cada uno de los
parámetros del modelo estimado, es decir:
Muestra 1: Yî Dˆ 1 Eˆ1 * X i
Muestra 2: Yˆ Dˆ Eˆ * X
i 2 2 i
.................... ...........................................
Muestra 1000: Yî Dˆ1000 Eˆ1000 * X i
Tercero, evaluar las características y propiedades de los estimadores de los parámetros.

Si el sesgo tiende a 0 y la kurtosis a 3, no se podría rechazar la hipótesis de distribución
normal.
MUESTRA ALFA BETA
1 D̂1 Ê1
2 D̂ 2 Ê 2
3 D̂ 3 Ê 3
... ... ...
999 D̂ 999 Ê 999
1000 D̂1000 Ê1000
Media D̂ Ê
Varianza V (Dˆ ) V ( Eˆ )
Sesgo (skewness) 0 0
Kurtosis 3 3
Experimento de Monte Carlo un ejemplo
Supongase que la verdadera regresión tiene la expresión siguiente:
Yi 90 2.0 * X i u i
con ui a N E >u i @ 0;V (u i ) 1202
Si se dispone de información de una muestra de 16 observaciones para la variable X i se

puede generar una primera muestra de 16 observaciones para la variable aleatoria, ui ,
con media cero y desviación estándar 120. Dado los valores de ui y de X i se puede
obtener los valores simulados para Yi .
Observaciones Xi
ui a N 0 ; 120 2 Yi 90 2.0 * X i u i
Valores Generados Valores Simulados
1 1145.000 -23.82080 2356.179
2 1012.000 193.1447 2307.145
3 836.0000 295.0739 2057.074
4 941.0000 87.63353 2059.634
5 981.0000 -27.23107 2024.769
6 974.0000 174.7764 2212.776
7 766.0000 19.08756 1641.088
8 920.0000 -14.97879 1915.021
9 964.0000 91.65000 2109.650
10 811.0000 316.3728 2028.373
11 789.0000 -68.12605 1599.874
12 802.0000 -79.57788 1614.422
13 770.0000 -183.6113 1446.389
14 639.0000 -25.70109 1342.299
15 644.0000 -104.0117 1273.988
16 564.0000 -51.34722 1166.653
A partir de los valores de las X y los valores simulados para Y se puede estimar los
parámetros del modelo. El resultado de la estimación por mínimos cuadrados ordinarios
en la primera muestra es:
Yi 124.16 2.29 * X i u i
El experimento de Monte Carlo consiste en:
x Repetir M veces el cálculo de Yi. En el presente ejemplo se han creado 1000

muestras de valores aleatorios ui media cero y desviación estándar 120 de 16
observaciones independientes y normalmente distribuidas.
x Construir 1000 vectores de la variable endógena Y utilizando la ecuación:
Yi 90 2.0 * X i u i
x Estimar los parámetros ALFA y BETA a partir de cada una de las 1000 muestras.
Los resultados fueron:
Estimación ALFA BETA

1 -124.1634 2.296943
2 76.41354 2.033992
3 497.2083 1.503293
4 211.5803 1.866352
5 204.7685 1.808291
6 33.61994 2.065095
... ... ...
... ... ...
997 172.8922 1.951229
998 71.77771 2.023301
999 188.5434 1.869917
1000 44.77282 2.072279
Distribución de ALFA
120
Series: ALFA
Sample 1 1000
100 Observations 1000
80 Mean 99.11782
Median 97.46518
Maximum 624.0527
60
Minimum -443.7235
Std. Dev. 174.1394
40 Skewness 0.066706
Kurtosis 2.993092
20
Jarque-Bera 0.743613
Probability 0.689488
0
-400 -200 0 200 400 600
Distribución de BETA
120
Series: BETA
Sample 1 1000
100 Observations 1000
80 Mean 1.989910
Median 1.994456
Maximum 2.661807
60
Minimum 1.360806
Std. Dev. 0.203657
40 Skewness -0.094569
Kurtosis 3.115176
20
Probability 0.360004
0
1.4 1.6 1.8 2.0 2.2 2.4 2.6
Conclusiones:
1. El valor promedio de los estimadores tienden al verdadero valor de los parámetros.

Los valores de los estimadores de los parámetros D y E para las 1000 muestras
construidas artificialmente son en promedio D̂ y Ê cercanos a los parámetros
verdaderos o lo que es la misma la diferencia es numéricamente “pequeña”, en
especial la pendiente.
Intercepto D Pendiente E
Parámetros verdaderos D =90.00 E =2.00
Estimadores (promedio) D̂ =99.11 Ê =1.99
Diferencia (%) 10% -0.5%
2. Los estimadores de mínimos cuadrados son insesgados. Bajo las hipótesis nulas
que D =90 y E =2 no hay evidencias para rechazarlas a partir de los estimadores de
los parámetros. Los estadísticos t-calculados son bastante “pequeños” que no
superan a los valores t-críticos para un nivel de significación del 5% y 14 grados de
libertad. En ambos casos para rechazar las hipótesis nulas se requieren de niveles de
significación (errores tipo I) superiores al 50% ó 0.5. Por lo tanto, se acepta la
hipótesis nula que no hay diferencia estadística entre los estimadores y los
verdaderos parámetros, es decir, los estimadores mínimos cuadrados ordinarios D̂ y
Ê son estimadores insesgados de los verdaderos parámetros D y E .
Hipótesis Nula Ho: D =90.00 Ho: E =2.00
Estimadores (promedio) D̂ =99.11 Ê =1.99
Error Estándar sD̂ =174.13 s Ê =0.20
99.11 - 90 1.99 2
Estadístico t tDˆ 0.05 t Eˆ 0.005
174.13 0.20
t-crítico (5%) 1.761 -1.761
Nivel de significación 0.51 0.50
3. Los estimadores de los parámetros se distribuyen normalmente. Las pruebas de

normalidad de Jarque-Bera para D̂ y Ê , requieren de un nivel de significación
superiores al 5% ó 0.05, por lo que se acepta la hipótesis nula que los estimadores D̂
y Ê se distribuyen normalmente. Nótese que el sesgo tiende a cero y la kurtosis
tiende a 3 en ambos estimadores, lo cual evidencia la normalidad de las
distribuciones de D̂ y Ê .
Sesgo 0.06 -0.09
Kurtosis 2.99 3.11
Jarque-Bera 0.74 2.04
Nivel de significación 0.68 0.36
Bootstrap
En el contexto del modelo de regresión “bootstrap” es un experimento de remuestreo de

los residuos de un modelo de regresión muestral, en ese sentido es un proceso diferente
al experimiento de Monte Carlo, pues lo que se trata es de extraer conclusiones sobre
los verdaderos parámetros desconocidos a partir de los estimadores muestrales. El
proceso parte de un “proceso empírico generador de datos” del residuo, esto es, se trata
de aproximar la distribución de los residuos a distribución a una función de densidad
conocida, como por ejemplo una distribución normal.
Los pasos del “bootstraping” son:
1° Estime por MCO el modelo de regresión: Yî Eˆ1 Eˆ 2 X i y obtenga los residuos de
la regresión, uˆ Y Eˆ Eˆ X .
i i 1 2 i
2° Obtenga la distribución empírica de los residuos, ûi . Por ejemplo, si se distribuye

como una normal con media 0 y varianza V̂ 2 ,

ûi a N E >uˆ i @ 0;V (u i ) V (uˆ i ) Vˆ 2 , genere M muestras de tamaño n para los
residuos, uˆ . A este proceso se le conoce como remuestreo.
*
i
3° Obtenga los M vectores “remuestreados” de Yi* a partir del modelo de regresión

Yi * Eˆ1 Eˆ 2 X i u i* , donde Ê 1 y Ê 2 son los valores estimados de los parámetros
E 1 y E 2 obtenidos con la muestra original.
4° Estime por mínimos cuadrados ordinarios los parámetros del modelo de regresión
Yi * E 1 E 2 X i u i* , para las M muestras generadas de Yi* en el punto 4,
suponiendo que la(s) variable(s) X son fijas en cada una de las M muestras.
5° A partir de los M estimadores de los parámetros obtenga los estadísticos que
caracterizan a la distribución de Ê 1 y Ê 2 . , verifique la normalidad de sus
distribuciones.
Resultados esperados:
x Se puede obtener el intervalo de confianza para los verdaderos parámetros E 1 y E 2

a partir de la distribución de los estimadores de los parámetros. Dicho intervalo
tendrá una probabilidad del 95% de contener a los verdaderos parámetros.
x Se puede verificar que también se cumple el Teorema Central del Límite, esto es,
los estimadores de mínimos cuadrados tienen distribución normal.
Tarea: Realice el bootstrap para E 1 y E 2 suponiendo los mismo datos de la variable X

del ejemplo de Monte Carlo y que la variable Yi tiene los siguientes valores:
Obs 1 2 3 4 5 6 7 8
Yi 2637 2177 1920 1910 1984 1787 1689 1866
Obs 9 10 11 12 13 14 15 16
Yi 1896 1684 1633 1657 1569 1390 1387 1289
2.7 APLICACIONES Y PROBLEMAS
APLICACIONES:
Caso 1: Crecimiento y Productividad

En los años que siguieron a la II Guerra Mundial, Alemania y Japón crecieron más
rápido que la mayoría de países industrializados que habían sufrido dicha guerra. El
economista húngaro Nikolas Kaldor argumentó que los países que habían sido
devastados por la guerra, al tener que renovar completamente su infraestructura y
equipos, lo hicieron con tecnología de punta (“up to date”) que les permitió reducir sus
costos marginales de producción, desplazando a sus competidores en el mercado
mundial, lo que a su vez les obligó a reinvertir en nuevas tecnologías. Contrariamente,
los países que sufrieron menos con la guerra, USA e Inglaterra, tuvieron menor
necesidad que reinvertir, manteniendo sus costos marginales relativamente más altos lo
que trajo como consecuencia la perdida de su participación en el mercado. En ese
sentido, la hipótesis de Kaldor señala que hay una alta correlación entre tasa de
crecimiento del producto (y el empleo) y la tasa de crecimiento de la productividad. Las
evidencias encuentran que el r 0.65 , para un conjunto de 12 países desarrollados,
entre los períodos 1953-54 y 1963-64,.
Tasa de Crecimiento Anual (%)

País Empleo Productividad
Austria 2,0 4,2
Belgica 1,5 3,9
Canadá 2,3 1,3
Dinamarca 2,5 3,2
Francia 1,9 3,8
Italia 4,4 4,2
Japón 5,8 7,8
Holanda 1,9 4,1
Noruega 0,5 4,4
Alemania Occidental 2,7 4,5
Inglaterra 0,6 2,8
Estados Unidos 0,8 2,6
CRECIMIENTO DE LA PRODUCTIVIDAD Y DEL EMPLEO

6,0
JAPON
5,0
TASA DE CRECIMIENTO DEL EMPLEO
ITALIA
4,0
ALEMANIA
3,0
OCCIDENTAL
DINAMARCA
CANADA
AUSTRIA
2,0
FRANCIA HOLANDA
BELGICA
1,0 ESTADOS
UNIDOS
NORUEGA
INGLATERRA
-
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0
TASA DE CRECIMIENTO DE LA PRODUCTIVIDAD
Caso 2: Relación crecimiento económico y crecimiento del empleo
De una muestra de 25 países de la OECD se presenta las tasas de crecimiento promedio

anual del PBI, g, y las tasas de crecimiento del empleo, e, para el período 1988-1997.
Se adjunta también los resultados para una regresión de e contra g.
TASAS DE CRECIMIENTO PROMEDIO ANUAL DEL PBI Y DEL EMPLEO (%)

País Empleo PBI País Empleo PBI
Australia 1,68 3,04 Corea 2,57 7,73
Austria 0,65 2,55 Luxemburgo 3,02 5,64
Belgica 0,34 2,16 Holanda 1,88 2,86
Canadá 1,17 2,03 Nueva Zelanda 0,91 2,01
Dinamarca 0,02 2,02 Noruega 0,36 2,98
Finlandia -1,06 1,78 Portugal 0,33 2,79
Francia 0,28 2,08 España 0,89 2,60
Alemania 0,08 2,71 Suecia -0,94 1,17
Grecia 0,87 2,08 Suiza 0,79 1,15
Islandia -0,13 1,54 Turkía 2,02 4,18
Irlanda 2,16 6,40 Inglaterra 0,66 1,97
Italia -0,30 1,68 Estados Unidos 1,53 2,46
Japón 1,06 2,81
Dependent Variable: EMPLEO

C -0.545891 0.274039 -1.992022 0.0584
PBI 0.489737 0.085118 5.753595 0.0000
Adjusted R-squared 0.572222 S.D. dependent var 1.014519
S.E. of regression 0.663544 Akaike info criterion 2.094174
Sum squared resid 10.12667 Schwarz criterion 2.191684
Log likelihood -24.17718 F-statistic 33.10386
Durbin-Watson stat 1.722579 Prob(F-statistic) 0.000007
Según esto en los países de la OECD por cada punto porcentual de incremento en el PBI
el empleo crece en 0.4897 puntos porcentuales, de modo que si la PEA de dichos países
crece a un ritmo del 0.6% anual requerirán que el producto crezca a un ritmo promedio
de 2.35% anual, 0.6 = -0.5458912762 + 0.4897370336*PBI, entonces PBI = 2.35%.
Caso 3: Neutralidad del Dinero
Utilizando la serie de tiempo mensual para el índice de precios al consumidor, IPC, y la

cantidad de dinero, M1, durante la décanda de los 90’s (n=120) se ha estimado el
modelo:
log IPCt 2.153 0.962 log M 1t uˆt

e.e. ( 0.13) ( 0.05)
Para la hipótesis nula de neutralidad del dinero H 0 : E 1 , el intervalo de confianza del

90% es (0.88;1.044). Como E 1 cae dentro del intervalo, aceptamos Ho con un nivel
de significación del 10%.
PROBLEMAS:
Problema 1: Cambios de escala y cambios de origen
En el modelo Yi D EX i u i , un cambio en la escala significa que las variables Y

y/o X cambian proporcionalmente en todas las observaciones (toda la serie se multiplica
o divide por una constante), por ejemplo, si se pasa de miles de dólares a millones de
dólares, toda la serie queda dividida por 1000. Otro ejemplo, para pasar de yardas a
metros debemos multiplicar la serie por 0.9144, porque una yarda es 0.9144 metros. No
confundir cambios en la escala con cambios no proporcionales en la unidad de media,
como por ejemplo pasar de dólares a nuevos soles o deflactar una serie por un número
índice. En estos casos, cada observación es multiplicada o dividida por un valor distinto.
Por otro lado, cambios en el origen, sucede cuando una variable se “desplaza”
paralelamente (aumenta o disminuye una cantidad fija). Esto provoca que el promedio
de las variables se desplacen en la misma magnitud que se desplazó cada observación.
Un caso de estos es cuando a las variables se las expresa en desviaciones con respecto a
sus medias.
Finalmente, puede haber cambios en la escala y en el origen simultáneamente. Una

aplicación de este caso es por ejemplo, cuando se cambia las unidades de medida de la
temperatura de grados Farenhei a grados centígrados, donde °C=(5/9)(°F-32).
Si hay cambios en la variable X, se debe comparar los resultados de los modelos

Yi D1 E1Wi ui versus Yi D EX i ui . Donde:
x Cambios de escala W aX , donde a t 1 ó a d 1 .
x Cambios de origen W X a , donde a z 0 .
Si hay cambios en la variable Y, se debe comparar los resultados de los modelos

Zi D 2 E 2 X i Ki versus Yi D EX i ui . Donde:
x Cambios de escala Z bY , donde b t 1 ó b d 1 .
x Cambios de origen Z Y b , donde b z 0 .
Si hay cambios en ambas variables Y y X, se debe comparar los resultados de los

modelos Zi D 3 E 3Wi H i versus Yi D EX i ui . Donde:
x Cambios de escala W aX y Z bY , donde a t 1 ó a d 1 y b t 1 ó b d 1 .
x Cambios de origen W X a y Z Y b , donde a z 0 y b z 0 .
a) ¿Cómo se modifican los estimadores de Dˆ ; Eˆ ?.

b) ¿Cómo se modifican las varianzas de los estimadores de Dˆ ; Eˆ ?.
c) ¿Cómo se modifican los valores estimados para las variables dependientes Y o Z?
d) ¿Qué pasa con los coeficientes de determinación, R 2 ?
Solucionario:
Sea Wi aX i , entonces: W aX y wi Wi W aX i aX axi .

Sea Wi X i a , entonces: W X a y wi Wi W a X i a X xi .
Sea Zi bYi , entonces: Z bY y zi Zi Z bYi bY byi .
Sea Zi Yi b , entonces: Z Y b y zi Zi Z b Yi b Y yi .
Cambios en la escala de X: W aX . Yi D1 E1Wi ui vs Yi D EX i ui
Pregunta a) Dˆ 1 ; Eˆ1 frente a Dˆ ; Eˆ .
Eˆ1 ¦ wy ¦ axy a ¦ xy 1 ˆ
E
¦ w2 ¦ a2x2 a2 ¦ x2 a
Y
§1 ·
Dˆ 1 Y Eˆ1W Y ¨ Eˆ ¸.aX Y EˆX Dˆ
©a ¹
Por lo tanto, cambios en la escala de X produce cambios inversamente proporcionales

en la pendiente, Ê , pero no produce cambios en el intercepto, D̂ .
Pregunta b) Varianzas de Dˆ 1 ; Eˆ1 frente a las varianza de Dˆ ; Eˆ .
1 ˆ ª1 º 1
Si Eˆ1 E , entonces, la V ( Eˆ1 ) V « Eˆ » V ( Eˆ ) . O también:
2 ¬a ¼ a2
V u2 V u2 V u2 1
V ( Eˆ1 ) V ( Eˆ )
¦ w2 ¦ a2x2 a ¦x
2 2
a 2
De igual modo, si Dˆ 1 Dˆ , entonces, la V (Dˆ 1 ) V (Dˆ ) . O también:
2 ª1 W2 º ª1 a2 X 2 º ª1 X2 º
V (D 1 ) V u «
ˆ 2 »
2
V « 2
u 2 »
2
V «
u 2 »
V (Dˆ )
¬n ¦ w ¼ ¬n a ¦ x ¼ ¬n ¦ x ¼
Por lo tanto, cambios en la escala de X produce cambios sólo en la varianza de Ê pero

no produce cambios en la varianza de D̂ .
Pregunta c) Cambios en los valores estimados de Y.
§1 ·
Yˆ Dˆ 1 Eˆ1W Dˆ ¨ Eˆ ¸.aX Dˆ EˆX Yˆ .
©a ¹
Por lo tanto, cambios en la escala de X no producen cambios en el pronóstico de Y.

Pregunta d) Cambios en el coeficiente de determinación
§1 ˆ·
¨ E ¸¦ ax y
Eˆ1 ¦ yw ©a ¹ Eˆ ¦ yx SCExp
R12 R2 .
¦ y2 ¦ y2 ¦ y2 SCT
Luego, los cambios en la escala de X no afectan al R 2 .
Cambios en el origen de X: W X a. Yi D1 E1Wi ui vs Yi D EX i ui
Pregunta a) Dˆ1; Eˆ1 frente a Dˆ ; Eˆ .
¦ wy ¦ xy
Eˆ1 2 2
Eˆ
¦w ¦x
Y
Dˆ1 Y Eˆ1W Y Eˆ a X Y EˆX aEˆ Dˆ aEˆ
Por lo tanto, cambios en el origen de X no produce cambios en la pendiente, Ê , pero si

produce cambios en el intercepto, D̂ .
Pregunta b) Varianzas de Dˆ1; Eˆ1 frente a las varianza de Dˆ ; Eˆ .
Si Eˆ1 Eˆ , entonces, la V ( Eˆ1 ) V ( Eˆ ) . O también:
V u2 V u2
V ( Eˆ1 ) 2 2
V ( Eˆ )
¦w ¦x
De igual modo, si Dˆ1 Dˆ aEˆ , entonces,

V (Dˆ ) V (Dˆ aEˆ ) V (Dˆ ) a 2V ( Eˆ ) 2a.C (Dˆ , Eˆ ) .
1
V (Dˆ1 )
ª1
V u2 «
X 2 º V u2
2 a
V u2 X ª
V u2 «
1

a X º
2
»
2»
«¬ n ¦ x »¼ ¦ x «¬ n
2 2 2
¦x ¦x »¼
O también:
2ª1
V (D1 ) V u «
ˆ
W2 º
V u2 «
ª
1

a X º
2
»
2»
¬« n ¦ w ¼» «¬ n
2
¦x »¼
Por lo tanto, cambios en el origen de X no produce cambios en la varianza de Ê pero si

produce cambios en la varianza de D̂ .
Pregunta c) Cambios en los valores estimados de Y.

Yˆ Dˆ1 Eˆ1W Dˆ aEˆ Eˆ a X Dˆ EˆX Yˆ .
Por lo tanto, cambios en el origen de X no producen cambios en el pronóstico de Y.
Eˆ1 ¦ yw Eˆ ¦ xy SCExp
R12 R2 .
¦y
2
¦y
2 SCT
Luego, los cambios en el origen de X no afectan al R 2 .
Cambios en la escala de Y: Z bY . Zi D 2 E 2 X i Ki vs Yi D EX i ui
Pregunta a) Dˆ 2 ; Eˆ2 frente a Dˆ ; Eˆ .
¦ zx ¦ by x b ¦ xy
Eˆ2 2 2 2
bEˆ
¦x ¦x ¦x
Y
Dˆ 2 Z Eˆ2 X
bY bEˆ . X
b Y EˆX bDˆ
Por lo tanto, cambios en la escala de Y produce cambios proporcionales Ê y D̂ .
Pregunta b) Varianzas de Dˆ 2 ; Eˆ2 frente a las varianza de Dˆ ; Eˆ .
Si Eˆ 2 bEˆ , entonces, > @

V ( Eˆ2 ) V bEˆ b 2V ( Eˆ ) .
ª1 X2 º
De igual modo, si Dˆ 2 bDˆ , entonces, V (Dˆ 2 ) b 2V (Dˆ ) b 2V u2 « 2 »
.
¬n ¦ x ¼
Por lo tanto, cambios en la escala de Y produce cambios en las varianzas de Ê y D̂ .
Pregunta c) Cambios en los valores estimados de Z.
Zˆ Dˆ 2 Eˆ 2 X bDˆ bEˆX
b Dˆ EˆX bYˆ .
Cambios en la escala de Y producen cambios proporcionales en el pronóstico de Z.
Eˆ 2 ¦ zx Eˆ ¦ by x bEˆ ¦ yx § 1 · Eˆ ¦ yx § 1 · SCExp §1· 2

R22 ¨ ¸ ¨ ¸ ¨ ¸R .
¦ z2 ¦ by b2 ¦ y 2 ©b¹ ¦ y © b ¹ SCT ©b¹
2 2
Luego, los cambios en la escala de Y afectan al R 2 .

Cambios en el origen de Y: Z Y b.
Pregunta a) Dˆ 2 ; Eˆ 2 frente a Dˆ ; Eˆ . (ojo ¦ x 0)
Eˆ 2 ¦ zx ¦ b y x b¦ x ¦ yx

¦ yx Eˆ
¦ x2 ¦ x2 ¦ x2 ¦ x2 ¦ x2
Y
Dˆ 2 Z Eˆ 2 X b Y EˆX Y EˆX b Dˆ b
Cambios en el origen de Y no produce cambios en Ê , pero si en D̂ .
Pregunta b) Varianzas de Dˆ 2 ; Eˆ 2 frente a las varianzas de Dˆ ; Eˆ .
V u2
Si Eˆ 2 Eˆ , entonces, la V ( Eˆ 2 ) V ( Eˆ ) .
¦ x2
ª1 X 2 º
De igual modo, si Dˆ 2 Dˆ b , entonces, V (Dˆ 2 ) V (Dˆ b) V (Dˆ ) V u2 « 2»
.
«¬ n ¦ x »¼
Cambios en el origen de Y no produce cambios en las varianzas de Ê y D̂ .
Pregunta c) Cambios en los valores estimados de Z.
Zˆ Dˆ 2 Eˆ2 X b Dˆ EˆX
b Dˆ EˆX Yˆ b .
Cambios en el origen de Y desplaza el pronóstico de Z en la magnitud b.
Pregunta d) Cambios en el coeficiente de determinación (Recuerde: ¦ x ¦y 0)
Eˆ2 ¦ zx Eˆ ¦ b y x Eˆ ¦ yx bEˆ ¦ x Eˆ ¦ yx SCExp

R22 z R2
¦z
2
¦ b y
2 2
¦ y 2b¦ y nb
2 2
¦ y nb
2 SCT2
Por consiguiente, los cambios en el origen de Y afectan al R 2 .
Cambios en Y y X simultáneamente:
Si hay cambios en ambas variables Y y X, se debe comparar los resultados de los

modelos Zi D 3 E 3Wi H i versus Yi D EX i ui . Para lo cual, se debe seguir los
pasos arriba trabajados. A continuación una breve ayuda para los cambios en las escalas
de ambas variables, donde: W aX y Z bY .
Pregunda a) Efectos sobre D̂ y Ê

¦ zw ¦ abyx § b · ¦ xy b ˆ
Eˆ3 ¨ ¸ E.
¦z
2 2 2
¦a x © a ¹ ¦ x2 a
Note que si a=b, no hay cambio en la pendiente.
Dˆ 3 Z Eˆ3W bY §¨ b ·¸ Eˆ aX bY EˆX bDˆ

©a¹
Note que el intercepto recibe el efecto sólo del cambio en la variable Y.
Para responder las otras preguntas seguir los pasos desarrollados en los otros casos.
Problema 2: Demuestre que el coeficiente de correlación muestral no se afecta cuando

ocurren cambios en las unidades de medida (cambios en la escala) de alguna de las
variables.
Problema 3: Un investigador tiene una muestra de datos de corte transversal para los
salarios agregados, W, ganancias agregadas, P, y el ingreso nacional agregado Y de n
países. Donde: Y W P .
El investigador corre dos modelos por mínimos cuadrados ordinarios:
Wˆ Dˆ1 Eˆ1Y
Pˆ Dˆ 2 Eˆ2Y
Demuestre que se cumple automáticamente que: Dˆ1 Dˆ 2 0 y Eˆ1 Eˆ2 1.
Problema 4: Un investigador hipotetiza que los años de escolaridad, AESC, puede estar
relacionado al número de hermanos del individuo, HNOS, de acuerdo a la siguiente
regresión:
AESCi D EHNOSi ui
Pruebe la hipótesis nula que H 0 : E 0 , contra la hipótesis alternativa H1 : E z 0 , para

el 1% y el 5% de nivel de significación. Suponga que Eˆ 0.2 y S ( Eˆ ) 0.07
Problema 5: Supongamos la función de distribución de probabilidad tipo Bernoulli dado

por f ( X ) p X (1 p )1 X donde X solo puede tomar valores 0 ó 1 y p es el parámetro
que mide la probabilidad que X sea igual a 1, p P> X 1@ .
Suponga que tiene n observaciones para la variable aleatoria X.

a) ¿Cuál es la media y la varianza de X?
b) ¿Cuál es el estimador de Máxima Verosimilitud del parámetro p?.
ECONOMETRIA, TEORIA Y APLICACIONES Juan Pichihua Serna 67
CAPITULO 3:
MODELO DE
REGRESION LINEAL GENERAL
3.2 Supuestos en el Modelo de Regresión Clásico: 69
3.3 Problemas Frente a los Supuestos del Modelo de Regresión Clásico 69
3.3.1 Especificación Incorrecta del Modelo de Regresión 69
3.3.2 Errores No Normales y Errores No Esféricos 70
3.3.3 Problemas con las Variables Explicativas 70
3.3.4 Inestabilidad de Parámetros 70
3.4 Estimación por Mínimos Cuadrados Ordinarios (MCO) 71
3.4.1 Mínimos Cuadrados Ordinarios 71
3.4.2 Propiedades de los Estimadores de MCO 72
3.4.3 Estimador de la Varianza de la Regresión Vˆ 2 74
3.4.4 Bondad de Ajuste 75
a) El Coeficiente de Determinación, R 2 75
b) R 2 Ajustado 76
3.5 Estimación por Máxima Verosimilitud (MV) 80
3.5.1 Máxima Verosimilitud 80
3.5.2 Propiedades de los Estimadores de MV 82
3.5.3 Matriz de Varianzas y Covarianzas de los Estimadores de MV 83
3.5.4 Bondad de Ajuste 84
3.6 Estimación por Mínimos Cuadrados Restringidos (MCR) 86
3.6.1 Mínimos Cuadrados Restringidos 86
3.6.2 Propiedades de los Estimadores de MCR 88
3.6.3 Bondad de Ajuste, el Coeficiente de Determinación R 2 89
3.7 Pruebas de Hipótesis 92
3.7.1 Test de Wald 92
3.7.2 Test de Especificación, Test de Ratio de Verosimilitud 99
3.7.3 Test de Modelos No Anidados (Non Nested Test) 102
3.7.4 Test de Cambio Estructural (Test de Chow) 105
3.8 Variables Dummy 109
68 Capítulo 3: Modelo de Regresión Lineal General
CAPITULO 3: MODELO DE REGRESION LINEAL

GENERAL
3.1 ESPECIFICACIÓN
Sea la observación i-ésima del Modelo de Regresión Lineal General
Yi E1 E 2 X 2i E 3 X 3i ....... E k X ki ui (3.1)
Donde: i 1,2,3,...., n , las n – observaciones que tiene la muestra

j 1,2,3,...., k , las k - variables explicativas que tiene el modelo.
Siendo X 1i 1; i 1,2,..., n . X1 representa a la constante del modelo
Si E[ui ] 0 , entonces:
E[Yi X 2i X 3i ...... X ki 0] E1 (3.2)
El intercepto E 1 se interpreta como el valor esperado de la variable dependiente Yi

cuando todas las variables explicativas son cero. Si bien es frecuente que el intercepto
no tenga interpretación económica, en algunos casos su existencia permite encontrar un
comportamiento autónomo de la variable dependiente que no está asociado a las
variables explicativas del modelo.
wE[Yi ]
E j j 2,3,...., k (3.3)
wX j
La pendiente E j se interpreta como el efecto marginal de la variable X j sobre Yi , es

decir, en cuanto se espera que cambie la variable dependiente Yi cuando la variable
explicativa X j .
La ecuación 3.1 se puede expresar n forma matricial, para las n observaciones

muestrales de la siguiente manera:
Y XE U (3.4)
Donde:
ªY1 º ª 1 X 21 X 31 ... X k 1 º ª E1 º ª u1 º
«Y » «1 X X 32 ... X k 2 »» «E » «u »
Y « 2» ; X « 22
; E « 2» ; y U « 2»
«....» «... ... ... ... ... » « ... » «....»
« » « » « » « »
¬Yn ¼ nx1 ¬ 1 X 2n X 3n ... X kn ¼ nxk ¬ E K ¼ kx1 ¬u n ¼ nx1
3.2 SUPUESTOS EN EL MODELO DE REGRESIÓN CLÁSICO:
Supuesto 1: El modelo de regresión poblacional es un modelo lineal E[Y X ] XE
Supuesto 2: Sobre el error es una variable aleatoria normal e independientemente

distribuida con media cero y varianza constante. Esto es:
2.1. U a N . Los errores se distribuyen como una normal. Luego Y a N .
2.2. E[u i ] 0 , i los errores tienen media cero.
2.3. E[u i2 ] V u2 , i la varianza del error es constante, igual a V u2 (homocedasticidad).
2.4. E[u i u i s ] 0 , i y s z 0 no autocorrelación de errores no contemporáneos.
Supuesto 3: Sobre la variable X

3.1. E[ X ' U ] 0 . Las variables X son independientes del error. En el modelo clásico se
supone que son variables no estocásticas, exógenas, luego: X ' E[U ] 0 .
3.2. U ( X ) K . No multicolinealidad. Las k variables X son independientes entre si.
3.3. V ( X j ) ! 0 (y finita). Todas las observaciones en cada X j no pueden ser iguales.
Supuesto 4: E es un vector de constantes.
3.3 PROBLEMAS FRENTE A LOS SUPUESTOS DEL MODELO DE REGRESIÓN

CLÁSICO
3.3.1 Especificación incorrecta del modelo de regresión
El supuesto 1 señala que la forma funcional del modelo de regresión es la lineal, o sea:
E >Yi X @ E1 E 2 X 2i E 3 X 3i ....... E k X ki
Supongamos que el modelo planteado incluye la lista apropiada de variables:

X 2 ,......., X k , pero, que la forma funcional correcta no es la lineal, sino una polinómica
u otra especificación no lineal en variables o en parámetros. Por ejemplo:
(1) Yi E1 E 2 X 2i E 3 X 3i ui
(2) Yi J 1 J 2 X 2i J 3 X 3i J 4 X 22i J 5 X 32i J 6 X 2i X 3i vi
El modelo (2) incluye términos cuadráticos y de interacción de las variables X 2 y X 3 .

De modo que si el modelo correcto fuera el modelo (2), trabajar con el modelo (1) se
estaría cometiendo un “sesgo de especificación” por omisión de variables. Donde:
(3) ui J 4 X 22i J 5 X 32i J 6 X 2i X 3i vi
Las consecuencias de la presencia de sesgo de especificación produce estimadores

sesgados e ineficientes. El test RESET de Ramsey permite contrastar la especificación
lineal versus una polinómica.
3.3.2 Errores no normales y errores no esféricos

Los supuestos 2.1 al 2.4 implican que el vector de errores U a NID 0; V u2 I n
La violación del supuesto 2.1, que ui se distribuye como una normal, no tiene
consecuencias graves para los estimadores de los parámetros, pues, por el Teorema
Central del Límite, los estimadores, al ser promedios, tienden a distribuirse como una
normal, sea cual fuera la distribución de origen del error, ui . Mediante el test de
normalidad de Jarque-Bera probaremos si los residuos siguen una distribución normal.
Si el E >u i @ z 0 , pero constante, afectará únicamente al intercepto del modelo, pero las
propiedades de las pendientes quedarán intactas. En el caso de los estimadores de
mínimos cuadrados ordinarios las pendientes seguirán siendo MELI, aunque el
intercepto deje de serlo.
Si la varianza del error no fuera constante, sino cambiara de observación en observación

se enfrentaría a problemas de heterocedasticidad, E[u i2 ] V i2 z V u2 . De igual manera, si
los errores no contemporáneos estuvieran correlacionados, E[u i u j ] z 0 i z j
(autocorrelación de errores), en ambos casos los estimadores serán insesgados pero ya
no serán eficientes.
3.3.3 Problemas con las variables explicativas
De acuerdo a los supuestos del 3.1 al 3.3 las variables explicativas, X, son variables
independientes del error e independientes entre si, pero además al tener varianza finita
significaría que son variables estacionarias. Sin embargo, si las variables X están
correlacionadas con el error, E[ X ' U ] z 0 , los mínimos cuadrados ordinarios produciría
estimadores sesgados e inconsistentes.
De igual modo, si las variables explicativas no fueran independientes entre si, sino que
alguna de ellas pudiera obtenerse como combinación lineal del resto, estaríamos frente a
un problema de multicolinealidad, que si bien no afecta la propiedad MELI de los
estimadores, si aumenta la varianza y por lo tanto hace más imprecisa la estimación de
los parámetros.
Cuando se trabaja con series de tiempo, algunas variables pueden ser variables no
estacionarias, lo que produciría pérdida en la eficiencia de los estimadores.
3.3.4 Inestabilidad de parámetros
En el modelo clásico se define a los parámetros E como constantes, sin embargo, en la

realidad se puede tener situaciones en la que los parámetros cambian en el tiempo, en
estos casos, no será posible sostener que los parámetros son constantes pues habrían
cambios estructurales. El test de Chow ayudará a detectar estos problemas y la
incorporación de variables “dummies” en el modelo podrán resolverlo.
3.4 ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS (MCO)

El método adecuado de estimación de parámetros está asociado al tipo de información
disponible sobre la relación entre los parámetros, E , y sobre la función de distribución
del error, u i . Frente a esto se tiene los siguientes tres casos:
x No se dispone ninguna información sobre los E y los u i . Frente a este caso el

método adecuado es el de mínimos cuadrados ordinarios (MCO).
x Se supone conocida la función de densidad de probabilidad del error, pdf (u i ) . Lo
adecuado en este caso es el método de máxima verosimilitud (MV).
x Se tiene información sobre la relación entre los parámetros del modelo. El método
de los mínimos cuadrados restringidos es lo adecuado (MCR).
3.4.1 Mínimos Cuadrados Ordinarios
Sea el modelo de regresión lineal general: Y XE U .
El método de los mínimos cuadrados consiste en minimizar la suma de cuadrados de los

errores con respecto de E , esto es:
Min¦ u i2 MinU 'U wU 'U

0 Eˆ
E E wE
Donde Ê es el estimador de E por MCO.
Sea el error
U Y XE (3.5)
La suma de cuadrados del error, ¦ u i2 U 'U es:
U 'U (Y XE )' (Y XE ) Y ' Y E ' X ' Y Y ' XE E ' X ' XE .
Pero, E ' X ' Y Y ' XE , porque son escalares, entonces:
U 'U Y ' Y 2 E ' X ' Y E ' X ' XE (3.6)
Minimizando U’U:
wU ' U
2 X ' Y 2 X ' XE (3.7)
wE
Igualando a cero y reemplazando E por Ê .

wU ' U
2 X ' Y 2 X ' XEˆ 0.
wE
Luego de simplificar y reordenar términos se obtienen las ecuaciones normales:
X ' XEˆ X 'Y (3.8)
Despejando Ê obtenemos el estimador de E por mínimos cuadrados ordinarios:
Eˆ ( X ' X ) 1 X 'Y (3.9)
Donde:
ª Eˆ1 º
«ˆ »
E
E « 2»
ˆ (3.10)
« ... »
« »
«¬ Eˆk »¼
3.4.2 Propiedades de los estimadores de MCO:
Sea Eˆ ( X ' X ) 1 X 'Y el estimador de MCO de E en el modelo Y XE U , si

W ( X ' X )1 X ' , entonces, Ê es un estimador lineal, porque se obtiene como una
combinación lineal de Y, esto es:
Ê WY (3.11)
Pero, si se reemplaza Y por XE U se obtiene que Ê es un estimador lineal de U:

Eˆ ( X ' X ) 1 X 'Y ( X ' X ) 1 X '> XE U @ ( X ' X ) 1 X ' XE ( X ' X ) 1 X 'U
Eˆ E ( X ' X )1 X ' U (3.12)
Además, si U a N , por la ecuación 3.12 se puede concluir que Ê también sigue una
distribución normal, Ê a N . Por lo tanto, la media y la varianza de Ê son:
Media de Ê , E[Eˆ ] :
E[ Eˆ ] E ( X ' X )1 E[ X ' U ] (3.13)
Si X es estocásticamente independiente del error, U, esto es, E[ X ' U ] 0 , o si X es una

variable exógena y la media del error es cero X ' E[U ] 0 , se obtiene que Ê es un
estimador insesgado de E .
E[ Eˆ ] E (3.14)
Varianza de Ê , V (Eˆ )
Por definición, la varianza de Ê es:

V ( Eˆ ) E[( Eˆ E[ Eˆ ] )( Eˆ E[ Eˆ ] )' ] E[( Eˆ E )( Eˆ E )' ] (3.15)
Luego, a partir de la ecuación 3.12, se obtiene que:
Eˆ E ( X ' X ) 1 X 'U (3.16)
( Eˆ E )( Eˆ E )' ( X ' X ) 1 X 'UU ' X ( X ' X ) 1 (3.17)
E[( Eˆ E )( Eˆ E )' ] V ( Eˆ ) ( X ' X ) 1 X ' E[UU ' ] X ( X ' X ) 1 (3.18)
Dado que E[UU ' ] V u2 I n , la varianza de Ê de mínimos cuadrados ordinarios será:
V ( Eˆ ) V u2 ( X ' X )1 (3.19)
En resumen, Ê es un estimador lineal e insesgado de E , y distribuida normalmente:
Ê a N ( E ; V u2 ( X ' X ) 1 )
Por el Teorema de Gauss – Markov, los estimadores de E de MCO, por ser lineales e
insesgados, son los Mejores Estimadores (MELI), esto es, tienen la varianza más
pequeña entre todos los estimadores lineales e insesgados de E .
Demostración que Ê es MELI
Sea Ê * otro estimador lineal e insesgado de E , tal que:
(1) Eˆ * W *Y
Donde W * ( X ' X ) 1 X 'C , siendo C una matriz no nula. Reemplazando en (1):
(2) Eˆ * (( X ' X ) 1 X 'C )> XE U @ ( X ' X ) 1 X ' XE ( X ' X ) 1 X 'U CXE CU
Si CX X ' C ' 0 , supuesto necesario para que Ê * sea insesgado, luego:
(3) Eˆ * E ( X ' X )1 X ' U CU
Si E >X 'U @ X ' E >U @ 0 , Ê * será un estimador insesgado de E .

> @
(4) E Eˆ * E
Reordenando la ecuación (3)
(5) Eˆ * E ( X ' X ) 1 X ' U CU

(6) (Eˆ * E )(Eˆ * E )' ( X ' X ) 1 X 'UU' X ( X ' X ) 1 CUU' C'( X ' X ) 1 X 'UU' C'CUU' X ( X ' X ) 1
Como CX X ' C ' 0 , la varianza de Ê * es:
(7) E[( Eˆ * E )( Eˆ * E )' ] V ( Eˆ *) V u2 [( X ' X ) 1 CC ' ]
Dado que CC’ es una matriz semidefinida positiva, entonces, la varianza de Ê * será
mayor que la varianza de Ê estimada por mínimos cuadrados ordinarios:
(8) V ( Eˆ *) ! V ( Eˆ ) .
Por lo tanto, el estimador de E de MCO, Ê , tiene la varianza mínima,, entre todos los
estimadores lineales e insesgados.
3.4.3 Estimador de la Varianza de la Regresión Vˆ u2
En el modelo de regresión Y XE U , tanto los parámetros E como los errores U son

desconocidos. Pero su estimador observable es:
Yˆ XÊ (3.20)
Luego, el residuo entre el valor observado y el valor estimado es:
Uˆ Y Yˆ XE U XEˆ U X ( E Eˆ ) U X [( X ' X ) 1 X 'U ]

Uˆ [ I N X ( X ' X ) 1 X ' ]U MU (3.21)
Donde M I N X ( X ' X )1 X ' , es una matriz simétrica, idempotente y semidefinida

positiva1.
La suma de cuadrados de los residuos será:

Uˆ 'Uˆ U ' M ' MU U ' MU (3.22)
Hallando el valor esperado

E[Uˆ 'Uˆ ] E[U ' MU ] E[traza (U ' MU )] (3.23)
1
M es simétrica si M=M’. M es idempotente si M=M’M=MM’. M es semidefinida positiva si para
cualquier vector V no nulo, se cumple que V ' MV t 0 .
En este caso el valor esperado del producto de matrices es el esperado de la traza debido
a que U’MU es un escalar:
E[Uˆ 'Uˆ ] E[tr (UU ' M )] tr ( E[UU ' ]M ) V u2 .tr ( M ) V u2 .tr[ I n X ( X ' X ) 1 X ' ]
E[Uˆ 'Uˆ ] V u2 .tr ( I n ) V u2 .tr[( X ' X ) 1 X ' X ] nV u2 V u2 tr[ I k ] V u2 (n k ) (3.24)
Pasando al otro miembro (n-k) tenemos
ª Uˆ ' Uˆ º
E« » V u2 (3.25)
¬n k ¼
Si definimos como el estimador de la varianza del error a Vˆ u2

Uˆ ' Uˆ
Vˆ u2 (3.26)
nk
Luego, el estimador de la varianza del error Vˆ u2 es un estimador insesgado de V u2 .
3.4.4 Bondad de Ajuste
a) El Coeficiente de Determinación R 2
El coeficiente de determinación, R 2 , mide el porcentaje de la variación total que es

explicada por la variación de la regresión, es decir, mide el “ajuste” de la línea de
regresión con respecto a los valores observados de la variable dependiente.
Sea el modelo de regresión:

Yi E 1 E 2 X 2i E 3 X 3i ....... E k X ki u i ó Y XE U
y su estimador:
Yi Eˆ1 Eˆ2 X 2i Eˆ3 X 3i ....... Eˆk X ki ó Y XÊ .
Por lo tanto, el valor observado es la suma del valor estimado y del residuo
Y XEˆ Uˆ (3.27)
Y 'Y ( XEˆ Uˆ )' ( XEˆ Uˆ ) Eˆ ' X ' XEˆ Uˆ 'Uˆ 2 Eˆ ' X 'Uˆ Eˆ ' X ' XEˆ Uˆ 'Uˆ (3.28)
Donde X 'Uˆ X ' (Y XEˆ ) X ' Y X ' XEˆ 0 , de la ecuación 3.8.
Restando nY 2 en ambos miembros,

(Y ' Y nY 2 ) ( Eˆ ' X ' XEˆ nY 2 ) Uˆ 'Uˆ ( Eˆ ' X ' Y nY 2 ) Uˆ 'Uˆ (3.29)
SCT SCExp SC Re s (3.30)

Donde:
SCT : Suma de cuadrados totales
SCExp : Suma de cuadrados explicada
SC Re s : Suma de cuadrados residuales
Dividiendo ambos miembros de la ecuación 3.30 por SCT se obtiene:
SCExp SC Re s
1 (3.31)
SCT SCT
Es decir, una porción de la suma de cuadrados totales es explicada por la regresión y

otra porción no es explicada por la regresión (es la proporción residual)
El coeficiente de determinación R 2 mide la parte de la variación total que es explicada

por la regresión, es decir:
SCExp SC Re s
R2 1 (3.32)
SCT SCT
Por lo tanto, 0 d R 2 d 1 . El R 2 tomará valor cero si la regresión no ayuda en nada a

explicar la variación total de la variable dependiente. Al contrario, el R 2 tomará valor 1
si la regresión explica perfectamente todas las variaciones de la variable dependiente.
En términos de las variables observables, el R 2 es:
Eˆ ' X ' XEˆ nY 2 Eˆ ' X 'Y nY 2 Uˆ 'Uˆ

R2 1 (3.33)
Y 'Y nY 2 Y 'Y nY 2 Y 'Y nY 2
Donde Uˆ 'Uˆ Y 'Y Eˆ ' X ' XEˆ Y 'Y Eˆ ' X 'Y
b) R 2 ajustado
Una característica del R 2 es que aumenta a medida que se incorpora más variables
explicativas, es decir, la proporción explicada aumenta con el número de regresores o
lo que es lo mismo, la proporción no explicada, disminuye cuando aumenta el número
de regresores. Para corregir este problema surge el R 2 ajustado, R 2 , en el que se
incorpora los cambios en los grados de libertad cuando se incorpora variables
explicativas en el modelo.
SC Re s
§ SC Re s ·§ n 1 · § SCT SCExp ·§ n 1 ·
R2 1 n k 1 ¨ ¸¨ ¸ 1 ¨ ¸¨ ¸ (3.34)
SCT © SCT ¹© n k ¹ © SCT ¹© n k ¹
n 1
O también:
§ n 1 ·
R2
1 1 R2 ¨
©nk ¹
¸ (3.35)
El R 2 mide el porcentaje de la varianza total que no es explicada por la varianza

residual.
En el gráfico adjunto podemos observar que el R 2 aumenta a medida que aumenta el

número de regresores, sin embargo, el R 2 solo aumenta hasta cuando se incorpora k*
regresores, luego del cual la reducción de la SCRes es proporcionalmente menor que la
pérdida de los grados de libertad, lo que hace que aumente la varianza del error, lo que
produce que el R 2 comience a disminuir.
R2; R 2
1
R2
R2
K
0 K* # Regresores
Gráfico 3.1: R2 y R2 Ajustado
El Coeficiente de determinación y el coeficiente de correlación simple
En el contexto de un modelo de regresión general, el coeficiente de correlación simple

se mide como la asociación lineal entre la variable dependiente observada y su valor
estimado por el modelo, es decir:
¦ yˆy Yˆ ' Y nY 2 Eˆ ' X ' Y nY 2
rY ,Yˆ
2
¦ y ¦ yˆ
2
Y ' Y nY 2 Eˆ ' X ' Y nY 2 Y ' Y nY 2 Eˆ ' X ' Y nY 2
Descomponiendo el numerador:
Eˆ ' XY nY 2 Eˆ ' XY nY 2 Eˆ ' XY nY 2 SCExp

r R2
Y ,Yˆ SCT
Y ' Y nY 2 Eˆ ' X ' Y nY 2 Y ' Y nY 2
Por lo tanto, la correlación entre el valor observado y el valor estimado de la variable

dependiente es la raíz de coeficiente de determinación.
Ejemplo 3.1: Curva de Demanda de un bien hipotético
Supongamos que desea estimar la demanda de un bien X cualquiera.
§ PRECIOt ·
log(CANTIDADt ) E 1 E 2 log¨¨ ¸¸ E 3 log( INGRESOt ) u t
© IPCt ¹
Se recoge información para:
CANTIDAD: consumo per cápita promedio anual del bien X

PRECIO: Precio unitario del bien X, medido en unidades monetarias corrientes.
IPC: Indice de precios al consumidor, base 1972, 1972=100.
INGRESO: Ingreso per cápita en unidades monetarias reales.
Se presenta los resultados de la función de demanda estimada:
Dependent Variable: LOG(CANTIDAD)

Sample: 1959 1983
C Ê 1 =-1.407694 0.553399 -2.543721 0.0185
LOG(PRECIO/IPC) Ê 2 =-2.704292 0.349259 -7.742951 0.0000
LOG(INGRESO) Ê 3 =0.511643 0.081103 6.308541 0.0000
S.E. of regression 0.050649 Akaike info criterion -3.015646
Sum squared resid 0.056436 Schwarz criterion -2.869381
Log likelihood 40.69558 F-statistic 407.3293
Matriz de varianzas y Covarianzas de los estimadores V (Eˆ )

Ê 1 Ê 2 Ê 3
Ê 1 V ( Eˆ1 ) =0.306251 c( Eˆ1 , Eˆ 2 ) =-0.171227 c( Eˆ1 , Eˆ 3 ) =-0.044870
Ê 2 c( Eˆ , Eˆ ) =-0.171227
1 2 V ( Eˆ ) =0.121982
2 c( Eˆ , Eˆ ) =0.024891
2 3
Ê 3 c( Eˆ1 , Eˆ 3 ) =-0.044870 c( Eˆ 2 , Eˆ 3 ) =0.024891 V ( Eˆ 3 ) =0.006578
Se ha especificado una función de demanda doble logarítmica con el propósito de

obtener directamente las elasticidades de la demanda a partir de los coeficientes
estimados, obteniéndose como resultado:
wCANTIDAD
w log(CANTIDAD ) CANTIDAD =-2.70
Elasticidad precio de la demanda: ex, Px
w log( PRECIO) wPRECIO
PRECIO
wCANTIDAD
w log(CANTIDAD ) CANTIDAD = 0.51
Elasticidad Ingreso de la demanda: K x
w log( INGRESO) wINGRESO
INGRESO
Luego, la demanda del bien X es elástica con respecto al precio, o sea, el bien X tiene
muchos sustitutos. También, la demanda del bien X es inelástica al ingreso y positivo,
lo que implica que el bien X es un bien normal necesario.
El R 2 = 0.9737 y el R 2 =0.9713, los cuales son bastante “altos”, esto es cercano a uno,
lo que implica que la regresión explica el 97.37% de la variación total y que el 97.13%
de la varianza total no es explicado por la varianza del error, sino por la varianza de la
regresión.
DATOS PARA LA FUNCIÓN DE DEMANDA

AÑOS CANTIDAD PRECIO IPC INGRESO
1959 3.100000 84.60000 70.60000 479.7000
1960 3.500000 84.50000 71.90000 489.7000
1961 3.900000 84.30000 72.60000 503.8000
1962 4.200000 85.10000 73.70000 524.9000
1963 4.500000 85.40000 74.80000 542.3000
1964 4.800000 85.50000 75.90000 580.8000
1965 5.300000 85.10000 77.20000 616.3000
1966 5.900000 84.10000 79.40000 646.8000
1967 6.300000 85.50000 81.40000 673.5000
1968 6.600000 88.10000 84.60000 701.3000
1969 6.800000 92.10000 88.40000 722.5000
1970 7.000000 94.40000 92.50000 751.6000
1971 7.100000 97.40000 96.50000 779.2000
1972 7.400000 100.0000 100.0000 810.3000
1973 7.900000 102.7000 105.7000 865.3000
1974 7.800000 113.9000 116.3000 858.4000
1975 7.400000 128.3000 125.2000 875.8000
1976 7.500000 135.6000 131.7000 906.8000
1977 7.800000 143.3000 139.3000 942.9000
1978 8.100000 151.1000 149.1000 988.8000
1979 8.400000 161.5000 162.5000 1015.500
1980 8.300000 176.2000 179.0000 1021.600
1981 8.300000 194.4000 194.5000 1049.300
1982 8.100000 210.5000 206.0000 1058.300
1983 8.100000 222.9000 213.6000 1095.400
3.5 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MV)
3.5.1 Máxima Verosimilitud
Sea el modelo de regresión lineal general Y XE U . Si se tiene información sobre la

función de distribución del error, f (u ) es posible utilizar el método de máxima
verosimilitud para estimar los parámetros del modelo de manera más eficiente. Por
ejemplo, si suponemos que los errores son variables aleatorias independientes y
normalmente distribuidas, con media cero y varianza constante, se tendría:
U a NID(0 ; V u2 I n )
La función de densidad de probabilidad del error, pdf (ui ) :
1§ u2 ·
¨ i2 ¸
1 2 ¨© V u ¸
¹
f (u i ) e (3.36)
2SV u2
Si los errores, ui , son variables aleatorias independientes e idénticamente distribuidas

(iid), la función de densidad conjunta del vector de errores es:
1§ u2 ·
¨ i2 ¸
n n 1 2 ¨© V u ¸
¹
f (u ) f (u1 ). f (u 2 )........ f (u n ) f (u i ) e
i 1 i 1 2SV u2
n n
§ 1 · 2V1 2 ¦ ui2 § 1 · V1 2 U 'U
f (u ) ¨ ¸ e u ¨ ¸ e 2 u (3.37)
¨ 2SV 2 ¸ ¨ 2SV 2 ¸
© u ¹ © u ¹
Si reemplazamos U Y XE en la función conjunta obtendremos la función de

verosimilitud, L(Y ; X ; E ; V u2 ) :
n 1
Y XE 'Y XE
2 2 2V u2
L(Y ; X ; E ; V ) u (2SV ) e u
2
(3.38)
Con fines de facilitar los cálculos, podemos hallar el logarítmo de la función de

verosimilitud o la “log-likelihood function”, l (.) logL(.) .
n n 1
l (Y ; X ; E ; V u2 ) log2S log V u2
Y ' Y E ' X ' XE 2 E ' X ' Y (3.39)
2 2 2V u2
Porque (Y XE )' (Y XE ) Y ' Y E ' X ' XE 2 E ' X ' Y .

ECONOMETRIA, TEORÍA Y APLICACIONES Juan Pichihua Serna 81
El método de máxima verosimilitud consiste en maximizar la función de verosimilitud,

L(.) , o equivalentemente la función de log verosimilitud l (.) con respecto de E y V u2 ,
esto es:
l (.) wl (.) wl (.) ~
Max 2
0; 2
0 E ; V~u2
E ;V u wE wV u
Luego, maximizando l (.)
wl (.) n ~
~ 2 (2 X ' XE 2 X ' Y ) 0 (3.40)
wE 2V u
wl (.) n n ~ ~ ~
wV u2 2V u 2V u

~ 2 ~ 4 Y ' Y E ' X ' XE 2 E ' X ' Y 0 (3.41)
De la ecuación 3.40 se obtiene las ecuaciones normales:

~
X ' XE X 'Y (3.42)
~
De la ecuación 3.42 obtenemos el estimador de E por máxima verosimilitud, E :
~
E X ' X 1 X ' Y (3.43)
~
Por lo tanto, el estimador de E por máxima verosimilitud, E , es idéntica al estimador
de E por mínimos cuadrados ordinarios:
~
E Eˆ (3.44)
De la ecuación 3.41 obtenemos el estimador de V u2 por máxima verosimilitud, V~u2 :
~ ~ ~ ~ ~ ~ ~
V~ 2
Y ' Y E ' X ' XE 2 E ' X ' Y (Y XE )' (Y XE ) U 'U ¦ u~i2
u
n n n n
~ ~ ~ ~
(Y XE )' (Y XE ) U 'U
V~u2 (3.45)
n n
~ ~
Nótese, que si E Eˆ , entonces, u~ Y XE Y XEˆ uˆ , o también ¦ u~i2 2
¦ uî .
~
Sustituyendo E y V~u2 en las ecuaciones 3.38 y 3.39 se obtendrá el valor máximo de la
función de verosimilitud, L(.) , o lo que es lo mismo la función log verosimilitud., l (.) .

l Eˆ ; V~u2 n n
1 ~ ~
log2S log V~u2 ~ 2 (Y XE )' (Y XE )
2 2 2V u
3.5.2 Propiedades de los estimadores de MV

~
x E es un estimador lineal de Y.
~
E X ' X 1 X ' Y [ X ' X 1 X ' ]Y WY (3.46)
~
x E es un estimador insesgado de E
Si X es exógena en el modeloY XE U y E >U @ 0 entonces:
~
E X ' X 1 X ' Y [ X ' X X ' ]( XE U )
1
E ( X ' X ) 1 X 'U (3.47)
~
Hallando el valor esperado de E , se tiene:
~
EE>@ E X ' X 1 X ' E >U @ E (3.48)
~
Por lo tanto, el estimador de máxima verosimilitud, E , es un estimador insesgado de
E:
En consecuencia, por el Teorema de Gauss Markov, la varianza del estimador de E por

~ ~ ~
máxima verosimilitud, V ( E ) E[( E E )( E E )' ] es la menor entre los estimadores
lineales e insesgados de E .
De la ecuación 3.36 se obtiene:

~
E E ( X ' X ) 1 X 'U (3.49)
~ ~
( E E )( E E )' X ' X X 'UU ' X X ' X
1 1
(3.50)
Dado que U a NID( E >U @ 0 ; V (U ) V u2 I n ) , entonces:

~ ~ ~
V ( E ) E[( E E )( E E )' ] ( X ' X ) 1 X ' E[UU ' ]( X ' X ) 1 V u2 X ' X
1
(3.51)
De donde se obtiene que la varianza de E por máxima verosimilitud es idéntica a la

~
varianza de E por mínimos cuadrados ordinarios, V ( E ) V ( Eˆ ) .
x V~u2 es un estimador sesgado pero consistente de V u2 .
De la ecuación 3.45 se deduce que V~u2 es un estimador sesgado de V u2 .

~ ~ ~ ~
~ 2 ªU 'U º § n k · ª U 'U º §nk· 2
E[V u ] E « » ¨ ¸E « » ¨ ¸V u (3.52)
¬ n ¼ © n ¹ ¬n k ¼ © n ¹
Sin embargo, también se puede demostrar que V~u2 es un estimador consistente de V u2 .

Lim E[V~u2 ] Lim § n k · 2 Lim § k · 2
¨1 ¸V u 1 0 V u V u
2 2
¨ ¸V u (3.53)
nof n o f © n ¹ n o f © n ¹
3.5.3 Matriz de Varianzas y Covarianzas de los Estimadores de MV
ª w 2 l (.) º
Sea J ' >E V 2
u @ , la matriz de información es: I J E « ».
¬ wJwJ ' ¼
Donde:
ª w 2 l (.) w 2 l (.) º
2
w l (.) « wEwE ' wEwV u2 »
« 2 » (3.54)
wJwJ ' «w l (.) 2 w 2 l (.) »
«¬ wV u wE ' 2

w V u2 »¼
La propiedad de la matriz de información es que su inversa proporciona la matriz de

varianzas y covarianzas de los estimadores de máxima verosimilitud, llamado también
límite inferior de Cramer-Rao.
I 1 J~ ¦ J~ (3.55)
Luego,
w 2 l (.) X'X ª w 2 l (.) º X'X

2
E« » (3.56)
wEwE ' V u ¬ wEwE ' ¼ V u2
w 2 l (.) X 'U ª w 2 l (.) º

E« 2 »
0 (3.57)
wEwV u2 V u2 ¬ wEwV u ¼
2V u2 ª º
wl (.) n
U ' U E « wl (.) »
n

n n
(3.58)
wV 2 2
u
2V 4
u 2V u8
¬ u
«w V 2 2 »
¼
2V u4 V u4 2V u4
Luego, la matriz de información, I J y la matriz de varianza, ¦ J~ son:
ªX ' X 2 0 º
ª w 2 l (.) º « Vu »
I J E « » (3.59)
« 0 n 2»
¬ wJwJ ' ¼ «¬ 2V u »¼
ªV u2 X ' X 1 0 º ~
ªV ( E ) 0 º
¦ J~ I 1 J~ « 2V u4 »» « » (3.60)
« 0 ¬ 0 V (V~u2 )¼
¬« n ¼»
La diagonal de la matriz ¦ J~ proporciona las varianzas de los estimadores de máxima

verosimilitud. Note que las covarianzas son cero. Esto se explica por la independencia
entre las X’s y el término de perturbación U.
3.5.4 Bondad de Ajuste
La “bondad de ajuste” de un modelo estimado por máxima verosimilitud se mide por la

razón de verosimilitud entre el valor de la función de log verosimilitud de un modelo
Restringido (R) y de un modelo no restringido (NR), lo que prueba la hipótesis
H 0 : E 2 E 3 ...... E k .
ª L(J~ ) º
RV 2 log« ~ R » 2>log L(J~R ) log L(J~NR )@ 2>l (J~R ) l (J~NR )@ (3.61)
¬ L(J NR ) ¼
Donde:
RV a F 2 con k-1 grados de libertad (3.62)
Donde la función log verosimilitud (log likelihood) del modelo no restringido se obtiene
de:
§n· § 1 · ~ ~ ~
l (J~NR ) ¨ ¸ log(2SV~u ) ¨¨ ~ 2 ¸¸¦ (Yi E1 E 2 X 2i ...... E k X ki )
2 2
(3.63)
© 2 ¹ © 2V u ¹
La función de log verosimilitud del modelo restringido se obtiene de suponer que la

hipótesis nula es cierta, esto es: E 2 E 3 ...... E k .
§n· §n· § 1 ·
l (J~R ) ¨ ¸ log(2S ) ¨ ¸ log(V~u , R ) ¨¨ ~ 2
2 ¸¦ (Yi E~1 ) 2 (3.64)
¸
© 2 ¹ ©2¹ © 2V u , R ¹
Ejemplo 3.2 Estimación por Máxima Verosimilitud el Modelo de Demanda
Con el propósito de facilitar la estimación y comprensión del modelo de demanda del

Ejemplo 3.1 se supone que el error se distribuye normalmente. La sintaxis para estimar
los parámetros del modelo por máxima verosimilitud en Eviews se debe utilizar el
comando LOGL (log likelihood, log verosimilitud) de la siguiente forma:
@PARAM c(1) -1.40 c(2) -2 c(3) 0.50 c(4) 0.05

@LOGL LOGL
RES=log(cantidad)-C(1)-C(2)*log(precio/ipc)-c(3)*log(ingreso)
VAR=c(4)^2
LOGL=LOG(@DNORM(RES/@SQRT(VAR)))-LOG(VAR)/2
Seguido al comando @PARAM se debe escribir los valores iniciales de los tres
parámetros que serán estimados el intercepto, c(1), las pendientes c(2) y c(3) y la
varianza c(4).
Seguido al comando @LOGL se pone el nombre de la función log likelihood (log de

verosimilitud). En este caso se la nombra como LOGL.
Luego se define las ecuaciones para el residuo (RES), la varianza del error (VAR) y de
la función de log verosimilitud (log likelihood).
Los resultados de la estimación son:

C(1) -1.407898 0.741870 -1.897768 0.0577
C(2) -2.704133 0.416791 -6.487984 0.0000
C(3) 0.511673 0.109594 4.668823 0.0000
C(4) 0.047513 0.010313 4.606997 0.0000
Log likelihood 40.69558 Akaike info criterion -2.935646
Avg. log likelihood 1.627823 Schwarz criterion -2.740626
Number of Coefs. 4 Hannan-Quinn criter. -2.881556
La varianza del error estimada es: V~u2

¦ u i2 (0.047513) 2
n
La matriz de varianzas y covarianzas de los estimadores, es decir, la inversa de la matriz

de información es:
ª 0.550371 - 0.288311 - 0.081289 - 0.001438º
« »
¦ˆ ~ « - 0.288311 0.173715 0.042402 0.001757 »
J
«- 0.081289 0.042402 0.012011 0.000212 »
« »
¬- 0.001438 0.001757 0.000212 0.000106 ¼
La estimación del modelo restringido (sólo con el intercepto) es:

C(1) 1.843015 0.092564 19.91068 0.0000
C(4) 0.293002 0.068824 4.257253 0.0000
El ratio de verosimilitud, que prueba la bondad de ajuste del modelo es:
RV 2 * (4.784091 (40.69558)) 90.95

F 02.95, 2 gl =5.99
Como se puede observar, el RV supera largamente el chi-cuadrado para un 5% de error

tipo I (95% de confianza), por lo tanto el modelo no restringido ajusta mejor que el
modelo restringido.
3.6 ESTIMACIÓN POR MÍNIMOS CUADRADOS RESTRINGIDOS (MCR)
3.6.1 Mínimos Cuadrados Restringidos
Supongamos que se dispone de información a priori (estudios anteriores o axiomas

teóricos, etc.) en el que los parámetros toman ciertos valores o mantienen cierta
combinación lineal entre ellos. Por ejemplo, cuando se estima una función de
producción es posible obligar a que los parámetros cumplan con la condición de
Rendimientos Constantes a Escala. O cuando se estima una función de demanda se
puede exigir que se cumpla con la condición de homogeneidad. O también, si estudios
previos han encontrado que alguno de los parámetros toma consistentemente
determinados valores.
Si esta información se incorpora a la estimación de los parámetros del modelo producirá

ganancia en eficiencia, toda vez que cada información adicional será un grado de
libertad adicional ganado.
Por ejemplo, supongamos que el modelo de regresión fuera:
Yi E1 E 2 X 2i E 3 X 3i E 4 X 4i ui . Sujeto a: 2 E3 E 2 1 y E2 2E4
Matricialmente las restricciones son:

ª E1 º
«E »
ª0 1 2 0 º ª1º
R « » ; E « 2» ; r «0» RE r.
¬0 1 0 2 ¼ « E3 » ¬ ¼
« »
¬E4 ¼
Donde:
R = matriz de coeficientes de las combinaciones lineales de los parámetros.

E = vector de parámetros del modelo.
r = vector de valores que toman las combinaciones lineales de los parámetros.
Note que si se estima E 2 , E 3 y E 4 serían obtenidos automáticamente de las dos

restricciones, por lo tanto, en el modelo solo quedan por estimar dos parámetros E1 y
E2 .
En general, sea el modelo de regresión:
Y XE U sujeto a: RE r (3.65)
Donde:
R = matriz de q x k, donde q es el número de restricciones lineales y k el número total
de parámetros del modelo.
E = vector de k x 1.
r = vector de q x 1.
El método de mínimos cuadrados restringidos, estima los parámetros restringidos Ê R

del modelo, luego de minimizar la suma de cuadrados de los residuos, ¦ ui2 , sujeto a:
RE r , esto es:
Min ¦ ui2 sujeto a: RE r Ê R
E
Sean los residuos del modelo: U Y XE , entonces, la función a minimizar será:
¦ u i2 U R 'U R (Y XE )' (Y XE ) 2O ' (r RE ) (3.66)2
Dado que la ecuación 3.66 tiene como resultado un escalar se obtiene:
U R 'U R Y ' Y 2 E ' X ' Y E ' X ' XE 2O ' (r RE ) (3.67)
Minimizando U R 'U R con respecto a E y O :
wU R 'U R
2 X ' Y 2 X ' XEˆ R 2 R' O 0 (3.68)
wE
wU R 'U R
r REˆ R 0 (3.69)
wO
Reordenando y simplificando la ecuación 3.68 se obtiene:
X ' Y X ' XEˆ R R' O (3.70)
Pre-multiplicando por R( X ' X ) 1 se obtiene:
R ( X ' X ) 1 X ' Y R ( X ' X ) 1 X ' XEˆ R R( X ' X ) 1 R' O (3.71)

Eˆ r
Simplificando, reemplazando ( X ' X ) 1 X ' Y por Ê y RÊ R por r , reordenando y Pre-

multiplicando por [ R( X ' X ) 1 R' ] 1 se obtiene:
[ R X ' X R' ] 1 (r REˆ )

1
O (3.72)
Reemplazando la ecuación 3.72 en la ecuación 3.70, se obtiene:
X ' Y X ' XEˆ R R'[ R( X ' X ) 1 R' ] 1 (r REˆ ) (3.73)
Reordenando se obtiene las ecuaciones normales de mínimos cuadrados restringidos

(MCR).
2
Dado que el valor de O no es restringido, se puede especificar como 2O para facilitar los cálculos.
X ' XEˆ R X ' Y R'[ R( X ' X ) 1 R' ] 1 (r REˆ ) (3.74)
Pre-multiplicando por ( X ' X ) 1 se obtiene el estimador de E por MCR Ê R .

EˆR ( X ' X ) 1 X ' Y ( X ' X ) 1 R'[ R( X ' X ) 1 R' ] 1 (r REˆ )
Eˆ R Eˆ ( X ' X ) 1 R'[ R ( X ' X ) 1 R' ] 1 (r REˆ ) (3.75)
Por lo tanto, si Ê estimado por mínimos cuadrados ordinarios satisface la condición

RÊ r , entonces, el estimador de E estimado por MCO será igual al estimador de
MCR, Ê Ê R .
3.6.2 Propiedades de los estimadores de mínimos cuadrados restringidos:
x Valor esperado de Ê R
Si efectivamente se cumple que RE r , el valor esperado a la ecuación 3.75 produce:
E[ Eˆ R ] E[ Eˆ ] [ I k ( X ' X ) 1 R'[ R( X ' X ) 1 R' ] 1 ](r R.E[ Eˆ ])

E[ Eˆ ]R E [ I k ( X ' X ) 1 R'[ R( X ' X ) 1 R' ] 1 ](r RE )
E[ Eˆ R ] E (3.76)
Por lo tanto, Ê R es un estimador insesgado de E .
x Varianza de Ê R
Desarrollando la ecuación 3.75 se tiene:
Eˆ R ( X ' X ) 1 R'[ R( X ' X ) 1 R' ] 1 r [ I k ( X ' X ) 1 R'[ R( X ' X ) 1 R' ] 1 R ]Eˆ

C A
Eˆ R C AEˆ (3.77)
Donde C es un vector no nulo, y A es una matriz de k x k, simétrica, idempotente y

semi-definida positiva.
Luego, la varianza de Ê R es:
V [ Eˆ R ] V (C AEˆ ) V (C ) AV ( Eˆ ) A' 0 V u2 A( X ' X ) 1 A'

V [ Eˆ R ] V u2 A( X ' X ) 1 (3.77)
Dado que A es una matriz semi definida positiva se puede demostrar que si se cumple la
restricción RE r , entonces, V [ Eˆ R ] d V [ Eˆ ] . Esto es la información RE r permite
ganar q grados de libertad y hacer más precisa la estimación de parámetros.
x Distribución de Ê R
Dado que Eˆ ( X ' X ) 1 X ' Y , se demuestra que Ê R es un estimador lineal, porque se

puede obtener como una combinación lineal de Y.
Eˆ R C A( X ' X ) 1 X ' Y C DY (3.78)
También, si se reemplaza Y XE U en 3.78 se demuestra que Ê R se puede obtener

también como una combinación lineal de U.
Eˆ R C AE A( X ' X ) 1 X 'U (3.78)
En suma, Ê R es un estimador lineal e insesgado de E , y está distribuida normalmente

con:
Ê R a N ( E ; V u2 A( X ' X ) 1 )
3.6.3 Bondad de Ajuste, el Coeficiente de Determinación R 2
El coeficiente de determinación, R 2 , de un modelo estimado por mínimos cuadrados

restringidos es el mismo que si se calculara para un modelo no restringido. Por lo tanto:
2 Uˆ R 'Uˆ R ¦ uˆ i2,R
R 1 1 (3.79)
Y ' Y nY 2 ¦ y i2
Donde Uˆ R 'Uˆ R (Y XEˆ R )' (Y XEˆ R )
El R 2 -corregido (ajustado), R 2 , se obtiene de la manera estándar, es decir, corregido

por los grados de libertad, esto es:
Uˆ R 'Uˆ R ¦ uˆ i2,R
nk q nk q § n 1 ·
R2 1 1 1 (1 R 2 )¨¨ ¸¸ (3.80)
Y ' Y nY 2 ¦ yi2 ©nk q¹
n 1 n 1
Se agrega q grados de libertad debido a que se tiene q restricciones lineales en los

parámetros en RE r .
Ejemplo 3.3: La Función de producción y los Rendimientos a Escala
Suponga que los datos que se presentan a continuación corresponden a datos recogidos
de 27 productores de maíz amarillo duro donde:
Q: Producción de maíz (kilos por hectárea al año).

L: Trabajo, Cantidad de horas de jornales utilizados por hectárea año de maíz.
K: Capital, Gasto en alquiler de máquinaria por hectárea de maíz.
obs Q L K obs Q L K
1 657.2900 162.3100 279.9900 14 1165.630 240.2700 1078.790
2 935.9300 214.4300 542.5000 15 1917.550 536.7300 2109.340
3 1110.650 186.4400 721.5100 16 9849.170 1564.830 13989.55
4 1200.890 245.8300 1167.680 17 1088.270 214.6200 884.2400
5 1052.680 211.4000 811.7700 18 8095.630 1083.100 9119.700
6 3406.020 690.6100 4558.020 19 3175.390 521.7400 5686.990
7 2427.890 452.7900 3069.910 20 1653.380 304.8500 1701.060
8 4257.460 714.2000 5585.010 21 5159.310 835.6900 5206.360
9 1625.190 320.5400 1618.750 22 3378.400 284.0000 3288.720
10 1272.050 253.1700 1562.080 23 592.8500 150.7700 357.3200
11 1004.450 236.4400 662.0400 24 1601.980 259.9100 2031.930
12 598.8700 140.7300 875.3700 25 2065.850 497.6000 2492.980
13 853.1000 145.0400 1696.980 26 2293.870 275.2000 1711.740
27 745.6700 137.0000 768.5900
a) Estime la función de producción tipo Cobb-Douglas irrestricta (no restringida).

Q ALE 2 K E 3 eui
b) Eestime la función de producción restringida a los rendimientos constantes a escala:
Q ALE 2 K E 3 eui tal que: E 2 E 3 1 .
Modelo no restringido: log Q E1 E 2 log L E 3 log K ui
Dependent Variable: LOG(Q)

C 1.170644 0.326782 3.582339 0.0015
LOG(L) 0.602999 0.125954 4.787457 0.0001
LOG(K) 0.375710 0.085346 4.402204 0.0002
Modelo restringido: log Q E1 E 2 log L (1 E 2 ) log K ui
Dependent Variable: LOG(Q)

LOG(Q)=C(1)+C(2)*LOG(L)+(1-C(2))*LOG(K)
Coefficient Std. Error t-Statistic Prob.
C(1) 1.069265 0.131759 8.115322 0.0000
C(2) 0.636970 0.075408 8.446983 0.0000
Log likelihood 8.285586 Durbin-Watson stat 1.903585
Donde la elasticidad de producción del capital y su varianza son:
Eˆ3 1 0.63697 0.36303 V ( Eˆ3 ) 0.0754082
Note que si E 3 1 E 2 la función de producción restringida queda expresada da la

siguiente manera:
log Q log K E1 E 2 log L log K ui
ó también
log§¨ Q ·¸
© K¹

E1 E 2 log L K ui
Estimar por mínimos cuadrados restringidos equivalente a estimar por mínimos

cuadrados ordinarios de la ecuación restringida:
Ejemplo 3.4 Condición de Homogeneidad en las funciones de demanda
Sea la función de demanda: log Q d E1 E 2 log PX E 3 log PY E 4 log I ui . La

condición de homogeneidad implica que las elasticidades de la demanda suman cero:
E 2 E3 E 4 0 . O también: Eˆ4 Eˆ2 Eˆ3 .
Por lo tanto, se debe estimar la siguiente función de demanda restringida:

log Q d E1 E 2 log PX E 3 log PY ( E 2 E 3 ) log I ui .
Varianza de la elasticidad ingreso, E 4 se obtiene de la siguiente manera:

V ( Eˆ ) V ( Eˆ ) V ( Eˆ ) C ( Eˆ ; Eˆ )
4 2 3 2 3
3.7 PRUEBAS DE HIPÓTESIS

Casos:
x Test de Wald
x Test de especificación, Test del Ratio de Verosimilitud.
x Test de modelos no anidados (non nested test)
x Test de Cambio estructural, test de Chow
3.7.1 Test de Wald
Sea el modelo no restringido (irrestricto): Y XE U . Donde U a N (0 ; V u2 I n ) .

Si las variables explicativas son independientes del error, E >X 'U @ 0 , entonces:
Ê a N ( E ; V u2 ( X ' X ) 1 )
Sea el modelo restringido: Y XE U sujeto a: RE r . Donde U a N (0 ; V u2 I n ) .

Si las variables explicativas son independientes del error E >X 'U @ 0 , entonces:
Ê R a N ( E ; V u2 A( X ' X ) 1 )
Donde: A [ I k ( X ' X ) 1 R'[ R( X ' X ) 1 R' ] 1 R ] .
Si no se impone restricciones a los parámetros, la matriz R será una matriz nula, es

decir, con todos sus elementos iguales a cero. En este caso, el modelo restringido es
idéntico al modelo no restringido.
Ê = Ê R
A. Estadístico de prueba de Wald
Una forma genérica de plantear un conjunto de q hipótesis simultáneas que signifiquen

combinaciones lineales de los k parámetros de un modelo de regresión lineal general
es: RE r . La pregunta central es si los si los estimadores de mínimos cuadrados
ordinarios del modelo no restringido (sin restricciones a los parámetros) admiten la
hipótesis que RE r .
El estadístico de prueba para la hipótesis nula: H 0 : RE r será:
W ( REˆ r ) ' V [ REˆ r ] 1 ( REˆ r ) a F q2 gl (3.81)

1 xq qxq qx1
Donde Ê es el estimador E de mínimos cuadrados ordinarios utilizando el modelo no

restringido. La matriz R es la matriz de coeficientes de las q combinaciones lineales
entre los parámetro y el vector r son los resultados de la combinación lineal de
parámetros. Se supone que R y r son no aleatorios (valores fijos).
Luego, la matriz de la varianzas y covarianzas de RÊ r , V ( REˆ r ) , será:
V ( REˆ r ) RV ( Eˆ ) R ' R(V u2 ( X ' X ) 1 ) R' V u2 .R( X ' X ) 1 R' (3.82)
Por lo tanto, el test de Wald para la hipótesis nula H 0 : RE r queda expresado como:
( REˆ r ) ' [Vˆ u2 R X ' X R' ] 1 ( REˆ r ) a F q2 gl

1
W (3.83)
Donde, Vˆ u2 es la varianza de la regresión en el modelo no restringido, es decir:

2 ¦ uˆ i2 Uˆ 'Uˆ
Vˆ u
nk nk
Alternativamente, el estadístico de prueba para el test de Wald, W, también puede ser

expresado como una prueba F, WF. Para ello se tiene dos alternativas:
x Corrigiendo el test de Wald, y
x Utilizando dos regresiones: una no restringida y otra restringida.
El primer caso, se obtiene de dividir la ecuación 3.83 por q y despejar Vˆ u2 , esto es:
( REˆ r ) ' [ R( X ' X ) 1 R' ] 1 ( REˆ r )

( REˆ r ) ' [Vˆ u2 R( X ' X ) 1 R' ] 1 ( REˆ r ) q
WF
q Vˆ u2
( REˆ r ) ' [ R( X ' X ) 1 R ' ] 1 ( REˆ r )

q
WF a Fq ,nk gl (3.84)
¦ uˆ i2
nk
El segundo caso, consiste en utilizar los resultados de dos regresiones estimadas de

manera independiente, una irrestricta (o sin imponer las restricciones a los parámetros)
y otra restringida (o imponiendo las restricciones en los parámetros), esto es:
A partir de la ecuación 3.30 la suma de cuadrados totales (SCT) se puede descomponer

en la suma de cuadrados explicada por la regresión (SCExp) y la suma de cuadrados no
explicada o residual (SCRes), o sea: SCT SCExp SC Re s . Podemos hacer el cálculo
de las sumas de cuadrados tanto para el modelo restringido (estimado por mínimos
cuadrados restringidos, MCR o por MCO a la ecuación restringida) y para el modelo no
restringido (estimación por mínimos cuadrados ordinarios a la ecuación original) .
SC Re s R SC Re s NR ¦ uˆ i2,R ¦ uˆ i2, NR
q q
SC Re s NR ¦ uˆ i2, NR
nk nk
Dado que la suma de cuadrados totales, SCT, es la misma en el modelo restringido y en

el modelo no restringido, por tener la misma variable dependiente Y, y dado que
SC Re s SCT SCExp , la ecuación 3.85 también se puede expresar como:
SCExp NR SCExp R Eˆ NR ' X ' Y Eˆ R ' X ' Y

q q
SC Re s NR ¦ uˆ i2,NR
nk nk
Finalmente, se puede dividir la ecuación 3.86 por SCT y expresarlo en términos de los
R 2 del modelo restringido y del modelo no restringido, es decir:
2
R NR RR2
q
WF 2
a Fq ,nk gl (3.87)
1 R NR
nk
B. Casos de aplicación del test de Wald
En un modelo con k parámetros, Yi E 1 E 2 X 2i E 3 X 3i E k X ki u i , el test de

Wald que prueba la hipótesis, H 0 : RE r , se puede ordenar en los siguientes casos
particulares:
x Prueba de significancia individual para cada parámetro: H 0 : E j 0, j 1,2,...k .

x Prueba de significancia simultánea o conjunta para todos los parámetros que son
pendiente en el modelo: H 0 : E 2 E 3 E k 0 .
x Prueba de significancia simultánea de un subconjunto de parámetros
x Prueba de significancia simultánea de un conjunto de combinaciones lineales de
parámetros.
Caso 1: Pruebas de significancia individual de los parámetros.
La hipótesis nula H 0 : E j 0 implica que la variable Xj no explica las variaciones de Y.

Si se rechaza la hipótesis nula, implica que el estimador es estadísticamente diferente de
cero, por lo tanto, la variable Xj sí contribuye a explicar las variaciones de la variable Y.
a) Utilizando el estadístico t.

Eˆ j t Ê vs tnk gl
t Eˆ j
j
S ( Eˆ j ) Se acepta Ho si:
H0 : E j 0
Donde: S ( Eˆ j ) V ( Eˆ ) 2 t Ê d t n k gl
Ha : E j z 0 Vˆ .b jj
u j
Donde: b jj es el elemento diagonal (j,j) de la Se rechaza Ho si:

t Ê ! t nk gl
matriz ( X ' X ) 1 . j
b) Utilizando la prueba F, Wald F.
Se puede demostrar que WF FEˆ t E2ˆ . Por lo tanto, si se eleva al cuadrado el t Ê

j j j
obtenido arriba se puede obtener otra expresión de la Wald F.

Eˆ 2
j Eˆ j [b jj ] 1 Eˆ j
WF FEˆ t E2ˆ FÊ vs F1 ; n k gl
j j
V ( Eˆ j ) Vˆ u2 j
Se acepta Ho si:
H0 : E j 0 Donde: para el j-ésimo parámetro
FÊ d F1 ; n k gl
Ha : E j z 0 j
V ( Eˆ j ) Vˆ u2 .b jj Vˆ u2 [ R X ' X 1 R' ]
Se rechaza Ho si:
Siendo: R >0 0 1 0 0@ . Con valor 1 en FEˆ ! F(1 ; n k ) gl
j
el j-ésimo parámetro.
c) Utilizando la prueba F, Wald utilizando dos regresiones (una restringida y otra no

restringida).
El modelo no restringido, NR, incluye las k variables del modelo original, osea:
Modelo NR: Yi E 1 E 2 X 2i E j X ji E k X ki u i
El modelo restringido, R, no incluye la variable Xj pues de acuerdo a H 0 : E j 0.
Modelo R:Yi E 1 E 2 X 2i ... E j 1 X j 1,i E j 1 X j 1,i .. E k X ki u i
Criterio de
Hipótesis Estadístico de Prueba
Decisión
FÊ vs F(1 ; n k ) gl
j
2
( R NR RR2 ) / 1 Se acepta Ho si:
H0 : E j 0 FÊ 2
j
(1 R NR )/n k FEˆ d F(1 ; n k ) gl
Ha : E j z 0 j
Se rechaza Ho si:
FEˆ ! F(1 ; n k ) gl
j
Caso 2: Pruebas de significancia conjunta de todas las pendientes.
La prueba de significación conjunta prueba la hipótesis si todos los k-1 regresores, o

variables explicativas que constituyen pendiente, contribuyen a explicar las variaciones
de la variable dependiente Y. Si se acepta la hipótesis nula significará que el modelo
correcto debiera incluir únicamente el intercepto y ninguna pendiente.
a) Utilizando la prueba F Clásica.
A partir del modelo originalYi E 1 E 2 X 2i E k X ki u i construir:

SCExp / k 1 FÊ 's vs F( k 1 ; n k ) gl
FÊ 's
H0 : E2 E 3 ... E k 0
SC Re s / n k Si FÊ 's < F( k 1 ; n k ) gl se
H a : al menosun E j z 0 acepta la Ho.
R2 / k 1 Si FÊ 's > F( k 1 ; n k ) gl se
FÊ 's
(1 R 2 ) / n k
rechaza la Ho.
b) Utilizando el test de Wald, chi-cuadrado y F de Wald
Si las k-1 pendientes son cero (porque H0 : E2 E3 ... Ek 0 ), la matriz R de la hipótesis

conjunta RE 0 tiene q=k-1 restricciones a los parámetros y la siguiente forma:
E2 0
ª0 1 0 0º
°E 0 «0 0 1 0»
° Donde: R « »
H0 : ® 3 « »
° « »
°¯Ek 0 ¬0 0 0 1¼

El estadístico W (chi-cuadrado) es:
W ( REˆ )'[Vˆ u2 R ( X ' X ) 1 R' ] 1 ( REˆ ) W vs F 2 n k gl
H0 : E2 E 3 ... E k 0
H a : al menos un E j z 0 El estadístico F- de Wald es: FÊ 's vs F( k 1 ; n k ) gl
ˆ 2 1 1 ˆ
(RE )'[Vˆ u R( X ' X ) R' ] (RE ) / k 1
WF
Vˆ u2 Note que: W k 1F
c) Prueba F, Utilizando dos regresiones: una restringida y otra no restringida.
El modelo no restringido (NR) es: Yi E 1 E 2 X 2i E k X ki u i

El modelo restringido (R) es:Yi E 1 u i

FÊ 's vs Fk 1 ; n k gl
2
Se acepta Ho si:
H0 : E 2 E3 ... Ek 0 ( R NR RR2 ) / k 1 FÊ d Fk 1 ; n k gl
FÊ 's
Ha : al menos un E j z 0 2
(1 R NR )/n k j
Se rechaza Ho si:
FÊ ! Fk 1 ; n k gl
j
Caso 3: Pruebas de significancia de un subconjunto de parámetros.
Supongamos que se pone a prueba la relevancia de q-j variables explicativas, por

facilidad se supondrá que son las variables del modelo que siguen a la variable Xj+1
hasta la variable Xq: X j 1 , X j 2 ,..., X q .
El modelo no restringido, NR, será:

Yi E 1 E 2 X 2i ... E j X ji E j 1 X j 1,i ... E q X qi ... E k X ki u i
y el modelo restringido, R, será:

Yi E 1 E 2 X 2i ... E j X ji E q 1 X q 1,i ... E k X ki u i
Si el modelo correcto fuera el modelo restringido, pero se estima el modelo no

restingido, significa que este último está incluyendo q-j variables explicativas
redundantes o irrelevantes, que no contribuyen a explicar las variaciones de la variable
dependiente Y, lo adecuado hubiera sido estimar solamente el modelo restringido.
De igual modo, si el modelo correcto fuera el modelo no restringido, pero se estima el

modelo restringido, esté último estaría omitiendo variables relevantes, que sí son
significativas para explicar las variaciones de la variable dependiente Y, por lo que lo
adecuado sería estimar el modelo no restringido.
c) Utilizando el test de Wald, chi-cuadrado y F de Wald
Si las q-j pendientes son cero (porque H0 : Ej1 Ej2 ... Eq 0), la matriz R de la hipótesis
conjunta RE 0 tiene q-j restricciones a los parámetros y la siguiente forma:
E j 1 0 ª0 0 1 0 0 0 º
°E «0 0 0 1 0 0 »
° j 2 0 Donde R « »
H0 : ® « »
° « »
°¯ Eq 0 ¬0 0 0 0 1 0 ¼

W ( REˆ )'[Vˆ 2 R ( X ' X ) 1 R' ] 1 ( REˆ )
u
W vs F 2 q j gl
H0 : E j 1 E j 2 ... Eq 0
Ha : al menos un E j z 0 ( REˆ )' [Vˆ u2 R( X ' X ) 1 R' ] 1 ( REˆ ) / q j FÊ 's vs Fq j ; n k gl
WF
Vˆ u2
Siendo: W (q j )WF
b) Prueba F, Utilizando dos regresiones: restringida y no restringida.

H0 : E j 1 E j 2 ... Eq 0 2 2
(R R ) / q j
FÊ 's NR
2
R
FÊ 's vs Fq j ; n k gl
Ha : al menos un E j z 0 (1 R NR )/n k
Caso 4: Significancia simultánea de un conjunto de combinaciones lineales en

parámetros
Este caso corresponde estrictamente a cualquier conjunto de combinaciones lineales

entre los parámetros del modelo que puedan ser expresados bajo la forma: RE r . Por
ejemplo si el modelo fuera Yi E 1 E 2 X 2 i E 3 X 3i E 4 X 4 i u i pruebe la hipótesis:
2E E2 1 ª0 1 2 0 º ª1 º
H0 : ® 3 ; por lo tanto: R «0 1 0 2 » ; y r «0 »
¯E 2 2E 4 0 ¬ ¼ ¬ ¼

H0 : RE r W ( REˆ )'[Vˆ u2 R ( X ' X ) 1 R' ] 1 ( REˆ ) W vs F 2 q gl
Ha: Al menos una combi-

( REˆ )' [Vˆ u2 R( X ' X ) 1 R' ] 1 ( REˆ ) / q WF vs F( q ; n k ) gl
nación lineal no se WF
satisface. Vˆ u2 Siendo: W qWF
Cuando la hipótesis incluye una sola combinación lineal, también se puede encontrar su
expresión en la forma de un estadístico t o un estadístico F. A continuación se presentan
algunas aplicaciones.
Ejemplo 3.5: La función de producción y los rendimientos a escala
Supongamos una función de producción tipo Cobb-Douglas, Q ALE 2 K E 3 , se quiere

probar evidencia rendimientos constantes a escala. E 2 E 3 1 .

Eˆ 2 Eˆ 3 1
t Eˆ ˆ
2 E3
S ( Eˆ 2 Eˆ 3 1)
H 0 : E2 E3 1
Donde: t Eˆ Eˆ3
vs t ( n k ) gl
H a : E2 E3 z 1 2
S(Eˆ2 Eˆ3 1) S(Eˆ2 Eˆ3) V(Eˆ2 Eˆ3)

V ( Eˆ 2 Eˆ 3 ) V ( Eˆ 2 ) V ( Eˆ 3 ) 2C ( Eˆ 2 , Eˆ 3 )
Ejemplo 3.6: Condición de homogeneidad en una función de demanda
Supongamos la siguiente función de demanda Q Xd APXE 2 PXE 3 I XE 4 , verifique si se

satisface la condición de homogeneidad.
Eˆ 2 Eˆ 3 Eˆ 4
t Eˆ ˆ ˆ
2 E3 E4
H 0 : E2 E3 E4 0 S ( Eˆ 2 Eˆ 3 Eˆ 4 )
t Eˆ ˆ ˆ vs
2 E3 E 4
H a : E 2 E 3 E 4 z 0 Donde: S ( Eˆ 2 Eˆ 3 Eˆ 4 ) V ( Eˆ 2 Eˆ 3 Eˆ 4 )
tn k gl
V ( Eˆ 2 Eˆ 3 Eˆ 4 ) V ( Eˆ 2 ) V ( Eˆ 3 ) V ( Eˆ 4 )
2 * C ( Eˆ 2 , Eˆ 3 ) 2 * C ( Eˆ 2 , Eˆ 3 ) 2 * C ( Eˆ 3 , Eˆ 4 )
3.7.2 Test de Especificación, Test de Ratio de Verosimilitud
La hipótesis general RE r , con q combinaciones lineales en los parámetros, puede ser

probada utilizando el ratio de verosimilitud, pues incluye los casos de variables omitidas
y de variables irrelevantes.
Supongamos que el vector de parámetros de un modelo puede dividirse en dos grupos,

tal que T ' (T 1' T 2' ) con k1 parámetros en el primer grupo y k2 parámetros en el
segundo. La hipótesis nula T 2 T 20 se puede probar de la siguiente manera:
Sea Lˆ (Tˆ1 Tˆ2 ) el valor máximo de la función verosimilitud del modelo no restringido y
~ ~
L (T 1 T 20 ) el valor máximo de la función verosimilitud del modelo restringido, bajo la
~
hipótesis nula. Si O L / Lˆ es el ratio de verosimilitud, el estadístico LR = -2lnO tiene
una distribución asintótica tipo F k22 . Por lo tanto, se rechazará la hipótesis nula T 2 T 20
si LR > F k22 para un nivel de significación D=0.05.
En el contexto del modelo de regresión, el ratio de verosimilitud se define como:
~ ~
L(T Re stringida ) L( E R , V~u2, R )
O (3.88)
L(Tˆ no restringida) L( Eˆ , Vˆ 2 )
u
Donde L(.) es el valor de la función de verosimilitud en cada modelo estimado.
Donde Ê es el estimador de E en el modelo sin restricciones en los parámetros (no

restrigido) y Ê R es estimador de E en el modelo restringido, o lo que es lo mismo,
satisface la condición RE r con q restricciones.
El estadístico de prueba para el ratio de verosimilitud (LR) será:
LR 2 ln O 2[ln L( Eˆ , Vˆ u2 ) ln L( Eˆ R , Vˆ u2, R )] a F q2 (3.89)
La función de verosimilitud para el modelo restringido se puede simplificar a3:

n

L(TˆR ) L( Eˆ R , Vˆ u2, R ) constante * (Uˆ R 'Uˆ R ) 2
, entonces:
2
3
Si se utiliza los estimadores de máxima verosimilitud para Ê y Vˆ u en L(.) se obtiene:
ª 1 º
Lˆ (2SVˆ 2 ) n / 2 exp « 2
(Y XE )' (Y XE )» (Vˆ 2 ) n / 2 (2S ) n / 2 e n / 2
¬ 2Vˆ ¼
2 (Y XE )' (Y XE )
Pues el estimador de la varianza de máxima verosimilitud es: Vˆ
n
n / 2
§ 2Se ·
Entonces Lˆ (Uˆ 'Uˆ ) n / 2 ¨ (Uˆ 'Uˆ ) n / 2 .C
2 n / 2 n / 2
(Vˆ ) .( 2Se) ¸
© n ¹
Tomando logaritmos se tiene:
n
ln L(TˆR ) ln C ln(Uˆ R 'Uˆ R ) (3.90)
2
De igual modo, para el modelo no restringido se tiene:
n

L(TˆNR ) L( Eˆ NR , Vˆ u2, NR ) constante * (Uˆ NR
'
Uˆ NR ) 2
, en logaritmos se tiene:
n
ln L(TˆNR ) ln C ln(Uˆ NR
'
Uˆ NR ) (3.91)
2
Entonces, el ratio de verosimilitud puede ser computado como:
n n
LR 2 ln O 2[ln C ln(Uˆ NR
'
Uˆ NR ) ln C ln(Uˆ R 'Uˆ R )]
2 2
§ Uˆ 'Uˆ ·
LR n[ln(Uˆ R 'Uˆ R ) ln(Uˆ NR
'
Uˆ NR )] n * ln¨¨ ' R R ¸ (3.92)
ˆ ˆ ¸
© U NRU NR ¹
Donde: Uˆ NR Y XÊ (residuos del modelo no restringido) y Uˆ R Y XÊ R (residuos

del modelo restringido).
Note que para el cálculo del ratio de verosimilitud basta conocer el número de
observaciones y las sumas de cuadrados de los residuos del modelo no restringido y del
modelo restringido. Además puede utilizarse directamente los residuos de MCO y de
MCR para el cómputo del ratio de verosimilitud.
El valor del LR obtenido debe ser comparado con un chi-cuadrado con q grados de
libertad, que es el número de restricciones que tiene el modelo.
Ejemplo 3.7 Variables redundantes y variables omitidas en la función de Demanda

de Pollo
En un trabajo de investigación de mercado se plantea estimar la demanda de carne de

pollo (POL), tomando como referencia las cantidades y precios de otras carnes res y
ovino (RES y OVI). Se plantean dos modelos tipo Cobb-Douglas:
E 2 E3 E 4 E5 U
Modelo A: Q dp APpol Pres Povi Y e , y
E2 E3 E5 U
Modelo B: Q pd APpol Pres Y e .
Los datos se encuentran en las aplicaciones al final del presente capítulo. Los resultados
del modelo A fueron:
Dependent Variable: LOG(QPOL) (Modelo no restringido)

C 1.015285 0.634308 1.600620 0.1220
LOG(PPOL) -0.965367 0.058250 -16.57276 0.0000
LOG(PRES) -0.250483 0.092716 -2.701632 0.0122
LOG(POVI) -0.144261 0.070929 -2.033882 0.0527
LOG(Y) 0.880037 0.095888 9.177795 0.0000
a) Nótese que en la regresión estimada por MCO para el modelo no restringido el

precio de carne de ovino no es significativo al 5%, por lo que tendría que aceptarse
la hipótesis nula que la elasticidad cruzada de la carne de pollo respecto al precio de
la carne de ovino no es distinto de cero. Pruebe si debiera eliminarse dicha variable
explicativa por ser irrelevante.
b) Si al contrario, si se hubiese estimado el modelo restringido, todas las variables
salen significativas, pruebe la hipótesis nula que el logarítmo del precio de ovino no
es una variable omitida.
Dependent Variable: LOG(QPOL) (Modelo restringido)

C 0.664536 0.646187 1.028395 0.3132
LOG(PPOL) -0.976221 0.061405 -15.89819 0.0000
LOG(PRES) -0.208997 0.095744 -2.182869 0.0383
LOG(Y) 0.881947 0.101502 8.688950 0.0000
Respuestas:
a) Inclusión de variables irrelevantes

En el modelo no restringido se encontró que la suma de cuadrados de los residuos era
0.682975, el coeficiente de determinación, R 2 , era 0.938297, y el valor del logarítmo
de la función de verosimilitud (log likelihood) era 14.16927. El modelo restrigido se
encontró que la suma de cuadrados de los residuos es 0.795985, el coeficiente de
determinación, R 2 , es 0.928087, y el valor del logarítmo de la función de verosimilitud
(log likelihood) es 11.87244.
De acuerdo a la ecuación 3.91 el ratio de verosimilitud calculado es:

§ Uˆ 'Uˆ · § 0.795985 ·
LR n * ln¨¨ ' R R ¸¸ 30 * ln¨ ¸ 4.59366
ˆ ˆ © 0.682975 ¹
© U NRU NR ¹
Redundant Variables: LOG(POVI)

F-statistic 4.136677 Probability 0.052705
Log likelihood ratio 4.593658 Probability 0.032090
El chi-cuadrado crítico con 1 grado de libertad y un 5% de nivel de significación es:

3.84. Dado que el LR “calculado” es mayor al valor crítico se rechaza la hipótesis nula,
H 0 : E 4 0 , que el precio de la carne de ovino sea una variable irrelevante.
El ratio de verosimilitud se puede hallar también, y con los mismos resultados, como:
LR 2[ln L( Eˆ , Vˆ u2 ) ln L( Eˆ R , Vˆ u2, R )] 2(14.16927 11.87244) 4.59366
Alternativamente, se puede utilizar la prueba F de Wald para las variables irrelevantes:

2
( R NR RR2 ) / q (0.938297 0.928087) / 1
FEˆ 's 4.1366
2
(1 R NR ) / n k (1 0.9383)
30 5
El F-crítico con 1 y 25 grados de libertad y un 5% de nivel de significación es: 4.24.

Dado que el F de Wald “calculado” es menor al valor crítico no se puede rechazar la
hipótesis nula que el precio sea una variable irrelevante. Sin embargo, se tendría que
rechazar la hipótesis nula para un nivel de significación igual o mayor a 5.27%. La
decisión de eliminar una variable irrelevante en situaciones límite, como el ejemplo,
puede ser arbitraria.
Como se puede observar, el test F de Wald es más exigente que el ratio de

verosimilitud. Es decir, en muestras pequeñas se encontrará siempre que W t LR , pero
en muestras grandes son asintóticamente equivalentes.
b) Omisión de variables relevantes
Si se hubiera estimado en primer lugar el modelo restringido se podría sospechar que se

ha omitido el precio de la carne de ovino, pruebe la hipótesis nula sigue
siendo: H 0 : E 4 0
Como los modelos involucrados son los mismos, el valor calculado del ratio de
verosimilitud, LR, y el F de Wald calculado son los mismos, de modo que los resultados
también serán los mismos. Es decir, según el test LR = 4.5966 se rechaza la hipótesis
nula que E 4 0 , luego, el precio del ovino sí es una variable relevante en el modelo,
por lo tanto, evidencia haber omitido la variable relevante. De igual modo, el F de Wald
es 4.1366, acepta la hipótesis nula E 4 0 , luego que la variable precio de ovino es
irrelevante.
3.7.3 Test de modelos no anidados (non nested test)
Hasta ahora se ha trabajado modelos anidados, es decir, se puede tener un modelo

completo, tal que si se impone algunas restricciones a los parámetros, RE r , se la
puede reducir como un caso particular del modelo general. Sin embargo, hay modelos
que no pueden incluir a otros modelos, a estos se les llama modelos no anidados.
Suponga que se tiene dos modelos alternativos entre los que se debe elegir, el “mejor”,
sobre bases estadísticas. Es decir, sea:
Modelo 1: H o : Y XE U (3.93)
Modelo 2: H a : Y ZJ V (3.94)
Davidson & MacKinnon (1981)4 proponen el llamado J-test que consiste en correr
modelos “agregados” que permitan aproximar una respuesta al problema de las
hipótesis en cuestión.
Para probar que el modelo 1 es mejor al modelo 2 se debe seguir los siguientes pasos:
1° Estimar el modelo 2 por mínimos cuadrados ordinarios:

Y ZJ V Yˆ ZJˆ (3.95)
2° Estimar el modelo 1 agregando como variable explicativa el valor predicho del

modelo 2:
Y XE D 12 ZJˆ H (3.96)

tD̂12 vs tn k gl
Dˆ 12
tDˆ12 Se acepta Ho si:
H 0 : D12 0 S (Dˆ 12 )
tD̂12 d tn k gl
H a : D12 z 0 Donde:
Se rechaza Ho si:
S (Dˆ 12 ) V (Dˆ 12 )
tD̂12 ! tn k gl
Si se acepta la hipótesis nula, D12 0 , significa que el modelo 2 no contribuye a explicar

el modelo 1, por lo tanto se rechaza la hipótesis que el modelo 2 sea el correcto.
1° Estimar el modelo 1 por mínimos cuadrados ordinarios:

Y XE U Yˆ XEˆ (3.97)
2° Estimar el modelo 2 agregando como variable explicativa el valor predicho del

modelo 1:
Y ZJ D 21 XEˆ H (3.98)
4
Davidson & MacKinnon (1981), “several Tests for Model Specification in the Presence of
Alternative Hypotheses”, Econometrica, 49, 1981, pp. 781-793

Dˆ 21 tD̂ 21 vs tn k gl
tDˆ12
H 0 : D 21 0 S (Dˆ 21 )
Se acepta Ho si: tD̂ 21 d t n k gl
H a : D 21 z 0 Donde:
S (Dˆ 21 ) V (Dˆ 21 ) Se rechaza Ho si: tD̂ 21 ! t n k gl
Si se acepta la hipótesis nula, D 21 0 , significa que el modelo 1 no ayuda a explicar el

modelo 2, por lo tanto se rechaza la hipótesis que el modelo 1 sea el correcto. Sin
embargo este test puede no ser concluyente si se rechaza o se acepta ambas hipótesis
nulas, lo que implicaría que ambos modelos son “buenos” pero no hay suficiente
evidencia para señalar cuál es mejor.
Ejemplo 3.8 Modelos no Anidados en la función consumo
Utilizando los datos del consumo privado y el PBI para el período 1990:2 - 2000:3, se
plantea dos modelos no anidados:
Modelo 1: CPRt E 1 E 2 PBI t E 3 CPRt 1

Modelo 2: CPRt J 1 J 2 PBI t J 3 PBt 1
1° Estimar por MCO el modelo 2.
Dependent Variable: CPR

C 3041.792 388.3166 7.833280 0.0000
PBI 0.731796 0.036200 20.21516 0.0000
PBI(-1) -0.128394 0.036383 -3.528905 0.0011
2° Obtener el valor predicho para el consumo según el modelo 2.

CPRF2 = 3041.792 + 0.731796*PBI - 0.128394*PBI(-1)
3. Estimar el modelo “agregado” y probar la hipótesis nula: H0 : D12 0 .

CPRt E 1 E 2 PBI t E 3 CPRt 1 D 12 CPRF 2

C -7700.649 2824.535 -2.726342 0.0096
PBI -1.536458 0.563816 -2.725105 0.0097
CPR(-1) 0.393128 0.138262 2.843357 0.0071
CPRF2 3.149678 0.799716 3.938497 0.0003
Como podemos ver, se rechaza la hipótesis nula, por lo tanto, el modelo 1 no es mejor
que el modelo 2.
1° Estimar por MCO el modelo 1.

C 3309.695 472.6091 7.003028 0.0000
PBI 0.681382 0.032849 20.74282 0.0000
CPR(-1) -0.121673 0.052793 -2.304736 0.0266
2° Obtener el valor predicho para el consumo según el modelo 1.
CPRF1 = 3309.695 + 0.681382*PBI - 0.121673*CPR(-1)

3. Estimar el modelo “agregado” y probar la hipótesis nula: H 0 : D 21 0 .
CPRt E 1 E 2 PBI t E 3 CPRt 1 D 21CPRF1

C 16000.28 15019.68 1.065288 0.2935
PBI 3.743597 3.489876 1.072702 0.2902
PBI(-1) -0.481315 0.410546 -1.172378 0.2483
CPRF1 -4.380188 5.075198 -0.863058 0.3935
Como podemos ver, se acepta la hipótesis nula, lo que implica que el modelo 1 no
contribuye a explicar a el modelo el modelo 2, por lo tanto, el modelo 2 es
definitivamente mejor que el modelo 1.
3.7.4 Test de Cambio estructural (Test de Chow)
El test de cambio estructural es una prueba para probar si los parámetros cambian al
interior de la muestra. Para ello Chow propone un test que se deriva del test de Wald.
El caso más simple de cambio estructural proviene de los “outliers”, es decir, cuando
existen alguna(s) observaciones que caen fuera del rango frecuente. Este caso puede ser
tratado como que el intercepto, debido a algún factor, se desplazó solo en esa
observación. Por ejemplo, el fenómeno del niño o shock especial puede provocar el
desplazamiento hacia arriba o hacia debajo de la línea de regresión afectando el
intercepto únicamente. La solución puede ser omitir dicha observación “outlier” o
agregar una variable dummy (variable ficticia) en el modelo tal que toma valor 1 si
ocurre el evento y cero en otros casos. El coeficiente asociado a dicha dummy muestra
el efecto que tuvo el “outlier” en la variable dependiente, por lo tanto, el modelo no
pierde su característica regular.
Otro caso de cambio estructural es producido por la estacionalidad y las variables

explicativas cualitativas. Por ejemplo, las ventas de una empresa están, con frecuencia,
influidas por el ciclo estacional, por lo tanto, si el modelo ha omitido dicho variable
producirá errores que sistemáticamente se van repitiendo de estación a estación. Cuando
las variables explicativas son “cualitativas” por ejemplo el sexo, la religión, el lugar de
residencia, el nivel de educación, etc., también pueden producir cambios en la variable
dependiente y por lo tanto modificar el intercepto, la pendiente o ambos.
Finalmente, otra fuente de inestabilidad de los parámetros proviene de los “cambios

estructurales”, es decir, una guerra, una revolución política, una medida innovadora, o
un shock aleatorio, estos eventos pueden generan cambios en el comportamiento de la
variable dependiente por un plazo considerable, por lo que no es posible sostener que
los parámetros han permanecido invariables cuando en verdad sí cambiaron.
El test de Chow que interesa revisar en esta sección están relacionadas a la última fuente
de inestabilidad de los parámetros, los otros temas serán abordados en la sección de
variables dummies. Entonces:

Yt E 1 E 2 X 2t E 3 X 3t E k X kt u t t 1,2,3,...., N (3.99)
Supongamos que hay evidencias de un cambio estructural ocurrido en el punto N1 de

las N observaciones, determinando dos grupos (m=2) de observaciones: Grupo 1: las
N1 observaciones [ de 1 a N1 ] y Grupo 2: las N 2 observaciones [ de N1 +1 a la N].
Pasos:
1° Estimar por MCO la ecuación 3.98 con N observaciones y computar la suma de
cuadrados de los residuos ( SC Re s N ).
2° Estimar por MCO la ecuación 3.98 en cada una de las submuestras, con N1
observaciones del Grupo 1 y con N 2 del Grupo 2 y computar las sumas de cuadrados de
los residuos SC Re s N 1 y SC Re s N 2 .
Grupo 1: t 1,2,3,...., N1
Yt E 11 E 21 X 2t E 31 X 3t E k1 X kt u t (3.100)
Grupo 2: t N 1 1, N 1 2,...., N
Yt E 12 E 22 X 2t E 32 X 3t E k2 X kt u t (3.101)
3° Probar si los parámetros del modelo (pendientes e intercepto) han permanecido
invariables al interior de la muestra, es decir, si existe diferencia significativa en las
pendientes y el intercepto en la primera submuestra, en la segunda submuestra y en toda
la muestra.

1 2
H0 : E j E j j SC Re s N SC Re s N1 SC Re s N 2 Se acepta Ho si:
H a : E 1j z E 2j , (m 1)k FCh d Fk ,n2 k gl
FCh
para al menos un SC Re s N1 SC Re s N 2 Se rechaza Ho si:
j ^1,2,...., k ` FCh ! Fk ,n 2 k gl
N mk
Ejemplo 3.9: Cambio estructural en la Función Consumo
Tomando los datos anuales del consumo privado y PBI para el Perú, identificar si hay
evidencias de inestabilidad en los parámetros. La información proviene del INEI y está
en soles constantes de 1979.
obs CPR_R PBI_R obs CPR_R PBI_R obs CPR_R PBI_R

1970 1785.390 2518.603 1980 2236.390 3646.646 1990 2132.610 3243.760
1971 1848.780 2623.884 1981 2355.770 3807.715 1991 2173.170 3334.500
1972 1908.830 2699.222 1982 2376.390 3815.750 1992 2212.500 3287.200
1973 1987.140 2844.350 1983 2167.110 3334.219 1993 2312.510 3497.230
1974 2122.120 3107.385 1984 2209.020 3494.783 1994 2542.600 3953.720
1975 2209.670 3213.038 1985 2255.690 3573.934 1995 2787.940 4243.040
1976 2249.320 3276.073 1986 2592.610 3904.219 1996 2820.000 4346.940
1977 2254.320 3289.342 1987 2847.160 4234.710 1997 2915.880 4645.410
1978 2081.670 3298.596 1988 2636.450 3881.279 1998 2904.216 4657.540
1979 2130.720 3490.138 1989 2185.850 3428.610
Estimando la función consumo para toda la muestra (1970 – 1998) ó n=29.
Dependent Variable: CPR_R

Sample: 1970 1998
C 372.6759 100.6325 3.703335 0.0010
PBI_R 0.549549 0.028092 19.56227 0.0000
Un gráfico de los residuos de la función consumo es:

200
100
-100
-200
70 72 74 76 78 80 82 84 86 88 90 92 94 96 98
CPR_R Residuals
Nótese en el gráfico, hay dos puntos donde el error es bastante mayor al resto de
observaciones 1979 y 1987, lo que hace presumir que puede ser explicado por un
cambio estructural o un cambio en los parámetros.
Hipótesis nula: no cambio estructural
H 0 : E 11 E 12 E 13 E 21 E 22 E 23 E 31 E 32 E 33
Hipótesis alternativa: cambio estructural en al menos un parámetro.
H a : E 1j z E j2 z E 3j , para al menos un j ^1,2,3`
Test de Chow:
Dependent Variable: CPR_R

Muestra 1970 - 1978 1979 - 1986 1987 - 1998 1970 - 1998
Observaciones 9 8 12 29
Variable Coefficient Coefficient Coefficient Coefficient
C 464.1299 -150.0058 254.8122 372.6759
PBI_R 0.531068 0.671671 0.586328 0.549549
Sum squared resid 24177.01 32659.74 46185.46 180957.5
SC Re s N SC Re s N1 SC Re s N 2 SC Re s N3
(m 1)k
FCh
SC Re s N1 SC Re s N 2 SC Re s N 3
N 3k
180957.5 24177.01 32659.74 46185.46

(3 1) * 2
FCh 4.349817
24177.01 32659.74 46185.46
29 6
Chow Breakpoint Test: 1979 1987

El F-crítico con 4 y 23 grados de libertad y un 5% de nivel de significación es: 2.7955.

Dado que el F de Chow “calculado” es mayor al valor crítico se tiene que rechazar la
hipótesis nula de no cambio estructural. puede rechazar la hipótesis nula que el precio
sea una variable irrelevante.
Como hay evidencias de cambio estructural se debe investigar si el cambio es en el

intercepto (consumo autónomo), en la pendiente (propensión marginal a consumir) o
cambio en ambos parámetros (consumo autónomo y propensión marginal a consumir).
Para identificar la naturaleza del cambio estructural se debe incorporar variables dummy
(mudas) al modelo. Este tema se trata a continuación.
3.8 VARIABLES DUMMY

Las variables dummy (variables mudas o ficticias) se incluyen en el modelo
básicamente por tres razones:
x Primero, para aislar el efecto de un evento aleatorio, por ejemplo el fenómeno del
niño, un terremoto, un “golpe de Estado”, que provocan un comportamiento
“estraño” de la variable dependiente en alguna o algunas observaciones de la
muestra. A estas observaciones se les denomina “outliers”. En este caso la muestra
se separa entre la muestra “principal” y las observaciones donde se presenta el
evento aleatorio, donde cada outlier es tomada como un caso diferente. Por
ejemplo, durante el período muestral puede haber ocurrido más de un “terremoto”,
entonces, para cada terremoto se creará una variable dummy especial.
x En segundo lugar, las variables dummies aparecen como representación de una

variable categórica, o atributo especial de las observaciones, que se repiten
regularmente en la muestra (por ejemplo sexo, raza, religión, estación, tipo de
colegio, etc.) que hace que las observaciones donde se observa dicho atributo
tengan un comportamiento diferente con respecto a aquellas observaciones donde
no se observa dicho atributo. En este caso, la muestra puede ser separada en
submuestras donde se satisface el atributo y donde no se cumple el atributo. La
clasificación puede ser múltiple según el número de variables dummies que se
incluyan.
x Finalmente, las variables dummy permiten capturar los eventos aleatorios que
pueden haber ocurrido en un momento pero con consecuencias por un período de
tiempo mayor. En este caso dicho evento produce “cambios estructurales” en la
muestra que se reflejan en la inestabilidad en los parámetros del modelo. Las
variables dummies permiten separar cada sub período “antes” y “después” del
cambio estructural (o cambios estructurales), tal como se estudió en el Test de
Chow.
En general cuando se analiza los residuos de una regresión se encuentra que en algunas
observaciones los valores residuales son “exagerados” con respecto al resto de
observaciones. Si se está en los casos primero y tercero se tendrá pocos errores “fuera
de rango” tal como se observa en el siguiente gráfico. Si se esta en el segundo caso, los
errores fuera de rango serán más repetidos. En ese sentido, no será tan simple para el
modelista saber en que caso se encuentra, para ello será necesario descartar primero si
los errores “extraños” son producidos por un cambio estructural vía el Test de Chow.
1.2
0.8
0.4
0.0
-0.4
-0.8
78 79 80 81 82 83 84 85 86 87
Residuos
En todos los casos, las variables dummies actúan como variables adicionales en el
modelo por lo que no es raro que mejore el “ajuste” del modelo con respecto a aquel
que no incluye las variables dummies. De igual modo, permiten reducir o eliminar la
inestabilidad de los parámetros que es producido por un evento aleatorio o un atributo
de parte de la muestra, y finalmente, permiten poner “bajo control” el comportamiento
de los residuos en un rango deseable.
El test de Chow arriba mencionado es un test general que permite descartar solamente
si hubo un cambio estructural, en el intercepto, en las pendientes o en ambos, pero no
señala dónde ocurrieron específicamente dicho cambios. En este caso, las variables
dummies permiten completar la tarea del test.
A: Cambio en el B: Cambio en la
Intercepto pendiente
Y Y
E [Yi ] J E 2 X 2 i E [Yi ] J E 2 X 2 i
J
E2
J
E [Yi ] E 1 E 2 X 2i
'E 1 E [Yi ] E 1 E 2 X 2i
E1 E1
X2 X2
C: Cambio en el intercepto y en la
pendiente
E[Yi ] J 1 J 2 X 2 i
Y
J2
J2 E2
'E 1
E [Yi ] E 1 E 2 X 2i
E1
X2
Gráfico: Inestabilidad en los Parámetros

Por ejemplo, supongamos que se tiene el siguiente modelo:
Yi E 1 E 2 X 2 i E 3 X 3i u i (3.102)
Sea Di la variable dummy que permite diferenciar el evento aleatorio (por ejemplo el
fenómeno del niño en 1997) o la característica del individuo (por ejemplo sexo) tal que:
1 si ocurre el evento o satisface el atributo

Di ®
¯0 en otro caso
Caso cambio sólo en el intercepto:
Por ejemplo, supongamos que se observa únicamente un residuo “fuera de rango” (un
“outlier”) que es producido por un evento que ha ocurrido una sola vez (el fenómeno
del niño en 1997). Para capturar el efecto del fenómeno del niño bastará con crear una
variable dummy que identifique dicho evento, de la siguiente manera:
Yi E 1 E 2 X 2i E 3 X 3i E 4 Di u i (3.103)
Si no ocurre el fenómeno del niño, D = 0, el modelo es Yi E 1 E 2 X 2 i E 3 X 3i u i ,

pero, si ocurre el fenómeno del niño, D = 1, el modelo es:
Yi J E 2 X 2i E 3 X 3i u i . Donde el intercepto es: J E1 E 4
Donde, E 4 refleja la magnitud del impacto del “fenómeno del niño de 1997” en el
modelo. El signo de E 4 indicará el sentido del impacto, positivo o negativo.
Caso cambio sólo en la pendiente:
Si el propósito es identificar la eventualidad de que el evento aleatorio haya producido

cambios en alguna o en todas las pendientes, será necesario crear tantas variables
adicionales como pendientes hayan sido afectadas. Supongamos que solo cambió la
pendiente de la variable X3.
Yi E 1 E 2 X 2i E 3 X 3i E 4 Di X 3i u i (3.104)
Si no ocurre el fenómeno del niño, D = 0, el modelo es Yi E 1 E 2 X 2 i E 3 X 3i u i ,

Yi E 1 E 2 X 2i JX 3i u i . Donde la pendiente de X3 es: J E3 E4
Donde, E 4 refleja la magnitud del impacto adicional del “fenómeno del niño de 1997”
en la pendiente de la variable X3. El signo de E 4 indicará el sentido del impacto,
positivo o negativo.
Cambio en el Intercepto y en las Pendientes
Utilizando el ejemplo anterior, supongamos que el “fenómeno del niño” ha provocado

cambios únicamente en el intercepto y en la pendiente de la variable X3. De modo que
Si no ocurre el fenómeno del niño, D = 0, el modelo es Yi E 1 E 2 X 2i E 3 X 3i u i ,
Yi E 1 E 2 X 2i E 3 X 3i E 4 Di E 5 Di X 3i u i (3.105)
Donde, E 4 refleja la magnitud del impacto adicional del “fenómeno del niño de 1997”
en el intercepto del modelo y E 5 mide el cambio en la pendiente de la variable X3. El
signo de E 4 y E 5 indicará el sentido del impacto, positivo o negativo, en el intercepto
y en la pendiente.
Ejemplo 3.10: El efecto del Sexo en el Salario
Se está investigando el nivel salarial (WAGE) de un grupo de trabajadores del sector

manufacturero. Para ello se ha recogido información de los años de estudio del
trabajador (EDUC) y su sexo (SEX). Se plantea la hipótesis que los hombres tienen un
nivel salarial superior al de las mujeres para un mismo nivel de educación. Luego el
modelo a estimar será:
ln WAGEi E 1 E 2 EDUCi E 3 SEX i u i
Donde SEX
1 Si es hom bre
® y bajo el supuesto que E >ui @ 0 y E ui2 > @ V u2
¯0 Si es mujer
Note que mientras el salario y los años de educación son variables numéricas es sexo es
una variable categórica, por lo tanto, no cuantificable. Para resolver este problema se
incorpora una variable dummy (SEX) que toma los siguientes valores:
Salario ln WAGE i E 1 E 2 EDUC i E 3 SEX i
ln WAGE i E 1 E 2 EDUC i
J
E3
E1
Educ
Por lo tanto, una persona sin educación EDUC = 0 y de sexo mujer, SEX = 0, tendrá un
salario esperado base de:
E >ln WAGEi EDUC 0, SEX 0@ E1
Luego, una persona sin educación EDUC = 0 y de sexo hombre, SEX = 1, tendrá un
salario esperado base de:
E >ln WAGEi EDUC 0, SEX 1@ E1 E 3 .
Donde, E 3 refleja la magnitud del impacto del “sexo” en el salario. El signo esperado
para E 3 es que sea positivo si efectivamente los hombres tienen mayores salarios que
las mujeres.
Ejemplo 3.11: Cambio Estructural en la Función Consumo de Perú
Si se observa los residuos de la función consumo Ct E1 E 2Yt ut del ejemplo 3.9,

habría ocurrido dos “quiebres estructurales” uno en 1979 y otro en 1987. El Test de
Chow correspondiente confirma que los parámetros han cambiado en dichos períodos.
En el contexto de las variables dummies se debe crear dos variables dummy: D79_86
que tomará valor igual a 1 para los años 1979-1986 y valor cero para otros años y
D87_98 que tomará valor igual a 1 para el período 1987-1998 respectivamente y 0 en
otros años.
Para facilitar la explicación, supondremos que la función consumo tuvo solamente un

cambio estructural en 1979, por lo cual se incorpora al modelo una variable dummy:
D79_86, que tomará los siguientes valores:
1 Si t 1979 1998
D79 _ 98 ®
¯0 En cualquier otro año
“Quiebre” en el intercepto:
El modelo será: Ct E 1 E 2Yt J 1 D7 _ 98 t u t .
Si Jˆ1 no es estadísticamente significativa, entonces no habrá cambio estructural, si

resulta estadísticamente significativa, habrá evidencias de cambio en el intercepto
(consumo autónomo). En este caso basta una prueba t clásica para probar la hipótesis
nula: H 0 : J 1 0 .
Para los años 1979-1998, D79_98=1, si J 1 z 0 , entonces, la función consumo será:
Ct E1 J 1 E 2Yt ut
En cambio, el intercepto para los otros año será solamente: E1 .

“Quiebre” en la pendiente:
El modelo será: Ct E 1 E 2Yt J 2 D79 _ 98 t * Yt u t .
Si Jˆ2 no es estadísticamente significativa, entonces no habrá cambio estructural, en

cambio si es estadísticamente significativa, habrá evidencias de cambio en la pendiente
(propensión marginal a consumir). En este caso basta una prueba t clásica para probar la
hipótesis nula: H 0 : J 2 0 .
Para los años 1979-1998, D79_98=1, si J 2 z 0 la función consumo será:
Ct E1 E 2 J 2 Yt ut . Note que la pendiente será: E 2 J 2 ,
La pendiente para 1970-1978 será: E 2 .
“Quiebre” en el intercepto y en la pendiente:
El modelo será: Ct E1 E 2Yt J 1D79 _ 98t J 2 D79 _ 98t * Yt ut .
Si Jˆ1 y Jˆ2 no son estadísticamente significativas, entonces no habrá cambio estructural,

en caso contrario serán estadísticamente significativas, luego, habrá evidencias de
cambio en el intercepto (consumo autónomo) y en la pendiente (propensión marginal a
consumir). En este caso basta una prueba F de Wald para probar la hipótesis nula:
H0 : J1 0 J 2 0 .
Si J 1 z 0 , J 2 z 0 y D79_98=1 (para los años 1979-1998), la función consumo será:
Ct E1 J 1 E 2 J 2 Yt ut
Donde el intercepto será: E1 J 1 y la pendiente E 2 J 2 . Para el resto de años, el

intercepto será: E1 y la E 2 .
Una evaluación rigurosa del cambio estructural significará verificar las tres pruebas una
por una de esta manera se identificará la fuente de inestabilidad de los parámetros
sugerido por el Test de Chow.
APLICACIONES:
Caso 1: Demanda de Carne de Pollo, Aplicación Matricial de MCO
Se tiene información artificial para estimar la demanda de carne de pollo. Donde:

QPOL:Cantidad percápita de consumo anual de carne de pollo.
PPOL: Precio de pollo.
PRES: Precio de carne de res.
POVI: Precio de ovino.
ING: Ingreso percápita promedio anual.
obs QPOL PPOL PRES POVI ING

1960 45.77000 6.629000 10.76300 4.474000 487.6345
1961 13.39300 13.77400 13.03300 10.83600 364.8825
1962 104.8190 4.063000 9.244000 5.856000 541.0107
1963 137.2690 3.868000 4.605000 14.01000 760.3891
1964 15.91400 14.92200 13.04500 11.41700 421.7548
1965 23.66700 14.31800 7.706000 8.755000 578.2252
1966 62.57000 4.794000 7.405000 7.317000 564.2039
1967 52.26200 3.768000 7.519000 6.360000 301.4793
1968 31.91600 8.089000 8.764000 4.188000 379.6468
1969 123.0260 2.708000 13.51100 1.996000 478.8021
1970 26.25500 12.90100 4.943000 7.268000 433.7269
1971 35.54000 11.11500 8.360000 5.839000 525.6963
1972 32.48700 11.22000 5.721000 5.160000 513.0487
1973 45.83800 5.810000 7.225000 9.145000 408.6627
1974 26.86700 5.516000 6.617000 5.034000 192.0610
1975 43.32500 3.707000 14.21900 5.926000 462.6144
1976 24.33000 10.12500 6.769000 8.187000 312.6540
1977 107.0170 2.471000 7.769000 7.193000 400.8754
1978 23.40700 8.976000 9.804000 13.31500 392.2100
1979 18.25400 12.88300 11.06300 6.874000 377.7295
1980 54.89500 4.115000 6.535000 15.53300 343.5769
1981 45.36000 4.962000 11.06300 4.477000 301.6142
1982 25.31800 6.294000 4.016000 9.231000 294.1311
1983 32.85200 8.298000 4.759000 5.907000 365.0193
1984 22.15400 9.638000 5.483000 7.077000 256.1177
1985 20.57500 7.122000 7.890000 9.942000 184.8151
1986 44.20500 4.157000 8.460000 7.043000 359.0835
1987 44.44300 10.04000 6.195000 4.142000 629.3933
1988 13.25100 15.45900 6.743000 3.369000 306.5198
1989 41.84500 6.172000 11.97700 4.806000 347.4692
Se pide estimar una función de demanda para la carne de pollo. Para facilitar la
obtención de las elasticidades de la demanda, directa, cruzadas e ingreso se plantea una
función exponencial, que puede ser reducida a una forma lineal en logarítmos, o doble
logarítmica.
d
QPOL log A E 2 log PPOL E 3 log PRES E 4 log POVI E 5 ING u i
Si: y=log(qpol); x2=log(ppol); x3=log(pres); x4=log(povi); x5=log(ing). Si hacemos:

X >1 X 2 X 3 X 4 X 5 @ .
X'X 1 x2 x3 x4 x5
1 30.00000 58.23527 62.08404 57.09870 179.0071
x2 58.23527 121.2368 120.0400 111.5938 347.3371
x3 62.08404 120.0400 131.8561 117.1553 370.6107
x4 57.09870 111.5938 117.1553 114.4538 340.6055
x5 179.0071 347.3371 370.6107 340.6055 1071.099
X ' X 1 1 x2 x3 x4 x5
1 14.72771 -0.271564 -0.690030 -0.447744 -1.992164
x2 -0.271564 0.124202 0.013141 -0.013856 0.004968
x3 -0.690030 0.013141 0.314659 0.052958 -0.014656
x4 -0.447744 -0.013856 0.052958 0.184154 0.002438
x5 -1.992164 0.004968 -0.014656 0.002438 0.336558
X 'Y y MCO Eˆ X ' X 1 X 'Y

1 107.9849 Ê1 1.015285
x2 201.5902 Ê 2 -0.965367
x3 223.3728 Ê 3 -0.250483
x4 204.1312 Ê 4 -0.144261
x5 647.0742 Ê5 0.880037
SCExp Yˆ 'Yˆ n * Y 2 399.0768 - 30 * 3.599495 10.38579

2
SCT Y 'Y n * Y 399.7598 - 30 * 3.599495 11.06876
SCExp 10.38579
R2 0.938297
SCT 11.06876

R 2 1 1 R2 * ¨
§ n 1 ·
©nk¹
§ 30 1 ·
¸ 1 1 0.938297 * ¨ ¸ 0.928425
© 30 5 ¹
SCRes 11.06876 10.38579
Vˆ u2 0.027319 V ( Eˆ ) Vˆ u2 X ' X 1
n-k 30 5
V ( Eˆ ) Ê1 Ê 2 Ê 3 Ê 4 Ê5
Ê1 0.402346 -0.007419 -0.018851 -0.012232 -0.054424
Ê 2 -0.007419 0.003393 0.000359 -0.000379 0.000136
Ê 3 -0.018851 0.000359 0.008596 0.001447 -0.000400
Ê 4 -0.012232 -0.000379 0.001447 0.005031 6.66E-05
Ê5 -0.054424 0.000136 -0.000400 6.66E-05 0.009194
Caso 2: Aplicación Matricial de Mínimos Cuadrados Restringidos a la demanda de

carne de Pollo
Utilizando la información artificial de la sección anterior, se pide que se estime por

mínimos cuadrados restringidos a la demanda de carne de pollo, tal que se cumpla la
condición de homogeneidad.
E2 E3 E4
Al igual que antes se utilizará la especificación: d
QPOL APPOL PRES POVI ING E 5 eui
Siendo su especificación doble logarítmica:
d
QPOL log A E 2 log PPOL E3 log PRES E 4 log POVI E 5 ING ui
Sujeto a: E 2 E 3 E 4 E 5 0 , o también RE E 2 E3 E 4 E5 0
Si: y=log(qpol); x2=log(ppol); x3=log(pres); x4=log(povi); x5=log(ing).
X >1 X2 X3 X4 X5@ Y >Y @
X ' X 1 1 x2 x3 x4 x5
1 14.72771 -0.271564 -0.690030 -0.447744 -1.992164
x2 -0.271564 0.124202 0.013141 -0.013856 0.004968
x3 -0.690030 0.013141 0.314659 0.052958 -0.014656
x4 -0.447744 -0.013856 0.052958 0.184154 0.002438
x5 -1.992164 0.004968 -0.014656 0.002438 0.336558
Ê1 Ê 2 Ê 3 Ê 4 Ê5
R 0.000000 1.000000 1.000000 1.000000 1.000000
REˆ Eˆ2 Eˆ3 Eˆ4 Eˆ5 >R X ' X R'@

1 1
=0.952781 r=0
Siendo: Eˆ R > 1
@
Eˆ X ' X 1 R' R X ' X 1 R' r REˆ
MCO Ê MCR Ê R
Ê1 1.015285 Ê1, R -0.540579
Ê 2 -0.965367 Ê 2, R -0.906611
Ê 3 -0.250483 Ê 3, R -0.083026
Ê 4 -0.144261 Ê 4, R -0.041027
Ê5 0.880037 Ê5, R 1.030664
RÊ -0.480074 RÊ R 0.00000
Note que de los estimadores de mínimos cuadrados ordinarios se obtiene:
REˆ Eˆ2 Eˆ3 Eˆ4 Eˆ5 -0.965367 - 0.250483 -0.144261 0.880037 -0.480074
Mientras que de los estimadores de mínimos cuadrados restringidos se verifica que:
REˆ R Eˆ2, R Eˆ3, R Eˆ4, R Eˆ5, R 0.906611 0.083026 0.041027 1.030664 0
Luego, los estimadores de mínimos cuadrados restringidos satisfacen la condición de

homogeneidad, es decir, la suma de las elasticidades precio, cruzadas e ingreso suman
cero.
La matriz de varianzas y covarianzas de los estimadores de mínimos cuadrados
restringidos es:
V ( Eˆ R ) Vˆ u2 A( X ' X ) 1
SCRes R (Y XEˆ R )' (Y XEˆ R ) 0.902563

Donde: Vˆ u2, R 0.034714
n-kq n-kq 30 - 5 1
V ( Eˆ R ) Ê1 Ê 2 Ê 3 Ê 4 Ê 5
Ê1 0.128575 0.005025 0.017234 0.009849 -0.032107
Ê 2 0.005025 0.003766 -0.001099 -0.001440 -0.001227
Ê 3 0.017234 -0.001099 0.006490 -0.000894 -0.004496
Ê 4 0.009849 -0.001440 -0.000894 0.004708 -0.002374
Ê5 -0.032107 -0.001227 -0.004496 -0.002374 0.008097
Luego:
A X ' X 1 1 x2 x3 x4 x5
1 3.703841 0.144744 0.496465 0.283705 -0.924914
x2 0.144744 0.108481 -0.031666 -0.041479 -0.035336
x3 0.496465 -0.031666 0.186957 -0.025767 -0.129523
x4 0.283705 -0.041479 -0.025767 0.135621 -0.068376
x5 -0.924914 -0.035336 -0.129523 -0.068376 0.233235
El coeficiente de determinación se obtiene de:
SCExpR Eˆ R' X ' XEˆ R nY 2 10.16620

R2 0.918459
SCTR Y ' Y nY 2 11.06876
De igual modo, el R2 ajustado se obtiene de:
R2
§ 30 1 ·
1 1 R2 * ¨ ¸
© 30 4 ¹
0.909050
Caso 3: Aplicaciones de Pruebas de Hipótesis
Se utilizará los resultados del modelo de demanda de carne de pollo vistos en la sección
anterior.
E 2 E3 E 4 E5
Modelo no restringido: Q dp APpol Pres Povi Y
Dependent Variable: LOG(QPOL)

C 1.015285 0.634308 1.600620 0.1220
LOG(PPOL) -0.965367 0.058250 -16.57276 0.0000
LOG(PRES) -0.250483 0.092716 -2.701632 0.0122
LOG(POVI) -0.144261 0.070929 -2.033882 0.0527
LOG(Y) 0.880037 0.095888 9.177795 0.0000
a) Pruebas de significancia individual de cada estimador. Use estadístico t.

b) Prueba de significancia conjunta de todas las elasticidades. Use estadístico F.
c) Prueba del cumplimiento de la condición de homogeneidad. Use el test de Wald.
d) Prueba del cumplimiento de la condición de homogeneidad. Use dos regresiones una
no restringida y otra restringida.
Respuestas:
a) Significancia individual.
Si se observa la columna t-Statistic encontraremos los t-“calculados” para cada

estimador, bajo la hipótesis nula: H 0 : E j 0 . Si se revisa las tablas estadística, el valor
t-“crítico” para una prueba de dos colas con 25 grados de libertad (n-k) y un 5% de
nivel de significación es: 2.065. La columna Prob. Proporciona el nivel de significación
necesario (o probabilidad) para rechazar la hipótesis nula, dado el valor del t-calculado.
5
En Eviews se puede hallar el valor del t-“critico” como: @qtdist(0.025,#gl). Con 0.025 en cada
cola. Alternativamente se puede hallar el nivel de significación necesario para rechazar la
hipótesis nula de un valor de t-calculado utilizando @tdist(X,#gl).
Utilizando cualquiera de las dos columnas podemos observar que el t-calculado para el
intercepto “C” y la pendiente de la variable LOG(POVI) son inferiores al t-“critico” ,
por lo tanto, en esos casos no se podría rechazar la hipótesis nula. El aceptar las
hipótesis nulas significaría que el modelo no debiera incluir intercepto y podría estar
incluyendo una variable irrelevante, el precio del ovino. Sin embargo este test lo
retomaremos luego.
Alternativamente, si se observa las “Prob.” El nivel de significación necesario para

rechazar las hipótesis nulas en los casos anteriores tendrían que ser 12% y 5.27%
respectivamente.
Las pendiente asociadas al precio del pollo, al precio de la carne de res y al ingreso
tienen t-calculados bastante mayores que el t-crítico de 2.06, por lo tanto, tendríamos
que rechazar la hipótesis nula. Esto equivale a decir que las variables señaladas son
relevantes individualmente para explicar las variaciones del consumo de pollo.
b) Significancia conjunta.
Este test investiga si ninguna variable es útil para explicar significativamente las
variaciones del consumo de pollo, luego, la hipótesis nula es: H 0 : E 2 E 3 ... E k 0 . En
los resultados presentados, puede notar en la parte inferior derecha, los valores de el F-
“calculado” y la probabilidad para rechazar la hipótesis nula.
0.9383 / 5 1
El F-calculado se obtiene de: FEˆ ' s 95.041
1 0.9383 / 30 5
De las tablas estadísticas se encuentra que el F-crítico para un 5% de nivel de
significación y con 4 y 25 grados de libertad es: 2.7596. Como se puede observar el F-
calculado es “bastante” mayor que el F crítico, por lo tanto, se debe rechazar la hipótesis
nula que ninguna pendiente contribuye a explicar las variaciones del consumo de pollo.
c) Condición de homogeneidad, Wald test.
La condición de homogeneidad en una curva de demanda significa que, en dicha

función no se observa “ilusión monetaria”, esto es, si todos los precios y el ingreso
aumentan o disminuyen en la misma proporción, el consumo del individuo no se ve
afectada por dichos cambios, pues en términos de precios relativos y de ingreso real no
ha sucedido ningún cambio.
La condición de homogeneidad en una función de demanda doble logarítmica significa

que todas las elasticidades precio, cruzadas e ingreso deben sumar cero, es decir:
6
En Eviews se puede hallar el valor del F-“critico” como: @qfdist(0.95,gl numerador, gl
denominador). Se usa 0.95 en vez de 0.05 por diferencia con respecto al área total.
Alternativamente se puede hallar el nivel de significación necesario para rechazar la hipótesis
nula de un valor de F-calculado utilizando @fdist(X, gl numerador, gl denominador).
H0 : E2 E3 E4 E5 0 . El test de Wald es: W ( REˆ r )'[Vˆ u2 R( X ' X ) 1 R' ] 1 ( REˆ r ) ,

donde: R >0 1 1 1 1@ , r 0 , Vˆ u2 0.1652852 , y
X ' X 1 1 x2 x3 x4 x5 Ê
1 14.72771 -0.271564 -0.690030 -0.447744 -1.992164 Ê1 1.015285
x2 -0.271564 0.124202 0.013141 -0.013856 0.004968 Ê 2 -0.965367

x3 -0.690030 0.013141 0.314659 0.052958 -0.014656 Ê 3 -0.250483
x4 -0.447744 -0.013856 0.052958 0.184154 0.002438 Ê 4 -0.144261
x5 -1.992164 0.004968 -0.014656 0.002438 0.336558 Ê 5 0.880037
Reemplazando se obtiene que W=8.0379 y también WF 8.0379 , porque q = 1.
Wald Test:
Equation: EQ_LQPOL_MCO
Null Hypothesis: C(2)+C(3)+C(4)+C(5)=0
Chi-square 8.037938 Probability 0.004581
Si se busca en las tablas extadísticas el valor crítico para el chi-cuadrado con 1 grado de
libertad y un nivel de significación del 5% es F 12gl 3.84 , el F-crítico con 1 y 25 grados
de libertad es 4.24. Los resultados del test de Wald muestran que en ambos casos, W y
WF calculados son superiores al valor crítico de chi-cuadrado y F, lo que lleva a
rechazar la hipótesis nula. Por lo tanto, no hay evidencias para admitir que se cumple
con la condición de homogeneidad.
Aternativamente, la condición de homogeneidad se puede probar utilizando el

estadístico t, tal como se vio arriba. Para esto se necesita conocer la matriz de varianzas
y covarianzas de los estimadores.
V ( Eˆ ) Ê1 Ê 2 Ê 3 Ê 4 Ê 5
Ê1 0.402346 -0.007419 -0.018851 -0.012232 -0.054424
Ê 2 -0.007419 0.003393 0.000359 -0.000379 0.000136
Ê 3 -0.018851 0.000359 0.008596 0.001447 -0.000400
Ê 4 -0.012232 -0.000379 0.001447 0.005031 6.66E-05
Ê 5 -0.054424 0.000136 -0.000400 6.66E-05 0.009194
Eˆ2 Eˆ3 Eˆ4 Eˆ5 -0.965367 - 0.250483 -0.144261 0.880037 -0.480074
V ( Eˆ 2 Eˆ 3 Eˆ 4 Eˆ 5 ) V ( Eˆ 2 ) V ( Eˆ 3 ) V ( Eˆ 4 ) V ( Eˆ 5 ) 2 * C ( Eˆ 2 , Eˆ 3 ) 2 * C ( Eˆ 2 , Eˆ 4 )
2 * C ( Eˆ 2 , Eˆ 5 ) 2 * C ( Eˆ 3 , Eˆ 4 ) 2 * C ( Eˆ 3 , Eˆ 5 ) 2 * C ( Eˆ 3 , Eˆ 5 )
V ( Eˆ 2 Eˆ 3 Eˆ 4 Eˆ 5 ) =0.003393+0.008596+0.005031+0.009194+2*0.000359-
2*0.000379+2*0.000136+2*0.001447-2*0.0004+2*0.0000666=0.0287
Luego: S ( Eˆ 2 Eˆ 3 Eˆ 4 Eˆ 5 ) V ( Eˆ 2 Eˆ 3 Eˆ 4 Eˆ 5 ) = 0.1693
El t-calculado será:
Eˆ 2 Eˆ 3 Eˆ 4 Eˆ 5 0.480074
t Eˆ ˆ ˆ ˆ 2.83
2 E3 E 4 E5
S ( Eˆ 2 Eˆ 3 Eˆ 4 Eˆ 5 ) 0.1693
Al igual que antes el t-crítico con 25 grados de libertad y 5% de nivel de significación

es: 2.06. Por lo tanto, dado que el t-calculado (en valor absoluto) es mayor que el t-
crítico, se debe rechazar la hipótesis nula, luego, no se cumple la condición de
homogeneidad en la función de demanda de carne de pollo.
d) Condición de homogeneidad, 2 regresiones.
Otra forma alternativa de probar la condición de homogeneidad es comparar los

resultados entre el modelo irrestricto, estimado arriba, y un modelo restringido, cuyos
resultados se presentan a continuación y que son los mismos a los presentados en la
sección anterior en forma matricial.
E 2 E3 E 4 E 2 E3 E 4
Modelo restringido: Q pd APpol Pres Povi Y
Dependent Variable: LOG(QPOL)

C(1) -0.540579 0.358574 -1.507582 0.1437
C(2) -0.906611 0.061366 -14.77379 0.0000
C(3) -0.083026 0.080561 -1.030605 0.3122
C(4) -0.041027 0.068615 -0.597937 0.5551
C(5) 1.030664 0.089983 -11.45394 0.0000
Log likelihood 9.987555 Durbin-Watson stat 2.363488
La hipótesis nula, H 0 : E 2 E 3 E 4 E 5 0 , se puede probar utilizando la prueba F, así:
2
( R NR RR2 ) / q (0.9383 0.918459) / 1
FEˆ 's 2
8.03
(1 R NR )/n k (1 0.9383) / 30 5
Note que el F-calculado =8.03 es exactamente el mismo al obtenido en el test de Wald.

El F crítico para 1 y 25 grados de libertad es 4.24, por lo tanto, al igual que antes, se
debe rechazar la hipótesis nula, lo que implica que no se cumple con la condición de
homogeneidad.
Nota de advertencia:
Normalmente, en la modelación econométrica primero se estima un modelo irrestricto,

luego se hace la hipótesis nula que los parámetros satisfacen cierta combinación lineal.
Si la hipótesis es aceptada, lo adecuado es estimar por mínimos cuadrados restringidos,
para ganar eficiencia en los estimadores. En caso contrario, si se impone una restricción
que no se satisface empíricamente puede llevar a pérdida de eficiencia en los
estimadores de los parámetros. Sin embargo, en algunos casos, en especial si se está
haciendo análisis estructural, puede admitirse la estimación por mínimos cuadrados
restringidos a pesar de no cumplirse con la combinación lineal de parámetros.
En el ejemplo de la función de demanda de pollo, dado que no se ha verificado el

cumplimiento de la condición de homogeneidad, no sería recomendable estimar por
mínimos cuadrados restringidos.
PROBLEMAS:
Problema 1: Considére los siguientes modelos.
Yt D 1 D 2 * X 2t D 3 * X 3 P t
Yt X 2t E 1 E 2 * X 2t E 3 * X 3 P t
a. ¿Son iguales los valores estimados por MCO para D1 y E1?. ¿Porqué?
b. ¿Son iguales los valores estimados por MCO para D3 y E3?. ¿Porqué?
c. ¿Cuál es la relación entre D2 y E2?. ¿Porqué?
d. ¿Es posible comparar los R2 de ambos modelos?. ¿Por qué sí o por qué no?.
Problema 2: Suponga el siguiente modelo

Yt D 1 D 2 * X 2t D 3 * X 3 D 4 * X 4t D 5 * X 5t P t
Suponga que se impone las restricciones siguientes al modelo:

D2 D3 0 D4 D5 1 D 2 3D 3 5D 4
a. Expecifique las matrices R y r para estimar por MCRestringidos

b. Cuántos grados de libertad tiene el modelo
Problema 3: Un investigador estimó la función de producción para el sector agrícola

del Perú y utilizó una especificación tipo Cobb-Doublas y encontró los siguientes
resultados:
Número de observaciones 39 (1950 – 1988)
LOG(Q) = -3.88 + 1.41*LOG(L) + 0.41*LOG(K)

R2 = 0.99 Error Estandar de la regresión = 0.037
Algunos analistas han sugerido que la reforma agraria del año 1969 ha creado un hito en
la historia y ha provocado cambios estructurales en los parámetros, y por lo tanto no
debiera utilizarse los resultados de la función de producción estimada.
Uno de los asistentes del investigador, para demostrar que no ha habido “cambio
estructural”, sugiere dividir la muestra en 2 grupos: antes y después del 69. Los
resultados fueron:

LOG(Q) = -1.95 + 0.83*LOG(L) + 0.66*LOG(K)

LOG(Q) = -4.06 + 1.62*LOG(L) + 0.22*LOG(K)
En base a estos resultados qué pueden decir sobre el “cambio estructural”?
Problema 4: Dos investigadores estiman la función consumo para el Perú utilizando los
mismos datos, pero especificando modelos distintos. El investigador 1 presentó los
siguientes resultados:
CONSUMOt =17.3+0.564*INGRESOt+0.19*RIQUEZAt+0.07*CONSUMOt-1 R2=0.97

(3.7) (0.03) (0.15) (0.05)
El investigador 2 presentó los siguientes resultados:

CONSUMOt = 16.95 + 0.57*INGRESOt R2= 0.91
(3.7) (0.03)
Las cifras entre paréntesis son los errores estándar de los estimadores.
a. ¿Cuál de los dos investigadores plantea el modelo correcto?. Haga las pruebas de
hipótesis necesarias. Dato: en el primer modelo se utilizó 24 observaciones, en el
segundo 25.
b. ¿Cuál es la propensión marginal a consumir de corto y largo plazo en los dos
modelos?.
c. En el primer modelo hay diferencias significativas entre las propensiones marginales
a consumir de corto y largo plazo?.
Problema 5: Supongamos que usted es un asistente en un proyecto de investigación que

intenta explicar las diferencias salariales debido a la educación y al sexo. Se hizo una
encuesta a 2000 trabajadores de distintos sectores y se les preguntó sobre el nivel de sus
salarios mensual (W); el nivel de educación alcanzado (sin estudios (E1), primaria (E2),
secundaria (E3) y superior (E4), y se anotó el sexo del trabajador encuestado. El
investigador principal les asignó la tarea de estimar e interpretar los resultados de las
siguientes regresiones:
Wi D 1 D 2 .E 2i D 3 .E3i D 4 E 4i E .Sexoi u i (1)

4 4
Wi D 1 ¦ D j .E ji E .Sexoi ¦ G j .( E ji .Sexoi ) u i (2)
j 2 j 2
Donde:
W = salario, se mide en soles mensuales
E1 = 1 si no tiene estudios y 0 en otro caso.
E2 = 1 si tiene primaria y 0 en otro caso.
E3 = 1 si tiene secundaria y 0 en otro caso.
E4 = 1 si tiene educación superior y 0 en otro caso.
Sexo = 1 si es hombre y 0 en otro caso.
a) Considerando la ecuación (1) construya una tabla de salarios esperados según nivel
de educación y sexo, es decir, el casillero que está en la primera fila y primera
columna, del cuadro adjunto, indica el salario esperado de una mujer sin estudios. El
casillero ubicado en la segunda fila y tercera columna indica el salario esperado de
un hombre con educación secundaria, etc.
Salarios Sin Educación Primaria Secundaria Superior

Hombre
Mujer
b) Considerando la ecuación (2) construya una tabla de salarios esperados según nivel
de educación y sexo. En este caso se presume que el sexo y la educación tienen un
efecto de interacción que hace que además de la diferencia propias del sexo y de la
educación, la combinación de ambas tienen un efecto significativo.
Salarios Sin Educación Primaria Secundaria Superior

Hombre
Mujer
c) Utilizando ambas ecuaciones, cómo probaría la hipótesis nula que el efecto de

interacción educación-sexo es significativa. Describa el estadístico de prueba.
Problema 6: Se tiene una muestra con información de salarios, años de educación y si

el trabajador ha recibido alguno de los programas de capacitación (A o B, ambos
programas son excluyentes). Estamos interesados en medir el impacto de los programas
de capacitación en los salarios, pero, también se cree que el efecto está asociado al nivel
de educación.
a) ¿Cuál sería el modelo propuesto por usted?. Defina claramente cada una de las
variables del modelo.
b) ¿Qué interpretación tienen cada uno de los parámetros del modelo?
c) Utilizando el modelo propuesto cómo probaría la hipótesis nula que “el programa A
no tiene ningún efecto sobre los salarios?.
a
ª x º
Problema 7: Supongamos que P[ X d x] ³ f ( x)dx«¬1 x »¼ . Para X t 0 .
a) ¿Cuál es la función de densidad de probabilidad de X?
b) ¿Cuál es el estimador de máxima verosimilitud de a?
c) ¿Cuál es la varianza asintótica del estimador de a por MV?
CAPITULO 4:
VIOLACION DE LOS SUPUESTOS DEL

MODELO DE REGRESION CLASICO
4.1 Revisión de los Supuestos del Modelo de Regresión Clásico 129

4.2 Sesgo de Especificación 130
4.2.1 Naturaleza 130
4.2.2 Consecuencias 131
4.2.3 Test de Especificación de Ramsey 133
4.3 No Normalidad de los Errores 137
4.3.1 Naturaleza y Consecuencias 137
4.3.2 Test de Jarque & Bera 137
4.4 Errores con Media Diferente de Cero 138
4.5 Errores No Esféricos 139
4.5.1 Naturaleza 141
4.5.2 Mínimos Cuadrados Generalizados (MCG) 143
4.5.3 Propiedades de los Estimadores de MCG 144
4.6 Heterocedasticidad 145

4.6.1 Causas de la Heterocedasticidad 146
4.6.2 Consecuencias de la Heterocedasticidad 148
4.6.3 Detección de la Heterocedasticidad 150
a) Inspección Visual de los Residuos 151
b) Test de Goldfeld y Quandt 151
c) Test de White 152
4.6.4 Corrección de la Heterocedasticidad 153
a) Mínimos Cuadrados Generalizados Factibles (MCGF) 153
b) Determinación del Ponderador Adecuado 154
4.6.5 Casos Especiales en Heterocedasticidad 155
a) Modelo de Heterocedasticidad Condicional Autorregresiva ARCH 155
a.1) Detección del ARCH(p) 156
a.2) Corrección de la Heterocedasticidad con ARCH(p) 156
b) Otros Modelos de Heterocedasticidad Condicional Autorregresiva:
GARCH (p,q), ARCH-M(p), TGARCH (p,q), y EGARCH (p,q). 156
4.7 Autocorrelación 158

4.7.1 Causas de la Autocorrelación 162
4.7.2 Consecuencias de la Autocorrelación 164
4.7.3 Detección de la Autocorrelación 166
a) Test de Durbin Watson (d) 167
b) Test de Ljung-Box (Q) 168
c) Test de Breusch-Godfrey (LM) 169
d) Test h de Durbin 170
128 Capitulo 4: Violación de los Supuestos del Modelo de Regresión Clásico
4.7.4 Corrección de la Autocorrelación 170

a) Mínimos Cuadrados Generalizados 170
b) Mínimos Cuadrados Generalizados Factibles 170
c) Método de Cochrane Orcutt 172
d) Método de Hatanaka en Dos Etapas 174
e) Estimación Por Máxima Verosimilitud 175
4.7.5 Pronóstico con Autocorrelación 176
4.8 Multicolinealidad 177

4.8.1 Tipos de Multicolinealidad 178
a) Colinealidad Perfecta 179
b) Colinealidad Imperfecta 181
4.8.2 Causas de la Multicolinealidad 182
4.8.3 Consecuencias de la Multicolinealidad 184
4.8.4 Detección de la Multicolinealidad 186
4.8.5 Corrección de la Multicolinealidad 188
4.9 Problemas de Endogeneidad en las Variables Explicativas 194

4.9.1 Casos de Endogeneidad 194
a) Simultaneidad 195
b) Errores de Medida 196
c) Variables Endógenas Explicativas y Autocorrelación 197
4.9.2 Estimación por el Método de Variables Instrumentales (VI) 197
a) Selección de los Instrumentos 199
b) Test de Endogeneidad de Wu-Hausman 200
c) Propiedades del Estimador de Asuman 201
d) Test de Hausman Aproximación de Davidson – MacKinnon 201

CAPITULO 4: VIOLACION DE LOS SUPUESTOS DEL

MODELO DE REGRESIÓN CLÁSICO
4.1 REVISIÓN DE LOS SUPUESTOS DEL MODELO DE REGRESIÓN CLÁSICO
Sea el modelo de regresión general, Y XE u .
Donde:
ªY1 º ª 1 X 21 X 31 ... X k 1 º ª E1 º ª u1 º
«Y » «1 X X 32 ... X k 2 »» «E » «u »
Y « 2» ; X « 22
; E « 2» ; y u « 2»
«....» «... ... ... ... ... » « ... » «....»
« » « » « » « »
¬Yn ¼ Nx1 ¬ 1 X 2n X 3n ... X kn ¼ NxK ¬ E K ¼ Kx1 ¬u n ¼ Nx1
Los supuestos del modelo de regresión clásico pueden resumirse en el siguiente cuadro:
Supuesto Descripción Test de Validación

Test RESET de Ramsey
(Regression Specifica-
E[Y X ] XE El modelo de regresión es lineal en
1. tion Error Test o test de
parámetros por definición.
especificación del error
de la regresión).
Los errores son variables aleatorias

2. u ~ NID(0, V 2 I n ) independientes y normalmente
distribuidas.
La función de densidad de los errores Test de normalidad de
2.1 u a N
sigue una distribución normal. Jarque & Bera..
2.2 E[u i ] 0 , i Los errores tienen media cero. Sesgo en el intercepto.
2
Los errores tienen varianza constante Test de homocedastici-
2.3 E[u i ] V u2 , i
igual a V u2 . dad.
Los errores son puramente aleatorios,
2.4 E[u i u i r s ] 0 , s z 0 no están correlacionados con los Test de no autocorre-
lación de errores
errores de otros períodos.
3. Sobre las variables X’s

La matriz de variables X’s tiene rango
Test de no multicolinea-
3.1 U(X ) K completo, esto asegura que las k varia-
lidad
bles X’s son independientes entre si.
Las variables X’s son independientes
del error. En el modelo de regresión
clásico se supone que las variables X’s Test de endogeneidad de
3.2 E[ X ' u ] 0 tiene valores fijos, son no estocásticas, Hausman
comportanse como variables exógenas
X ' E[u ] 0 .
Todas las observaciones en cada una
de las k variables X j , j 1, 2, , k
3.3 V ( X j ) ! 0 , finita. Test de estacionariedad.
no pueden ser iguales, y son series
estacionarias.
4.2 SESGO DE ESPECIFICACIÓN

Los errores en la especificación de un modelo pueden tener distintas causa, las más
frecuentes son debidos a:
x Especificación lineal cuando el modelo es no lineal,
x Omisión de variables, e
x Inclusión de variables irrelevantes
La aproximación econométrica a cualquiera de estos tres casos es muy parecida, pero,

de verificarse cualquiera de ellos, las consecuencias sobre los estimadores serán
completamente diferentes por lo que es preciso diferenciarlos.
4.2.1 Naturaleza
Supongamos que se ha planteado un modelo de regresión lineal general de la siguiente

forma:
Yi E 1 E 2 X 2i E 3 X 3i ... E j X ji .... E k X ki u i (4.1)
Donde: i 1,2,3,...., n , n - observaciones.

j 1,2,3,...., k , k - variables explicativas. Siendo X 1i 1; i 1,2,..., n
La ecuación 4.1 puede expresarse en forma matricial de la siguiente manera:
Y XE u (4.2)
Supongamos ahora otro modelo que incluye un conjunto de otras variables Z.
Y XE ZJ H (4.3)
Como es obvio, es posible que se produzca alguna incompatibilidad entre el modelo

estimado y el modelo verdadero según su especificación. En términos generales se
puede observar las siguientes situaciones. Si el modelo estimado es exactamente el
modelo verdadero las propiedades de los estimadores serán las óptimas, esto es, serán
MELI (los mejores estimadores lineales e insesgados). Sin embargo, si el modelo
estimado no corresponde al verdadero modelo se podría estar incluyendo variables
irrelevantes u omitiendo variables relevantes. En este último caso, podría incluirse la
posibilidad de la omisión de expresiones no lineales del modelo. Si efectivamente el
modelo fuera no lineal, entonces, los residuos del modelo lineal estimado mostrarán
evidencias de un comportamiento sistemático no lineal que permitiría detectar y corregir
el sesgo de especificación.
Queda claro, sin embargo, que el modelo verdadero no se conoce, pero es posible
plantear hipótesis sobre él. Entonces, bajo el supuesto de que la hipótesis sobre la
especificación del modelo es correcta se puede tener una clasificación de los siguientes
cuatro casos que se describen a continuación:
Cuadro 4.1: Casos de Sesgo de Especificación

Modelo Verdadero
Y XE u Y XE ZJ H
Caso B: Sesgo de especificación,
omite variables relevantes, Z.
Caso A: El modelo estimado es el Dado que se impone la restricción

correcto.
falsa J 0 . Eˆ y Vˆ u
2
son
Y XE u sesgados, luego, las pruebas t y F
Eˆ y Vˆ u2 son insesgados y
no son válidas.
eficientes. Las pruebas t y F son
válidas. Solamente si X y Z son
Modelo ortogonales (incorrelacionados)
Estimado Ê es insesgado.
Caso C: Sesgo de especificación,
incluye variables irrelevantes, Z. Caso D: El modelo estimado es el
correcto.
A pesar que no se impone la
Y XE ZJ H restricción J Ê
0, es Eˆ y Vˆ u2 son insesgados y
insesgado, pero, V̂ u2
es sesgado, eficientes. Las pruebas t y F son
luego, las pruebas t y F no son válidas.
válidas.
El caso B se puede extender a los siguientes tres casos de variables omitidas:

x Términos polinómicos omitidos en las variables explicativas.
x Interacción entre variables explicativas presentes.
x Términos rezagados de variables dependientes o de variables explicativas.
4.2.2 Consecuencias
Supongamos que el verdadero modelo fuera el modelo no restringido (NR):

Y XE ZJ H (4.4)
Pero, por alguna razón se estima el modelo restringido (R):

Y XEˆ uˆ (4.5)
Luego:
Eˆ ( X ' X ) 1 X ' Y (4.6)
Eˆ ( X ' X ) 1 X ' ( XE ZJ H )
Eˆ E ( X ' X ) 1 X ' ZJ ( X ' X ) 1 X ' H
Media de Ê :
E ( Eˆ ) E ( X ' X ) 1 X ' ZJ ( X ' X ) 1 E ( X ' H ) (4.7)

E ( Eˆ ) E ( X ' X ) 1 X ' ZJ
E ( Eˆ ) z E
Dado que no se ha violado el supuesto de independencia entre las variables X y H,

E ( X ' H ) 0 . Luego, Ê es un estimador sesgado. Sólo sería insesgado si J 0 , o si
X ' Z 0 , es decir, si las variables X y las variables Z fueran completamente
independientes (ortogonales).
Varianza de Ê :
La varianza de Ê de la ecuación (4.5) es:

V ( Eˆ ) V 2 ( X ' X ) 1
u (4.8)
La varianza de Ê de la ecuación (4.4) se puede deducir de la ecuación (4.6) así:

V ( Eˆ ) V 2 ( X ' X ) 1 X ' Z ( Z ' Z ) 1 Z ' X
H
1
(4.9)
Esto porque la ecuación (4.4) también puede ser expresada de la siguiente manera:
ªE º
Y XE ZJ H >X Z @« » H WT H
¬J ¼
ªE º
Donde: W >X Z@ y T « »
¬J ¼
Luego: Tˆ (W 'W ) 1W ' Y
1
ªX ' X X 'Zº ªX ' X X 'Zº
Donde: W 'W «Z' X y (W 'W ) 1
¬ Z ' Z »¼ «Z' X
¬ Z ' Z »¼
Luego, la matriz de varianzas y covarianzas de los estimadores Ê y Jˆ es:

1
§ Eˆ · 2§ X ' X X 'Z · § D 1 D 1 ( X ' Z )( Z ' Z ) 1 ·
V ¨¨ ¸¸ V H ¨¨ ¸¸ V H2 ¨¨ 1 1 1 1
¸
1 ¸
J
© ¹ˆ © Z ' X Z ' Z ¹ © ( Z ' Z ) ( Z ' X ) D ( Z ' Z ) ( Z ' X ) D ( X ' Z )( Z ' Z ) ¹
Donde D ( X ' X ) 1 ( X ' Z )( Z ' Z ) 1 ( Z ' X )
Por lo tanto, si suponemos que V u2 V H2 V2:

V 2 ( X ' X ) 1 d V 2 ( X ' X ) 1 X ' Z ( Z ' Z ) 1 Z ' X 1
Note que la varianza de Ê a partir de la ecuación (4.5) es artificialmente pequeña con

respecto a la verdadera varianza obtenida de la ecuación (4.4). Luego, Ê a partir de la
ecuación (4.5) es un estimador ineficiente de E .
4.2.3 Test de Especificación de Ramsey
El Test de Especificación de los Errores de la Regresión de Ramsey (Ramsey RESET

Test) incluye la detección de errores de especificación por omisión de variables que se
viera en la sección anterior. El test prueba si los residuos del modelo lineal guardan en
si una estructura no lineal, en particular una relación exponencial.
El test RESET se basa en el supuesto que la verdadera regresión es el modelo no

restringido, pero se estima el modelo restringido, esto es: Y XE ZJ H versus
Y XE u . Donde: u ZJ H .
De trabajar con el modelo restringido llevaría cometer “sesgo de especificación”. Cuyas

consecuencias son las de tener estimadores sesgados e ineficientes, tal como se
demostró en la sección anterior.
Para el caso del Sesgo de Especificación Ramsey sugiere probar las hipótesis:
H0 :J 0
H1 : J z 0
Esto equivale a plantear la hipótesis

H 0 : u ~ N (0, V 2 I n )
H 1 : u ~ N (P ,V 2 I n ) ; P z 0
Un caso de especificación incorrecta es suponer una expresión aditiva del error en vez
de suponer una expresión multiplicativa, esto es:
(1) Yi E 1 E 2 X 2 i E 3 X 3i u i
(2) Yi E 1 X 2Ei X 3Ei u i .
2 3
El modelo (2) sería linealizable solamente si el residuo tuviera la forma eu . Una

expresión lineal de la ecuación (2) se obtendría mediante la expansión de Taylor
incluiría términos exponenciales y productos cruzados en las variables explicativas.
Sin embargo, Ramsey propone una expresión más sencilla, plantear contrastar el
modelo lineal versus un modelo polinómico, tal como se puede observar en el siguiente
ejemplo.
(1) Yi E 1 E 2 X 2 i E 3 X 3i u i
(2) Yi J 1 J 2 X 2i J 3 X 3i J 4 X 22i J 5 X 32i J 6 X 2i X 3i H i
(3) u i J 4 X 22i J 5 X 32i J 6 X 2i X 3i H i
El modelo (2) incluye términos cuadráticos y de interacción de las variables X 2 y X 3

que hacen que el modelo sea no lineal en variables. Por lo tanto, en este caso:
2 2
Z [ X 2 i X 3i X 2 i X 3i ] .
En términos generales Ramsey sugiere correr el modelo aumentado o no restringido

(NR):
(2’) Yi E 1 E 2 X 2i E 3 X 3i J 1Yî 2 J 2Yî 3 J 3Yî 4 H i
Donde el modelo restringido es:
(1’) Yî Eˆ1 Eˆ 2 X 2i Eˆ 3 X 3i
Luego Z [Yˆ 2 Yˆ 3 Yˆ 4 ]
Como se puede apreciar la matriz Z no incluye la variable Yî (con exponente 1)

evitando así la perfecta colinealidad con la parte XE , pero si incluye Yˆ 2 Yˆ 3 Yˆ 4 Yˆ q 1 .
Asimismo, note que la matriz Z incluye q variables Yî no colineales, es decir, por
definición una relación exponencial es no lineal, luego el rango de la matriz Z será
siempre q, q U (Z ) .
El test de Especificación de Ramsey es:
Hipótesis Estadístico de Prueba Decisión

Prueba F:
Si F ! F(q0.05
, n - k -q) g.l.
( SC Re s R SC Re s NR ) / q se rechaza la hipótesis
F a F(0.05
q , n - k -q) g.l.
H0 :J 0 SC Re s NR /(n k q ) nula.
H1 : J z 0
Ratio de verosimilutud: Si RV ! F q2 gl
se rechaza la hipótesis
RV 2[l R ( E , V 2 ) l NR ( E , J , V 2 )] ~ F q2 gl nula.
Donde el subíndice NR hace referencia al modelo no restringido (2’). Por lo tanto:

SC Re s NR Hˆ NR ' Hˆ NR .
Si se rechaza la hipótesis nula , H 0 : J 0 , se recomienda intentar una especificación

diferente a la lineal por evidenciar sesgo de especificación.
De igual manera, para identificar “el grado” del polinomio es necesario que se vaya
incorporando uno a uno los términos polinómicos desde el grado más bajo, esto porque
basta mostrar evidencias de no linealidad y no el grado de la no linealidad. En el
ejemplo significaría correr primero un modelo no restringido con un Yî al cuadrado, si
se acepta la hipótesis nula el test acaba. Si se rechaza la hipótesis nula debe continuarse
con dos términos polinómicos uno al cuadrado y otro al cubo, etc., hasta rechazar la
hipótesis nula. De no encontrarse evidencias de no linealidad se debe admitir que el
modelo no restringido es “empíricamente correcto” aun cuando teóricamente puede no
serlo.
Ejemplo 4.1: El consumo de Pan en una comunidad rural de Inglaterra en el siglo

XVIII
Del curso de econometría de la Universidad de Temple (USA), se extrae el caso

estudiado por el Reverendo David Davies y el Sr. Frederick Morton Eden, a partir del
gasto en alimentos en 35 familias de una comunidad rural en Inglaterra entre1787 y
1795.
La información recogida corresponde a: QPAN (cantidad seminal de pan consumida por

la familia), PPAN (Precio del pan), PCARNE (Precio de la carne), ING (Ingreso
familiar), TFAM (Tamaño de la familia).
obs QPAN PPAN PCARNE ING TFAM

1 6.869565 11.50000 8.000000 99.00000 7.000000
2 5.956522 11.50000 8.000000 96.50000 7.000000
3 5.956522 11.50000 8.000000 88.50000 6.000000
4 2.782609 11.50000 3.300000 75.00000 5.000000
5 4.608696 11.50000 8.000000 75.00000 4.000000
6 3.555556 13.50000 8.000000 78.00000 5.000000
7 4.148148 13.50000 8.000000 90.50000 5.000000
8 7.259259 13.50000 8.000000 124.0000 7.000000
9 3.703704 13.50000 8.000000 81.25000 3.000000
10 7.074074 13.50000 8.000000 120.2100 8.000000
11 3.807692 13.00000 7.500000 60.50000 7.000000
12 4.692308 13.00000 7.500000 85.50000 6.000000
13 2.884615 13.00000 7.500000 58.00000 5.000000
14 2.846154 13.00000 7.500000 61.00000 4.000000
15 3.307692 13.00000 7.500000 68.50000 5.000000
16 3.307692 13.00000 7.500000 65.50000 4.000000
17 4.538462 13.00000 7.500000 106.2500 4.000000
18 4.538462 13.00000 7.500000 108.5000 7.000000
19 3.846154 13.00000 7.500000 70.75000 4.000000
20 3.153846 13.00000 7.500000 80.25000 4.000000
21 4.500000 13.00000 7.500000 88.50000 6.000000
22 4.500000 12.00000 7.500000 104.0000 6.000000
23 6.434783 11.50000 8.000000 99.00000 6.000000
24 3.478261 11.50000 8.000000 69.75000 4.000000
25 5.043478 11.50000 8.000000 84.00000 5.000000
26 8.260870 11.50000 8.000000 113.0000 9.000000
27 6.521739 11.50000 8.000000 107.7500 8.000000
28 6.869565 11.50000 8.000000 89.00000 5.000000
29 7.000000 14.00000 8.000000 115.2500 9.000000
30 6.000000 14.00000 8.000000 162.0000 8.000000
31 3.428571 14.00000 8.000000 87.00000 5.000000
32 2.704545 22.00000 10.00000 109.0000 4.000000
33 3.954545 22.00000 10.00000 113.0000 6.000000
34 5.318182 22.00000 10.00000 183.5000 8.000000
35 3.545455 22.00000 10.00000 114.0000 4.000000
Se pide verificar si el modelo de regresión adjunto, tiene algún sesgo de especificación

con respecto a su linealidad en variables mediante el test de Ramsey con tres términos
exponenciales de Yî .
QPAN i E 1 E 2 PPAN i E 3 PCARNE i E 4 INGi E 5TFAM i u i

Los resultados de la estimación por mínimos cuadrados ordinarios del modelo son:
Dependent Variable: QPAN

C 0.414179 1.027385 0.403139 0.6897
ING 0.025004 0.007823 3.196193 0.0033
TFAM 0.405536 0.112198 3.614465 0.0011
PPAN -0.365064 0.063115 -5.784127 0.0000
PCARNE 0.585501 0.161981 3.614632 0.0011
A pesar que individualmente (según el estadístico t) los términos asociados al polinomio

deYî , de manera conjunta (según el estadístico F para el Test de Ramsey y según el
Ratio de Verosimilitud) rechazan la hipótesis nula al 5.8% y al 2.3%, respectivamente,
que los coeficientes asociados al polinomio de Yî sean iguales a cero. Por lo tanto, es
muy probable que la especificación lineal no es la adecuada.
Ramsey RESET Test:

Test Equation:
Dependent Variable: QPAN
C 11.82070 8.332936 1.418551 0.1675
ING -0.312782 0.344289 -0.908489 0.3717
TFAM -5.012236 5.542563 -0.904317 0.3738
PPAN 4.376851 4.982440 0.878455 0.3874
PCARNE -6.743556 7.873263 -0.856514 0.3993
FITTED^2 3.322101 4.565181 0.727704 0.4731
FITTED^3 -0.340564 0.649423 -0.524410 0.6043
FITTED^4 0.012034 0.033368 0.360633 0.7212
El mismo modelo corrido en logaritmos acepta la hipótesis nula que es lineal en

logaritmos.
Dependent Variable: LOG(QPAN)

C -0.284110 0.435779 -0.651960 0.5194
LOG(PPAN) -1.154868 0.155074 -7.447187 0.0000
LOG(PCARNE) 0.632574 0.153810 4.112688 0.0003
LOG(ING) 0.686552 0.132276 5.190308 0.0000
TFAM 0.067466 0.019039 3.543619 0.0013
Ramsey RESET Test:

4.3 TEST DE NORMALIDAD DE LOS ERRORES
4.3.1 Naturaleza y Consecuencias
El conocer a priori la distribución de los errores del modelo de regresión puede tener
dos implicancias. En primer lugar, mejora la eficiencia de la estimación de parámetros,
la estimación por máxima verosimilitud se basa en este supuesto; y en segundo lugar, tal
vez el más importante, facilita la inferencia estadística.
Si bien el supuesto del modelo de regresión clásico se basa en que los errores provienen
de una función de densidad norma, u a N , la violación de este supuesto no tiene
consecuencias graves sobre las propiedades de los estimadores de los parámetros, pues,
de conformidad con el Teorema Central del Límite, los estimadores, al ser promedios,
tienden a distribuirse como una normal, sea cual fuera la distribución de origen del
error, ui .
Mediante el Test de Normalidad de Jarque-Bera se prueba si una serie, como por

ejemplo los residuos de la estimación de mínimos cuadrados ordinarios, siguen una
distribución normal. El test pondera los terceros y cuartos momentos de una serie (la
skewness y la kurtosis, respectivamente) y los contrasta con los que correspondientes a
una distribución normal. De no existir diferencia empírica significativa se puede admitir
que los errores efectivamente tienen una distribución normal. El skewness (sesgo) de
una distribución normal es cero, porque es una distribución simétrica. La kurtosis de
una distribución normal es 3 debido a que el área debajo de la distribución, en el rango
más-menos tres desviaciones estándar contiene a más del 99% de casos.
4.3.2 Test de Normalidad de Jarque Bera

Test de normalidad asintótica:
ª skw 2 (kurt 3) 2 º 2
JB (n k ) « » ~ F 2 gl
¬ 6 24 ¼
Donde: Valores críticos:

n = número de observaciones
k = número de coeficientes estimados 4.303 (2 colas)
F 22 gl * ®
Ho : u ~ N ¯ 5.99 (1 cola)
2
Ho : u ~ N
Varianza V~ 2 ¦ uˆ
Si JB > 6 se rechaza la Ho.
n
3
Si JB < 6 se acepta la Ho.
skewness skw
¦ uˆ / n o 0
V~
2 3/ 2
4
Kurtosis kurt
¦ uˆ o 3
V~
2 2
Ejemplo 4.2: El consumo de Pan otra vez
Tomando como referencia el modelo doble logarítmico para el consumo de pan en la

comunidad rural inglesa se obtiene el residuo: uˆ i Yi Yî , donde Yi log(QPAN ) y

Yî log(QPAN )
10
Series: Residuals
Sample 1 35
Observations 31
8
Mean 2.16E-15
Median -0.076022
6 Maximum 0.829109
Minimum -0.992078
Std. Dev. 0.407855
Skewness -0.199476
4 Kurtosis 3.059353
2 Probability 0.900264
0
-1.0 -0.5 0.0 0.5 1.0
El Jarque-Bera 0.21< 5.99 (valor crítico), por lo tanto se acepta la hipótesis que los
errores siguen una distribución normal. Note que la kurtosis tiende a 3 y el skewness
tiende a cero.
4.4 ERRORES CON MEDIA DIFERENTE DE CERO

Supongamos que el modelo de regresión fuera:
Yi E 1 E 2 X 2i E 3 X 3i ..... E k X ki u i .
Siendo su estimador
Yi Eˆ1 Eˆ 2 X 2i Eˆ 3 X 3i ..... Eˆ k X ki uˆ i .
Una de las propiedades de los mínimos cuadrados ordinarios es que ¦ uˆ i 0 , por lo
tanto, uˆ 0.
Si E >u i X @ 0 , se obtiene que la función de regresión poblacional o verdadera:
E (Yi X ) E 1 E 2 X 2i E 3 X 3i ..... E k X ki E (u i X ) (4.10)
E (Yi X ) E 1 E 2 X 2i E 3 X 3i ..... E k X ki
Sin embargo, si el E >u i X @ T z 0 , pero constante, afectará únicamente al intercepto

del modelo, mientras las propiedades de las pendientes quedarán intactas, es decir, los
estimadores de las pendientes de MCO seguirán siendo MELI.
E (Yi X ) E 1 E 2 X 2i E 3 X 3i ..... E k X ki E (u i X ) (4.11)
E (Yi X ) ( E 1 T ) E 2 X 2i E 3 X 3i ..... E k X ki
E (Yi X ) D E 2 X 2i E 3 X 3i ..... E k X ki
Por lo tanto, la esperanza condicional de Yi cuando X 2i X 3i ..... X ki 0 será:
E (Yi X 2i X 3i ..... X ki 0) E1 T (4.12)
Luego, si E >ui @ z 0 el estimador del intercepto será sesgado, pues lo estimado es

Dˆ E 1 T y no Ê1 .
4.5 ERRORES NO ESFÉRICOS
Si la varianza del error no fuera constante, E[u i2 ] V i2 z V u2 , (heterocedasticidad) o si

los errores no contemporáneos estuvieran correlacionados, E[uiui r s ] z 0 s z 0
(autocorrelación de errores), se estaría ante una situación donde la matriz de la varianzas
y covarianzas de los errores son no esféricos, es decir, V (u) 6 z V u2 I n .
En el caso de correlación serial, cov(u t , u t r s ) z 0,s z 0 , los errores estarán

correlacionados en el tiempo, los elementos de la diagonal de la matriz 6 mantendrá
valores positivos y constantes, lo que indica que se mantiene el supuesto de
homocedasticidad.
ª V (u12 ) C (u1 , u 2 ) C (u1 , u n ) º ª V u2 J1 J n 1 º

« » « »
«C (u1 , u 2 ) V (u 2 ) C (u 2 , u n )» « J1 V u2 J n2 »
V (u ) E (uu ' ) 6
« » « »
« » « »
¬«C (u1 , u n ) C (u 2 , u n ) V (u n ) ¼» ¬«J n 1 J n 2 V u2 ¼»
Donde J s cov(u t , u t r s ),s , s=1, 2,}, n-1 y cov(u1 , u 2 ) cov(u 2 , u 3 ) cov(u n 1 , u n ) .1
Alternativamente, si las covarianzas de los errores son cero, cov(u t , u t r s ) 0,s z 0 ,

pero la varianza no permanece constante de observación a observación, estaríamos ante
una situación de heterocedasticidad, es decir, V (u i ) V i2 z V u2 . En este caso la matriz
1
La simetría es una de las condiciones para asegurar que el proceso autorregresivo sea
estacionario.
de varianzas y covarianzas de los errores, 6 , tiene ceros todos sus elementos a

excepción de la diagonal, donde sus elementos cambian a lo largo de ella.
ª V (u12 ) C (u1 , u 2 ) C (u 1 , u n ) º ªV 12 0 0º
« » « 2 »
«C (u1 , u 2 ) V (u 2 ) C (u 2 , u n ) » «0 V 2 0»
V (u ) E (uu ' ) 6
« » « »
« » « »
¬«C (u1 , u n ) C (u 2 , u n ) V (u n ) »¼ ¬« 0 0 V n2 »¼
Obviamente es posible que el término de perturbación pueda mostrar tanto problemas de

heterocedasticidad como de correlación serial. En este caso la matriz de varianzas y
covarianzas de los errores, 6 , será:
ª V (u12 ) C (u1 , u 2 ) C (u1 , u n ) º ª V 12 J1 J n 1 º

« » « »
«C (u1 , u 2 ) V (u 2 ) C (u 2 , u n )» « J1 V 22 J n2 »
V (u ) E (uu ' ) 6
« » « »
« » « »
«¬C (u1 , u n ) C (u 2 , u n ) V (u n ) »¼ «¬J n 1 J n 2 V n2 »¼
Ante la presencia de errores no esféricos la aplicación de Mínimos Cuadrados

Ordinarios produce estimadores insesgados pero ineficientes:
Demostración:
Sea el modelo de regresión
Y XE u (4.13)
El estimador de mínimos cuadrados ordinarios de E es:
Eˆ ( X ' X ) 1 X ' Y (4.14)
Sustituyendo la ecuación (4.14) en (4.13) se tiene:
Eˆ E ( X ' X ) 1 X ' u (4.15)
Donde se prueba que si se mantiene la independiencia entre las variables explicativas y

el término de perturbación, E ( X ' u ) 0 , el estimador de MCO Ê será insesgado.
E ( Eˆ ) E ( X ' X ) 1 E ( X ' u ) E (4.16)
Sin embargo, en presencia de correlación serial, de heterocedasticidad, o de ambos, en

el error, la varianza del estimador de MCO de E , pierde la propiedad de ser la menor
varianza entre todos los estimadores lineales e insesgados.2
2
Esto significa que ante errores no esféricos no se cumple el Teorema de Gauss Markov.
De la ecuación (4.15) se deriva la varianza del estimador de MCO:
V ( Eˆ ) E[( Eˆ E )( Eˆ E )' ] ( X ' X ) 1 X ' E (uu ' ) X ( X ' X ) 1 (4.17)
Si los errores fueran esféricos, es decir, si se cumplen los supuestos de

homocedasticidad y de no autocorrelación de errores, esto es, si E (uu ' ) V u2 I n la
varianza del estimador de MCO de E , será:
V( Eˆ ) V u2 ( X ' X ) 1 (4.18)
Pero en presencia de heterocedasticidad y/o de autocorrelación serial, es decir, con

errores no esféricos, E[uu ' ] 6 , la verdadera varianza del estimador de MCO de E ,
será:
V ( Eˆ ) ( X ' X ) 1 X ' 6X ( X ' X ) 1 z V 2 ( X ' X ) 1 , (4.19)
Demostraremos más adelante que la varianza del estimador de MCO de E en presencia

de errores no esféricos, V ( Eˆ ) ( X ' X ) 1 X ' 6X ( X ' X ) 1 ya no es mínima3, pero,
además, se puede demostrar que cuando existe heterocedasticidad y/o autocorrelación la
estimación de E ignorando dichos problemas, lleva a una varianza artificialmente
pequeña, dado por V ( Eˆ ) V 2 ( X ' X ) 1 . En ese sentido, en presencia de
heterocedasticidad y/o de correlación serial, el estimador de MCO E será insesgado
pero ineficiente (dejan de ser MELI), por lo tanto, los estadísticos t y F obtenidos
utilizando la última varianza no sólo no serán válidas, sino también, las conclusiones
que se extraigan de ellas serán incorrectas.
Dado que la matriz X es una matriz no nula, se cumple que:
V ( Eˆ ) ene ( X ' X ) 1 X ' 6X ( X ' X ) 1 t V ( Eˆ ) V 2 ( X ' X ) 1 (4.20)
Donde V ( Eˆ ) ene es la matriz de varianzas y covarianzas de E con errores no esféricos.
4.5.1 Naturaleza
Con frecuencia, las fuentes de heterocedasticidad y de autocorrelación de errores es la

omisión de variables relevantes en el modelo. Por ejemplo, supongamos que el modelo
correcto fuera:
y XE ZJ u donde : u a N (0; V u2 I n ) (4.21)
3
La varianza mínima será proporcionada por el estimador de mínimos cuadrados
generalizados.
Pero, por alguna razón se estima el modelo
y XE v donde : v a N (T ; 6) (4.22)
En este caso, el modelo (4.22) ha omitido la variable Z, haciendo que el término de

perturbación contenga a dicha variable, v u ZJ . Si la variable omitida es relevente,
el estimador de mínimos cuadrados ordinario de E será un estimador sesgado, pues
X ' Z z 0 . Pero además, el término de perturbación Q de la ecuación (4.22), será
heterocedástico si la variable Z es una variable que tiene una tendencia clara en el
tiempo, es decir, crece o decrece en el tiempo, y presentará correlación serial si la
variable Z fuera una variable estuviera autocorrelacionada en el tiempo.
Luego, la varianza de v será:
V (v) V (u ZJ ) V (u ) V ( ZJ ) V u2 I n J 'V ( Z )J 6 (4.23)
Nótese que la V(v) incluye la varianza del verdadero término de perturbación u, V(u),
pero, además, una matriz de varianza de ZJ no nula que la hace no esférica4. Por lo que
la varianza de v, V(v), será muy sensible al patrón que la forma la variable Z. Por
ejemplo:
Considere que el modelo correcto fuera un modelo dinámico tal como:
yt E 1 E 2 x t E 3 y t 1 H t (4.24)
Pero, erróneamente se estima la ecuación:
yt E 1 E 2 x t E 3y t 2 Q t , (4.25)
Donde Q t E 3 ( y t 1 y t 2 ) H t (4.26)
Se puede demostrar que el término de perturbación Q t , presenta problemas de

correlación serial, debido al error de especificación de la ecuación estimada. Obsérvese
que si se rezaga un periodo la variable Q t se obtiene que:
Q t 1 E 3 ( y t 2 y t 3 ) H t 1 , (4.27)
Por lo tanto, a pesar que E (H t .H t 1 ) 0 , se puede demostrar:
Cov(Q t ,Q t 1 ) cov( E 3 ( y t 1 y t 2 ) H t , E 3 ( y t 2 y t 3 ) H t 1 ) (4.28)

2
Cov(Q t ,Q t 1 ) E 3 cov(( y t 1 y t 2 ), ( y t 2 y t 3 ))
Cov(Q t ,Q t 1 ) z 0
4
El supuesto de independencia del error u con la variable explicativa Z no se ha violado,
E (Z ' u) 0.
De esta manera se demuestra que la ecuación (4.25) presenta problemas de correlación

serial, provocado por la omisión de la variable yt-1. Por lo tanto, los estimadores de
mínimos cuadrados ordinarios de la ecuación (4.25) no sólo serán sesgados, sino
también ineficientes.
4.5.2 Mínimos Cuadrados Generalizados (MCG)
Considere el modelo de regresión general con errores no esféricos:
Y XE u ; u ~ N (0, 6) y 6 z V2In (4.29)
Donde X es una variable no estocástica de rango completo, U(X), es decir, donde todas
las variables explicativas son independientes entre si, e independiente del error
E ( X ' u ) 0 . Asimismo, supongamos que la matriz 6 es una matriz simétrica, definida
positiva, de rango completo e invertible, por lo tanto, no singular.
Supongamos que existe una matriz P simétrica, no nula, que permite transformar la
matriz de varianzas y covarianzas de los erroes no escalares, 6, en una matriz de
varianzas y covarianzas que satisface los supuestos del modelo de regresión clásico. Es
decir, P6P' V u2 I n , por lo tanto:
6P' V u2 P 1 6 V u2 P 1 ( P' ) 1 V u2 ( P' P) 1 6 -1 (V u2 ) -1 P' P (4.30)
Luego, si existe la matriz P se puede pre-multiplicar la ecuación (4.29) por P para tener
la ecuación generalizada:
PY PXE Pu (4.31)
La ecuación generalizada también se puede expresar como:

Y * X *E u* (4.32)
Donde: Y * PY , X * PX , y u * Pu .
Nótese que u* satisface los supuestos del modelo de regresión clásico.

E (u * ) E ( Pu ) PE (u ) 0 , y (4.33)
V (u * ) V ( Pu ) PV (u ) P' P6P' V 2 I (4.34)
Luego, u * Pu ~ N (0, V 2 I ) , es decir, el modelo generalizado satisface los supuestos

del modelo de regresión clásico.
Si se estima por mínimos cuadrados ordinarios a la ecuación generalizada, se obtiene los

estimadores de Mínimos Cuadrados Generalizados (MCG), que serán los Mejores
Estimadores Lineales e Insesgados (MELI).
En la ecuación (4.32) el estimador de mínimos cuadrados generalizados será:

Eˆ * ( X * ' X * ) 1 X * ' Y * (4.35)

Eˆ * ( X ' (V u2 ) -1 P' PX ) 1 X ' (V u2 ) -1 P' PY
Eˆ * ( X ' 6 1 X ) 1 X ' 6 1Y Eˆ MCG
4.5.3 Propiedades de los Estimadores de MCG
Sustituyendo Y* de la ecuación (4.32) en la ecuación (4.35) se tiene:
Eˆ MCG ( X * ' X * ) 1 X * ' ( X * E u * ) (4.36)
Eˆ MCG E ( X * ' X * ) 1 X * ' u * (4.37)
Media de Ê MCG
Tomando la esperanza matemática a la ecuación (4.37) se demuestra que, Ê MCG es un
estimador insesgado de E .
E ( Eˆ MCG ) E ( E ) ( X * ' X * ) 1 X * ' E (u * ) E (4.38)
Varianza de Ê MCG
V ( Eˆ MCG ) E[( Eˆ MCG E )( Eˆ MCG E )' ] ( X * ' X * ) 1 X * 'V (u * ) X * ( X * ' X * ) 1 (4.39)
V ( Eˆ MCG ) ( X * ' X * ) 1 X * ' X * ( X * ' X * ) 1 ( X * ' X * ) 1 (4.40)

I
V ( Eˆ MCG ) ( X ' 6 1 X ) 1 (4.41)
Si la comparamos con la matriz de varianzas y covarianzas de E estimado por MCO

con errores no esféricos, ecuación (4.20) se tiene:
V ( Eˆ ) ene V ( Eˆ MCG ) ( X ' X ) 1 X ' 6X ( X ' X ) 1 ( X ' 6 1 X ) 1 (4.42)
V ( Eˆ ) ene V ( Eˆ MCG ) ( X ' X ) 1 X ' P 1 ( P 1 )' X ( X ' X ) 1 ( X ' P' PX ) 1 (4.43)
V ( Eˆ ) V ( Eˆ MCG ) ( X ' X ) 1 X ' P 1 [ I PX ( X ' P' PX ) 1 X ' P ' ]( P 1 )' X ( X ' X ) 1 (4.44)

z' A z
Dado que A es una matriz semi definida positiva, en una ecuación cuadrática, la
expresión completa también es semi definida positiva. Es decir:
V ( Eˆ ) ene V ( Eˆ MCG ) z ' Az t 0 (4.45)
Por lo tanto, la varianza del estimador de E por MCO será mayor que la varianza del
estimador de E por MCG, en consecuencia, el estimador de E por MCG es el
estimador más eficiente.
4.6 HETEROCEDASTICIDAD
En el análisis de regresión clásico se supone que la varianza del error, y por ende de la
variable endógena, permanece constante a lo largo de toda la muestra, esto hace que la
matriz de varianzas y covarianzas del error sea escalar:
V (u i ) V u V (u ) E (uu ' ) V u I n . Sin embargo, es probable que la dispersión de los
2 2
datos con respecto a la línea de regresión cambie de observación a observación. Si este

cambio es sistemático, es decir, si la varianza muestra una tendencia creciente o
decreciente, será una evidencia clara que la varianza no permanece constante, conocido
como heterocedasticidad, donde la varianza cambia de observación a observación:
V (u i ) V i2 V (u ) E (uu ' ) 6 , sin alterar los otros supuestos del modelo de
regresión clásico.
Y
Y Y
x
x
x x Varianza x x Varianza x Varianza
x decreciente x x constante x x creciente
x x x x x x
x x x
x x x x x x
x xx
x x x x x x x x x
x x
x x x x x x x x x
x x x x x x x
x x x x x x x
x x x x xx x x x x xx x x
x x x x x x x x
x x x
x x x
Z Z Z
(A) Heterocedasticidad (B) Homocedasticidad (C) Heterocedasticidad
Ejemplo 4.3: El rendimiento de la empresa y la escala de planta
En agricultura, la industria y los servicios normalmente se ven afectados por una

variable que se pude calificar como la “habilidad de gestión”. En algunos casos
desarrollar la habilidad de gestión requiere de una escala mínima de planta. Por
ejemplo, en agricultura se observa que los campesinos minifundistas tienen
rendimientos “bajos”, porque para las condiciones en las que tienen que trabajar es lo
máximo que pueden alcanzar. En cambio a medida que el predio aumenta se puede
observar que el rendimiento de los cultivos también mejoran, obviamente hasta ciertos
límites, a partir del cual comienza a operar las “deseconomías de escala”.
Si bien los rendimientos promedios aumentan con el tamaño del predio, la dispersión
de los rendimientos no permanece constante. Se puede observar empíricamente que
exite mucha dispersión en el rendimiento de los pequeños agricultores, es decir, unos
muchos tienen rendimientos considerablemente “altos”, y otro tanto tienen rendimientos
“bajos”, que hacen que el promedio sea “bajo”. A nivel de medianos y grandes
agricultores (muy pocos en el país) el rendimiento es mayor y la dispersión es menor,
probablemente por que la tecnología es más estandarizada y la “habilidad de gestión” se
puede desarrollar a plenitud.
146 Capítulo 4: Violación a los Supuestos del Modelo de Regresión Clásico
Ejemplo 4.4: La fracción gastada en alimentos
De acuerdo a la Ley de Engel, el gasto en alimentos aumenta a ritmo decreciente a

medida que aumenta el ingreso, pero, la fracción gastada en alimentos o porcentaje
gastado en alimentos disminuye a medida que aumenta el ingreso. Sin embargo, la
dispersión de la fracción gastada entre las familias más pobres es mayor con respecto a
la dispersión observada en las familias de ingreso más alto, por lo tanto, la varianza de
la fracción gastada en alimentos no permanece constante con respecto al nivel de
ingreso, el gráfico A de la página anterior, refleja estos hallazgos.
En cualquier caso, la heterocedasticidad se manifiesta cuando la varianza del error no

permanece constante para todas las observaciones.
ªV 12 0 0º
« 2 »
V (u i ) V i2 ; i V (u ) E (uu ' ) 6 « 0 V2 0»
(4.46)
« »
« »
¬« 0 0 V n2 ¼»
O también:
ªV 12 0 0º ª:12 0 0 º
« 2 » « »
« 0 V2 0» 2« 0 : 22 0 »
6 V V 2: (4.47)
« » « »
« » « »
«¬ 0 0 V n2 »¼ «¬ 0 0 : n2 »¼
Si bien la heterocedasticidad está asociada muy frecuente a datos de corte transversal, es

posible que ocurra cuando se trabaja con series de tiempo. En las últimas décadas se han
desarrollado modelos heterocedasticos con varianza autorregresiva tales como los
modelos de Heterocedaticidad condicional autorregresiva o modelos ARCH (Auto-
Regressive Conditional Heteroskedasticity) y sus variantes:
x Modelos ARCH en la Media (ARCH-M)

x Modelo Generalizado ARCH (GARCH)
x Modelos Generalizados Umbral (Threshold GARCH o TGARCH)
x Modelo Exponenciales Generalizados del ARCH (EGARCH).
Al final de esta sección se hará una breve presentación de cada uno de estos modelo.
4.6.1 Causas de la Heterocedasticidad
Se puede tener dos tipos de causas, puras e impuras. Las causas puras ocurren cuando la
heterocedasticidad es producto de factores puramente aleatorios que genera que la
varianza cambie de observación en observación, es decir, la heterocedasticidad es
producto de la volatilidad imprevista de las series, por ejemplo:
x La heterocedasticidad ocurre en datos en los cuales hay diferencias sustanciales

entre los valores observados más pequeños y más grandes. Como es el caso de
comparar diferentes países, diferentes familias, diferentes productores, etc.
x La heterocedasticidad es producto de shocks externos que no son captados por el
modelo, en especial los ocurridos en la Bolsa de Valores, producto del “efecto
tequila”, la crisis asiática, la crisis rusa o cualquier otro que genera volatilidad
inusual en la Bolsa.
x Finalmente, errores de medida de las variables suele generar heterocedasticidad no
controlable por el modelista.
En cambio, las causas impuras de la heterocedasticidad ocurren cuando el modelo

presenta algún sesgo de especificación, que hace que el término de pertubación tenga un
comportamiento sistemático y no puramente aleatorio, los casos más frecuentes de
heterocedasticidad ocurren cuando el econometrista comete errores de especificación
del modelo de regresión, producto de la omisión de variables o de la especificación
incorrectamente el modelo (planteado como lineal cuando el modelo correcto es no
lineal).
Ejemplo 4.5: Importaciones entre países
Considere datos de corte transversal de importaciones entre varios países de América

Latina. Suponga que el modelo verdadero es:
(1) Mi = b0 + b1GDPi + b2PRi + ei

Donde: Mi = importaciones de la i-ésima nación (miles de millones de dólares)
GDPi = PBI de la i-ésima nación (miles de millones de dólares)
PRi = Precios domésticos relativos a los precios internacionales para los
bienes normalmente importados por la i-ésima nación.
Suponga ahora, que por alguna razón se omitió como variable explicativa al PBI (GDP)
y se estimó el modelo el modelo restringido:
(2) Mi = b0 + b2PRi + ui
En este caso queda claro que la omisión de la variable GDP lleva a que los errores
tenga la forma:
(3) ui = ei + b1GDPi
• Dado que los precios relativos PR (costo de oportunidad) difícilmente servirán como
una buena variable proxi de la variable GDP (variable de escala), entonces ui debe
incorporar el efecto de la variable omitida.
• El efecto de la variable omitida será aumentar la varianza de ui en especial para los
países más grandes, pues sus valores estarán asociados a los valores del GDP.
• Por lo tanto, la omisión de la variable GDP ha generado que ui sea heterocedástica.
V(ui) = V(ei) + b21V(GDPi).
4.6.2 Consecuencias de la Heterocedasticidad
1. Los estimadores de mínimos cuadrados de Ê siguen siendo insesgados y

consistentes, pero ya no son eficientes.
Sea el modelo: Y XE u con V (u ) E (uu ' ) V 2 ¦ z V u2 I n . Los estimadores de

MCO de E , Ê , es Eˆ ( X ' X ) 1 X ' Y E ( X ' X ) 1 X ' u , luego:
La media de Ê por MCO:
E ( Eˆ ) E ( X ' X ) 1 E ( X ' u ) E (4.48)
E ( Eˆ ) E . Por lo tanto, Ê es un estimador insesgado.
X 'u
Si X y u son asintóticamente independientes, es decir, el p lim( ) 0 , Ê es un
n
estimador consistente de E .
1
ªX'X º X 'u
p lim( Eˆ ) E p lim « p lim( ) E (4.49)
¬ n »¼ n
La varianza de Ê de MCO:
V ( Eˆ ) >
E ( Eˆ E )( Eˆ E )' @ ( X ' X ) 1 X ' E (uu ' ) X ( X ' X ) 1 (4.50)
En caso de heterocedasticidad la varianza de u es: V (u ) E (uu ' ) ¦ V 2:

Por lo tanto, la varianza de Ê será:
V ( Eˆ ) ( X ' X ) 1 X ' ¦ X ( X ' X ) 1 (4.51)
o también:
V ( Eˆ ) V 2 ( X ' X ) 1 X ' :X ( X ' X ) 1 V ( Eˆ ) C H

(4.52)
Sin embargo, como se demostrara en la sección anterior, la varianza mínima de Ê * se

obtiene por el método de Mínimos Cuadrados Generalizados (MCG) que es:
V ( Eˆ *) ( X ' ¦ 1 X ) 1 V 2 ( X ' :X ) 1 (4.53)
Donde:
V ( Eˆ *) V ( Eˆ ) (4.54)
2. La varianza de Ê obtenida por MCO sin considerar la heterocedasticidad en los

errores es sesgada, inconsistente y artificialmente pequeña.
En caso de omitir la heterocedasticidad la varianza de u es: V (u ) E (uu ' ) V u2 I n . Por

lo tanto, la varianza de Ê será:
V ( Eˆ ) ( X ' X ) 1 X 'V u2 I n X ( X ' X ) 1 (4.55)

V ( Eˆ ) V 2 ( X ' X ) 1 V ( Eˆ )
u S H (4.56)
En cambio en presencia de heterocedasticidad la varianza de u es:

V (u ) E (uu ' ) ¦ V 2 : . Por lo tanto, la varianza de Ê será:
V ( Eˆ ) (X ' X ) 1 X '¦ X (X ' X ) V 2 ( X ' X ) 1 X ' :X ( X ' X ) 1 V ( Eˆ ) C H

1
(4.57)
Dado que ¦ o : son matrices definidas positiva, la varianza de Ê de MCO obtenido

ignorando la presencia heterocedasticidad subestima la verdadera varianza considerando
la heterocedasticidad de los errores, es decir:
V ( Eˆ )C H ! V ( Eˆ ) S H . (4.58)
3. Los estadísticos t y F que utilizan la varianza de Ê ignorando la presencia

heterocedasticidad de errores no serán válidos y las conclusiones con respecto a las
hipótesis que quieren probar tampoco lo serán.
Estadístico t Estadístico F
Eˆ j
t Eˆ
j s Eˆ
j
s Eˆ V 2 b jj §¨ t ·¸
2
j FEˆ
j © Eˆ j ¹
Donde:
b jj es el elemento j-ésimo de la diagonal de la matriz
( X ' X ) 1 . Lo correcto sería incluir el elemento de la
diagonal de la matriz ( X ' X ) 1 X ' :X ( X ' X ) 1 .
La conclusión evidente es que en presencia de heterocedasticidad las pruebas t y F serán

artificialmente “grandes”, es decir, porque el error estándar de los estimadores es
artificialmente pequeña, lo que llevará a “rechazar” la hipótesis nula con mayor
frecuencia, dando significación que no le corresponden a los estimadores de los
parámetros del modelo.
4. Las predicciones de Yt , Yˆt , utilizando los resultados de MCO son sesgados e

inconsistentes, por lo tanto ya no son válidos.
Supongamos que el modelo fuera: Yi E 1 E 2 X i u i donde V (u i ) V i2 . El modelo

por MCO estimado sería: Yî Eˆ1 Ê 2 X i . Luego el pronóstico sería. Yˆp Eˆ1 Eˆ 2 X p .
ª 1 ( X p X )2 º
El error estándar del pronóstico sería: s 2 2
V uˆ «1
ˆ p » . Obviamente, si la
¬« n ¦x
2
¼»
varianza del error es incorrectamente calculada, el error estándar del pronóstico tendrá
el mismo sesgo.
4.6.3 Detección de la Heterocedasticidad
Sabiendo que las causas de la heterocedasticidad son diversas, a modo de ilustración se

presentan tres casos, en los que la heterocedasticidad parece no ser marcada, sin
embargo, como veremos más adelante hay una alta probabilidad de que esto ocurra.
Sesgo de especificación: La omisión de variables o la especificación incorrecta del

modelo llevan a residuos con el siguiente patrón de comportamiento, observándose una
tendencia en los residuos y no un comportamiento estacionario.
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
50 100 150 200 250 300 350 400
Residuals
Cambio estructural: Cuando las observaciones expresan un cambio de régimen, los

residuos tienen a salirse de la dispersión regular al momento del quiebre.
1.2
0.8
0.4
0.0
-0.4
-0.8
78 79 80 81 82 83 84 85 86 87
Residuals
Cambios completamente aleatorios: Los cambios en las cotizaciones de los activos en

la bolsa de valores tienden a presentar comportamiento con dispersiones aleatorias muy
frecuentes.
0.2
0.1
0.0
-0.1
-0.2
-0.3
78 79 80 81 82 83 84 85 86 87
'IBL
a) Inspección visual de los residuos
Si se reordena los datos de la variable dependiente o se plotea los cuadrados de los

residuos u 2j contra alguna de las variables que se sospecha es fuente de
heterocedasticidad se notará rápidamente que la dispersión de los datos o los residuos
toman una tendencia creciente o o decreciente.
û û
2 2
x x
x
x x x xx
xx x x x x
x x
x x x xx x xx x x x
x xx x x x x xx x x x
x x xx xx x xx x x x x x
x x xx x xx xx x x
x x x xx xx x xx x x xx xx x xx x xx x
0 x x xx x xx x x x
x 0 x x xx x xx x x
Z Z
(A) Varianza Decreciente (B) Varianza Creciente
b) Test de Goldfeld & Quandt
El Test parte del supuesto que en la muestra existen dos grupos muy diferenciados de
observaciones (por ejemplo debido al sexo, raza, escala de planta, niveles de ingreso,
etc.) en los que en cada grupo se observa dispersión de los errores lo suficientemente
diferentes que pudiera derivan en varianzas diferentes.
El test de Goldfeld & Quandt es entonces un test de homogeneidad de varianzas. Si las

evidencias muestran que no es posible sostener la homogeneidad de varianzas implica la
presencia de heterocedasticidad.
Procedimiento:
Paso 1: Ordenar las observaciones tomando como referencia la variable que se sospecha
es fuente de la heterocedasticidad, de menor a mayor.
Paso 2: Eliminar las d observaciones centrales, considerando que d | n / 5 ,

redondeando para que las n-d observaciones restantes sea un número par y dividir en
dos submuestras de tamaño (n d ) / 2 observaciones.
Paso 3: Estimar por mínimos cuadrados ordinarios dos líneas de regresión, uno para
cada sub-muestra y obtener los residuos de cada modelo de regresión.
Y1i X 1 Eˆ1 uˆ1i con (n d ) / 2 observaciones.
Y2i X 2 Eˆ 2 uˆ 2i con (n d ) / 2 observaciones.
Paso 4: Probar la hipótesis nula

Si GQ < F* (crítico)
H 0 : V 12 V 22
GQ
SC Re s 2 ¦ uˆ 22i a F se acepta la Ho de
nd nd Homocedasticidad. Si GQ > F*
SC Re s1 ¦ uˆ12i k , k
H 1 : V 12 z V 22 2 2 se concluye hay
Heterocedasticidad
c) Test de White
Es equivalente a un test de multiplicador de Lagrange para muestras grandes, en el que

se supone que la varianza sigue un esquema cuadrático en función a todas las variables
explicativas del modelo. Por ejemplo, supongamos el siguiente modelo de regresión:
(1) Yi E 1 E 2 X 2 i E 3 X 3i u i
La varianza se plantea como el polinomio de segundo grado:

(2) V i2 J 1 J 2 X 2i J 3 X 3i J 4 X 22i J 5 X 32i J 6 X 2i X 3i vi
Procedimiento:
Paso 1: Estimar por mínimos cuadrados ordinarios la ecuación (1) y obtener los
residuos.
(3) u i Yi Eˆ1 Eˆ 2 X 2i Eˆ 3 X 3i
Paso 2: Estimar por mínimos cuadrados ordinarios la regresión auxiliar y obtener el

R AUX
2
.
(4) uˆ i2 J 1 J 2 X 2i J 3 X 3i J 4 X 22i J 5 X 32i J 6 X 2i X 3i vi
Paso 3: Probar la hipótesis nula

W N * R AUX2
a F P2 1
Si W F P2 1 (crítico) se
H 0 :J 2 J 3 J 6 0 Donde: p k (k 1) y k es el acepta la Ho de
H 1 : al menos un J j es 2 Homocedasticidad. Si
número de pendientes del W ! F 2 se concluye hay
diferente de cero. P 1
modelo auxiliar. En el
Heterocedasticidad.
ejemplo p=5 grados de
libertad.
El problema del test de White es que puede tener problemas de colinealidad y de grados
de libertad si el modelo correcto incluye muchas variables explicativas. El problema de
multicolinealidad se puede dar entre los términos lineales y o entre los términos
cuadráticos, pero para los fines de heterocedasticidad se pueden ignorar.
4.6.4 Corrección de la Heterocedasticidad
a) Mínimos Cuadrados Generalizados Factibles (MCGF)
Sea el modelo: Yi E 1 E 2 X 2i E 3 X 3i E k X ki u i , donde E (u i2 ) V i2 ; i . O lo

que es lo mismo, Y XE u con V (u ) E (uu ' ) 6 , si suponemos que V 2 1,
entonces:
1
ªV 12 0 0º ª p12 0 0º
« » « »
0 V 22 0» «0 p 22 0» 1
6 V 2 ( P' P) 1 « pi (4.59)
« » « » Vi
« » « »
¬« 0 0 V n2 ¼» ¬« 0 0 p n2 ¼»
Donde P es la matriz que permite transformar la matriz no esférica en una esférica con
varianza igual a 1. Por lo tanto, el modelo de regresión generalizado será:
Pi Yi Pi E 1 E 2 Pi X 2i E 3 Pi X 3i E k Pi X ki Pi u i (4.60)
Yi 1 X 2i X 3i X ki ui
E1 E2 E3 Ek
Vi Vi Vi Vi Vi Vi
Yi * E 1 X 1*i E 2 X 2*i E 3 X 3*i E k X ki* u i*

Donde el error modelo generalizado (u*) satisface los supuestos del análisis de
regresión clásico, por lo que, los estimadores de mínimos cuadrados ordinarios son
MELI, de igual modo la varianza estimada será insesgada. Por lo tanto, las pruebas de
hipótesis y las conclusiones que de ella se derivan serán válidas.
§u · Var u i V i2
Var (u i* ) Var ¨¨ i ¸¸ 2
1 V2 (4.61)
©Vi ¹ V i V i2
b) Determinación del ponderador Adecuado
Un problema empírico para corregir la heterocedasticidad es que no se conoce el patrón

que genera que la heterocedasticidad, sin embargo, se presenta a continuación algunas
aproximaciones para estimar la varianza del error o la variable que servirá de
ponderador.
Caso 1: Heterocedasticidad multiplicativa con un factor proporcional conocido
Sea Z la variable que genera la heterocedasticidad, se plantea algunas especificaciones

que funcionan como patrón generador de la heterocedasticidad:
Varianza del error Error estándar Ponderador

1
Var (u j ) V i2 V 2 (Z i ) 2 Vi VZ i Pi
Zi
1
Var (u i ) V i2 V 2Zi Vi V Zi Pi
Zi
Caso 2: Aproximación de White
(1) Yi E 1 E 2 X 2 i E 3 X 3i u i .
Se estima por MCO la ecuación (1) y se obtienen los residuos
(2) uˆ i Yi Eˆ1 Eˆ 2 X 2i Eˆ 3 X 3i
Bajo el esquema de White modificado el estimador consistente de la varianza del error

tiene la siguiente especificación logarítmica (esto para evitar que haya pronósticos
negativos de uˆ i2 ):

(3) log(Vˆ i ) | log(uˆ i ) Jˆ1 Jˆ 2 X 2i Jˆ 3 X 3i Jˆ 4 X 22i Jˆ 5 X 32i Jˆ 6 X 2i X 3i
2 2
Luego de despejar uˆ i2 | Vˆ i2 se obtiene:

Jˆ1 Jˆ 2 X 2 i Jˆ3 X 3 i Jˆ 4 X 22i Jˆ5 X 32i Jˆ6 X 2 i X 3 i
(4) Vˆ i2 | uˆ i2 e
Por lo tanto el ponderador P que se utilizará en mínimos cuadrados ponderados será:

1 1 1
(5) Pi
|
e Jˆ1 Jˆ2 X 2 i Jˆ3 X 3i Jˆ4 X 2 i Jˆ5 X 3i Jˆ6 X 2 i X 3i
2 2
Vˆ i2 uˆ i2
4.6.5 Casos especiales en Heterocedasticidad:
En las últimas décadas se han desarrollado modelos heterocedasticos con varianza

autorregresiva tales como los modelos de Heterocedaticidad condicional autorregresiva
o modelos ARCH (Auto-Regressive Conditional Heteroskedasticity) y sus variantes:
x Modelos ARCH en la Media (ARCH-M)

x Modelo Generalizado ARCH (GARCH)
x Modelos Generalizados Umbral (Threshold GARCH o TGARCH)
x Modelo Exponenciales Generalizados del ARCH (EGARCH).
a) Modelos de Heterocedasticidad Condicional Autorregresiva ARCH(p)
(Engle, 1982)5, luego de analizar las cotizaciones de los activos financieros negociados
en la Bolsa de Valores encuentra períodos con una alta volatilidad de los precios y otros
períodos donde las cotizaciones permanecen relativamente constantes. Sobre la base de
estos hallazgos plantea que si los agentes económicos maximizan una función de
utilidad intertemporal bajo un esquema de expectativas racionales, es posible encontrar
una explicación a la persistencia de la volatilidad por varios períodos. En ese sentido, la
varianza del período t se forma a partir de toda la información existente sobre la
volatilidad de las cotizaciones, por ejemplo:
Sea le modelo de regresión general:
Yt E 1 E 2 X 2t E 3 X 3t E k X kt u t (4.62)
La especificación de la Heterocedásticidad Condicional Autorregresiva de orden

p[ARCH(p), Auto-Regressive Conditional Heteroskedasticity], es:
V t2 D 0 D 1u t21 D 2 u t2 2 D p u t2 p H t (4.63)
V t2 V (u t u t 1 , u , t 2 , , u t p ) (4.64)
V t2 E (u t2 u t 1 , u , t 2 , , u t p ) (Hipótesis de expectativas racionales) (4.65)
V t2 E (u t2 :) (4.66)
V t2 Et 1 (u t2 ) (4.67)
5
Engle, Robert F. (1982) “Autoregressive Conditional Heteroskedasticity with Estimates of the
Variance of U.K. Inflation,” Econometrica, 50, 987–1008.
a.1) Detección del ARCH
Paso 1: Estimar por MCO la ecuación (4.62) y computar los residuos estimados.
Paso 2: Estimar por MCO la regresión auxiliar ARCH(p) utilizando uˆ t2 contra sus p
rezagos y compute su R2.
uˆ t2 D 0 D 1uˆ t21 D 2 uˆ t2 2 D p uˆ t2 p H t (4.68)
Paso 3: Probar la hipótesis de ARCH(p)

Si Q d F * (crítico) se acepta
2 2
p
H 0 : D1 D2 Dp 0 la Ho de homocedasticidad.
Q2 (n p ) R AUX
2
a F 2p
H 1 : al menos unD z 0 Si Q 2 ! F 2p * se rechaza Ho,
luego existe un ARCH(p)
Para garantizar que el proceso ARCH(p) es un proceso estacionario, las raíces

características del polinomio deben caer fuera del círculo unitario.
a.2) Corrección de la Heterocedasticidad con ARCH(p)
Paso 1: Estimar por MCO el modelo de regresión (4.62) y computar los residuos
estimados al cuadrado ut2 .
Paso 2: Estimar la varianza ARCH(p) mediante la regresión auxiliar (4.68). Utilice los

valores predichos por la regresión auxiliar uˆ para construir Vt2 . 2
t
Paso 3: Estimar por Mínimos Cuadrados Ponderados la ecuación (4.62), es decir, la
ecuación (4.60), utililizando como ponderador Pt 1
V̂ t
Los coeficientes estimados en el paso 3, son consistentes y eficientes, las varianzas
estimadas son consistentes si la hipótesis es correcta. Un problema crítico ocurre cuando
se tiene valores negativos en los pronósticos del paso 2.
b) Otros Modelos de Heterocedasticidad Condicional Autorregresiva
b.1) Modelos Generalizado de Heterocedasticidad Condicional Autorregresiva

GARCH(p,q)6
La especificación de la Heterocedásticidad Condicional Autorregresiva de orden

p[ARCH(p), Auto-Regressive Conditional Heteroskedasticity], es:
V t2 D 0 D 1u t21 D 2 u t2 2 D p u t2 p E 1V t21 E 2V t2 2 E qV t2 q H t (4.69)
6
Bollerslev, Tim (1986). “Generalized Autoregressive Conditional Heteroskedasticity,” Journal
of Econometrics 31, 307–327.
Esta especificación sugiere que los agentes forman sus expectativas sobre la varianza
del error como un promedio ponderado de un término de largo plazo( D 0 ) y las
varianzas recientes V t2 j y las volatilidades recientes u t2k .
b.2) Modelos de Heterocedasticidad Condicional Autorregresiva en la Media,

ARCH-M(p)7
La especificación de la ARCH-M(p) incluye cambios en la regresión (4.62) de la

siguiente manera:
Yt X t' E JV t2 u t (4.70)
V t2 D 0 D 1u t21 D 2 u t2 2 D p u t2 p X t' E * H t (4.71)
b.3) TGARCH8 o GARCH Umbral (p,q)
El modelo de regresión sigue siendo representada por la ecuación (4.62) y la varianza

por:
V t2 D 0 D 1u t21 D p u t2 p E 1V t21 E qV t2 q Ju t 1 Dt 1 H t (4.72)
Donde Dt 1 si u t ! 0()
Dt 0 en otro caso
b.4) EGARCH9 o GARCH Exponencial (p,q)
El modelo de regresión sigue siendo representada por la ecuación (4.62) y la varianza

para un EGARCH(1,1) se expresa por:
u t 1 §u ·
log V t2 D 0 E 1 log(V t21 ) D 1 J ¨¨ t 1 ¸¸ H t (4.73)
V t 1 © V t 1 ¹
Si J z 0 la influencia es asimétrica.
7
Engle, Robert F., David M. Lilien, and Russell P. Robins (1987) “Estimating Time Varying Risk
Premia in the Term Structure: The ARCH-M Model,” Econometrica 55, 391–407.
8
Zakoian, J.M. (1990) “Threshold Heteroskedastic Models,” manuscript, CREST, INSEE, Paris.
9
Nelson, Daniel B. (1991) “Conditional Heteroskedasticity in Asset Returns: A New Approach,”
Econometrica, 59, 347–370.
4.7 AUTOCORRELACIÓN
La autocorrelación o la correlación serial, en el contexto de series de tiempo, significa
que el error de un período de tiempo t depende de manera sistemática del error de otro
período distinto, en sentido, viola el supuesto de no correlación no contemporánea de
los errores, esto es, cuando en el modelo de regresión Y XE u no se cumple el
supuesto E[u t u t r s ] 0 ; s z 0 . Por lo tanto, se dice que los errores no se comportan
como un ruido blanco (white noise).
Una serie de tiempo u1 , u 2 , u 3 , , u t es llamada ruido blanco si u t a iid (0, V 2 ,0) , esto
es:
(1) E[u t ] 0 (media cero)

(2) E[u t2 ] V 2 (varianza constante)
(2) E[u t u t r s ] 0; s z 0 (covarianza cero)
En el modelo de regresión clásico, se supuso que los errores son variables aleatorias
independientes e idénticamente distribuidas, u t a NID(0, V 2 ,0) , por lo tanto, se supuso
que el error era un ruido blanco gaussiano.
La autocorrelación de una serie de tiempo es el coeficiente que mide el grado de

asociación lineal entre la variable aleatoria en el momento t y la misma variable
aleatoria en otro momento s períodos antes o después ( t r s ).
E (u t u t r s ) C (u t u t r s )
Uj (4.74)
E (u t2 ) V (u t )
Como todo coeficiente de correlación simple sus valores estarán en el rango,

1 d U d 1 , la autocorrelación será positiva, si tras un error negativo le sigue otro
negativo o viceversa, pero, la autocorrelación será negativa si a un error negativo le
sigue de signo contrario.
AUTOCORRELACION POSITIVA AUTOCORRELACION NEGATIVA

4 6
ût û t
4
2
2
0 0
-2
-2
-4
-4 -6
700 710 720 730 740 750 760 770 780 790 800 700 710 720 730 740 750 760 770 780 790 800
residuos residuos
En general las variables económicas tienen un carácter dinámico por lo que cualquier
variable presenta algún grado de autocorrelación de errores, por ejemplo, si el PBI de la
economía en el presente período se contrae, es muy probable que la contracción
continuará en el siguiente en los siguientes períodos, de igual modo, si en el presente
período se inicia un proceso de expansión es probable que dicha expansión continuará.
La explicación de dicho fenómeno no tiene nada que ver con otras variables, sino
solamente porque los errores están correlacionados.
En el modelo de regresión clásico el supuesto de no autocorrelación, garantiza que la

matriz de varianzas y covarianzas sean escalares, esto es, E[uu ' ] V u2 I n , sin embargo,
en presencia de correlación serial, la matriz de varianzas y covarianzas de los errores
será: E[uu ' ] 6 V 2 : , la misma que se puede expresar de la siguiente manera:
ª Jo J1 J n 1 º ª 1 U1 U n 1 º
«J J0 J n 2 »» « U 1 U n 2 »»
V (u ) E (uu ' ) 6 « 1 J0« 1 (4.75)
« » « »
« » « »
¬J n 1 J n 2 J0 ¼ ¬ U n 1 U n 2 1 ¼
Donde:
Jj C (u t , u t j )
Uj (4.76)
J0 V (u t )
El valor o forma de cada uno de los elementos U j está supeditado al tipo de proceso
autorregresivo (AR) que se observa en el modelo.
Según la estructura del proceso autorregresivo (AR) se puede tener, procesos

autorregresivos de primer orden, de segundo orden o de orden superior (orden p), de
modo que la matriz : tendrá distintas formas según el tipo de proceso autorregresivo.
Asimismo, es preciso diferenciar el contexto en el que aparece el proceso

autorregresivo, es decir, según el tipo de modelo de regresión utilizado. En general se
puede dividirlos en modelos estáticos y en modelos dinámicos, de este último nos
interesa un tipo de modelos donde alguno(s) de los regresores es la variable dependiente
rezagada. Este modelo es por su naturaleza de regresores estocásticos.
Entre los casos más importantes podemos resumirlo en el siguiente cuadro:
Proceso Modelo Especificación

(1)Yt E 1 E 2 X 2t E k X kt u t
Estático (2) u t Uu t 1 H t
(3) H t a Rb(0, V 2 ,0)
AR(1)
Dinámico (1)Yt E 1 E 2 X 2t E k X kt JYt 1 u t
con (2) u t Uu t 1 H t
regresor 2
estocástico (3) H t a Rb(0, V ,0)
Proceso Modelo Especificación

Estático (2) u t U1u t 1 U 2 u t 2 U 3u t 3 U p u t p H t
(3) H t a Rb(0, V 2 ,0)
AR(p)
Dinámico (1) Yt E 1 E 2 X 2t E k X kt JYt 1 u t
con (2) u t U1u t 1 U 2 u t 2 U 3u t 3 U p u t p H t
regresor 2
estocástico (3) H t a Rb(0, V ,0)
Por ejemplo, si los errores ut siguen un proceso autorregresivo de primer orden, AR(1),
su distribución tendrá las siguiente características:
ut Uu t 1 H t , U 1 (4.77)
u t U Lu t H t (1 UL)u t He
Donde L el operador de rezago, es decir, Lu t u t 1 , Ls u t u t s , etc.
Dividiendo ambos lados por (1 U L) se obtiene:

Ht f
ut (1 U L U 2 L2 U 3 L3 )H t ¦ U s H t s (4.78)
(1 U L) s 0
Donde (1 U L) 1 1 U L U 2 L2 U 3 L3 . Si U 1 , (1 U L) 1 tiene un valor finito

(condición de estacionariedad).
Por lo tanto:
§f · f
E (u t ) E ¨¨ ¦ U s H t s ¸¸ ¦ U s E (H t s ) 0 (4.79)
©s 0 ¹ s 0
2
§f · §f · f
V (u t ) V ¨¨ ¦ U s H t s ¸¸ E ¨¨ ¦ U s H t s ¸¸ ¦ U 2 s E (H t2 s ) V 2 ¦ U 2 s (4.80)
©s 0 ¹ ©s 0 ¹ s 0 s 0
Dado que C (H t , H t s ) E (H t , H t s ) 0 . Por lo tanto:

V2
V (u t ) J0 (4.81)
1 U2
Para calcular las covarianzas entre ut y ut 1 se multiplicará la ecuación (4.77) por ut-1,
esto es:
u t u t 1 U u t21 H t u t 1
Luego, su expectativa será:

2 2 UV 2
E (u t u t 1 ) C (u t u t 1 ) J1 UE (u ) E (H t u t 1 )
t 1 UV (u t ) UV u (4.82)
1 U 2
V2
Porque, E (u t21 ) V (u t 1 ) V (u t ) V u2 (por 4.81) y E(H t ut 1 ) 0 (porque ut-1
1 U 2
es solo función de H t 1 , H t 2 , H t 3 , y no estará correlacionado con H t .
Por lo tanto, la autocorrelación entre ut y ut 1 será:

C (u t , u t 1 )
U (u t u t 1 ) U1 U (4.83)
V (u t )
Luego las covarianzas y autocorrelaciones entre ut y ut-2 serán:
U 2V 2
E (u t u t 2 ) UE (u t u t 1 ) E (H t u t 2 ) UE (u t , u t 1 ) (4.84)
1 U2
UE (u t , u t 1 ) U [ UV 2 /(1 U 2 )]
U (u t u t 2 ) U2 (4.85)
V (u t ) V 2 /(1 U 2 )
De igual manera, las autocorrelaciones de orden superior serán: U s UE (u t u t s ) U s .

Es decir, en un proceso AR(1) que satisface la condición de estacionariedad, U 1 , la
autocorrelación decaerá rápidamente a medida que s o f .Por ejemplo si U 0.5 se
observará el siguiente gráfico:
Us
Autocorrelaciones Valor 1
0 U0 1
1 U -0.5
2
2 U 0.25
3 U3 -0.125
4 U4 0.0625
0 3
5 U5 -0.03125 2 4 s
0 1
6 U6 0.015625
7
7 U -0.0078125
8 U8 0.00390625
9
9 U -0.001953125
10
10 U 0.0009765625 -1
Si el proceso autorregresivo es de primer orden, AR(1), la matriz de varianzas y

covarianzas de u quedará expresado de la siguiente manera:
ª Jo J1 J n 1 º ª 1 U1 U n 1 º
«J « 1 »
J0 J n 2 »» V2 « U 1 U n2 »
E (uu ' ) 6 «
1
V (u ) V 2 : (4.86)
« » 1 U2 « »
« » « n 1 »
¬J n 1 J n 2 J0 ¼ ¬« U U n2 1 ¼»
Luego,
ª 1 U1 U n 1 º
« »
1 « U1 1 U n2 »
: (4.87)
1 U2 « »
« n 1 »
¬« U U n2 1 ¼»
Si el proceso autorregresivo fuera de segundo orden, AR(2): u t U1u t 1 U 2 u t 2 H t , o

de orden superior AR(p): u t U1u t 1 U 2 u t 2 U 3u t 3 U p u t p H t , las matrices
de varianzas y covarianzas y las autocorrelaciones serían completamente distintas.
4.7.1 Causas de la Autocorrelación
Existen dos tipos de causas puras e impuras. Esta distinción es en el mejor de los casos
arbitraria. Se entiene como causas puras de la autocorrelación cuando son producidas
por la naturaleza dinámica de las variables económicas, en cambio se entiende como
causas impuras a aquellas debidas a la impericia del modelista, esto es, haber omitido
variables, haber especificado incorrectamente el modelo, etc.
x Omisión de variables: si se omite una variable explicativa en el modelo, se genera

errores sistemáticos con alta correlación serial, debido a que la variable omitida
siempre estará presente en el error del modelo. Por ejemplo, supongamos que el
modelo correcto fuera:
(1) Yt E 1 E 2 X 2t E 3 X 3t H t
Sin embargo, por alguna razón se omite o elimina la variable X3, estimándose el
modelo:
(2) Yt E 1 E 2 X 2t u t
Como consecuencia de esto:
(3) u t E 3 X 3t H t . Donde, H t a Rb(0, V 2 ,0)
Pero, es muy probable que X 3t esté correlacionada sus valores en el pasado, es decir,
E[ X 3t X 3t s ] z 0 .
u t u t 1 ( E 3 X 3t H t )( E 3 X 3t 1 H t 1 ) E 32 X 3t X 3t 1 E 3 X 3t H t 1 E 3 X 3t 1H t H t H t 1
E[u t u t 1 ] E 32 X 3t X 3t 1 E 3 E[ X 3t H t 1 ] E 3 E[ X 3t 1H t ] E[H t H t 1 ]
E[u t u t 1 ] E 32 X 3t X 3t 1
En consecuencia, E[u t u t 1 ] z 0 ; s z 0 .
x Sesgo de especificación: si se ignora las no linealidades de un modelo (forma

funcional incorrecta), los residuos mostrarán un patrón sistemático. Por ejemplo,
supongamos que el modelo correcto fuera:
(1) Yt E 1 E 2 X t E 3 X t2 H t
Sin embargo, por alguna razón se omite o elimina la variable X2t, estimándose el
modelo:
(2) Yt E1 E 2 X t ut
Como consecuencia de esto:
(3) u t E 3 X t2 H t . Donde, H t a Rb(0, V 2 ,0)
Pero, es muy probable que X t2 esté correlacionada sus valores en el pasado, es decir,
E[ X t2 X t2s ] z 0 .
u t u t 1 ( E 3 X t2 H t )( E 3 X t21 H t 1 ) E 32 X t2 X t21 E 3 X t2 H t 1 E 3 X t21H t H t H t 1
E[u t u t 1 ] E 32 X t2 X t21 E 3 E[ X t2 H t 1 ] E 3 E[ X t21H t ] E[H t H t 1 ]
E[u t u t 1 ] E 32 X t2 X t21
En consecuencia, E[u t u t 1 ] z 0 ; s z 0 .
x Errores de medida: los errores en la medición de las variables explicativas

principalmente, pero también de la variable dependiente producen autocorrelación,
por más que los errores sean aleatorios. Por ejemplo, supongamos que el modelo
fuera:
(1) Yt E1 E 2 X t ut
Pero, que por alguna razón las variables X e Y se miden con error, por ejemplo, porque
las variables no están claramente definidas o porque sus datos no existen y se utiliza un
“proxi”, dados por:
(2) Yt Yt* u ty ; X t X t* u tx ; u ty a Rb(0, V u2y ,0) ; u tx a Rb(0, V u2x ,0)
En consecuencia se puede demostrar que ante errores de medida se observará

covarianzas no nulas en los errores y correlación serial de errores.
ut Yt E 1 E 2 X t (Yt* u ty ) E 1 E 2 ( X t* u tx )
u t u t 1 (Yt* u ty E 1 E 2 X t* u tx )(Yt*1 u ty1 E 1 E 2 X t*1 u tx1 )

u t u t 1 Yt*Yt*1 u ty Yt*1 E 1Yt*1 E 2 X t*Yt*1 Yt*1u tx Yt*u ty1 u ty u ty1 E 1u ty1

E 2 X t*u ty1 u tx u ty1 E 1Yt* E 1u ty E 12 E 1 E 2 X t* E 1u tx E 2Yt* X t*1
E 2 X t*1u ty E 1 E 2 X t*1 E 22 X t* X t*1 E 2 X t*1u tx Yt*u tx1 u ty u tx1 E 1u tx1
E 2 X t* u tx1 u tx u tx1
Si E (u ty ) E (u tys ) E (u tx ) E (u txs ) 0; E[u ty u ty1 ] E[u ty utys ] E[u tx u tx1 ] E[u tx u tx s ] 0 , la
covarianza de errores es:
E (u t u t 1 ) Yt*Yt*1 E 1Yt*1 E 2 X t*Yt*1 E 1Yt* E 12 E 1 E 2 X t* E 2Yt* X t*1

E 1 E 2 X t*1 E 22 X t* X t*1 z 0
Ejemplo 4.6: Salarios y la edad de los economistas

Salario
En general los salarios de una persona, entre
otras variables, depende de la edad. La edad
resume la experiencia, capacitación y otros x
factores que contribuyen significativamente a x x x x x
x x xx x xxx x
la formación de los salarios de una persona. Es x x x x x
de suponer que la relación entre salarios y x
x x
x x
edad es no lineal, pues, es de esperar que los x
salarios aumenten con la edad pero hasta cierto x
momento luego del cual los ingresos debe xx
x
reducirse. Esta relación se puede capturar 0 Edad
incluyendo como regresores la edad y la edad
al cuadrado.
ût
De omitirse la edad al cuadrado, el modelo se
transforma en un modelo lineal, por lo que los
xx
residuos del modelo estimado serán negativos xx x x xx
en edades bajas, positivo en edades x x xxxx x x x x Edad
0 x
intermedias y de nuevo negativos en edades x xx x
x x xxx
mayores. xx
x
4.7.2 Consecuencias de la Autocorrelación
(1) Si el modelo es estático y la autocorrelación es por causas puras (naturaleza dinámica

de las variables) los estimadores de MCO de E serán estimadores insesgados y
consistentes de E , pero, ya no serán eficientes. Por ejemplo:
Sea el modelo Y con un AR(1) u t Uu t 1 H t (sólo con fines de

XE u
simplificación), donde H t a Rb(0, V 2 ,0) . Siendo Eˆ ( X ' X ) 1 X ' Y E ( X ' X ) 1 X ' u ,
entonces:
E[ Eˆ ] E ( X ' X ) 1 E[ X ' u ] E .

Luego, los Ê de MCO serán estimadores insesgados de E . De igual modo, los Ê de

MCO serán estimadores consistentes de E porque, no se ha violado el supuesto de
independencia entre X y u:
1
§ X'X · ª X 'u º
p lim Eˆ E p lim¨ ¸ p lim « » E
© n ¹ ¬ n ¼
Sin embargo, la varianza de Ê de MCO, cuando V (u ) 6 V 2 : , es sesgada, es decir:
V ( Eˆ ) ( X ' X ) 1 X ' 6X ( X ' X ) 1 V 2 ( X ' X ) 1 X ' :X ( X ' X ) 1
Finalmente, tal como se demostrara en la sección 5, de este capítulo, la varianza mínima

del estimador de E , se obtiene del estimador de mínimos cuadrados generalizados, por
lo tanto:
V ( Eˆ MCO ) V ( Eˆ MCG ) V 2 ( X ' X ) 1 X ' :X ( X ' X ) 1 V 2 ( X ' : 1 X ) 1 t 0

*
(2) Si el modelo es dinámico y la autocorrelación es por causas puras los estimadores de

MCO de E serán estimadores sesgados e inconsistentes de E , pero además serán
ineficientes.
Supongamos el modelo autorregresivo Yt E 1 E 2Yt 1 u t con un AR(1)

2
ut Uu t 1 H t (sólo con fines de simplificación), donde H t a Rb(0, V ,0) y
V (u ) 6 V 2 : .
Note que u t depende de ut 1 pero Yt 1 también depende de ut 1 , por lo tanto, u t y Yt 1

están correlacionados. Más formalmente se puede demostrar de la siguiente manera:
C (ut , Yt 1 ) E (ut , Yt 1 ) E[ut ( E1 E 2Yt 2 ut 1 )]

E (u t u t 1 ) E 1 E (u t ) E 2 E (u t Yt 2 ) E (u t u t 1 ) E 2 E[u t ( E 1 E 2Yt 3 u t 2 )]
E (u t u t 1 ) E 2 E (u t u t 2 ) E 22 E (u t Yt 3 )
= ..............................
E (u t u t 1 ) E 2 E (u t u t 2 ) E 22 E (u t u t 3 ) E 2s E (u t u t s 1 )
UV u2 E 2 U 2V u2 E 22 U 3V u2 E 23 U 4V u2 E 2s U s UV u2
UV u2
z0
1 E2U
De acuerdo a esto se viola otro supuesto adicional, el de independencia de las variables

explicativas y el término de perturbación. Esto es lo que produce que los estimadores
sean sesgados e inconsistentes.
(3) Si el modelo es estático o dinámico y la autocorrelación es por causas impuras

(omisión de variables o sesgo de especificación) los estimadores de MCO de E serán
estimadores sesgados y inconsistentes de E . La demostración se puede observar en
las secciones 4.5 y 4.9 del presente capítulo. En este caso se viola el supuesto de
varianzas y covarianzas del error no escalares V (u ) 6 V 2 : z V 2 I n y del
supuesto de independencia entre la variable explicativa y el error provocado por la
presencia de la variable endógena rezagada.
(4) En cualquier tipo de modelo o de origen de la autocorrelación, los estimadores de la

varianza de Ê de MCO que ignore la autocorrelación serán sesgados e
inconsistentes, por lo tanto, las pruebas de hipótesis utilizando dicha varianza no son
válidas. La varianza de Ê de MCO será artificialmente pequeña.
La varianza de Ê de MCO cuando V (u ) 6 V 2 : , es sesgada, porque : z I n :
V ( Eˆ ) V 2 ( X ' X ) 1 X ' :X ( X ' X ) 1 z V 2 ( X ' X ) 1
Pero, además, dado que : es una matriz simétrica, semidefinida positiva, y no nula,
X ' :X no converge a X ' X , luego, V ( Eˆ ) es inconsistente, es decir:
1 1
§ X'X · § X ' :X · § X'X ·
2
nV p lim¨ ¸ . p lim¨ ¸. p lim¨ ¸ z V 2 ( X ' X ) 1 .
© n ¹ © n ¹ © n ¹
Por lo tanto, si erróneamente se utiliza como la varianza de Ê ,V ( Eˆ ) V 2 ( X ' X ) 1 , esta

será artificialmente pequeña, los estadísticos t y F serán artificialmente significativos y
por lo tanto, las conclusiones sobre las hipótesis que se quieren probar serán erróneos.
Lo adecuado tendría que haber utilizado como la varianza de Ê a
V ( Eˆ ) V 2 ( X ' X ) 1 X ' :X ( X ' X ) 1 .
4.7.3 Detección de la Autocorrelación
Según el proceso autorregresivo y el tipo de modelo de regresión utilizado se tiene

distintas alternativas de pruebas que se pueden utilizar para detectar la severidad de la
autocorrelación de errores. El cuadro adjunto presenta un resumen de dichos
estadísticos.
Proceso Autorregresivo de errores

AR(1) AR(p)
d: Durbin-Watson
Q: Ljung-Box
Tipo Estático Q: Ljung-Box
LM: Breusch & Godfrey
de LM: Breusch & Godfrey
modelo h: Durbin
Dinámico LM: Breusch & Godfrey
LM: Breusch & Godfrey
a) Test de Durbin Watson (d)
El test d de Durbin-Watson supone un modelo estático, con intercepto y un proceso

AR(1), como:
Modelo Estadístico Durbin Watson

(1)Yt E 1 E 2 X 2t E k X kt u t n
¦ uˆ t uˆ t 1
2
(2) u t Uu t 1 H t d t 2
n
2
(3) H t a Rb(0, V 2 ,0) ¦ uˆ t
t 1
Paso 1: Estimar por MCO la ecuación (1) y calcular los residuos ut .
Paso 2: Calcular el estadístico d de Durbin-Watson
Paso 3: Obtener los valores críticos del estadístico d de Durbin-Watson, que si bien no
tiene distribución conocida, en muestras grandes (n > 200) su converge a una
distribución t. Pero, para muestras pequeñas no está precisada. Sin embargo, se ha
calculado como valores críticos, el límite más bajo y el límite más alto (dL y dU) para n
y k-1 grados de libertad. Donde k-1 es el número de pendientes del modelo (lo cual
implica que tiene intercepto).
Paso 4: Criterios de decisión
En muestras grandes, cuando n tiende a infinito, el estadístico d de Durbin Watson.
n n n n
§ ·
¦ uˆ t uˆ t 1
2
2 ¦ uˆ t2 2 ¦ uˆ t uˆ t 1 ¨ ¦ uˆ t uˆ t 1 ¸
d t 2
n
# t 1
n
t 1
# 2¨ 1 t 2n ¸ # 2 (1 U )
2 2 ¨ 2 ¸
¦ uˆ t ¦ uˆ t ¨ ¦ uˆ t ¸
t 1 t 1 © t 1 ¹
Hipótesis Criterio de decisión

Si la autocorrelación es positiva, U = -1, entonces, d = 0.
d # 2 (1 U ) Si no hay autocorrelación, U = 0 , entonces, d = 2.
Si la autocorrelación es negativa, U = -1 , entonces, d = 4
Autocorrelación positiva: Si 0 d d d L ; U o 1 se rechaza H 0 : U 0
H0 : U 0 Si d U d 2; U o 0se acepta H 0 : U 0
H1 : U ! 0 Si d L d d U zona de indecisión
Autocorrelación negativa: Si d ! 4 d L rechaza H 0
H0 : U 0 Si d 4 d U acepta H 0
H1 : U 0 Si 4 d U d 4 d L indecisión
Autocorrelación Positiva Autocorrelación Negativa
H0: U > 0 H0: U < 0
Rechaza U=0 Zona de Acepta U = 0 Zona de Rechaza U=0

Acepta U=1 Indecisión Indecisión Acepta U= -1
d
0 dL dU 4-dU 4-dL 4
2
b) Test de Ljung-Box (Q)
El test de Ljung-Box es un test para modelos estáticos que sufren procesos

autorregresivos de cualquier orden, por lo tanto, si en los procesos AR(1) el test de
Durbin-Watson diera resultados no concluyentes (cuando cae en la zona de indecisión)
el test de Ljung-Box dará resultados definitivos, pero además, puede probar otros tipos
de procesos AR(p).
Modelo Estadístico Ljung-Box

(1)Yt E 1 E 2 X 2t E k X kt u t p r j2
Q n (n 2) ¦ a F 2p g.l.
j 1n j
(2) u t U1u t 1 U 2 u t 2 U 3u t 3 U p u t p H t
¦ uˆ t uˆ t j
2
rj 2
(3) H t a Rb(0, V ,0) ¦ uˆ t
Paso 2: Probar las hipótesis de no autocorrelación de errores secuencialmente utilizando

el estadístico Q de Ljung-Box, es decir:
AR(1) H 0 : U1 0 . Si se acepta H0 no tiene AR(1), pero probar si tiene AR(2).

Si se rechaza la H0 entonces el modelo tiene un AR(1) y la prueba acaba.
r12 ¦ uˆ t uˆ t 1
Q n(n 2) a F 12g.l. donde r1 2
n 1 ¦ uˆ t
AR(2) H 0 : U1 U 2 0 . Si se acepta H0 no tiene AR(2), pero probar si tiene AR(3).

Si se rechaza la H0 entonces el modelo tiene un AR(2) y la prueba acaba.
ª r12 r22 º 2 ¦ uˆ t uˆ t 1 ; r ¦ uˆ t uˆ t 2
Q n(n 2) « » a F 2 g.l. donde r1 2 2 2
¬n 1 n 2¼ ¦ uˆ t ¦ uˆ t
AR(3) H 0 : U1 U2 U3 0 . Si se acepta H0 no tiene AR(3), pero probar si tiene
AR(4). Si se rechaza la H0 entonces el modelo tiene un AR(3) y la prueba acaba.
ª r2 r2 r2 º ¦ uˆ t uˆ t 3
Q n ( n 2 ) « 1 2 3 » a F 32 g.l. donde r3 2
¬n 1 n 2 n 3¼ ¦ uˆ t
El proceso continua hasta rechazar la hipótesis nula en un AR(p).
De no rechazarse la Ho se debe aceptar que no hay evidencias de correlación serial.

c) Test de Breusch-Godfrey
El test de Breusch & Godfrey es una aplicación del test del Multiplicador de Lagrange
(LM test) para el caso de autocorrelación de errores. Se utiliza para modelos estáticos o
dinámicos y para procesos autorregresivos de primer orden o de orden superior.
Modelo Estadístico LM Test

(X pueden incluir a una variable endógena

rezagada) 2
LM (n p ) R AUX a F n p g.l.
(2) u t U1u t 1 U 2 u t 2 U 3 u t 3 U p u t p H t
(3) H t a Rb(0, V 2 ,0)
Paso 2: Estimar la regresión auxiliar de ut contra todas las variables explicativas y los p
rezagos de los residuos y obtener el R2 de la regresión auxiliar, es decir:
2
uˆ t E 1 E 2 X 2t E k X kt U1uˆ t 1 U 2 uˆ t 2 U 3uˆ t 3 U p uˆ t p H t R AUX .
Paso 3: Utilizando el R2 de la regresión auxiliar computar el estadístico LM Test.
Paso 4: Probar secuencialmente la hipótesis de no autocorrelación serial.
AR(1) H 0 : U1 0 . Si se acepta H0 no tiene AR(1), pero probar si tiene AR(2).

Si se rechaza la H0 entonces el modelo tiene un AR(1) y la prueba acaba ahí.
LM 1 (n 1) R12 a F n 1 g.l.
AR(2) H 0 : U1 U 2 0 . Si se acepta H0 no tiene AR(2), pero probar si tiene AR(3).

Si se rechaza la H0 entonces el modelo tiene un AR(2) y la prueba acaba ahí.
LM 2 (n 2) R22 a F n 2 g.l.
AR(3) H 0 : U1 U2 U3 0 . Si se acepta H0 no tiene AR(3), pero probar si tiene
AR(4). Si se rechaza la H0 entonces el modelo tiene un AR(3) y la prueba acaba ahí.
LM 3 (n 3) R32 a F n 3 g.l.
El proceso continua hasta rechazar la hipótesis nula en un AR(p).
De no rechazarse la Ho se debe aceptar que no hay evidencias de correlación serial.

d) Test h de Durbin
El test h de Durbin es un test para modelos dinámicos que incluyen una variable
endógena rezagada como variable explicativa y cuando el proceso autorregresivo es de
primer orden AR(1). En estos casos, el estadístico d de Durbin-Watson está sesgado a 2
por lo que induce a aceptar la hipótesis nula de no autocorrelación de errores cuando en
verdad si puede tener.
Modelo Estadístico h de Durbin

§ 1 · n
(1)Yt E 1 E 2 X 2t E k X kt JYt 1 u t
h ¨1 d ¸ a NS(0,1)
© 2 ¹ 1 nV ( Eˆ Yt 1 )
(2) u t Uu t 1 H t
DondeV ( Eˆ Yt 1 ) es la varianza del
2
(3) H t a Rb(0, V ,0) coeficiente asociado a la variable
endógena rezagada.
Una debilidad del test h de Durbin es que si1 nV ( EˆYt 1 ) se tendrá soluciones
imaginarias, por lo tanto, será necesario recurrir al test de Breusch-Godfrey (LM test)
mediante la estimación de la regresión auxiliar visto en el acápite c). En general cuando
se está probando la hipótesis nula H 0 : U 0 , el h crítico para un nivel de significación
del 0.05 (5%) será h* = 1.645.
4.7.4 Corrección de la Autocorrelación
a) Mínimos Cuadrados Generalizados
Supongamos un proceso autorregresivo de primer orden AR(1). Si U fuera conocido, se

podría reemplazar en la matriz de varianzas y covarianzas de u para estimar los
parámetros E.
ª 1 U1 U n 1 º
« »
V 2 « U1 1 U n2 »
V (u ) E (uu ' ) 6 V 2:
1 U 2 « »
« n 1 »
«¬ U U n2 1 »¼
Entonces:
Eˆ ( X ' : 1 X ) 1 X ' : 1Y ; y V ( Eˆ ) V 2 ( X ' : 1 X ) 1
Por lo tanto:
ª 1 U 0 0 0 0 0 º
« U 1 U 2 U 0 0 0 0 »»
«
« U 1 U 2 U 0 0 0 »
: 1 « » P' P
« »
« 0 0 0 0 U 1 U 2 U»
« »
«¬ 0 0 0 0 0 U 1 »¼
Donde
ª 1 U 2 0 0 00 0 0º
« »
« U 1 0 00 0 0»
« 0 U 1 00 0 0»
P « »
« »
« 0 0 0 0 U 1 0 »»
«
«¬ 0 0 0 0 0 U 1 »¼
Donde P es llamada la matriz de transformación de Prais-Winsten
Sea Y XE u el modelo de regresión clásico, donde V (u ) 6 V 2 : . Si existe la

matriz P, tal que P:P ' I n , por lo tanto, la Ecuación de Diferencias Generalizadas
será: PY PXE Pu Y * X * E u * . Donde:
ª 1 U 2 Y1 º ª 1 U 2 X1 º ª 1 U 2 u1 º ªH 1 º
« » « » « » «H »
« Y2 UY1 » « X 2 UX 1 » « u 2 Uu1 » « 2»
Y* PY « Y UY » ; X * PX « X UX » ; u * Pu « u Uu » «H 3 » H
« 3 2
» « 3 2
» « 3 2
» « »
« » « » « » «»
«Y UY » « X UX » «u Uu » «¬H n »¼
¬ n n 1 ¼ ¬ n n 1 ¼ ¬ n n 1 ¼
Entonces el estimador de MCG y su varianza serán:
Eˆ * ( X * ' X * ) 1 X * ' Y * (Y * X * Eˆ * )' (Y * X * Eˆ * ) uˆ * ' uˆ *

Vˆ 2
V ( Eˆ * ) V 2 ( X * ' X * ) 1 nk nk
Por ejemplo, para un modelo sencillo como:

(1) Yt E 1 E 2 X 2t u t
(2) u t Uu t 1 H t siendo 1 d U d 1
(3) H t a Rb(0, V 2 ,0)
Rezagando un período la ecuación (1) y multiplicando por U:

(4) UYt 1 UE 1 E 2 UX 2t 1 Uu t 1
Restando (1) menos (4) se obtiene la ecuación de diferencias generalizadas (EDG):

(5) Yt UYt 1 E 1 (1 U ) E 2 ( X 2t UX 2t 1 ) u t Uu t 1
O también:
(6) Yt * E 1* E 2 X 2*t H t
Dado que H t a Rb(0, V 2 ,0) , entonces, se puede utilizar MCO a la ecuación de

diferencias generalizadas para estimar E , pero para ello necesitamos conocer U.
b) Mínimos Cuadrados Generalizados Factibles:
Si U no fuera conocido, entonces, habrá que estimar U previamente para construir la

ecuación de diferencias generalizadas, luego del cual recién se estiman los coeficientes
E.
Para el caso del modelo estático simple con AR(1), los pasos son los siguientes:
Paso 1: Estimar por MCO la ecuación Yt E 1 E 2 X 2t u t y calcular los residuos ut .

Paso 2: Estimar por MCO la ecuación uˆ t Uuˆ t H t . Es decir: Uˆ ¦ uˆ t uˆ t 1 ..
¦ uˆ t21
Paso 3: Utilizando Û obtenido en el Paso 2 construir la ecuación de diferencias
generalizadas.
Yt UˆYt 1 E 1 (1 Uˆ ) E 2 ( X 2t UˆX 2t 1 ) u t Uû t 1 , es decir, Yt * E 1* E 2 X 2*t H t , y
estimar por MCO la EDG los coeficiente E : Eˆ1* y Eˆ 2 donde Ê 1 Eˆ1* /(1 - Uˆ )
Para el caso del modelo estático con AR(p), los pasos son los siguientes:
Paso 1: Estimar por MCO la ecuación Yt E 1 E 2 X 2t E k X kt u t y obtener ut .

Paso 2: Estimar por MCO la ecuación uˆ t U1uˆ t 1 U 2 uˆ t 2 U 3 uˆ t 3 U p uˆ t p H t .
Paso 3: Utilizando los Û ' s obtenidos en el Paso 2 construir la ecuación de diferencias
generalizadas (EDG).Yt * E 1* E 2 X 2*t H t y estimar por MCO los coeficientes E :
Eˆ1* ; Eˆ 2 ;; y Eˆ k . Donde Eˆ1 Eˆ1* /(1 - Uˆ 1 - Uˆ 2 - - Uˆ p ) y siendo la EDG:
Yt Uˆ 1Yt 1 Uˆ p Yt p E 1 (1 Uˆ 1 Uˆ p ) E 2 ( X 2t Uˆ 1 X 2t 1 Uˆ p X 2t p )
u t Uû t 1 Uû t p
Para el caso del modelo dinámico con AR(1), los pasos son los siguientes:
Sea el modelo Yt E 1 E 2 X 2t E 3Yt 1 u t , con u t Uu t 1 H t y H t a Rb(0, V 2 ,0) .
Paso 1: Construir la EDG:

Yt UYt 1 E 1 (1 U ) E 2 ( X 2t UX 2t 1 ) E 3 (Yt 1 UYt 2 ) H t
Paso 2: Despejar, obtener y estimar por MCO la ecuación:
Yt E 1 (1 U ) E 2 X 2t E 2 UX 2t 1 ( E 3 U )Yt 1 E 3 UYt 2 H t
Yˆt Dˆ 1 Dˆ 2 X 2t Dˆ 3 X 2t 1 Dˆ 4Yt 1 Dˆ 5Yt 2

Como H t satisface los supuestos del modelo de regresión clásico los estimadores de D
por MCO serán insesgados, el estimador insesgado y consistente de U se obtiene de:
Uˆ Ê 3 / Eˆ 2 .
Paso 3: Utilizando el estimador de U obtenido en el Paso 2 estimar los E ' s por MCO a
partir de la ecuación de diferencias generalizadas (EDG):
Yt UˆYt 1 E 1 (1 Uˆ ) E 2 ( X 2t UˆX 2t 1 ) E 3 (Yt 1 UˆYt 2 ) H t
En ningún caso es admisible el método de Cochrane-Orcutt pues la variable endógena

explicativa y el error no son independientes, debido a la autocorrelación AR(1),
C(Yt 1 , ut ) z 0 .
c) Método de Cochrane Orcutt:
Este método se utiliza únicamente para modelos estáticos y cualquier orden de proceso
autorregresivo. Por ejemplo para el caso de un AR(1), los pasos son los siguientes:
Paso 1: Estimar por MCO la ecuación Yt E 1 E 2 X 2t E k X kt u t y obtener ut .
Paso 2: Estimar U por MCO de la ecuación uˆ t Uuˆ t H t . Es decir: Uˆ ¦ uˆ t uˆ t 1 .

2
¦ uˆ t 1
Paso 3: Utilizando Û obtenido en el Paso 2 construir la ecuación de diferencias

generalizadas. Yt * E 1* E 2 X 2*t E k X kt* H t y estimar por MCO los coeficientes
Eˆ1* ; y Eˆ 2 ;; y Ê k . Donde Eˆ1 Eˆ1* /(1 - Uˆ ) y la EDG es:
Yt UˆYt 1 E 1 (1 Uˆ ) E 2 ( X 2t UˆX 2t 1 ) E k ( X kt UˆX kt 1 ) u t Uû t 1 .
Paso 4: Volver a calcular los residuos uˆˆ t Yt Eˆ1 Eˆ 2 X 2t Eˆ k X kt .
Paso 5: Volver a estimar U por MCO de la ecuación uˆˆ t Uuˆˆ t H t . Es decir:
Uˆˆ ¦ uˆˆ t uˆˆ t 1 .

¦ uˆˆ t 1
2
Paso 6: Volver a construir la nueva ecuación de diferencias generalizadas y volver a

ˆ ˆ ˆ
estimar por MCO los coeficientes Eˆ * ; Eˆ ;; y Eˆ . Donde Eˆ Eˆ * /(1 - Uˆ ) y la EDG
1 2 k 1 1
es:
Yt UˆˆYt 1 E 1 (1 Uˆˆ ) E 2 ( X 2t UˆˆX 2t 1 ) E k ( X kt UˆˆX kt 1 ) u t Uˆû t 1

ˆ ˆ ˆ ˆ
Paso 7: Volver a calcular los residuos: uˆˆ t Yt Eˆ1 Eˆ 2 X 2t Eˆ k X kt y repetir los
pasos 5 y 6 hasta lograr la convergencia de los estimadores de U y E a un valor estable,
esto es, si la diferencia entre los estimadores de dos iteraciones consecutivas es menor a
un límite de tolerancia, digamos 0.001.
ˆ
Uˆ Uˆˆ 0.001 y Eˆ Eˆ 0.001
Sin embargo, cabe anotar que el procedimiento de Cochrane-Orcutt no asegura

convergencia, ni un óptimo global. Tampoco asegura un valor único para los
estimadores.
d) Método de Hatanaka en dos etapas9:
Dado que la estimación por mínimos cuadrados ordinarios para un modelo dinámico
(que incluyen una o más variables endógenas rezagadas) son sesgados e inconsistentes,
la técnica de estimación por “Variables Instrumentales” produce estimadores
consistentes y eficientes. Donde las variables que sirven de instrumentos para la
variable endógena rezagada tienen las siguientes características:
(1) Los “instrumentos” Z son variables que están muy correlacionadas con la variable
§ Z' X ·
Yt-1. p lim¨ ¸ 6 zx z 0 . Donde X incluye a la variable endógena rezagada.
© N ¹
§ Z 'u ·
(2) Los “instrumentos” Z son variables independientes del error ut. p lim¨ ¸ 0.
© N ¹
Por lo tanto, si para cada variable endógena explicativa se reemplazan por sus
instrumentos los estimadores de “variables instrumentales” serán consistentes y
eficientes:
~ 1
E (Z ' X ) Z 'Y
Por ejemplo, si Yt E 1 E 2 X 2t E 3Yt 1 u t , con u t Uu t 1 H t y H t a Rb(0, V 2 ,0) .
Etapa 1:
(a) Estimar por Variables instrumentales el modelo dinámico inicial y obtener los
residuos u~t .
~
§ E1 ·
~ ¨~ ¸ ~ ~ ~
E ¨ E2 ¸ y u~t Yt E 1 E 2 X 2t E 3Yt 1
¨¨ ~ ¸¸
© E3 ¹
9
Hatanaka, M. (1974): “An efficient Two-Step Estimator for The Dynamic Adjustment Model
with Autoregressive Errors”, Journal of Econometrics, 2, 199-220.
Note que las matrices X y Z utilizados serán: X >1 X 2 Yt 1 @ y Z >1 X 2 X t 1 @.

Donde en la matriz Z, se utiliza Xt-1 como instrumentos de Yt-1.
Si el modelo incluyera más variables X’s debe utilizarse los rezagos de todas como
variables instrumentales de Yt-1.
(b) Obtener el estimador consistente de U como:
n
¦ u~t u~t 1
2
t 3
Û n
¦ u~t
2
t 3
Etapa 2:
(a) Considerando el U estimado en la primera etapa, construir la siguiente ecuación de

diferencias generalizadas y estimarla por MCO.
Yt UˆYt 1 E 1 (1 Uˆ ) E 2 ( X 2t UˆX 2t 1 ) E 3 (Yt 1 UˆYt 2 ) Uu~t 1

~ ~ ~
Donde u~ t 1 Yt 1 E 1 E 2 X 2t 1 E 3Yt 2
(b) Obtener el estimador consistente y eficiente de U mediante: Uˆˆ Uˆ Gˆ .
La segunda etapa puede repetirse hasta lograr una convergencia deseada.
e) Estimación por Máxima Verosimilitud
Consideremos el ejemplo sencillo de el modelo estático con un proceso AR(1) en los

errores: Yt E 1 E 2 X 2t u t , con u t Uu t 1 H t y H t a N (0, V 2 ,0) .
A partir de la EDG obtener:
Ht Yt UYt 1 E 1 (1 U ) E 2 ( X 2t UX 2t 1 )
Como H t satisface los supuestos del modelo de regresión clásico, se puede utilizar la
función de densidad de una normal.
H t2
1
V2
f (H t ) e
2SV 2
Reemplazando y hallando logaritmos se obtiene:
n 1 n 1 1 n
l ( U , E1 , E 2 , V 2 ) log 2S logV 2 2 ¦ >Yt UYt 1 E1 (1 U ) E 2 ( X 2t UX 2t 1 )@
2 2 2V t 2
Si se maximiza la función de log verosimilitud se obtendrá los estimadores de máxima

verosimilitud.
4.7.5 Pronóstico con Autocorrelación
En presencia de autocorrelación, el pronóstico eficiente debe incluir los estimadores del

proceso autorregresivo, en el pronóstico de la variable dependiente. Considérese como
ejemplo los siguientes casos:
Modelo estático con AR(1):
Yˆt Eˆ1 Eˆ 2 X 2t Uû t 1
Modelo estático con AR(p):
Yˆt Eˆ1 Eˆ 2 X 2t Eˆ k X kt Uˆ 1u t 1 Uˆ 2 u t 2 Uˆ 3u t 3 Uˆ p u t p
Modelo dinámico con AR(1):
Yˆt Eˆ1 Eˆ 2 X 2t Eˆ 3Yt 1 Uû t 1
Modelo dinámico con AR(p):
Yˆt Eˆ1 Eˆ 2 X 2t Eˆ k X kt JˆYt 1 Uˆ 1u t 1 Uˆ 2 u t 2 Uˆ 3 u t 3 Uˆ p u t p
En todos los casos deberá utilizarse los residuos de los modelos que permitieron estimar
los coeficientes U del proceso autorregresivo.
4.8 MULTICOLINEALIDAD
La colinealidad (o la multicolinealidad ) se presenta cuando alguna(s) variable(s)
explicativa(s) no mantiene(n) independencia con respecto al otra(s) variable(s)
explicativa(s) presente(s) en la ecuación, esto es, cuando las variables explicativas no
son “linealmente independientes”.
Regularmente las variables económicas suelen presentar algún grado de colinealidad o

de multicolinealidad, pero, cuando esta es severa se convierte en un problema, haciendo
que los estimadores sean muy imprecisos en aislar el efecto marginal que tiene cada
variable explicativa sobre la variable endógena haciendo que el modelo deje de ser
satisfactorio, en ese sentido, se suele afirmar que la multicolinealidad es un problema de
grado y no del tipo de colinealidad.
Como veremos más adelante, si bien la multicolinealidad no afecta la propiedad de ser

los mejores estimadores lineales e insesgados (MELI) a los estimadores de MCO, si
aumenta las varianzas y las covarianzas de dichos estimadores, por lo tanto, reduce los
estadísticos t calculados y aumenta la probabilidad de aceptar la hipótesis nula que en
verdad puede ser falsa (Error Tipo II).
Sin embargo, es preciso distinguir entre un modelo con problemas de multicolinealidad

y un modelo con sesgo de especificación por inclusión de variables irrelevantes. En
ambos casos, se tiene estimadores “pobres” con varianzas “grandes”, pero, se
distinguen en que en el primer caso (multicolinealidad) la exclusión de una variable
colineal cuyo estimador es “pobre”, producirá cambios drásticos en los estimadores
cuyas consecuencias pueden ser mucho más graves que soportar la colinealidad (se
genera sesgo de especificación por omisión de variables relevantes). En cambio en el
segundo caso, la eliminación de una variable irrelevante en el modelo, resolverá el
problema de sesgo de especificación y modelo será satisfactorio. Ahora bien, dado que a
priori puede no distinguirse un caso del otro, se suele incluir como una causa de la
multicolinealidad la inclusión de variables irrelevantes y trabajarlo como si fuera un
solo problema, cuando en verdad son dos problemas completamente distintos.
En términos matriciales, cuando existe problemas severos de colinealidad entre

variables explicativas, se observa que el rango de la matriz X suele ser menor que k,
U ( X ) K , esto significa que de las k variables “independientes” (explicativas) alguna
o algunas no son completamente “independientes” entre si.
Con frecuencia los modelos econométricos incluyen distintas expresiones de una misma
variable explicativa sin que esto lleve a problemas de multicolinealidad, obsérvese por
ejemplo las variables X2 y X3 en el siguiente modelo.
(1) Yi E 1 E 2 X 2i E 3 X 3i E 4 X 22i E 5 X 32i E 6 X 2i * X 3i u i
Las variables X2 y X3 no exhiben problemas de colinealidad, pues la relación entre

X 2i , X 22i y X 2i * X 3i ó entre X 3i , X 32i y X 2i * X 3i no es una relación lineal, sino una
relación cuadrática, es decir, no lineal. Sin embargo, existen otras representaciones de
las variables que pueden crear problemas severos de multicolinealidad como es el caso
de las funciones translog.
1
(2) log Yi E 0 ¦ E j log x j ¦ ¦ J ij log xi * log x j
2 i j
4.8.1 Tipos de Colinealidad
Se puede dividir en dos tipos de colinealidad, la perfecta y la imperfecta. La

colinealidad será perfecta si una variable puede obtenerse de una combinación lineal no
estocástica (exacta) de dos o más variables explicativas, esto es:
O1 X 1i O 2 X 2i O3 X 3i O k X ki 0 i
Ante el caso de colinealidad perfecta, la detección será inmediata pues la matriz X’X
será singular, X ' X 0 , luego, la matriz inversa ( X ' X ) 1 quedará indeterminada y por
lo tanto, no se podrá estimar los parámetros E .
La colinealidad será imperfecta si una variable puede obtenerse de una combinación

lineal estocástica (no exacta) de dos o más variables explicativas.
O1 X 1i O 2 X 2i O3 X 3i O k X ki vi 0 i
Ante el caso de colinealidad imperfecta, la detección será más difícil pues la matriz X’X
no será singular, pero puede ser cercana a singular, X ' X z 0 pero X ' X 0 , luego,
la matriz inverza ( X ' X ) 1 existirá pero con elementos exageradamente altos e
inestables, por lo tanto, se podrá estimar los parámetros E , pero sus resultados serán
muy inestables y poco significativos por la explosión de las varianzas y covarianzas, tal
como se puede observar en el siguiente cuadro.
(X ' X ) X'X ( X ' X ) 1

ª1 0 º ª1 0 º
«0 1 » 1.00 «0 1 »
¬ ¼ ¬ ¼
ª 1 0 . 5º ª 1 . 33333 0.66667 º
«0.5 1 » 0.75 « 0.66667 1.33333 »
¬ ¼ ¬ ¼
ª 1 0.9º ª 5.263158 4.73684º
«0.9 1 » 0.19 « 4.73684 5.263158 »
¬ ¼ ¬ ¼
ª 1 0.99º ª 50.25126 49.7487 º
«0.99 0.0199
¬ 1 »¼ « 49.7487 50.25126 »
¬ ¼
Nótese que a medida que aumenta la correlación entre las variables explicativas, el
determinante de X’X tiende a cero y su inversa (que representa la matriz de varianzas y
covarianzas de Ê ) crece muy aceleradamente.
178
a) Colinealidad perfecta
Como se definiera anteriormente, si una variable explicativa, por ejemplo X2 en el

modelo de regresión (3), guarda una relación exacta con otras variables explicativas, por
ejemplo X3 y X4, entonces habrá colinealidad perfecta. Esto significa
(3) Yi E 1 E 2 X 2i E 3 X 3i E 4 X 4i u i
(4) X 2i aX 3i bX 4i
Dado que la variable X2 presenta una combinación lineal exacta con las variables X3 y
X4, la correlación simple entre la variable X2 y la combinación lineal aX3+bX4 será uno.
Si se reemplaza la ecuación (4) en la regresión (3) se tendrá:
(5) Yi E1 E 2 (aX3i bX 4i ) E 3 X 3i E 4 X 4i ui E1 (aE 2 E 3 ) X 3i (bE 2 E 4 ) X 4i ui

Yi E1 J 3 X 3i J 4 X 4i ui
Por lo tanto, no se podrá estimar E 2 , E 3 , y E 4 sino las combinaciones lineales J 3 y J 4 ,

donde:
J 3 aE 2 E 3 y J 4 bE 2 E 4 . La razón es que no se puede separar el efecto marginal
de X2 porque se obtiene de la combinación lineal de las variables X3 y X4.
Si se plantea el problema matricialmente se tendría que:
(6) X [1 X 2i X 3i X 4i ] [1 aX 3i bX 4i X 3i X 4i ]
Luego, la matriz X’X será:
ª n a6X 3i b6X 4i 6X 3i 6X 4i º
«a6X b6X 6(aX 3i bX 4i ) 2 6(aX 3i bX 4i ) X 3i 6(aX 3i bX 4i ) X 4i »»
(7) X ' X « 3i 4i
« 6X 3i 6(aX 3i bX 4i ) X 3i 6X 32i 6X 3i X 4i »
« 2 »
¬ 6X 4i 6(aX 3i bX 4i ) X 4i 6X 3i X 4i 6X 4i ¼
Reordenando la segunda columna se tiene:
ª n a6X 3 b6X 4 6X 3 6X 4 º
«a6X b6X a6(aX bX ) X b6(aX bX ) X 6(aX bX ) X 6(aX bX ) X »
X' X « 3 4 3 4
2
3 3 4 4 3
2
4 3 3 4 4»
« 6X 3 a6X 3 b6X 3 X 4 6X 3 6X 3 X 4 »
« 2 2 »
¬ 6X 4 a6X 3 X 4 b6X 4 6X 3 X 4 6X 4 ¼
Note que la segunda columna (fila) de la matriz X’X es una combinación lineal de la
tercera y cuarta columnas (filas), por lo tanto, si al menos una columna (o fila) de la
matriz X’X no es linealmente independiente, entonces: X ' X 0 . Por lo tanto, tanto la
matriz inversa ( X ' X ) 1 queda indeterminado. Como consecuencia tanto el estimador de
MCO de E como la matriz de varianzas y covarianzas de Ê quedan indeterminados.
La presencia de colinealidad perfecta puede deberse a multiples factores, uno de ellos a

la impericia del modelista, como por ejemplo:
x Incluir relaciones aparentemente “no lineales”.

x No definir adecuadamente las variables “dummies”.
Ejemplo 4.7: Errores de especificación
Se especifica un modelo para Yi f ( X 2i , X 3i , X 4i / X 2i ) . Aparentemente no debiera

haber problema si el modelo planteado fuera:
(8) Yi E 1 E 2 X 2 i E 3 X 3i E 4 ( X 4 i / X 2 i ) u i
Sin embargo, si se plantea un modelo logarítmico, sí se genera un problema de

multicolinealidad perfecta. Observe que en el modelo (8) se puede estimar plenamente
los parámetros E 2 ; E 3 ; y E 4 , mientras que en el modelo (9) sólo se podrá estimar las
combinación lineal J 2 y E 3 ; y E 4 . Donde: J 2 E 2 E 4 .
(9) log(Yi ) E 1 E 2 log( X 2i ) E 3 log( X 3i ) E 4 log( X 4i / X 2i ) u i

log(Yi ) E 1 E 2 log( X 2i ) E 3 log( X 3i ) E 4 log( X 4i ) E 4 log( X 2i ) u i
log(Yi ) E 1 ( E 2 E 4 ) log( X 2i ) E 3 log( X 3i ) E 4 log( X 4i ) u i
log(Yi ) E 1 J 2 log( X 2i ) E 3 log( X 3i ) E 4 log( X 4i ) u i
Ejemplo 4.8: Un modelo Macroeconómico Simple
Se plantea un modelo de determinación de la tasa de interés (r) como función del déficit
fiscal (D), además, se está interesado en separar los efectos de los ingresos fiscales (I) y
de los gastos fiscales (G) en la tasa de interés, por lo que se define la función:
rt f ( I t , Gt , Dt ) .
(10) rt E 1 E 2 I t E 3Gt E 4 Dt u t
(11) Dt I t Gt
Por lo tanto, reemplazando la ecuación (11) en la ecuación (10) se tiene:

(10’) rt E 1 E 2 I t E 3 Gt E 4 ( I t Gt ) u t
rt E 1 ( E 2 E 4 ) I t ( E 3 E 4 )Gt u t
rt E 1 J 2 I t J 3Gt u t
En este caso E 2 ; E 3 ; y E 4 no pueden ser estimados, pero si las combinaciones lineales

J 2 y J 3.
180
Ejemplo 4.9: Uso Inadecuado de Variables Dummy
Suponga que se quiere estimar las ventas (Y) como función de los Gastos en Publicidad
(X), pero diferenciando el efecto que tiene la estacionalidad trimestral (T1, T2, T3, T4)
en las ventas.
(11) Yt E 1 E 2 X t E 3T 1t E 4T 2 t E 5T 3t E 6T 4 t u t
Donde los trimestres tomarán valor 1 en el trimestre correspondiente y 0 en otros

1 en el trimestre j
trimestres. Tj ®
¯0 en otro trimestre
Por lo tanto, se presenta colinealidad perfecta entre los trimestres y el intercepto porque:
(12) T 1t T 2 t T 3t T 4 t 1
Ejemplo 4.10: Uso Excesivo de Variables Dummy
Suponga que se quiere estimar los salarios (Y) como función de los años de escolaridad
(X) y el sexo de la persona (H=1 si es hombre, 0 en otro caso y M=1 si es mujer y 0 en
otro caso).
(13) Yi E1 E 2 X i E 3 H i E 4 M i ui
Por lo tanto, se presenta colinealidad perfecta entre los sexos y el intercepto porque:
(14) H i M i 1
En estos cuatro casos presentados de colinealidad perfecta, el problema no es problema

de los datos sino la especificación del modelo. Por lo tanto, un econometrista con algo
de experiencia y buena base teórica, fácilmente detectará y corregirá el problema.
En el caso de la colinealidad perfecta la solución es eliminar alguna de las variables

colineales o transformar la variable. En el ejemplo 4.7 se puede quitar el logaritmo, en
el ejemplo 4.8 basta con quitar una variable (por ejemplo el déficit fiscal, pues el efecto
del déficit se mide con el gasto público. En los ejemplo 4.9 y 4.10, basta con quitar una
variable dummy o eliminar el intercepto para corregir el problema.
b) Colinealidad imperfecta
A diferencia de la colinealidad perfecta, la colinealidad imperfecta sí es un problema de

los datos provocado por la alta correlación entre dos o más variables explicativas, es
decir, cuando una variable puede obtenerse de una combinación lineal de dos o más
variables pero afectada por un término aleatorio.
Por ejemplo, si en el siguiente modelo de regresión (15) la variable X2 guarda una

relación inexacta con las variables X3 y X4, entonces habrá colinealidad imperfecta.
(15) Yi E 1 E 2 X 2 i E 3 X 3i E 4 X 4 i u i
(16) X 2i aX 3i bX 4i ei
4.8.2 Causas de la multicolinealidad:
x Inclusión de variables irrelevantes: El modelo puede incluir variables irrelevantes,

esto eleva la probabilidad de colinealidad.
Ejemplo: Supongamos que el modelo “correcto” fuera: Yi E 1 E 2 X 2 i E 3 X 3i u i

cuyo estimador es: Yî 3.15 0.8 X 2i 1.2 X 3i
Pero, con el propósito de mejorar el R2 se incluye la variable adicional X4 que es no

significativa y no afecta en gran medida los estimadores iniciales.
Yi E 1 E 2 X 2i E 3 X 3i E 4 X 4i u i Yî 3.1 0.78 X 2i 1.23 X 3i 0.05 X 4
En este caso es muy probable que el coeficiente 0.05 sea estadísticamente no distinto de
cero, mientras el resto de estimadores mantiene su nivel de significación.
Como se viera arriba, la presencia de variables irrelevantes es un caso forzado de

multicolinealidad, en la que la solución es siempre eliminar las variables redundantes.
x Inclusión de muchos rezagos de una variable explicativa: en un modelo que

incluye demasiados rezagos de las variables explicativas, X=[Xt, Xt-1, Xt-2,....], es
muy probable la presencia de multicolinealidad.
Ejemplo: Supongamos la siguiente función consumo:
CPRt E 1 E 2YDt E 3YDt 1 E 4YDt 2 E 5YDt 3 u t

Donde:
CPR: Consumo Privado
YD: Ingreso disponible
Sobre la base de información trimestral de los Estados se ha construido la matriz de

correlaciones simples del Ingreso Disponible (YD) contra sus rezagos. Obsérvese que el
Ingreso Disponible se encuentra muy correlacionado con sus rezagos.
YD YD(-1) YD(-2) YD(-3)

YD 1.000000 0.999566 0.999147 0.998739
YD(-1) 0.999566 1.000000 0.999567 0.999162
YD(-2) 0.999147 0.999567 1.000000 0.999563
YD(-3) 0.998739 0.999162 0.999563 1.000000
182
Utilizando datos del PBI anual para la economía peruana se ha construido la matriz de
correlaciones simples contra distintos niveles de rezagos. Los resultados son los mismos
con respecto a los hallazgos de la economía norteamericana.
PBI_R PBI_R(-1) PBI_R(-2) PBI_R(-3)

PBI_R 1.000000 0.986057 0.962819 0.942254
PBI_R(-1) 0.986057 1.000000 0.986024 0.963092
PBI_R(-2) 0.962819 0.986024 1.000000 0.986487
PBI_R(-3) 0.942254 0.963092 0.986487 1.000000
En ambos casos, la presencia de demasiados rezagos de la variable explicativa producirá

alta colinealidad, por lo que será conveniente hacer una evaluación del número de
rezagos óptimo.
x Las variables económicas suelen tener una marcada tendencia en el tiempo:

Cuando dos variables explicativas tienen una fuerte tendencia procíclica o anticíclica
estarán altamente correlacionadas, no por razones de causalidad sino por razones de
tendencia temporal.
Ejemplo: Supongamos el modelo de determinación de la tasa de interés. Teóricamente

el financiamiento del déficit fiscal (D) eleva la tasa de interés (r), pero, el déficit está
asociado a la evolución de los ingresos (I) y gastos fiscales (G), pero, tanto I como G
suelen mostrar una tendencia procíclica, lo que hace sospechar que habrá una fuerte
colinealidad entre ellas.
rt E 1 E 2 I t E 3 Gt u t
Ejemplo: Supongamos una función de demanda en un mercado duopolístico. Es muy

probable que los precios de las empresas duopólicas estén muy asociadas, esto porque
ambas compiten por el mismo mercado.
log Qt E 1 E 2 log PA,t E 3 log PB ,t u t
log Qt 0.322 0.854 log PA,t 0.577 log PB ,t ; R2 0.89 Donde: rPA , PB 0.97
( s .e ) ( 0.089 ) (1.226 ) (1.012 )
Note que si se obtiene los estadísticos de asociados a PA y PB son no significativos, de

igual modo la correlación entre las variables explicativas (0.97) es incluso mayor al
R2=0.89, evidencia clara de presencia de multicolinealidad.
x Inclusión de muchas variables “dummies”: A diferencia del caso de colinealidad

perfecta, en estos casos las variables dummies están correctamente definidas, pero a
pesar de esto y de no existir ninguna relación teórica entre las variables “dummies”
es frecuente encontrar fuerte colinealidad cuando el modelo incluye “muchas”
variables dummies.
Ejemplo: Sea el modelo de determinación del nivel salarial. En este caso a pesar que
no existir una relación teórica entre sexo, logros educativos y raza, en la práctica a nivel
muestral suele presentarse una alta asociación lineal entre dichas variables.
SALARIOi E1 E 2 AÑEXPi E 3SEX i E 4 EDUCi E 5 RAZAi ui
Donde:
SALARIO: Salario en soles mensuales del individuo i-ésimo.
AÑEXP: número de años de experiencia del individuo i-ésimo.
SEX: sexo del individuo i-ésimo, 1=mujer, 0=hombre.
EDUC: grado de educación del individuo i-ésimo. 1 = educación superior; 0 = en otro
caso.
RAZA: raza del individuo í-ésimo. 1 = raza blanca, 0 = otra raza.
En todos estos casos, no es tan sencillo resolver el problema de la multicolinealidad ,

pues no se puede eliminar alguna de las variables colineales sin que esto signifique un
sesgo de especificación por la eventual eliminación de una variable relevante pero que
por razones muestrales es colineal con otras.
4.8.3 Consecuencias de la multicolinealidad
1. La varianza del estimador de MCO de E , V ( Eˆ ) , es más grande con respecto a una

situación sin multicolinealidad, de igual modo, la distribución t utilizado para probar
la significancia individual de los coeficientes sigue siendo válida.
Dado que V ( Eˆ ) V 2 ( X ' X ) 1 , si X ' X o 0, entonces, (X' X) -1 o f , luego

V ( Eˆ ) n . Esto implica que los parámetros pueden ser estimados con muy poca
precisión, por lo que requerirán de amplios intervalos de confianza y tenderán a ser
estadísticamente no significativos, es decir, aumentará la probabilidad de aceptar la
hipótesis nula, aunque esta fuera realmente falsa (error tipo II).
Eˆ k E H 0
tk
s Eˆk
Intuición: un incremento en la varianza de coeficiente estimado significa que el

estadístico t decrecerá y hará más probable el aceptar que los parámetros no son
diferente de cero.
2. Los estimadores de mínimos cuadrados ordinarios de los estimadores, a pesar que la

varianza de los estimadores es más “grande”, sigue siendo la menor entre todos los
estimadores lineales e insesgados. de igual modo, la distribución t utilizado para
probar la significancia individual de los coeficientes sigue siendo válida.
Esto significa que el estimador de MCO de E , Ê , en el modelo Y XE u sigue

siendo MELI. La multicolinealidad no se va a resolver cambiando de método de
estimación sino corrigiendo la causa de la colinealidad.
De Eˆ E ( X ' X ) 1 X ' u , se puede deducir que, dado que Ê es un estimador lineal e

insesgado de E , E ( Eˆ ) E , pues no se ha violado el supuesto de independencia
entre las variables explicativas y el término de perturbación, E ( X ' u ) 0 , se puede
184
deducir que por el teorema de Gauss Markov, el estimador de MCO de E , Ê , es

MELI.
3. Dado que las variables explicativas están muy correlacionadas entre si, las
covarianzas entre los estimadores de MCO de E , C ( Eˆ j , Eˆ k ) , tiene a ser muy alta.
Esto dificulta separar el efecto en la variable dependiente que es atribuible a cada
variable explicativa. Por ejemplo, en el modelo: Yi E 1 E 2 X 1i E 3 X 2i u i , los
estimadores de MCO de E y sus errores estándar están muy influidos por la
correlación entre variables explicativas, r23.
Eˆ 2
¦ x 2 y ¦ x32 ¦ x3 y ¦ x 2 x3 s ¦ uˆ i2 /(n 3)
Eˆ
¦ x 22 ¦ x32 (1 r232 ) 2
¦ x 22 (1 r232 )
Eˆ 3
¦ x3 y ¦ x 22 ¦ x 2 y ¦ x 2 x3 s ¦ uˆ i2 /(n 3)
Eˆ
¦ x 22 ¦ x32 (1 r232 ) 3
¦ x32 (1 r232 )
4. Las altas covarianzas entre estimadores de MCO, produce una alta inestabilidad en
los valores estimados, es decir, pequeños cambios muestrales (inclusión o exclusión
de una variable explicativa, o adición o sustracción de unas pocas observaciones)
producen grandes cambios en los estimadores de E asociado a las variables
colineales, pero, no afectará los coeficientes estimados de las variables no
colineales. Es a raíz de esta situación se dice que la multicolinealidad es más un
problema muestral que poblacional, luego, dos variables pueden tener un alto grado
de correlación a nivel muestral, aunque a nivel poblacional no estén correlacionadas.
Por lo tanto, la multicolinealidad siempre va a existir, el problema es el grado. Si es
muy severa puede desencadenar todo lo visto arriba, en otro caso, es posible vivir
con él.
Ejemplo 4.11: Determinación de los Gastos de Transporte
Suponga que se quiere estimar los gastos en transporte (GT) de un grupo de 100
trabajadores, para ello se divide el año entre el número de días trabajados por el
trabajador (W), el número de días de descanso médico (M) y el número de días no
trabajados por otras razones (O). El promedio de días trabajados es 242.7, el de
descanso médico es 2.1 y el de otros días no trabajados es de 120.2. Las cifras entre
paréntesis son los errores estándar.

GT t 9.6 2.10Wt 0.45 Ot R2 0.72
( 8.3) (1.98 ) (1.77 )
t 1.15 t 1.06 t 0.25
Hallazgos:
R2 k 0.72 2
F (2,97) 124.7
(1 R 2 ) (n k 1) (1 0.72) 97
1. El estadístico t de ambas pendientes son “bajos” y no es possible rechazar la

hipótesis nula que los coeficientes son cero. Por lo tanto, aparentemente los gastos
en trasporte (GT) aparentemente no son explicados por el número de días trabajados

(W) y el número de días no trabajados por otras razones (O).
2. A pesar de lo anterior, R2 es “alto”, en especial para datos proveniente de hogares.
3. El estadístico F calculado es 124.7, es decir, bastante “alto” con respecto al valor

crítico. Si el valor crítico para F(2,60) es 7.8 al 1%, el valor crítico para un F(2,97)
debe ser aún mucho menor. Por lo tanto se rechaza la hipótesis nula que las
pendientes de W y O son cero en conjunto, es decir, H 0 : E 2 E .3 0 .
4. La aparente contradicción entre los hallazgos 1. y 3. (contradicción entre las pruebas

t y F) se explican por la evidente multicolinealidad entre W y O, toda vez que
365=W+M+O. En el modelo no hay colinealidad perfecta debido a que se ha
excluido del modelo la variable M (días no trabajados por descanso médico).
5. En este, a pesar que individualmente las variables son no significativas (pruebas t)

en conjunto si son significativas para explicar las variaciones de GT (prueba F ). Es
debido a la multicolinealidad que no se puede separar el efecto individual de W y O.
4.8.4 Detección de la Multicolinealidad
Cuando se está frente al problema de la multicolinealidad se puede observar los

siguientes indicadores:
1. R 2 “alto”, acompañado de estadísticos t “bajos”, para algunos estimadores.
La varianza “grande” para cada uno de los estimadores, trae como consecuencia
estadísticos t “bajos” de significancia individual para cada uno de los estimadores.
Pero, si está acompañado de un R 2 “alto” entonces llevará a una prueba F “alta” que
implica que las variables explicativas son significativa tomadas en conjunto. Esta
contradicción solo ocurre cuando se está ante un problema severo de
multicolinealidad. Además, el R 2 ajustado se va a afectar si se quita la variable
colineal.
Si la baja significación individual es producida por la presencia de variables

irrelevantes, es probable que los estadísticos t “bajos” estén acompañados de un R2
ajustado que mejora si se quita la variable irrelevante.
2. El coeficiente de correlación simple entre variables explicativas “altas”.
Teóricamente el coeficiente de correlación entre las variables explicativas debiera

ser cero, lo deseable es que sea “bajo” como un reflejo que son variables
independientes entre si. Sin embargo, si el coeficiente de correlación simple fuera,
en valor absoluto, “alto” (digamos por encima de 0.7), implicará inequivocamente
un problema de multicolinealidad. Si el coeficiente de correlación se acerca a 1 el
problema sería muy severo.
186
3. Regresiones auxiliares entre variables explicativas.
Bajo determinadas condiciones, a pesar que la correlación simple (entre dos

variables explicativas) es baja, digamos un valor menor o igual a 0.5 (en valor
absoluto), puede expresar multicolinealidad como combinación de varias variables
explicativas. Por ejemplo, dos variables no correlacionadas entre si, pueden formar
una tercera variable como una combinación lineal con un componente aleatorio,
estas tres variables tendrán un coeficiente de correlación simple muy bajos, tomadas
dos a dos, pero tendrán una correlación alta si hacemos una correlación múltiple
entre las tres, lo que evidenciaría multicolinealidad, estos efectos combinados
(directos e indirectos) se pueden captar mediante regresiones auxiliares entre las
variables explicativas.
Las regresiones auxiliaries consiste en corer por MCO un modelo de regresión

utilizando la j-ésima variable explicativa como variable dependiente y las restantes
variables explicativas como regresores en esta ecuación. Por ejemplo la regresión
auxiliar para las variables X 2i y X 3i , serán:
X 2i a1 a 2 X 3i a3 X 4i a k X ki u 2i
X 3i a1 a 2 X 2i a3 X 4i a k X ki u 3i
Si el R 2j , R2 de la regresión auxiliar de la j-ésima variable explicativa es “alta”

implica que hay problemas severos de multicolinealidad.
4. Factores de Inflación de Varianza (FIV) mayores de 5.
Si los valores de los regresores estuvieran estandarizados, la matriz X’X sería la

matriz de correlaciones simple entre las variables explicativas, luego, los factores de
inflación de varianza serían los elementos de la diagonal de la matriz ( X ' X ) 1 . Si
las variables explicativas fueran ortogonales (independientes), los factores de
inflación de varianzas serían 1.0. Si los valores fueran mayores que 1.0 implica que
las variables explicativas presentan algún grado de multicolinealidad. Un valor igual
o mayor que 5 en los factores de inflación de varianza implica multicolinealidad
severa.
Existe dos procedimientos para obtener los Factores de Inflación de Varianza, el

primero directo, que consiste en extraer los elementos de la diagonal de la inversa de
la matriz de correlaciones simples entre todas las variables explicativas. La segunda
alternativa es indirecta a través de las regresiones auxiliares como sigue:
1
FIV j . Donde el R 2j es el R2 de la regresión auxiliar para la j-ésima
1 R 2j
variable explicativa.
ª1 r23 r2 k º ª FIV1 A23 A2 k º

«r 1 r3k »» «A FIV2 A3k »»
R « 23 R 1 « 23
« » « »
« » « »
¬r2 k r3k 1 ¼ ¬ A2 k A3k FIVK ¼
Donde rjk es el coeficiente de correlación simple entre el regresor Xj y el regresor

Xk.
4.8.5 Corrección de la Multicolinealidad
1. Ignorar el problema.
Si la colinealidad no es severa es posible vivir con ella. En un modelo con un R2

corregido razonablemente alto y estimadores individualmente poco significativos
pueden ser admitidos como un modelo válido si se quiere mantener cierta
consistencia teórica. En alguno casos se puede aceptar coeficientes significativos al
10% o más de error.
Es frecuente admitir estos casos, cuando el modelo ha sido construido sólo con fines
de pronóstico, pues, es de esperar que el patrón de la colinealidad se mantendrá para
el período de pronóstico.
2. Eliminar variables colineales.
Si el modelo incluye dos variables explicativas que cumplen funciones parecidas en

el modelo, digamos ser variables de escala o ser costos de oportunidad, no se
perderá consistencia teórica si se elimina alguna de las variables colineales. De igual
modo, si la colinealidad es producto de la inclusión de variables irrelevantes, la
eliminación de variables no significativas ciertamente reducirán la colinealidad.
Esta alternativa significará una mejora en los estadísticos t e incluso puede mejorar
el R2 corregido o reducirlo marginalmente.
El problema de en esta alternativa es que no es recomendable eliminar varibles

relevantes pero que muestran colinealidad. En este caso, su eliminación puede
desencadenar un sesgo de especificación por eliminación de variables relevantes,
cuyas consecuencias son definitivamente gravísimas. En este caso, los estimadores
de MCO serán sesgados e ineficientes (dejarán de ser MELI). En este caso, los
estadísticos t pueden mejorar, pero el R2 corregido se resentirá severamente.
3. Transformación de variables del modelo.
Si la colinealidad ocurre cuando las variables están expresadas en niveles, podría

modificarse a una expresión en primeras diferencias o tomar una de las variables
colineales como deflactor. Sin embargo, se deberá tener mucho cuidado por la
eventual generación de problemas de heterocedasticidad o de autocorrelación de
errores.
188
Por ejemplo, si en el modelo siguiente las variables X2 y X3 fueran colineales en

niveles, producto de una tendencia temporal en ellas es probable que la colinealidad
se minimice si el modelo se expresa en primeras diferencias, esto es:
(1) Yt E 1 E 2 X 2t E 3 X 3t u t , rezagando un período se tiene:

(2) Yt 1 E 1 E 2 X 2t 1 E 3 X 3t 1 u t 1 . Restando (1) – (2) se tiene:
(3) Yt Yt 1 ( E 1 E 1 ) E 2 ( X 2t X 2t 1 ) E 3 ( X 3t X 3t 1 ) u t u t 1 , o también
(4) 'Yt E 2 'X 2t E 3 'X 3t vt , donde vt = ut - ut-1.
(5) 'Yt J 1 E 2 'X 2t E 3 'X 3t vt ,
Al modelo corregido (4) se le puede presentar dos observaciones, por un lado, no

tiene intercepto y por otro, el término de perturbación, tiene problemas de
autocorrelación serial, E (vt vt 1 ) E[(u t u t 1 )(u t u t 1 )] E (u t 1u t 1 ) V 2 z 0 . Si
el modelo “corregido” fuera el modelo (5), entonces, este modelo no se derivaría del
modelo (1) sino de otro que incluye una tendencia temporal como el modelo (6).
(6) Yt E 1 E 2 X 2 t E 3 X 3t J 1t u t .
En otros casos, la eliminación de la colinealidad puede significar solamente

transformar en diferencias alguna de las variables, este es el caso donde la
colinealidad es producto de regresores que incluyen rezagos de la misma variable
explicativa. Si en el ejemplo siguiente, se supone que la variable X2 tiene una
tendencia, entonces, X2t-1 también presentará la misma tendencia, por lo tanto ambas
variables serán colineales producto de sus tendencias comunes.
(7) Yt E 1 E 2 X 2t E 3 X 2t 1 u t . Si se suma y resta E 2 X 2t -1 se tiene:

(8) Yt E 1 E 2 X 2t E 2 X 2t 1 E 3 X 2t 1 E 2 X 2t 1 u t , lo que implica:
(9) Yt E 1 E 2 'X 2t ( E 3 E 2 ) X 2t 1 u t .
Nótese que en el modelo (i) se ha resuelto el problema de la multicolinealidad, pues

si la colinealidad era en “niveles” es poco probable que se mantenga entre los
regresores 'X 2t -1 y X 2t -1 , además no se ha generado problemas ni en el intercepto ni
en el término de pertubación.
Finalmente, hay casos donde la transformación necesaria pasa por el concepto de

“deflactores” o en términos “relativos”. La idea es que si dos variables son
colineales en niveles es poco probable que la colinealidad se mantenga en términos
relativos. Por ejemplo, supongamos que las variables X2 y X3 fueran colineales en el
modelo:
(10) Yt E 1 E 2 X 2t E 3 X 3t u t . Dividiendo por X2 se tiene:

Yt § 1 · X u
(11) E 1 ¨¨ ¸¸ E 2 E 3 3t t .
X 2t © X 2t ¹ X 2t X 2t
En este caso, se resuelve el problema de la colinealidad, pero se puede generar

problemas de heterocedasticidad en los errores.
4. Mínimos Cuadrados Restringidos.
Algunas veces se puede recurrir a un marco teórico que permite imponer restricciones a
los parámetros, que en condiciones irrectrictas pueden desencadenar en problemas de
multicolinealidad severa. Por ejemplo, a las funciones de producción se les puede
imponer la restricción de rendimientos constantes a escala, o las funciones de demanda
se le puede imponer la condición de homogeneidad. De igual modo, puede existir
estudios previos sobre los mismos parámetros de interés, que pueden ser tomados como
restricción al proceso de estimación del modelo.
Por ejemplo, supongamos una función de producción translog con dos insumos
variables:
(log Li ) 2 (log K i ) 2
log Qi E 0 E 1 log Li E 2 log K i E 3 E4 E 5 log Li * log K i u i
2 2
Si se impone la restricción a los parámetros de rendimientos constantes a escala,

E 1 E 2 1 y E 3 E 4 E 5 , entonces se tiene:
[(log Li ) (log K i )]2
log Qi log K i E 0 E 1 (log Li log K i ) E 3 ui
2
O también:
2
ª Li º
«log »
Qi L Ki ¼
log E 0 E 1 log i E 3 ¬ ui
Ki Ki 2
En algunos casos se hace preciso utilizar una mezcla de casos, es decir, utilizar primeras
diferencias, utilizar deflactores e imponer restricciones a los parámetros, como por
ejemplo al caso de la función de producción en modelos de crecimiento endógeno.
Supongamos que se tiene una función de producción (Q = PBI) para la economía

peruana explicada por el capital físico (K) y el capital humano (H). Supongamos que la
función de producción se especifica como una Cobb-Douglas.
Qt AK tE 2 H tE 3 e ut
Es probable que K y H presenten problemas de colinealidad, por tener ambos tendencia

temporal. Para corregir esto, se utilizará como deflactor al capital humano (H) y se
impondrá la restricción de rendimientos constantes a escala, E 2 E 3 1 .
E2
Qt ªK º
A« t » e ut
Ht ¬ Ht ¼
Si el problema de la multicolinealidad persiste se puede hallar una diferencia en

logaritmos de la siguiente manera:
E2
§Q · §K ·
d log¨¨ t ¸¸ E 1 E 2 d log¨¨ t ¸¸ ut
© Ht ¹ © Ht ¹
190
Finalmente, es este el modelo que se estima, obviamente, se habrá resuelto el problema

de la colinealidad, pero a costa de pérdida en la bondad de ajuste.
Ejemplo 4.12 : Decisión Papal sobre el consumo de pescado
Hipótesis: En 1966 el Papa Paulo VI tomó la decisión de permitir que los católicos
coman carne en Viernes Santo, esto habría desplazado la función de demanda por
pescado.
Los datos:
Ft = la cantidad de pescados consumidos (en libras) en el año t.
PFt = el índice de precios de pescado en el año t.
PBt = el índice de precios de carne de res en el año t.
Ydt = ingreso real disponible en el año t (en miles de millones de dólares)
CATt = el número de católicos en los Estados Unidos en el año t (decenas de miles).
D66t = Variable dummy igual a 1 para el año 1966 (decision papal) 0 en otros años.
El modelo: Ft E 0 E 1 PFt E 2 PBt E 3 ln Yd t E 4 CATt E 5 D66 t H t
Si la decisión papal (D66) contrajo la demanda de pescado, de debe rechazar H 0 : E 5 t 0 .

El modelo semilogarítmico planteado supone que, ceteris paribus, el aumento del ingreso
dF
disponible en 1% aumenta el consumo de pescado en Ê 3 libras. Ê 3 .
dYd
Yd
Resultados:
Dependent Variable: F
Sample: 1946 1970
C -1.988398 12.98474 -0.153134 0.8799
PF 0.039502 0.031015 1.273645 0.2182
PB -0.000777 0.020200 -0.038453 0.9697
LOG(YD) 1.770237 1.872606 0.945333 0.3564
CAT -3.14E-05 3.28E-05 -0.957715 0.3502
D66 -0.355258 0.35312 -1.006054 0.3270
Evaluación de resultados:
x Ninguno de los coeficientes son estadísticamente significativos (estadísticos t bajos).
x El R2 es 0.73 y el R2 ajustado es 0.666 los cuales son bastantes “altos” para estos
datos.
x Los valores estimados para E 1 , E 2 , y E 4 tienen signo incorrecto.
x Tiene alguna sospecha?. Los problemas probables son variables omitidas, variables
irrelevantes o multicolinealidad.
x Chequee la matriz de correlaciones. Note que el ingreso per cápita disponible (Yd) y
el número de católicos (CAT), ambos miden el poder de compra. Además, es
probable que los precios de pescado (PF) y de carne de res (PB) se muevan en el
mismo sentido, porque son precios de equilibrio de dos bienes sustitutos, por
ejemplo, cuando se incrementa la demanda de pescado, el precio del pescado sube.
Al subir el precio del pescado la demanda de carne de res se expande aumentando
también el precio de la carne de res.
Matriz de correlaciones de variables:

F PF PB log(YD) CAT D66
F 1
PF 0.84759 1
PB 0.818532 0.958096 1
log(YD) 0.780012 0.91532 0.81489 1
CAT 0.736549 0.883207 0.78140 0.945766 1
D66 0.58563 0.734643 0.663162 0.780089 0.571129 1
Factores de Inflación de Varianza:

FIVPF = 42.9 FIVlogYd = 23.5 FIVPB = 18.8 FIVCAT = 18.5 FIVD66 = 4.4
Qué hacer:
La multicolinealidad más probable es entre el número de católicos y el ingreso, ambos
representan el poder de compra, la correlación simple entre ambos es r=0.94, por lo que
podría eliminarse alguna de ellas, digamos el número de católicos (CAT).
Dependent Variable: F No
Method: Least Squares Significativos
Sample: 1946 1970
C 7.961108 7.773354 1.024154 0.3180
PF 0.027993 0.028533 0.981075 0.3383
PB 0.004692 0.019336 0.242675 0.8107
LOG(YD) 0.360363 1.154974 0.312010 0.7583
D66 -0.124462 0.257573 -0.483211 0.6342
A pesar de haber eliminado CAT, la multicolinealidad sigue presente en la ecuación.

Ahora intervendremos en los precios de la carne de res y de pescado, pues tienen una
correlación r=0.95. Teóricamente es difícil justificar la eliminación de alguna de estas
PFt
variables, pero se puede transformar los precios en precios relativos, Pt , pues los
PBt
consumidores reaccionan a cambio en los precios relativos.
192
Dependent Variable: F
Sample: 1946 1970
C -5.168676 4.83273 -1.069515 0.297
PF/PB -1.930897 1.430728 -1.349591 0.1915
LOG(YD) 2.711743 0.656781 4.128838 0.0005
D66 0.005197 0.28008 0.018554 0.9854
Matriz de correlaciones Simples (R) de variables:
F PF/PB log(YD) D66

F 1.000000
PF/PB 0.045833 1.000000
log(YD) 0.780012 0.276706 1.0000
D66 0.585630 0.188140 0.7445 1.000000
Factores de Inflación de Varianza:
VIFPF/PB=1.08 VIFlogYd=2.35 VIFD66=2.25
Parece que el modelo debe sobrevivir con algo de colinealidad.
Alternativamente se puede hallar la inversa de la matriz de correlaciones simples, R-1:
F PF/PB log(YD) D66

F 2.775628 0.510788 -2.298837 -0.010107
PF/PB 0.510788 1.177754 -0.755272 0.041585
log(YD) -2.298837 -0.755272 4.249355 -1.675280
D66 -0.010107 0.041585 -1.675280 2.245341
Prueba de hipótesis:
Para probar si la decisión papal contrajó la demanda de pescado, de debe rechazar la

hipótesis que H 0 : E D 66 t 0 .
H 0 : E D 66 t 0 Eˆ 5 0.12 t Ê 5 < t (100 4 ) g .l . 1.661
t Eˆ5 0.48
H 1 : E D 66 0 s Eˆ5 0.25 No es posible rechazar Ho.
Dado que Eˆ D 66 no es significativamente distinta de cero, se puede concluir que la

decisión papal no ha contribuido a reducir la demanda de carne de pescado entre los
católicos, o lo que es lo mismo, cualquier contracción de la demanda de pescado es
atribuible a otros factores distintos a la decisión papal.
194 Capítulo 4: Violación a los Supuestos del Modelo de Regresión Lineal General
4.9. PROBLEMAS DE ENDOGENEIDAD EN LAS VARIABLES EXPLICATIVAS

El modelo de regresión clásico supone que las variables explicativas, X, son variables
independientes del error, E[ X ' u ] 0 , esto es, las variables X pueden ser variables
aleatorias pero mantiene independencia en distribución con el término de perturbación.
La violación a este supuesto, es decir, cuando las variables X están correlacionadas con
el error, E[ X ' u ] z 0 , producirá estimadores de MCO sesgados e inconsistentes.
En el modelo Y XE u , el estimador de MCO de E es: Ê = (X cX ) 1 X cY . Esto

implica que: Ê = E (X cX ) 1 X cu , Luego: E ( Eˆ ) E ( X ' X ) 1 E ( X 'u ) ,
Si E ( X ' u ) 0 , entonces E ( Eˆ ) E . Por lo tanto, Ê será un estimador insesgado de E .
Si E ( X ' u ) z 0 , entonces E ( Eˆ ) z E . Luego, Ê es un estimador sesgado de E .
4.9.1 Casos de Endogeneidad
Covarianza X,u E ( X ' u )

E( X ' u) 0 E( X ' u) z 0
Caso 1: Todos los supuestos del
X es no modelo de regresión clásico son
aleatoria satisfechos. Los Ê MCO son
insesgados y eficientes.
Caso 2: Todos los supuestos del
modelo de regresión clásico son
satisfechos. Los Ê son Caso 4: X y u están asintótica-
insesgados, eficientes y mente correlacionados. Esto es:
Característica
consistentes. §1 ·
de X X es Caso 3: X y u son asintóticamente plim¨ X cu ¸ = Lim E(X' u) z 0
© T ¹ nof
aleatoria independientes. Esto implica que:
Esto trae como consecuencia que el
§1 c ·
(estocástico) plim¨ X u ¸ = Lim E(X' u) 0 plim Eˆ z E . Por lo tanto, los
©T ¹ nof estimadores de MCO son
Los Ê son consistentes y inconsistentes (no se cumple el
asintóticamente eficientes. Sin teorema de Gauss Markov).
embargo, serán sesgados en
muestras pequeñas.
Cuando se está en los casos 1 al 3, es suficiente utilizar el método de mínimos

cuadrados ordinarios, pues, si los estimadores de E no son insesgados y eficientes,
serán consistentes y asintóticamente eficientes. Sin embargo, cuando se está en el caso
4, es decir, cuando uno o más regresores son estocásticos y están correlacionados
asintóticamente con el error de la ecuación, será necesario utilizar el método de
variables instrumentales (VI). Los estimadores de variables instrumentales (VI) serán
consistentes. Esto significa que el estimador Ê por MCO, es sesgado, pero además, este
sesgo no se elimina aún cuando crezca la muestra. Por lo tanto también es un estimador
inconsistente de E .
En los casos 1 al 3, también se podría utilizar los estimadores de VI, pues ambos MCO
y VI producirán estimadores consistentes, sin embargo, el estimador de MCO tendrá la
menor varianza, es decir, el estimador Ê MCO será eficiente, V ( Eˆ MCO ) d V ( Eˆ VI ) .
Hay muchas razones por las cuales los regresores y el término de perturbación estarán
correlacionados, al menos asintóticamente. Se puede destacar cuatro razones:
x Cuando uno o más regresores son variables “endógenas” en un sistema de

ecuaciones, en el cual la ecuación que se trabaja es una de las ecuaciones del
sistema.
x Cuando, el error de la ecuación de interés está correlacionada con el error de la
ecuación asociada al regresor estocástico en un sistema de ecuaciones.
x Cuando existe alguna forma de “error en las variables” (errores de medida).
x Cuando la ecuación incluye una variable dependiente rezagada como regresor y
los errores presentan correlación serial.
a) Simultaneidad
Cuando el modelo incluye una variable endógena como variable explicativa (modelo de
ecuaciones simultáneas, se observa consecuentemente correlación de errores entre
ecuaciones distintas.
Supongamos un modelo sencillo de oferta y demanda cuya “forma estructural”10 es:
Demanda: qt E 1 pt u1t p
Oferta: qt E 2 p t u 2t
O
Donde:
ª E[u12 ] E[u1u 2 ]º ª V 12 V 12 º
E[uu ' ] « 2 » « 2 »
¬ E[u1u 2 ] E[u 2 ] ¼ ¬V 21 V 2 ¼
P*
Siendo p y q las variables endógenas del
modelo, es decir, se determinan D
simultáneamente al encontrar el equilibrio
entre la oferta y la demanda. q
q*
La forma reducida del modelo será entonces:
ª 1 º
E 1 pt u1t E 2 pt u 2t pt « » (u1t u 2t )
¬ E1 E 2 ¼
ª 1 º ª E2 º ª E1 º
qt E2 « » (u1t u 2t ) u 2t qt « »u1t « »u 2t
¬ E1 E 2 ¼ ¬ E1 E 2 ¼ ¬ E1 E 2 ¼
El coeficiente de la regresión de q contra p es:
10
Se dice que un modelo está en su forma estructural si refleja la hipótesis económica. Se dice
que el modelo está en su forma reducida si refleja la solución (equilibrio) del modelo.
ª 1 1 ºª E u Eu º
¦« u1t u 2t » « 2 1t 1 2t »
Eˆ
¦ pt qt ¬ E1 E 2 E1 E 2 ¼ ¬ E1 E 2 E1 E 2 ¼
¦ pt2 ªu u º
2
¦ « 1t 2t »
¬ E1 E 2 ¼
E 2 ¦ u12t ( E 1 E 2 )¦ u1t u 2t E 1 ¦ u 22t

Eˆ
¦ u12t 2¦ u1t u 2t ¦ u 22t
Cuyo valor esperado es:

E 2V 12 ( E 1 E 2 )V 12 E 1V 22
E[ Eˆ ]
V 12 2V 12 V 22
Si con fines de simplicidad se supone que la matriz de varianzas y covarianzas de
errores entre ecuaciones distintas es:
ª1 0 º
E[uu ' ] «0 1 »
¬ ¼
Entonces, se puede observar que beta estimado por mínimos cuadrados ordinarios no es
igual ni a la pendiente de la demanda ni a la pendiente de la oferta. Además, este sesgo
no se elimina por más que aumente el tamaño de la muestra.
E 2 E1 E 2 E1
E[ Eˆ ] z0 y Lim E[ Eˆ ] z0
2 n of 2
Por lo tanto, el estimador de beta de MCO será sesgado e inconsistente con respecto a
cualquiera de las pendientes (oferta y demanda). Para ello basta que el modelo sea de
ecuaciones simultáneas. El problema se complica aún más si se supone que la
covarianza contemporánea de errores de ecuaciones distintas es diferente de cero,
E[u1i u 2i ] V 12 z 0 .
b) Errores de medida
Supongamos que se plantea la hipótesis que la variable dependiente (Y) responde

linealmente a los efectos de una variable explicativa que no se puede observar (X*).
Este es el caso de la función consumo de Friedman, donde el ingreso permanente es una
variable explicativa que no existe, y sus aproximaciones operativas suelen tener error de
medida.
Sea E[Yi X i* ] xi* ' E la relación condicional esperada entre Y y X*. Por lo tanto, el
modelo lineal se puede expresar como:
yi Exi* H i
Sin embargo, una aproximación operativa de x* es x que incluye a x* más un error de

medida, el cual supondremos que es aleatorio, es decir:
xi xi* vi . Donde a vi a iid (0, V v2 ) y E[ xi* vi ] E[H i vi ] 0
Entonces,
yi E ( xi vi ) H i
yi Exi u i . Donde: u i Evi H i
Por lo tanto, si E ( xi u i ) 0 el estimador de beta de MCO será insesgado y eficiente

(MELI), pero, si E ( xi u i ) z 0 el estimador de MCO será sesgado e inconsistente, tal
como se puede probar a continuación.
E ( xi u i ) E[( xi* vi )( Evi H i )] EE[ xi* vi ] EE[vi2 ] E[ xi*H i ] E[vi H i ]

E ( xi u i ) EV v2 z 0
Por lo tanto, existe un problema de endogeneidad, pues, x no es independiente de u.
c) Variables Endógena Explicativa y Autocorrelación
Tal como vieramos en la sección 4.7 de este capítulo (Autocorrelación) si estamos

frente a un modelo autorregresivo Yt E 1 E 2Yt 1 u t con un proceso AR(1)
ut Uu t 1 H t (sólo con fines de simplificación), donde H t a Rb(0, V 2 ,0) y
V (u ) 6 V 2 : .
Note que u t depende de ut 1 pero Yt 1 también depende de ut 1 , por lo tanto, u t y Yt 1

están correlacionados, luego existe un problema de endogeneidad en el modelo que
invalida la estimación por MCO.
UV u2
E[Yt 1u t ] z0
1 E2U
Si u t estuviera “bien comportado” (ruido blanco), estaríamos frente a un modelo

autorregresivo, donde u t y Yt 1 no están correlacionados, E[Yt 1u t ] 0 , por lo que los
estimadores de MCO serían insesgados y eficientes (MELI).
4.9.2 Estimación por el Método de Variables Instrumentales (VI)
Si bien no existe un test directo que permite decidir, cuál método es mejor (MCO vs
VI) antes de hacer la regresión, el estimador de VI debe realizarse sobre la base de:
x Información a priori: la teoría podría dar algunas luces sobre el supuesto de

“ortogonalidad” entre los regresores y el término de perturbación.
x Indirectamente se puede utilizar el test de endogeneidad de Wu-Hausman para
probar indirectamente la correlación entre las variables explicativas y el error.
Sea el modelo de regresión lineal general:
Y = XE + u (4.46)
Supongamos que para cada regresor incluido en la matriz X se tiene su

correspondiente “variable instrumental”. Sea Z la matriz de variables instrumentales,
de orden n x k al igual que la matriz X, donde n es el número de observaciones y k el
número de variables explicativas.
Cada una de las variables incluidas en la matriz Z deben estar correlacionadas con su
par en la matriz X, ser estacionaria y ser asintóticamente independiente de error, es
decir:
§1 ·
plim¨ Z cu ¸ = 0 (4.47)
©T ¹
§1 ·
Donde plim¨ Z cX ¸ = : z 0 , es una matriz no singular de constantes.
©T ¹
Sea Ê VI el estimador de variables instrumentales de E .
Ê VI = (Z cX )-1 Z cY (4.48)
Fácilmente se puede probar que el estimador de VI es consistente, para ello se

sustituye la ecuación (4.46) en la ecuación (4.48):
EˆVI = (Z cX )-1 Z c(XE + u ) (4.49)
Ê VI = (Z cX )-1 Z cXE + (Z cX )-1 Z c u
Ê VI = E + (Z cX )-1 Z cu
Reordenando términos se tiene:

-1
§1 · 1
Ê VI = E + ¨ Z cX ¸ Z cu (4.50)
©T ¹ T
Tomando el límite probabilistico se tiene:

-1
ª§ 1 · º ª1 º
plim( Ê VI ) = E + plim «¨ Z cX ¸ » .plim « Z cu » (4.51)
¬«© T ¹ ¼» ¬T ¼
§1 ·
Pero, como plim¨ Z cu ¸ = 0 , entonces:
©T ¹
plimEˆVI E (4.52)
Por lo tanto, el estimador de VI es un estimador consistente.

De igual modo, dato que las variables instrumentales son variables estacionarias,
Z cZ
el p lim debe existir y ser una matriz no singular.
T
a) Selección de los instrumentos
Supongamos que la matriz X está compuesta de dos tipos de variables X1 y X2, que se
puede representar como:
X = {X1 ¦ X2}
Sea X1 aquellas variables de X que no están correlacionadas con el error u, es decir,

estarán las variables determinísticas (no aleatorias) tales como, las variables dummies,
las variables de tendencia, y otras por el estilo. En cambio en X2 estarán las variables
que se sospechan están correlacionadas con u.
En el caso de las variables tipo X1 no requieren encontrar sus instrumentos, pues

satisfacen dos condiciones necesarias para ser, ellas mismas, los instrumentos:
x Estár asintóticamente no correlacionadas con el error.
x Estár asintóticamente correlacionadas (en este caso perfectamente) con su par en X.
El problemas es más complicado para elegir los instrumentos de X2. En general se

puede tener tomar como referencia las siguientes recomendaciones:
x Si la ecuación que se está estimando es parte de un sistema de ecuaciones, la
variable explicativa en la ecuación que es endógena en el sistema puede ser
reemplazado por alguna de las variables exógenas del sistema. Entendiéndose como
variables exógenas aquellas que son determinadas fuera del sistema. Es probable
que alguna de las variables exógenas estén correlacionadas con X2, pero no
correlacionadas con el error u. Se puede elegir más de un instrumento por variable
X2.
x Se puede utilizar valores rezagados de X2 como instrumentos de X2. La idea es que
si X2t está correlacionada contemporáneamente con el error ut, es probable que X2 y
u no estén correlacionados con sus rezagos.
Ejemplo 4.13: Identificación de instrumentos en un Modelo IS/LM
Ct E 1 E 2Yt E 3T1,t E 4T2,t E 5T3,t u t
Donde C y Y son el gasto en bienes de consumo e ingreso disponible, respectivamente,

Tjt, son variables dummy correspondiente a cada trimestre j. Es de esperar que el
ingreso disponible esté correlacionada con el error, por lo que es potencialmente
“endógena”. Por lo tanto, en términos de las notaciones arriba mencionadas se tiene:
X = { X1 ¦ X2} donde X1 = {intercepto, T1,t , T2,t , T3,t} y X2 = {Yt}
En un modelo IS/LM, la cantidad de dinero (M) y el gasto del gobierno (G),

generalmente, son considerados como variables “exogenas”, luego, son candidatas a ser
instrumentos de Y. Por lo tanto, la lista tentativa de instrumentos Z para X2 será:
Z >int ercepto, T1t , T2t , T3t , M t , Gt @
b) El Test de Endogeneidad de Wu-Hausman11
En la práctica se tiene que trabajar con muestras finitas y con errores que no son
observables, luego, no se sabe si una variable está efectivamente correlacionada
asintóticamente con el error, por lo tanto, la elección previa entre la estimación por
mínimos cuadrados ordinarios y por variables instrumentales es incierta. Sin embargo,
con posterioridad, el test de Wu-Hausman trata de probar si entre los estimadores de
MCO y de VI existe una diferencia estadísticamente significativa.
§1 ·
El argumento es que si plim¨ X cu ¸ = 0 , tanto los estimadores de MCO y de VI serán
©T ¹
consistentes, pero, el estimador de VI será ineficiente con respecto al de MCO. Por lo
tanto, se puede plantear las siguientes hipótesis:
§1 ·
H0: plim¨ X cu ¸ = 0 ó también H 0 : E ( X ' u ) 0 (4.88)
©T ¹
§1 ·
Ha: plim¨ X cu ¸ z 0 ó también H 1 : E ( X ' u ) z 0
©T ¹
Bajo la hipótesis nula, no se debiera encontrar diferencias significativas entre Ê VI y

Ê MCO . Si existiera grandes diferencias, se puede tomar esto como evidencia para rechazar
la hipótesis nula. Por lo tanto, esta diferencia se puede utilizar como evidencia de que
existe correlación entre los regresores y el error. En este último caso, los estimadores de
MCO serán inconsistentes mientras el estimador de VI si lo es.
Sea Ê MCO es un estimador consistente y eficiente bajo H 0 , pero no es consistente bajo
H1 .
Ê IV es consistente bajo ambas hipótesis, pero no es eficiente bajo la H 0 .
Defínase qˆ Eˆ MCO Eˆ IV , con varianza V (qˆ ) V ( Eˆ MCO ) V ( EˆVI ) . Siendo Vˆ (qˆ ) un

estimador consistente de V (qˆ ) . Por lo tanto, el test de Hausman se obtiene de probar:

Para el caso de una sola variable “endógena”:
qˆ 2 2 Si m > F k2 gl se
m a F1 gl
ˆ
V (q) rechaza la hipótesis
H 0 : E ( X ' u) 0 nula.
H 1 : E ( X ' u ) z 0 Para el caso de k variables “endógenas”:
m qˆ ' >Vˆ (qˆ )@ qˆ a F k2 gl Si m < F k2 gl
1
se
acepta la hipótesis
nula.
El test de Wu-Hausman es utilizado como un test de endogeneidad (si se rechaza la

hipótesis nula) o un test de exogeneidad (si se acepta la hipótesis nula).
11
Hausman, J.A. (1978), “Specification Test in Econometrics,” Econometrica, 46, 1251-1271.
c) Propiedades del estimador q de Hausman:
Dado que Ê MCO y Ê IV son estimadores consistentes de E , se puede demostrar que

p lim qˆ p lim Eˆ MCO p lim Eˆ IV E E 0 (4.89)
Para probar que V (qˆ) V ( Eˆ MCO ) V ( EˆVI ) será necesario demostrar que C( Eˆ MCO , qˆ ) 0 ,
por lo que se creará un nuevo estimador:
dˆ Eˆ MCO Oqˆ (4.90)

V (dˆ ) V ( Eˆ MCO ) O2V (qˆ) 2OC( Eˆ MCO , qˆ) (4.91)
Dado que el estimador de MCO es eficiente, V (dˆ ) t V ( Eˆ MCO ) , luego:

O2V (qˆ) 2OC(Eˆ MCO , qˆ) t 0 (4.92)
Dado que la V (qˆ ) es siempre positiva, la relación (4.92) se mantendrá rigurosamente si y

solo si C( Eˆ MCO , qˆ ) 0 . En otro caso, si el producto de C( Eˆ MCO , qˆ ) y O toma un valor
negativo puede hacer no cumplir la relación (4.92). Por lo tanto el único valor admitido
es C( Eˆ MCO , qˆ ) 0 .
Por lo tanto, si qˆ Eˆ MCO Eˆ IV , entonces, Eˆ IV Eˆ MCO qˆ , luego:

V ( Eˆ IV ) V ( Eˆ MCO qˆ ) V ( Eˆ MCO ) V (qˆ ) 2C ( Eˆ MCO , qˆ ) V ( Eˆ MCO ) V (qˆ ) (4.93)
Finalmente se demuestra que:

V (qˆ ) V ( Eˆ MCO ) ( EˆVI ) (4.94)
d) Test de Hausman aproximación de Davidson & MacKinnon12
Supongamos que el modelo a estimar es:

Yt E 1 E 2 X 2t E 3 X 3t E 4 X 4t u t (4.95)
Se sospecha que la variable X4t puede estar asintóticamente correlacionada con el error
ut. Supongamos que se han identificado dos instrumentos, W1 y W2, para la variable X4t,
es decir, están muy correlacionadas con X4, pero no con el error.
Paso 1:
Estimar por MCO la “ecuación instrumental”, para la variable potencialmente
“endógena” (X4) contra todas la variables “instrumentales” y obtenga los residuos:
X 4t D1 D 2 X 2t D 3 X 3t D 4W1t D 5W2t H t (4.96)
Hˆt X 4t Dˆ 1 Dˆ 2 X 2t Dˆ 3 X 3t Dˆ 4W1t Dˆ 5W2t , para todo t=1,...,T. (4.97)
Paso 2:
Estimar por MCO el modelo de regresión original:
12
Davidson, Russel & James G. MacKinnon (1989) “Testing for Consistency using Artificial
Regression”, Econometric Theory, Vol. 5, 363-384.
Yt E 1 E 2 X 2 t E 3 X 3t E 4 X 4 t u t (4.98)
Paso 3:
Estime por MCO el modelo aumentado y pruebe la hipótesis nula para la variable
adicional:
Yt E 1 E 2 X 2t E 3 X 3t E 4 X 4t JHˆt vt (4.99)
Hipótesis Estadísticos de Prueba Decisión

Jˆ Si tJˆ ! t 0.05
( n -(k 1)) g.l. se re-
t: tJˆ a t (0.05
n -(k 1)) g.l.
s (Jˆ ) chaza la hipótesis nula.
( SC Re s SC Re s A ) / 1 Si F ! F(10.05
, n -(k 1)) g.l. se
H0 :J 0 F: F a F(10.05
, n - k -1) g.l.
SC Re s A /(n k 1) re-chaza la hipótesis
H1 : J z 0 Ratio de verosimilutud: nula.
RV 2[l ( E , V 2 ) l A ( E , J , V 2 )] ~ F 12gl
Si RV ! F 12gl se
rechaza la hipótesis
nula.
Al igual que antes, si se rechaza la hipótesis nula, admitiremos que la variable X4 es

endógena, pero si se acepta al hipótesis nula se admitirá que X4 es exógena.
Si en la regresión (4.95) se sospecha que más de una variable explicativa, digamos X3 y

X4 están correlacionadas con el error y se han identificado dos instrumentos, W1 y W2,
para ambas variables. En el Paso 1 se deberá correr dos “ecuaciones instrumentales”.
X 3t D 1 D 2 X 2t D 3W1t D 4W2t H 3t (4.100)

X 4t G 1 G 2 X 2t G 3W1t G 4W2t H 4t
Cuyos residuos son:

Hˆ3t X 3t Dˆ 1 Dˆ 2 X 2t Dˆ 3W1t Dˆ 4W2t (4.101)
Hˆ 4t X 4t Gˆ1 Gˆ2 X 2t Gˆ3W1t Gˆ4W2t
El Paso 2, permanece sin cambio, pero en el Paso 3 el modelo de regresión aumentado

es:
Yt E 1 E 2 X 2t E 3 X 3t E 4 X 4t J 3Hˆ3t J 4 Hˆ 4t vt (4.102)
El test de endogeneidad de Hausman bajo la aproximación de Davidson & MacKinnon

es:
Hipótesis Estadísticos de Prueba Decisión
( SC Re s SC Re s A ) / q Si F ! F(q0.05 se
F a F(0.05
q , n - k) g.l.
, n - k) g.l.
H0 :J 3 J4 0 SC Re s A /(n k ) rechaza la Ho. En el

Ratio de verosimilutud: ejemplo q = 2.
H 1 : al menos unJ z 0
RV 2[l ( E , V 2 ) l A ( E , J , V 2 )] ~ F q2 gl Si RV ! F q2 gl se
rechaza la Ho, q = 2.
Econometría: Teoría y Aplicaciones 203
4.10. APLICACIONES Y PROBLEMAS
APLICACIONES:
Caso 1: Autocorrelación, multicolinealidad y variables redundantes.

En el caso 1 en el capítulo 3, página 115, se dió información para estimar la demanda
de pollo, entre ellas precios de las carnes (P), consumo per cápita (Q) y del ingreso per
cápita (ING). Donde los subíndices son: POL (pollo), OVI (ovino), RES (res).
a) Dibuje la cantidad demandada de pollo versus los precios e ingreso.
b) Estime por MCO la curva de demanda de pollo. QPOLt = D + E PPOLt
c) Evalue si tiene problemas de autocorrelación de errores.
d) Estime por MCO Qjt = E1 + E2PPOLt + E3PRESt + E4POVIt + E5INGt.
e) Evalue si los precios de ovino y res son variables redundantes o colineales.
Respuestas:
a) Gráficas
PPOL vs. QPOL ING vs. QPOL
20 800
15 600
P I 400
P 10
N
O G
L
5 200
0 0
0 50 100 150 0 50 100 150
QPOL QPOL
PRES vs. QPOL POVI vs. QPOL

16 20
14
15
12
P 10
P
R O 10
E 8 V
S I
6
5
4
2 0
0 50 100 150 0 50 100 150
QPOL QPOL
b) Estime por MCO QPOLt = D + E PPOLt
Dependent Variable: QPOL

Sample: 1960 1989
C 89.07041 9.885757 9.009973 0.0000
PPOL -5.604076 1.119221 -5.007120 0.0000
c) Evalue si tiene problemas de autocorrelación de errores.
Los valores críticos del estadístico Durbin-Watson para k’=1 y n=30 son para un nivel
de significación del 5% son: dL=1.352 y dU=1.489. El estadístico DW calculado es
d=1.226. Por lo tanto cae en la zona de aceptación de la hipótesis nula de
autocorrelación positiva de primer orden.
El test de Breusch y Godfrey también aceptan la hipótesis nula de autocorrelación

positiva de primer orden. Se puede verificar que no hay evidencias de autocorrelación
de orden superior.
Breusch-Godfrey Serial Correlation LM Test:

Obs*R-squared 5.000330 Probability 0.025342
Test Equation:
Dependent Variable: RESID
C 6.933067 9.662092 0.717553 0.4792
PPOL -0.897484 1.109810 -0.808682 0.4258
RESID(-1) 0.437755 0.188372 2.323882 0.0279
R-squared 0.166678 Mean dependent var 2.78E-15
d) Estime por MCO: QPOLt = E1 + E2PPOLt + E3PRESt + E4POVIt + E5INGt.
Dependent Variable: QPOL

Sample: 1970 1999
C 34.77072 17.91527 1.940842 0.0636
PPOL -5.571690 0.813904 -6.845639 0.0000
POVI -0.147939 1.016093 -0.145596 0.8854
PRES 0.065223 1.147426 0.056843 0.9551
ING 0.133296 0.025181 5.293564 0.0000
de significación del 5% son: dL=1.143 y dU=1.739. El DW calculado es d=1.88, cae
dentro del rango dU=1.729 y 4-dU=2.261, por lo tanto, cae en la zona de aceptación de
la hipótesis nula de no autocorrelación de primer orden. El test de Breusch y Godfrey lo
confirma.

e) Evalue si los precios de ovino y res son redundantes o colineales.
La inclusión del precio de ovino y de res a la demanda de pollo muestran estadísticos t

no significativos, -0.14 y 0.05 respectivamente. El test F de Wald nos señala que son
redundantes, por lo que podrían eliminarse del modelo, pero, hay alguna razón de
multicolinealidad en la no significacia de los estimadores?.
Redundant Variables: POVI PRES

Test Equation:
C 34.36769 12.11679 2.836370 0.0085
PPOL -5.577449 0.782899 -7.124099 0.0000
ING 0.133068 0.024204 5.497843 0.0000
Si se observa la matriz de correlaciónes simples (matriz R) no hay evidencia de una alta

colinealidad entre dos variables explicativas. De igual modo, la multicolinealidad entre
variables explicativas medido por los “Factores de Inflación de Varianza-FIV”
(elementos de la diagonal de la matriz R-1) todos son menores que 5, por lo tanto, no es
un problema de colinealidad ni de multicolinealidad.
Matriz de Correlaciones entre variables explicativas (R)

PPOL POVI PRES ING
PPOL 1.000000 0.037713 -0.025154 -0.006186
POVI 0.037713 1.000000 -0.162183 0.057147
PRES -0.025154 -0.162183 1.000000 -0.010017
ING -0.006186 0.057147 -0.010017 1.000000
Matriz de Deflactores (R-1)

PPOL POVI PRES ING
PPOL 1.001868 -0.035085 0.019595 0.008399
POVI -0.035085 1.031505 0.165834 -0.057503
PRES 0.019595 0.165834 1.027398 0.000936
ING 0.008399 -0.057503 0.000936 1.003347
Por lo tanto: Las variables precio de ovino y de res son variables redundantes.
Caso 2: Autocorrelación, detección y corrección
En el capítulo 3, en el ejemplo 3.9 (página 107) se presenta los datos del Consumo y el
PBI para la economía peruana.
a) Estime la función consumo: CPRt = D + EPBIt + ut

b) Verifique si existe problemas de autocorrelación de errores por los métodos de
Durbin Watson y el Test LM de Breusch y Godfrey.
c) Corrija la autocorrelación modelo mediante dos métodos diferentes.
d) Verifique que los residuos del modelo corregido ya no violan el supuesto de no
autocorrelación. Utilice el Test Adecuado.
Respuestas:
a) Estime la función consumo: CPRt = D + EPBIt + ut

Sample: 1950 1998
C 76.40149 30.64533 2.493088 0.0162
PBI 0.631254 0.010403 60.67941 0.0000
b) Verifique si existe problemas de autocorrelación de errores por los métodos de

Durbin Watson y el Test LM de Breusch y Godfrey.
de significación del 5% son: dL=1.503 y dU=1.585. El DW calculado es d=0.467. Por lo
tanto cae en la zona de aceptación de la hipótesis nula de autocorrelación positiva
AR(1). Esto se verifica con el test de Breusch y Godfrey.

c) Corrección de la autocorrelación de errores por dos métodos
Método de Mínimos Cuadrados No Lineales
Este método consiste en estimar la ecuación de diferencias generalizadas, ecuación (3),

que se deriva a partir de las ecuaciones (1) y (2).
(1) CPRt = D + EPBIt + ut

(2) ut Uut 1 H t
(3) Yt E 1 (1 U ) E 2 X t UX t 1 UYt 1 H t

Sample(adjusted): 1951 1998
Included observations: 48 after adjusting endpoints
C 100.6934 89.19488 1.128914 0.2649
PBI 0.621052 0.027127 22.89415 0.0000
AR(1) 0.776834 0.097717 7.949796 0.0000
Inverted AR Roots .78
Dado que la Ecuación de Diferencias Generalizadas es un modelo dinámico por su

naturaleza, el test de d de Durbin-Watson no se puede utilizar para detectar la
autocorrelación de primer orden, sin embargo, su valor de 1.73 (cercano a dos) puede
suponer indicios de que no habría problemas de autocorrelación de errores. Más
adelante se presenta el LM Test de Breusch y Godfrey.
Método de Hendry
Hendry supone que el modelo tiene problemas de autocorrelación porque

probablemente está omitiendo alguna variable relevante. El propone el modelo
dinámico general cuya especificación es:
(3) Yt E1 E 2 X t E 3 X t 1 E 4Yt 1 H t

Sample(adjusted): 1951 1998
Included observations: 48 after adjusting endpoints
C 24.14889 22.47778 1.074345 0.2885

PBI 0.630609 0.045877 13.74576 0.0000
CPR(-1) 0.780472 0.099734 7.825525 0.0000
PBI(-1) -0.495319 0.079429 -6.236020 0.0000
El modelo dinámico general de Hendry es por definición dinámico, por lo que no se

puede utilizar el test de d de Durbin-Watson para detectar autocorrelación de primer
orden, sin embargo, su valor de 1.76 (cercano a dos) podría indicar que no hay
problemas de autocorrelación de errores. La prueba adecuada es el LM Test de Breusch
y Godfrey.
d) Verifique que los residuos ya no violan el supuesto de no autocorrelación.
Método Mínimos cuadrados No Lineales:

Método Hendry (Modelo dinámico General):

Ambos métodos corrigen la autocorrelación de primer orden en la función consumo,

nótese que en ambos casos se acepta la hipótesis nula de no autocorrelación de errores.
Caso 3: Heterocedasticidad
En el archivo SHALIM.WF1 se dispone de información de una encuesta de hogares de

la fracción gastada en alimentos (SHALIM) y el logaritmo del ingreso per cápita
(LINGPC).
a) Estime por MCO la curva de Engel: SHALIMt = D + ELINGPCt + ut

b) Verifique si se sostiene el supuesto de homocedasticidad use el método gráfico y el
test de White.
c) Corrija el problema si hay heterocedasticidad por mínimos cuadrados generalizados
factibles.
d) Verifique si se sostiene el supuesto de homocedasticidad.
Respuestas:
a) Estime por MCO la curva de Engel: SHALIMt = D + ELINGPCt + ut
Dependent Variable: SHALIM

Sample: 1 621
C 0.926408 0.039481 23.46460 0.0000
LINGPC -0.078788 0.003993 -19.73246 0.0000
b) Test de homocedasticidad.
Método Gráfico:
0.6
Nótese que las familias de más
0.4 bajos ingresos tienen una mayor
dispersión en el fracción gastada de
alimentos.
0.2
RES
Por lo tanto, es probable que se

0.0 rechace la hipótesis nula de
homocedasticidad.
-0.2
-0.4
8 9 10 11 12 13
LINGPC
Test de White:
En este caso el Test de White prueba la hipótesis nula: H 0 : J 2 J3 0 en el modelo:

uî2 J 1 J 2 LINGPC J 3 LINGPC ^ 2 .
Los resultados indican que se rechaza la hipótesis nula, por lo tanto, hay evidencia de
heterocedasticidad en los residuos.
White Heteroskedasticity Test:

Test Equation:
Dependent Variable: RESID^2
Sample: 1 621
C 0.510960 0.079790 6.403843 0.0000
LINGPC -0.098130 0.016122 -6.086905 0.0000
LINGPC^2 0.004720 0.000812 5.812502 0.0000
Si se evidencia heterocedasticidad en la varianza de la regresión, la matriz de varianzas

y covarianzas de los estimadores de los parámetros estimado por MCO son
artificialmente pequeños. La verdadera matriz de varianzas y covarianzas es otra.
Sin considerar la heterocedasticidad: V ( Eˆ ) V u2 X ' X 1
V ( Eˆ ) V 2 X ' X X ' ¦ X X ' X
1 1
Considerando la heterocedasticidad: u

White Heteroskedasticity-Consistent Standard Errors & Covariance
C 0.926408 0.050174 18.46400 0.0000
LINGPC -0.078788 0.004931 -15.97658 0.0000
c) Corrección de la heterocedasticidad.
Fase I: Estimación de la varianza individual
1° A partir del modelo inicial obtener los residuos uî SHALIM Dˆ EˆLINGPC .
2° Estimar el modelo : log (uî2 ) Ȗˆ1 Ȗˆ2 LINGPCi Ȗˆ2 LINGPCi2
3° Obtener la varianza estimada: Vˆ i2 uî2 exp(Ȗˆ1 Ȗˆ2 LINGPCi Ȗˆ2 LINGPCi2 )
Dependent Variable: LOG(RES2)

Sample: 1 621
C 37.82378 18.82859 2.008849 0.0450
LINGPC -8.194666 3.804326 -2.154039 0.0316
LINGPC^2 0.366915 0.191606 1.914949 0.0560
R-squared 0.065901 Mean dependent var -7.154034
Fase II: Estimación del Ponderador
Obtenga Pi 1/ Vˆ i2 1 / Vˆ i
Fase III: Corrección de la heterocedasticidad
Estimar por Mínimos Cuadrados Ponderados donde P es el ponderador.

El modelo generalizado es: P * SHALIM P * D EP * LINGPC

Sample: 1 621
Weighting series: P
C 0.816160 0.037049 22.02933 0.0000
LINGPC -0.067980 0.003629 -18.73103 0.0000
Weighted Statistics
e) Verifique si se sostiene el supuesto de homocedasticidad.
El modelo estimado por Mínimos Cuadrados Ponderados corrige perfectamente la

heterocedasticidad. El test de White acepta la hipótesis nula de homocedasticidad en el
modelo generalizado.
White Heteroskedasticity Test:

Test Equation:
Dependent Variable: STD_RESID^2
Date: 09/18/02 Time: 01:20
Sample: 1 621
C -0.041452 0.041130 -1.007827 0.3139
LINGPC 0.009290 0.008310 1.117888 0.2640
LINGPC^2 -0.000483 0.000419 -1.153364 0.2492
PROBLEMAS:
Problema 1: Considere un modelo de series de tiempo en el que se observa

simultáneamente problemas de autocorrelación y heterocedasticidad en los errores, dado
por:
(1) X t E 1 E 2 X t 1 u t
(2) u t Uu t 1 H t
(3) H t a N (0, V 2 X i )
Note que la variable V (H t ) V 2 X i depende de Xi, además Xi no es una variable

endógena rezagada. Estime Por mínimos cuadrados generalizados factibles.
Problema 2: Señale si las siguientes afirmaciones son verdaderas o falsas.
a) La heterocedasticidad causa que los estimadores sean sesgados e ineficientes.

b) Cuando la autocorrelación está presente, los estimadores de MCO son
simultáneamente sesgados e ineficientes.
c) No es suficiente que dos variables explicativas tengan alta correlación para
sospechar que existe multicolinealidad.
Problema 3: Considere el siguiente modelo de medición de la inflación:

S t E1 E 2S t 1 E 3 m t donde u t Uu t 1 H t , y Hta(0, V2). Estamos interesados en
estimar E 1 y E 2 y probar la hipótesis nula: E 2 E 3 1
a) Qué test utilizaría para detectar la autocorrelación de primer orden AR(1).
b) Suponga que se acepta la hipótesis nula de no autocorrelación de errores, H 0 : U 0 .
Qué método utiliza para estimar los parámetros, explique porqué.
c) Suponga que se rechaza la hipótesis nula de no autocorrelación de errores,
H 0 : U 0 . Qué método utiliza para estimar de manera consistente los parámetros
E 1 , E 2 y U , explique porqué.
d) Cuál es la interpretación económica de “no ilusión monetaria” en el largo plazo si se
acepta la hipótesis nula E 2 E 3 1 .
Problema 4: Se le pide estimar el siguiente modelo de oferta de trabajo para mujeres

casadas.
Hi D 0 D 1 ln Wi D 2 K i D 3 M i u i
Donde:
Hi = Número de horas trabajadas por la señora i

Wi = Salario por hora de la señora i
Ki = Número de hijos de la señora i
Mi = Variable Dummy. M=1 si el esposo trabaja y M=0 si el esposo no trabaja.
Suponga que se cree que los residuos son heterocedásticos, donde Var (u i ) T ( I i ) 2 ,
donde T es desconocido e I es el ingreso. ¿Cómo obtendría los estimadores MELI de
los coeficientes del modelo?.
Problema 5: Son características de alta multicolinealidad

a) Coeficientes con altos errores estándar y bajo nivel de significación individual,
aunque con alta significancia global y un R2 alto.
b) Las varianzas de los betas estimados por MCO de las variables colineales son
grandes.
c) Los coeficientes estimados todavía son MELI (Mejores Estimadores Lineales e
Insesgados).
d) Solo a y b.
e) Todas son verdaderas
Problema 6: ¿Qué afirmación es verdadera?

a) Dado el siguiente modelo Y b1 b2*X 2 b3*X 3 si el regresor X2 tiene la siguiente
especificación X 2 UX 32 , entonces, existe multicolinealidad en muy altísimo grado.
b) La multicolinealidad es un problema de grado y no de clase.
c) Dada la naturaleza de las variables económicas, no se puede evitar la
multicolinealidad.
d) Los estimadores siguen siendo insesgados y eficientes.
e) Todas menos una.
Problema 7: Para remediar el problema de la multicolinealidad, cuál es verdadero?

a) Se debe eliminar variables, duidando que el R2 no baje y el R2 ajustado aumente.
b) Si se tiene información a priori, se puede reducir la multicolinealidad incorporando
dicha información en el modelo.
c) Solo a)
d) a) y b)
Problema 8: ¿Cuál es la respuesta correcta?

a) Cuando se tiene un R2 alto, una correlación simple alta entre regresores, el culpable
es la colinealidad.
b) Aun cuando la correlación simple entre regresores es baja, puede existir un
problema de multicolinealidad por ello se debe analizar la matriz de deflactores.
c) Se puede utilizar una regresión contaminada con multicolinealidad si el propósito de
su estimación era únicamente predictiva.
d) La multicolinealidad produce una fuerte correlación entre los residuos.
e) a) y b).
Problema 9: Sobre la heterocedasticidad es cierto que:

a) El método gráfico (ploteo) es útil, pero es un método informal.
b) Los estimadores dejan de ser MELI en presencia de dicho problema.
c) La V(ȕˆ)sin considerar Het. ! V(ȕˆ)considerando Het .
d) El test de White permite detectar este tipo de problemas.
e) MCG o MCP permiten corregir el problema al lograr una varianza homocedástica.
f) Todas son verdaderas.
Problema 10: Sobre la heterocedasticidad es cierto que:
a) En presencia de heterocedasticidad los estimadores no pierden su propiedad de ser

insesgados.
b) El test de White y el test de Goldfeld y Quandt son muy poco útiles para detectar un
problema severo de heterocedasticidad.
c) La heterocedasticidad es un problema frecuente cuando la información proviene de
series de tiempo.
d) b) y c).
e) b) y c).
Econometría, Teoría y Aplicaciones Juan Pichihua Serna 215
CAPITULO 5:
MODELOS LINEALES
MULTIECUACIONALES

5.2 Tipos de Modelos Multiecuacionales 217
5.3 Modelo de Ecuaciones Recursivas (MER) 217

5.3.1 Especificación de un MER 217
5.3.2 Test de Independencia de Errores 218
5.4 Modelo de Ecuaciones Aparentemente No Relacionadas (MEANR) 219

5.4.1 Especificación de un MEANR 219
5.4.2 Test de Independencia de Errores 220
5.4.3 Estimación: Método SUR 221
5.4.4 Casos Especiales 222
5.5 Modelo de Ecuaciones Simultáneas (MES) 223

5.5.1 Elementos del Modelo de Ecuaciones Simultáneas 225
5.5.2 Expresiones de un Modelo de Ecuaciones Simultáneas 226
5.5.3 Sesgo e Inconsistencia de los Estimadores de MCO 228
5.5.4 El Problema de la Identificación 232
a) Condición de Orden 233
b) Condición de Rango 236
5.6 Estimación de Modelos de Ecuaciones Simultáneas 239
5.6.1 Métodos de Información Limitada 240
a) Mínimos Cuadrados Indirectos (MCI) 241
b) Mínimos Cuadrados en Dos Etapas (MC2E) 245
b.1) Propiedades de los Mínimos Cuadrados en Dos Etapas (MC2E)247
b.2) Ejemplos 248
5.6.2 Métodos de Información Completa 250
b) Mínimos Cuadrados en Tres Etapas (MC3E) 250
c) Máxima Verosimilitud Con Información Completa (MVIC) 255
5.7 Uso de los Modelos de Ecuaciones Simultáneas 257
5.7.1 Análisis Estructural 257
5.7.2 Análisis o Simulación de Política 259
5.7.3 Proyección 261
216 Capítulo 5: Modelos Lineales Multiecuacionales
CAPITULO 5: MODELOS LINEALES

MULTIECUACIONALES
5.1 ESPECIFICACIÓN
Supongamos el siguiente modelo general con m-ecuaciones
J 11Y1t J 12Y2t J 13Y3t J 1mYmt E 11 E 12 X 2t ....... E 1k X kt u1t 0 (5.1)

J 21Y1t J 22Y2t J 23Y3t J 2 mYmt E 21 E 22 X 2t ....... E 2 k X kt u 2t 0
.......................................................................................................................................
J m1Y1t J m 2Y2t J m 3Y3t J mmYmt E m1 E m 2 X 2t ....... E mk X kt u mt 0
o también
ª J 11 J 12 J 1m º ª Y1t º ª E 11 E 12 E 1k º ª X 1t º ª u1t º ª0 º
«J »« » « »« » « » «0 »
« 21 J 22 J 2 m » «Y2t » « E 21 E 22 E 2 k » « X 2t » « u 2t » « »
« »« » « »« » « » «0 »
« »« » « »« » « » « »
¬J m
1 J m 2 J mm ¼ ¬Ymt ¼ ¬ E m1 E m 2 E mk ¼ ¬ X kt ¼ ¬u mt ¼

0¼
¬,
* Y E X u 0
Donde: i 1,2,3,...., m , m ecuaciones = al número de variables endógenas (Y) del

modelo.
j 1,2,3,...., k , k variables predeterminadas(X). Siendo X 1t 1 t .
t 1,2,3,...., n , n observaciones.
Luego, el modelo multiecuacional también puede representarse matricialmente como:
* Y EX u 0 (5.2)
Con matriz de varianzas y covarianzas de errores contemporáneos entre las diferentes

ecuaciones del modelo será: E (uu ' ) ) 6 I n , donde:
ª V 11 V 12 V 1m º ª V 12 V 12 V 1m º
«V « »
« 21 V 22 V 2 m »» «V 21 V 2
2
V 2m »
6 (5.3)
« » « »
« » « »
¬V m1 V m 2 V mm ¼ ¬«V m1 V m 2 V m2 ¼»
ª V 12 I n V 12 I n V 1m I n º
« »
«V 21 I n V 22 I n V 2m I n »
) 6 In (5.4)
« »
« »
«¬V m1 I n V m2 I n V m2 I n »¼
En este modelo, se está suponiendo que los errores dentro de cada ecuación están bien
comportados, es decir, no se evidencia problemas de autocorrelación de errores entre
observaciones distintas ni de heterocedasticidad para todas las observaciones dentro de
cada ecuación. Por ello, en la m-ésima ecuación los errores se comportarán como ruido
blanco.
u m a RB(0, V m2 I n ) donde E (u mt u m (t r s ) ) 0 s z 0
5.2 TIPOS DE MODELOS MULTIECUACIONALES
Según las características de las matrices de parámetros * y E y la matriz de varianzas y

covarianzas de los errores, 6 , los modelos multiecuacionales pueden ser agrupados en
tres tipos de modelos:
x Modelo de ecuaciones recursivas

x Modelo de ecuaciones aparentemente no relacionadas
x Modelo de ecuaciones simultáneas.
En todos los casos, la lista de variables predeterminadas (X) presentes en las ecuaciones
deberán ser distintas, para evitar problemas de identificación de cada una de ellas.
5.3 MODELO DE ECUACIONES RECURSIVAS (MER)

Los modelos de ecuaciones recursivas se caracterizan porque la matriz * de parámetros
de las variables endógenas presentes en el modelo tiene forma triangular, y la matriz de
varianzas y covarianzas de los errores, 6 , tiene forma diagonal, pues los errores
contemporáneos de ecuaciones distintas no están correlacionados, E[u i u j ] V ij 0 .
5.3.1 Especificación de un MER
Para simplificar supongamos un modelo recursivo con tres ecuaciones dado por:
y1t J 12 y 2t J 13 y 3t E 1 x1t u1t

y 2t J 23 y 3t E 2 x 2t u 2t
y 3t E 3 x 3t u 3 t
Nótese que la matriz * tiene forma triangular, cuya solución es escalonada

ª1 J 12 J 13 º
* ««0 1 J 23 »»
«¬0 0 1 »¼
La forma reducida del modelo es:

y1t E 1 x1t J 12 E 2 x 2t (J 23J 12 E 3 J 13 E 3 ) x3t u1t J 12 u 2t (J 12J 23 J 13 )u 3t
y 2t E 2 x 2t J 23 E 3 x3t u 2t J 23u 3t
y 3t E 3 x 3t u 3t
Por lo tanto, si los errores contemporáneos de ecuaciones distintas no están

correlacionados se cumple que E (u1t u 2t ) E (u1t u 3t ) E (u 2t u 3t ) 0 , es decir, la matriz
de varianzas y covarianzas de los errores tendrá la forma diagonal siguiente:
ªV 11 0 0 º
«
6 « 0 V 22 0 »»
«¬ 0 0 V 33 »¼
Esto implica los estimadores de los parámetros del modelo estructural por MCO
(ecuación por ecuación) serán insesgados y eficientes, es decir, MELI.
5.3.2 Test de independencia de errores
En un modelo general de m-ecuaciones habrá la posibilidad de m(m-1)/2 covarianzas

entre los errores contemporáneos de ecuaciones distintas, el test del Multiplicador de
Lagrange planteado por Breusch y Pagan para probar la no correlación contemporánea
de errores de diferentes en un modelo con m-ecuaciones tendrá los siguiente pasos:
Paso 1: Estimar por MCO cada una de las ecuaciones del modelo y obtener los residuos
û it .
Paso 2: Probar la hipótesis siguiente:

2 2
O n¦ ¦ rij i z j a F m ( m 1) Si O d F 2
i j m ( m 1) se acepta
2
2
H 0 : V 12 V 13 V m ( m 1) 0 la Ho de no correlación de
Donde: errores entre ecuaciones
H 1 : al menos unV ij z 0
¦ uˆ i uˆ j distintas. En caso
rij contrario debe ser
(¦ u i2 )(¦ u 2j ) rechazada
De aceptarse la hipótesis nula, las ecuaciones del modelo podrán ser estimados por
MCO, siendo los estimadores MELI, en caso contrario, los estimadores de MCO serán
sesgados e inconsistentes. En este último caso, será preciso utilizar algunos métodos
alternativos, tales como el de Variables Instrumentales o el de Mínimos Cuadrados
Generalizados.
En el caso de un modelo con tres ecuaciones, el test de Breusch y Pagan será:

H 0 : V 12 V 13 V 23 0 versus H 1 : al menos unV ij z 0
O n(r122 r132 r232 ) a F 32g .l .
Ejemplo 5.1: Modelo de la telaraña entre la oferta y la demanda
Un ejemplo clásico de modelo de ecuaciones recursivas es el “modelo de la telaraña”.

En el caso del sector agrícola, el equilibrio entre el precio y la cantidad es dinámico,
pues, que las decisiones de siembra de los productores se dan en un período previo al de
la venta de la producción, mientras el precio pagado por el consumidor se determina
según el abastecimiento que exista en ese momento en el mercado. La forma estructural
del modelo será entonces:
Oferta: qt E 1 pt 1 u1t Donde: q es la cantidad, p el precio, I el ingreso.

Demanda: pt J 1 q t E 2 I t u 2t
ª 1 0º ªV 12 0 º
Dado que * « » , si E (u1t u 2t ) 0 , entonces 6 « 2»
, por lo tanto, el
¬ J 1 1¼ ¬ 0 V2 ¼
modelo de oferta y demanda funciona como un modelo de ecuaciones recursivas, en ese
sentido, los estimadores de MCO de la oferta y la demanda serán insesgados y eficientes
(MELI).
El test de Breusch y Pagan en este ejemplo será:

H 0 : V 12 0 versus H 1 : V 12 z 0
O nr122 a F 12g .l .
De aceptarse la hipótesis nula ambas ecuaciones podrán ser estimadas por MCO, en
caso contrario, la función de demanda deberá ser estimada por Variables Instrumentales
y la función de oferta por MCO.
5.4 MODELO DE ECUACIONES APARENTEMENTE NO RELACIONADAS

(MEANR)
Los modelos de ecuaciones aparentemente no relacionadas se caracterizan porque la
matriz * de parámetros de las variables endógenas presentes en el modelo tiene forma
diagonal (matriz identidad), la matriz X de variables predeterminadas son diferentes en
cada ecuación y la matriz de varianzas y covarianzas de los errores, 6 , tiene forma
cuadrada, pues los errores contemporáneos de ecuaciones distintas si están
correlacionados, E[u i u j ] V ij z 0 .
5.4.1 Especificación de un MEANR
Considérese el caso de un individuo cuyas preferencias están expresadas en la función

de utilidad U U (Q x , Q y , Q z ) AQ xJ 2 Q Jy 3 Q zJ 4 , donde Q x , Q y , y Q z son las cantidades
consumidas de los bienes X, Y y Z. En este caso, los exponentes J 2 , J 3 , y J 4
representan las fracciones gastadas en cada uno de los bienes, por lo tanto, se cumple
que: J 2 J 3 J 4 1 . Suponga que individuo cuenta con un presupuesto limitado I con
los cuales debe los citados bienes. Finalmente, luego de maximizar U sujeto al
presupuesto se obtiene las siguientes funciones de demanda homogéneas de grado cero
en precios e ingreso:
Q x Px
J2 Qx J 2 .I 1 .Px1 log Q x log J 2 1 * log I 1 * log Px
I
Q y Py
J3 Qy J 2 .I 1 .Py1 log Q y log J 3 1 * log I 1 * log Py
I
Q z Pz
J2 Qz J 2 .I 1 .Pz1 log Q z log J 4 1 * log I 1 * log Pz
I
Si con fines didácticos se relaja la condición de homogeneidad, el modelo de demanda

puede expresarse de la siguiente manera:
log Q xt E 11 E 12 log I t E 13 * log Pxt u1t
log Q yt E 21 E 22 log I t E 23 * log Pyt u 2t
log Q zt E 31 E 32 log I t E 33 * log Pzt u 3t
Remplazando variables se tiene:

y1t E 11 E 12 x 2t E 13 x3t u1t
y 2t E 21 E 22 x 2t E 23 x 4t u 2t
y 3t E 31 E 32 x 2t E 33 x5t u 3t
Si se agrupa y reemplaza las variables explicativas por X 1t [1 x 2t x3t ] ,

X 2t [1 x 2t x 4t ] , X 3t [1 x 2t x5t ] , y los parámetros por E 1 ' [ E 11 E 12 E 13 ] ,
E 2 ' [ E 21 E 22 E 23 ] , y E 3 ' [ E 31 E 32 E 33 ] , se tiene el siguiente modelo de
ecuaciones aparentemente no relacionadas (SUR: Seemingly Unrelated Regression).
y1t X 1t E 1 u1t
y 2t X 2t E 2 u 2t
y 3t X 3t E 3 u 3t
Este sistema de ecuaciones puede expresarse en forma matricial de la siguiente manera:
ª1 0 0º ª y1t º ª X 1t 0 0 º ª E 1 º ª u1t º
«0 0 0 » « y » « 0 X 0 »» «« E 2 »» ««u 2t »»
« » « 2t » « 2t
¬«0

0 1¼» ¬« y 3t ¼»

¬« 0

0

X 3t ¼» ¬« E 3 ¼» ¬«u 3t ¼»
, ,
* y X E u
*Y EX u 0
Donde la matriz * tiene forma diagonal:
ª1 0 0º
* «0 1 0 »
« »
«¬0 0 1»¼
y donde los errores contemporáneos de ecuaciones distintas están correlacionados, es

decir, siV ij z 0 , por lo tanto, la matriz de varianzas y covarianzas de los errores tiene la
siguiente forma:
ªV 12 V 12 V 13 º
« 2 »
) 6 In «V 12 V 2 V 23 » I n
«V 13 V 23 V 32 »
¬ ¼
5.4.2 Test de independencia de errores
Al igual que en el caso de modelos de ecuaciones recursivas, en modelos con

ecuaciones aparentemente no relacionadas el test de Breusch y Pagan permite probar si
existe correlación contemporánea de errores de diferentes en un modelo.
Paso 1: Estimar por MCO cada una de las ecuaciones del modelo y obtener los residuos
û it .
Paso 2: Probar la hipótesis siguiente:

H 0 : V 12 V 13 V m ( m 1) 0 O n¦ ¦ rij2 i z j a F m2 ( m 1) Si O d F m2 ( m 1) se
i j 2 2
H 1 : al menos unV ij z 0
acepta la Ho.
En caso de aceptarse la hipótesis nula, implicará que los estimadores de MCO serán
MELI, pero en caso contrario, implicará que no se deberá utilizar MCO para estimar los
parámetros por ser sesgados e inconsistentes. Los estimadores eficientes los proporciona
los Mínimos Cuadrados Generalizados para modelos multiecuacionales (SUR).
Regresando al modelo de demanda con tres ecuaciones, el test de Breusch y Pagan será:
H 0 : V 12 V 13 V 23 0 versus H 1 : al menos unV ij z 0
O n(r122 r132 r232 ) a F 32g .l .
5.4.3 Estimación: Método SUR
En el caso de modelos de ecuaciones aparentemente no relacionadas, se puede mejorar

la eficiencia de los estimadores si se utiliza la información proporcionada por la matriz
de varianzas y covarianzas de los errores de ecuaciones distintas, ) 6 I n .
Sea el modelo de ecuaciones aparentemente no relacionadas:

Y XE u (5.5)
E [uu ' ] ) 6 I n (5.6)
El estimador eficiente de mínimos cuadrados generalizados es:

Eˆ MCG ( X ' ) 1 X ) 1 ( X ' ) 1Y )

(5.7)
Dado que ) 1 6 1 I n , el estimador SUR para un modelo multiecuacional es:
Eˆ SUR ( X ' (6 1 I n ) X ) 1 ( X ' (6 1 I n )Y ) (5.8)
Donde la matriz de varianzas y covarianzas de los estimadores es:

V ( Eˆ MCG ) ( X ' ) 1 X ) 1 (5.9)
O también:
V ( Eˆ SUR ) ( X ' (6 1 I n ) X ) 1

(5.10)
Dado que 6 es una matriz no conocida, Zellner propone utilizar los residuos de la
estimación por Mínimos Cuadrados Ordinarios para obtener un estimador factible de
6.
Eˆ SUR [ X ' (6ˆ 1 I n ) X ] 1 ( X ' (6ˆ 1 I n )Y ) (5.11)
V ( Eˆ SUR ) [ X ' (6ˆ 1 I n ) X ] 1 (5.12)
Donde:
ªVˆ 12 Vˆ 12 Vˆ 13 º ªVˆ 11 Vˆ 12 Vˆ 13 º
« » « 12 »
6ˆ 2
«Vˆ 12 Vˆ 2 Vˆ 23 » y 6ˆ 1 «Vˆ Vˆ 22 Vˆ 23 »
«Vˆ 13 Vˆ 23 Vˆ 32 » «Vˆ 13 Vˆ 23 Vˆ 33 »
¬ ¼ ¬ ¼
¦ uˆ i uˆ j
Vˆ ij
(n k i )(n k j )
uˆ it y it X it Ê i
5.4.4 Casos Especiales
Existe dos casos cuando los estimadores de mínimos cuadrados ordinarios produce
estimadores insesgados y eficientes (MELI) en el caso de modelos de ecuaciones
aparentemente no relacionadas, los casos son:
x Cuando los errores contemporáneos de dos ecuaciones distintas no están

correlacionadas.
x Cuando todas las variables predeterminadas del modelo son iguales en todas las
ecuaciones.
El primer caso es obvio, pues, si la matriz 6 tiene forma diagonal la matriz de 6 no

proporciona información adicional para mejora la eficiencia en la estimación de los
parámetros. La demostración es muy sencilla, toda vez que se parte del supuesto que la
matriz X también es una matriz diagonal, en ese sentido se tiene que:
X ' (6 1 I n ) X 6 1 ( X ' X ) [ X ' (6 1 I n ) X ] 1 6 ( X ' X ) 1

X ' (6 1 I n )Y 6 1 ( X ' Y )
Eˆ SUR [ X ' (6 1 I n ) X ] 1 ( X ' (6 1 I n )Y ) [6 ( X ' X ) 1 ][6 1 ( X ' Y )]
Eˆ

SUR 66 1 ( X ' X ) 1 ( X ' Y ) I ( X ' X ) 1 ( X ' Y )
m
Eˆ SUR 1
( X ' X ) X 'Y (5.13)
Por lo tanto:
ª Eˆ1SUR º ª ( X 1 ' X 1 ) 1 X 1 ' Y1 º ª Eˆ1MCO º
« ˆ SUR » « 1 » « ˆ MCO »
E « ( X 2 ' X 2 ) X 2 ' Y2 » «E 2 »
E SUR « 2 »
ˆ Eˆ MCO (5.14)
« » « » « »
« SUR » « » « MCO »
«¬ Eˆ m »¼ «¬ Eˆ m »¼
1
«¬( X m ' X m ) X m ' Ym »¼
En el caso que las variables explicativas sean idénticas en todas las ecuaciones, la
demostración también sigue un proceso parecido.
~
ªX1 0 0º ªX 0 0º
«0 « ~ »
« X 1 0 »» «0 X 0» ~ ~
Sea X I m X , entonces: X ' I m X ' .
« » « »
« » « ~»
¬0 0 X1¼ «¬ 0 0 X »¼
Luego:
Eˆ SUR [ X ' (6 1 I n ) X ] 1 ( X ' (6 1 I n )Y )
~ ~ ~
Eˆ SUR [( I m X ' )(6 1 I n )( I m X )]1 ( I m X ' )(6 1 I n )Y
~ ~ ~ ~ ~ ~
Eˆ SUR [6 1 X ' X ] 1 (6 1 X ' )Y [6 ( X ' X ) 1 ](6 1 X ' )Y
~ ~ ~
Eˆ SUR [ I m ( X ' X ) 1 X ' ]Y
~ ~ 1 ~
Eˆ SUR [( I m X ' )( I m X )] ( I m X ' )Y

X' X X'
Nuevamente:
Eˆ SUR ( X ' X ) 1 X ' Y Eˆ MCO (5.15)
Por lo tanto, en ambos casos será suficiente los MCO para estimar los parámetros del
modelo.
5.5 MODELO DE ECUACIONES SIMULTÁNEAS (MES)
Sea *Y EX u 0 un modelo con m ecuaciones simultáneas, entonces, se observará

que la matriz * de parámetros de las variables endógenas presentes en el modelo tiene
forma cuadrada, lo que produce que se violen dos supuestos del modelo de regresión
clásico: (1) porque las variables endógenas explicativas están correlacionadas con el
error en dicha ecuación, E[Yi ' u i ] z 0 , y (2) porque la matriz de varianzas y covarianzas
de los errores, 6 , también tiene forma cuadrada, debido a que los errores
contemporáneos de ecuaciones distintas están correlacionados, E[u i u j ] V ij z 0 , es
decir, E (uu ' ) ) 6 I n , donde:
ª V 12 V 12 V 1m º
« 2 »
6 «V 21 V 2 V 2m »
« »
« »
«¬V m1 V m 2 V m2 »¼
Para la ecuación i-ésima del modelo de ecuaciones simultáneas:

y it J i1Y1t J i 2Y2t J i 3Y3t J imYmt E i1 E i 2 X 2t ....... E ik X kt u it (5.16)
Se cumple que E[Y1t u it ] z 0 ; E[Y2t u it ] z 0 ; .... ; E[Ymt u it ] z 0 .
Donde:
y it = es la variable endógena de la ecuación i-ésima
Y1t , Y2t , Y3t , , Ymt = llamadas “variables endógenas explicativas”, es un conjunto de
otras variables endógenas presentes en la ecuación que operan como variables
explicativas en la ecuación i-ésima (no incluye la variable y it i-ésima) .
X 2t ,......., X kt = es el conjunto de variables predeterminadas presentes en la ecuación i-
ésima.
u it = es el término de perturbación estocástico con: u it a Rb(0, V i2 )
Si se agrupan las variables endógenas explicativas y las variables predeterminadas tal

que: Yi >Y1t Y2t Ymt @ (no incluye la variable yit) ; X i >1 X 2t X mt @ ;
Z i >Yi X i @ ; y G i ' >J i E i @ , la ecuación i-ésima puede expresarse así:
yi Yi J i X i E i 2 u i (5.17)
O también así:
yi Z iG i ui (5.18)
El hecho de que el modelo es de solución simultánea, se lleva a que en la ecuación i-

ésima el supuesto de independencia entre las variables explicativas y el término de
perturbación sea violada, E[ Z i ' u i ] z 0 . La explicación es que en la ecuación i-ésima se
incluye un conjunto de variables endógenas del modelo como variables explicativas y
el simple hecho de ser variables endógenas hace que estén correlacionadas con el
término de perturbación en dicha ecuación, esto es, E[Yi ' u i ] z 0 .
Nótese, sin embargo, que el modelo de ecuaciones simultáneas mantiene la

independencia entre las variables predeterminadas (X) y el término de perturbación en
la ecuación (u), E[ X i ' u i ] 0 , porque por definición las variables predeterminadas son
exógenas o al menos estocásticamente independientes entre si e independientes del
error.
Ejemplo 5.2: Supongamos el siguiente modelo de ecuaciones simultáneas con tres

variables endógenas ( y1 , y 2 , y3 ) y tres variables predeterminadas ( x1 , x2 , x3 ).
y1 J 12 y2 J 13 y3 E1 x1 H1
y2 J 21 y1 J 23 y3 E 2 x2 H 2
y3 J 31 y1 J 32 y2 E 3 x3 H 3
Reordenando se tiene:
y1 J 12 y 2 J 13 y3 E1 x1 H 1 0
J 21 y1 y 2 J 23 y3 E 2 x2 H 2 0
J 31 y1 J 32 y 2 y3 E 3 x3 H 3 0
En forma matricial queda expresado como:

*Y EX u 0
Donde:
ª y1 º ª x1 0 0º ª 1 J 12 J 13 º ª E1 0 0º
Y «« y 2 »» ; X «0 0 »» ; * «J » «0 0 »» ; y
« x2 « 21 1 J 23 » ; E « E2
«¬ y 3 »¼ «¬ 0 0 x3 »¼ «¬J 31 J 32 1 »¼ «¬ 0 0 E 3 »¼
ªV 11 I n V 12 I n V 13 I n º
E (HH ' ) ) 6 In «V I V 22 I n V 23 I n »» .
« 21 n
«¬V 31 I n V 32 I n V 33 I n »¼
5.5.1 Elementos del Modelo de Ecuaciones Simultáneas
Un modelo de ecuaciones simultáneas está compuesto de ecuaciones, variables y

parámetros. Las ecuaciones pueden ser de dos tipo:
x Ecuaciones de comportamiento, cuando el modelo expresa una hipótesis

estocástica, esto es, incluye un término de perturbación además de la relación
entre variables. Por ejemplo, las siguientes funciones de oferta y demanda,
ambas, son ecuaciones de comportamiento:
Oferta: qtJ 12 pt E 1 pins ,t u1t Donde: q es la cantidad, p el precio, I el ingreso,

Demanda: pt J 21 qt E 2 I t u 2t y pins el precio de los insumos.
x Identidades: cuando la ecuación expresa una relación contable no estocástica,

por lo tanto, no requiere que se estimen sus parámetros, pues estos serán 1 o –1.
En las Cuentas Nacionales, se suele presentar, el PBI por el lado del gasto se
expresa como la siguiente identidad:
PBI t C t Gt I t X t M t
Las variables1, en un modelo de ecuaciones simultáneas se suelen dividir en dos grupos,

las m variables “endógenas” (Y), una por cada ecuación, y las k variables
1
A diferencia de los modelos uni-ecuacionales, donde las variables se dividían entre variables
dependientes y variables independientes, en el contexto del modelo de ecuaciones simultáneas
se divide en variables endógenas y predeterminadas.
“predeterminadas” (X). Las variables endógenas son el conjunto de variables que se

determinan simultáneamente en el modelo, es decir, el modelo ha sido construido para
explicarlas. En el contexto de un modelo de ecuaciones simultáneas, una variable
dependiente en una ecuación, puede ser una variable explicativa en otra ecuación. La
presencia de al menos una ecuación de comportamiento en el modelo, hace que el
modelo en su conjunto sea de naturaleza estocástica, pues, el término de perturbación
estocástica, se transmite hacia todas las variables endógenas.
Las variables predeterminadas, pueden ser variables cuyos valores se obtienen fuera del
modelo (llamadas variables exógenas) o variables cuyos valores corresponden a
períodos pretéritos, y pueden estar compuestas por variables endógenas o variables
exógenas rezagadas. Las variables “exógenas” son variables no estocásticas, y por lo
tanto, no están correlacionadas con ningún término de error del modelo. De igual modo,
si bien las variables endógenas rezagadas le dan un carácter dinámico al modelo, se
supondrá, en todos los casos, que mantienen independencia estocástica con respecto al
término de perturbación.
Finalmente, para que una ecuación pueda ser diferenciada de otra ecuación, es preciso
señalar que la lista de variables predeterminadas presentes en cada ecuación sea distinta
en al menos una variable. Esto lo veremos con mayor detalle en la sección “el problema
de la identificación”.
5.5.2 Expresiones de un Modelo de Ecuaciones Simultáneas
Cualquier modelo de ecuaciones simultáneas puede ser expresado de dos maneras, en su

“Forma Estructural”, cuando el modelo expresa las hipótesis económicas sobre las
cuales se basa cada una de las ecuaciones o en su “Forma Reducida” cuando el modelo
expresa la solución para las variables dependientes.
Cuando el modelo se expresa en su forma estructural, una variable dependiente se

define en función de un conjunto de otras variables dependientes explicativas y de un
conjunto de variables predeterminadas. Cuando el modelo se expresa en su forma
reducida, las variables endógenas se definen como función solamente de todas las
variables predeterminadas existentes en el modelo.
Sea la forma estructural del modelo
* Y EX u 0 (5.19)
Donde:
«J »« » « »« » « » «0 »
« 21 J 22 J 2 m » «Y2t » « E 21 E 22 E 2 k » « X 2t » « u 2t » « »
« »« » « »« » « » «0 »
« »« » « »« » « » « »
¬ J m1 J m 2 J mm ¼ ¬Ymt ¼ ¬ E m1 E m 2 E mk ¼ ¬ X kt ¼ ¬u mt ¼ 0¼
¬,

* Y E X u 0
i 1,2,3,...., m , m ecuaciones = al número de variables endógenas (Y) del modelo.

j 1,2,3,...., k , k variables predeterminadas(X). Siendo X 1t 1 t .
t 1,2,3,...., n , n observaciones.
La forma reducida se obtiene de encontrar la solución para las variables endógenas (Y)
como función únicamente de las variables predeterminadas (X).
Y * 1 EX * 1u (5.20)
O también:
ª Y1t º ª S 11 S 12 S 1k º ª X 1t º ª v1t º
«Y » «S »« » « »
« 2t » « 21 S 22 S 2 k » « X 2t » « v 2t »
«» « »« » « »
« » « »« » « »
¬Y
mt ¼ ¬ S m1 S m 2 S mk ¼ ¬ X kt ¼ ¬v mt ¼

Y 3 X u
Y 3X v (5.21)
Donde: 3 * 1 E ; v * 1u
Ejemplo 5.3: Sea la forma estructural de un modelo dinámico de oferta y demanda:
Oferta: (1) qt J 12 pt E 1 pt 1 u1t Donde: qt y pt son las variables endógenas, y It y

Demanda: (2) qt J 22 pt E 2 I t u 2t pt-1 son las variables predeterminadas del modelo.
Si se iguala la oferta a la demanda, la forma reducida del modelo queda expresada de la

siguiente manera:
J 12 pt E 1 pt 1 u1t J 22 pt E 2 I t u 2t
E1 E2 u u1t
(3) pt pt 1 I t 2t pt S 11 pt 1 S 12 I t v1t
J 12 J 22 J 12 J 22 J 12 J 22
Reemplazando pt en la ecuación de demanda (puede ser también en la oferta) se tendrá:
ª E1 E2 u u1t º
qt J 22 « pt 1 I t 2t » E 2 I t u 2t
¬ J 12 J 22 J 12 J 22 J 12 J 22 ¼
E 1J 22 E 2J 12 J u J 22 u1t
(4) qt pt 1 I t 12 2t qt S 21 pt 1 S 22 I t v 2t
J 12 J 22 J 12 J 22 J 12 J 22
Donde:
E1 E2 u 2t u1t
S 11 ; S 12 ; v1t
J 12 J 22 J 12 J 22 J 12 J 22
E 1J 22 E 2J 12 J 12 u 2t J 22 u1t
S 21 ; S 22 ; v 2t
J 12 J 22 J 12 J 22 J 12 J 22
5.5.3 Sesgo e inconsistencia de los Estimadores de Mínimos Cuadrados

Ordinarios
El hecho que se viole el supuesto de independencia entre las variables explicativas y el

término de perturbación en una ecuación, E[ Z i ' u i ] z 0 , produce que los estimadores de
MCO sean sesgados, pero, además, si los errores contemporáneos de ecuaciones
distintas están correlacionados, E[u i u j ] V ij z 0 , el sesgo de los estimadores de MCO
no se eliminará aun cuando crezca el tamaño de la muestra, es decir serán
inconsistentes.
Sea la ecuación i-ésima
yi Yi J i X i E i 2 u i Z iG i ui (5.22)
Donde: Z i >Yi Xi @ ; y Gi ' >J i Ei @
El estimador de MCO:
Gî ( Z i ' Z i ) 1 Z i ' y i , (5.23)
Gî será un estimador sesgado si E (Gî ) z G y será inconsistentes si Lim E (Gî ) z G o

n of
también cuando el p lim Gî z G .
Ejemplo 5.4: Supongamos el siguiente modelo de oferta y demanda:

Donde: qt y pt son las variables endógenas, e It la
Oferta: (1) qt J 12 p t u1t variable predeterminada del modelo. Las variables
Demanda: (2) qt J 22 pt E 2 I t u 2t se expresan como desviaciones de su media
Si se iguala la oferta a la demanda, la forma reducida del modelo queda expresada de la

siguiente manera:
E2 u u
(3) pt I t 2t 1t
J 12 J 22 J 12 J 22
E 2J 12 J u J 22 u1t
(4) qt I t 12 2t
J 12 J 22 J 12 J 22
Supongamos que estamos interesados en estimar la pendiente de la curva de oferta, J 12 ,

para ello se utiliza MCO en la ecuación (1):
(5) Jˆ12
¦ pt qt
2
¦ pt
Si se reemplaza la ecuación (1) en (5), se obtiene:

(6) Jˆ12
¦ pt (J 12 pt u1t ) J ¦ pt u1t
2 12 2
¦ pt ¦ pt
Hallando el valor esperado a la ecuación (6) se tiene:

(7) Jˆ12 J 12
¦ E ( pt u1t ) J Cov( pt u1t )
2 12
¦ E ( pt ) V ( pt )
Dado que V(pt)>0 (positivo), se puede demostrar que E ( pt u1t ) Cov( pt u1t ) z 0 , luego,
Jˆ12 de MCO será un estimador sesgado de J 12 .
Demostración: Reemplazando la ecuación (3) en la covarianza E ( pt u1t ) se tiene:

ª§ E 2 u u1t · º
(8) E ( pt u1t ) E «¨¨ I t 2t ¸u1t »
¬© J 12 J 22 J 12 J 22 ¸¹ ¼
E 2 E ( I t u1t ) E (u 2t u1t ) E (u12t )
E ( pt u1t )
J 12 J 22 J 12 J 22
Aun cuando no se viole el supuesto de que la covarianza de errores contemporáneos

entre ecuaciones distintas es cero, E (u1t u 2t ) V 12 0 , la varianza de u1, V 12 , siempre
tendrá un valor positivo y diferente de cero. Asimismo, el hecho que J 12 sea la
pendiente de la curva de oferta (con signo positivo) y J 22 la pendiente de la curva de
demanda (con signo negativo), el denominador también tendrá un valor positivo y
diferente de cero, luego:
V 12
(9) E ( pt u1t ) 0
J 12 J 22
Luego:
V 12
J 12 J 22
(10) E (Jˆ12 ) J 12 2
z J 12 E (Jˆ12 ) J 12
Vp
Con lo que se demuestra que Jˆ12 de MCO será un estimador sesgado de J 12 , más aún
si V 12 0 , Jˆ12 de MCO subestimará el verdadero valor de J 12 , E (Jˆ12 ) J 12 .
Pero además, si la covarianza de errores contemporáneos entre ecuaciones distintas es

diferente de cero, E (u1t u 2t ) V 12 z 0 , el sesgo de Jˆ12 de MCO no se reducirá aún
cuando crezca el tamaño de la muestra, esto es:
V 12 V 12 V 12 V 12
(11) E ( pt u1t ) Lim E ( pt u1t ) z0
J 12 J 22 n of J 12 J 22
Donde V 12 puede ser positivo o negativo, y siendo la probabilidad cero para que
V 12 V 12 (o de 1 en infinito).
2
V 12 V 1
J 12 J 22
(12) Lim E (Jˆ12 ) J 12 2
z J 12 ,
n of Vp
O también p lim Jˆ12 z J 12
Con lo que se demuestra que Jˆ12 de MCO será un estimador inconsistente de J 12 . Pero
además, dependiendo del signo de la diferencia entre V 12 V 12 , Jˆ12 de MCO sobre
estimará o subestimará el verdadero valor de J 12 .
Ejemplo 5.5: Considérese el siguiente modelo macroeconómico de dos sectores
(1) Ct D EYt u t
(2) Yt Ct I t
Donde: C = consumo,
Y = ingreso disponible,
I = inversión.
Luego de resolver el modelo, la forma reducida del modelo será:
D E u
(3) C t I t t C t 3 0 3 1 I t vt
1 E 1 E 1 E
D E u
(4) Yt I t t Yt 3 0 3 1 I t vt
1 E 1 E 1 E
D 1
Donde: 3 0 ; 31
1 E 1 E
El estimador de E por MCO a partir de la ecuación (1) será:
(5) Eˆ
¦ ct y t
2
¦ yt
Reemplazando la ecuación (1) expresado en desviaciones de su media en la ecuación

(5), se tiene:
(6) Eˆ
¦ ( Ey t u t u ) yt E
¦ ( yt ut yt u )
2 2
¦ yt ¦ yt
Obteniendo el valor esperado de la ecuación (6) se tiene:
(7) E ( Eˆ ) E
¦ E ( yt ut ) u ¦ E ( yt ) E
Cov( y t u t )
2 2
¦ E ( yt ) ¦ E ( yt ) V ( yt )
Dado que la varianza de yt será positiva, V(yt)>0, se puede demostrar que la

covarianza E ( yt u t ) Cov( yt u t ) z 0 , luego, Ê de MCO será un estimador sesgado de
E.
Demostración: Reemplazando la ecuación (4) expresado en desviaciones de su media

en la covarianza E ( y t u1t ) se tiene:
ª§ E u u · º EE (it u t ) E (u t2 ) u E (u t )
(8) E ( y t u1t ) E «¨¨ it t ¸u t »
¬© 1 E 1 E ¸¹ ¼ 1 E 1 E
V2
E ( y t u1t ) ! 0 ()
1 E
Luego:
V 12
1 E
(9) E ( Eˆ ) E !E
V y2
Con lo que se demuestra que Ê de MCO será un estimador sesgado de E , E ( Eˆ ) z E .

Asimismo, dado que la E ( y t u1t ) ! 0 , se puede afirmar inequívocamente que Ê de
MCO sobreestiman el verdadero valor de E ,
De igual modo, aunque aumente el tamaño de la muestra es sesgo de Ê de MCO no se

eliminará.
V 12
1 E
(10) Lim E ( Eˆ ) E !E
nof V y2
O también:
(11) p lim Eˆ z E
Por lo tanto, Ê de MCO es un estimador inconsistente de E . En este caso el sentido

del sesgo es predecible, el estimador de Ê de MCO sobreestima la verdadera
Propensión Marginal a Consumir.
5.5.4 El problema de la identificación
Una ecuación estructural estará identificada sólo cuando existan suficientes variables
predeterminadas del sistema no incluidas en aquella ecuación, de modo que es posible
distinguirla de todas las otras ecuaciones del sistema.
De otro modo, El problema de la identificación consiste en derivar los parámetros de la

forma estructural a partir de los parámetros de la forma reducida. Se dice que una
ecuación estructural está identificada si los parámetros de dicha ecuación pueden ser
derivados a partir de los parámetros del modelo en su forma reducida, en caso contrario
estará subidentificada. Dicha ecuación estará exactamente identificada si se pueden
derivar valores únicos para los parámetros estructurales. La ecuación estará
sobreidentificada si existe más de un posible valor para cada uno de los parámetros
estructurales.
Considere un modelo con m ecuaciones simultáneas (m variables endógenas) y k

variables predeterminadas, cuya forma estructural es:
* Y EX u 0 (5.24)
Donde:
«J »« » « »« » « » «0 »
« 21 J 22 J 2 m » «Y2t » « E 21 E 22 E 2 k » « X 2t » « u 2t » « »
« »« » « »« » « » «0 »
« »« » « »« » « » « »
¬ J m1 J m 2 J mm ¼ ¬Ymt ¼ ¬ E m1 E m 2 E mk ¼ ¬ X kt ¼ ¬u mt ¼ 0¼
¬,

* Y E X u 0
Con una forma reducida expresada por:
Y 3X v (5.25)
Donde: 3 * 1 E ; v * 1u ; y
ª Y1t º ª S 11 S 12 S 1k º ª X 1t º ª v1t º
«Y » «S »« » « »
« 2t » « 21 S 22 S 2 k » « X 2t » « v 2t »
«» « »« » « »
« » « »« » « »
¬Y
mt ¼

S m1 S m 2 S mk ¼ ¬ X kt ¼ ¬v mt ¼
¬

Y 3 X u
Como se puede observar el modelo cuenta con un máximo de m(m+k) parámetros

estructurales, los que debieran ser obtenidos a partir de los mk parámetros de la forma
reducida. Obviamente, el sistema no tiene solución a menos que se imponga algunas
restricciones al modelo estructural o a su matriz de varianzas y covarianzas de los
errores, para que puedan obtenerse los parámetros de cada una de las ecuaciones
estructurales. En caso contrario, solamente algunas ecuaciones podrán ser claramente
diferenciadas (“identificadas”) y otras quedarán no identificadas, por lo que no podrán
estimarse sus parámetros.
Por ejemplo se puede imponer m restricciones en los parámetros J ii (los m elementos

de la diagonal de * pueden ser iguales a 1 o –1, restricción de normalización). De igual
modo se puede excluir al menos una variable predeterminada diferente en cada ecuación
estructural, con lo que se puede eliminar m parámetros E ij , entre otras alternativas de
identificación.
Condiciones para la identificación: Condición de orden y condición de rango.
Formalmente se han identificado dos condiciones para verificar si las ecuaciones de un

modelo de ecuaciones simultáneas está o no identificado, la condición de orden y la
condición de rango.
Supongamos un modelo con m ecuaciones (m variables endógenas) y k variables

predetermina-das, donde: m m * m ** y k k * k ** , siendo mi* el número de
variables endógenas presentes y mi** el número de variables endógenas ausentes, k i* el
número de variables predeterminadas presentes y k i** el número de variables
predeterminadas ausentes en la ecuación i-ésima.
a) Condición de Orden
Una condición necesaria (pero no suficiente) para que la ecuación i-ésima sea
identificada es que el número de variables predeterminadas ausentes en dicha ecuación,
k i** , sea mayor o igual al número de variables endógenas presentes menos uno, mi* 1 .
De otro modo, también se puede señalar que una ecuación estará identificada si el
número de variables predeterminadas del sistema (modelo) es mayor o igual al número
de pendientes de dicha ecuación.
x Si k i** ! mi* 1 la ecuación i-ésima estará sobreidentificada.

x Si k i** mi* 1 la ecuación i-ésima estará exactamente identificada.
x Si k i** mi* 1 la ecuación i-ésima estará subidentificada
Una limitación de la condición de orden es que determina muy bien la identificabilidad

de una ecuación cuando se tiene modelos con dos ecuaciones, pero, suele no ser
suficiente cuando el modelo incluye más ecuaciones.
Ejemplo 5.6: Supongamos el siguiente modelo de oferta y demanda que cuenta con 2
variables endógenas (qt y pt) y una variable predeterminada It .
Ecuaciones estructurales k i** mi* Cond.Orden: k i** vs mi* 1

Oferta: (1) qt J 12 p t u1t 1 2 1=2-1 Exactamente identif.
Demanda: (2) qt J 22 pt E 2 I t u 2t 0 2 0<2-1 Subidentificada
La demanda incluye una variable pt

predeterminada (el ingreso It ) que permite
desplazar la curva. Esta variable está O
ausente en la oferta, de modo que si la x x

demanda se desplaza desde D1 hasta D6 se x
pueden distinguir puntos de equilibrio que x
pertenecen a la curva de oferta. La curva D6
x
de demanda queda sin identificar porque la x D5
oferta no tiene una variable
predeterminada que la diferencie. D4
D3
D1 D2 qt
Si se estima por MCO la forma reducida del modelo se tendría:
pt Sˆ1 I t vˆ1 E2 E 2J 12
. Donde: Sˆ1 y Sˆ 2
qt Sˆ 2 I t vˆ2 J 12 J 22 J 12 J 22
Por lo tanto, la pendiente de la curva de oferta J 12 se puede obtener como:

Sˆ 2
Jˆ12
Sˆ 1
Con Jˆ12 la curva de oferta queda claramente identificada, sin embargo, los parámetros
de la curva de demanda no pueden ser obtenidos a partir de los parámetros de la forma
reducida. Esto se explica porque el modelo tiene tres parámetros por estimar en la forma
estructural (“incógnitas”: J 12 , J 22 , y E 2 ), pero, cuenta solamente con dos parámetros en
la forma reducida (“ecuaciones”: S 1 y S 2 ).
Ejemplo 5.7: Utilizando el modelo de oferta y demanda anterior, se le agrega la

variable predeterminada pt-1 en la curva de oferta. Como se podrá observar esta variable
al no estar presente en la demanda, permite también identificar dicha curva.
Ecuaciones Estructurales k i** mi* Cond.Orden: k i** vs mi* 1

Oferta: (1) qt J 12 p t E 1 pt 1 u1t 1 2 1=2-1 Exactamente identif.
Demanda: (2) qt J 22 pt E 2 I t u 2t 1 2 1=2-1 Exactamente identif
Si se estima la forma reducida de este modelo se tendría:
pt Sˆ11 pt 1 Sˆ12 I t vˆ1t

qt Sˆ 21 pt 1 Sˆ 22 I t vˆ2t
E1 E2 E 1J 22 E 2J 12
Donde: Sˆ11 ; Sˆ12 ; Sˆ 21 ; y Sˆ 22 .
J 12 J 22 J 12 J 22 J 12 J 22 J 12 J 22
Note que en este caso el modelo tiene cuatro parámetros por estimar en la forma
estructural (“incógnitas”: J 12 , J 22 , E 1 y E 2 ), y cuenta con cuatro parámetros en la forma
reducida (“ecuaciones”: S 11 , S 12 , S 21 y S 22 ). Por lo tanto, es posible la existencia de
solución única para los parámetros estructurales.
Sˆ 22 Sˆ 21 ˆ ª Sˆ Sˆ º ª Sˆ Sˆ º
Jˆ12 ; Jˆ 22 ; E1 Sˆ 11 « 21 22 » ; y Eˆ 2 Sˆ 12 « 22 21 »
Sˆ12 Sˆ11 ¬ Sˆ11 Sˆ 12 ¼ ¬ Sˆ 12 Sˆ11 ¼
Ejemplo 5.8: Utilizando el ejemplo anterior, se le agrega la variable predeterminada wt

(salarios) a la ecuación de oferta, esto producirá que la demanda quede
sobreidentificada.

Oferta: (1) qt J 12 p t E 1 pt 1 E 3 wt u1t 1 2 1=2-1 Exactam. identif.
Demanda: (2) qt J 22 pt E 2 I t u 2t 2 2 2>2-1 Sobreidentificada
Si se estima la forma reducida de este modelo se tendría:
(3) pt Sˆ11 pt 1 Sˆ12 I t Sˆ13 wt vˆ1t

(4) qt Sˆ 21 pt 1 Sˆ 22 I t Sˆ 23 wt vˆ 2t
E1 E2 E3
Donde: Sˆ11 ; Sˆ12 ; Sˆ13 ;
J 12 J 22 J 12 J 22 J 12 J 22
E 1J 22 E 2J 12 E 3J 22
Sˆ 21 ; Sˆ 22 ; y Sˆ 23 .
J 12 J 22 J 12 J 22 J 12 J 22
Note que en este caso el modelo tiene cinco parámetros por estimar en la forma
estructural (“incógnitas”: J 12 , J 22 , E 1 , E 2 y E 3 ), y cuenta con seis parámetros en la
forma reducida (“ecuaciones”: S 11 , S 12 , S 13 , S 21 , S 22 y S 23 ). Por lo tanto, la sobre
identificación hace que exista más de una solución para la pendiente de la curva de
demanda Jˆ 22 , y con ello todos los demás parámetros también quedan
sobreidentificados.
Sˆ 21 Sˆ 23
¿ Jˆ 22 ó Jˆ 22 ?,
Sˆ11 Sˆ13
ª Sˆ Sˆ º ª Sˆ Sˆ º
¿ Eˆ1 Sˆ 11 « 21 22 » ó Eˆ 2 Sˆ 11 « 23 22 » ?, etc.
¬ Sˆ11 Sˆ 12 ¼ ¬ Sˆ13 Sˆ12 ¼
Ejemplo 5.9: Supongamos el siguiente modelo con tres ecuaciones simultáneas, que
cuenta con tres variables endóques y1, y2, y3, y dos variables predeterminadas x1 y x2.

(1) y1 J 12 y 2 J 13 y 3 E 1 x1 H 1 1 3 1<3-1 Subidentificada.
(2) y2 J 23 y 3 E 2 x 2 H 2 1 2 1=2-1 Exactamente Identificada
(3) y3 J 31 y1 H 3 2 2 2>2-1 Sobreidentificada
La forma reducida que se puede estimar es:
(4) y1 Sˆ11 x1 Sˆ12 x 2 vˆ1t

(5) y 2 Sˆ 21 x1 Sˆ 22 x 2 vˆ2t
(6) y 3 Sˆ 31 x1 Sˆ 32 x 2 vˆ3t
Note el modelo tiene seis parámetros estructurales por estimar

( J 12 , J 13 , J 23 , J 31 , E 1 y E 2 ), y cuenta con seis parámetros en la forma reducida
( S 11 , S 12 , S 21 , S 22 , S 31 y S 32 ). Aparentemente el modelo está identificado, pero,
recuérdese la condición de orden es una condición necesaria pero no suficiente para
determinar la identificación de las ecuaciones en los casos de modelos con más de dos
ecuaciones. Por lo que será necesario recurrir a la condición de rango.
b) Condición de Rango
Una condición necesaria y suficiente para determinar la condición de identificabilidad

de cada ecuación en un modelo con más de dos ecuaciones es la condición de rango.
Esta condición señala que la ecuación i-ésima (dentro del sistema de m ecuaciones
simultáneas) estará identificada si el rango de la matriz Ai que se construye a partir de
los coeficientes de las variables endógenas y predeterminadas ausentes en la ecuación i-
ésima, pero presentes en el resto de ecuaciones es m-1.
x Si U ( Ai ) ( m 1) la ecuación i-ésima estará identificada.

x Si U ( Ai ) ( m 1) la ecuación i-ésima estará subidentificada.
Para determinar si una ecuación está exactamente identificada o sobreidentificada se

puede recurrir a la condición de orden o a observar cuantas submatrices no singulares se
pueden construir a partir de la matriz de parámetros Ai. Si existe una sola submatriz no
singular, la ecuación estará exactamente identificada, pero si existe más de una
submatriz no singular, la ecuación estará sobreidentificada.
Ejemplo 5.10: Si se reordena las variables del modelo trabajado en el ejemplo anterior,
se tiene:
y1 J 12 y 2 J 13 y3 E1 x1 u1 0
0 y1 y 2 J 23 y3 0 x1 E 2 x2 u 2 0
J 31 y1 0 y 2 y3 0 x1 0 x2 u3 0
En forma matricial queda expresado como: *Y EX u 0
ª y1 º ª 1 J 12 J 13 º ªE1 0º
ª x1 º « 0 1 J » ; y E «0
Donde: Y «y » ; X
« 2» «x » ; * « 23 » « E 2 »»
«¬ y 3 »¼ ¬ 2¼ «¬J 31 0 1 »¼ «¬ 0 0 »¼
ªY º
Reordenando también se puede expresar como: >* E @« » u 0 AZ u 0
¬X ¼
Donde: Z ' > y1 y 2 y 3 x1 x 2 @ y
y1 y2 y3 x1 x2
-1 J 12 J 13 E1 0 (1)
A = 0 -1 J 23 0 E2 (2)
J 31 0 -1 0 0 (3)
Las ecuaciones (1), (2) y (3) estarán identificadas si U ( A1 ) U ( A2 ) U ( A3 ) 2
ªE 2 º ª 1 E1 º ªJ 12 E1 0 º
A1 « 0 » U ( A1 ) 1 ; A2 «J » U ( A2 ) 2 , y A3 « 1 0 E » U ( A3 ) 2
¬ ¼ ¬ 31 0 ¼ ¬ 2¼
Note que la ecuación (1) está subidentificada porque U ( A1 ) 2 . La ecuación (2) está
exactamente identificada porque U ( A2 ) 2 y la condición de orden así lo señala.
Finalmente, la ecuación (3) está sobreidentificada porque U ( A3 ) 2 y la condición de
orden así lo señala. Note también que la matriz A2 solo existe una submatriz no singular
que confirma que la ecuación (2) está exactamente identificada, en cambio en la matriz
A3 existe hasta tres posibles submatrices no singulares, lo que confirma la
sobreidentificación de la ecuación (3).
J 12 E1 J 12 0 E1 0
A31 z 0 , A32 z 0, A33 z0
1 0 1 E2 0 E2
Ejemplo 5.11: Supongamos ahora un modelo de cinco ecuaciones, dos de las cuales son
identidades (1) y (3) y las tres restantes son ecuaciones de comportamiento. Evalue la
situación de identificación de las tres ecuaciones de comportamiento: ecuaciones (2)
“función consumo”, (4) “función inversión” y (5) “demanda por dinero”. Las
identidades, al tener parámetros conocidos (1 ó –1) siempre están identificados, por lo
que no requieren evaluación adicional.
En el modelo las cinco variables endógenas son: PBI (Y), Consumo (C), Ingreso
disponible (YD), Inversión (I), y tasa de interés (r). Las seis variables
predeterminadas del modelo son todas la demás variables, esto es: Gasto del gobierno
(G), exportaciones netas (NX = exportaciones – importaciones), Consumo rezagado
(Ct-1), impuestos (T), tasa de interés rezagada (rt-1), cantidad de dinero (M).
k i** Cond.Orden: Cond. Rango

Ecuaciones Estructurales mi*
k i** vs mi* 1 U ( Ai ) m 1
(1) Yt C t I t Gt NX t
(2) C t E 0 E 1YDt E 2 C t 1 H 1t 4 2 4>2-1 SobreId. U ( A2 ) 4 Identificada
(3) YDt Yt Tt
(4) I t E 3 E 4Yt E 5 rt 1 H 2t 4 2 4>2-1 SobreId. U ( A4 ) 4 Identificada
(5) rt E 6 E 7 Yt E 8 M t H 3t 4 2 4>2-1 SobreId. U ( A5 ) 4 Identificada
Reordenando las ecuaciones se tiene que las matrices A, A2, A4 y A5 son:
Yt Ct YDt It rt Gt 1 NXt Ct-1 Tt rt-1 Mt

-1 1 0 1 0 1 0 1 0 0 0 0 (1)
0 -1 E1 0 0 0 E0 0 E2 0 0 0 (2)
A= 1 0 -1 0 0 0 0 0 0 -1 0 0 (3)
E4 0 0 -1 0 0 E3 0 0 0 E5 0 (4)
E7 0 0 0 -1 0 E6 0 0 0 0 E8 (5)
Yt It rt Gt NXt Tt rt-1 Mt
-1 1 0 1 1 0 0 0 (1)
1 0 0 0 0 -1 0 0 (3)
A2 = E -1 0 0 0 0 E5 0 (4)
4
E7 0 -1 0 0 0 0 E8 (5)
Ct YDt rt Gt NXt Ct-1 Tt Mt

1 0 0 1 1 0 0 0 (1)
-1 E1 0 0 0 E2 0 0 (2)
A4 =
0 -1 0 0 0 0 -1 0 (3)
0 0 -1 0 0 0 0 E8 (5)
Ct YDt It Gt NXt Ct-1 Tt rt-1

1 0 1 1 1 0 0 0 (1)
-1 E1 0 0 0 E2 0 0 (2)
A5 =
0 -1 0 0 0 0 -1 0 (3)
0 0 -1 0 0 0 0 E5 (4)
Como se puede verificar, todas las matrices tienen rango 4, o sea, se puede extraer más
de una submatriz no singular de cada una de ellas. Luego, las ecuaciones (2), (4) y (5)
están sobre identificadas.
Ejemplo 5.12: Supongamos ahora otro modelo macroeconométrico de tres ecuaciones,

una de las cuales es una identidad, ecuación (3) y las dos restantes son ecuaciones de
comportamiento. Evalue la situación de identificación de las dos ecuaciones de
comportamiento: ecuaciones (1) “función consumo” y (2) “función inversión”. Las 3
variables endógenas son: consumo (C), inversión (I), ingreso (Y). Las 2 variables
predeterminadas son: ingreso rezagado (Yt-1), gasto del gobierno (G). Recuerde que
'Yt Yt Yt 1 .
Cond.Orden: Cond. Rango

Ecuaciones Estructurales k i** mi*
ki** vs mi* 1 U ( Ai ) m 1
(1) C t E 0 E 1Yt H 1t 2 2 2>2-1 SobreId. U ( A1 ) 2 Identificada
(2) I t E 2 E 3 'Yt H 2t 1 2 1=2-1 Exact Id. U ( A2 ) 2 Identificada
(3) Yt C t I t Gt
Reordenando las ecuaciones se tiene que las matrices A, A1 y A2 son:
Ct It Yt 1 Yt-1 Gt
-1 0 E1 E0 0 0 (1)
A= 0 -1 E3 E2 E3 0 (2)
1 1 -1 0 0 -1 (3)
ª 1 E 3 0º ª 1 0º
A1 «1 ; A2
¬ 0 1»¼ « 1 1»
¬ ¼
En este modelo la ecuación 1 está sobreidentificada y la ecuación 2 está exactamente

identificada. En los dos casos, al existir una variable endógena explicativa (Yt) no se
puede utilizar mínimos cuadrados ordinarios para estimar los parámetros sino el de
variables instrumentales u otro más eficiente.
5.6 Estimación de Modelos de Ecuaciones Simultáneas
Recuérdese que los MCO en la estimación de modelos de ecuaciones simultáneas

producen estimadores sesgados e inconsistentes debido a que cada ecuación aparecen
como variables explicativas algunas variables endógenas las mismas que usualmente
están correlacionadas con el término de perturbación de las ecuaciones estimadas,
E[Yi ' u i ] z 0 . También se vio que sólamente en el caso de modelo de ecuaciones
recursivas es óptimo utilizar mínimos cuadrados ordinarios para estimar los parámetros
del modelo, toda vez que se cumple simultáneamente que la matriz * es triangular y
que la matriz de varianzas y covarianzas de los errores 6 es diagonal.
En general se dispone de aproximaciones para estimar los parámetros, el de información

limitada y el de información completa. Los métodos de estimación con información
limitada (IL, Limited Information-LI) se basa en la estimación de una ecuación a la
vez sin utilizar la información contenida en el modelo, como es la característica de la
matriz de varianzas y covarianzas de los errores, 6 , los estimadores de IL (por ejemplo
los de mínimos cuadrados indirectos-MCI, variables instrumentales-VI y mínimos
cuadrados en dos etapas-MC2E) son consistentes pero no son eficientes.
Por otro lado, los métodos de estimación con información completa (IC, Full
Information-FI) estiman los parámetros de todas las ecuaciones simultáneamente (por
ejemplo mínimos cuadrados en tres etapas-MC3E y máxima verosimilitud con
información completa-MVIC), y proporcionan estimadores eficientes, sin embargo, si
la ecuación de interés tiene problemas de sesgo de especificación (como ejemplo debido
a variables omitidas) los estimadores los estimadores de IC tienden a ser inconsistentes,
mientras los estimadores de IL conservan la consistencia.
5.6.1 Métodos de Información Limitada
Supongamos que al econometrista sólamente le interesa estimar la ecuación i-ésima y

no todas las ecuaciones del modelo. En ese sentido, independientemente del sistema de
ecuaciones del modelo en su forma estructural, se extrae la ecuación i-ésima y de la
forma reducida se extrae únicamente las ecuaciones instrumentales correspondientes a
las variables que funcionan como endógenas explicativas en la ecuación i-ésima.
Sea la ecuación i-ésima de un modelo de con m ecuaciones simultáneas:
y it J i1Y1t J i 2Y2t J i 3Y3t J imYmt E i1 E i 2 X 2t ....... E ik X kt u it (5.26)
Donde:
y it = es la variable endógena de la ecuación i-ésima
Yi * >Y1t Y2t Ymt @ = son las mi* “variables endógenas explicativas” presentes en
la ecuación i-ésima, en la que obviamente no se incluye la variable y it i-ésima .
X i* >1 X 2t X kt @ = son las ki* variables predeterminadas (exógenas y
rezagadas) presentes en la ecuación i-ésima.
u it = es el término de perturbación de la ecuación i-ésima, siendo u it a Rb(0, V i2 ) .
La ecuación i-ésima también se puede expresar como:
yi Yi*J i X i* E i 2 u i (5.27)
yi Z i*G i u i (5.28)
Donde: Z *
i >Y i
*
X *
i @ ; y G ' >J
i i Ei @
La forma reducida para las variables “endógenas explicativas presentes” se expresa en

función de las k variables predeterminadas presentes (X*) y ausentes (X**) en la
ecuación de la siguiente manera:
Yi * XS i vi (5.29)
Donde: X [X *
i X ] **
i
La forma reducida para las m variables endógenas del modelo también se expresa en
función de las k variables predeterminadas presentes (X*) y ausentes (X**), es decir:
Y 3X v (5.30)
Donde: Y ' [ y i Yi *
Yi ] ; 3
**
* E ; y v
1
* u
1
a) Mínimos Cuadrados Indirectos (MCI)
El método de MCI se debe utilizar únicamente cuando las ecuaciones de interés están
exactamente identificadas y consiste de dos pasos:
Paso 1: Estimar por Mínimos Cuadrados Ordinarios las m ecuaciones de la forma

reducida de las variables endógenas explicativas presentes en la ecuación
Y ˆ X vˆ
3 (5.31)
ˆ
3 ( X ' X ) 1 X ' Y (5.32)
ˆ
Donde: 3 * 1 E
Paso 2: Derivar algebraicamente los parámetros de la forma estructural, J ' s y E ' s , a

partir de los parámetros de la forma reducida, S ' s .
Demostración:
Sea la i-ésima ecuación estructural:
yi Yi*J i X i* E i 2 u i (5.33)
ªJ º
yi >Yi
*
@
X i* « i » u i (5.34)
¬E i ¼
yi Z i*G i u i (5.35)
Donde Z i* incluye las variables endógenas y predeterminadas presentes en la ecuación i-

ésima.
Premultiplicando por X [ X i* X i** ] , todas la variables predeterminadas

(instrumentos).
X ' yi X ' Z i*G i X ' u i (5.36)
Dado que las variables predeterminadas son independientes del error, E[ X ' u i ] 0 , el
estimador consistente de Mínimos Cuadrados Indirectos, como un estimador de
variables instrumentales, es:
~
Gi ( X ' Z i ) 1 X ' y i (5.37)
~
~ ªJ i º
Donde G i « E~ »
¬ i¼
Dado que todas las ecuaciones del modelo están exactamente identificadas no habrá
ningún problema para obtenerse la inversa de X’Zi, pues ambas matrices, X’ y Zi, deben
ser conformables. Esto implica que el número de variables endógenas explicativas
incluidas en la ecuación i-ésima, Zi, es reemplazada por la misma cantidad de
instrumentos (variables predeterminadas ausentes en dicha ecuación, Xi**). Esto es
posible porque si todas las ecuaciones del modelo están exactamente identificadas
tendrán tantas variable endógenas como variables predeterminadas, m = k.
Ahora, si en las ecuaciones de la forma reducida del modelo se reemplaza Y por

[ y i Yi * Yi ** ] , el estimador 3
ˆ ( X ' X ) 1 X ' Y se puede expresar como:
ˆ
3 ( X ' X ) 1 X '[ y i Yi* Yi** ] (5.38)
De igual manera, de la ecuación i-ésima se puede reordenar para obtener:
y i Yi*J i X i* E i 2 u i (5.39)
ª1º
>
y Yi Yi .««J i »»
i

* **
@ > X
X@.ª« E0 º» u
*
i
**
i
i
i (5.40)
Y «¬ 0 »¼ X
¬ ¼
Premultiplicando por ( X ' X ) 1 X ' se tiene:
ª1º
ªE i º
( X ' X ) 1 X ' Y ««J i »» « 0 » ( X ' X ) X ' ui
1
(5.41)

¬ ¼
ˆ
3 «¬ 0 »¼
~
Por lo tanto, si E[ X ' u i ] 0 el estimador consistente de J~i y E i se obtiene de despejar
algebraicamente la siguiente relación:
ª1º ~
ªE i º
3 ««J~i »»
ˆ « » (5.42)
«¬ 0 »¼ ¬0¼
Dado que todas las ecuaciones del modelo están exactamente identificados la solución
~
para los J~ ' s y E ' s serán únicas, esto se puede lograr, porque el número de parámetros
contenidos en la matriz de parámetros de la forma reducida, 3̂ , es igual a mk que será
igual al número de parámetros J ' s y E ' s que se desean estimar en el modelo
estructural.
Ejemplo 5.13: Considérese el modelo de oferta y demanda en su forma estructural

siguiente:
(1) Qt J 12 Pt E 10 E 11 PCH t 1 u1t
(2) Qt J 22 Pt E 20 E 22 I t u 2t
Donde: Q= cantidad, P=precio, I=ingreso, PCH(t-1)=precio en chacra rezagado un

período.
Sea la forma reducida que se estima es:

(3) Pt Sˆ10 Sˆ11 PCH t 1 Sˆ12 I t vˆ1t
(4) Qt Sˆ 20 Sˆ 21 PCH t 1 Sˆ 22 I t vˆ2t
E 20 E 10 E 11 E 22
Donde: Sˆ10 ; Sˆ11 ; Sˆ12 ;
J 12 J 22 J 12 J 22 J 12 J 22
E 20J 12 E 10J 22 E 11J 22 E 22J 12
Sˆ 20 ; Sˆ 21 ;y Sˆ 22 .
J 12 J 22 J 12 J 22 J 12 J 22
Supongamos los datos de 20 años para las variables relevantes son:
obs Q P I PCH(t-1)
1970 98.48500 100.3230 87.40000 98.00000
1971 99.18700 104.2640 97.60000 99.10000
1972 102.1630 103.4350 96.70000 91.10000
1973 101.5040 104.5060 98.20000 98.10000
1974 104.2400 98.00100 99.80000 110.8000
1975 103.2430 99.45600 100.5000 108.2000
1976 103.9930 101.0660 103.2000 105.6000
1977 99.90000 104.7630 107.8000 109.8000
1978 100.3500 96.44600 96.60000 108.7000
1979 102.8200 91.22800 88.90000 100.6000
1980 95.43500 93.08500 75.10000 81.00000
1981 92.42400 98.80100 76.90000 68.60000
1982 94.53500 102.9080 84.60000 70.90000
1983 98.75700 98.75600 90.60000 81.40000
1984 105.7970 95.11900 103.1000 102.3000
1985 100.2250 98.45100 105.1000 105.0000
1986 103.5220 86.49800 96.40000 110.5000
1987 99.92900 104.0160 104.4000 92.50000
1988 105.2230 105.7690 110.7000 89.30000
1989 106.2320 113.4900 127.1000 93.00000
Los resultados de la estimación por MCO a las ecuaciones de la forma reducida son:

Sˆ10 85.47862 8.078106 10.58152 0.0000
Sˆ11 -0.295976 0.079003 -3.746373 0.0007
Sˆ12 0.441080 0.085161 5.179344 0.0000
Sˆ 20 72.05784 4.572036 15.76056 0.0000
Sˆ 21 0.111656 0.044714 2.497093 0.0175
Sˆ 22 0.185537 0.048199 3.849347 0.0005
Por lo tanto, los parámetros de la forma estructural por MCI serán:

Sˆ 22 0.185 Sˆ 21 0.111
Jˆ12 0.4206 ; Jˆ 22 0.377
Sˆ 12 0.441 Sˆ11 0.295
ª Sˆ º ª Sˆ º
Eˆ10 Sˆ 20 Sˆ 10 « 22 » 36.10 ; Eˆ 20 Sˆ 20 Sˆ 10 « 21 » 104.30
¬ Sˆ12 ¼ ¬ Sˆ 11 ¼
ª Sˆ Sˆ º ªSˆ Sˆ º
Eˆ11 Sˆ 11 « 21 22 » 0.2361 ; Eˆ 22 Sˆ12 « 22 21 » 0.3519 .
¬ Sˆ 11 Sˆ12 ¼ ¬ Sˆ12 Sˆ11 ¼
Por lo tanto, el modelo estimado se puede representar así:

Oferta: Qˆ t 0.4206 * Pt 36.10 0.2361 * PCH t 1
Demanda: Qˆ t 0.377 * Pt 104.30 0.3519 * I t
Ejemplo 5.14: Considérese el modelo de tres ecuaciones simultáneas:

y1 J 12 y 2 J 13 y 3 E 1 x1 u1
y2 J 21 y1 J 23 y 3 E 2 x 2 u 2
y3 J 31 y1 J 32 y 2 E 3 x3 u 3
En forma matricial queda expresado como:

*Y EX u 0
Donde:
ª y1 º ª x1 0 0º ª 1 J 12 J 13 º ª E1 0 0º
Y «y » ; X «0 x2 0 »» ; * «J » «0 0 »» ; y
« 2» « « 21 1 J 23 » ; E « E2
«¬ y 3 »¼ «¬ 0 0 x3 »¼ «¬J 31 J 32 1 »¼ «¬ 0 0 E 3 »¼
La forma reducida que se estima es:

y1 Sˆ11 x1 Sˆ12 x2 Sˆ13 x3 vˆ1t
y2 Sˆ 21 x1 Sˆ 22 x2 Sˆ 23 x3 vˆ2t
y3 Sˆ 31 x1 Sˆ 32 x 2 Sˆ 33 x3 vˆ3t
En forma matricial el modelo y su estimador quedan expresados como:

Y * 1 EX * 1u 3X v
ˆ
3 ( X ' X ) 1 X ' Y
Donde: a partir de los 9 Sˆ ' s se puede obtener valores únicos para los 6 J ' s y los 3 E ' s .
b) Mínimos Cuadrados en dos Etapas (MC2E)

Este método se utiliza cuando la ecuación de interés está sobreidentificada en un
modelo de ecuaciones simultáneas, la estimación de los parámetros de la ecuación
estructural se obtiene bajo el siguiente procedimiento en dos etapas.
Sea la i-ésima ecuación estructural sobreidentificada:

yi Yi*J i X i* E i u i (5.43)
Donde:Yi * y X i* son, respectivamente, las variables endógenas explicativas y

predeterminadas (incluido el intercepto) presentes en la ecuación i-ésima.
Etapa I:
Estimar por mínimos cuadrados ordinarios las ecuaciones de la forma reducida para
cada una de las variables endógenas que aparecen como variables explicativas en la
ecuación estructural i-ésima. En general se debe correr cada variable endógena
explicativa contra todas las variables predeterminadas del modelo.
Yi * XS i v i (5.44)
Obtener el valor estimado de cada ecuación reducida
Yî XSˆ i
*
(5.45)
Donde: Sˆ i ( X ' X ) 1 X ' Yi* y X [ X i* X i** ]
Dado que las variables predeterminadas son independientes del error de la forma
reducida, E[ X ' vi ] 0 , los estimadores de MCO de las ecuaciones “reducidas” son
insesgados.
Etapa II:
Sustituya los valores estimados para las variables endógenas explicativas, obtenidos en
la etapa I, en la i-ésima ecuación estructural. Luego, estimar los parámetros de la
ecuación estructural resultante utilizando los Minimos Cuadrados Ordinarios.
yi Yî *J i X i* E i u i (5.46)
ªJ º
yi >Yî
*
@
X i* « i » u i (5.47)
¬E i ¼
yi Zˆ i*G i u i (5.48)
Dado que Zˆ i* es función únicamente de las variables predeterminadas es independiente

del error, E[ Zˆ * ' u ] 0 por lo que se puede utilizar por segunda vez MCO para estimar
i i
los parámetros estructurales, G ' i >J i Ei @.
Gî ( Zˆ i* ' Zˆ i* ) 1 Zˆ i* ' y i (5.49)

Alternativamente, se puede partir de la ecuación estructural i-ésima
yi Yi*J i X i* E i u i (5.50)
ªJ º
yi >Y i
*
@
X i* « i » u i (5.51)
¬E i ¼
yi Z i*G i u i (5.52)
Luego de premultiplicarla por la matriz idempotente X ( X ' X ) 1 X ' a ambos miembros,

para obtener:
X ( X ' X ) 1 X ' y i X ( X ' X ) 1 X ' Z i*G i X ( X ' X ) 1 X ' u i (5.53)
Dado que las variables predeterminadas no están correlacionadas con el error,

E[ X ' u i ] 0 , el estimador consistente de G i de MC2E se obtiene de aplicar variables
instrumentales a la ecuación i-ésima, esto es:
Gî [ Z i* ' X ( X ' X ) 1 X ' Z i* ]1 Z i* ' X ( X ' X ) 1 X ' y i (5.54)
Se puede demostrar fácilmente que Gî en MC2E es consistente en muestras grandes.
Gî [ Z i ' X ( X ' X ) X ' Z i ] Z i ' X ( X ' X ) X '[ Z i G i u i ]

* 1 * 1 * 1 *
(5.55)
Gî G i [ Z i* ' X ( X ' X ) 1 X ' Z i* ]1 Z i* ' X ( X ' X ) 1 X ' u i ] (5.56)

Tomando el límite probabilístico se obtiene: (5.57)
1
1 1
ª § Zi* ' X · § X' X · § X ' Zi* ·º § Zi* ' X · § X' X · § X ' ui ·
p limGˆ
i G i « p lim¨
¨ n ¸
¸ p lim¨ ¸ p lim¨
¨ n ¸
¸» p lim¨
¨ n ¸
¸ p lim¨ ¸ p lim¨ ¸
«¬ © ¹ © n ¹ © »
¹¼ © ¹ © n ¹ © n ¹
§ X ' ui ·
Dado que el p lim¨ ¸ 0 , Gî es un estimador consistente de G i , o sea:
© n ¹
p limGî G i (5.58)
Para muestras grandes la matriz de varianzas y covarianzas asintótica de Gî será:
V (Gî ) V i [ Z i ' X ( X ' X ) X ' Z i ]

2 * 1 * 1
(5.59)
( yi Yi Jî X i Eˆ i )' ( yi Yi Jˆ i X i Eˆ i )
* * * *
2
Donde: Vˆ i
n mi* k i*
Donde: Z i* incluye las variables endógenas y las variables predeterminadas presentes en

la ecuación i-ésima. mi* y k i* son el número de variables endógenas explicativas y el
número de variables predeterminadas (incluido el intercepto) presentes en la ecuación i.
b.1) Propiedades de los Mínimos Cuadrados en Dos Etapas (MC2E)

1. Los estimadores de MC2E son todavía sesgados, pero consistentes. El sesgo es
provocado por la correlación remanente entre los Yî * estimados en la primera etapa y
los errores de la ecuación estructural u i . El efecto de la correlación disminuye a
medida que aumenta el tamaño de la muestra. Por lo tanto, los estimadores de MCO
de los parámetros estructurales en la segunda etapa se convierten en estimadores
muy precisos de los valores equivocados de los parámetros, mientras los
estimadores de MC2E se convierten en estimadores muy precisos de los valores
correctos de los parámetros.
2. El sesgo de los estimadores de MC2E en muestras pequeñas es de signo contrario al
sesgo generado por los estimadores de MCO. Para muestras grandes, existe un sesgo
muy pequeño en los estimadores de MC2E. Recuérdese que los estimadores de
MCO tienden a sobre estimar los verdaderos valores de los parámetros. En ese
sentido, el sesgo esperado de los estimadores de MC2E es la de subestimar los
verdaderos valores de los parámetros. Sin embargo, en términos de tamaño, el sesgo
de MC2E es menor que el sesgo de MCO.
3. Si el ajuste de la ecuación en su forma reducida es pobre, los MC2E no trabajarán
bien. Esto significa que las variables instrumentales no están cumpliendo su función
de ser “buenos proxis” de las variables endógenas explicativas, pues no estarán muy
correlacionadas con las variables endógenas originales. A medida que el R2 de la
ecuación en su forma reducida se eleva, la utilidad de los MC3E aumenta también.
4. Si las variables predeterminadas en las ecuaciones estructurales están muy

correlacionadas entre sí (es decir, presentan multicolinealidad), los MC2E no
trabajarán muy bien. La multicolinealidad se transmitirá en las ecuaciones de la
forma reducida y también entre las variables endógenas explicativas sustituidas por
sus predictores y las variables predeterminadas en la segunda etapa. El efecto de la
alta colinealidad entre los regresores hará menos preciso los estimadores de MC2E.
5. Las pruebas de hipótesis utilizando los estadísticos t serán más adecuados si se
obtienen de los estimadores de MC2E que de los estimadores de MCO, pues los
estimadores de MCO no son válidos
b.2) Ejemplos
Ejemplo 5.15: Supongamos el siguiente modelo de tres ecuaciones estructurales:

(1) : y1 J 12 y 2 J 13 y 3 E 11 x1 E 14 x 4 H 1
(2) : y 2 J 21 y1 J 23 y 3 E 22 x 2 H 2
(3) : y 3 J 31 y1 J 32 y 2 E 33 x3 E 34 x 4 H 3
La forma reducida será:
(4) : y1 3 11 x1 3 12 x 2 3 13 x3 3 14 x 4 v1
(5) : y 2 3 21 x1 3 22 x 2 3 23 x3 3 24 x 4 v 2
( 6) : y 3 3 31 x1 3 32 x 2 3 33 x3 3 34 x 4 v3
Etapa I: Estimar por MCO las ecuaciones de la forma reducida y obtener sus valores
estimados.
(4' ) : yˆ1 ˆ x 3
3 ˆ x 3 ˆ x 3 ˆ x
11 1 12 2 13 3 14 4
(5' ) : yˆ 2 ˆ ˆ ˆ ˆ
3 21 x1 3 22 x 2 3 23 x3 3 24 x 4
(6' ) : yˆ 3 ˆ x 3
3 ˆ x 3 ˆ x 3 ˆ x
31 1 32 2 33 3 34 4
Etapa II: Reemplazar las variables endógenas explicativas en la ecuación estructural

por sus valores predichos en la etapa I y estimar por MCO los parámetros estructurales.
(1' ) : y1 J 12 yˆ 2 J 13 yˆ 3 E11 x1 E 14 x4 H 1
(2' ) : y 2 J 21 yˆ1 J 23 yˆ 3 E 22 x 2 H 2
(3' ) : y 3 J 31 yˆ1 J 32 yˆ 2 E 33 x3 E 34 x4 H 3
Ejemplo 5.16: Función Consumo (CP: consumo privado, YD: ingreso disponible).
Considérese la función consumo del ejemplo 5.10
CPt E 1 E 2YDt E 3 CPt 1 u t
Supóngase que el gasto de gobierno (G), las exportaciones netas (NX), los impuestos
(T), el consumo privado rezagado CP(-1), y la tasa de interés rezagada R(-1) son
variables instrumentales.
La estimación sesgada de Mínimos Cuadrados Ordinarios:
Dependent Variable: CP
C -38.10541 29.77949 -1.279586 0.2112
YD 0.516486 0.116196 4.444959 0.0001
CP(-1) 0.461118 0.123244 3.741502 0.0008
La estimación consistente de Mínimos Cuadrados en Dos Etapas:
Dependent Variable: YD
Method: Least Squares (Etapa I: MCO a la forma reducida de YD)
C 511.6131 86.24515 5.93208 0.00000
G -0.547546 0.200853 -2.726098 0.0115
NX -0.629537 0.164692 -3.822515 0.0008
T -0.343178 0.186925 -1.835909 0.0783
CP(-1) 1.237214 0.057829 21.39424 0.00000
R(-1) -2.033507 4.088716 -0.497346 0.6233
Dependent Variable: CP
Method: Least Squares (Etapa II: MC2E a la forma structural)
C -24.73014 34.90233 -0.708553 0.4845
YDFIT 0.441638 0.153839 2.870773 0.0077
CP(-1) 0.540309 0.163 3.314782 0.0025
5.6.2 Métodos de Información Completa
Como se viera arriba, la estimación con información completa recoge la información

que proporciona la matriz de varianzas y covarianzas de los errores contemporáneos
entre las diferentes ecuaciones de un modelo de ecuaciones simultáneas cuyas
ecuaciones están sobre identificadas. Los métodos que se abordarán son el de Mínimos
Cuadrados en Tres Etapas (MC3E) de Zellner y Theil (1971)2 y el de Máxima
Verosimilitud con Información Completa (MVIC). Los estimadores de información
completa son estimadores asintóticamente eficientes, por lo tanto, su estimación es más
precisa que los métodos de información limitida.
a) Mínimos Cuadrados en Tres Etapas (MC3E)
El método de MC3E consisten en estimar por Minimos Cuadrados Generalizados

(MCG) al modelo estructural utilizando como estimador de la varianza de los errores a
la matriz de varianzas y covarianzas de los residuos de MC2E.
Considere un modelo con m ecuaciones simultáneas (m-variables endógenas) y k
variables predeterminadas cuya forma estructural puede expresarse de las siguientes
maneras:
* Y EX u 0 (5.60)
ªY º
>* E @.« » u 0 (5.61)
¬X ¼
GZ u 0 (5.61)
Cuya forma reducida se expresa como:

Y 3X v (5.62)
Donde: 3 * 1 E ; v * 1u ; y
Cada una de las m ecuaciones estructurales también pueden expresarse como:

y1 Z 1*G 1 u1 (5.63)
y2 Z 2*G 2 u 2
........................
ym Z m* G m u m
2
Zellner, A., H. Theil (1962), “Three Stage Least Squares: Simultaneous Estimation of
Simultaneous Equations”, Econometrica, 30: 54-78.
Premultiplicando por X ' [ X i* X i** ] a cada una de las ecuaciones se tiene:
X ' y1 X ' Z 1*G 1 X ' u1

X ' y2 X ' Z 2*G 2 X ' u 2
(5.64)
...................................
X ' ym X ' Z m* G m X ' u m
Reordenando se tiene:
ª X ' y1 º ª X ' Z 1* 0 0 º ª G 1 º ª X ' u1 º
«X'y » « »« » « »
« 2» « 0 X ' Z 2* 0 » «G 2 » « X ' u 2 »

« » « »« » « »
« » « »« » « »
¬ X ' ym ¼ «¬ 0 0 X ' Z m* »¼ ¬G m ¼ ¬ X ' u m ¼
ª Z 1* 0 0º ª Y1 º
« » «Y »
«0 Z 2* 0» « 2 » , entonces:
Si: Z* y Y
« » « »
« » « »
«¬ 0 0 Z m* »¼ ¬Ym ¼
( I m X ' )Y ( I m X ' ) ZG ( I m X ' )u (5.65)

O también:
~ ~
Y Z G u~ (5.66)
Dado que: u~ ~ (0 ; 6 X' X) el estimador eficiente de Ecuaciones Aparentemente No

relacionadas (SUR) o Mínimos Cuadrados Generalizados (MCG) para multiecuaciones
será:
~ ~ ~ ~
GˆMC 3 E ( Z ' Z ) Z ' Y (5.67)
O también:
GˆMC 3 E >Z ' (¦ 1

X ( X ' X ) 1 X ' ) Z @ Z ' >¦
1 1
@
X ( X ' X ) 1 X ' Y (5.68)
Procedimiento de MC3E
Etapa I: Estimar por MCO las ecuaciones de la forma reducida, al igual que la Etapa I
de MC2E.
Y 3X v (5.69)
ˆ
3 ( X ' X ) X 'Y
1
(5.70)
Luego, Yˆ ˆ X , se obtiene de la siguiente manera:

3
ª Yˆ1t º ª Sˆ11 Sˆ12 Sˆ1k º ª X 1t º
«ˆ » «Sˆ ˆ »« »
«Y2t » « 21 S 22 S 2 k » « X 2t »
ˆ
«» « »« »
« » « »« »
Yˆmt ¼»
¬« Sˆ m1 Sˆ m 2 Sˆ mk ¼ ¬ X kt ¼
¬

Y 3 X
Etapa II: Estimar los parámetros estructurales de MC2E y obtener los residuos para
cada una de las ecuaciones estructurales.
Gî ,MC 2 E [ Z i ' X ( X ' X ) X ' Z i ] Z i ' X ( X ' X ) X ' yi
* 1 * 1 * 1
(5.71)
uˆ i y i Z i Gî , MC 2 E (5.72)
Etapa III: estimar G por SUR, utilizando la matriz 6ˆ estimada a partir de los residuos
de la Etapa II.
ª Vˆ 12 Vˆ 12 Vˆ 1m º
« »
«Vˆ 12 Vˆ 22 Vˆ 2 m »
6ˆ
« »
« »
¬«Vˆ 1m Vˆ 2 m Vˆ m2 ¼»
Donde:
( y i Z i Gî )' ( yi Z i Gî )
Vˆ ij
W
m
¦ (mi 1)k i
i 1
W n (en muestras pequeñas), y
m
W n (en muestras grandes).
De modo que un estimador operativo por MC3E de G es:

ª Gˆ1 º
«ˆ »
GˆMC 3 E «G 2 »
«»
« »
ˆ
¬«G m ¼»
GˆMC 3 E >Z ' (¦ˆ 1

X ( X ' X ) 1 X ' ) Z @ Z ' >¦ˆ
1
1
@
X ( X ' X ) 1 X ' Y (5.73)
y su varianza:
V (Gˆ ) >Z ' (¦ˆ 1

X ( X ' X ) 1 X ' )Z

@ 1
(5.74)
Ejemplo 5.17: Considérese el modelo macroeconómico del ejemplo 5.11, pero ahora
con todas sus ecuaciones.
(1) CPt E 0 E 1YDt E 2 CPt 1 H 1t
(2) I t E 3 E 4Yt E 5 rt 1 H 2t
(3) rt E 6 E 7 Yt E 8 M t H 3t
(4) Yt C t I t Gt NX t
(5) YDt Yt Tt (1 0.23)Yt
Donde las cinco variables endógenas del modelo son: PBI (Y), Consumo Privado
(CP), Ingreso disponible (YD), Inversión (I), y tasa de interés (r) y las seis variables
predeterminadas son: Gasto del gobierno (G), exportaciones netas (NX, exportaciones
– importaciones), Consumo Privado rezagado (Ct-1), impuestos (T), tasa de interés
rezagada (rt-1), cantidad de dinero (M), cuyos datos son:
obs CP G I NX Y T R M
1963.0 1341.9 NA NA NA NA NA 3.6 NA
1964.0 1417.2 549.1 371.8 2.5 2340.6 778.4 4.0 160.3
1965.0 1497.0 566.9 413.0 -6.4 2470.5 817.0 4.4 167.9
1966.0 1573.8 622.4 438.0 -18.0 2616.2 881.9 5.6 172.0
1967.0 1622.4 667.9 418.6 -23.7 2685.2 873.8 5.1 183.3
1968.0 1707.5 686.8 440.1 -37.5 2796.9 910.1 5.9 197.4
1969.0 1771.2 682.0 461.3 -41.5 2873.0 925.6 7.8 203.9
1970.0 1813.5 665.8 429.7 -35.1 2873.9 848.6 7.7 214.4
1971.0 1873.7 652.4 475.7 -45.9 2955.9 856.0 5.1 228.3
1972.0 1978.4 653.0 532.2 -56.5 3107.1 920.9 4.7 249.2
1973.0 2066.7 644.2 591.7 -34.0 3268.6 934.5 8.2 262.8
1974.0 2053.8 655.4 543.0 -4.1 3248.1 931.1 9.8 274.3
1975.0 2097.5 663.5 437.6 23.1 3221.7 866.3 6.3 287.5
1976.0 2207.3 659.2 520.6 -6.3 3380.8 939.9 5.3 306.3
1977.0 2296.6 664.1 600.4 -27.8 3533.3 1020.7 5.6 331.1
1978.0 2391.8 677.0 664.6 -29.9 3703.5 1065.1 8.0 358.2
1979.0 2448.4 689.3 669.7 -10.6 3796.8 1086.7 10.9 382.5
1980.0 2447.1 704.2 594.4 30.6 3776.3 1042.7 12.3 408.5
1981.0 2476.9 713.2 631.1 21.9 3843.1 1047.3 14.8 436.3
1982.0 2503.7 723.6 540.5 -7.5 3760.3 939.9 11.9 474.3
1983.0 2619.4 743.8 599.5 -56.1 3906.6 1013.0 8.9 521.0
1984.0 2746.1 766.9 757.5 -122.0 4148.5 1068.4 10.2 552.1
1985.0 2865.8 813.4 745.9 -145.3 4279.8 1117.7 8.0 619.9
1986.0 2969.1 855.4 735.1 -155.1 4404.5 1142.6 6.4 724.5
1987.0 3052.2 881.5 749.3 -143.1 4539.9 1250.4 6.9 750.1
1988.0 3162.4 886.8 773.4 -104.0 4718.6 1314.3 7.7 787.4
1989.0 3223.3 904.4 784.0 -73.7 4838.0 1373.1 8.8 794.7
1990.0 3272.6 932.6 746.8 -54.7 4897.3 1372.8 8.0 826.4
1991.0 3259.4 944.0 683.8 -19.6 4867.6 1329.1 5.9 897.7
1992.0 3349.5 936.9 725.3 -32.4 4979.3 1331.2 3.8 1024.8
1993.0 3458.7 929.8 819.9 -73.9 5134.5 1430.4 3.3 1128.4
1994.0 3578.5 922.5 955.5 -114.2 5342.3 1506.9 4.9 1147.6
La estimación por MC3E del modelo requiere el siguiente proceso:

Etapa I: Estimación por MCO a la forma reducida de las variables endógenas
explicativas, o sea para YD y Y:
YD = 567.6089188 - 0.6243648744*G - 0.6489648379*NX + 0.08321467418*M -

0.3148873823*T + 1.20178242*CP(-1) - 0.1250659314*R(-1)
Y = 567.6089188 - 0.6243648744*G - 0.6489648379*NX + 0.08321467418*M +
0.6851126177*T + 1.20178242*CP(-1) - 0.1250659314*R(-1)
De las ecuaciones estimadas se obtiene sus valores predichos, esto es YDFIT y YFIT.
Etapa II: MCO a la forma estructural, o sea para CP, I y R:

CP = -27.79631448 + 0.4587963105*YDFIT + 0.5221550238*CP(-1)
I = 33.97082097 + 0.1638722307*YFIT - 5.622463687*R(-1)
R = -13.16379956 + 0.00870022659*YFIT - 0.02506745514*M
La matriz de varianzas y covarianzas de los residuos, 6̂ , es:
CP I R
CP 837.2916 134.8238 -29.99993
I 134.8238 1961.331 9.246927
R -29.99993 9.246927 3.535883
Etapa III: MCG (SUR) a la forma estructural, o sea para CP, I y R:
Estimation Method: Three-Stage Least Squares

C(1) -21.51286 29.53919 -0.728282 0.4685
C(2) 0.420724 0.119631 3.516843 0.0007
C(3) 0.562655 0.126835 4.436128 0.0000
C(4) 35.22431 38.99309 0.903348 0.3689
C(5) 0.163702 0.009428 17.36383 0.0000
C(6) -5.707141 2.897312 -1.969806 0.0522
C(7) -6.984448 3.282299 -2.127914 0.0363
C(8) 0.005994 0.001319 4.544245 0.0000
C(9) -0.016895 0.003728 -4.531786 0.0000
Determinant residual covariance 2944769.
Equation: CP=C(1)+C(2)*YD+C(3)*CP(-1) R-squared 0.997870
Equation: I=C(4)+C(5)*Y+C(6)*R(-1) R-squared 0.907472
Equation: R=C(7)+C(8)*Y+C(9)*M R-squared 0.454638
b) Máxima Verosimilitud con Información Completa (MVIC)
Debido a su sencillez y eficiencia asintótica los estimadores de MC2E y MC3E son

utilizados con mucha frecuencia para abordar la estimación de parámetros en modelos
de ecuaciones simultáneas sobreidentificados. Sin embargo, puede ser útil estimar por el
método de máxima verosimilitud sobre todo cuando el modelo se construye con el
propósito de realizar análisis estructural, esto es medir los efectos marginales de las
variables predeterminadas sobre las variables endógenas del modelo.
El método de máxima verosimilitud con información completa (MVIC) utiliza el

supuesto que los errores están bien comportados, es decir, dentro de cada ecuación
tienen media cero, varianza constante y covarianza cero, y se distribuyen normalmente,
pero que los errores mantienen una correlación contemporánea entre ecuaciones
distintas, 6 . El procedimiento consiste en estimar los parámetros que hacen máxima la
función de verosimilitud.
Sea el modelo de ecuaciones simultáneas en su forma estructural:
* Y EX u 0 Donde: u a iid , N (0, 6 I n ) (5.75)

Donde se puede especificar por ecuaciones como:
y1 Z 1*G 1 u1 (5.76)
y2 Z 2*G 2 u 2
........................
ym Z m* G m u m
En general también se puede expresar como:

Y ZG u (5.77)
La función de log verosimilitud se puede especificar de la siguiente manera:

nm n n
log L(*, E , 6) log 2S log * 16* 1 ' ¦ (Y ZG )'(6 1 I n )(Y ZG ) (5.78)
2 2 2
n n
Esto también puede simplificarse si: log (* 1 )' 6* 1 log 6 n log * , luego:
2 2
nm n n
log L(*, E , 6) log 2S log 6 n log * ¦ (Y ZG )'(6 1 I n )(Y ZG )
2 2 2
(5.79)
Para estimar los parámetros *, E , y 6 se debe maximizar la función logL(.) con
respecto de los parámetros *, E , y 6 .
Si bien los estimadores de MVIC posee todas las propiedades asintóticas deseables para
los estimadores máximo verosímiles, puede ser computacionalmente costoso, en
especial cuando el modelo incluye una gran cantidad de ecuaciones, pues contiene no
linealidades que pueden no ser convergentes a un valor óptimo.
Hausman (1983)3 demostró que el estimador de MVIC es también un estimador de
variables instrumentales, si la matriz asintótica de varianzas y covarianzas para el
estimador del error de MVIC, 6 , se deriva como estimador de variables instrumentales.
En ese sentido, si los errores están normalmente distribuidas, MVIC tiene la misma
matriz asintótica de 6 que el de Máxima Verosimilitud. Por lo tanto, el estimador de
MVIC se obtiene de la ecuación:
GˆMVIC >Zˆ (G )' (¦ˆ 1

I n )Z @ >Zˆ (G )' (¦ˆ
1
1
I n )' Y @ (5.80)
ˆ 1 ˆ
GˆMVIC ( Zˆ ' Z ) Zˆ ' Y (5.81)
Donde:
ª Vˆ 11 Zˆ 1 Vˆ 12 Zˆ 1 Vˆ m1 Zˆ 1 º
« 21 ˆ m2 »
ˆ « Vˆ Z 2 Vˆ 22 Zˆ 2 Vˆ Zˆ 2 »
Zˆ Zˆ (G )' (6ˆ I n ) ; Zˆ j [ Mˆ j X X j] ;
« »
« m1 m2 ˆ mm
»
«¬Vˆ Zˆ m Vˆ Z m Vˆ Zˆ m »¼
M̂ j se obtiene de la columna j de la solución de la forma estructural del modelo:

( y i Z i Gî )' ( yi Z i Gî )
Mˆ *ˆ Ê ; Vˆ ij
n
;y V
ij
>6ˆ @ .
1
ij
Ejemplo 5.18: Considerese el modelo y los datos del ejercicio 5.17 y estime por MVIC.

C(1) -23.70713 41.40897 -0.572512 0.5685
C(2) 0.453874 0.129622 3.501531 0.0007
C(3) 0.526063 0.137589 3.823426 0.0003
C(4) 46.87408 72.08072 0.650300 0.5173
C(5) 0.170427 0.017242 9.884143 0.0000
C(6) -10.87742 5.003875 -2.173799 0.0325
C(7) -1.293654 7.720167 -0.167568 0.8673
C(8) 0.003409 0.002842 1.199647 0.2336
C(9) -0.008698 0.007253 -1.199218 0.2338
Log Likelihood -360.9398
Determinant residual covariance 2604640.
Equation: CP=C(1)+C(2)*YD+C(3)*CP(-1) R-squared 0.997898
Equation: I=C(4)+C(5)*Y+C(6)*R(-1) R-squared 0.897650
Equation: R=C(7)+C(8)*Y+C(9)*M R-squared 0.289794
3
Hausman. (1983), “Specification and Estimation of Simultaneous Equation Models”, en Z.
Grilliches & M. Intriligator editors, Hand Book of Econometrics, Amsterdam, North Holland.
5.7 USO DE LOS MODELOS DE ECUACIONES SIMULTÁNEAS:

Todo modelo econométrico tiene básicamente tres tipos de usos, el análisis estructural,
el análisis de políticas y el pronóstico. El análisis estructural se obtiene de resolver la
forma estructural del modelo estimado, esto es expresar las variables endógenas en
función de las variables predeterminadas. El análisis de política se obtiene de simular
cambios en las variables predeterminadas sobre las variables endógenas. El pronóstico
se obtiene de suponer valores esperados para las variables predeterminadas para el
período de pronóstico.
5.7.1 Análisis Estructural

El análisis estructural en el contexto de un modelo de ecuaciones simultáneas constituye
en el análisis de la matriz de multiplicadores de impacto o la matriz de elasticidades
según haya sido especificado como un modelo lineal en variables o un modelo lineal en
logaritmos. Dicha matriz de multiplicadores o de elasticidades se obtiene de resolver el
modelo luego de haber sido estimado.
La matriz de multiplicadores de impacto mide el efecto marginal en las variables

endógenas del modelo de un cambio en una unidad de las variables predeterminadas.
Para ello considérese la siguiente forma estructural de un modelo de ecuaciones
simultáneas:
*ˆ Yt EˆX t 0 (5.82)
Y que su forma reducida, o solución para las variables endógenas sea:
Yt *ˆ 1 ÊX t (5.83)
Yt ˆX
0 (5.84)
t
O también:
ª Y1 º ª mˆ 11 mˆ 12 mˆ 1k º ª X 1 º
«Y » « mˆ mˆ 22 mˆ 2 k »» «« X 2 »»
« 2» « 21 .
« » « »«»
« » « »« »
¬Ym ¼ ¬mˆ m1 mˆ m 2 mˆ mk ¼ ¬ X K ¼
Donde 0̂ es la matriz de multiplicadores de impacto de cada una de las variables

predeterminadas sobre las variables endógenas.
El vector de multiplicadores de impactos de la variable predeterminada j-ésima

(instrumento de política) sobre las variables endógenas del modelo se obtiene de la
siguiente manera :
wYt / wX jt mˆ j (5.85)
ª wY1t / wX jt º ª mˆ 1 j º
« wY / wX » «mˆ »
« 2t jt » « 2j»
« » «»
« » « »
«¬wYmt / wX jt »¼ «¬ mˆ mj »¼
Esto implica que cada una de las columnas de la matriz de multiplicadores de impacto
deben entenderse como el impacto marginal de cada una de las variables
predeterminadas, esto es, la primera columna de la matriz M mide el impacto de la
variable predeterminada X1 sobre cada una de las variables endógenas del modelo. La
segunda columna mide el impacto de la variable X2 sobre todas las Yi y así
sucesivamente.
Ejemplo 5.19: Multiplicadores de Impacto

Considérese los resultados de la estimación por MC3E del modelo del modelo
macroeconómico del ejercicio 5.17.
(1) CP=-21.51285628+0.4207240841*YD+0.5626550704*CP(-1)
(2) I=35.22431494+0.1637016587*Y-5.707140711*R(-1)
(3) R=-6.984448386+0.005994103125*Y-0.01689489502*M
(4) Y=CP+I+G+NX
(5) YD=0.77*Y
Reordenando las variables se tiene el sistema de ecuaciones de la siguiente manera:
(6) AYt BYt 1 CX t
ªCPt º ªCPt 1 º ª1 0 0 0 0.42º

« I » « I » ª 1 º «0 1
« t » « t 1 » «M » « 0 0.16 0 »»
Donde:Yt « Rt » ; Yt 1 « Rt 1 » ; X t « t »; A «0 0 1 0.006 0 » ;
« » « » « Gt » « »
« Yt » « Yt 1 » « » « 1 1 0 1 0 »
«¬YDt »¼ «¬YDt 1 »¼ ¬ NX t ¼ «¬ 0 0 0 0.77 1 »¼
ª0.56 0 0 0 0º ª 21.5 0 0 0º
« 0 0 5.7 0 0»» « 35.22 0 0 0»»
« «
B « 0 0 0 0 0» ; C « 6.98 0.017 0 0»
« » « »
« 0 0 0 0 0» « 0 0 1 1»
«¬ 0 0 0 0 0»¼ «¬ 0 0 0 0»¼
Resolviendo para Yt:

(7) Yt A 1 BYt 1 A 1CX t
O también
(8) Yt FYt 1 HX t
Donde:
ª 0.91 0 3.61 0 0º ª 12.8 0 0.63 0.63º
« 0.17 0 7.53 0 0»» « 39.6 0 0.31 0.31»»
« «
F «0.006 0 0.06 0 0» ; H « 6.82 0.0168 0.01 0.01»
« » « »
« 1.1 0 11.1 0 0» « 26.76 0 1.95 1.95 »
«¬ 0.84 0 8.57 0 0»¼ «¬ 20.61 0 1.50 1.50 »¼
En el largo plazo, puede considerarse que t = t-1, por lo tanto, la matriz de
multiplicadores de impacto se puede obtener de resolver:
(9) Yt ( I 5 F ) 1 HX t
O también
(10) Yt K * Xt
Donde los multiplicadores de impacto, en el largo plazo, K, es:
ª 98.6 0.55 5.70 5.70º CP
« 100.9 0.19 0.99 0.99»» I
«
K « 5.79 0.012 0.04 0.04» R
« »
« 199.5 0.74 7.70 7.70» Y
«¬153.65 0.57 5.93 5.93»¼ YD
Donde la primera columna puede ignorarse, pues mide el efecto un cambio en la
constante. La segunda columna mide el efecto del cambio en una unidad de la cantidad
de dinero (M), la tercera columna mide el efecto del cambio de una unidad del gasto del
gobierno (G) y la cuarta columna mide el efecto del cambio de una unidad en la balanza
comercial (exporaciones netas, NX).
Nótese que la tercera y cuarta columna tienen el mismo efecto multiplicador, pues
ambas afectan el ingreso en la misma magnitud y a través del ingreso se irradia al resto
de variables. Note que un aumento de una unidad de cantidad de dinero (segunda
columna) aumenta el consumo privado en 0.55 unidades, la inversión en 0.19 unidades,
reduce la tasa de interés en 0.012 puntos porcentuales, aumenta el ingreso en 0.74 y
aumenta el ingreso disponible en 0.57 unidades.
5.7.2 Análisis de Política o Simulación:

Las simulaciones del impacto de diferentes políticas económicas se obtienen como la
esperanza condicional de las variables endógenas dado un conjunto de valores para las
variables predeterminadas, en ese sentido, los valores de las variables endógenas se
obtiene como producto de valores dados para las variables predeterminadas a través de
los multiplicadores de impacto.
Por lo tanto, el impacto de un cambio en la variable Xj sobre las variables endógenas es

el producto del multiplicador de impacto por la magnitud del cambio en la variable
predeterminada:
'Yt mˆ ij 'X jt (5.86)
O también:
ª 'Y1t º ª mˆ 1 j 'X jt º
« 'Y » «mˆ 'X »
« 2t » « 2j jt »
« » « »
« » « »
¬ 'Ymt ¼ «¬ mˆ mj 'X jt »¼
Si quisiera medirse el impacto de dos variables predeterminadas (por ejemplo X1 y X2)
sobre las variables endógenas se debe sumar los efectos marginales de cada variable,
esto es:
'Yt mˆ i1 'X 1t mˆ i 2 'X 2t (5.87)
ª 'Y1t º ª mˆ 11 'X 1t mˆ 12 'X 2t º

« 'Y » « mˆ 'X mˆ 'X »
« 2t » « 21 1t 22 2t »
« » « »
« » « »
¬ 'Ymt ¼ ¬mˆ m1 'X 1t mˆ m 2 'X 2t ¼
Para medir el impacto de cambios en todas las variables se debe sumar los “impactos
marginales” de todas las variables predeterminadas sobre las variables endógenas, esto
es:
'Yt mˆ i1 'X 1t mˆ i 2 'X 2t mˆ ik 'X kt (5.88)
ª 'Y1t º ª mˆ 11 'X 1t mˆ 12 'X 2t mˆ 1k 'X kt º

« 'Y » « mˆ 'X mˆ 'X mˆ 'X »
« 2t » « 21 1t 22 2t 2k kt »
« » « »
« » « »
¬ 'Ymt ¼ ¬mˆ m1 'X 1t mˆ m 2 'X 2t mˆ mk 'X kt ¼
Ejemplo 5.20: ¿Cuál es el impacto de un aumento por única vez (en 1995) de 100
unidades del gasto público (esto equivale al 11% de incremento con respecto al último
dato, 1994)?.
ª 'CPt º ª 5.7 *100 º ª570º
« 'I » «0.99 *100» « 99 »
« t » « » « »
'Yt « 'Rt » «0.04 *100» « 4 »
« » « » « »
« 'Yt » « 7.7 *100 » «770»
«¬'YDt »¼ «¬5.93 *100 »¼ «¬593»¼
Esto significa que el consumo aumentará en 570 unidades, la inversión en 99 unidades,

la tasa de interés en 4 puntos porcentuales, el ingreso en 770 unidades, etc.
5.7.3 Pronóstico:
Si el modelo es estático, el pronóstico de las variables y en el período t+h se obtiene de

los valores de las x en t+h, esto es:
Yt h ˆX
0 (5.89)
t h
ª Y1,t h º ª mˆ 11 mˆ 12 mˆ 1k º ª X 1,t h º
«Y » « mˆ « »
« 2 ,t h » « 21 mˆ 22 mˆ 2 k »» « X 2,t h »
.
« » « »« »
« » « »« »
¬Ym ,t h ¼ ¬mˆ m1 mˆ m 2 mˆ mk ¼ ¬ X k ,t h ¼
En los casos de modelos dinámicos, esto es modelos que incluyen variables endógenas
rezagadas como variables explicativas, deben garantizar soluciones convergentes hacia
un único equilibrio (condición de estacionariedad).
Yt FˆYt 1 Hˆ X t (5.90)
( I m Fˆ L)Yt Hˆ X t (5.91)
Yt ( I m Fˆ L) Hˆ X t
1
(5.92)
Yt 0̂ 1 X t (5.93)
Donde: Mˆ 1 ( I m FˆL) Hˆ
1
Para que la solución sea estacionaria o convergente (solución única y estable) se

requiere que las m raíces características en L, de: ( I m FˆL) 0 , deben caer fuera del
círculo unitario o la inversa de la raíz debe caer todas dentro del circulo unitario, es
decir: |Li | > 1, ó | Ȝi = 1/Li | < 1.
Donde Mˆ 1 ( I m FˆL) 1 Hˆ representa la matriz de los efectos directos e indirectos en el

tiempo, pues:
( I m FˆL) Hˆ Hˆ FˆHˆ L Fˆ Hˆ L Fˆ Hˆ L
1 2 2 3 3
(5.94)
De modo que el pronóstico de las variables Y en el período t+h se obtiene de los valores
de las X en el período t si el cambio en X es por única vez, o de los valores de las X para
los períodos t+1, t+2,...,t+h, si el cambio en X es permanente. Si el cambio por única
vez se tiene:
Efecto instantáneo en t: Yt ĤX t
Efecto en t+1: Yt 1 Fˆ Hˆ X t (5.95)
Efecto en t+2: Yt 2 Fˆ Hˆ X t
2
...........................................
h
Efecto en t+h: Yt h Fˆ Hˆ X t
Efecto acumulado desde t hasta t+h:
h
Yt h Hˆ X t FˆHˆ X t Fˆ Hˆ X t F Hˆ X t Fˆ Hˆ X t .
2 3
(5.96)
Ejemplo 5.21: Considere el ejemplo anterior. ¿Cuál es el efecto en el corto, mediano y

largo plazo de un cambio por separado de un aumento en una unidad en la cantidad de
dinero y en el gasto público?.
Impacto Acumulado de un aumento de una unidad en la Cantidad de Dinero

Número de Períodos (h)
0 1 2 3 4 5 6 7 8 9 10 L.Pl.
CP 0.00 0.06 0.11 0.16 0.20 0.24 0.27 0.30 0.33 0.35 0.37 0.55
I 0.00 0.13 0.13 0.14 0.14 0.15 0.15 0.16 0.16 0.16 0.17 0.19
R -0.02 -0.02 -0.02 -0.02 -0.01 -0.01 -0.01 -0.01 -0.01 -0.01 -0.01 -0.01
Y 0.00 0.19 0.24 0.30 0.34 0.39 0.42 0.46 0.49 0.52 0.54 0.74
YD 0.00 0.14 0.19 0.23 0.26 0.30 0.33 0.35 0.38 0.40 0.42 0.57
Impacto Acumulado de un aumento de una unidad en el Gasto Público

Número de Períodos (h)
0 1 2 3 4 5 6 7 8 9 10 L.Pl.
CP 0.63 1.17 1.65 2.08 2.47 2.81 3.12 3.40 3.64 3.86 4.06 5.71
I 0.32 0.35 0.42 0.48 0.53 0.58 0.63 0.67 0.70 0.73 0.76 1.00
R 0.01 0.02 0.02 0.02 0.02 0.03 0.03 0.03 0.03 0.03 0.03 0.05
Y 1.95 2.52 3.07 3.56 4.00 4.40 4.75 5.06 5.34 5.59 5.82 7.71
YD 1.50 1.94 2.36 2.74 3.08 3.39 3.66 3.90 4.11 4.31 4.48 5.93
Ejemplo 5.22: Considere el ejemplo anterior. ¿Cuál es el pronóstico para el período

1995-2000 si se supone que el saldo en la Balanza Comercial (NX) permanece al mismo
nivel de 1994, el gasto público aumenta a un ritmo del 2% anual y la cantidad de dinero
aumenta a un ritmo del 4% anual?.
obs CP I R Y YD
1994 3578.500 955.5000 4.930000 5342.300 3835.400
1995 3778.716 909.9745 5.911533 5515.441 4246.889
1996 3970.957 944.5901 6.577565 5761.116 4436.059
1997 4157.250 980.2683 7.184315 6002.282 4621.758
1998 4338.537 1015.446 7.726810 6238.327 4803.512
1999 4515.704 1050.332 8.210290 6470.351 4982.170
2000 4689.554 1085.051 8.639009 6699.290 5158.453
APLICACIONES:
Caso : Función de Costos Translog
A partir de los datos de Bernt & Wood (1975)11 en su estudio de la demanda de energía para el
sector manufacturero de los Estados Unidos utiliza una función de costos tipo translog, que
puede expresarse como:
1
(1) ln C E 0 ¦ E j ln Pj ¦ ¦ J ij ln Pi * ln Pj
2 i j
Aplicando el Lema de Shephard se obtiene que:
w ln C
(2) sj E j ¦ J ij ln Pi
w ln Pj i
Desarrollando para M insumos se obtiene un modelo para cada participación en el costo de cada
factor de producción:
(3) s1 E1 J 11 ln P1 J 12 ln P2 J 13 ln P3 J 1m ln Pm
s2 E 2 J 12 ln P1 J 22 ln P2 J 31 ln P3 J 2m ln Pm
.............. ......................... ......................... .................................
sm E m J 1m ln P1 J 2 m ln P2 J 3m ln P3 J mm ln Pm
Como se puede observar a este modelo se le ha impuesto la condición de simetría, J ij J ji ,

pero además, se le debe imponer, las siguientes condiciones de agregación:
(4) ¦sj ¦E j E1 E 2 E m 1
(5) ¦ J ij 1 (suma vertical)
i
(6) ¦ J ij 1 (suma horizontal)
j
Por ejemplo para el caso de cuatro factores de producción, capital K, trabajo L, energía E y
materiales diversos M, se tiene el siguiente sistema de ecuaciones:
sK E K J KK ln PK J KL ln PL J KE ln PE J KM ln PM
sL E L J LK ln PK J LL ln PL J LE ln PE J LM ln PM
sE E E J EK ln PK J EL ln PL J EE ln PE J EM ln PM
sM E M J MK ln PK J ML ln PL J ME ln PE J MM ln PM
A las que debe imponerse condiciones de simetría y las condiciones de agregación.
Simetría:
J LK J KL , J LE J EL , J LM J ML , J KE J EK , J KM J MK , y J EM J ME .
11
Berndt, E. Y D. Wood. 1975. “Tecnology, Prices, and the Derived Demand for Energy”,
Review of Economics and Statistics, Vol. 57, pag. 376-384.
Suma de participaciones base:

EK EL EE EM 1
Suma vertical por cada precio:
J KK J KL J KE J KM 1
J LK J LL J LE J LM 1
J EK J EL J EE J EM 1 , y
J MK J ML J ME J MM 1
Suma horizontal por cada factor de producción:
J KK J LK J EK J MK 1
J KL J LL J EL J ML 1
J KE J LE J EE J ME 1 , y
J KM J LM J EM J MM 1
Puede demostrarse que la última restricción horizontal es redundante con respecto a la última
restricción de la suma vertical por la condición de simetría.
Como resultado se obtiene el sistema de ecuaciones que debe ser estimado.:

§P · §P · §P ·
sK E K J KK ln¨¨ K ¸¸ J KL ln¨¨ L ¸¸ J KE ln¨¨ E ¸¸
© PM ¹ © PM ¹ © PM ¹
§P · §P · §P ·
sL E L J KL ln¨¨ K ¸¸ J LL ln¨¨ L ¸¸ J LE ln¨¨ E ¸¸
© PM ¹ © PM ¹ © PM ¹
§P · §P · §P ·
sE E E J KE ln¨¨ K ¸¸ J LE ln¨¨ L ¸¸ J EE ln¨¨ E ¸¸
© PM ¹ © PM ¹ © PM ¹
Note que ya no es necesario estimar cuatro ecuaciones pues la última participación en el

costo de los otros materiales, SM, ha sido utilizado como ecuación normalizadora.
Luego, los parámetros de dicha ecuación pueden ser obtenidas de la combinación de el
resto de parámetros, como se muestra a continuación:
EM 1 EK EL EE
J KM 1 J KK J KL J KE
J LM 1 J LK J LL J LE
J EM 1 J EK J EL J EE
J MK J KM
J ML J LM
J ME J EM
J MM 1 J MK J ML J ME
Datos de Costos del Sector Manufacturero de los Estados Unidos 1947-1971

Precios de Factores Participación en el Costo (“share”)
Año COSTO
PE PL PK PM SE SL SK SM
1947 182.3730 1.0000 1.0000 1.0000 1.0000 0.0425 0.2473 0.0511 0.6591
1948 183.1610 1.3026 1.1546 1.0027 1.0553 0.0513 0.2772 0.0582 0.6134
1949 186.5330 1.1966 1.1558 0.7437 1.0663 0.0508 0.2591 0.0460 0.6441
1950 221.7100 1.1244 1.2354 0.9250 1.1243 0.0461 0.2479 0.0499 0.6561
1951 255.9450 1.2518 1.3378 1.0488 1.2169 0.0448 0.2549 0.0504 0.6499
1952 264.6990 1.2792 1.3795 0.9974 1.1996 0.0446 0.2666 0.0492 0.6397
1953 291.1600 1.2751 1.4346 1.0065 1.1904 0.0437 0.2683 0.0473 0.6407
1954 274.4570 1.3036 1.4536 1.0876 1.2061 0.0479 0.2717 0.0564 0.6241
1955 308.9080 1.3428 1.5112 1.1032 1.2384 0.0452 0.2647 0.0526 0.6376
1956 328.2860 1.3715 1.5819 0.9961 1.2934 0.0458 0.2688 0.0460 0.6394
1957 338.6330 1.3801 1.6464 1.0632 1.3070 0.0482 0.2718 0.0503 0.6296
1958 323.3180 1.3934 1.6739 1.1562 1.3270 0.0484 0.2728 0.0602 0.6189
1959 358.4350 1.3676 1.7343 1.3076 1.3077 0.0456 0.2730 0.0619 0.6195
1960 366.2510 1.3803 1.7828 1.2541 1.3395 0.0459 0.2774 0.0579 0.6189
1961 366.1620 1.3763 1.8198 1.2633 1.3432 0.0464 0.2784 0.0590 0.6162
1962 390.6680 1.3769 1.8853 1.2653 1.3475 0.0453 0.2828 0.0558 0.6161
1963 412.1880 1.3474 1.9338 1.3229 1.3314 0.0447 0.2797 0.0560 0.6196
1964 433.7680 1.3897 2.0100 1.3280 1.3520 0.0439 0.2834 0.0545 0.6181
1965 474.9690 1.3864 2.0554 1.4066 1.3754 0.0411 0.2800 0.0547 0.6242
1966 521.2910 1.4010 2.1344 1.4510 1.4188 0.0401 0.2836 0.0546 0.6216
1967 540.9410 1.3920 2.2062 1.3862 1.4243 0.0407 0.2865 0.0544 0.6184
1968 585.4470 1.4339 2.3387 1.4990 1.4348 0.0397 0.2888 0.0576 0.6139
1969 630.4500 1.4648 2.4641 1.4496 1.5336 0.0396 0.2903 0.0541 0.6160
1970 623.4660 1.4591 2.6053 1.3246 1.5476 0.0435 0.2976 0.0526 0.6064
1971 658.2350 1.6469 2.7603 1.2018 1.5498 0.0448 0.2891 0.0468 0.6194
FUENTE: Berndt, E. Y D. Wood. 1975, op.cit.
Los resultados de la estimación por el Método SUR fueron:
System: SUR
Estimation Method: Seemingly Unrelated Regression
Sample: 1947 1971
Total system (balanced) observations 75
C(1) 0.056824 0.001307 43.46980 0.0000
C(11) 0.029870 0.005750 5.194678 0.0000
C(12) 2.21E-05 0.003675 0.006007 0.9952
C(13) -0.008203 0.004061 -2.020117 0.0474
C(2) 0.253546 0.001987 127.5844 0.0000
C(22) 0.074877 0.006394 11.71137 0.0000
C(23) -0.003212 0.002748 -1.168778 0.2467
C(3) 0.043833 0.001049 41.78917 0.0000
C(33) 0.029383 0.007406 3.967588 0.0002
Determinant residual covariance 2.43E-16
El modelo estimado fue:
SK=C(1)+C(11)*LOG(PK/PM)+C(12)*LOG(PL/PM)+C(13)*LOG(PE/PM)
SL=C(2)+C(12)*LOG(PK/PM)+C(22)*LOG(PL/PM)+C(23)*LOG(PE/PM)
SE=C(3)+C(13)*LOG(PK/PM)+C(23)*LOG(PL/PM)+C(33)*LOG(PE/PM)
Nota: los coeficientes sombreados muestran el cumplimiento de la condición de simetría.
Luego de aplicar la condición de simetría y de agregación se ha reconstruido los

estimadores de los parámetros para las cuatro ecuaciones del modelo original,
obteniéndose los siguientes resultados:
Ecuación Ê j Jˆ jK Jˆ jL Jˆ jE Jˆ jM
SK 0.056824 0.02987 0.0000221 -0.008203 0.9783109
SL 0.253546 0.0000221 0.074877 -0.003212 0.9283129
SE 0.043833 -0.008203 -0.003212 0.029383 0.982032
SM 0.645797 0.9783109 0.9283129 0.982032 -1.8886558
Por ejemplo:
Ê M se obtiene de la siguiente manera:
Eˆ M 1 Eˆ K Eˆ L Eˆ E
EˆM 1 0.056824 0.253546 0.043833 0.645797
y Jˆ KM se obtiene de la siguiente manera:

Jˆ KM 1 Jˆ KK Jˆ KL Jˆ KE
Jˆ KM 1 0.02987 0.0000221 (0.008203) 0.9783109
PROBLEMAS:
Problema 1: Suponga el siguiente modelo de ecuaciones simultáneas:
y1t E 12 y 2t J 11 x1t u1t (1)

y 2t E 21 y1t J 22 x 2t u 2t (2)
Para simplificar suponga que las variables endógenas (y) y exógenas (x) se miden en
desviación respecto de su media.
a) Explique porqué el sistema de ecuaciones simultáneas no puede ser estimado usando
mínimos cuadrados ordinarios ecuación por ecuación.
b) Utilice la condición de orden para evaluar si cada ecuación está identificada.
c) Resuelva el sistema de ecuaciones y encuentre la forma reducida del modelo.
d) Estime los parámetros de la forma estructural del modelo a partir de los parámetros
de la forma reducida (Estimador de Mínimos Cuadrados indirectos).
Problema 2: Agregue en la ecuación (1), del problema anterior, un término nuevo

J 13 x 3t . El modelo quedará expresado así:
y1t E 12 y 2t J 11 x1t J 13 x3t u1t (1' )

y 2t E 21 y1t J 22 x 2t u 2t (2)
a) Están identificadas las dos ecuaciones?.

b) Explique paso a paso cómo estimaría los parámetros de la ecuación (2) mediante el
método de mínimos cuadrados en dos etapas.
Problema 3: Suponga el modelo multiecuacional de demanda de carnes:
log Q1t D 10 D 11 log P1t D 12 log I t H 1t

Donde: Q= cantidad, P=precio e I= ingreso, el subíndice 1=pollo, 2=res, y 3=ovino.
La matriz de correlaciones entre los residuos de MCO para las tres ecuaciones es:
P̂1 P̂ 2 P̂ 3
P̂1 1.000 -0.608 -0.489
P̂ 2 -0.608 1.000 -0.120
P̂ 3 -0.489 -0.120 1.000
a) ¿Cuál es la hipótesis nula que permite evaluar si MCO es adecuado para este
modelo?.
b) ¿Cuál es el estadístico de prueba para probar la hipótesis nula?.
c) A partir de los datos de la matriz de correlaciones de los residuos, haga el test de
covarianza nulas. ¿Se acepta o se rechaza la hipótesis nula?. Dato: F 32gl 7.81 .
Problema 4: Considere el siguiente modelo para la economía peruana.
Ct D1 D 2Yt H 1t
It E1 E 2 Rt E 3Yt H 2t
Yt C t I t Gt
Donde: C es el consumo privado, I es la inversión privada, G es el gasto del gobierno, Y

es el ingreso nacional y R es la tasa de interés. La tercera ecuación corresponde a la
identidad del ingreso nacional (ingreso total es igual al gasto total).
a) Cuáles de las variables son endógenos y cuáles son exógenas en este sistema?.
b) Utilizando la condición de orden, son identificables las dos primeras ecuaciones

(función consumo y función inversión?. Recuerde que la condición de orden es una
condición necesaria pero no suficiente para la identificación de una ecuación.
c) La tercera ecuación del sistema, satisface la condición de orden?. Es necesaria la
identificación, por qué sí o por qué no?.
d) Encuentre la forma reducida del modelo.
e) Explique cómo estimaría los parámetros de la función consumo utilizando el método
de mínimos cuadrados en dos etapas (MC2E)?.
Problema 5: Considere el siguiente modelo:
Y1 E 10 E 12Y2 J 11 X 1 J 12 X 2 H 1
Y2 E 20 E 23Y3 J 22 X 2 H 2
Y3 E 30 E 32Y1 H 3
Donde Y son las variables son endógenas y X cuáles son predeterminadas.
a) Utilizando la condición de órden, qué ecuaciones están identificadas?

b) Qué sucede con la identificabilidad del modelo si J 11 0 ?.
c) Ignore la pregunta b), qué sucede con la identificabilidad del modelo si E 32 0 ?.
d) Ignore las preguntas b) y c). Puede estimar por mínimos cuadrados en dos etapas los
parámetros de alguna ecuación, cuál?. Explique paso a paso cómo procedería para
estimar los parámetros de dicha(s) ecuación(es)?.
Problema 6: Considérese el siguiente modelo de demanda agregada de la economía:

§M ·
LM: log rt E 1 log Yt E 2 log¨¨ t ¸¸ u1t
© Pt ¹
IS: log rt D 1 log Yt u 2t
Donde: M= dinero, Y = ingreso, r = tasa de interés, P = precio y G = Gasto del

Gobierno. uponga que M y P son variables exógenas y r y Y son variables endógenas.
a) ¿Está identificada la IS?, ¿Está identificada la LM?

b) Resuelva el modelo y obtenga las expresiones de la forma reducida para r y para Y.
c) ¿Qué método sugeriría para estimar la pendiente de la IS?. Estímela.
d) Demuestre que el estimador de MCO de la pendiente de la IS es sesgado e
inconsistente.
Problema 7: Suponga un modelo de oferta y demanda agrícolas, donde el precio P y la

cantidad Q se determinan simultáneamente. Los resultados de la estimación por
mínimos cuadrados en 2 etapas fueron:
Oferta: Qt = 2 + 3 Pt + 0.8 Qt-1 + 0.1 Wt

Demanda: Qt = 10 – 2 Pt – 0.3 Pt-1 + 0.5 Yt
Donde: W es el precio del agua y Y el ingreso. Las variables se expresan en

desviaciones.
a) Cuál es la forma reducida de este modelo.

b) Cuál es el impacto en el periodo t+1, t+2, y t+3 de un cambio de una unidad
monetaria en el precio del agua sobre el precio y la cantidad agrícola.
c) Cuál es el impacto en el periodo t+1, t+2, y t+3 de un cambio de una unidad
monetaria en el ingreso sobre el precio y la cantidad agrícola.
Problema 8: Suponga que el mercado de computadoras puede ser representado por las
siguientes ecuaciones:
Qtd D 0 D1Pt D 2Yt u1t (D1 ,D 2 ! 0)

s
Qt E 0 E1Pt u2t ( E1 ! 0)
Qtd Qts
Donde Qtd y Qts son las cantidades demandadas y ofrecidas de computadoras, Pt es el

precio de las computadoras e Yt es el ingreso de las familias (se supone que es una
variable no aleatoria y exógena en el modelo). Se supone que los errores son
serialmente no correlacionadas dentro de cada ecuación, es decir tienen media cero y
varianzas V 12 y V 22 , respectivamente, pero correlacionadas contemporáneamente entre
ecuaciones, con covarianza V 12 .
a) Qué significa que una ecuación está “identificada” en el contexto del modelo de
ecuaciones simultáneas.
b) Discuta la identificabilidad de cada una de las ecuaciones del modelo.
c) Suponiendo que limT o f T 1 ¦ Yt 2 es diferente de cero, pero finito (Y es una
variable estacionaria), derive el sesgo del estimador de MCO del parámetro E1 .
d) Si la covarianza V 12 =0, esperaría que el sesgo del estimador de MCO sea positivo
o negativo (con respecto a la pregunta c).
Bibliografía
Davidson, R. & J.G. Mackinnon (1981). “Several Tests for Model Specification in the
Presence of Alternative Hipótheses”, Econometrica, 49, 781-793.
Dorfman, Jeffrey H & Christopher S. McIntosh (1998), Putting the “econ” into
econometrics, Draft for presentation to the 1998 AAEA Meeting in Salt Lake
City.
Dougherty, C.R.S.(2000). Introduction to Econometrics, class notes, London School of
Economics, http://econ.lse.ac.uk/ie.
Eichenbaum, Martin (1996), “Some comments on the rol of econometrics in economics
theory”, Economic Perspectives, Fedral Reserve Bank of Chicago, pp. 22-31.
Engle, R. F. (1984). “Wald, Likelihood Ratio, and Lagrange Multiplier Tests in
Econometrics”, in Handbook of Econometrics, Vol.2., Z. Griliches & M.D.
Intriligator Editores, North Holland Publishing Company.
Frish, Ragnar (1933), “Editorial”, Econometrica, Vol. 1, 1933, pp. 1-4.
Gujarati, Damodar N.(1997), Econometría, Tercera Edición, Mc Graw Hill, Bogotá-
Colombia.
Greene, William H., Econometric Analysis fourth edition, (2000). Upper Saddle River,
New Jersey: Prentice-Hall.
Griliches, Z. y M.D. Intriligator Editores (1983), Handbook of Econometrics, North
Holland Publishing Company. Amsterdam, North Holland.
Gujarati, Damodar N., (1997). Econometría, Tercera Edición, Mc Graw Hill, Bogotá-
Colombia.
Hansen, Bruce E. (2002). Econometrics, University of Wisconsin, Revisión: Enero 2002,
www.ssc.wisc.edu/~bhansen.
Hausman, Jerry A. (1978), "Specification Tests in Econometrics," Econometrica 46, pags.
1251-1271.
Hausman, Jerry A. (1983), “Specification and Estimation of Simultaneous Equation
Models”, en Z. Grilliches & M. Intriligator editors, Hand Book of Econometrics,
Amsterdam, North Holland.
Intriligator, Michael D (1983), Economic and Econometric Models, en Handbook of
Econometrics, Volumen I, Editado por Z. Griliches y M.D. Intriligator, North-
Holland Publishing Company.
Intriligator, Michael D., Ronald G. Bodkin, and Cheng Hsiao (1996) Econometric
Models,Techniques, and Applications. Prentice Hall, New Jersey.
Johnston, J. (1984), Econometrics Methods, 3th edition, Mc Graw Hill, New York.
272 Bibliografía
Johnston, J. (1984), Econometrics Methods, 3th edition, Mc Graw Hill, New York.
Johnston, Jack, & John DiNardo, (1997). Econometric Methods, fourth edition, New
York,McGraw-Hill.
Judge, G.G., W.E. Griffiths, R.C. Hill, H. Lütkepohl, and T.C. Lee, (1988). Introduction to
the Theory and Practice of Econometric s, 2nd edition, John Wiley and Sons,
New York.
Kennedy, Peter, (1998). A Guide to Econometrics, 4th ed., The MIT Press. Cambridge,
Massachusetts.
Leamer, Edward E. (1983), “Let’s Take the Con Out of Econometrics, The American
Economic Review, Vol. 73 N° 1, pp. 31-43.
LeSage, James P. (1999). An Introduction to Econometrics, Department of Economics,
University of Toledo. Ohio.
Maddala, G. S. (1985), Econometría, Mc Graw-Hill, Madrid.
Maddala, G.S. (1996), Introducción a la econometría, Prentice Hall Hispanoamericana,
S.A., 2da edición, México.
Novales, Alfonso. 1996. Econometría, Segunda edición. McGraw-Hill/Interamericana,
Madrid.
Pindyck, Robert S., and Daniel L. Rubinfeld, (1998) Econometría Modelos y Pronósticos,
Cuarta edición, Irwin McGraw-Hill, Boston,.
Quantitative Micro Software (1998), Eviews 3: User’s Guide, 2nd Edition.
Ramanathan, Ramu, (1995). Introductory Econometrics With Applications, 4th ed., The
Dryden Press. New York.
Ruud, P.A., (1999). Introduction to Classic Econometric Theory, Oxford University Press.
Studenmund, A. H., (2000). Using Econometrics: A Practical Guide, Addison-Wesley,
4th edition, Massachusetts.
Tintner, Gerhard (1953), “The definition of econometrics”, Econometrica, V 21, 1953,
pp.31-40.
Verbeek, Marno, (2001). A Guide to Modern Econometrics, John Wiley and Sons, New
York.
Wooldridge, Jeffrey M., (2000). Introductory Econometrics: A Modern Approach, South-
Western College Publishing. Cincinnati, Ohio.
Apéndice
Tablas Estadísticas
274 Apéndice: Tablas Estadísticas
Tabla 1: Valores Críticos de la Distribución t
g.l.
Tabla 2: Valores Críticos de la Distribución F (α=0.05)
gl1 =1
gl2 =1
Tabla 3: Valores Críticos de la Distribución-χ2
g.l.
Tabla 4 (Parte 1): El Estadístico Durbin Watson

Valores Críticos para dL y dU (α=0.05)
Donde: k’ es el número de pendientes del modelo (k’=k-1). Para k’>5 ir a la Parte 2

Tabla 4 (Parte 2): El Estadístico Durbin Watson

Valores Críticos para dL y dU (α=0.05)

Pichihua 2003 - Econometría - Teoría y Aplicaciones

Cargado por

Copyright:

Formatos disponibles

Pichihua 2003 - Econometría - Teoría y Aplicaciones

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pichihua 2003 - Econometría - Teoría y Aplicaciones

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL AGRARIA LA

RELACIÓN CRECIMIENTO Y EMPLEO

Econ. Juan Pichihua Serna, M.A.

Zósimo Juan Pichihua Serna. Economista experto en Políticas Sociales y Modelación

El Profesor Pichihua ha sido consultor en la Dirección General de Asuntos Económicos

En 1994 el Profesor Pichihua ha recibido el “Premio Nacional a la Investigación

El Profesor Pichihua puede ser contactado al E-mail: jpichihua@lamolina.edu.pe

A mi esposa Any por su

Quisiera decir al lector de este libro, lo que a mi entender, es su principal interés.

Alvaro Ortiz Sarabia

En el verano de 1987, tuve la oportunidad de participar como asistente en un equipo de

Coincidentemente, en dicho verano, mientras en el Departamento de Economía se

Por su contenido, el libro desarrolla la parte “clásica” de la econometría y está dirigido a

Juan Pichihua Serna

1.1 Definición y campo de la econometría 2

CAPITULO I: ECONOMETRIA CAMPO Y USOS

En el año 1933, en el editorial del primer número de la revista especializada

La contribución de Tintner, sin dejar de ser importante, es insuficiente. Al que Maddala

En el mismo sentido, Greene señala que “la econometría es el campo de la economía

Finalmente, Leamer (1983), Eichenbaum (1996) y Dorfman & McIntosh (1998)

Definición: La econometría es la parte de la Economía dedicada a la medición de las

x La relación entre el ingreso disponible y el gasto en bienes de consumo,

La Econometría surge de la unión de la economía y la estadística. La Teoría Económica

Las variables involucradas en la relación económica y

La “ley de la demanda” plantea que el precio y la cantidad demandada guardan una

La Economía Matemática plantea diferentes formas funcionales en las que se pueden

Los Métodos Estadísticos proporcionan métodos alternativos para estimar parámetros

DIAGRAMA 1: ECONOMETRIA: CAMPO Y USOS

Los métodos estadísticos permiten estimar los parámetros desconocidos D y E del

Campo de la econometría: El campo de la econometría es la construcción de modelos

1.2 ETAPAS DE LA CONSTRUCCIÓN DE MODELOS ECONOMÉTRICOS

La especificación del modelo consiste en transformar la hipótesis económica en una

En econometría, la formulación de los modelos es en realidad un arte, pues, se debe

Ejemplo 1.1: Curva de la Demanda

Supongamos un individuo representativo de la sociedad y dos bienes X e Y. La teoría

MaxU (Q X , QY ) sujeto a I PX .Q X  PY .QY ; donde: P = precio y Q = cantidad

Resolviendo el problema del consumidor se obtiene las funciones de demanda de X e Y:

Para el modelo de la demanda del bien X, de todas las alternativas modelísticas

Modelo Elasticidad Elasticidad Cruzada Elasticidad

Ejemplo 1.2: Función Gasto en Alimentos y la “Curva de Engel”

La teoría económica señala que la fracción gastada en alimentos disminuye a medida

La teoría económica se cumple si los parámetros del modelo lineal

Ejemplo 1.3: El Modelo CAPM en Finanzas

La piedra angular de la moderna teoría de las finanzas de empresas se basa en el modelo

Etapa II: Estimación

En la etapa de estimación el econometrista utiliza métodos estadísticos e información

En la etapa de estimación interesa encontrar valores para los parámetros desconocidos

CPˆ Rt 2790.6  0.614 * PBI t

Gráfico 1.2 Consumo Privado vs PBI

Cuadro 1.1 Consumo Privado y PBI

Etapa III: Validación

La validación de un modelo consiste en evaluar la respuesta del modelo estimado a una

La validación económica consiste examinar la concordancia del modelo estimado con

La validación estadística consiste en examinar la significación estadística de los

La validación empírica consiste en evaluar la capacidad del modelo para replicar la

1.3 USOS DE LOS MODELOS ECONOMÉTRICOS

El análisis estructural se refiere al uso del modelo econométrico estimado para

Por ejemplo, supongamos dos especificaciones de la función consumo:

Modelo Corto Plazo Largo Plazo

MaxU (Q X , QY ) sujeto a I PX .Q X PY .QY ; donde: P = precio y Q = cantidad

CPˆ Rt 2790.6 0.614 * PBI t

Yˆi Dˆ EˆX i (2.4)

Supuesto 1: El modelo es lineal Yi D EX i u i , i 1,2,....., n.

b) Media cero: E (u i ) 0 , i 1,2,....., n.

c) Homocedasticidad: Var (u i ) V u2 , i 1,2,....., n.

Supuesto 4: La variable X i tiene varianza finita: Var ( X i ) ! 0, finita , i

Si Yi D EX i u i donde D y E son constantes y X i es una variable exógena:

Corolario 2: Si E (u i ) 0 entonces E (u i X i ) 0 y E (Yi X i ) D EX i

E >Yi E (Yi )@ E >D EX i u i D EX i @

C (Yi , Y j ) E[{Yi E[Yi ]}{Y j E[Y j ]}]

C (Yi , Y j ) E[(D EX i u i D EX i )(D EX j u j D EX j )]

Sea el modelo de regresión lineal simple Yi D EX i u i . Despejando ui tenemos:

Donde yi Yi Y y xi X i X (variables expresadas en términos de desviación)

Dˆ Y EˆX Y Dˆ EˆX , luego, si X i X , entonces Yˆi Y , por lo tanto, el punto