Setnupa (Tci295)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 299

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE

ESCUELA DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE TRANSPORTE Y LOGÍSTICA
ICT-2950 Tópicos de Econometría
Profesor: Louis de Grange C.

ICT 2512 Microeconomía Interrogación 1 17 de Abril


de 1998

APUNTES DE CLASES
ICT-2950 TÓPICOS DE ECONOMETRÍA
(VERSIÓN 1er SEMESTRE 2014)
(CT-2950 Tópicos de Econometría ii

ÍNDICE

Pág.
1 REPASO DE MATRICES Y ANÁLISIS DE DATOS .....................1-1
1.1 Operaciones con Matrices.................................................... 1-1
1.1.1 Matrices Especiales ........................................................................ 1-1
1.1.2 Suma ................................................................................................ 1-2
1.1.3 Multiplicación.................................................................................. 1-2
1.1.4 Operador de Kronecker................................................................. 1-2
1.1.5 Matrices Particionadas ................................................................... 1-3
1.1.6 Matriz Inversa ................................................................................. 1-3
1.1.7 Matriz Traspuesta ........................................................................... 1-3
1.1.8 Traza de una Matriz....................................................................... 1-4
1.1.9 Matrices Ortogonales .................................................................... 1-5
1.1.10 Vectores Característicos y Valores Propios................................... 1-5
1.1.11 Rango de una Matriz ..................................................................... 1-7
1.1.12 Formas Cuadráticas de una Matriz............................................... 1-7
1.1.13 Diferenciación de Matrices ............................................................ 1-8
1.1.14 Series de Taylor .............................................................................. 1-9
1.2 Análisis de Datos.................................................................... 1-9
1.2.1 Tipos de Variables ........................................................................ 1-10
1.2.2 Media, Varianza, Covarianza y Correlación............................. 1-10
1.2.3 Medidas de Dependencia Lineal de los Datos .......................... 1-12
1.2.4 Datos Atípicos (Outliers)............................................................... 1-12
2 REGRESIÓN LINEAL MÚLTIPLE .........................................2-15
2.1 Supuestos del Modelo.........................................................2-17
2.1.1 Supuestos Sobre la Perturbación................................................. 2-17
2.1.2 Supuestos sobre las Variables Explicativas ................................ 2-18
2.1.3 Supuestos sobre los Parámetros del Modelo ............................. 2-18
2.2 Estimación por Mínimos Cuadrados Ordinarios (MCO)..2-18
2.2.1 Vector de Parámetros ...................................................................2-21
2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras
Finitas y Muestras Grandes) ........................................................ 2-23
2.2.3 Teorema Central del Límite........................................................... 2-28

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría iii

2.2.4 Indicadores de Bondad de Ajuste ............................................... 2-30


2.2.5 MCO vs Máxima Verosimilitud ................................................... 2-33
2.2.6 Interpretación Económica............................................................. 2-35
2.2.7 Diagrama de Venn ....................................................................... 2-36
2.2.8 Interpretación Geométrica de los MCO.....................................2-38
3 INFERENCIA Y PRECICCIÓN..............................................3-43
3.1 Contraste de Restricciones ..................................................3-43
3.1.1 Contraste de una Restricción Lineal............................................. 3-43
3.1.2 Contraste de Restricciones Lineales Conjuntas........................... 3-44
3.1.3 Contraste Basado en una Región de Confianza ....................... 3-45
3.1.4 Mínimos Cuadrados Restringidos................................................ 3-48
3.1.5 Contraste de Restricciones No Lineales ......................................3-49
3.2 Predicción .............................................................................3-50
3.3 Estimación por Mínimos Cuadrados Generales (MCG) ..3-53
4 ESPECIFICACIÓN ...........................................................4-56
4.1 Variables Ficticias ................................................................4-56
4.1.1 Cambio Estructural en el Intercepto ............................................ 4-58
4.1.2 Cambio Estructural en la Pendiente............................................. 4-59
4.1.3 Cambio Estructural en el Intercepto y la Pendiente ................... 4-59
4.2 Variables No Lineales..........................................................4-60
4.2.1 Transformaciones Generales ....................................................... 4-60
4.2.2 Transformación Box - Tidwell ....................................................... 4-61
4.2.3 Transformación Box - Cox ............................................................ 4-62
4.3 Modelos No Lineales ..........................................................4-65
4.3.1 Modelo de Regresión Linealizado en Parámetros ..................... 4-66
4.3.2 Modelo de Regresión Linealizado en Variables........................ 4-67
4.4 Especificación de Variables ................................................4-68
4.4.1 Selección de Variables.................................................................4-68
4.4.2 Variables Omitidas ....................................................................... 4-69
4.4.3 Variables Superfluas.....................................................................4-71

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría iv

4.5 Contraste de Subespecificación de Modelos (Test J) .......4-72


5 TEMAS ESPECÍFICOS.......................................................5-74
5.1 Ortogonalidad .....................................................................5-74
5.2 Multicolinealidad .................................................................5-76
5.2.1 Definición de Multicolinealidad................................................... 5-76
5.2.2 Causas de la Multicolinealidad................................................... 5-77
5.2.3 Efectos de la Multicolinealidad ................................................... 5-77
5.2.4 Detección de la Multicolinealidad y su Magnitud..................... 5-84
5.2.5 Corrección de la Multicolinealidad............................................. 5-87
5.2.6 Método de Componentes Principales......................................... 5-88
5.2.7 Regresión Crestra (Ridge Regression)......................................... 5-94
5.3 Heterocedasticidad..............................................................5-97
5.3.1 Definición de Heterocedasticidad ............................................... 5-97
5.3.2 Causas de la Heterocedasticidad ............................................... 5-99
5.3.3 Efectos de la Heterocedasticidad............................................. 5-101
5.3.4 Detección de la Heterocedasticidad........................................ 5-104
5.3.5 Corrección de la Heterocedasticidad ...................................... 5-111
5.4 Autocorrelación................................................................. 5-114
5.4.1 Definición de Autocorrelación .................................................. 5-114
5.4.2 Causas de la Autocorrelación .................................................. 5-115
5.4.3 Efectos de la Autocorrelación................................................... 5-116
5.4.4 Detección de la Autocorrelación.............................................. 5-118
5.4.5 Estimación bajo Autocorrelación .............................................. 5-122
5.5 Endogeneidad................................................................... 5-124
5.5.1 Definición de Endogeneidad .................................................... 5-124
5.5.2 Causas de la Endogeneidad .................................................... 5-125
5.5.3 Efectos de la Endogeneidad..................................................... 5-126
5.5.4 Detección de la Endogeneidad................................................ 5-127
5.5.5 Estimación bajo Endogeneidad ................................................ 5-128
5.6 Asimetría, Curtosis y Normalidad.................................... 5-130
5.6.1 Asimetría ..................................................................................... 5-130
5.6.2 Curtosis ....................................................................................... 5-131
5.6.3 Estadístico Jarque-Bera de Normalidad................................... 5-132

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría v

5.7 Contrastes de Datos Atípicos ........................................... 5-132


6 INTRODUCCIÓN A LAS SERIES DE TIEMPO................6-134
6.1 Extrapolación de Series de Tiempo................................. 6-134
6.1.1 Modelos de Extrapolación Simple ........................................... 6-134
6.1.2 Modelos de Promedio Móvil .................................................... 6-135
6.2 Suavizamiento de Series de Tiempo ............................... 6-136
6.3 Estimación y Pronóstico de Modelos de Tendencia....... 6-137
6.4 Procesos Estocásticos........................................................ 6-137
6.5 Estacionariedad ................................................................ 6-138
6.5.1 Estacionariedad Estricta ............................................................ 6-138
6.5.2 Estacionariedad Débil ............................................................... 6-139
6.5.3 Función de Autocorrelación Simple (FAS) ............................... 6-140
6.5.4 Función de Autocorrelación Parcial (FAP) ............................... 6-142
6.5.5 Proceso Ruido Blanco................................................................ 6-143
6.6 Ergodicidad....................................................................... 6-145
6.7 Teorema de Wold............................................................. 6-146
6.8 Retardos y Diferencias...................................................... 6-147
6.8.1 Operador de Retardos .............................................................. 6-147
6.8.2 Operador de Diferencias .......................................................... 6-148
6.9 Ecuaciones de Diferencias ............................................... 6-148
6.9.1 Definición.................................................................................... 6-148
6.9.2 Solución Recursiva..................................................................... 6-149
6.9.3 Solución Analítica ...................................................................... 6-149

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría vi

6.10 Círculo Unitario ................................................................. 6-156


7 PROCESOS MEDIA MÓVIL .............................................7-159
7.1 Procesos MA(1) ................................................................ 7-159
7.2 Procesos MA(2) ................................................................ 7-162
7.3 Procesos MA(q)................................................................. 7-163
7.4 Invertibilidad de los Procesos MA(q) .............................. 7-164
7.5 Estimación de Procesos MA(q) ........................................ 7-165
7.6 Pronósticos con Procesos MA(q) ..................................... 7-168
8 PROCESOS AUTORREGRESIVOS .....................................8-172
8.1 Procesos AR(1).................................................................. 8-172
8.1.1 Media ......................................................................................... 8-172
8.1.2 Varianza ..................................................................................... 8-173
8.1.3 Autocovarianza.......................................................................... 8-173
8.1.4 Autocorrelación.......................................................................... 8-174
8.2 Procesos AR(2).................................................................. 8-177
8.2.1 Media ......................................................................................... 8-177
8.2.2 Varianza ..................................................................................... 8-177
8.2.3 Autocovarianza.......................................................................... 8-178
8.2.4 Autocorrelación.......................................................................... 8-178
8.3 Procesos AR(p) .................................................................. 8-180
8.4 Estimación de Procesos AR(p).......................................... 8-183
8.5 Pronósticos con Procesos AR(p)....................................... 8-183
8.6 Regla de la Cadena Para Pronosticar AR(p) .................. 8-185
8.7 Dualidad entre Procesos AR y MA .................................. 8-186
8.8 Procesos ARMA(p,q) ........................................................ 8-187
8.9 Pronósticos de Modelos ARMA(p,q)............................... 8-189
8.10 Procesos ARIMA(p,i,q) ..................................................... 8-191
8.11 Procesos Estacionales ....................................................... 8-192
8.11.1 Estacionalidad Mediante Variables Dicotómicas.................... 8-193
8.11.2 Procesos Autorregresivos Estacionales..................................... 8-194
8.11.3 Estacionariedad del AR(p) Estacional ...................................... 8-194
8.11.4 Procesos Medias Móviles Estacionales.................................... 8-195
8.11.5 Identificación de s...................................................................... 8-196

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría vii

9 PROCESOS ESTOCÁSTICOS NO ESTACIONARIOS ...............9-197


9.1 Paseo Aleatorio................................................................. 9-197
9.2 Procesos ARIMA ............................................................... 9-201
9.2.1 Identificación de Procesos ARIMA ........................................... 9-202
9.2.2 Estimación de Procesos ARIMA................................................ 9-206
9.2.3 Inicialización de la Serie........................................................... 9-207
9.2.4 Validación de Procesos ARIMA................................................ 9-209
9.2.5 Predicción con Procesos ARIMA .............................................. 9-215
9.3 Orden de Integración de una Serie: Métodos No
Paramétricos ...................................................................... 9-219
9.3.1 Análisis de la Función de Autocorrelación .............................. 9-219
9.3.2 Sobrediferenciación................................................................... 9-221
9.3.3 Análisis de la Varianza.............................................................. 9-222
10 RAÍCES UNITARIAS Y COINTEGRACIÓN .................10-223
10.1 Tendencias Determinísticas y Estocásticas ....................10-224
10.1.1 Tendencia Determinística......................................................... 10-224
10.1.2 Tendencia Estocástica.............................................................. 10-225
10.2 Regresión Espuria............................................................10-228
10.3 Detección de Raíces Unitarias .......................................10-230
10.3.1 Análisis Gráfico de la Serie .................................................... 10-230
10.3.2 Análisis del Correlograma Simple de la Serie....................... 10-231
10.3.3 Utilización del Estadístico de Durbin - Watson...................... 10-233
10.4 Contraste de Estacionariedad y de Raíz Unitaria ........10-234
10.4.1 Contraste de Dickey – Fuller (DF) .......................................... 10-234
10.4.2 Contraste de Dickey – Fuller Aumentado (DFA)................... 10-240
10.4.3 Contraste de Phillips – Perron (PP) ......................................... 10-241
10.5 Cointegración..................................................................10-242
10.6 Detección de Cointegración ..........................................10-244
10.6.1 Engle y Granger ...................................................................... 10-244
10.6.2 Durbin y Watson...................................................................... 10-245
10.6.3 Modelo de Corrección de Errores (MCE) ............................. 10-245

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría viii

10.7 Causalidad ......................................................................10-247


11 ANÁLISIS FACTORIAL.................................................11-248
11.1 Comparación Entre FA y MCP ......................................11-252
11.2 El Modelo de Análisis Factorial .....................................11-252
11.2.1 Hipótesis del FA ....................................................................... 11-252
11.2.2 Forma Matricial del FA............................................................ 11-253
11.3 Ecuaciones del FA...........................................................11-254
11.3.1 No Unicidad de los Factores .................................................. 11-255
11.3.2 Normalización del Modelo Factorial..................................... 11-255
11.4 Resolución de las Ecuaciones del FA ............................11-256
11.4.1 Número de Factores................................................................ 11-256
11.4.2 Método del Factor Principal ................................................... 11-257
11.5 Determinación de la Cantidad Apropiada de Factores...... 11-
262
11.5.1 Criterios Subjetivos .................................................................. 11-263
11.5.2 Criterios Objetivos ................................................................... 11-263
11.6 Rotación de Factores ......................................................11-264
11.6.1 Rotación VARIMAX.................................................................. 11-266
11.6.2 Rotación Oblicua ..................................................................... 11-267
11.7 Cuantificación de Factores.............................................11-268
11.7.1 Método de Barlett.................................................................... 11-269
11.7.2 Método de Thompson ............................................................. 11-269
11.7.3 Otros Métodos......................................................................... 11-270
12 ANÁLISIS DE CONGLOMERADOS (CLUSTER)..................12-271
12.1 Medidas de Semejanza y Desemejanza ......................12-271
12.1.1 Distancia Métrica..................................................................... 12-271
12.1.2 Distancia de Mahalanobis ...................................................... 12-271
12.2 Análisis Gráficos .............................................................12-272
12.2.1 Gráficos de Dispersión (Bidimensionales) ............................. 12-272
12.2.2 Gráficos de Dispersión (Tridimensionales)............................. 12-273
12.2.3 Gráficos de Andrews............................................................... 12-274
12.2.4 Gráficos de Estrellas ................................................................ 12-276
12.2.5 Gráficos de Caras de Chernoff .............................................. 12-279

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría ix

12.3 Métodos de Agrupación ................................................12-280


12.3.1 Método del Vecino Más Cercano ......................................... 12-280
12.3.2 Diagrama de Árbol.................................................................. 12-283
12.3.3 Estadístico F de Beale ............................................................. 12-286
12.4 Reducción de la Escala Multidimensional ....................12-287

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-1

1 REPASO DE MATRICES Y ANÁLISIS DE DATOS

1.1 Operaciones con Matrices

 a11 a12 .... a1n   a11 a21 .... am1 


a a22 
a2 n  a a22 am 2 
Sea la matriz A   21 donde AT   12 .
 ....  ....   ....  .... 
   
 am1 am 2 .... amn   a1n a2 n .... amn 

1.1.1 Matrices Especiales

D = diag(A) es la diagonal de la matriz A de dimensión n x n:

 a11 0 .... 0 
0 a 0 
D 22
 DT (1.1)
 ....  .... 
 
 0 0 .... ann 

T se denomina triangular superior de la matriz A:

 a11 a12 .... a1n 


0 a a2 n 
T  22
(1.2)
 ....  .... 
 
 0 0 .... amn 

In se denomina matriz identidad de dimensión n x n:

 1 0 .... 0 
0 1 0 
I  (1.3)
....  ....
 
 0 0 .... 1 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-2

1.1.2 Suma

C  A  B es definido como cij  aij  bij dado que A y B tienen el mismo


número de filas y de columnas. Es fácil demostrar que:  A  B  C  A   B  C  y
también que A  B  B  A .

1.1.3 Multiplicación
n
C  A  B es definido como cij    aik  bkj  dado que A y B son matrices
k 1

conformables, es decir, A es de r x n y B e de n x p. Debe notarse que:

 A  B y B  A no son necesariamente iguales.

 Se cumple que A   B  C   A  B  A  C

 En general, A  B  B  A
n
 Dos vectores a  A y b  B son ortogonales  a  b  si aT  b    ai  bi   0
i 1

n
a   aT a 
12
  a
i 1
2
i

Si A  A  A se dice que A es idempotente, y en general  A   A, p  1 .


p

1.1.4 Operador de Kronecker

Si A es de m x n y B e de s x t, el operador de Kronecker de A y B, denotado


por A  B , es una matriz de ms x nt dada por:

 a11 B a12 B .... a1n B 


a B a B a2 n B 
A B   21 22
(1.4)
 ....  .... 
 
 an1 B an 2 B .... amn B 

Se cumplen las siguientes propiedades:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-3

  A  B  C  D    AC  BD 
  A  B   C  D    A  C    A  D    B  C    B  D 
  A  B  C  A   B  C 

1.1.5 Matrices Particionadas

La matriz A de m x n puede ser particionada en 4 sub-matrices de la forma:

A A12 
A   11 (1.5)
 A21 A22 

Luego, si B es también particionada se puede obtener la siguiente expresión:

A A12   B11 B12   A11B11  A12 B21 A11B12  A12 B22 


A  B   11  (1.6)
 A21 A22   B21 B22   A21B11  A22 B21 A21B12  A22 B22 

1.1.6 Matriz Inversa

Dada la matriz A de n x n, si existe una matriz B que satisface AB = BA = In,


esta matriz B se denomina inversa de A, y se denota B  A1 . Se cumplen las siguientes
propiedades:

 AB 
1
  B 1 A1

 A1  A1  B 1  B 1
1
 A  B
1

1.1.7 Matriz Traspuesta

Se cumplen las siguientes propiedades:

 A T T
A

 A  B
T
  AT  BT

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-4

 A B
T
  BT AT

A  A 
1 T T 1

 Si A  AT se dice que A es simétrica

 A  AT y AT  A son simétricas

 A  B   AT  BT 
T

1.1.8 Traza de una Matriz

La traza de una matriz cuadrada conformable A de n x n se define como la


n
suma de los elementos de su diagonal: tr  A    aii . Debe notarse que:
i 1

 tr  AT   tr  A 

 tr  A  B   tr  A   tr  B 

 tr  A  B   tr  B  A 

 tr  k  A   k  tr  A 

 tr  A  B   tr  A   tr  B 

Debe notarse que para un producto de matrices cuyo resultado


es un escalar, dicho valor también corresponde a la traza del producto
original de las matrices. Es decir, el valor de un escalar es igual a su traza.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-5

1.1.9 Matrices Ortogonales

Las matrices ortogonales son matrices cuadradas que pueden representar un


giro en el espacio respecto a un plano (o hiperplano). Para caracterizar estas matrices,
supongamos que, dado un vector X, lo ponderamos por una matriz no singular C, y
obtenemos un nuevo vector Y:

Y CX (1.7)

Si la operación realizada es sólo un giro, entonces el módulo o norma de Y


debe ser idéntica a la de X, y por lo tanto se cumple:

Y T Y  X T C T CX  X T X (1.8)

Por lo tanto, debe cumplirse que:

CT C  I (1.9)

La condición de ortogonalidad es la que se obtiene de (1.9), de donde se


deduce que la matriza traspuesta debe ser igual a su inversa:

C T  C 1 (1.10)

Luego, una matriz ortogonal debe tener filas (o columnas) que


son ortogonales entre sí, y de longitud igual a la unidad.

1.1.10 Vectores Característicos y Valores Propios

Dada una matriz cuadrada, existen determinadas propiedades de dicha


matriz que son invariantes ante transformaciones lineales de dicha matriz de tal forma que
se mantiene la información existente en la matriz. Algunos ejemplos pueden ser trasponer la
matriz o girarla.

Los valores propios son las medidas básicas de tamaño de una matriz. Dichas
medidas básicas, como la traza o el determinante, son función de los valores propios, y
serán por lo tanto invariantes ante transformaciones lineales que preserven los valores
propios.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-6

Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos


vectores cuya dirección no se modifica al aplicar una transformación lineal a la matriz. Sea

A una matriz de n x n. Existe entonces un vector propio c que satisface:
 
Ac   c (1.11)

para determinados valores constantes de , que es un escalar, y que se denomina valor


propio.

Si c es un vector propio de A, y si multiplicamos (1.11) por cualquier   0 ,

entonces   c también será un vector propio de A. Para evitar esta indeterminación,

supondremos que c  1 .


Luego, existe una solución no nula (para c  0 ) que verifica:

det A    I  0 (1.12)

La expresión (1.12) es un sistema de ecuaciones lineal homogéneo que tiene


una solución no nula sólo si la matriz  A    I  es no singular. El polinomio que se obtiene
de (1.12) en función de  se denomina ecuación característica.

Las soluciones de (1.11) son los vectores característicos, y los distintos valores
de  en (1.12) son las raíces características, que son número reales si la matriz es simétrica.
En general, una matriz tiene h  n valores propios. A cada valor propio de la matriz
podemos asignarle un único vector propio que satisface (1.11).

Debe destacarse que:

 Si  es un valor propio de A, entonces  r es un valor propio de Ar

 Los valores propios de una matriz y su traspuesta son los mismos


n
 tr  A    i
i 1

n
 tr  Ar    ir
i 1

n
 tr  A1    i1
i 1

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-7

n
 A   i
i 1

 Los vectores característicos de una matriz simétrica son ortogonales


 Las matrices A y (A + I) tienen los mismos vectores propios, y si es un valor propio
de A + 1 es un valor propio de (A + I)

 Las matrices ABC, ACB y CAB tienen los mismos valores propios no nulos

 Si A es triangular, los valores propios son los elementos de la diagonal

 En una matriz simétrica, los valores propios son números reales y los vectores son
ortogonales

1.1.11 Rango de una Matriz

Supongamos una matriz A de m x n con m filas  a1 , a2 ,...., am  . El rango de la


matriz A corresponde al número de filas linealmente independientes. Si el rango es m, se
dice que la matriz es de rango completo.

 rango  AT   rango  A   rango  AT A 

 rango  A  B   min rango  A  ; rango  B 

 El rango también corresponde al número de raíces características  distintas de cero


en  AT A  . Si la matriz es simétrica, corresponde al número de raíces características
 distintas de cero en A.

1.1.12 Formas Cuadráticas de una Matriz

Sea una matriz A de n x n simétrica, y x   x1 , x2 ,...., xn  un vector. Entonces


n n
la expresión q  xT Ax    xi x j aij  se denomina forma cuadrática, que es un
i 1 j 1

polinomio de segundo grado en x.

 Si xT Ax  0 entonces A es definida positiva.

 Si xT Ax  0 entonces A es definida negativa.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-8

 Si xT Ax  0 entonces A es semi-definida positiva.

 Si xT Ax  0 entonces A es semi-definida negativa.

1.1.13 Diferenciación de Matrices

Sea una matriz X de n x m con elementos xij , y f  f  X  una función que


depende de los elementos de X. Entonces:

df  df  
   (1.13)
dX  dxij  

Como ejemplo, supongamos que f  5 X 1  2 X 2  3 X 3 . Luego:

5
df  
 2 (1.14)
dX  
 3 

Además, es fácil obtener los siguientes resultados:

d T X  d T X 
 X, 
d dX

d T X  
 Si X simétrica entonces  2X 
d

df
 Si f  X   aT Xb entonces  bT a
dX

df
 Si f  X    A  X  B  entonces  AT BT
dX

df
 Si X es de n x n y f  X    X  entonces  In
dX

df
 Si X es de n x n y f  X    X T AX  entonces   A  AT  X
dX

Definiendo Y T   f1  X  ; f 2  X  ;.......; f n  X   , entonces:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-9

 df1 df 2 df n 
 dx .....
dx1 dx1 
 1 
 df1 df 2 df n 
dY  df1 df 2 df n   .....
  ; ;......;  dx2 dx2 dx2 
dX  dX dX dX   
     
 
 df1 df 2 df n 
.....
 dxn dxn dxn 

dY
 Si Y  AX entonces  AT
dX

1.1.14 Series de Taylor



Para una función vectorial f  f  x  la expansión en series de Taylor es la
siguiente:
   T  
      2 f  x0    x  x0    x  x0 
f  x   f  x0   f  x0    x  x0    .... (1.15)
2
   
f  x    0  1  x   2  x T x  ...... (1.16)

1.2 Análisis de Datos

En general, consideraremos un total de n datos u observaciones o unidades


experimentales, y un total de p variables. Es decir, cada una de las n observaciones
considera p variables. Esta información puede ser representada como una matriz de p x n.

 x11 x12 .... x1 p 


x x22 x2 p 
X 
21
(1.17)
 ....  .... 
 
 xn1 xn 2 .... xnp 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-10

1.2.1 Tipos de Variables

Las variables pueden ser básicamente de dos tipos: cuantitativas o


cualitativas. Las cuantitativas se caracterizan porque su valor puede ser expresado
numéricamente, como por ejemplo la edad de una persona, su peso, la población de un
país, el ingreso monetario de un individuo, etc. Las variables cualitativas se caracterizan
porque su valor corresponde a un atributo o categoría, como por ejemplo el sexo, su país
de nacimiento, temporada del año, etc.

Las variables cuantitativas pueden a su vez en continuas o discretas. Las


variables cualitativas por su parte pueden clasificarse en binarias (sólo 2 valores) o
múltiples (muchos valores).

1.2.2 Media, Varianza, Covarianza y Correlación

Estas variables representan un resumen de la información existente en los


datos. En términos probabilísticos, estas variables están asociadas a los momentos de la
función de densidad.

Para una determinada variable k en particular, su media se representa como:

1 n
xk   xik
n i 1
(1.18)

La varianza de esta variable k está relacionada conceptualmente con la


distorsión promedio de cada observación de la variable respecto a la media de dicha
variable, y se expresa de la siguiente forma:

1 n
V  xk     xik  xk 
2
(1.19)
n  1 i 1

Por otra parte, el grado de relación lineal entre dos variables se mide
por la covarianza. La covarianza entre las variables xk y x j se calcula como:

1  n 
cov  xk , x j      xik  xk   xij  x j  (1.20)
n  1  i 1 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-11

Notar que la covarianza puede ser positiva o negativa. El signo de la


covarianza indica el signo de la varianción conjunta de las variables xk y x j . Su magnitud,
sin embargo, depende de la escala en que fueron medidas las variables.

A partir de las expresiones obtenidas de (1.20), se puede generar la matriz de


varianzas y covarianzas del conjunto de datos X. En la diagonal irán los términos
asociados a la varianza de cada una de las p variables, y fuera de la diagonal irán los
términos asociados a la covarianza entre las distintas variables. Luego, la matriz de
varianzas y covarianzas es de (p x p).

Una característica importante de la matriz de varianzas y covarianzas es que


es siempre simétrica y positiva-definida (excepto que existan filas columnas
dependientes).

La simetría se debe a que cov  xk , x j   cov  x j , xk  ; lo de positiva definida es


una extensión del hecho que la varianza es siempre positiva por definición, ya que es una
suma de elementos al cuadrado.

Adicionalmente, la traza, el determinante y los valores propios


de la matriz de varianzas y covarianzas son siempre no negativos.

Como se mencionó anteriormente, la magnitud de las varianzas y covarianzas


depende de la escala en que se han medido las variables xk y x j . Ello implica que valores
altos de la covarianza no implica necesariamente altos grados de relación lineal entre las
variables. Análogamente, valores bajos no implica ausencia de relación entre ellas.

Una alternativa que mitiga este problema es la matriz de correlaciones, que se


obtiene de la siguiente expresión:

cov  xk , x j 
rkj  (1.21)
V  xk   V  x j 

Las propiedades de la metriz de correlaciones son las mismas que las de la


matriz de varianzas y covarianzas: simétrica, semidefinida positiva, y con traza,
determinante y valores propios no nulos. Sin embargo, los valores de la matriz de
correlaciones van entre –1 y 1, y los elementos de la diagonal son siempre 1.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-12

1.2.3 Medidas de Dependencia Lineal de los Datos

Interesa analizar la estructura de dependencia entre las variables. Estas


dependencias pueden estudiarse como:

 Dependencia entre pares de variables (correlación)

 Dependencia entre pares de variables pero eliminando el efecto del resto


(correlación parcial)

 Dependencia entre una variable y un conjunto de variables (regresión


lineal múltiple)

1.2.4 Datos Atípicos (Outliers)

a) Definición

Datos atípicos o Outliers son aquellas observaciones que al parecer han sido
generados de manera distinta al resto de los datos. Pueden ser causados por ejemplo por
errores de medición o digitación de los datos, cambios en los instrumentos de medición o
simplemente representan una heterogeneidad intrínseca de los elementos observados.

La caracterización de un único dato atípico es simple, ya que por definición


debe estar alejado del resto. Luego, la distancia entre dicha observación y el resto debe ser
alta. Alternativamente, podemos definir como dato atípico aquella observación que se
encuentra alejada del centro o de la media de los datos.

Una observación puede considerarse atípica si la distancia métrica entre dicha


observación y la media de los datos es grande:
12
d  xi , x    xi  x   xi  x 
T
(1.22)

Para identificar las observaciones atípicas, podríamos construir un histograma


de estas distancias y determinar si existen puntos muy alejados respecto a los demás.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-13

Sin embargo, esta medida de distancia no es correcta cuando existe


dependencia entre observaciones (relación lineal). Ello se debe a que la distancia
euclidiana no considera la estructura de correlaciones entre los datos; una alternativa es
estandarizar previamente los datos en forma multivariante. La estandarización típicamente
utilizada es la siguiente:

xki  xk
zki  (1.23)
V  xk 

Luego, se puede construir la distancia euclidiana pero con las variables


estandarizadas:
12
d  zi , z    zi  z   zi  z 
T
(1.24)

b) Efectos de los Datos Atípicos

Las consecuencias incluso de una única observación atípica pueden ser


graves: distorsionar las medias y desviaciones típicas de las variables y destruir eventuales
relaciones existentes entre ellas.

Consideremos que tenemos una muestra de tamaño n con observaciones de


un vector p-dimensional x. Supongamos ahora que introducimos una observación atípica a,
que corresponde también a un vector de p variables. Sea x el vector de medias de las p
variables y V la matriz de varianzas y covarianzas sin el dato atípico; sea xa el vector de
medias de las p variables y Va la matriz de varianzas y covarianzas con el dato atípico. Se
comprueba fácilmente que:

ax 
xa  x    (1.25)
 n 1 

 n    a  x  a  x T  n 
Va    V    (1.26)
 n 1 n 1   n  1 
 

Las expresiones anteriores indican que un solo dato atípico puede afectar de
manera importante el vector de medias y la matriz de varianzas y covarianzas.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-14

El efecto del dato atípico depende, además de su magnitud, de su ubicación,


particularmente la matriz de varianzas y covarianzas.

c) Identificación de Datos Atípicos

Una regla simple y automática para detectar datos atípicos es la siguiente:

xki  mediana  xk 
 4,5 k  1, 2,...., p (1.27)
MEDA  xk 

MEDA (xk) es la mediana de las desviaciones absolutas xki  mediana  xk  ,


que es una medida robusta de las dispersión.

Por otra parte, si el número de datos no es muy grande, los diagramas de


dispersión pueden ayudar a detectar datos atípicos.

Otra alternativa corresponde a escoger el intervalo que albergue a un


88,88% de las observaciones. El intervalo será el siguiente:

x 
k V  xk  ; xk   V  xk   k  1, 2,...., p (1.28)

Se suele considerar  = 3. Esta expresión proviene de la desigualdad de


1
Chebychev, ya que en el intervalo definido se encuentra una proporción 1  2 de las

observaciones. Si  = 4, se albergan el 93,5% de las observaciones.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-15

2 REGRESIÓN LINEAL MÚLTIPLE

La econometría es la aplicación de métodos estadísticos y matemáticos al


análisis de datos, generalmente económicos, biológicos y sociológicos, a fin de otorgar un
contenido empírico sobre diferentes teorías, y así verificarlas o refutarlas.

El modelo de regresión lineal es el único escenario en econometría en el que


es factible contrastar fehacientemente la capacidad de predicción de los modelos
ajustados, mediante la aplicación de diversos test específicos. Otros modelos
econométricos, como por ejemplo modelos de elección discreta (Logit, Probit) o de variable
dependiente limitada (Tobit, Selección Muestral), si bien pueden estimarse mediante
técnicas econométricas, no existe un indicador de bondad de ajuste tan preciso como en el
caso de la regresión lineal.

Mediante un modelo de regresión lineal múltiple (RLM) tratamos de explicar el


comportamiento de una determinada variable, que denominaremos variable a explicar,
variable endógena o variable dependiente, (y representaremos con la letra Y) en función
de un conjunto de k variables explicativas x1 , x2 ,...., xk mediante una relación de
dependencia.

Y  f ; X   (2.1)

En el caso del modelo de RLM, la forma funcional es la siguiente:

Y  X   (2.2)

 y1   0   1 x11 x12 .... x1k   1 


    1 x  
y  x22 .... x2 k  
Y  2 ,   1 , X  21
,   2
 ....   ....  ....   .... 
       
 yn   k   1 xn1 xn 2 .... xnk   n 

 Y es el vector de variables dependientes (n x 1)

  es el vector de parámetros o coeficientes de calibración (k + 1 x 1). Normalmente,


se considera que hay k variables explicativas más un témino constante o intercepto
(representado por la columna de unos en la matriz X).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-16

 X es la matriz de variables independientes o explicativas; observaciones conocidas


que incluye una columna con unos (n x k +1). También se les denomina regresores.

  es el vector de errores o residuos no observados (n x 1); también se le denomina


perturbación, término aleatorio o estocástico (para el caso de series de tiempo).

Los parámetros miden la intensidad media de los efectos de las variables


explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de
Y
la variable a explicar respecto a cada una de as variables explicativas:  j  .
x j

El error , por su parte, aparece por varias razones. Las tres principales
razones son las siguientes:

i. Muchas veces no es posible captar la totalidad de variables que explican un


determinado fenómeno. Es decir, se omiten algunas variables que pueden ser
más o menos relevantes en la especificación del modelo. Esto implica que la
naturaleza de la relación económica no está correctamente especificada.
Evidentemente se espera que en un modelo se especifiquen todas las
variables relevantes. Sin embargo, muchas de las variables omitidas pueden
incluso tener una influencia suave o irregular, por lo que la perturbación
busca representar la influencia neta de la suma de un gran número de
variables de tamaños y efectos independientes.

ii. Mediciones con Error de las variables explicativas o en la variable explicada.


Muchas veces no es posible obtener un valor preciso para las variables que
se desea estudiar o incorporar en los modelos. Por ejemplo, cuando se miden
tiempos de viaje en transporte público o consumo de combustible de los
automóviles. Sin embargo, y como veremos más adelante, si las variables
explicativas son medidas con error, se obtienen estimaciones sesgadas en la
regresión lineal, y si la variable explicada es medida con error, se produce
ineficiencia en la estimación (aumento de la varianza).

iii. Indeterminación humana, es decir, las personas o individuos se comportan de


manera diferente frente a los mismos estímulos. Elerror busca por lo tanto
representar esta aleatoriedad inherente al comportamiento humano.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-17

2.1 Supuestos del Modelo

Trataremos de estimar el modelo de manera que, los valores ajustados de la


variable endógena o explicada, resulten tan próximos a los valores realmente observados
como sea posible. Debe notarse que el modelo corresponde a una esperanza
condicionada:

E Y / X   X  (2.3)

A fin de poder determinar las propiedades de los estimadores obtenidos al


aplicar distintos métodos de estimación y realizar diferentes contrastes, hemos de
especificar un conjunto de supuestos sobre la RLM que hemos formulado. Existen tres
grupos de supuestos: los supuestos sobre el término de perturbación, los supuestos
sobre las variables explicativas, y los supuestos sobre los parámetros del modelo.

2.1.1 Supuestos Sobre la Perturbación

 Valor esperado de la perturbación es cero: E   j   0 ,  j .

 Homocedasticidad: todos los términos de perturbación tienen la misma varianza


(varianza constante): V   i   V   j = 2 ,  i  j . Por tanto, todos los términos de
la diagonal principal de la matriz de varianzas y covarianzas serán iguales.

 No Autocorrelación: los errores son independientes unos de otros, por lo que la


matriz de varianzas y covarianzas es una matriz diagonal (fuera de la diagonal
principal todo son ceros): E   i ,  j   0 ,  i  j . Luego, considerando las hipótesis
de homocedasticidad y ausencia de autocorrelación, la matriz de varianzas y
covarianzas tiene la siguiente estructura:

 2 0 0 .... 0 
 
0 2 0 .... 0 
V      2 I (2.4)
 .... .... 
 2
 0 0 0 ....  

 La perturbación o error presenta una distribución normal:   N  0;  2 I  .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-18

En síntesis, en un modelo bueno el error es impronosticable.

2.1.2 Supuestos sobre las Variables Explicativas

 Las variables explicativas son fijas o determinísticas.

 Las variables explicativas no están correlacionadas con el término de error o


perturbación: E  xi ,  i   0 ,  i .

 Las variables explicativas no presentan relación lineal exacta entre si (no existe
multicolinelidad perfecta).

 Las variables explicativas son medidas sin error.

 En el modelo no se excluyen las variables relevantes y tampoco se incluyen las


variables irrelevantes, a la hora de explicar el comportamiento de la variable
endógena.

2.1.3 Supuestos sobre los Parámetros del Modelo

 La única hipótesis que haremos acerca de los parámetros del modelo es la hipótesis
de permanencia estructural, lo que significa que los parámetros poblacionales j  j
se mantienen constantes a lo largo de toda la muestra.

2.2 Estimación por Mínimos Cuadrados Ordinarios (MCO)

Esl método de estimación de modelos de regresión lineal más famoso en el


mundo entero para efectuar investigación empírica es el de mínimos cuadrados ordinarios
(MCO). Este método intenta obtener estimadores de los parámetros de tal forma que la
variable predicha Yˆ se parezca lo más posible a la variable observada (Y), es decir, se
 
musca minimizar la diferencia Yˆ  Y . Sin embargo, no basta sólo con minimizar esta

diferencia, como se observa en la siguiente Figura:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-19

Figura 2.1
Ajuste Según Minimización del Error

En la Figura 2.1 se observa claramente que si el criterio de ajuste fuera


simplemente minimizar los la diferencia entre los valores observados de las Y (puntos) y los
valores modelados (línea recta azul), los dos conjuntos de datos representados por los
puntos negros y rojos tendrían el mismo ajuste. Evidentemente, es mejor el ajuste de los
puntos rojos. Por lo tanto, minimizar las diferencias entre valores observados y modelados
no es un buen criterio.

Una segunda alternativa podría se minimizar el valor absoluto de las


diferencias entre los valores observados y modelados, mitigando el problema expuesto en
el párrafo anterior. Sin embargo, este segundo criterio también tiene sus detractores, como
se observa en la siguiente Figura:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-20

Figura 2.2
Ajuste Según Minimización del Valor Absoluto del Error

En la Figura 2.2 se observa los puntos negros presentan tres casos en que el
ajuste es exacto y otros tres casos en que el ajuste es malo. En el caso de los puntos rojos,
se observa que el ajuste en todos los casos es relativamente bueno. Para muchos
modeladores, el ajuste de los puntos rojos es preferible al de los puntos negros. Sin
embargo, la opinión en este segundo caso es dividida, ya que en determinadas situaciones
puede ser preferible predecir exactamente un número pequeño de casos a cambio de fallar
groseramente en otros, en lugar de estar cerca en todos, pero sin apuntar exactamente a
ninguno. Suponga por ejemplo que usted tiene un modelo que predice los números del
Loto; qué preferiría usted si jugara 6 veces, apuntarle al total de los números 3 veces y a
ningún número las otras tres veces, o fallar por poco las 6 veces. Evidentemente, en este
ejemplo es preferible el primer modelo.

Una tercera alternativa de criterio es minimizar el cuadrado de las diferencias


entre los valores observados y los modeloados. Esto permite, por una parte, penalizar los
errores y, por otra parte, castigar a aquellos puntos que se alejen mucho del valor
observado. Por lo tanto, este criterio penaliza más fuertemente a aquellos errores grandes
en magnitud que aquellos errores pequeños. A este criterio se le denomina Mínimos
Cuadrados Ordinarios o simplemente MCO (los mínimos cuadrados generales, que es un
criterio adicional que otorga un peso relativo a cada observacón, se presenta en los
próximos Capítulos).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-21

Sin embargo, la principal razón del éxito de la estimación por MCO no se


debe a la minimización de la suma de errores al cuadrado, ya que ello poco nos dice
respecto de la real capacidad explicativa de las variables. La razón de su éxito se debe a
que sus resultados superan al de otros criterios (como los dos anteriores), y además a su
gran simplicidad en términos computacionales.

2.2.1 Vector de Parámetros

La estimación de MCO se realiza con el criterio de minimizar los cuadrados


de los errores inducidos por el modelo poblacional. Luego, debe resolverse el siguiente
problema de optimización:

Q= Y  X   Y  X  
T
min (2.5)
  
T

min Q  Y TY   T X TY  Y T X    T X T X   0 (2.6)
 

y dado que  X     T X T se obtiene:


T

min Q  Y TY  2 T X TY   T X T X  (2.7)
 

Q
 2 X T Y  2 X T X   0  X T Y  X T X  (2.8)


Si X tiene rango (k + 1) de la ecuación normal (2.8) se obtiene entonces la


siguiente solución única:

ˆ   X T X  X T Y
1
(2.9)

Debe notarse que la expresión (2.9) corresponde a la razón entre la


covarianza de X e Y y la varianza de X. Si X tiene rango menor que (k + 1), es decir,
existe dependencia lineal en las observaciones, de la ecuación normal (2.8) deja de
obtenerse una única solución. Por otra parte, si X tiene rango mayor que (k + 1), el
problema queda indeterminado (más parámetros que ecuaciones).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-22

Por otra parte, la estimación de la varianza de ̂ se obtiene de la siguiente


manera:

  
V ˆ  E  ˆ    ˆ    
T
(2.10)


     E   X T X 1 X T    X T X 1 X T   
T
E  ˆ            
T
ˆ   (2.11)
   

 
V ˆ  E  X T X   X T  T X  X T X  
1 1
(2.12)
 

 
V ˆ   X T X  E  X T  T X   X T X 
1 1
(2.13)

 
V ˆ   X T X  X T E  T  X  X T X 
1 1
(2.14)

 
V ˆ   X T X  X T  2 I  X  X T X 
1 1
(2.15)

 
V ˆ   2  X T X 
1
(2.16)

Sin embargo, es necesario un estimador de  2 . Es directo demostrar a partir


de (2.9) y (2.2) que:

ˆ  MY  M  X      MX   M   M  (2.17)


donde M  I  X  X T X  X T
1
 es una matriz de n x n simétrica M  M 
T
e

idempotente  M  M T M  . Luego, de (2.17) se obtiene:

ˆT ˆ   T M  (2.18)

E  ˆT ˆ / X   E   T M  / X  (2.19)

E tr  ˆT ˆ / X    E tr   T M  / X   (2.20)

tr  ME   T / X    tr  M  2 I    2tr  M  (2.21)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-23

   
 2tr  M    2tr I  X  X T X  X T   2 tr  I n   tr X  X T X  X T  (2.22)
1


1

 2 tr  I n   tr  I k     2  n  k  (2.23)

Por lo tanto se obtiene:

E  ˆT ˆ / X    2  n  k  (2.24)

ˆT ˆ
ˆ 2  (2.25)
n  k 

Finalmente, de (2.16) y de (2.25) resulta:

ˆT ˆ
   XTX 
1
Vˆ ˆ  (2.26)
n  k 

2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras Finitas y


Muestras Grandes)

i. El estimador MCO es insesgado y eficiente:

ˆ   X T X   X   X   
1 T
(2.27)

ˆ   X T X  X X  X X  X 
1 T T 1 T
(2.28)

ˆ     X T X   X     ˆ      X X   X  
1 T T 1 T
(2.29)

 
E ˆ    E  X T X   X T   
1
(2.30)
 

 
E ˆ    E  X T X   X T        X T X  E  X T  
1 1
(2.31)
 

 
E ˆ     X T X  E  X T  E   
1
(2.32)

 
E ˆ   (2.33)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-24

Figura 2.3
Ilustración del Sesgo en la Estimación MCO de 

Densidad
SESGO

 
E ˆ    
E  Estimador de 

Para demostrar que ̂ presenta la mínima varianza:

b  X T 1

X  X T  C Y  ˆ  CY (2.34)

E b   X T 1

X  X T  C X    I  CX     (2.35)


   X X  

T
V  b   E   X T X  X T  C  T
1 T 1
XT C  (2.36)
 

 X   
T
X  X T  C E   T   X T X  X T  C
1 1
V b  T
(2.37)

   
T
 X T X  X T  C  2I XT X  XT C
1 1
V b  (2.38)

V b   2  X T 1
 
X   CC T  V ˆ   2  CC T   V ˆ   (2.39)

ˆ  N   ;  2  X T X  
1
(2.40)
 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-25

Figura 2.4
Ilustración de la Eficiencia en la Estimación MCO de 

N = 800

N = 300
Densidad

N = 100

N = 30

 
E ˆ   Estimador de 

A partir de las dos Figuras anteriores surge la siguiente pregunta: ¿qué es


preferible, un estimador insesgado o uno eficiente? Surge entonces el concepto de Error
Cuadrático Medio (ECM):

     
2
ECM ˆ   sesgo ˆ   V ˆ (2.41)
 

También es posible dar un peso relativo al cuadrado del sesgo y a la


varianza, dependiendo lo que el modelador valore más:

     
2
ECMP ˆ    sesgo ˆ   1    V ˆ (2.42)
 

La varianza mide la dispersión en torno a la media del parámetro estimado,


mientras que el ECM mide la dispersión en torno al verdadero parámetro poblacional. Si el
estimador es insesgado, ambos coiniciden. El concepto del ECM se aprecia en la siguiente
Figura:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-26

Figura 2.5
Ilustración del Error Cuadrático Medio (ECM) de 

Densidad

SESGO

 
E ˆ   E    Estimador de 

ii. El estimador MCO es consistente: plim ˆ   (sin sesgo ni varianza)


n 

Figura 2.6
Ilustración de la Consistencia en la Estimación MCO de 

Densidad

 
E ˆ   Estimador de 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-27

iii. Otras Propiedades:

 El valor medio de los residuos es nulo, lo cual implica que la suma de los
residuos es igual a cero. Esta característica es bastante trivial pues se deduce de la
misma metodología de los mínimos cuadrados, la cual impone a través de su primera
ecuación normal que esta suma sea cero (columna de unos en matriz X).

Si el modelo de regresión posee una constante entonces la primera derivada parcial


del lagrangeano (ver (2.8)), o primera expresión de ecuación normal, indicará que
la suma de los residuos muestrales es cero.

Sin embargo, si el modelo no posee una constante en su formulación, esta condición


no necesariamente se cumplirá pues nunca surge como condición necesaria de
primer orden al no tener nunca que derivar con respecto a este parámetro.

Puede sin embargo darse el caso que la representación de los datos haga que este
parámetro sea efectivamente cero, por ejemplo si las series Y, X se entregan en forma
de desviación de sus propias medias, lo cual implicaría que la suma de estos residuos
también lo será (por construcción el intercepto es cero). De (2.8) se obtiene:

2 X T Y  2 X T X   0  X T Y  X    X T   0 (2.43)

 Los datos muestrales y modelados de Y tienen igual media. Esta


característica se deduce de la noción que el valor actual de la variable dependiente
se puede descomponer en lo que estima el modelo y el residuo. Una implicancia de
esta condición es que la metodología de los mínimos cuadrados hace que la recta de
regresión que pasa a través de la nube de puntos pase justo por el punto que
representa a la media de X y la media de Y. Es decir, el hiperplano de la regresión
pasa por el punto de las medias de los datos, puesto que la primera ecuación normal
implica Y  X  .

 La media de los valores estimados por la regresión es igual a la media de los valores
actuales; ello se deduce de (2.8) ya que Yˆ  X  .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-28

Figura 2.7
Hiperplano de la Regresión y Medias de las Variables

Yˆ  X ˆ

X X

 Los residuos no se correlacionan con la variable independiente (ver (2.43)).

 Los residuos no se correlacionan con la variable dependiente estimada.

Todos los resultados anteriores requieren que la regresión tenga un término


constante.

2.2.3 Teorema Central del Límite

 Caso univariante: una sola muestra de tamaño n con media  y varianza  2 .


d
n  xn     N 0;  2  (2.44)

 Caso univariante con desigualdad de varianzas: varias muestra con medias


i. y varianzas  i2 .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-29

d
n  xn   n   N 0;  2  (2.45)

1 2 1
donde:  2 
n
  1   22  ....   n2  y  n   1   2  ....   n 
n

 Caso multivariante: un vector de muestras de tamaño n con media  y matriz de
varianzas y covarianzas Q.

 d
n  X n     N  0; Q  (2.46)

 Caso multivariante con desigualdad de varianzas: varias muestra con



media i y matriz de varianzas y covarianzas Qi .

 d
n  X n   n   N  0; Q  (2.47)

1  1   
donde: Q  lim
n  n
 Q1  Q2  ....  Qn  y  n   1   2  ....   n  .
n

 Distribución de una función g  xn  :

d   g     2 
n  g  xn   g      N 0;     2
 (2.48)
  x  

Lo anterior se obtiene de estimar la media y la varianza de las extensiones en


Series de Taylor de la función g  xn  :

g   
g  xn   g      xn    (2.49)
x

Para un conjunto de funciones, el resultados es:

    d
n  g  xn   g      N 0; g T  Q g  (2.50)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-30

2.2.4 Indicadores de Bondad de Ajuste

Lo qué se intenta es determinar objetivamente cuán bueno es el modelo que se


ha ajustado:

Y X  
  (2.51)

  
porcion explicada porcion no explicada

   X ˆ  ˆ 
T
Y T Y  X ˆ  ˆ (2.52)

Y T Y  ˆ T X T X ˆ  ˆT ˆ (2.53)

ˆ T X T X ˆ ˆT ˆ ˆ T X T X ˆ ˆT ˆ
1    1 (2.54)
Y TY Y TY Y TY Y TY

ˆT ˆ
R2  1  (2.55)
Y TY

Una expresión análoga para R2 pero más general es la siguiente:

 ˆ 
2
i
R2  1 i
(2.56)
 Y  Y 
2
i
i

Las expresiones (2.55) y (2.56) son idénticas entre sí sólo si la variable Y tiene
media cero. La expresión (2.56) es la correlación al cuadrado entre los valores observados
de Y y las predicciones calculadas por la ecuación de regresión estimada Yˆ . El valor de
R2 indica el porcentaje de la varianza de Y que es explicada por las variables X. Dicho de
otra forma, R2 mide el éxito de la ecuación de regresión, dentro de la muestra, para
predecir Y.

Notar que el valor de R2 no guarda relación con la calidad del estimador de


, ya que uno puede tener una buen estimador de y un bajo R2 producto simplemente de
una alta varianza del error. Por ora parte, es interesante notar que, en presencia del
intercepto (término constante de la regresión), el valor del R2 se ubica siempre entre 0 y 1.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-31

El uso del R2 debe ser cuidadoso, ya que dependerá de la escala de las


variables explicativas y de la variable explicada; por ejemplo usar valores en niveles, en
logaritmos o en porcentajes para el mismo fenómeno entrega normalmente diferentes
valores de R2. tampoco es razonable comparar R2 entre distintas muestras.

Sin embargo, la utilización de (2.56) como indicador general de bondad de


ajuste, si bien es teóricamente robusta, presenta algunos problemas, razón por la cual
muchos econometristas no le dan una gran importancia. El principal de ellos hace
referencia al número de grados de libertad utilizados en la estimación de los parámetros.

De hecho, R2 nunca decrecerá si se añaden nuevas variables a la ecuación


de regresión. Es relativamente trivial demostrar que al agregar una variable adicional (y su
respectivo parámetro) al modelo de regresión, se obtiene un nuevo R2 mayor o al menos
igual que el original, incluso si la variable adicional es superflua (no aporta información).

No obstante, adicionar variables tiene un costo en términos de grados de


libertad, lo que se traduce en una reducción en la significancia de los parámetros de las
variables originales. Es por ello que se considera un valor ajustado como el siguiente:

1
  i 
2

 n  1  1   n  k  i Vˆ   
R 2  1  1  R 2   1 (2.57)
n  k  1
  Yi  Y 
2 Vˆ Y 
 n  1 i

La expresión (2.57) tiene la ventaja de que podría reducirse si se añade una


variable poco importante dentro del conjunto de variables explicativas. Incluso, este valor
ajustado podría ser negativo en algunos casos extremos, particularmente cuando el ajuste
es deficiente. En el límite, si Y y X tienen un ajuste cercano a cero  R 2  0  , se tendría un
k  1
valor de R 2  . Por otra parte, si hay más de una variable explicativa, R 2  R 2 .
nk

Finalmente, un contraste de significancia de la regresión como un todo,


corresponde a analizar si la totalidad de los coeficientes, a excepción del intercepto, son
distintos de cero. Si todas las pendientes son cero, el coeficiente de correlación múltiple R 2
también lo será; luego, es posible basarse en el valor de R 2 para contrastar esta hipótesis.
El contraste es el siguiente:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-32

R2  n  k 
F k 1;n  k   (2.58)
1  R 2   k  1
Valores grandes para la expresión (2.58) dan evidencia en contra de la
hipótesis nula (parámetros iguales a cero).

Debe considerarse que cualquier muestra que presente la misma


media y misma varianza, presentará por lo tanto los mismos valores
estimados para los parámetros (ver el cuarteto de Anscombe).

Figura 2.8
Cuarteto de Anscombe
12,00 10,00

9,00

10,00
8,00

7,00
8,00

6,00
Variable Y

Variable Y

6,00 5,00

4,00

4,00
3,00

2,00
2,00

1,00

0,00 0,00
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0

Variable X Variable X

14 14,00

12 12,00

10 10,00
Variable Y

Variable Y

8 8,00

6 6,00

4 4,00

2 2,00

0 0,00
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0 20,0

Variable X Variable X

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-33

Figura 2.9
Estimación del Cuarteto de Anscombe
1 0
0,50 3,00
se( ) 0,12 1,12
R2-se(y) 0,67 1,24
F(k; n-k+1); (n-k) 17,99 9,00
Var Mod; Var Error 27,51 13,76
t-student 4,24 2,67

2.2.5 MCO vs Máxima Verosimilitud

El método de estimación por MCO consiste en asignar valores numéricos a los


parámetros desconocidos de manera que la suma cuadrática de errores sea mínima y sólo
requiere que la matriz X T X sea invertible. A continuación veremos un método de
estimación alternativo, el método de máxima verosimilitud.

El método de máxima verosimilitud (MV), un método de estimación alternativo,


propone en cambio como un estimador el valor que maximiza la probabilidad de obtener
la muestra ya disponible. El método MV se basa, principalmente, en la distribución que
sigue el término de error. A tales efectos, se suele suponer que las perturbaciones aleatorias
se distribuyen con una distribución Normal que, además de cumplir las propiedades de una
muestra grande, es una aproximación cómoda y fácil de tratar.

Suponiendo que el término de error sigue una distribución normal, y dado que
la media del error cero, se tiene que:

1  2 
f  i   exp   i 2  ,  i  1,...., n (2.59)
 2  2 

Maximizar la probabilidad de obtener la muestra ya disponible equivale


maximizar la función de densidad conjunta del vector aleatorio . Para ello, hemos de
suponer homoscedasticidad y ausencia de autocorrelación. Luego, la expresión de la
función de densidad conjunta es la siguiente:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-34

    i 2 
n
n
 1   i 
 f  i     exp   2 2 
  2 
(2.60)
i 1  
 

Dado que  sigue una distribución Normal Multivariante de orden k, la


variable Y, al ser una combinación lineal de las perturbaciones aleatorias, también se
distribuirá con una distribución Normal Multivariante. Así, para que la función de densidad
conjunta sea una función de verosimilitud, el vector aleatorio  ha de expresarse en función
del vector Y, es decir:

 1 
n
 Y  X  T Y  X   
L Y ;  ,    
2
 exp    (2.61)
  2  2  2

 

Maximizar la función de verosimilitud (2.61) equivale a maximizar la


probabilidad que los datos (X) provengan de la distribución considerada. Luego, el
estimador de máxima verosimilitud maximiza por lo tanto dicha probabilidad.

Dado que (2.61) es una función estricta creciente y monótona, maximizarla


equivale a maximizar una transformación monótona, como por ejemplo logaritmo natural:

n n 1
ln L   ln  2   ln  2 2   2 Y  X   Y  X  
T
(2.62)
2 2 2

Derivando (2.62) respecto a  y a  2 , se obtienen los siguientes resultados:

ˆMV   X T X  X T Y  ˆMCO
1
(2.63)

ˆ 2

ˆ ˆ   ˆ
T
2

ˆ ˆ 
T

(2.64)
MV MCO
n nk

Observamos que el estimador de MV de  coincide con el MCO, con lo que


tendrá las mismas propiedades: será lineal, insesgado, óptimo y consistente. Es fácil ver que
el estimador de MV de  2 , en cambio, resulta diferente del MCO y es sesgado a la baja
aunque asintóticamente insesgado (cuando n   ).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-35

El estimador de MV es consistente, asintóticamente normal, asintóticamente


eficiente e invariante. La matriz de varianzas y covarianzas asintótica del estimador de MV
corresponde al negativo de la inversa de la matriz informacional I   :

  2 ln L 
I    E  T  (2.65)
   
1
1    2 ln L  
  I       E  T   (2.66)
     

Notar que en el caso de la distribución normal,     ,  2  .

2.2.6 Interpretación Económica

La interpretación económica nos permite comprobar si las estimaciones


obtenidas son coherentes con la teoría económica. Según la especificación del modelo, la
interpretación y significación de los parámetros puede variar. Si el modelo está
especificado en niveles, el parámetro refleja el efecto medio que tiene una variación
unitaria de la variable explicativa sobre la variable endógena:

Y
j  (2.67)
x j

En cambio, si el modelo está especificado en logaritmos, los parámetros


pueden interpretarse como una elasticidad, como es el caso de la función de producción
de Cobb-Douglas:

 ln Y
j  (2.68)
 ln x j

Q P  ln Q
Recordar que la elasticidad precio-demanda es    .
P Q  ln P

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-36

2.2.7 Diagrama de Venn

Considere una variable Y que la deseamos regresionar con una variable X,


obteniendo un término de error . La variabilidad de la variable dependiente Y está
representada por el círculo amarillo de la Figura 2.10. La variabilidad de la variable
independiente X está representada por el círculo blanco. La superposición de ambos
círculos, representada por el área azul, representa la variación que tienen en común ambas
variables. Mientras mayor sea el área azul, mayor será la correlación entre ambas
variables, por lo que la información utilizada para estimar el parámetro x es mayor. La
parte del círculo amarillo que no se superpone al círculo blanco corresponde a la variación
en Y que no es explicada por X, y por lo tanto se traspasa al error . El R2 puede en este
caso interpretarse como la razón entre el a´rea azul y el círculo amarillo.

Figura 2.10
Diagrama de Venn Para Una Variable Explicativa

Consideremos ahora la Figura 2.11 siguiente, que representa un diagrama de


Venn para 2 variables explicativas:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-37

Figura 2.11
Diagrama de Venn Para Dos Variables Explicativas

El área naranja más el área roja representa la correlación conjunta (grado de


colinealidad) que tienen las variables X y Z.

Si regresionamos Y sólo sobre X, se utilizaría el área azúl más la roja. SI


regresionamos Y sólo sobre Z, usaríamos el área verde más la roja. Luego, el área roja
representa aquela variación en Y que es explicada tanto por X como por Z, debido a que
estas dos variables explicativas están correlacionadas.

Por lo tanto, se observa claramente que regresionar Y sobre X y Z


simultáneamente, genera resultados diferentes que regresionar Y sobre X o Y sobre Z
separadamente. Pero, ¿qué pasaría si X y Z están incorrelacionadas?

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-38

Figura 2.12
Diagrama de Venn Para Dos Variables Explicativas Incorrelacionadas

Si X y Z están incorrelacionadas, estimar separademente Y sobre cada


regresor X y Z entregará los mismos resultados que regresionar Y sobre los dos regresores.
Sin embargo, se observa claramente que incluir ambas variables aumenta la proporción
explicada de la variación de Y (excepto que el área azul o el área verde fueran cero, es
decir, que no haya intercección entre Y y X o entre Y y Z). El R2 en este caso puede
interpretarse como la razón entre la suma de las áreas azul más la verde y el círculo
amarillo.

2.2.8 Interpretación Geométrica de los MCO

Considere el modelo Y = 1X1 y 2X2 + . Considerando las variables como


vectores, se puede generar la siguiente Figura:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-39

A
C

Y X2

X1
B

La regresión de Y sobre X1 y X2 corresponde a la proyección de dicho vector


sobre el hiperplano generado por las variables independientes, en este caso el plano
formado por X1 y X2:

A
C

Y X2

F2
Yˆ D
O
F1

X1 B

Luego, el valor de los parámetros estimados es necesario descomponer el


vector proyectado Yˆ sobre las distintas variables X, obteniendo en este caso los trazos
definidos por OF1 y OF2, por lo que se obtiene las siguientes estimaciones MCO:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-40

OF1 OF2
ˆ1  , ˆ2  (2.69)
OB OC

Es interesante notar que los estimadores de los parámetros


pueden ser mayor o menor que uno, y también positivos o negativos,
dependiendo de la estructura de los vectores considerados.

Notar también que ˆ  Y  Yˆ  AD .

A
C
X2

ˆ

̂ 2
Yˆ D
O

̂1

X1 B

Por otra parte, teniendo en cuenta que las variables están medidas en
desviaciones respecto a sus medias (estandarizadas), el coeficiente de determinación
puede escribirse como:

Yˆ T Yˆ
R (2.70)
Y TY

Dado que Yˆ T Yˆ  Yˆ T Y  ˆ   Yˆ T Y  Yˆ T ˆ  Yˆ T Y se obtiene:

Yˆ T Yˆ  Yˆ T Yˆ Yˆ T Y  Yˆ T Y Yˆ T Y
R2    R  (2.71)
Y T Y  Yˆ T Yˆ Y T Y  Yˆ T Yˆ Y T Y  Yˆ T Yˆ

La expresión anterior es el coeficiente de correlación simple entre Yˆ e Y.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-41

Por otra parte, se tiene que:

OD Yˆ T Yˆ Yˆ T Y
cos     (2.72)
OA Y TY Y T Y  Yˆ T Yˆ

A
C

Y X2

F2
 Yˆ D
O
F1

X1 B

Por lo tanto, el coeficiente de correlación múltiple o R2 es igual al coseno del


ángulo que forma el vector Y con el plan formado por X1 y X2.

El coeficiente de correlación parcial entre Y y X2, dado X1, corresponde al


coeficiente de correlación simple entre los residuos de la regresión de Y y X2 ambas sobre
X2 por separado. Luego, este coeficiente será igual al coseno del ángulo (1 ) que forman
ambos vectores de residuos:

AG1
cos 1  (2.73)
CG2

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-42

A
C

Y X2

F2
 Yˆ 1
O
F1
G1
G2

X1 B

El contraste F en este caso se forma a partir de un cuociente. En el numerador


es la diferencia de la suma de los cuadrados de los residuos con y sin restricciones; en el
denominador la suma de los cuadrados de los residuos sin restricciones.

ˆ ˆ
T
R R  ˆT ˆ  p
 F p ;n  k  (2.74)
ˆT ˆ  n  k 

Luego, si se desea contrastar la hipótesis ˆ2  0 (por lo que no existiría


correlación entre Y y la variable X2), el vector de residuos con restricciones  ˆR  será la
diferencia entre el vector Y y el vector que resulta de proyectar Y sobre X1, al que
denominaremos Yˆ1 , y se tendrá que Yˆ1  OG1 . En consecuencia: ˆR  Y  Yˆ1  AG1 .
Análogamente, el vector de errores sin restricción es ˆ  Y  Yˆ  AD

Finalmente, se tendrá la siguiente expresión:

 AG  1
2
  AD 
2
 1F (2.75)
1;n  2
 AD   n  2 
2

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-43

3 INFERENCIA Y PRECICCIÓN

3.1 Contraste de Restricciones

3.1.1 Contraste de una Restricción Lineal

Dado que la distribución de los coeficientes de regresión pueden ser


caracterizados a partir de ˆ  N   ;  2  X T X   , y dado que se ha supuesto
1

 
independencia estadística entre los parámetros y el vector de residuos, entonces el
estadístico:

 ˆ     t
i i
(3.1)
se  ˆ 
 nk 
i

sigue una distribución t con (n - k) grados de libertad. Notar que al ser un análisis asintótico
(n grande), la distribución t converge a una distribución normal. Notar además que el
 
término se ˆ   2 S ii , donde Sii es el i-ésimo elemento de la diagonal de  X T X  .
1
i

Para llevar a cabo hipótesis sobre el valor de un coeficiente puede emplearse


un estadístico de la t tradicional. Si el valor del parámetro calibrado ̂ difiere
significativamente del verdadero valor de , deducimos entonces que los datos muestrales
no son consistentes con la hipótesis nula.

Un contraste común consiste en si un parámetro ̂ es significativamente


distinto de cero. En tal caso, el estadístico es:

ˆi
t (3.2)
 
se ˆi

En general, si  
ˆi   i se ˆi  t / 2 , donde /2 define el grado de
confiabilidad exigido de la distribución t con (n - k) grados de libertad, entonces la
hipótesis se rechaza y se dice que el coeficiente es estadísticamente significativo; es decir,
la variable asociada a dicho componente ayuda a describir el fenómeno estudiado.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-44

En otras palabras, t es una medida de la diferencia entre la función hipotética


de los verdaderos coeficientes y la misma función de las estimaciones de dichos
coeficientes. Si la hipótesis es verdadera, las estimaciones deberían reflejarlo al menos
dentro de los rangos de variabilidad muestral. El valor t = 1,96 (correspondiente a un
grado de significatividad del 95% en muestras grandes) normalmente es el utilizado como
valor de referencia.

Un intervalo de confianza para i estaría dado por:

  
 ˆi  t 2 se ˆi   i  ˆi  t 2 se ˆi    1   (3.3)

3.1.2 Contraste de Restricciones Lineales Conjuntas

Consideremos las siguientes restricciones lineales del modelo de RLM:

R11 1  R12  2  ....  R1k  k  q1 


R21 1  R22  2  ....  R2 k  k  q2 
 R  q (3.4)
.... 
R p1 1  R p 2  2  ....  R pk  k  q p 

La matriz R tiene k columnas y p filas (restricciones); con las restricciones hay


por lo tanto sólo k - p parámetros libres.

La hipótesis nula corresponde en este caso a R = q. A partir del valor


numérico que tome el estadístico de contraste es posible determinar si la diferencia entre
R y q es estadísticamente significativa o no lo es. La regla de decisión es la siguiente:

 Rˆ  q   Rˆ  q 
1
 R  X T X 1 RT 
T

  p
 F p ;n  k  (3.5)
ˆ ˆ  n  k 
T

ˆT ˆ
donde ˆ 2   ˆT ˆ  ˆ 2  n  k  .
nk

 Si F  F p ;n  k  el estadístico de contraste se encuentra fuera de la región de


aceptación, lo cual nos lleva a rechazar la hipótesis nula. Por tanto, las restricciones
lineales no son ciertas en el ámbito de la población.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-45

 Si F  F p ;n  k  el estadístico de contraste cae dentro de la región de aceptación,


con lo cual no podemos rechazar la hipótesis nula. En consecuencia, podemos
afirmar que las restricciones son ciertas en el ámbito de la población.

En el caso particular que se desee testear que todos los k parámetros de la


regresión, excepto la constante o intercepto, son significativamente distintos de cero, se
tendrá que R = Ik-1 y q = (0, 0, …, 0). Luego, de (3.5) se obtiene:

ˆ T  X T X  ˆ  k  1
 Fk 1;n  k  (3.6)
ˆT ˆ  n  k 

y dado que ˆ   X T X  X T Y se obtiene finalmente:


1

R2  n  k 
F (3.7)
1  R 2   k  1 k 1;nk 
Esta última expresión (3.7) nos indica que aquellas regresiones que tienen
bajo coeficiente de ajuste, es decir un bajo R2, tienen a su vez un test F también muy bajo,
lo cual permitiría decir que la probabilidad de rechazar la hipótesis es muy baja.

3.1.3 Contraste Basado en una Región de Confianza

En el modelo de RLM, una región de confianza para un conjunto de


coeficientes sería el conjunto de valores para los cuales la hipótesis de que el conjunto de
coeficientes verdaderos iguala a estos valores no sería rechazada. El contraste en este caso
es:
1
1 ˆ  T  ˆT ˆ  T 1 
    X X  R  ˆ - 
T
 - R   F p ;n  k  (3.8)
2  nk  

 
En el caso de 2 parámetros ˆ1 , ˆ2 , cuyos estimadores presenten distintas

varianzas, la región de confianza está dada por una elipse en el plano ˆ1 , ˆ2 . Para  
entender este contraste, consideremos la siguiente Figura:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-46

Figura 3.1
Región de Confianza Para Variables Incorrelacionadas

1

̂1

̂ 2 2

Considerando una significancia del 95% para cada parámetro en forma


independiente, el área del rectángulo de la Figura 3.1 sería 0,95x0,95 = 0,9025. Por lo
tanto, el rectángulo no es lo suficientemente grande, y un contraste de cada parámetro por
separado podría no se adecuado. La elipse representa un corte de la campana de Gauss a
una “altura” que representa el 95%. Luego, si se exigierea un 99%, el área de la elipse
crecería, y si se exigiera un 90%, el área sería menor.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-47

¿Por qué se produce esta diferencia entre el rectángulo y la elipse?. La


respuesta es simple: las áreas en las cuatro puntas del rectángulo, que están fuera de la
elipse, son muy poco probables, es decir, es muy difícil que en una distribución conjunta los
2 parámetros estimados tengan valores que caigan en dichas áreas. Por otra parte, las
áreas de la elipse que caen fuera del rectangulo pasan a ser más probables, ya que
representan probabilidades condicionales. Es decir, dado que existe una distribución
divariada en el ejemplo de la Figura 3.1, es más probable obtener dos estimadores de 1 y
2 representados en el punto A que en el punto B.

Considerando que existe correlación (colinealidad) entre las variables


explicativas, el análisis es similar. Sin embargo, y como se aprecia en la Figura 3.2, los
errores que se pueden cometer son mucho mayores.

Figura 3.2
Región de Confianza Para Variables Correlacionadas

1

̂1

̂ 2 2

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-48

3.1.4 Mínimos Cuadrados Restringidos

De manera análoga al estimador de MCO, en el caso restringido se resuelve


el siguiente problema de optimización:

Q= Y  X   Y  X  
T
min (3.9)
  
T

s.a.: R  =q (2) (3.10)

Sin pérdida de generalidad, el lagrangeano del problema anterior es:

L   ,   = Y  X   Y  X    2  R   q 
T
(3.11)

L


 2 X T Y  X ˆR  2 RT   0  (3.12)

L


 2 RT ˆR  q  0  (3.13)

Dividiendo por 2 y desarrollando se obtiene la siguiente matriz particionada:

XT X RT   ˆR   X T Y 
      (3.14)
 R 0     q 

Si X T X es no singular, se obtiene entonces:

 Rˆ  q 
1
ˆR  ˆ   X T X  RT  R  X T X  RT 
1 1
(3.15)
 

 Rˆ  q 
1
   R  X T X  RT 
1
(3.16)
 

De la expresión (2.9) se observa que, si la restricción es correcta, es decir,


 
efectivamente R ˆ  q , el estimador restringido corresponde al estimador de MCO

 ˆ R 
 ˆ . Del mismo modo, el parámetro  valdría cero.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-49

Adicionalmente, se tiene que:

 
V ˆR   2  X T X    2  X T X  RT  R  X T X  RT  R  X T X 
1 1 1 1
(3.17)
    
Matriz Positiva Definida

Luego, el estimador restringido presenta menor varianza que el estimador


MCO. Ello se explica por el valor de la información contenida en las restricciones, lo que
reduce la incertidumbre en la estimación (más grados de libertad).

3.1.5 Contraste de Restricciones No Lineales

El problema general consiste en el contraste de la hipótesis que implica una


función no lineal de los coeficiente de la regresión:

g    q (3.18)

Analizando el caso de una única restricción resulta:

  t
g ˆ  q
(3.19)
se  g  ˆ  
 nk 

 
La aproximación lineal en series de Taylor para g ˆi implica lo siguiente:

T
 g    
 
g ˆ  g     
  
  ˆ    (3.20)

T
 g      g    
  
V  g ˆ   
     V ˆ   
  
 (3.21)

T
 g      ˆT ˆ 1   g    

  
V  g ˆ    
     n  k   XTX  
   
 (3.22)

De la expresión (3.21) se obtiene el valor requerido:

    
12
se  g ˆ   V  g ˆ  (3.23)
   

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-50

3.2 Predicción

Junto con la estimación de parámetros y la inferencia, el uso más habitual de


la regresión es la predicción.

La predicción del conjunto de regresores X0 es la siguiente:

Y 0  X 0   0 (3.24)

Sin embargo, usando el modelo estimado tendríamos:

Yˆ 0  X 0 ˆ (3.25)

que corresponde al estimador de E(Y0). Luego, el error de predicción en este caso está
dado por:


e0  Y 0  Yˆ 0  X 0   ˆ   0 (3.26)

La varianza de este error es:

      
V  e0    2  V  X 0   ˆ    2  X 0TV    ˆ  X 0 (3.27)

V  e0    2  X 0T  2  X T X   X 0
1
(3.28)
 


V  e 0    2 1  X 0T  X T X  X 0
1
 (3.29)

La expresión (3.29) representa la distancia de los elementos de X0 respecto a


la media de los datos. Esto implica que mientras más lejos estén los datos X0 de la media,
mayor será el grado de incertidumbre. El intervalo de confianza para la predicción es por
lo tanto:

 
12
Yˆ 0  t 2   2 1  X 0T  X T X  X 0 
1
(3.30)
 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-51

Es interesante determinar cuál es el valor de X0 que minimiza la varianza de la


predicción. Para ello, se puede resolver el siguiente problema de minimización:

min X 0T  X T X  X 0
1
(3.31)
X 

s.a.: X 10  1 () (3.32)

La restricción X 10  1 se refiere al hecho de que el primer elemento de X0 es el


intercepto de la ecuación de regresión.

El lagrangeano y condiciones de primer orden son:

L  X 0T  X T X  X 0    X 10  1
1
(3.33)

1
 
L 0
 2 X X  X      0
T 1 0
(3.34)
X 0
 .... 
 
0

1
 
 T 0
X  X X 
0
(3.35)
2  .... 
 
0

La expresión (3.35) indica que X0 es proporcional a la primera columna de


XTX, por lo que se obtiene:

 n 
 n 
  xi 2 
  i 1 
X0    (3.36)
2  .... 
 n 
  xik 
 i 1 

 2
De la primera fila de (3.36) se deduce que 1  n  . En
2 n
consecuencia, podemos escribir (3.36) como:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-52

 1 
 n 
  xi 2 n 
 i 1 
X0   (3.37)
 .... 
 n 
  xik n 
 i 1 

El lado derecho de (3.37) corresponde al vector de medias de las


observaciones. En consecuencia, la varianza del error de pronóstico es minimizada cuando
todas las nuevas observaciones de las variables independientes son iguales a sus valores
medios. A partir de (3.37), para luego sustituir en (3.29), se obtiene:

1
 
0 1 T 0
X  X X (3.38)
n  .... 
 
0

 1
V  e0    2 1   (3.39)
 n

En consecuencia, el intervalo de confianza será menor en los valores medios


de las variables de X.

Figura 3.3
Intervalo de Confianza Para las Predicciones

Yˆ  X ˆ

X X

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-53

Finalmente, la predicción se puede medir de acuerdo a diversos criterios. Sin


embargo, todos estos criterios se basan en evaluaciones ex-post, es decir, predicciones
para las que las variables exógenas no tienen que ser predichas en los n0 períodos
siguientes. Dos de estos criterios son la raíz del error cuadrático medio (RECM) y el error
absoluto medio (EAM):

1
 Y  Yˆ 
2
RECM  i i (3.40)
n0 i

1
EAM 
n0
 Y  Yˆ
i
i i (3.41)

Los dos criterios anteriores presentan evidentemente un problema de escala.


Criterios alternativos son:

1
 Y  Yˆ 
2
i i
n0
U i
(3.42)
1
 Y 
2
i
n0 i

1
  Y  Yˆ 
2
i i
n0
U  i
(3.43)
1
  Y 
2
i
n0 i

 
donde Yi  Yi  Yi 1  y Yˆi  Yˆi  Yˆi 1 . Este último es válido sólo en series de tiempo.

3.3 Estimación por Mínimos Cuadrados Generales (MCG)

En este caso asumimos que V      2 I , por lo que podemos expresar la


matriz de varianzas y covarianzas de la perturbación como V() = 2, donde  es una
matriz de n x n positiva definida:

 112  122  132 ....  12n 


 2 
  21  222  232 ....  22n 
V      2  (3.44)
 .... .... 
 2 2 
 n1  n 2  n 3 ....  nn 
2 2

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-54

Esta matriz  la podemos descomponer de la siguiente manera:

  PPT   1   P 1  P 1 
T
(3.45)

con lo que se obtiene el siguiente modelo:

P 1Y  P 1 X   P 1  Y *  X *    * (3.46)

Por tanto, se ha conseguido una transformación del modelo de forma que las
perturbaciones cumplen las hipótesis habituales. Al estimador de  por MCO en el modelo
transformado se le denomina estimador de Mínimos Cuadrados Generalizados (MCG):

ˆMCG   X *T X *  X *T Y *   X T  1 X  X T  1Y
1 1
(3.47)

 
V ˆMCG   2  X *T X *    2  X T  1 X 
1 1
(3.48)

siendo el siguiente un estimador insesgado de la varianza de las perturbaciones:


T

ˆ  
 
 
  Y  X   
T
Y  X ˆ 1 ˆ
MCG MCG
ˆ 2  (3.49)
nk

Es decir, el estimador MCG minimiza la suma de cuadrados de residuos


ponderada por la inversa de su matriz de covarianzas.

No hay una contrapartida precisa del R2 del modelo ordinario con el R2 del
modelo generalizado. Una elección sería usar el R2 del modelo transformado Y* = X* + *,
pero esta regresión no tiene por qué tener término constante el coeficiente de
determinación no estaría acotado entre cero y uno.

Pero incluso si existe término constante, el modelo transformado no es más que


un instrumento computacional, no el modelo de interés. El hecho de que se obtenga una
mejora o un empeoramiento en el ajuste del modelo transformado puede no tener ningún
interés, ya que la variable dependiente Y* es diferente de la original.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-55

Por otra parte, el estimador de MCG es en presencia de autocorrelación y/o


heterocedasticidad más eficiente que el de MCO, aunque ambos son insesgados,
consistentes y asintóticamente normales.

Para usar MCG es necesario sin embargo obtener un estimador consistente de


n  n  1
. Debido a que  es una matriz de n x n con elementos, es imposible con las n
2
observaciones estimar todos los elementos. Considerando ̂ como estimador de , se
obtendría:

 
1
ˆMCG  X T ˆ 1 X X T ˆ 1Y (3.50)

ˆT ˆ 1ˆ T ˆ 1
   
1
V ˆMCG  X  X (3.51)
nk

En el caso de heterocedasticidad, se tendrá que:

1 
 0 .... 0 
 1

 1 
 0 .... 0 
P 2  (3.52)
 .... .... 
 
0 1 
0 ....
  n 

Por su parte, en el caso de correlación serial (autocorrelación), se tendrá que:

 1  2 0 .... 0
 
 1 .... 0
P  1   
2 1 2 
(3.53)
 .... .... .... 
 
 0 ....   1 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-56

4 ESPECIFICACIÓN

La especificación de los modelos es un tema que no es tratado en detalle en


los libros de econometría, ya que estos se centran principalmente en los procesos de
estimación e inferencia, para un modelo conocido. La razón de ello es que la
especificación correcta para obtener un buen modelo es normalmente difícil.

En este capítulo estudiaremos técnicas que nos permiten definir la forma


funcional de un modelo de regresión lineal, a fin de obtener mejores resultados. Sin
embargo, nunca debemos dejar de considerar las siguientes aseveraciones:

“Los modelos son para ser usados, no para creer en ellos” (Henry Theil,
1971).

“Todos los modelos son incorrectos, pero algunos son útiles” (George E.
Box, 1987).

“Los modelos son sólo metáforas, una pequeña ventana para ver el resto
del mundo” (Peter Kennedy, 2005).

4.1 Variables Ficticias

Si es posible definir con certeza el momento del eventual quiebre estructural


ya sea en un parámetro como en una combinación de parámetros entonces podemos
aplicar lo que se conoce como variables mudas.

Las variables ficticias recogen los efectos diferenciales que se producen en el


comportamiento de los agentes económicos debido a diferentes causas como las
siguientes:

 De tipo temporal: Para recoger efectos diferentes en función del tiempo en que se
producen las observaciones de las variables (por ejemplo, consumo en periodos de
guerra o paz).
 De carácter espacial: Para tener en cuenta la pertenencia o no de la observación
a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-57

 De tipo cualitativo: Para recoger los efectos de variables cualitativas como el


género, el estado civil, tener o no cargas familiares, nivel de educación, etc. sobre el
comportamiento de los agentes económicos en decisiones de consumo, de oferta de
trabajo, etc.
 Otras causas: Para conocer los efectos que las variables cuantitativas tienen sobre
la variable endógena, distinguiendo por submuestras (por ejemplo, la propensión
marginal al consumo de individuos de rentas altas o bajas).

Una variable muda o ficticia generalmente se asocia a una función indicadora


de un evento determinado. Esta nueva variable artificial tomará valor unitario si el evento
está presente y cero si no es así. Ejemplos de este tipo de funciones son muchos, por
ejemplo:

 Guerra - Paz

 Hombre - Mujer
 Profesional - Técnico

 Gobierno A - Gobierno B

 Crisis Bancaria - Normalidad

 Tipo de Cambio Fijo - Tipo de Cambio Flexible

Si estas variables no son directamente cuantificables entonces surge la


alternativa de utilizar variables dicotómicas mudas. Volvamos al modelo de regresión
simple para entender cómo contrastar cambios estructurales en algún o algunos parámetros
utilizando esta variable. Supongamos que el modelo a estimar es:

Y i   0  1 x1i   i (4.1)

Sin embargo, se ha identificado que para cierto grupo de observaciones


existen cambios estructurales. Para incorporar este hecho econométricamente, creamos una
nueva serie artificial (muda) Dj que tomará valores de cero y uno. La siguiente Tabla
ayuda a comprender esta representación:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-58

Tabla 4.1
Variables Ficticias

Observación (i) Yi Xi Di
1 Y1 X1 0
2 Y2 X2 0
...... ...... ...... ......
j-1 Yj-1 Xj-1 0
j Yj Xj 1
j+1 Yj+1 Xj+1 1
...... ...... ...... ......
n Yn Xn 1

Con esta nueva variable podemos contrastar cambios tanto en el coeficiente


de intercepto 0 como en el de la pendiente 1.

4.1.1 Cambio Estructural en el Intercepto

La especificación del modelo es en este caso la siguiente:

Y i   0  1 x1i   i i  1, 2,..., j  1
(4.2)
Y  0   x  2 D  
i i
1 1
i i
i  j , j  1,..., n

La hipótesis está representada por :

H0 : 2  0
(4.3)
H1 :  2  0

El contraste consiste en evaluar si el parámetro ̂ 2 es significativamente


distinto de cero o no. Para esto generamos un test t:

ˆ2   2 ˆ2
tc   (4.4)
 
Vˆ ˆ2  
Vˆ ˆ2

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-59

Si tc (en valor absoluto) es menor al valor tabulado de tn  k para cierto nivel


de precisión, no rechazamos la hipótesis de que el parámetro es cero, no habiendo por lo
tanto indicios de quiebre estructural en el parámetro del intercepto.

4.1.2 Cambio Estructural en la Pendiente

La especificación del modelo es en este caso la siguiente:

Y i   0  1 x1i   i i  1, 2,..., j  1
(4.5)
Y i   0   1   2 D j  x1i   i i  j , j  1,..., n

La hipótesis está representada por :

H0 : 2  0
(4.6)
H1 :  2  0

El contraste es análogo al caso anterior:

ˆ2   2 ˆ2
tc   (4.7)
 
Vˆ ˆ2  
Vˆ ˆ2

4.1.3 Cambio Estructural en el Intercepto y la Pendiente

La especificación del modelo es en este tercer caso la siguiente:

Y i   0  1 x1i   i i  1, 2,..., j  1
(4.8)
Y   0   1   2 D
i j
xi
1  3 D  
j i
i  j , j  1,..., n

La hipótesis está representada por :

H 0 :  2  3  0 (4.9)

El contraste es el siguiente:

   Rˆ  q 
1
 R  X T X 1 RT 
T
R ˆ  q p
Fc =    F p ;n  k  (4.10)
  n  k 
T

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-60

donde p es el número de restricciones que estamos imponiendo en la hipótesis nula. En


nuestro caso se tendría que buscar el valor tabulado de F2;n  4 .

Si Fc es menor al valor tabulado de F p ;n  k  , no rechazamos la hipótesis de


que ambos parámetros son cero, no habiendo indicios de quiebre estructural en los
parámetros de la pendiente y el intercepto.

4.2 Variables No Lineales

Un típico error de especificación ocurre cuando se utiliza un modelo lineal en


variables explicativas cuando realmente no lo es.

Supongamos que uno tiene una variable de respuesta Y y varias variables


predictoras X y desea hacer transformaciones en las variables de respuesta para mejorar la
medida de ajuste del modelo. Lo primero que uno intenta es hacer un gráfico matricial y de
éste extraer las relaciones de X con cada una de las variables predictoras.

Pero estas transformaciones se pueden ver afectadas por la colinealidad


(dependencia lineal) existente entre las variables predictoras.

4.2.1 Transformaciones Generales

Consideremos por ahora solo modelos con una variable independiente. La


idea es tratar de aumentar la medida de ajuste R 2 del modelo, sin incluir variables
adicionales. Lo primero que hay que hacer es un gráfico para observar el tipo de
tendencia.

La siguiente tabla muestra las transformaciones de las variables dependiente e


independiente que se requieren para linealizar varios modelos:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-61

Tabla 4.2
Transformación de Variables

Nombre del Modelo Ecuación Original Transformación Modelo Linealizado

Exponencial Y   exp   X  Z  ln Y ; X  X Z  ln    X

Logarítmico Y     ln  X  Y  Y ;W  ln X Y    W

Potencial Y  X  Z  ln Y ;W  ln X Z  ln    W
 1
Hiperbólico Y   Y  Y ;W  Y    W
X X
1 1
Doblemente Inverso Y Z ;X  X Z    X
X Y

El primer y tercer modelo son válidos bajo la suposición de que los errores son
multiplicativos y habría que cotejar haciendo análisis de residuales si el logaritmo de los
errores tiene una media de cero y varianza constante. Si los errores no son multiplicativos
entonces deberían aplicarse técnicas de regresión no lineal que son expuestas más
adelante.

4.2.2 Transformación Box - Tidwell

En 1962, Box y Tidwell, propusieron un método para transformar las variables


predictoras pero solo usando potencia de ellas. Más específicamente, ellos consideraron el
modelo:
k
Y   0    i wi   (4.11)
i 1

donde wi   xi  si  i  0 y wi  ln  xi  si  i  0 . El método está basado en el


i

desarrollo en series de Taylor del modelo anterior con respecto a   1 , 2 ,...., k  .
Haciendo las derivaciones respectivas, el modelo (4.11) se reduce a:
k k
Y   0    i xi    i zi   (4.12)
i 1 i 1

donde  i   i  1  i y zi  xi ln  xi  i  1, 2,...., k .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-62

El procedimiento para la estimación de los ˆi se puede resumir como sigue:

 Hacer la regresión lineal múltiple considerando las variables predictoras originales


xi y denotar los estimados de los coeficientes por ˆi .

 Hacer una regresión lineal múltiple de Y respecto a las variables predictoras


originales xi mas las variables zi  xi ln  xi  y denotar los estimados de los
coeficientes de zi por ˆi .
ˆi
 Estimar ˆi  1 .
ˆi

El procedimiento se puede repetir varias veces usando en cada etapa las


nuevas variables transformadas y la siguiente relación de recurrencia:

 ˆin  n
ˆin 1    1 ˆ (4.13)
ˆ n  i
 i 

El proceso termina cuando ˆ in 1  ˆ in   . Sin embargo, es común que con


una iteración sea suficiente.

4.2.3 Transformación Box - Cox

En 1964, Box y Cox introdujeron una transformación de la variable de


respuesta con el objetivo de satisfacer la suposición de normalidad del modelo de
regresión. La transformación es de la forma Y  (transformación potencia), donde  es
estimada con los datos tomados. Más específicamente, la transformación está definida,
 xi 

1
para todo x mayor que cero, por xi     si   0 y xi     ln  xi  si

 xi 

1
  0 . Por la regla de L´Hopital se puede demostrar que lim  ln  xi  . Notar
 0 
que si   1 se obtiene el modelo lineal, y si   0 se obtiene un modelo logarítmico.
Luego, el modelo Box-Cox es una especificación no lineal generalizada.

El parámetro  se estima usando el método de Máxima verosimilitud,


conjuntamente con los coeficientes del modelo de regresión lineal múltiple:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-63

k
Y      0    i xi        T X      (4.14)
i 1

Escribiendo la función de verosimilitud se tiene que:


n
 1   1 
L Y ;  ,  2     exp   2 2     
T
(4.15)
  2   

Luego se puede establecer que el logaritmo de la función de verosimilitud está


dado por:

n n 1
ln L   ln  2   ln  2   2   T   (4.16)
2 2 2

Debe recordarse que si una variable z distribuye f(z), y existe otra variable u
tal que u = (z) (ó z = (u)), se tiene que u distribuye de la forma
z
f z  f   u    '  u  . Dado que   Y      T X      Y  se obtiene que
u
 i   yi       
  yi 1 y por lo tanto ln  i      1 yi . Finalmente, el logaritmo de la
yi yi  yi 
función de verosimilitud en este caso es el siguiente:

n n n
ln L   ln  2   ln  2      1  ln yi
2

2 2 i 1
(4.17)
1

 2 Y      T X     Y      T X    
2
T

n
El término    1  ln yi aparece debido justamente al cambio de variables
i 1

al moverse de la función de distribución de  a la función de distribución de Y. Una


comparación de (4.17) entre los valores de   1 y   0 nos permite elegir entre un
modelo lineal y uno logarítmico.

Sin embargo, si se desea aplicar técnicas de MCO en lugar de MV, es factible


normalizar las observaciones por su media geométrica:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-64

 ln y i
 n 
ln y g  i 1
 y g  exp   ln yi n  (4.18)
n  i 1 

yi
Las variables normalizadas son ahora yi*  . Luego, podemos calcular el
yg
ajuste de los siguientes modelos lineal y log-lineal en forma directa (suponiendo que las
perturbaciones son normal):

Y *   X *   (4.19)

ln Y *   ln X *   (4.20)

Notar que en (4.19) tanto la endógena como las exógenas han sido
normalizadas por su media geométrica.

La comparación directa (MV vs MCO) es posible debido a que:

ln yi*  ln yi  ln yg (4.21)

 n   n 
n    ln yi 
n
ln yi 


i 1
ln y g    i 1
i 1  n 
  n  i 1
 n 
 (4.22)
   
   
n
n n n  ln yi n

 ln y   ln y   ln e
i 1
*
i
i 1
i
i 1
i 1
0 (4.23)

n
De este modo, el término    1  ln yi* de la expresión (4.17) es igual a
i 1

cero para la versión log-lineal del modelo, pero también es cero para la versión lineal, ya
que   1 . En consecuencia, la estimación MV y MCO produjeron los mismos resultados
cuando los datos son normalizados. En el caso de MCO, se escogerá el  que entregue
un mayor valor de R 2 .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-65

4.3 Modelos No Lineales

Lo que caracteriza a un modelo de regresión no lineal es el método utilizado


para estimar sus parámetros. La forma general del modelo de regresión es:

Y  f ; X   (4.24)

Considerando el mismo argumento que MCO se obtiene:

1 n
  Yi  f   ; X i  
2
min Q= (4.25)
  2 i 1 
 i2

Q n f   ; X i 
  Yi  f   ; X i   0 (4.26)
 i 1 

 2Q  f   ; X i  f   ; X i  n 2 f   ; X i  
 T
 2 
  T
   Yi  f   ; X i    T 
 (4.27)
 i 1

La matriz (4.27) debe ser positiva definida. Por otra parte, la distribución
asintótica del estimador de mínimos cuadrados no lineal viene dada por:

 
d
n ˆ NL    N  0;  2  1  (4.28)

donde:

1 n
   
2 p
ˆ 2   Yi  f ˆ ; X i
n i 1
2
(4.29)

 XTX
ˆ ˆ
 1 n f  ; X i f  ; X i   
ˆ     (4.30)
 n  n i 1   T

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-66

4.3.1 Modelo de Regresión Linealizado en Parámetros

Los resultados en este caso se basan en aproximaciones de series de Taylor en


torno a un determinado vector de parámetros  0 :

K f   0 ; X 
f ; X   f  ; X   
0
 k   k0  (4.31)
k 1  0
k

f   0 ; X 
Haciendo  Z k y reagrupando términos se obtiene:
 k0

K K
f   ; X   f   0 ; X    Z k  k0   Z k  k (4.32)
k 1 k 1

Reemplazando luego en (4.24):


K K
Y  f   0 ; X    Z k  k0   Z k  k   (4.33)
k 1 k 1

K K
Y  f   0 ; X    Z k  k0   Z k  k   (4.34)
 k 1
 k 1
Y

K
Y   Z k  k   (4.35)
k 1

Por lo tanto, para un determinado valor de  0 se estiman Y y Z k , para luego


determinar los parámetros ˆk de (4.35) utilizando MCO. Estos parámetros ˆk deben ser
utilizados como nuevo valor de  0 , y repetir el proceso hasta que converja ˆ   0   . k

Sin embargo, si bien es posible aplicar los contrastes de hipótesis y procedimientos de


inferencia de los MCO, no está garantizado que el R 2 esté entre 0 y 1.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-67

4.3.2 Modelo de Regresión Linealizado en Variables

Un caso más general se obtiene si se consideran una mayor cantidad de


términos en la expansión en series de Taylor en torno a X:

K f   ; X 0 
f ; X   f ; X 0
 x  x 
i
0
i
i 1 xi
(4.36)
1 K K  f ; X 
2 0

 
2 i 1 j 1 xi x j
 xi  xi0  x j  x 0j   ....

En el caso de que exista sólo una variable explicativa, se obtendría:

f   ; x 0 
f   ; x  f   ; x  
0
x  x  0

x
(4.37)
1  f ; X  1  f ; X 
2 0 3 0

 x x  
0 2
 x  x 0   .....
3
 2 3
2 x 3! x

y reagrupando términos:

f   ; x    0   1 x   2 x 2   3 x 3  .... (4.38)

Luego, se debe calibrar el siguiente modelo lineal:

Y   0   1 x   2 x 2   3 x 3  ....   (4.39)

La elección del número de parámetros se puede obtener a partir de la


significancia estadística de sus respectivos parámetros. Sin embargo, estos parámetros ˆi
no tienen una interpretación económica clara.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-68

4.4 Especificación de Variables

Existen numerosos errores que pueden cometerse producto de una mala


especificación de la ecuación estimada, ya sea por omisión de variables relevantes o por
inclusión de variables irrelevantes o superfluas.

4.4.1 Selección de Variables

Como se vio anteriormente, el valor del R 2 nunca decrecerá si se añaden


nuevas variables a la ecuación de regresión, aun cuando dichas variables no aporten a la
explicación del fenómeno estudiado. Para evitar ello, se considera el R 2 ajustado:

R j2  1  1  R 2j 
 n  1 (4.40)
n  k 

Dado que el R 2 incorpora penalización por los grados de libertad, y a la vez


revela un incremento en el ajuste, una alternativa es elegir la especificación que maximiza
el valor del R 2 . Puede demostrarse que esto último equivale a minimizar el estimador de
ˆT ˆ
varianza ˆ 2  .
n  k 

Sin embargo, se ha sugerido que el R 2 no penaliza suficientemente la


pérdida de grados de libertad. Tres alternativas que se han propuesto para la
comparación de modelos son las siguientes:

n  k  1 R
R j2 
j
  2
(4.41)
n  k 
j
j

 ˆT ˆ   k j 
AIC j  ln    2  (4.42)
 n  n

 ˆT ˆ   k j ln  n  
SIC j  ln    (4.43)
 n   n 

En el caso de la expresión (4.41), obtenido de Amemiya (1985), el criterio


consiste escoger el modelo con las variables que presenten el mayor R j2 .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-69

Análogamente, en el caso de la expresión (4.42), el criterio es escoger el


modelo que presente el mínimo valor de AIC j . Lo mismo con SIC j en (4.43).

Es interesante notar que las expresiones para AIC j y SIC j provienen de


 ˆT ˆ 
ponderar el error cuadrático medio   del modelo calibrado. De hecho, el valor del
 n 
R 2 se puede rescribir como:

1
  i 
2

R j2  1  1  R 2j 
 n  1  1   n  k j  i (4.44)
n  k  1
  Yi  Y 
2

 n  1 i

Luego, en este caso el error cuadrático medio se corrige por los grados de
 ˆ ˆ 
T
libertad:   . Sin embargo, en los otros 2 criterios, el error cuadrático medio se corrige
nk 
de la siguiente manera:

 2 k n  ˆ ˆ
T
AIC j  ej  (4.45)
penalización n

 k j n  ˆ ˆ
T
SIC j  n  (4.46)
penalización n

Al aplicar logaritmo natural a las expresiones (4.45) y (4.46) se obtienen


directamente las expresiones (4.42) y (4.43), respectivamente.

4.4.2 Variables Omitidas

Supongamos que el modelo especificado correctamente es el siguiente:

Y  X 1 1  X 2  2   (4.47)

Si realizamos una regresión de Y sobre X 1 , sin incluir X 2 , el estimador es:

ˆ1   X 1T X 1  X 1T Y   X 1T X 1  X 1T  X 1 1  X 2  2   
1 1
(4.48)



Y

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-70

ˆ1  1   X 1T X 1  X 1T X 2  2   X 1T X 1  X 1T 
1 1
(4.49)

 
E ˆ1  1   X 1T X 1  X 1T X 2  2  1
1
(4.50)

Si existe una única variable incluida y una única variable omitida, el signo del
sesgo en el estimador es evidente. Sin embargo, si existen varias variables, no es posible.

La varianza de ̂1 es:

 
V ˆ1   2  X 1T X 1 
1
(4.51)

Sin embargo, si hubiéramos especificado correctamente el modelo, incluyendo


las variables X 2 se tendría:

   
1
V ˆ1,2   2 X 1T X 1  X 1T X 2  X 2T X 2  X 1T X 1
1
(4.52)

Luego, a partir de (4.51) y (4.52), se deduce:

  1 X T X X T X 1 X T X
 
V ˆ
    2 1 2  2 2 
1 1
 V ˆ1,2 (4.53)
 1 2 1

La expresión (4.53) es siempre positiva. En consecuencia, si bien ̂1 es


sesgado, tiene menor varianza que ̂1,2 . Es interesante también notar que mientras mayor
sea la correlación entre X 1 y X 2 , más grande será la varianza de ̂1,2 respecto a la de
̂1 . Esto último equivale a resolver el problema con una restricción del tipo  2  0 .

Este sesgo no desaparecerá si aumenta el tamaño muestral, por lo que el


estimador es también inconsistente (excepto si X 1T X 2  0 ). Al mismo tiempo, una varianza
muy alta en la variable X 2 reducirá el sesgo, aunque no lo eliminará. Notar que el
intercepto también será sesgado, excepto que la variable omitida tenga media cero.

Por otra parte, se puede demostrar también que el estimador ˆ 2 está sesgado
hacia arriba (aún cuando X 1 y X 2 sean ortogonales); sin embargo, para estimar ese
sesgo debiéramos estimar ̂ 2 . Esto último implica que existirán problemas al contrastar
hipótesis sobre ̂1 .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-71

Figura 4.1
Diagrama de Venn Para Una Analizar Omisión de Variables Relevantes

Y Y

X X

Al regresionar Y sólo sobre X, la proporción de la variación de Y no


explicada es mayor que al regresionar Y sobre X y Z, es decir, el 2 es mayor. Sin
embargo, al regresionar Y sólo sobre X, la información usada para obtener x es mayor
que al regresionar sobre las dos variables, ya que el área roja se usa tanto para estimar x
como z. Esto último implica que omitir Z aumenta la información para estimar x,
aumentando por lo tanto la significancia de x; lo contrario ocurre si se incluye Z.

4.4.3 Variables Superfluas

Supongamos que el modelo especificado correctamente es el siguiente:

Y  X 1 1   (4.54)

Sin embargo, la estimación se realiza a partir del siguiente modelo:

Y  X 1 1  X 2  2   (4.55)

En este caso, se puede demostrar que tanto ̂1 como ˆ 2 son insesgados. Sin
embargo, la varianza del estimador ̂1 será mayor. Esto se explica por la pérdida de
grados de libertad producto de la presencia de más parámetros en la estimación. Luego,
los estimadores si bien son insesgados y consistentes, son ineficientes. Esta pérdida de

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-72

eficiencia hace más difícil rechazar la hipótesis nula de que un determinado parámetro vale
cero.

Figura 4.2
Diagrama de Venn Para Una Analizar Inclusión de Variables Irrelevantes

X
Z

Al agregar Z, la información usada para obtener x claramente se reduce


(ineficiencia), y el 2 no se reduce de manera importante.

4.5 Contraste de Subespecificación de Modelos (Test J)

Este test nos permite comparar dos especificaciones alternativas de modelos, a


partir de un único modelo artificial anidado. Suponga que usted está haciendo competir
dos especificaciones diferentes para un fenómeno, las que puden ser representadas de la
siguiente forma:

H0 : Y  X   
(4.56)
H1 : Y  Z   

El modelo anidado artificial es el siguiente:

Y  1     X     Z    (4.57)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-73

Bajo la hipótesis nula de que H0 es la correcta especificación, se tendrá


entonces que  = 0. La regresión (4.57) permite obtener estimadores para (1 – ) y ,
pero no para  (problema de identificabilidad de parámetros). Notar que X y Z no deben
tener variables en común.

El procedimiento es el siguiente:

i. Regresionar Y sobre Z y obtener ˆ , y calcular Yˆ1  Z ˆ

ii. Regresionar Y sobre X y sobre Yˆ1 , Y  X   Yˆ1   , y obtener la significancia


estadística de ̂ .

Luego, si el test t de ̂ es chico, entonces no se rechaza H0, y si es grande, se


rechaza H0 a favor de H1.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-74

5 TEMAS ESPECÍFICOS

5.1 Ortogonalidad

La Ortogonalidad entre los regresores de un modelo econométrico implica


incorrelación entre dichos regresores, mientras que la Multicolinealidad implica
dependencia o correlación entre esas variables.

Se dice que dos regresores son ortogonales cuando están linealmente


incorrelacionados, es decir, su coeficiente de correlación lineal o su covarianza es cero.
Así, xi y xj son ortogonales si rij = 0.

Dos grupos de regresores son ortogonales si  X 1T X 2   0 , lo que significa que


cada regresor del primer bloque está incorrelacionado con cada regresor del segundo
bloque.

Sea el modelo particionado:

Y  X 1 1  X 2  2   (5.1)

Los estimadores MCO de los vectores de parámetros 1 y 2 de este modelo


coinciden con los que obtendríamos efectuando la regresión individual de Y sobre cada
uno de los bloques:

 ˆ1   X 1T X 1
1
ˆ X 1T X 2   X 1T Y 
   T    (5.2)
 ˆ   X 2 X 1 X 2T X 2   X 2T Y 
 2

  X 1T Y    X 1 X 1  X 1 Y 
 ˆ1   X 1T X 1
1  T 1 T 
0
     (5.3)
 ˆ   0
 2 X 2T X 2   X 2T Y    X T X 1 X T Y 
 2 2 2 

Las varianzas de los estimadores también coinciden con las calculadas al


hacer las regresiones individuales pero no así con los estimadores de las varianzas:

1   2  X T X 1 
 XTX 0 
 
V ˆ   2  1 1
 0
T  
X2 X2 

2
1

T
1

1 
  X 2 X 2  
(5.4)
 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-75

1  ˆ 2  X T X 1 
 XTX 0 
 
Vˆ ˆ  ˆ 2  1 1
 0
T  
X2 X2 

2
1

T
1

1 
 ˆ  X 2 X 2  
(5.5)
 

ˆT ˆ
siendo ˆ 2  .
nk

Sin embargo, en las regresiones individuales se tendría:

uˆ T uˆ
 
Vˆ ˆ1  ˆ12  X 1T X 1   ˆ12 
1
(5.6)
n  k1

vˆT vˆ
 
Vˆ ˆ2  ˆ 22  X 2T X 2   ˆ 22 
1
(5.7)
n  k2

Por otra parte, si no existe ortogonalidad, se tendría que:

 ˆ1    X 1 X 1  X 1 Y   X 1 X 1  X 1 X 2 ˆ2 
T 1 T T 1 T

    (5.8)
 ˆ   T 
 2    X 2 X 2  X 2 Y   X 2 X 2  X 2 X 1 ˆ1 
1 T T 1 T

La solución (5.8) indica que ̂1 es el conjunto de coeficientes o parámetros de


la regresión de Y sobre X1 menos un vector de corrección. De hecho, manipulando
(5.8) resulta:


 ˆ1    X 1 X 1  X 1 Y  X 2 ˆ2
 T
 
1 T

  (5.9)
 ˆ 

 2    X 2 X 2  X 2 Y  X 1 ˆ1  
T 1 T

El teorema de Frisch-Waugh establece que el vector ̂ 2 es el conjunto de


parámetros que se obtiene de realizar una regresión de los residuos de la regresión de Y
sobre X1 , sobre el conjunto de residuos obtenidos de la regresión de X2 sobre X1. Esto es lo
que normalmente se conoce como extraer el efecto de X1.

Suponiendo una regresión de Y sobre W   X 1 , X 2  , el coeficiente ̂ 2 de X2


se calcula como:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-76

ˆ2   X 2T MX 2  X MY 
1 T
2 (5.10)


donde M  I  X 1  X 1T X 1  X 1T
1
 es una matriz de n x n simétrica M  M 
T
e

idempotente  M  M T M  .

Esta matriz M genera el vector de residuos de la regresión de mínimos


cuadrados de Y sobre X1 cuando pre-multiplica al vector Y, por lo que:

ˆ  MY  MX 1  0 (5.11)

Una manera de interpretar el resultado MX1 = 0 es que la realización de una


regresión de X1 en X1 se obtendrá un ajuste perfecto, por lo que los residuos serán cero.

Finalmente, dado que en general Y = X + , se obtiene:

Yˆ  Y  ˆ   I  M  Y  PY (5.12)

La matriz P, simétrica e idempotente, se denomina matriz de proyección.


Esta matriz se genera a partir de X tal que cuando el vector Y se pre-multiplica por P, se
obtiene como resultados los valores calculados de la regresión por MCO de Y sobre X.

5.2 Multicolinealidad

5.2.1 Definición de Multicolinealidad

El término multicolinealidad (o colinealidad) en Econometría se refiere a una


situación en la que dos o más variables explicativas están fuertemente interrelacionadas y,
por tanto, resulta difícil cuantificar sus efectos individuales sobre la variable
explicada.

Este problema reside, por tanto, en la muestra utilizada y/o de la


especificación del modelo, y no tiene causas interpretables. Sí existen, en cambio, una serie
de situaciones en que la multicolinealidad resulta habitual.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-77

En principio, cabe distinguir dos casos:

a) Multicolinealidad Perfecta, que se presenta cuando det  X T X   0 . En


este caso existen infinitas soluciones para el sistema  X X  ˆ  X
T T
Y . Este
caso se presenta usualmente suando el modelador construye artificialmente
ciertas variables explicativas, como por ejemplo variables dummy.

b) Multicolinealidad Fuerte, cuando la relación entre las variables es muy


fuerte pero no perfecta; es decir, los coeficientes de correlación lineal no serán
próximos a 1 pero se le aproximarán bastante. En este caso det  X T X   0 y
por lo tanto no existen razones a priori para no poder estimar el modelo. Esto
ocurre frecuentemente en datos económicos de series de tiempo.

5.2.2 Causas de la Multicolinealidad

 Existencia de alguna relación causal entre 2 variables explicativas (o


más). Es decir, una tercera variable exógena se relaciona muy
fuertemente con las otras 2.

 En economía, la mayoría de las variables explicativas están, de alguna


manera, correlacionadas. Cuando trabajamos con series temporales, la
mayoría de las variables económicas tienen una tendencia creciente;
Granger y Newold demostraron que basta con introducir una tendencia
lineal en dos series temporales independientes para que su correlación
aumente considerablemente, y por lo tanto, la existencia de esa
tendencia puede ser la causa de un problema de multicolinealidad.

 Existencia de una variable explicativa con escasa variabilidad en su


serie, por lo que su presencia puede confundirse con la delintercepto.

5.2.3 Efectos de la Multicolinealidad

En el caso de multicolinealidad extrema o perfecta, resulta claro que el


problema fundamental es que es imposible resolver de forma única el sistema de
ecuaciones normales:  X T X  ˆ  X T Y .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-78

La multicolinealidad de grado o fuerte da lugar a distintos efectos, que


veremos en más detalle a continuación. Sin embargo, es importante mencionar que no
produce sesgo en la estimación, y que el R2 tampoco se ve afectado. Es decir, la
multicolinealidad induce problemas en la inferencia de los modelos (interpretación de los
parámetros) pero no en la predicción.

Algunos efectos son los siguientes:

 Las estimaciones individuales de los parámetros están mal identificadas,


esto es, el valor estimado de un parámetro puede depender crucialmente
del(los) valor(es) estimado(s) de otro(s). Esto significa que, dependiendo
de la muestra, puede no ser correcto al análisis del impacto que cada
variable correlacionada genera sobre la variable explicada. Es decir, se
pueden confundir los efectos marginales.

 Se genera una inflación artificial de la varianza de los parámetros


estimados. Luego, efectuar inferencia puede ser riesgoso y conducir a
conclusiones incorrectas. Este fenómeno se explica claramente si
analizamos el siguiente ejemplo simple:

yt   0  1 x1t   2 x2t   t (5.13)

La estimación por MCO del modelo (5.13) nos proporciona los


siguientes resultados:

ˆ ˆ  ˆ 23ˆ13 ˆ ˆ 22ˆ13  ˆ 23ˆ12


ˆ0  y  ˆ1 x1  ˆ2 x2 , ˆ1  33 12 , 2  (5.14)
ˆ 22ˆ 33  ˆ 232 ˆ 22ˆ 33  ˆ 232

donde:

1 N 
 ij     zit  zi   ztj  z j   ; i, j  1, 2,3.....
N  t 1  (5.15)
z1t  yt ; z2t  x1t ; z3t  x2t

Las varianzas de los estimadores son:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-79

  1 Nˆˆˆ   1 Nˆˆˆ
2 2
var ˆ1  2
; var ˆ2  2
22 33
T (5.16)
 ˆ t
2
ˆ 2
ˆ 2  t 1
; ˆ 2  23

T 3 ˆ 22ˆ 33

Los test-t para ambos estimadores los escribimos como:

ˆ1 ˆ2
t1 
ˆ N
1  ˆ ˆ2
22 ; t2 
ˆ N
1  ˆ ˆ 2
33 (5.17)

Analizando (5.17), se desprende que cuando la colinealidad es perfecta


 ˆ 2  1 las varianzas tienden a infinito. Además, se aprecia que los test
t son función decreciente del ̂ 2 .

Por otra parte, cuando hay colinealidad fuerte  ˆ 2  1 se produce que


ˆ 232  ˆ 22ˆ 33 . Luego, los denominadores de (5.14) toman valores
cercanos a cero, generando estimaciones poco confiables en magnitud e
incluso en signo:

ˆ 33ˆ12  ˆ 23ˆ13 ˆ 33ˆ12   ˆ ˆ13 ˆ 22ˆ 33


ˆ1   (5.18)
ˆ 22ˆ 33  ˆ 23
2
ˆ 22ˆ 33 1  ˆ 2 

ˆ 22ˆ13  ˆ 23ˆ12 ˆ 22ˆ13   ˆ ˆ12 ˆ 22ˆ 33


ˆ2   (5.19)
ˆ 22ˆ 33  ˆ 232 ˆ 22ˆ 33 1  ˆ 2 

Por simplicidad supongamos que todas las variables tienen varianza


unitaria, es decir, supongamos que ˆ112  ˆ 22
2
 ˆ 332  1 . En este caso
tendríamos:

ˆ ˆ13
ˆ12   ˆ ˆ12
ˆ13  
ˆ1  ˆ2  (5.20)
1  ˆ 2  1  ˆ 2 
En consecuencia, si ˆ 2  1 se cumpliría que ˆ1   ˆ2 .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-80

 Las estimaciones resultan sensibles con respecto a la muestra utilizada lo


que supone que si, por ejemplo, se amplía la muestra con una nueva
observación, las estimaciones obtenidas pueden variar sustancialmente.

Figura 5.1
Diagrama de Venn Para Dos Variables Fuertemente Colineales

X Z

En la Figura 5.1 se observan dos variables fuertemente colineales. El


área azul es utilizada para estimar ambos parámetros. Luego, dicha área
no permite distinguir claramente entre ambos parámetros. El área verde
es usada para estimar x y el área fucsia para estimar z.

i) Problemas de Identificación

No se puede aislar el efecto individual de un regresor sobre el


regresando ya que no se puede mantener la cláusula del “ceteris
paribus”.

En Econometría tradicional, el término identificación alude a la


posibilidad de obtener estimaciones independientes para los parámetros
de un modelo.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-81

Se dice que un modelo está mal identificado cuando el valor estimado


de un(os) parámetro(s) depende crucialmente del(los) valor(es) de
otro(s). En este sentido, puede decirse que la colinealidad da lugar a un
problema de identificación paramétrica.

Para aclarar esta idea, utilizaremos un ejemplo correspondiente al caso


de multicolinealidad extrema. Sea el modelo:

Y  X 1 1  X 2  2   (5.21)

Supongamos que la segunda variable explicativa puede generarse a


partir de una transformación lineal de la primera, esto es:
X 2   1   2 X 1 . Si sustituimos esta igualdad en la ecuación (2.9) se
obtiene, tras realizar algunas operaciones algebraicas elementales, la
siguiente expresión:

Y   2 1  X 1  1   2 2    (5.22)
 
0 1

En (5.22) queda clara la imposibilidad de obtener estimaciones


independientes de 1 y  2 sin más que aplicar MCO.

Este problema también se produce en el caso de multicolinealidad de


grado. Para verlo, basta suponer que la relación entre las variables
explicativas fuera X 2   1   2 X 1  u , entonces el modelo (5.22) podría
expresarse como:

Y   2 1  X 1  1   2 2    2u   (5.23)

ii) Inflación de las Estimaciones

Si el determinante de X X 
T
es aproximadamente igual a cero
(columnas LD), tanto las estimaciones de parámetros, como las de sus
correspondientes varianzas, tenderán a ser sensibles y, en general, serán
mayores que las que se obtendrían si no existiera multicolinealidad. Por
esta razón, se dice que la multicolinealidad causa un problema de
"inflación de algunos parámetros estimados y de sus varianzas".

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-82

En general, esta inflación distorsionará los resultados de los procesos de


inferencia estadística que se desarrollen a partir de los resultados de la
estimación. Concretamente, puesto que las varianzas de los parámetros
estimados están distorsionadas al alza, el estadístico t de significación
individual de los parámetros:

ˆi
t  t n  k  (5.24)
ˆ i

tenderá a no rechazar la hipótesis nula i = 0 más frecuentemente que si


no existiese multicolinealidad. Es decir, el estadístico t tendrá un
menor valor que el real.

Por otra parte, dado que la multicolinealidad no hace variar la bondad


del ajuste, si contrastamos la significancia conjunta de los parámetros a
través del R2 del modelo, podemos concluir que los parámetros
conjuntamente son significativos e individualmente no. Este hecho puede
sugerir la existencia de multicolinealidad de grado.

En síntesis:

 Intervalos de confianza grandes

 Valores muestrales de los estadísticos t pequeños, lo que implica que es


muy difícil no rechazar cualquier contraste de no singnificación de las
variables

 Los 2 puntos anteriores nos pueden llevar a no rechazar la significación


individual de todos los regresores y sin embargo rechazar la significación
conjunta de todos ellos (test F).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-83

Figura 5.2
Región de Confianza Para Variables Colineales

1

̂1

̂ 2 2

 No afecta al R2 ya que éste mide el efecto conjunto de todos los


regresores sobre el regresando y la multicolinealidad afecta a los valores
individuales de los regresores. Por lo tanto, la regresión podrá ser
significativa a pesar de la existencia de multicolinealidad.

 No afecta a las predicciones de la variable Y.

iii) Sensibilidad de las Estimaciones con Respecto a los


Datos

Cuando existe un problema de multicolinealidad, ligeros cambios en la


matriz X y el vector Y (por ejemplo, si añadimos o suprimimos algún
dato) pueden llevar a grandes cambios en los coeficientes estimados.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-84

Este hecho puede llevar erróneamente a considerar la posibilidad de


cambio estructural, cuando en realidad se trata de un problema de
multicolinealidad.

5.2.4 Detección de la Multicolinealidad y su Magnitud

Resulta frecuente que exista un problema de multicolinealidad en los siguientes


casos:

a) Cuando se emplean variables explicativas no estacionarias en media. Es decir,


si dos variables explicativas tienen una tendencia común, esto puede causar
multicolinealidad. Como veremos más adelante, transformar las variables para
que sean estacionarias, puede resolver el problema, salvo cuando la
multicolinealidad sea estricta. Esta causa es muy común en la práctica
econométrica.

b) Cuando se consideran muchas variables explicativas. Lógicamente, a medida


que aumenta el número de variables explicativas, es más fácil que aparezca
una pauta de relación entre ellas que de lugar a un problema de colinealidad.

c) Cuando la métrica de las variables da lugar a datos de un orden de magnitud


muy diferente. Puesto que el valor numérico del determinante de  X T X 
depende de las unidades de medida de las variables contenidas en X, si
dichas variables estén medidas en unidades de un orden de magnitud muy
diferente (por ejemplo kilómetros y centímetros) esto puede dar lugar a una
aparente multicolinealidad, debida a la acumulación de errores de redondeo.
Este problema se resolvería transformando adecuadamente la métrica de los
datos.

d) Cuando se incluyen como variables explicativas retardos sucesivos de la


variable endógena o de alguna de las variables explicativas. Esto puede
provocar multicolinealidad porque los valores de una variable económica en
distintos instantes de tiempo suelen estar correlacionados entre sí.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-85

Para decidir si la colinealidad de grado o fuerte supone un problema para


nuestro análisis concreto, en primer lugar tendremos que definir claramente cuáles son los
objetivos últimos del mismo. Por ejemplo, si nuestra finalidad es predecir la evolución futura
de una variable, la posible multicolinealidad no nos causa ningún problema. Sin embargo,
si el énfasis está en obtener estimaciones de los parámetros lo más precisas posibles, la
colinealidad sería un problema muy grave ya que, como hemos visto, da lugar a un alto
grado de imprecisión en las estimaciones individuales.

Evidentemente, caracterizar el problema de colinealidad de grado como


det  X X   0 no es suficiente para la práctica econométrica ya que: 1) el valor de
T

det  X T X  depende de las unidades de medida y 2) no sabemos en qué grado de


proximidad a cero comienzan a hacerse relevantes los problemas que acabamos de
señalar.

Para detectar el posible problema de multicolinealidad estudiaremos dos tipos


de métodos: métodos basados en la correlación entre variables explicativas y métodos
basados en el tamaño de la matriz  X T X  .

i) Métodos Basados en la Correlación Entre Variables Explicativas.

Para detectar la multicolinealidad se podría calcular la correlación simple


existente entre pares de las variables exógenas (X). Denotaremos como rij al coeficiente de
correlación simple entre la variable xi y xj  rij  rji , i  j  . Al calcular estos coeficientes
simples de correlación para todos los pares de variables, se tendría una matriz Rx definida
como:

 1 r12 .... r1k 


 
 r21 1 .... r2 k 
Rx  (5.25)
 .... .... 
 
 rk1 rk 2 .... 1 

Si rij es cercano a la unidad, detectaríamos multicolinealidad por la alta


correlación muestral entre xi y xj. Para ver si la correlación es cercana a 1, podemos
realizar el siguiente test:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-86

r ij n  2 1  t (5.26)
n2
1  rij2

El problema de este método es que sólo puede detectar correlación entre


pares de variables explicativas de la forma xi   x j . Sin embargo, es posible que existan
relaciones de dependencia lineal más complejas como, por ejemplo xi   x j   xk , que
no detectaríamos calculando sólo los coeficientes de correlación muestral entre pares de
variables. En este caso, lo que se puede hacer es un conjunto de regresiones de cada
variable exógena con respecto a las k - 1 restantes.

ii) Métodos Basados en el Tamaño de la Matriz.

Como sabemos, la multicolinealidad es un problema numérico ya que el


determinante de la matriz  X T X  es muy pequeño. Entonces, podemos pensar que sería
útil medir el "tamaño" de  X T X  .

Una primera solución sería calcular el valor numérico del determinante de


 X X  . El problema es que el determinante de esta matriz depende de las unidades de
T

medida de las variables explicativas. Otra posibilidad se basa en el hecho de que el


determinante de  X T X  es igual al producto de sus valores propios. Entonces, podemos
calcular los valores propios y comprobar si alguno es muy cercano a cero ya que, en este
caso, el determinante también tendría un valor próximo a cero. El problema es que el
tamaño de los valores propios también depende de las unidades de medida de las
variables explicativas. El último método consiste en medir el tamaño relativo de los valores
propios de la matriz  X T X  . De este modo, eliminamos el problema de las unidades de
medida. Es decir, calculamos los valores propios, los ordenamos de menor a mayor, y
obtenemos el ratio entre el valor propio máximo y el mínimo. Si este cociente es muy
grande, existiría un problema de multicolinealidad porque el valor propio mínimo es muy
pequeño en relación con el más grande. A la raíz cuadrada de este cociente se le llama
número de condición de la matriz X:

 max
Número de Condición  (5.27)
 min

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-87

5.2.5 Corrección de la Multicolinealidad

Existen diversas soluciones, aunque ninguna resulta plenamente satisfactoria.

 No Hacer Nada. Sólo tenerlo presente y ser cuidadoso.

 Suprimir Variables. La idea consiste en que, si se suprimen variables


que estén altamente correlacionadas con otras, la pérdida de capacidad
explicativa del modelo será pequeña, mientras que la multicolinealidad
se reducirá. Existe, sin embargo, el riesgo de eliminar variables que
debieran mantenerse en el modelo ya que, como hemos visto, en
situaciones de multicolinealidad las varianzas de los parámetros están
infladas y muchos parámetros serán formalmente no significativos.

 Utilización de Estimaciones Externas. Por ejemplo, sea una


función de demanda donde el consumo de un país (Ct) depende, a lo
largo del tiempo, de las variables renta (Yt) y precios (Pt):

Ct   0  1Yt   2 Pt   t (5.28)

y se sabe que las variables de renta y precios están altamente


correlacionadas. En este caso, una posible solución al problema de
multicolinealidad sería estimar el parámetro 1 en una función de
consumo con datos de sección cruzada definida como:

Ct  1Yt  vt (5.29)

De esta forma, se puede plantear el nuevo modelo de regresión con


datos temporales:

C  ˆ Y   
t 1 t 0   2 Pt   t (5.30)

en donde la variable a explicar ha cambiado con respecto al modelo


original. Sin embargo, esta solución a la multicolinealidad tiene varios
problemas:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-88

a) Para que la solución fuese correcta tendríamos que tener como


 
nueva variable dependiente Ct  ˆ1Yt , pero no disponemos del
valor del verdadero parámetro 1 sino sólo de una estimación ̂1 .

b) El parámetro 1 en una regresión con datos de sección cruzada


tiene una interpretación distinta que cuando se estima con datos de
series temporales (Largo Plazo vs Corto Plazo).

 Incorporar Nuevas Observaciones. Algunas veces, aumentando el


tamaño muestral con el que trabajamos podemos reducir el problema de
multicolinealidad; esta podría ser una solución siempre que la
multicolinealidad fuera un problema muestral. Por supuesto, si existe una
relación lineal exacta entre algunas variables explicativas
(multicolinealidad estricta) por mucho que aumentemos el número de
observaciones, no va a desaparecer el problema.

 Imponer Restricciones Sobre los Parámetros. Evidentemente, si


la Teoría Económica o la experiencia empírica sugieren algunas
restricciones razonables sobre los parámetros del modelo más afectados
por la colinealidad, imponerlas permitirá reducir el problema. El riesgo
que se corre es, obviamente, imponer restricciones que no son ciertas.

 Transformación de Variables. Muchas veces el problema de


multicolinealidad surge al trabajar con variables no estacionarias en
media o con una tendencia creciente en el tiempo. En este caso, la
transformación adecuada para hacer estacionarias las variables sería
diferenciar.

5.2.6 Método de Componentes Principales

El Método de Componentes Principales (MCP) es una técnica estadística de


síntesis de la información, o reducción de la dimensión (número de variables); ante un
banco de datos con muchas variables, el objetivo será reducirlas a un menor número
perdiendo la menor cantidad de información posible.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-89

Es decir, el MCP transforma un conjunto de variables predictoras


correlacionadas en un conjunto menor de variables no correlacionadas, a las que se les
denomina componentes principales.

Los nuevos componentes principales o factores serán una combinación lineal


de las variables originales, y además serán independientes entre sí. Un aspecto clave en
MCP es la interpretación de los factores, ya que ésta no viene dada a priori, sino que será
deducida tras observar la relación de los factores con las variables iniciales (habrá que
estudiar tanto el signo como la magnitud de las correlaciones).

Esto no siempre es fácil, y será de gran importancia el conocimiento que se


tenga sobre la materia de investigación. Para el análisis resulta fundamental el concepto de
vectores y valores propios de una matriz.

Las fases del Análisis de Componentes Principales son las siguientes:

 Análisis de la Matriz de Correlaciones: Un análisis de


componentes principales tiene sentido si existen altas correlaciones entre las
variables, ya que esto es indicativo de que existe información redundante y,
por tanto, pocos factores explicarían gran parte de la variabilidad total.

 Selección de los Componentes: La elección de los factores se


realiza de tal forma que el primero recoja la mayor proporción posible de
la variabilidad original; el segundo factor debe recoger la máxima
variabilidad posible no recogida por el primero, y así sucesivamente. Del
total de factores se elegirán aquellos que recojan el porcentaje de
variabilidad que se considere suficiente. A éstos se les denominará
componentes principales

 Análisis de la Matriz de Componentes: Una vez seleccionados los


componentes principales, se representan en forma de matriz. La matriz
tendrá tantas columnas como componentes principales y tantas filas como
variables.

 Interpretación de los Componentes: Para que un componente sea


fácilmente interpretable debe tener las siguientes características:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-90

o Los coeficientes de los componentes deben ser próximos a 1.

o Una variable debe tener coeficientes elevados sólo con un factor.

o No deben existir componentes con coeficientes similares.

Estimación de los Componentes: Son los valores que tienen los


componentes principales para cada caso, que nos permitirán su
representación gráfica. Supongamos que tenemos un vector p-dimensional
X   x1 , x2 ,...., x p  que presenta una matriz de varianzas y covarianzas  .
El método de basa en encontrar un nuevo vector q-dimensional
Z   z1 , z2 ,...., zq  con q < p que cumpla:

p
zi    aij  x j  i  1,...., q (5.31)
j 1

Z = AX (5.32)

Además debe cumplirse para aiT   ai1 , ai 2 ,...., aip  que:

o var  zi   aiT  ai

o cov  zi , zk   aiT  ak

o var  z1   var  z2   ....  var  zq 

El objetivo del análisis de componentes principales es el de maximizar la


suma de cuadrados Z T Z  AT X T XA  AT  A , la cual representa la
variancia de Z, sujeta a que la suma de cuadrados de los coeficientes a sea
igual a 1 (condición de identificabilidad).

Este proceso de maximización con restricción conduce a una solución de


orden de la forma:

 X X a
T
i  i  ai (5.33)

donde es el multiplicador de Lagrange, asociado con el problema de


maximización, y a la vez es la raíz característica de la matriz    X T X  .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-91

La matriz  tiene asociados valores y vectores propios  i , ai  donde


1  2  ....   p . Luego, el i- ésimo componente principal está dado por:

p
zi    aij  x j   ai1 x1  ai 2 x2  ....  aip x p (5.34)
j 1

donde var  zi   i  i  1,...., p  , cov  zi , zk   aiT  ak  0  i  k  .


Notar que los valores propios (i) son únicos, no así los vectores propios (y
por lo tanto los vectores zi).

La traza de la matriz  se obtiene como la suma de los valores propios


 p

 tr      i  . Por lo tanto, la proporción de la varianza explicada por
 i 1 
k
el k-ésimo componente principal es p


i 1
i

Si la matriz X está centrada y escalada tal que  corresponda a la matriz


p
de correlaciones, se cumple que 
i 1
i  p . En otras palabras, los elementos

i proporcionan la ponderación que tienen los componentes principales en


la varianza total de XTX de forma tal que 1  2  ....   p .

Además de reducir los efectos de la Multicolinealidad, la técnica de


Componentes Principales se utiliza para:

 Detectar la presencia de Datos Outliers.

 Revisar la hipótesis de Distribución Normal Multivariada de las


variables predictoras.

 Agrupar elementos de la muestra en subgrupos semejantes (Análisis


Cluster).

 Reducción de la dimensión en Análisis Discriminante.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-92

Para entender de mejor manera los conceptos recién expuestos,


consideremos la siguiente muestra de las variables x1 y x2, obtenidas de una
distribución normal bi-variada:

Figura 5.3
Distribución Normal Bivariada: x1 vs x2
1.5

0.5

0
X2

100
10

13

16

19

22

25

28

31

34

37

40

43

46

49

52

55

58

61

64

67

70

73

76

79

82

85

88

91

94

97
1

-0.5

-1

-1.5
X1

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-93

Figura 5.4
Componentes Principales
1.5

2
0.5
1

0
X2

100
1

10

13

16

19

22

25

28

31

34

37

40

43

46

49

52

55

58

61

64

67

70

73

76

79

82

85

88

91

94

97
-0.5

-1

-1.5
X1

Respecto a la Figura 5.4, es interesante notar que:

x12 x22
 La ecuación de la elipse es:   c , donde x1 y x2 corresponden a
1 2
los ejes rotados y c es la distancia entre el plano de corte de la
distribución normal bivariada (campana) y el plano definido por
f  x1 , x2   0 .

 Los vectores propios son paralelos a los ejes rotados de la elipse.


 cov  x1 , x2   0

 Si x1 y x2 no están correlacionados  1,2  0  , se tendrá que 1   12 y


2   22 . Luego, no es necesario rotar la elipse.
 Si 2 = 0, los puntos caerían en la recta de x1 , y viceversa. Esto indica
que la correlación entre ambas variables es uno.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-94

 Si 1 = 2 a elipse colapsará a una circunferencia, y los valores propios


quedarán indeterminados (se podrá determinar sólo uno), ya que la
variabilidad de los datos es la misma en todas las direcciones.

Sin embargo, si las variables x no están correlacionadas, no tiene


sentido aplicar el MCP. Luego, es necesario determinar si las variables de respuesta x
están o no correlacionadas antes de aplicar el MCP.

Esto se puede llevar a cabo probando si la matriz  es diagonal o no. Si es


diagonal, las variables de respuesta son independientes y no tiene sentido aplicar MCP.

Definiendo la hipótesis nula de que  es diagonal, o que es análogo a decir


que la matriz de correlaciones R es la identidad I, se tiene el siguiente contraste para
muestras grandes:

  2 p  5 
  ln R   p p 1 2
2
  n 1  (5.35)
  6 

Si el valor estimado es mayor que el valor crítico tabulado, se rechaza


entonces la hipótesis nula de no correlación entre las variables de respuesta, por lo que es
factible aplicar el MCP. Notar que ln R   ˆi   ˆ i ,i .
i i

5.2.7 Regresión Crestra (Ridge Regression)

Fue propuesta por Hoerl y Kennard (1970) y se basa en perturbar la matriz


X X 
T
en otra parecida  X T X   I  , donde lo que hacemos es sumar a la diagonal
principal de X X 
T
una constante . La idea es perturbar lo mínimo posible la matriz
X X 
T
para que cambie su tamaño y su determinante sea distinto de cero. El problema
de estos regresores es la elección de la constante k que ha de sumarse a la diagonal
principal de  X T X  , además de que dichos estimadores no conservan la propiedad de
insesgadez de los MCO. Es decir:

ˆC   X T X   I  X T Y   X T X   I  X T  X    
1 1
(5.36)

y bajo las hipótesis habituales sobre el término de perturbación, se tiene que:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-95

 
E ˆC   X T X   I  X T X   
1
(5.37)

 
sesgo ˆC    X T X   I  
1
(5.38)

El estimador Cresta o Ridge se obtiene de resolver el siguiente problema de


optimización:

Q= Y  X   Y  X     T 
T
min
  (5.39)
s.a.:   r
T
 

Gráficamente, la solución del problema (5.39) se muestra en la siguiente


Figura:

Figura 5.5
Estimador MCO vs Estimados Cresta

1

 MCO

C

2

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-96

El valor de r no se conoce, y debe ser definido por el modelador, lo que


equivale a definir un determinado valor para  en la ecuación (5.36). Existen múltiples
recomendaciones para estimar , entre las que se pueden mencionar:

ˆ 2
k  (5.40)
 
2
ˆ MAX

donde ˆ 2 se obtiene directamente de la estimación de MCO y ˆMAX es el máximo


parámetro estimado del siguiente modelo:

Y  Z   (5.41)

En el modelo (5.41) se construye a partir de la siguiente definición: sea


  X X y definamos también Z  XA,   AT  , AT  A   , donde A es una matriz
T

ortogonal y  es la matriz diagonal cuyos elementos son los valores propios de .

Pese a ser sesgado, el estimador cresta tiene menor varianza que el clásico
estimador de MCO:

  
V ˆC   2  X T X   I  X T X  X T X   I   V ˆMCO 
1 1
(5.42)

Además, es posible demostrar que siempre existe un valor de tal que el Error
Cuadrático Medio (ECM, que es la suma de la varianza del estimador más el cuadrado del
sesgo) del estimador Cresta es menor que el de MCO.

Además del problema de elegir el escalar  óptimo para cada problema en


concreto, esta solución no tiene ninguna interpretación económica. Es decir,
resolvemos el problema numérico, pero perturbamos la matriz  X T X  , lo cual supone
cambiar la información muestral sobre las variables explicativas. Este remedio a la
multicolinealidad no es muy utilizado en la práctica.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-97

Figura 5.6
Error Cuadrático Medio Estimador MCO vs Estimados Cresta

ECMC
ECM
SesgoC

ECMMCO

VarC

5.3 Heterocedasticidad

5.3.1 Definición de Heterocedasticidad

La heterocedasticidad es la existencia de una varianza no constante en las


perturbaciones aleatorias de un modelo econométrico. Es decir, cada individuo u
observación de la muestra tiene una varianza propia diferente del resto. En ese caso, la
matriz de varianzas y covarianzas de las perturbaciones se representaría del siguiente
modo:

 12 0 0 .... 0 
 
 0  22 0 .... 0 
V      2 (5.43)
 .... .... 
 2
 0 0 0 ....  n 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-98

Figura 5.7
Perturbaciones Heterocedásticas
50

40

30

20

10

0
0 5 10 15 20 25 30 35 40 45

-10

-20

-30

-40
Observaciones

Producto de la presencia de una matriz de varianzas y covarianzas no escalar


de las perturbaciones aleatorias, la estimación correcta de los parámetros del modelo se
realiza mediante MCG:

ˆMCG   X T  1 X  X  1Y 
1 T
(5.44)

Sin embargo, para la aplicación de (5.44) en un modelo con n observaciones


y k variables explicativas, sería necesario estimar k + 1 parámetros (considerando el
intercepto) y n varianzas para las perturbaciones. Luego, hay más incógnitas que
ecuaciones independientes que se puedan construir con las n observaciones.

Por ello, habrá que hacer algún supuesto simplificador sobre la causa de la
heterocedasticidad, una vez que esta sea detectada. Evidentemente, encontrar una
simplificación correcta dotará de plena utilidad (eficiencia) a la estimación con MCG y, a
en caso contrario, un mal diseño de la causa de la heterocedasticidad (de la matriz )
producirá un valor ineficiente de dichos parámetros. Lamentablemente, muy rara vez de
puede inferir una forma funcional adecuada de , por lo que la única alternativa puede
ser estimar dicha matriz o simplemente usar MCO.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-99

5.3.2 Causas de la Heterocedasticidad

La heterocedasticidad es un problema que surge en muchas aplicaciones,


sobre todo trabajando con datos de sección cruzada (corte transversal). Por ejemplo, en
una relación que explica los beneficios de un conjunto de empresas, es lógico pensar que
existe una mayor variación en los beneficios de las empresas grandes que en los beneficios
de las pequeñas. Pero incluso después de descontar las diferencias de tamaños, puede
seguir existiendo heterocedasticidad.

Así, la varianza de los beneficios puede depender también de la


diversificación del producto, de los gastos en investigación y desarrollo, de las
características de cada empresa y además, podrían variar los beneficios dentro de
empresas de un mismo tamaño debido a diferencias en la rotación de personal. Todas
estas variables, que afectan a la variable dependiente, difícilmente pueden ser
incorporadas correctamente en un modelo, ya que no existe información fidedigna al
respecto.

Si bien las causas que se citan a continuación no son las únicas posibilidades
que dan lugar a un modelo heterocedástico, sí son las más frecuentes. Notar que en la
mayoría de los casos, la heterocedasticidad es se debe a la presencia de una variable
heterocedástica.

a. Variables explicativas cuyo recorrido tenga una gran dispersión


respecto a su propia media.

En esta situación, los modelos de corte transversal son especialmente susceptibles a


registrar heterocedasticidad. La disposición arbitraria de las observaciones en este
caso (puede responder, por ejemplo al orden alfabético de las observaciones de la
endógena o al modo en que se han obtenido los datos o a cualquier otra razón)
pueden agrupar, casualmente, observaciones que presenten valores grandes en una
determinada variable explicativa y lo mismo con valores pequeños de esta misma
variable.

Si esta variable es la que está produciendo la distorsión en el modelo de


heterocedasticidad, dicha distorsión será probablemente mayor en aquellas
observaciones que contengan una mayor carga de ésta y menor en las que su peso

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-100

sea más pequeño. Por ello, la varianza de las perturbaciones aleatorias estimada por
sub-períodos distintos de una muestra sería diferente; es decir, habría
heterocedasticidad. La misma situación se puede dar en modelos de corte temporal
en los que la evolución histórica haya marcado diferentes períodos en cuanto a los
valores de una variable en relación a su media, agrupando en algún sub-período
valores altos y en otros valores pequeños, como por ejemplo en períodos de
inestabilidad en el precio del petróleo.

b. Omisión de variables relevantes en el modelo especificado.

Evidentemente, cuando se ha omitido una variable en la especificación, dicha


variable quedará parcialmente recogida en el comportamiento de las perturbaciones
aleatorias, pudiendo introducir en éstas su propia variación, no necesariamente fija.
Recuérdese que la hipótesis inicial del MRL de homocedasticidad hacía referencia a
la varianza constante de las perturbaciones aleatorias, pero no obligaba a que las
variables explicativas tuvieran también varianza constante, hecho que, además, sería
una restricción muy poco plausible.

c. Cambio de estructura.

El hecho de que se produzca un cambio de estructura determina un mal ajuste de los


parámetros al conjunto de los datos muestrales. Este no tiene porque influir del mismo
modo en todo el recorrido de la muestra, pudiendo producir cuantías de desajuste
del modelo diferentes y, por tanto, varianza no constante por sub-períodos.

Al fin y al cabo, el fenómeno del cambio de estructura es equiparable a una


especificación incorrecta por omisión de variables relevantes: precisamente faltaría la
variable ficticia que distingue entre las dos situaciones o estructuras distintas que
conviven en el período muestral elegido en el modelo. Un caso típico es ver el nivel
de ingreso entre profesionales con y sin post grado, o entre hombres y mujeres, o
entre jóvenes y adultos mayores jubilados.

d. Empleo de variables no relativizadas.

De un modo similar al comentado en el caso (a), aquellas observaciones que


contengan un valor mayor de una variable explicativa concreta (sospechosa de ser
la que produce la heterocedasticidad) pueden originar valores del error diferentes.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-101

Observadas las causas frecuentes de heterocedasticidad, es fácil deducir que


la varianza no constante de las perturbaciones aleatorias viene casi siempre inducida por
alguna variable, presente o no en el modelo, por lo que se podrían distinguir dos
componentes en la varianza heterocedástica resultante del modelo: una cambiante,
proveniente de esa variable que induce el problema, y una constante, que sería la que se
daría si el modelo hubiera sido bien planteado. Matemáticamente podríamos escribir esto
del siguiente modo:

 i2  f  2 Z i  (5.45)

donde 2 sería el parámetro fijo o parte fija de la varianza, y Zi sería la matriz de variable
o variables que está produciendo ese comportamiento no constante de la varianza de las
perturbaciones aleatorias. Esta función podría ser empleada precisamente como el
“supuesto simplificador” al que anteriormente se hacía referencia para posibilitar la
estimación mediante MCG de  sin encontrarnos con más incógnitas que observaciones.

5.3.3 Efectos de la Heterocedasticidad

El gran efecto de la heterocedasticidad es que los estimadores de los


parámetros de varianza (no los ), son incorrectos. Luego, la eficiencia de los restantes
estimadores es menor y la inferencia estadística que se realice es incorrecta.

a. Cálculo incorrecto de varianzas y parámetros ineficientes.

En el caso de obviar la heterocedasticidad para la estimación de los


parámetros, es decir, seguir empleando la expresión MCO, caben dos opciones:

 Estimar los parámetros y también las varianza como si hubiera


homocedasticidad en el modelo; esto es, usar simplemente MCO.

 Estimar los parámetros  con MCO, pero luego calcular la verdadera


varianza que les correspondería a estos estimadores cuando la matriz de
varianzas y covarianzas de la perturbación aleatoria es no escalar.

Sobre esta reflexión es interesante notar el experimento realizado por


Goldfeldt y Quandt (1972) en el que pretendían analizar la ganancia en eficiencia (menor
varianza) en los siguientes tres casos:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-102

 Estimación de los parámetros con la expresión de MCG y cálculo


correcto de sus varianzas correspodientes:

ˆMCG   X T  1 X  X  
 1Y  y V ˆMCG   2  X T  1 X 
1 T 1

 Estimación de los parámetros con la expresión MCO y cálculo de las


varianzas con la expresión que correspondería a un supuesto de
homocedasticidad:

 
ˆMCO   X T X  X T Y y V ˆMC 0   2  X T X 
1 1

 Estimación de los parámetros con la expresión MCO y cálculo de las


varianzas con la expresión que correspondería a un supuesto de
heterocedasticidad:

 
ˆMCO   X T X  X T Y y V ˆMCG   2  X T X  X  1 X  X T X 
1 1 T 1

Sobre un experimento controlado de generación de la varianza


heterocedástica se llegaba a las siguientes conclusiones:

1. La mayor varianza de MCO en vez de MCG puede producir un


incremento de más de 10 veces en la varianza estimada del parámetro
constante y valores hasta 4 veces mayores en las varianzas de los
parámetros que acompañan a variables explicativas.

2. Calcular la varianza de los estimadores ignorando la heterocedasticidad,


produce un sesgo por infravaloración de la real del orden del doble.

b. Invalidez de los contrastes de significancia.

Los contrastes que emplean para su cálculo estimaciones de la varianza o de


su raíz cuadrada (desviación típica), sufrirán un claro sesgo deducible de lo dicho
anteriormente:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-103

 Si se confirma el problema de la heterocedasticidad y se siguen empleando


MCO, calculando erróneamente la varianza que correspondería a estos en
el caso de que hubiera homocedasticidad  2  X T X  , ya se ha
1

comentado que se estaría infravalorando la varianza real, por lo que


contrastes de significatividad de los parámetros como la t-estadística o la F
rechazarían la hipótesis nula con mayor frecuencia de la debida; es decir,
aceptarían la validez de determinadas variables para explicar la endógena
en casos en los que esto realmente es falso  tˆ  t  .

 Si se emplearan MCO en la estimación, calculando correctamente su


varianza en caso de heterocedasticidad  2  X T X  X  1 X  X T X 
1 T 1

ya se ha comentado que estos parámetros arrojarían una importante


ineficiencia respecto al empleo de MCG, por lo que, al contrario que en el
caso anterior, se aceptaría la hipótesis nula de los contrastes de
significatividad más veces de las reales  tˆ  t  .

En síntesis, en presencia de heterocedasticidad, ̂ será insesgado pero


ineficiente, mientras que ˆ 2 será sesgado. No obstante, si la heterocedasticidad no se
debe a alguna variable X, la estimación MCO será asintóticamente correcta.

En la Figura 5.8 5.4 se observa claramente que la muestra de color fucsia


genera un estimador MCO muy diferente a la muestra de color naranjo, y a su vez ambos
son diferentes al verdadero estimador (pendiente de la línea recta de color negro).

Sin embargo, se aprecia que el promedio de las pendientes de las línea fucsia
y naranja tiende a parecerse a la pendiente de la línea negra. Esto refleja por lo tanto la
ineficiencia que genera la heterocedasticidad al usar MCO.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-104

Figura 5.8
Ejemplo del Efecto de la Heterocedasticidad

5.3.4 Detección de la Heterocedasticidad

a. Contrastes gráficos.

 Gráfica del error a través de las distintas observaciones del


modelo: Dado que las series económicas presentan casi siempre una
tendencia definida (positiva o negativa), la simple gráfica de error puede
servir para conocer intuitivamente si el mero transcurso del tiempo da lugar
a un incremento/decremento continuado del error, lo que sería significativo
de una relación entre la evolución de las variables del modelo y los valores
cada vez mayores o cada vez menores de éste.

En ambos, la mera evolución del tiempo podría estar correlacionada con


valores cada vez mayores (izquierda) del error o cada vez menores
(derecha), con lo que el cálculo de la varianza por sub-períodos arrojaría
valores significativamente diferentes; es decir la serie del error sería
heterocedástica.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-105

 Gráfica del valor absoluto del error en función de una


explicativa sospechosa de producir la heterocedasticidad en el
modelo: Si se ordena de menor a mayor la variable sobre la que se quiere
investigar si produce o no heterocedasticidad y, con ella, los valores
absolutos del error estimado, el hecho de que la nube de puntos obtenida
en su gráfica conjunta se pudiera aproximar correctamente con una
regresión lineal significaría que el incremento de la variable explicativa da
lugar a un incremento de las perturbaciones aleatorias, lo que sería causa
de heterocedasticidad en éstas.

b. Contrastes paramétricos.

Varios de los contrastes que se desarrollan en este apartado tendrán un


método para dirimir la significatividad de los valores obtenidos a partir de las tablas
estadísticas de las funciones de densidad conocidas según la cual se distribuyen en cada
caso los ratios propuestos. Es por esta razón por la que se llaman "paramétricos".

 Contraste de Breusch-Pagan: La idea del contraste es comprobar si se


puede encontrar un conjunto de variables Z que sirvan para explicar la
evolución de la varianza de las perturbaciones aleatorias, estimada ésta a
partir del cuadrado de los errores del modelo inicial sobre el que se
pretende comprobar si existe o no heterocedasticidad. El proceso a seguir
para llevar a cabo este contraste es el siguiente:

i) Estimar el modelo inicial, sobre el que se pretende saber si hay o no


heterocedasticidad, empleando MCO y determinando los errores:

ˆT ˆ
Y  X    , ˆMCO   X T X  X T Y , ˆi  Yi  Yˆi  ˆ 2 
1

nk

ii) Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:

ˆT ˆ ˆi2
ˆ 2   i2  (5.46)
nk ˆ 2

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-106

Este valor al cuadrado nos elimina problemas de interpretación sobre la


evolución media del error en el tiempo debidos a la compensación de
signos que se produciría en cualquier cálculo agregado (valores
positivos y negativos). Por otra parte, la estandarización elimina
distorsiones debidas a las posibles distintas dimensiones de los errores
originales.

ˆi2
iii) Se estima una regresión del error i2  calculado en el paso (ii)
ˆ 2
explicado por una constante 0 y el conjunto de las variables Z que se
pretende saber si producen o no heterocedasticidad en el modelo;
notar que las variables Z pueden ser todas o un subconjunto de las
variables X originales. Luego se obtiene el coeficiente de determinación
de este modelo y la varianza de la estimada:

i2   0  1Z1i   2 Z 2i  ....   p Z ip  vi  R2 (5.47)

iv) En principio, dado que el modelo tiene término constante, se cumple la


regla general de las regresiones en que la varianza de la variable
dependiente real es igual a la suma de la varianza de la dependiente
estimada más la varianza del error obtenido en el modelo. Por ello, si el
modelo es "malo" la varianza de la endógena estimada será pequeña
(es lo mismo que decir que la varianza del error estimado es grande o
que el "modelo tiene mucho error").

En definitiva, y siguiendo el interés que aquí buscamos, si la varianza


de la variable dependiente estimada en este segundo modelo es muy
pequeña, estaremos afirmando que el poder explicativo del conjunto
de variables Z sobre la representación de la varianza de las
perturbaciones aleatorias es escaso.

A partir de esta afirmación, podríamos generar un contraste calculado


con esta varianza, sabiendo que cuanto más cerca de cero se
encuentre, más probabilidades de homocedasticidad habrá en el
modelo. El contraste propuesto es:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-107

n  R2   p2 1 (5.48)

Si el valor estimado de n  R2 supera al valor de tablas e  p2 1 , se


rechaza la hipótesis nula; es decir, se acepta que el conjunto de
variables Z está produciendo heterocedasticidad en el modelo original.
En caso contrario, se acepta la homocedasticidad.

El contraste de Breusch - Pagan efectivamente nos servirá para aceptar


o descartar la presencia de heterocedasticidad debida a ese conjunto
de variables Z citado, pero su operatividad es limitada. Si el conjunto
de las variables Z contiene variables no incluidas en el modelo original,
parece difícil no haberlas tenido en cuenta antes para realizar una
buena especificación y sí tenerlas en cuenta ahora para la
contrastación. Por otro lado, la lista de variables Z debe ser
necesariamente pequeña para poder realizarse el contraste.

 Contraste de Glesjer: De forma similar al caso anterior, Glesjer propone


descartar la variación del error en función de una variable Z, que ahora
pueden estar elevadas a una potencia "h" que estaría comprendida entre -1
y 1. El método que se propone es:

i) Estimar el modelo inicial, sobre el que se pretende saber si hay o no


heterocedasticidad, empleando MCO y determinando los errores:

ˆT ˆ
X X 
1
Y  X   , ˆ MCO
T T
ˆ ˆ
X Y ,  i  Yi  Yi   
ˆ 2

nk

ii) Estimar cuatro regresiones para los valores absolutos del error del
modelo anterior en función de una variable elevada consecutivamente
a " h ", que para cada modelo tomaría los valores -1, -0,5, 0,5 y 1:

ˆi   0  1Z h  ui (5.49)

Se escogerá la regresión de las cuatro con parámetros significativos y


con mayor R2.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-108

iii) Se entiende que, si el valor de esta R2 es suficientemente grande, se


estará confirmando que existe heterocedasticidad producida por la
variable Z, ya que esta es capaz de explicar la evolución de la
evolución del error como estimada de la evolución de las
perturbaciones aleatorias. Se puede usar el test expuesto en (5.48).

 Contraste de White: En este contraste la idea subyacente es determinar


si las variables explicativas del modelo, sus cuadrados y todos sus cruces
posibles no repetidos, sirven para determinar la evolución del error al
cuadrado.

Es decir, si la evolución de las variables explicativas y de sus varianzas y


covarianzas son significativas para determinar el valor de la varianza
muestral de los errores, entendida ésta como una estimación de las
varianzas de las perturbaciones aleatorias. El proceso a seguir para realizar
este contraste sería el siguiente:

i) Estimar el modelo original por MCO, determinando la serie de los


errores. Escrito esto en forma matricial para un modelo con n
observaciones y k variables explicativas:

ˆT ˆ
X X 
1
Y  X   , ˆ MCO
T T
ˆ ˆ
X Y ,  i  Yi  Yi   
ˆ 2

nk

ii) Estimar un modelo en el que la endógena sería los valores al cuadrado


de los errores obtenidos previamente (paso i) con todas las variables
explicativas del modelo inicial, sus cuadrados y sus combinaciones no
repetidas.

ˆi2   0  1 X 1i  ....   k X ki  

 k 1  X 1i   ....   k  k  X ki  
2 2

2
  Rˆ (5.50)
 k  k 1  X 1  X 2   ....   k  k  k  X 1  X k  
i i i i


 3k 1  X 2i  X 3i   ....   4 k 1  X 2i  X ki   ....  i 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-109

El valor de la R2ˆ de este segundo modelo (paso ii) nos dirá si las
variables elegidas sirven o no para estimar la evolución variante del
error al cuadrado, representativo de la varianza estimada de las
perturbaciones aleatorias.

Evidentemente, si la varianza de éstas fuera constante


(homocedasticidad), el carácter no constante de las variables
explicativas implicadas en el modelo no serviría para explicar la
endógena, luego la R2ˆ debiera ser muy pequeña.

En principio, la R2ˆ , como proporción de la varianza de la endógena


real que queda explicada por la estimada, debiera ser muy pequeña si
la capacidad explicativa de los regresores considerados también es
muy pequeña, siendo estos regresores, por su construcción,
representativos de varianzas y covarianzas de todas las explicativas del
modelo original.

Dicho esto, evidentemente un valor de la R2ˆ suficientemente pequeño


servirá para concluir que no existe heterocedasticidad en el modelo
producida por los valores de las explicativas consideradas en el
modelo inicial.

Para encontrar el valor crítico en esa consideración de “suficientemente


pequeño” se emplea la expresión deducida por Breusch y Pagan como
producto del coeficiente R2 por el número de datos del modelo, que se
distribuiría del siguiente modo:

n  R2ˆ   p2 1 (5.51)

En definitiva, si obtenemos un valor del producto n  R2ˆ mayor que el


reflejado por las tablas de  p2 1 , afirmaremos que existe
heterocedasticidad, y viceversa.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-110

Otro modo de contrastar la existencia de heterocedasticidad en el


modelo a partir de la validez o no de los parámetros incluidos en la
regresión propuesta por White vendría dado por el valor del contraste
de significación conjunta F.

Si dicho contraste afirmara que, en conjunto, las variables explicitadas


tienen capacidad explicativa sobre la endógena, estaríamos afirmando
la presencia de heterocedasticidad en el modelo.

 Contraste de Spearman: La filosofía de este contraste reside en que la


variable sospechosa de producir heterocedasticidad debería provocar un
crecimiento del residuo estimado al mismo ritmo que ella va creciendo. Por
ello, si ordenáramos de menor a mayor tanto la variable “sospechosa”, por
ejemplo xki, como el valor absoluto del residuo ˆi , el cambio de puesto en
ambas, y para cada una de las observaciones, debiera ser del mismo
número de puestos respecto al orden original de las series.

En la medida en la que este cambio de puesto respecto al original no sea el


mismo para las dos (una vez ordenadas) se podría hablar de movimientos
no correlacionados.

Dado que la correlación se mide entre uno y menos uno, Spearman


propone determinar un grado de correlación en ese “cambio de puesto
respecto al inicial” de cada una de las variables a partir de la diferencia (di)
entre el nuevo puesto y el inicial:
n
6 di2
rs  1  i 1
(5.52)
n  n 2  1

En esta expresión, una coincidencia máxima (todas las distancias son igual
a cero), daría lugar a una correlación de Spearman igual a uno; mientras
que una distancia máxima, provocaría un valor cero de dicho coeficiente de
correlación.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-111

Para valorar la significatividad o no de esta correlación, se conoce la


función de distribución del siguiente ratio bajo la hipótesis nula de no
significatividad, demostrado por el autor:

rs n  2
 tn  2 (5.53)
1  rs2

Con ello, si el resultado del ratio es superior al valor de tablas, podremos


afirmar que la correlación es significativa o, de cara a nuestro interés en
este caso, que hay indicios de heterocedasticidad en el modelo provocada
por la variable xki.

5.3.5 Corrección de la Heterocedasticidad

Como hemos venido viendo repetidas veces a lo largo del tema, la


heterocedasticidad viene producida por la dependencia de la varianza de las
perturbaciones aleatorias de una o más variables que, a su vez, pueden estar presentes en
el modelo o no.

Los distintos métodos para detectar este problema servían para probar, en el
caso en el que ésta realmente se diese, la dependencia de la varianza de la perturbación
aleatoria de un conjunto de variables, a partir de lo que hemos llamado un supuesto
simplificador:

 i2  f  2 Z i  (5.54)

Por lógica, el modo de subsanar el problema detectado será operar


convenientemente las variables del modelo precisamente eliminando la fuente de
heterocedasticidad que habremos podido definir cuando detectamos la misma.

Como veremos a continuación, si el conjunto total de las variables del modelo


(endógena incluida) es dividido por la forma estimada de esta función de la raíz de la
varianza heterocedástica (una vez algún método de detección nos haya confirmado que
efectivamente el comportamiento de esta varianza se puede seguir convenientemente con
dicha función) estaremos corrigiendo el modelo.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-112

Para comprobar esto, podemos volver a la forma matricial de varianzas


covarianzas no escalar:

 12 0 0 .... 0 
 
 0  22 0 .... 0 
V      2 (5.55)
 .... .... 
 2
 0 0 0 ....  n 

En esta matriz, si dividimos por la raíz de  i2  f  2 Z i  , obtendremos una


diagonal principal de unos; es decir, volveríamos al caso de una matriz de varianzas y
covarianzas escalar tal y como la que se supone en el modelo básico de regresión lineal.

Formalmente, para probar esto seguimos los siguientes pasos. Dado que la
matriz  es una matriz semidefinida positiva (todos los elementos de su diagonal principal
son necesariamente positivos), siempre podremos descomponerla en dos matrices de la
forma:

  PPT   1   P 1  P 1 
T
(5.56)

Volviendo a la matriz de varianzas y covarianzas no escalar, y uniendo esto a


la función que hemos comprobado sirve para definir esta varianza no constante
 i2  f  2 Z i  , es fácil llegar a que la descomposición   PPT   1   P 1  P 1 
T

es:

 1 0 0 .... 0   1 0 0 .... 0 
  
 0 2 0 .... 0   0  2 0 .... 0 
  2 PPT (5.57)
 .... ....   .... .... 
  
 0 0 0 ....  n   0 0 0 ....  n 

Si multiplicamos cada variable del modelo por esta matriz P, tal y como se ha
sugerido, obtenemos unas nuevas variables del siguiente tipo:

P 1Y  P 1 X   P 1  Y *  X *    * (5.58)

donde:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-113


V   *   E   * *T   E  P 1   * *T  P 1 
T
  P 1
 P  E   
1 T * *T
(5.59)

V   *    1 E   * *T    1 2    2 I n (5.60)

Luego, podemos afirmar que el modelo transformado (aquel por el que se han
dividido todas las variables por la desviación típica estimada de las perturbaciones
aleatorias) soporta una matriz de varianzas covarianzas de las perturbaciones aleatorias
escalar, con lo que se puede estimar con toda garantía por MCO.

En síntesis, los pasos para corregir la heterocedasticidad son los siguientes:

a) Se estiman los parámetros del modelo por MCO, ignorando por el


momento el problema de la heterocedasticidad de las perturbaciones
aleatorias

b) Se establece un supuesto acerca de la formación de  i2 y se emplean los


residuos de la regresión por MCO para estimar la forma funcional
supuesta.

c) Se divide cada observación por  i2 según el paso anterior (según el


valor de esa heterocedasticidad supuesta estimada, siempre y cuando un
contraste nos haya confirmado que el “modelo simplificador” es bueno).

d) Se estima el modelo original ahora con todas las variables transformadas


según el paso (c).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-114

5.4 Autocorrelación

5.4.1 Definición de Autocorrelación

Usando datos de series temporales es un problema común la presencia de


autocorrelación o correlación serial de las perturbaciones. Sin embargo, con datos de
sección cruzada o de panel, es más habitual encontrar un problema de heterocedasticidad.
En ese caso, la matriz de varianzas y covarianzas de las perturbaciones se representaría
del siguiente modo:

 1  2 ....  n 1 
 
2   1  ....  n  2 
V      2 (5.61)
1   2  .... .... 
 n 1 
   n2  n 3 .... 1 

Supongamos que se ha estimado un modelo por MCO y representamos


gráficamente los residuos resultantes:

Figura 5.9
Perturbaciones Autocorrelacionadas
1

0,5

0
0 5 10 15 20 25 30 35 40 45

-0,5

-1

-1,5
Observaciones

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-115

El patrón de estos residuos nos muestra que el conocimiento del signo de un


residuo es un buen indicador del signo del residuo en el período siguiente y esto es
autocorrelación. Luego, si se pueden predecir los errores cometidos por un modelo, se
puede por lo tanto mejorar el modelo al pronosticar dichos errores.

5.4.2 Causas de la Autocorrelación

a) Una explicación al problema de autocorrelación son los factores omitidos


en la regresión que están correlacionados a través del tiempo. El análisis
univariante de series temporales nos sugiere que las variables económicas
siguen distintas estructuras de autocorrelación.

b) Otra causa común de la autocorrelación es la existencia de tendencias


(inercias) y ciclos en los datos. Es decir, la mayoría de las variables
económicas no son estacionarias en media. Esto significa que si la variable
endógena del modelo tiene una tendencia creciente o presenta un
comportamiento cíclico que no es explicado por las exógenas, el término
de error recogerá ese ciclo o tendencia.

c) Si se omite una variable explicativa no estacionaria en media, esto


también provocará autocorrelación en el término de error. Por ejemplo, si
el modelo correcto es:

Y t  X 1t 1  X 2t  2   t (5.62)

y se trabaja con el modelo Y t  X 1t 1  u t donde u t  X 2t  2   t ,


entonces presentará autocorrelación aunque i sea un proceso de ruido
blanco. Sabemos además que la omisión de variables relevantes provoca
sesgos en el estimador MCO.

d) Otra fuente de autocorrelación es especificar una relación lineal entre las


variables cuando la verdadera relación es no lineal. En este caso, lo
habitual es tener una racha de residuos positivos (o negativos) seguida de
otra racha de residuos negativos (o positivos) y así sucesivamente. Aquí la
causa del problema en los residuos es un error de especificación en la
forma funcional.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-116

e) La autocorrelación puede provenir del hecho de que la relación entre las


variables económicas es dinámica y no estática. Por ejemplo, trabajamos
con el modelo:

Y t   0  X t 1  u t (5.63)

cuando la verdadera relación es Y t   0  X t 1  Y t 1  2  et . Por tanto,


u t  Y t 1  2  et , pero Y t 1 es una función de u t 1 y por ello, u t será una
función de u t 1 .

c) Efectos de shocks con influencia prolongada en la economía, por ejemplo


un terremoto o una guerra:

5.4.3 Efectos de la Autocorrelación

La consecuencia más grave de la autocorrelación de las perturbaciones es


que la estimación MCO deja de ser eficiente y la inferencia estadística también se verá
afectada. Con datos de series temporales, suponer que las perturbaciones son
homocedásticas pero están correlacionadas equivale a escribir su matriz de covarianzas
como:

V     2 (5.64)

donde  es una matriz definida positiva y simétrica, pero no diagonal. El estimador MCO
de los parámetros  puede escribirse como:

ˆ     X T X  X T 
1
(5.65)

Si la E     0 y los regresores no están correlacionados con las


perturbaciones, sigue siendo un estimador insesgado, ya que E ˆ   .  
Con respecto a la eficiencia del estimador, ahora E( ) se tiene que:

 
V ˆ  E ˆ    ˆ   
T

  E  X X 
T 1
X T  T X  XX 
1
 (5.66)

 
V ˆ   2  X T X   X T  X   X T X  
1 1 1
(5.67)
 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-117

y si   N  0;  2   entonces:


ˆ  N  ; 2  X T X 

1
X T
X
1
X X 
T 1

  (5.68)

Puesto que la matriz de covarianzas del estimador MCO no es  2  X T X  ,


1

cualquier inferencia basada en el estimador será errónea. Además, no sólo es incorrecta la


ˆ 2  X T X 
1
expresión de la matriz de covarianzas, sino que el estimador habitual de  2
será ahora sesgado.

Figura 5.10
Ejemplo del Efecto de la Autocorrelación

En la Figura 5.10 se observa claramente que la muestra de color fucsia


genera un estimador MCO muy diferente a la muestra de color verde, y a su vez ambos
son diferentes al verdadero estimador (pendiente de la línea recta de color negro).
Además, claramente en los casos de las líneas verde y fucsia se sobrestima el R2, y al
mismo tiempo subestima el 2. Al igual que en la heterocedasticidad, se aprecia que el
promedio de las pendientes de las línea fucsia y verde tiende a parecerse a la pendiente

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-118

de la línea negra. Esto refleja por lo tanto la ineficiencia que genera la autocorrelación al
usar MCO.

5.4.4 Detección de la Autocorrelación

Existen distintos procedimientos de detección de la autocorrelación.


Básicamente son instrumentos estadísticos y gráficos.

 Contraste de Durbin-Watson: En la práctica, no se sabe a priori si


existe autocorrelación y cúal puede ser el proceso más adecuado para
modelizarla.

Existen varios contrastes de autocorrelación que se construyen usando los


residuos MCO del modelo original. El más antiguo y conocido es el
estadístico de Durbin y Watson (1950, 1951) para detectar la presencia de
un AR(1).

La hipótesis nula es que en el modelo  t   t 1  vt , se cumple   0 ,


donde además vt es ruido blanco. El estadístico de contraste es:

 ˆ  ˆt 1 
2
t
DW  t 2
n 
 2 1  ˆ  (5.69)
 ˆ 
t 1
t
2

Esta última aproximación es buena si n es suficientemente grande. El


parámetro ˆ es el estimador MCO de  en la siguiente regresión:

ˆt  ˆt 1  vt (5.70)

donde ˆt es el residuo resultante de la estimación MCO del modelo


original, ignorando la presencia de autocorrelación.

La solución MCO es:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-119

 ˆ ˆ 
t t 1
ˆ  t 2
n
(5.71)
 ˆ 
t 2
2
t 1

El rango de valores que puede tomar el estadístico DW es el siguiente:

o DW = 2 si ˆ  0 .

o DW   2, 4  si 1  ˆ  0 .

o DW   0, 2  si 0  ˆ  1 .

La distribución del estadístico DW bajo la hipótesis nula no es conocida. De


hecho, el DW depende de los residuos MCO, ˆMCO  M  , y la matriz M
depende de la matriz X , luego la distribución del estadístico depende de la
matriz de datos y los valores críticos del contraste serán diferentes para
cada posible matriz X.

Durbin y Watson tabularon los valores máximo  d max  y mínimo  d min  que
pueden tomar dichos valores críticos cuando la H1 :   0 , los regresores
son fijos y existe término constante en el modelo.

Con este estadístico:

o Si H 0 :   0 frente a H1 :   0

i) se rechaza H 0 si DW  d min

ii) no se rechaza H 0 si DW  d max

iii) se cae en zona de incertidumbre si d min  DW  d max

o Si la hipótesis a contrastar es H 0 :   0 frente a H1 :   0 , puesto


que el estadístico toma valores comprendidos entre 2 y 4, los
valores tabulados d min y d max se comparan con  4  DW  en
lugar de DW.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-120

Este contraste se puede considerar como un contraste de mala


especificación del modelo. La omisión de variables relevantes, una forma
funcional no apropiada, cambios estructurales no tenidos en cuenta, etc.,
pueden llevar a un valor del estadístico significativo.

Con este estadístico no se puede concluir nada si se cae en una zona de


indeterminación y tampoco sirve si en el modelo aparecen regresores
estocásticos (como, por ejemplo, algún retardo de la endógena). En este
último caso, el valor del estadístico DW está sesgado hacia el 2, por lo que
se tendería a no rechazar la hipótesis nula de no autocorrelación.
Finalmente, si la estructura de autocorrelación existente en los residuos es de
tipo estacional, el contraste de Durbin - Watson, en general, no detecta este
tipo de autocorrelación.

Si la estructura de autocorrelación existente es de orden 2 o superior, en


general, el valor del DW nos llevará a rechazar la nula, pero también a
trabajar con una estructura de autocorrelación de orden 1.

Una alternativa propuesta por DW, cuando Y t   0  Y t 1 1  X t  2  u t ,


corresponde a la siguiente:

n 1
h  ˆ  N  0;1 (5.72)
 
1   n  1  V ˆ1

donde ̂1 es el estimador del coeficiente asociado a la variable endógena


rezagada y n es el tamaño muestral. Luego, si el valor estimado de h es
mayor al tabulado para un determinado nivel de confiabilidad, no se
rechaza la hipótesis de ausencia de autocorrelación, es decir, es altamente
probable que exista autocorrelación.

 Contraste de Breusch y Godfrey: Un procedimiento alternativo de


detección es el contraste de Breusch y Godfrey donde en la hipótesis nula
se tiene ausencia de autocorrelación, pero en la hipótesis alternativa se
presenta H1 :  t  AR  p  ó H1 :  t  MA  q  .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-121

Operacionalmente, el test puede llevarse a cabo regresando los residuos


MCO ˆt , sobre las X t ,  t 1 ,....,  t  p y comparando n  R 2 con  p2 . Dado
que X T ˆ  0 , el contraste es equivalente a regresionar ˆt sobre la parte de
los residuos no explicada por las X t .

Si se encuentra algún ajuste, éste es debido a la correlación entre los


residuos presentes y los residuos retardados.

Este estadístico es muy sencillo de calcular y resuelve los problemas del


contraste de Durbin-Watson.

 Contraste de Box y Pierce: Otro estadístico es la Q de Box-Pierce


L
definido como Q  n rj2 donde:
j 1

 ˆ ˆ t t j
rj  t
(5.73)
 ˆt2 
t

Los valores resultantes se comparan con una distribución  L2 . La principal


diferencia entre el test de Breusch-Godfrey y el de Box-Pierce es el uso de
correlaciones parciales entre los residuos en el primero y el de correlaciones
simples en el segundo. Bajo la hipótesis nula de ausencia de
autocorrelación, ambos contrastes son asintóticamente equivalentes.

 Contrastes gráficos: La autocorrelación residual puede detectarse


mediante instrumentos gráficos, como por ejemplo, el gráfico estandarizado
de los residuos MCO resultantes de la estimación del modelo original, la
función de autocorrelación simple y la función de autocorrelación parcial. El
uso de estas funciones permite no sólo detectar la presencia de
autocorrelación en los residuos, sino también identificar la estructura
concreta que siguen los mismos (de tipo AR, MA o ARMA).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-122

5.4.5 Estimación bajo Autocorrelación

Para describir los procedimientos de estimación más habituales trabajaremos


con un modelo concreto y un esquema de autocorrelación de tipo AR(1). Como ejemplo,
supongamos que:

Y t   0  X t 1   t (5.74)

 t   t 1  u t (5.75)

donde u t es un proceso de ruido blanco. El modelo transformado donde el término de


error no presenta autocorrelación es el siguiente:

Y t  Y t 1   0 1      X t   X t 1  1  u t (5.76)
      
Y t 0 X t

Y t  0  X t 1  u t (5.77)

Los procedimientos para estimar  0 , 1 y  son los siguientes:

 Procedimiento iterativo de Cochrane-Orcutt: Las etapas de este


método son las siguientes:

o Aplicar MCO al modelo original (5.74) ignorando la presencia de


autocorrelación y recuperar los residuos. A partir de ellos, obtener
una estimación preliminar de  como:

 ˆ ˆ 
t t 1
ˆ  t 2
n
(5.78)
 ˆ 
t 2
2
t 1

o Con la estimación ˆ de la etapa anterior se calculan las variables


transformadas:

Y t  Y t  ˆY t 1 , X t  X t  ˆ X t 1 (5.79)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-123

o Luego se estima por MCO el modelo (5.77) y se recupera la


estimación del término constante ̂ 0 , a través de la relación

0 0  
   1  ˆ . Con las estimaciones  ,  se vuelve al modelo
0 1

original (5.74) y se recuperan los nuevos residuos y una nueva


ˆ
estimación de ˆ , usando de nuevo (5.78).

o Se repite la segunda etapa hasta alcanzar la convergencia. Un


criterio de convergencia puede ser parar cuando se cumple que:

ˆt  ˆt 1
 (5.80)
ˆt

 Procedimiento iterativo de Hildreth-Hu: Este método calcula el


estadístico de Durbin - Watson del modelo original y obtiene una estimación
inicial ˆt .

A partir de esta estimación, se construye una malla de valores


ˆ1 , ˆ2 ,..., ˆt ,...., ˆn y se realizan tantas regresiones en el modelo
transformado como valores tenga la malla. A continuación, se selecciona la
regresión que genere la menor suma residual que se habrá obtenido con un
valor ˆm .

A partir de este valor, se vuelve a construir una malla más fina de valores y
se vuelve a repetir el proceso hasta alcanzar convergencia.

 Método de diferencias: la idea es tratar el problema no lineal


directamente planteando como función objetivo:
n n
min   ˆtt2    Y t  Y t 1   0 1      X t   X t 1  1 
2
(5.81)
t 2 t 2

para obtener simultáneamente una estimación de  0 , 1 y  . Una solución


válida sólo cuando   1 , es eliminar la autocorrelación tomando primeras
diferencias a las variables. Es decir, si  t no sigue un proceso AR(1) sino un
camino aleatorio, de forma que  t  ut y ut es ruido blanco, el modelo
transformado adecuado sería:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-124

Y t   X t 1  u t (5.82)

donde ha desaparecido el término constante del modelo original. Por esta


razón, trabajar con variables temporales estacionarias en media, en muchas
ocasiones resuelve el problema de correlación serial de los residuos.

5.5 Endogeneidad

5.5.1 Definición de Endogeneidad

Endógeno significa, literalmente, “determinado dentro del sistema,” es decir,


una variable que se determina conjuntamente con Y, o bien que está sujeta a causalidad
simultánea (X causa a Y e Y causa a X, simultáneamente).

La endogeneidad se define, en términos analíticos en el contexto de modelos


de regresión lineal, como la correlación entre una (o varias) variable(s) explicativa(s) y el
término de error. Esto implica que E  X T    0 . Luego, y como se observa a continuación,
el estimador MCO de  será sesgado:

ˆ   X T X  X T Y   X T X   X   X   
1 1 T
(5.83)

ˆ     X T X  X 
1 T
(5.84)

 
E ˆ    E  X T X   X T   
1
(5.85)
 

 
E ˆ    E  X T X   X T        X T X  E  X T  
1 1
(5.86)
  
 
  0

sesgo

 
E ˆ   (5.87)

Por lo tanto, cuando existe endogeneidad, la estimación de parámetros puede


ser sesgada e inconsistente, incluso con signos cambiados, y las conclusiones del proceso
de inferencia pueden se absolutamente incorrectas. Además, si ̂ está sesgado, también
estará sesgado ˆ .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-125

X Y X Y

 

Sin Endogeneidad Con Endogeneidad

Y Y 
 
X X X

5.5.2 Causas de la Endogeneidad

a) Una primera causa de endogeneidad puede ser la omisión de variables


relevantes. Al omitir dichas variables, se traspasan al término de error. Si
las variables omitidas están correlacionadas con algunas variables no
omitidas, entonces el error del modelo también estará correlacionado con
algunas de las variables no omitidas, y por lo tanto se cumplirá que
E  X T   0 .

b) Otra causa común de endogeneidad es la simultaneidad. Es decir, cuando


la variable X causa a la variable Y, pero al mismo tiempo la variable Y
causa a la variable X. Por ejemplo, supongamos la demanda por usar una
autopista depende del precio de la autopista y yambién del nivel de
servicio o velocidad. Conforme aumente la demanda de la autopista,
también se reducirá su velocidad, lo que a su vez redundará en un nuevo
nivel de demanda hasta llegar a un equilibrio.

Yi   X i Yi    i (5.88)

Luego, la estimación de los efectos marginales con y sin endogeneidad


pueden ser muy distintos. Esto se da comúnmente en sistemas de
ecuaciones simultáneas (por ejemplo, oferta y demanda).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-126

c) Una tercera causa de endogeneidad es la medición de la variable X con


error. Supongamos que el modelo verdadero es Yi   X i   i , pero no
observamos correctamente Xi, sino una aproximación de ella, que la
definimos como X i  X i*  ui , con ui  N  0;  u2  .

Luego, el modelo que se estimará será:

Yi   X i   i   X i*   ui   i   X i*  vi (5.89)

 
vi

El estimador MCO de (5.89) es el siguiente:

X Y *
i i  X  X
*
i
*
i  vi  X *
v
i i
ˆ  i
 i
 i
(5.90)
 X 
i
* 2
i  X 
i
* 2
i  X 
i
* 2
i

   
E   X i*vi  E    X i  ui   ui   i  
 
E ˆ     i

   i
  2
 (5.91)
E    X i*  
2
E    X i  ui  
 i   i 

 2  2   2 
 
E ˆ    2 u 2   1  2 u 2     2 x 2   
 x u   x u    x u 
(5.92)

d) Una cuarta fuente de endogeneidad se produce por el denominado sesgo


de selección. Es decir, cuando la muestra no representa adecuadamente a
la población, y está sesgada hacia una proporción específica del universo
total. Por ejemplo, las encuestas de participación voluntaria.

5.5.3 Efectos de la Endogeneidad

La consecuencia más grave de la endogeneidad es el sesgo en la estimación


de los parámetros y de las conclusiones que se obtengan del proceso de inferencia.

En la siguiente Figura se aprecia claramente los efectos que pueden generar la


omisión de variables en el contexto de endogeneidad:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-127

Figura 5.11
Ejemplo del Efecto de la Autocorrelación

En la Figura 5.11 se observa claramente que la pendiente de la recta azul es


diferente a la pendiente de las rectas rojas; estas últimas, corrigen el efecto de la
endogeneidad, mientras que la recta azul no lo hace.

5.5.4 Detección de la Endogeneidad

Lamentablemente, no existe un contraste o metodología que permita


determinar la presencia de endogeneidad de manera infalible, y dependerá fuertemente de
las habilidades del modelador y su comprensión del problema estudiado a fin de identificar
potenciales fuentes de endogeneidad.

Sin embargo, mediante el test de Hausman, es posible comparar un estimador


sesgado (en presencia de endogeneidad) con un estimador insesgado (estimado
corrigiendo la endogeneidad). El test de Hausman es el siguiente:

βˆ - βˆ      βˆ - βˆ   
T 1
 var βˆ c  var βˆ s  2
(93)
c s
  c s m

donde βˆ c es el vector de parámetros estimados del modelo (de rango m) corrigiendo la


endogeneidad (estimador consistente), y βˆ s es el vector de parámetros estimados del
modelo usando las variables originales (estimador eficiente).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-128

Otro método que se utiliza normalmente para detectar una potencial fuente de
endogeneidad producto de la omisión de variables relevantes o de la mala especificación
del modelo es el test de Ramsey para el siguiente modelo:

Yi   X i  1Yˆi 2   2Yˆi 3  ui (5.94)

La hipótesis nula es H 0 : 1   2  0 . Para testear esta hipótesis se usa el


clásico test F. Si se rechaza la hipótesis nula, se concluye que habría endogeneidad por
omisión de variables relevantes o por mala especificación del modelo.

5.5.5 Estimación bajo Endogeneidad

La forma más común de corregir el problema de endogeneidad es mediante el


uso de variables instrumentales (VI). Una variable instrumental (o simplemente instrumento)
es una variable que está altamente correlacionada con la variable X que presenta
endogeneidad, pero incorrelacionada con el término de error.

Z X Y



Es importante notar que el estimador VI corrige el sesgo de endogeneidad,


pero tiene mayor varianza. Luego, es un estimador consistente pero más ineficiente respecto
a MCO.

Recordemos que el estimador de MCO es:

ˆ   X T X  X T Y     X T X  X T 
1 1
(5.95)

Luego, si X T   0 , el estimador MCO será sesgado. Definamos ahora a Z


como un instrumento de X. Normalmente el rango de Z es igual al de X, aunque como
veremos más adelanta puede ser mayor, pero nunca menor. Es decir, el número de
instrumentos debe ser igual o mayor al número de variables con endogeneidad.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-129

El estimador de variables instrumentales (cuando el número de instrumentos es


igual al número de variables con endogeneidad) se define como:

ˆVI   Z T X  Z T Y
1
(5.96)

Cuando una variable es exógenea, se define como instrumento a la misma


variable. De esta forma se asegura que el rango de las variables originales X y de las
variables instrumentales Z sea al menos el mismo.

En este estimador se cumple:

ˆVI   Z T X  Z T Y   Z T X  Z T  X    
1 1
(5.97)

ˆVI     Z T X  Z T 
1
(5.98)

De (5.98) se aprecia claramente que si Z es ortogonal a , el estimador ˆVI


será consistente. También se observa que mientras mayor sea la correlación entre Z y X,
más rápido convergerá el estimador ˆVI al parámetro poblacional .

Un instrumento Z débil será aquel que presente una baja correlación con la
variable X instrumentada.

Es interesante notar la siguiente relación:

Y Z  Z Z  Z Y
T T 1

  Z T X  Z TY
1
ˆVI   (5.99)
Y X  Z T Z  Z T X
1

Cuando el rango de Z es mayor al de X (es decir, cuando hay más


instrumentos que variables con endogeneidad), el instrumento se puede definir como:

 
1
ˆVI  Xˆ T Xˆ Xˆ T Y (5.100)

donde Xˆ  Z  Z T Z  Z T X es la predicción de X usando como variables explicativas los


1

instrumentos Z. Es decir, X̂ se obtiene de resolver el siguiente modelo de regresión


múltiple:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-130

X  Z  v  ˆ   Z T Z  Z T X  Xˆ  Zˆ
1
(5.101)

Este método se conoce con Mínimos Cuadrados en 2 Etapas: primero se


estima X̂ , y luego se estima ˆVI .

Un instrumento se puede definir como débil si el R2 obtenido del modelo


(5.101) es estadísticamente pequeño, o si el test F de significancia conjunta de todos los
parámetros  es estadísticamente bajo.

De hecho, si el instrumento es muy débil, el método de VI puede generar


estimadores incluso más inconsistentes que MCO.

5.6 Asimetría, Curtosis y Normalidad

5.6.1 Asimetría

Si una distribución es simétrica, el sesgo vale cero. Cuanto mayor es el valor


absoluto del estadístico de asimetría, más sesgada es la distribución. Un valor positivo
grande indica que la cola de la derecha de la distribución es “larga”, y un valor negativo
grande indica una cola izquierda “larga”. La asimetría o sesgo poblacional se define
como:

E Y  Y 
3

A (5.102)
3

donde   E Y  Y 
2
e Y  E Y  . A partir de la muestra, la asimetría se estima de la

siguiente manera:

1 N

 Y  Y 
3
i
N
Aˆ  i 1
(5.103)
ˆ 3

1 N
1 N

 Y  Y 
2
donde ˆ 
N i 1
i eY 
N
Y .
i 1
i

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-131

 6
La distribución de este estimador es Aˆ  N  0;  , por lo que es factible
 N
construir el siguiente contraste:


 N  0;1 (5.104)
6 N

5.6.2 Curtosis

Es una variable aleatoria que mide el espesor de las colas de la curva de


distribución, en relación con la distribución normal. La curtosis de una variable aleatoria
normal es 3. Si la curtosis es mayor que 3, significa que las colas de la distribución son
“gordas”; cuando ello ocurre, se dice que la distribución es leptocúrtica, e indica que la
distribución tiene mayor masa de probabilidad en los extremos que la distribución normal.
La distribución es mesocúrtica, se corresponde a una normal, y platocúrtica si las colas
son “flacas”. La curtosis poblacional se define como:

E Y  Y 
4

K (5.105)
4

A partir de la muestra, la curtosis se estima de la siguiente manera:

1 N

 Y  Y 
4
i
N
Kˆ  i 1
(5.106)
ˆ 4

1 N
1 N

 Y  Y 
2
donde ˆ 
N i 1
i eY 
N
Y .
i 1
i

 24 
La distribución de este estimador es Kˆ  N  3;  , por lo que es factible
 N
construir el siguiente contraste:

Kˆ  3
 N  0;1 (5.107)
24 N

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-132

5.6.3 Estadístico Jarque-Bera de Normalidad

Combina información sobre asimetría y curtosis para producir una prueba más
general de normalidad:

N  k  ˆ2 1 ˆ
 
2
 A  K  3     2
2
JB  (5.108)
6  4 

De acuerdo a la hipótesis nula, que las observaciones son independientes y


normalmente distribuidas, el estadístico JB sigue una distribución  2 con 2 grados de
libertad (en muestras grandes).

5.7 Contrastes de Datos Atípicos

La hipótesis nula en este caso será que todos los datos provienen de la misma
función de distribución multivariante.

Consideremos que existe una observación sospechosa de ser atípica xi . La


hipótesis nula será H 0 : E  xi    , mientras que la alternativa será H1 : E  xi    .

Bajo H1 , como la estimación de i es xi , la estimación de la varianza será:

1
Vi  Wi (5.109)
n 1

donde:
n

  x  xi  x j  xi  
T
Wi  (5.110)
j 1  j  i 
j

es la estimación de la suma de los cuadrados de los residuos, y xi es la media de las


observaciones, en ambos casos eliminando la observación xi .

El contraste finalmente es el siguiente:

x  xi  Vi 1  x j  xi    p2
T
j (5.111)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-133

Lo anterior implica que si la observación xi está muy lejos de la media de las


observaciones xi , que no consideran xi , se rechaza la hipótesis nula de que la esperanza
de xi es igual a la media de los datos. En tal caso, xi sí es una observación atípica que
puede ser eliminada del proceso de estimación.

El problema de este método se da cuando existe más de una observación


atípica, lo que genera una potencia muy baja del contraste. Un alternativa en tal caso
puede ser identificar a priori las observaciones sospechosas, e ir incorporando de a una
según el contraste (5.111). Evidentemente, se comenzará por aquella observación que
presente el menor valor calculado de  x j  xi  Vi 1  x j  xi  , y así sucesivamente.
T

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-134

6 INTRODUCCIÓN A LAS SERIES DE TIEMPO

Una serie de tiempo es una secuencia de observaciones o datos numéricos


ordenadas y equidistantes cronológicamente sobre una característica de una
unidad observable en diferentes períodos. La característica específica de una serie
temporal es, por lo tanto, que las observaciones están ordenadas en el tiempo.

Hay casos en los que la variable observada tiene un patrón de


comportamiento fijo; en términos estadísticos estamos ante una serie determinista. Por el
contrario, hay otras series que resultan impredecibles. Su pauta de comportamiento no
responde a un patrón fijo, por lo que son puramente aleatorias. Un ejemplo típico es la
sucesión de números premiados en un sorteo de loterías. En general, las series económicas
contienen una componente determinista y una componente aleatoria. La muestra está
definida en este caso por un tamaño o longitud de N componentes consecutivos de Yt.

6.1 Extrapolación de Series de Tiempo

Un modelo de series de tiempo es un método complejo de extrapolación de


datos. Sin embargo, en determinadas ocasiones, debido a urgencias o poca disponibilidad
de recursos, es factible utilizar métodos menos complejos. Estos son los denominados
modelos deterministas.

En estos modelos no se hace referencia a la naturaleza aleatoria o estocástica


de la serie. Proporcionan por lo tanto una alternativa simple, económica y en algunos casos
aceptable de pronóstico.

6.1.1 Modelos de Extrapolación Simple

El modelo de extrapolación más simple es el modelo de tendencia lineal:

Yt  a1  a2t (6.1)

donde t es el tiempo y  a1 , a2  son parámetros de calibración. El pronóstico para el


período t + l es Yˆ  a  a  t  l  .
t l 1 2

Una segunda alternativa corresponde a una de crecimiento exponencial:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-135

Yt  c  e rt (6.2)

donde (c, r) son parámetros de calibración. El pronóstico para el período t + l es


Yˆt l  c  e   . Los parámetros en este caso pueden estimarse aplicando logaritmos
r t l

naturales a la expresión (6.2): ln Y  ln c  rt  Y  c  rt .


t t

Un tercer método de extrapolación es el de tendencia autoregresiva y su


variación logarítmica:

Yt  a1  a2Yt 1 (6.3)

ln Yt  b1  b2 ln Yt 1 (6.4)

Una cuarta alternativa corresponde al modelo con tendencia cuadrática:

Yt  a1  a2t  a3t 2 (6.5)

Modelos un poco más complejos corresponden a aquellos que presentan


curvas logísticas:

1
Yt  (6.6)
c  abt

donde (a, b, c) son parámetros de calibración. Al ser un modelo no lineal, debe estimarse
con métodos no lineales.

Una curva logística alternativa más simple de estimar es la siguiente:


c  c2 t 
Yt  e 1 (6.7)

La estimación en este último caso se obtiene aplicando logaritmos de tal forma


c
de obtener ln Yt  c1  2  Yt  c1  c2t .
t

6.1.2 Modelos de Promedio Móvil

Este modelo es útil cuando creemos que los valores probables a futuro son
promedios de sus valores anteriores. A menudo es razonable suponer que los valores más
recientes de la serie tienen un mayor impacto que los valores anteriores.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-136

Yt    1    Yt i
i
(6.8)
i 0

En este caso se debe cumplir que 0 <   1. 0    1 . Si  = 1 el pronóstico


ˆ
se vuelve YT 1  YT , y nos olvidamos de los valores anteriores. A medida que  tome un
menor valor, consideramos en mayor medida el impacto de valores anteriores. Debe

notarse que   1    
i
 1 , por lo que las ponderaciones suman uno.
i 0 1  1   

Es importante notar que si la serie tiene una tendencia creciente, el modelo


(6.8) subpredecirá los valores (y viceversa). Esto recomienda eliminar la tendencia antes de
ajustar el modelo.

6.2 Suavizamiento de Series de Tiempo

Estas técnicas proporcionan un medio para reducir las fluctuaciones volátiles


de las series de tiempo en el corto plazo. Una de las técnicas más simples de
suavizamiento corresponde a considerar el promedio móvil de período n:

1 n 1
Yt   Yt i (6.9)
n i 0

Entre mayor sea n, más suave será Yt .

El suavizamiento exponencial corresponde a un promedio móvil ponderado


exponencialmente para el suavizamiento:
n 1
Yt    1    Yt i
i
(6.10)
i 0

n 1
Si escribimos 1    Yt 1    1    Yt i , y restamos esta expresión de la
i

i 1

ecuación (6.10), se obtiene la siguiente fórmula recurrente:

Yt   Yt  1    Yt 1 (6.11)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-137

Notar que mientras más cerca está  de 1, mayor peso tiene la ponderación
actual de Yt al generar Yt ; valores pequeños de , implican en cambio una serie más
suavizada.

6.3 Estimación y Pronóstico de Modelos de Tendencia

Para ajustar los diversos modelos de tendencia de datos a una serie temporal,
se usa la técnica de MCO:
T
ˆ= argmin  Yt  Tt    
2
(6.12)
 t 1

donde  es el conjunto de parámetros a calibrar en el modelo y Tt()es la tendencia que


presenta la serie. El pronóstico de la serie, por su parte, se obtiene directamente del modelo
calibrado:

 
YˆT l  TT l ˆ (6.13)

Es interesante notar que la estimación correcta de MCO requiere que la media


del error de pronóstico sea cero. El intervalo de confianza del pronóstico es en este caso,
para un 95% de confiabilidad, el siguiente:

YˆT l  1,96  ˆ 2 (6.14)

donde ˆ 2 es la estimación de la desviación estándar de la perturbación de la tendencia.


Luego, la densidad pronosticada es YˆT l  N YT l ; ˆ 2  .

6.4 Procesos Estocásticos

Un proceso estocástico es un conjunto de variables aleatorias


correspondientes a distintos instantes de tiempo. Consecuentemente, una serie temporal
puede considerarse como una realización muestral de las n variables aleatorias que
forman su proceso estocástico generador. Es decir, la serie se forma a partir de un proceso
estocástico.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-138

La estructura probabilística de un proceso estocástico queda completamente


definida por la distribución conjunta de las variables del mismo (por ejemplo una normal
multivariada f Y1 , Y2 ,...., YN  ). Evidentemente, para caracterizar empíricamente esta
distribución conjunta, es necesario observar un cierto número de realizaciones del proceso.
Este proceso de observación repetida no siempre es posible, por lo que suelen
utilizarse hipótesis simplificatorias del proceso estocástico:

 Linealidad

 Estacionariedad

 Normalidad (Gaussiano)

El término gaussiano quiere decir que la distribución conjunta de las variables


que forman el proceso estocástico es una normal multivariante, que puede ser
caracterizada por sus correspondientes vectores de medias y matrices de varianzas-
covarianzas (primeros y segundos momentos).

La caracterización de un proceso estocástico lineal gaussiano n-variante


definido en estos términos aún requiere conocer o estimar el valor de n medias, n varianzas
n   n  1
y covarianzas, por lo que en la mayor parte de los casos prácticos es necesario
2
recurrir a un supuesto simplificatorio adicional: el de estacionariedad.

6.5 Estacionariedad

6.5.1 Estacionariedad Estricta

Se dice que un proceso estocástico es estrictamente estacionario si la


distribución conjunta de las variables que lo forman es función únicamente de los intervalos
temporales que las separan. Así, el proceso Yt es estrictamente estacionario para todo t si
la función de distribución conjunta de Yi , Yi  k  es la misma que la de Y j , Y j  k  . Luego,
todos los momentos de la función de densidad de la variable (de cualquier orden)
son constantes en el tiempo.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-139

6.5.2 Estacionariedad Débil

Un proceso es débilmente estacionario si su media es constante e


independiente del tiempo, su varianza es finita y constante, y el valor de la covarianza
entre dos periodos no depende del tiempo en el cual se ha calculado, sino de la distancia
o desfase entre aquellos.

Luego, en una serie estacionaria se cumple:

E Yt    (6.15)

V Yt    2   0 (6.16)

cov Yt , Yt  k    k , k (6.17)

cov Yt , Yt  k  k k
k    , k (6.18)
V Yt  V Yt  k  0 0 0

Los modelos de predicción de series temporales están diseñados para


procesos estacionarios. Si las características del proceso cambian a lo largo del tiempo,
resultará difícil representar la serie para intervalos de tiempo pasados y futuros mediante un
modelo lineal sencillo.

Sin embargo, por regla general, las series económicas no son series que
proceden de procesos estacionarios, sino que suelen tener una tendencia creciente o
decreciente, y variabilidad no constante.

Esta limitación no es tan importante porque, en la práctica, se pueden


transformar las series no estacionarias en otras que sí lo son.

Un tipo de proceso estacionario particular es el denominado ruido blanco,


formado por una sucesión de variables aleatorias con distribución normal,
esperanza cero, varianza constante e incorrelacionadas entre sí. La variable
aleatoria t es ruido blanco para cualquier t si  t  N  0,  2  y además
cov   t ,  t  k   0, k  0 .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-140

Luego, en un proceso ruido blanco se cumple k = 0 y k = 0 k  1. El interés


de este de proceso radica en que, si sólo se cuenta con información muestral acerca de su
propio pasado, no puede realizarse ninguna previsión mejor que su esperanza
incondicional.

Por lo tanto, los procesos de ruido blanco de esperanza nula resultan útiles
para caracterizar las propiedades ideales del término de error de un modelo estocástico
dinámico.

6.5.3 Función de Autocorrelación Simple (FAS)

En la práctica se dispone de una muestra de un proceso estocástico, Y1, Y2,


…., Yn. Se pueden obtener los coeficientes de autocorrelación y, a partir de ellos, la
función de autocorrelación:

1 n
ˆ   Yt
n t 1
(6.19)

1 n
 Yt  ˆ 
2
ˆ0  (6.20)
n  1 t 1

nk

 Y  ˆ Y
t t k  ˆ 
ˆk  t 1
(6.21)
nk

ˆk
ˆ k  , k (6.22)
ˆ0

La expresión ˆ k corresponde entonces a la función de autocorrelación.

Como medida de precisión de ̂ se tiene que:

0  n 1
 k 
V  ˆ   
n
1  2  1    k 
k 1  n 
(6.23)

Si el tamaño de la muestra es grande con respecto a k, dividir por n o por n-k


es prácticamente lo mismo, así como el cálculo de la media con n o con n-k observaciones:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-141

nk

 Y  ˆ Y
t t k  ˆ  nk

ˆ
t 1
nk
 Y  ˆ Y
t t k  ˆ 
ˆ k  k   t 1
(6.24)
ˆ0 1 N n

 Yt  ˆ   Y  ˆ 
2 2
t
n  1 t 1 t 1

1 k 1

V  ˆ k   
n
1  2 
i 1
i2 

(6.25)

La expresión (6.25) corresponde a la varianza aproximada bajo la hipótesis


de normalidad del proceso generador de datos.

El estadístico Q de Box-Ljung permite contrastar la significancia conjunta de los


coeficientes de autocorrelación muestral. Se define como:
m
ˆ k2
Q  m  n  n  2    m2  p  q (6.26)
k 1 n  k

siendo m un número arbitrario utilizado en el cálculo.

Bajo la hipótesis nula de que la muestra haya sido generada por un proceso
de ruido blanco, este estadístico se distribuye aproximadamente como una  m2  p  q .

El valor de m suele fijarse en tres veces la longitud del período estacional más
tres retardos. De esta manera, para series trimestrales tendríamos m = 15 y para series
mensuales m = 39. En el caso de datos que carecen de un período estacional definido, m
se fija en un número "razonable", en función de la longitud de la muestra (m = n/4).

A veces resulta interesante contrastar individualmente la significación de los


2
coeficientes de la FAS muestral. Para ello pueden compararse éstos con los valores 
n
que, aproximadamente, son los límites de un intervalo de confianza al 95% bajo la
hipótesis nula de que el verdadero valor del coeficiente es cero. Luego, si un coeficiente
está fuera del intervalo de confianza, se rechaza (aproximadamente) que su verdadero
valor sea cero.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-142

El interés de la FAS consiste en que sus coeficientes pueden interpretarse como


una estimación del k-ésimo coeficiente de un modelo MA(k). Si los datos han sido
generados por un modelo MA(q), sólo los primeros q coeficientes de autocorrelación
simple serán distintos de cero, mientras que si los datos han sido generados por un modelo
AR(p), la FAS será infinita y tenderá a aproximarse a cero asintóticamente.

6.5.4 Función de Autocorrelación Parcial (FAP)

El coeficiente de autocorrelación parcial k-ésimo k de la serie Yt se define


como el último coeficiente de una autorregresión de la variable centrada sobre sus últimos
k valores. Es decir, corresponden a los parámetros del modelo de regresión lineal definido
por Yt  0  1Yt 1  2Yt  2 ,...., k Yt  k   t .

Puede demostrarse que los coeficientes teóricos de autocorrelación parcial


pueden calcularse a partir de los coeficientes de autocorrelación simple resolviendo las
ecuaciones de Yule-Walker expuestas en (6.27):

 1 1  2 ....  k  2 1 
  1 1 ....  k 3  2 
 1

 2 1 1 ....  k  4 3 
det  
 .... .... .... 
 k 2  k 3 1  k 1 
 
k    k 1  k  2  k 3 .... 1  k 
(6.27)
 1 1  2 ....  k  2  k 1 
  1 1 ....  k 3  k  2 
 1

 2 1 1 ....  k  4  k 3 
det  
 .... .... .... 
 k 2  k 3 1 1 
 
  k 1 k 2  k 3 .... 1 1 

El interés de la FAP consiste en que sus coeficientes pueden interpretarse como


una estimación del k-ésimo coeficiente de un modelo AR(k). Consecuentemente, si los datos
han sido generados por un modelo AR(p), sólo los primeros p coeficientes de
autocorrelación parcial serán distintos de cero. Por otra parte, si los datos han sido
generados por un modelo MA(q), la FAP será infinita y tenderá a aproximarse a cero
asintóticamente.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-143

6.5.5 Proceso Ruido Blanco

Se dice que un proceso Yt es un proceso de ruido blanco si es estacionario en


sentido débil y, además, k = 0 k  1. Corresponde al más simple de los procesos
estacionarios.

El interés de este de proceso radica en que, si sólo se cuenta con información


muestral acerca de su propio pasado, no puede realizarse ninguna previsión mejor que su
esperanza incondicional.

Por tanto, los procesos de ruido blanco de esperanza nula resultan útiles para
caracterizar las propiedades ideales del término de error de un modelo estocástico
dinámico. Si Yt es independiente e idénticamente distribuido con media cero y varianza
constante, decimos entonces que es un ruido blanco gaussiano:

Yt   t  N  0,  2  (6.28)

Tanto Yt como t no están correlacionados en el tiempo. Supondremos


además que 2  . Un ejemplo de ruido blanco se presenta en la Figura 6.1:

Figura 6.1
Proceso Ruido Blanco 2 = 2,3
3

0
100
10

13

16

19

22

25

28

31

34

37

40

43

46

49

52

55

58

61

64

67

70

73

76

79

82

85

88

91

94

97
1

-1

-2

-3
Observaciones

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-144

A continuación vamos a caracterizar este proceso estacionario,


particularmente su estructura dinámica.

La media incondicional de Yt es la siguiente:

E Yt   E   t   0 (6.29)

y la varianza incondicional de Yt es:

V Yt   V   t    2   0 (6.30)

Dada la característica de estacionariedad, y que la función de


autocovaraianzas depende del espaciamiento y no del tiempo, se tendrá que:

 2 , si k  0
k   (6.31)
0 , k  1

Recordar que la varianza corresponde a la autocovarianza de orden cero.


Además, dado que el ruido blanco es incorrelacionado en el tiempo, todas las
autocovarianzas de orden superior a cero valen cero, como se expuso en (6.31). La
función de autocorrelación es en este caso la siguiente:

 k 1 , si k  0
k   (6.32)
 0 0 , k  1

Luego, la FAS y FAP valen cero siempre, excepto en k = 0. Este es uno caso
particular en que la FAS y la FAP coinciden.

En consecuencia, pronosticar un proceso RB es imposible. Sin


embargo, es deseable que procesos que sí sean pronosticables, presenten un error RB.

Otra caracterización dinámica de los procesos puede realizarse a partir de


sus momentos condicionados (en el pasado). Los momentos incondicionales requerían ser
constantes para que el proceso sea estacionario; sin embargo, los momentos condicionales
puede que no lo sean.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-145

En el caso del RB gaussiano, los momentos incondicionales son


idénticos a los condicionales. Esto es consistente con que no nos sirve de nada la
información pasado y presente para pronosticar en el futuro.

Para determinar si una serie es RB, podemos contrastar si todas sus


autocorrelaciones de manera conjunta son cero. A partir de la ecuación:

 1
ˆk  N  0;  (6.33)
n 

se obtiene

nˆk  N  0;1 (6.34)

 
2
n ˆk  12 (6.35)

Luego, recordando que suma de m variables 12 distribuyen  m2 , bajo la


hipótesis nula de que Yt es RB se tendrá el estadístico de Box-Pierce:

m
QBP  n ˆk2   m2 (6.36)
k 1

Notar que el estadístico de Box-Pierce (6.36) es igual al de Box-Liung (6.26),


con la diferencia de que en este último la suma de las autocorrelaciones al cuadrado se
reemplaza por una suma ponderada de las mismas autocorrelaciones. Cuando n es
grande, ambos estadísticos difieren muy poco.

6.6 Ergodicidad

Diremos que un proceso es ergódico si sus promedios estadísticos se


pueden calcular a partir de una realización; es decir, si sus promedios estadísticos
coinciden con sus promedios temporales. Lo anterior implica que en un proceso ergódico,
una única realización de Yt nos provee información suficiente para estimar su media y sus
autocovarianzas.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-146

En un proceso estocástico ergódico en varianza los valores de la serie


alejados en el tiempo están poco correlacionados, por lo que k decrece al aumentar el
retardo k. Es decir, cuando la dependencia entre observaciones tiende a cero al aumentar
el retardo, diremos que el proceso es ergódico en varianza.

El hecho de decir que el límite de una variable aleatoria coincide con una
N
1
constante, se representa analíticamente así: sea E Yt   Y  t  dt ; un proceso será
2 N N
ergódico en media si, con probabilidad 1, se cumple:

lim  E Yt     (6.37)


N 

N
1
donde E(Yt) es una variable aleatoria con media E  E Yt     E Y  t  dt   y
2N N

por lo tanto:

lim  E Yt      lim  t2   0  lim E  E Yt       0


2
(6.38)
N  N  N   

Lo anterior implica que cuando la dependencia entre observaciones tiende a


cero al aumentar el retardo, diremos que el proceso es ergódico. En adelante supondremos
que los procesos estacionarios son ergódicos.

En el caso de variables discretas, la ergodicidad implica que:

1 N

N
 Y  E Y 
t 1
t t (6.39)

1 N
  Yt  E Yt    V Yt 
2
(6.40)
N  1 t 1

6.7 Teorema de Wold

Si una serie es estacionaria en covarianza, no queda claro qué modelo


debemos ajustarle para describir su evolución. El teorema de representación de Wold
(1938) determina cuál es el proceso adecuado. Sea Yt cualquier proceso estacionario en
covarianza con media cero. Este proceso se puede representar como sigue:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-147


Yt   i t i (6.41)
i 0


Donde 0 = 1 y 
i 0
i
2
 .

El teorema de Wold establece que cualquier proceso estacionario se puede


representar como una suma ponderada de los residuos pasados. La expresión (6.41) se
denomina proceso lineal general. Si un proceso estacionario no presenta media cero,
simplemente se analiza la variable desviada respecto a su media: yt  Yt  Y .

La media y varianza incondicional de (6.41) son las siguientes:

    
E Yt   E   i t i    i E   t i    i  0  0 (6.42)
 i 0  i 0 i 0

      
V Yt   V   i t i     i2V   t i     2  i2 (6.43)
 i 0   i 0  i 0

A partir de (6.43) podríamos describir las funciones de autocovarianzas y


autocorrelación, pero dicho cálculo es bastante tedioso y no muy revelador.

La media y varianza condicional de (6.41) son las siguientes, donde el


conjunto de información disponible es  t 1  Yt 1 , Yt  2 ,...., Y0 ,  t 1 ,  t  2 ,....,  0  :

E Yt  t 1   E   t  t 1   1 E   t 1  t 1    2 E   t  2  t 1   ....
 (6.44)
E Yt  t 1   0  1 t 1   2 t  2  ....   i t i
i 1


V Yt  t 1   E Yt  E Yt  t 1  
2
  E  t
2

 t 1   E   t2    2 (6.45)

6.8 Retardos y Diferencias

6.8.1 Operador de Retardos


i
El operador de retardos L es un operador lineal tal que LY t  Yt i . Sus

propiedades son las siguientes:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-148

 Lc = c

  L  L  Y  LY  L Y  Y
i j
t
i
t
j
t t i  Yt  j

  L  L  Y  L  L Y   LY
i j
t
i j
t
i
t j  Yt i  j

 L iYt  Yt i


1
 Para a  1 , 1  aL  a 2 L2  .... Yt   a i LY
i
t  Yt
i 0 1  aL

6.8.2 Operador de Diferencias

El operador de diferencias  es un operador tal que Yt  Yt  Yt 1 . Notar


además que:

 Yt  1  L  Yt

  2Yt  Yt  2Yt 1  Yt  2

6.9 Ecuaciones de Diferencias

6.9.1 Definición

Una ecuación de diferencias (en nuestro caso lineal y finita) se puede definir
como una expresión que relaciona el valor de una variable en el momento presente Yt 
con momentos pasados de la misma:

Yt  1Yt 1  2Yt  2  ....   pYt  p (6.46)

Notar que la relación entre la variable y sus retardos es lineal. Las ecuaciones
de diferencia pueden presentar términos adicionales:

Yt  f  t   1Yt 1  2Yt  2  ....   pYt  p (6.47)

Posibles expresiones de la función “forzadora” f(t) son:

 f(t) = 

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-149

 f(t) =  + t

 f(t) = t

 f(t) =  + t + (L)t

Las dos primeras expresiones son determinísticas, y las dos segundas son
estocásticas. Las ecuaciones de diferencias finitas pueden ser resueltas mediante forma
recursiva o mediante resoluciones analíticas más complejas.

6.9.2 Solución Recursiva

La solución consiste en sustituir de manera recursiva los valores pasados de la


variable por otros valores (también pasados) de tal forma de expresar la variable en
función de las condiciones iniciales del proceso y de la función f(t). Por ejemplo:

Yt  1Yt 1   t (6.48)

Yt  12Yt  2   t  1  t 1 (6.49)

Yt  13Yt 3   t  1  t 1  12 t  2 (6.50)

.....
t 1
Yt  1tY0   1i t i (6.51)
i 0

Luego, conocidos los valores de 1i , Y0 y t-i, podremos determinar el valor de


Yt. Sin embargo, este método no siempre resulta ser el más conveniente, y es aplicable a
pocos casos.

6.9.3 Solución Analítica

Una segunda alternativa corresponde a encontrar la solución general de la


ecuación, que denominaremos Yt g . La solución general está definida como la suma de la
solución homogénea Yt h y de la solución particular Yt p :

Yt g  Yt h  Yt p (6.52)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-150

La solución homogénea Yt h no es única, pero la solución particular Yt p sí.

a) Solución Homogénea

La solución homogénea se obtiene a partir del planteamiento de la ecuación


de diferencias y resolviendo la denominada ecuación característica. El sistema homogéneo
considera únicamente los retardos, y no la función f(t).

Sin pérdida de generalidad, vamos a proponer una sencilla transformación


que permite obtener la llamada solución general para el sistema homogéneo de cualquier
ecuación en diferencias ordinaria, lineal, de diferencias finitas y de coeficientes constantes.

Supongamos el caso más sencillo de todos, una ecuación genérica de primer


orden del tipo:

Yt  0  1Yt 1   t (6.53)

El sistema homogéneo es en este caso el siguiente:

Yt  1Yt 1  0 (6.54)

Aplicando el operador de rezagos se puede obtener el polinomio


característico:

1  1L  Yt  0    1  0 (6.55)

Esta ecuación (6.55) se denomina ecuación característica y a sus soluciones


raíces características. Realizando el cambio de variable Yt = t, la solución (raíz
característica) de esta ecuación será  = 1.

La solución homogénea se define como la función suma de las raíces del


polinomio característico elevadas a t; en este caso es:

Yt h  A1t (6.56)

siendo A una constante (A  R2). Notar que A1t es solución de la homogénea.

En el caso de segundo orden se obtiene:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-151

Yt  0  1Yt 1  2Yt  2   t (6.57)

Yt  1Yt 1  2Yt  2  0 (6.58)

 2  1  2  0 (6.59)

   2  4
 1 1 2

 2
 
*
(6.60)
1  12  42

 2

Si todas las raíces son diferentes, la solución homogénea será:

Yt h  A11t  A2 2t (6.61)

No obstante, si las raíces del polinomio característico presentan multiplicidad


(raíces iguales), la solución homogénea habrá que buscarla como:

Yt h  A1 t  A2  t t   A3 t t 2  ......  Am 1 t t m  (6.62)


 
caso general con ( m 1) soluciones iguales

Los valores de los coeficientes Ai se pueden obtener directamente si se dispone


de las condiciones iniciales de Yt y resolviendo luego un sistema lineal de ecuaciones.

Supongamos por ejemplo la siguiente ecuación de diferencias finita:

Yt  0, 6Yt 1  0, 08Yt  2 (6.63)

El polinomio característico es:

 2  0, 6  0, 08  0 (6.64)

Luego, las raíces características son 1 = 0,2 y 2 = 0,4, con multiplicidad


igual a 1. La solución homogénea es:

Yt h  A1  0, 2   A2  0, 4 
t t
(6.65)

Considerando como segundo ejemplo la siguiente ecuación de diferencias:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-152

Yt  4Yt 1  4Yt  2 (6.66)

El polinomio característico es:

 2  4  4  0 (6.67)

Luego, las raíces características son 1 = 2 = 2, por lo que se tiene


multiplicidad igual a 2. La solución homogénea es en este segundo caso:

Yt h  A1  2   A2  2   t
t t
(6.68)

Si por ejemplo Y0 = 1 e Y-1 = 3, se puede plantear el siguiente sistema de


ecuaciones:

1  A1  2   A2  2   0
0 0
(6.69)

3  A1  2   A2  2    1
1 1
(6.70)

de donde finalmente se obtiene A1 = 1 y A2 = -5. Notar que es factible obtener soluciones


complejas para las raíces características.

b) Solución Particular

La solución particular atenderá a la porción de la ecuación no considerada en


el sistema homogéneo. Luego, depende de la función forzadora f(t).

Vamos a considerar primero el caso en el que el sistema NO contiene


componentes estocásticos. La forma de encontrar con rapidez la solución particular es
asumir que Yt se comporta de forma análoga a la parte no homogénea de la
ecuación original, parte no homogénea que denominaremos g(t). Existen varios casos,
como se presenta a continuación:

 Caso 1: g(t) = 0

El caso ilustrado anteriormente con el ejemplo numérico es una situación


particular de un caso genérico del tipo:

Yt  0  1Yt 1  2Yt  2  ....   pYt  p (6.71)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-153

Si asumimos que Yt se comportará como la parte no homogénea g(t) estamos


asumiendo la constancia de Yt, es decir:

Yt = g(t)  Yt = Y (6.72)

Si sustituimos Yt = Y en la ecuación original (6.71) obtenemos la solución


particular que, en este caso, será igual a una constante:

0
Y  0  1Y  2Y  ....   pY  Yt p  (6.73)
1  1  2  ....   p

Esta solución representa precisamente el valor de convergencia de Yt para


infinitas observaciones, siempre y cuando estemos hablando de un proceso Yt estacionario.
Es por eso por lo que, a veces, se define la solución particular como el punto de equilibrio
p
del proceso a largo plazo. Notar que el resultado anterior no es válido si 
i 1
i 1.

 Caso 2: g(t) = bt

La ecuación genérica sería ahora:

Yt  0  1Yt 1  2Yt  2  ....   pYt  p  b  t (6.74)

lo que equivale a introducir en el proceso estocástico una tendencia determinística.

En este caso, asumiendo de nuevo que Yt se comporta como g(t) debemos


considerar que Yt será también una función del tiempo:

g(t) = 0 + bt  Yt =  + t (6.75)

Sustituyendo Yt y g(t) en (6.74) obtenemos:

   t   1     t  1   2     t  2    ....   p     t  p    0  b  t (6.76)

0   1  22  ....  p p 


*  (6.77)
1  1  2  ....   p

b
*  (6.78)
1  1  2  ....   p

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-154

Yt p   *   *  t (6.79)

 Caso 3: g(t) = bdt

La ecuación genérica sería ahora:

Yt  1Yt 1  2Yt  2  ....   pYt  p  b  d t (6.80)

El patrón será ahora:

Yt = dt (6.81)

Resolviendo obtenemos:

b
*  (6.82)
1  1d  2 d 2  ....   p d  p
1

Yt p   *d t (6.83)

Ahora consideraremos el caso en que la función forzadora f(t) es estocástica:

Yt  0  1Yt 1  2Yt  2  ....   pYt  p   t  1 t 1  .....   q t  q (6.84)

q  L
 p  L  Yt   q  L   t  Yt   (6.85)
p  L t

En el caso de un proceso AR(1) se tendrá:

Yt  0  1Yt 1   t (6.86)

La solución homogénea ya es conocida: Yt h  A1 1  . La solución particular


t


0 
en este caso es de la forma: Yt p  b0   i t i  Yt p    1i t i .
i 0 1  1 i 0

Luego, la solución general es:

0 
Yt g  A1 1     1i t i
t
(6.87)
1  1 i 0

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-155

0 
 
Dado que Y0  A1    1i t i , se tendrá A1  Y0  0   1i  i .
1  1 i 0 1  1 i 0

Luego, resulta entonces:

 0 
  0 

  1   i  1      1i t i 
g i t
Yt  Y0  (6.88)
1  1 i 0    1  1 i 0
  
Sol  Homog Sol  Part

Notar que esta solución es válida sólo si 1  1, es decir, no existe raíz unitaria
(proceso no estacionario). En tal caso, la solución particular sería:

Yt p  Y0  0  t    t i (6.89)
i 0

Se observa que la presencia de la tendencia determinista 0t domina el


proceso de evolución del proceso a lo largo del tiempo.

En general, para cualquier proceso lineal con variables y errores rezagados


(6.84), la solución particular se puede obtener de la proposición:

Yt  b0  b1  t   it  t i
p
(6.90)
i 0

Luego, sustituyendo los valores de (6.90) en (6.84) se obtienen los valores de


los parámetros 0, 1 y i.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-156

6.10 Círculo Unitario

Un proceso autorregresivo será estacionario (convergente en términos de su


solución analítica) si sus raíces caen dentro del círculo unitario, o si las raíces de su
polinomio de retardos caen fuera del mismo.

Efectivamente, en un proceso autoregresivo de orden 2, la solución


homogénea tiene la forma general:

Yt h  A1  1   A2  2  Yt h  A  r t  sen  wt   
t t
 (6.91)
Teorema de Moivre 

donde A1 y A2 son las constantes arbitrarias habituales que dependen de las condiciones de
borde (iniciales en nuestro caso), y 1 y 2 son las raíces características.

El parámetro “r” es lo que se denomina módulo o valor absoluto del número


complejo, y “w” representa lo que se denomina frecuencia angular y define el número de
ciclos por unidad de tiempo, es decir, la inversa del período. La frecuencia se mide en
radianes e indica el número de ciclos que hay por unidad de tiempo, y está elegida de
forma que satisfaga simultáneamente la expresión:

1
cos  w   (6.92)
2 2

El parámetro  representa lo que se denomina fase, que viene a indicar la


situación del ciclo en cada momento del tiempo.

Sin entrar en el desarrollo completo, esta transformación parte de la expresión


de las raíces características en forma polar. Para ello deben realizarse las siguiente
transformaciones:

  r  cos  w  ;  r  sen  w    2   2  r 2 (6.93)

Luego, r 2  1  r  1 .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-157

Continuando con el análisis, y dada la forma general (7.78), está claro que la
convergencia (estacionariedad) de la ecuación en diferencias (proceso autorregresivo)
pasa por que 1 y 2 sean menores que la unidad, o más estrictamente, que 1 y 2 deben
caer dentro de un círculo unitario (y no simplemente que deben ser menores que 1).

La razón es que cuando 1 y 2 son enteras, bastaría una recta para


representarlas, por lo que el “círculo”, es decir las dos dimensiones, serían innecesarias;
pero cuando 1 y 2 son imaginarias, necesitamos una representación en dos ejes, uno real
y otro imaginario, para representar raíces imaginarias del tipo:

   2  4   i d
 1 1 2
 1
 2 2
*   (6.94)
1  12  42 1  i d
 
 2 2

Si usamos la representación real/imaginaria, cada una de las raíces


características vendrá representada por una coordenada del tipo:

 1 i d 
 ;  
 2 2 
 
*
(6.95)
 1 i d 
 2 ;  
2 


Es decir, una será la conjugada de la otra. La condición de convergencia en el


caso de raíces imaginarias obliga a que el parámetro r de amplitud sea menor que la
unidad en valor absoluto. Este parámetro es precisamente la distancia que separará las
soluciones 1 y 2 del origen del plano real/imaginario sean cuales sean estas.

Luego, necesariamente el par de soluciones 1 y 2 deberá estar dentro de un


círculo unitario como en el que se muestra en la ilustración presentada a continuación.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-158

 1 i d 
1   ; 
2 2 

 1 i d 
 2   ; 
2 2 

Cuando las soluciones son reales, basta el eje horizontal (real) para
representarlas; cuando son imaginarias, deben “caer dentro del círculo unitario” ya que de
otra forma el radio “r” sería superior a 1 y la solución no sería convergente.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-159

7 PROCESOS MEDIA MÓVIL

En los procesos de media móvil de orden q, cada observación Yt es generada


por una media ponderada de perturbaciones aleatorias, con un retardo de q períodos. Se
simboliza por MA(q):

Yt     t  1 t 1   2 t  2  ....   q t  q (7.1)

donde  es un término constante y t es una variable ruido blanco.

El proceso de media móvil de orden finito es una aproximación natural y obvia


de la representación de Wold.

7.1 Procesos MA(1)

El proceso de media móvil de primer orden o MA(1) es:

Yt     t  1 t 1    1  1 L   t (7.2)

donde t es una variable ruido blanco:  t  N  0;  2  .

La característica que describe al proceso MA y en particular al MA(1) es que


el valor actual de la serie observada se expresa como función de choques actuales y
rezagados inobservables.

Dependiendo del signo de 1, los choques anteriores alimentarán positiva o


negativamente el valor actual de la serie. Sin embargo, un mayor valor de 1 no se traduce
en una mayor persistencia de los choques pasados, como podría pensarse. El proceso
MA(1) tiene muy poca memoria, independiente del valor del parámetro 1.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-160

Figura 7.1
Relación de 2 Procesos MA(1): 1 = 0,4 vs 1 = 0,9 y  t  N  0;1
1

0.8

0.6

0.4

0.2

tetha=0,4
0
tetha=0,9

100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
4
7

-0.2

-0.4

-0.6

-0.8

-1
Observaciones

Cuando 1 tiene un mayor valor, la varianza incondicional aumenta; sin


embargo, la dinámica del proceso es la misma en ambos casos (poca memoria).

Los momentos incondicionales de un proceso MA(1) son los siguientes:

E Yt   E    E   t   1E   t 1    (7.3)

V Yt   V    V   t   12V   t 1    2  12 2   2 1  12    0 (7.4)

cov Yt , Yt 1   E Yt 1   Yt      E   t 1  1 t  2   t  1 t 1   (7.5)

cov Yt , Yt 1    1  1 2 (7.6)

cov Yt , Yt  2    2  0 (7.7)

En general, k = 0 para k > 1. Se dice que el proceso tiene una memoria de


sólo un período.

Cualquier valor de Yt está correlacionado con Yt-1 e Yt+1, pero con ningún otro
valor de la serie.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-161

0
0  1 (7.8)
0
1 
1   12 (7.9)
 0 1  1
k
k   0 , k  1 (7.10)
0

Un modelo MA(1) siempre es estacionario independiente del valor de 1.

Por otra parte, los momentos condicionales de un proceso MA(1) son los
siguientes   t 1    t 1 ,  t  2 ,....  :

E Yt  t 1   E    E   t  t 1   1 E   t 1  t 1     1 t 1 (7.11)

V Yt  t 1   E Yt  E Yt  t 1    E   t2  t 1    2


2
(7.12)

Se observa que la media condicional se adapta en forma explícita al conjunto


de información, a diferencia de la media incondicional (8.3) que es constante. El hecho de
que la media condicional considere sólo el primer rezago del choque, es indicativo de la
memoria del proceso, que también está caracterizada por la función de autocorrelación.

Figura 7.2
Correlograma Simple 1 > 0
1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9
Retardo

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-162

Figura 7.3
Correlograma Simple 1 < 0
1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9

-0.2

-0.4

-0.6

-0.8
Retardo

Si además 1  1 , se dice que el proceso es invertible. En dicho caso,


podemos expresar el proceso en términos de un choque actual y valores rezagados de la
serie en lugar de un choque actual y uno rezagado. A esto se le denomina representación
autoregresiva (ver sección 8.4)

7.2 Procesos MA(2)

En este caso, la representación de momentos no condicionales es la siguiente:

Yt     t  1 t 1   2 t  2 (7.13)

E Yt    (7.14)

V Yt    2  12 2   22 2   2 1  12   22    0 (7.15)

cov Yt , Yt 1   E   t  1 t 1   2 t  2   t 1  1 t  2   2 t 3   (7.16)

cov Yt , Yt 1    1   2 1  1 2  (7.17)

cov Yt , Yt  2   E   t  1 t 1   2 t  2   t  2  1 t 3   2 t  4   (7.18)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-163

cov Yt , Yt  2    2   2 2 (7.19)

cov Yt , Yt 3    3  0 (7.20)

En general,  k  0 para k > 2.

0
0  1 (7.21)
0
 1 1  1 2
1   (7.22)
 0 1  12   22
2 2
2   (7.23)
 0 1  12   22
k
k   0 , k  3 (7.24)
0

Un modelo MA(2) siempre es estacionario con independencia del valor de sus


parámetros, y su memoria es de dos períodos.

7.3 Procesos MA(q)

En este caso, la representación es la siguiente:

Yt     t  1 t 1   2 t  2  ....   q t  q (7.25)

E Yt    (7.26)

V Yt    2  12 2  ....   q2 2   2 1  12  ....   q2    0 (7.27)

cov Yt , Yt 1    1   2 1  1 2   2 3  ....   q 1 q  (7.28)

cov Yt , Yt  2    2   2  2  1 3   2 4  ....   q  2 q  (7.29)

.....
cov Yt , Yt  q    q   q 2 (7.30)

En general,  k  0 para k > q. Los coeficientes de autocorrelación pueden ser


obtenidos a partir de las autocovarianzas. Todos los procesos MA de orden finito son
estacionarios.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-164

7.4 Invertibilidad de los Procesos MA(q)

Cualquier proceso MA(q) puede expresarse como un AR(  ). Un modelo


MA(1):

Yt     t  1 t 1 (7.31)

Yt 1     t 1  1 t  2 (7.32)

Yt  2     t  2  1 t 3 (7.33)

.....

Despejando  t ,  t 1 ,  t  2 , etc. se obtiene:

 t    Yt  1 t 1 (7.34)

 t    Yt  1    Yt 1  1  t  2      Yt  1Yt 1  1  12  t  2  (7.35)

 t    Yt  1Yt 1  1  12    Yt  2  1 t 3  (7.36)

etc.

Si continuamos eliminando  t 3 y siguientes, el procedimiento continuará hasta


el infinito. Esto lleva a expresar Yt como función de sus valores retardados más una
constante y un término de error:

Yt     t  1Yt 1  12Yt  2  13Yt 3  ..... (7.37)


Yt     t    1 1iYt i
i
(7.38)
i 1

Esto tiene sentido si 1  1 , ya que, de otro modo, el efecto del pasado sería
más importante para explicar el comportamiento actual. Lo más lógico es pensar que el
efecto del pasado va siendo cada vez menor y el proceso es invertible.

Si 1  1 , es un caso límite de invertibilidad, en el que el efecto se mantiene


constante con el retardo.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-165

Para un modelo MA(2), la condición de invertibilidad es L  1 en el


polinomio 1  1 L   2 L2  0 . Para un modelo MA(q), la condición de invertibilidad es
L  1 en el polinomio 1  1 L   2 L2  ....   q Lq  0 . Considerar el módulo es importante,
ya que pueden generarse raíces complejas.

Debido a que el proceso MA(q) se puede expresar como un AR(  ), consta


de infinitos coeficientes de autocorrelación parcial distintos de cero, aunque a partir del
valor q decaerán rápidamente. Así, la FAP de un proceso MA se comporta de manera
análoga a como lo hace la FAS en un AR.

7.5 Estimación de Procesos MA(q)

En este caso, debido a que los errores no son función lineal de los parámetros
(no se cumple el supuesto de linealidad requerido para utilizar MCO), la estimación se
resuelve mediante métodos numéricos.

Analicemos el caso de un MA(1):

Yt   t  1 t 1   t  Yt  1 t 1 (7.39)

ˆt  Yt  Yˆt  Yt  ˆ1 t 1 (7.40)

En forma recursiva se obtiene:

1  Y1  1 0 (7.41)

 2  Y2  11  Y2  1 Y1  1 0   Y2  1Y1  12 0 (7.42)

 3  Y3  1 2  Y3  1 Y2  1Y1  12 0   Y3  1Y2  12Y1  13 0 (7.43)

......
n 1
 n    1 1iYn i   1 1n 0
i n
(7.44)
i 0

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-166

El término de error no es función lineal del parámetro a diferencia de lo que


sucede con los modelos autorregresivos. El modelo se puede estimar a través de un
proceso iterativo de estimación no lineal, que utiliza los dos primeros términos de la
aproximación de  t a través del desarrollo en serie de Taylor (se consideran despreciables
los términos de segundo orden y superior).

 t 10 
t   t
0

1
 1  10  (7.45)

El parámetro  t0 es el valor que toma el residuo después de sustituir 1 por el


valor inicial 10 en (7.44). Esto implica que se requiere un valor inicial de este parámetro.

 t
En este caso se tiene que   t 1 , por lo que se cumple:
1

 t   t0  1  10   t01 (7.46)

Luego, reemplazando xt   t01 y zt   t0  10 t01 se obtiene:

zt  1 xt   t (7.47)

La expresión (7.47) es una ecuación de regresión lineal que se puede estimar


directamente mediante MCO. Luego, la estimación ˆ1 constituye la primera iteración del
proceso. Este valor se utiliza para realizar una segunda iteración, como valor inicial, y así
sucesivamente hasta que ˆ1h  ˆ1h 1   .

En el caso de un MA(2) la aproximación en series de Taylor sería:

 t 10 , 20   t 10 ,10 


t   t
0

1
1  1
0
  2
 2   20  (7.48)

 t  t
donde   t 1 y   t  2 . Luego se obtiene:
1  2

 t   t0   t01 1  10    t0 2  2   20  (7.49)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-167

Reemplazando xt1   t01 , xt2   t0 2 y zt   t0  10 t01   20 t0 2 se obtiene:

zt  1 xt1   2 xt2   t (7.50)

Este método se puede extender para cualquier proceso MA(q) y ARMA(p,q):

Yt    1Yt 1  2Yt  2  ....   pYt  p   t  1 t 1   2 t  2  ....   q t  q (7.51)

Suponiendo que   0 se obtiene:

p  t  0 , 0  q  t  0 , 0 
t    
t
0

i
     
i i
0

 j
 j   j0  (7.52)
i 1 j 1

En este caso habrá que estimar un total de p + q parámetros, para lo cual se


aplican los procedimientos ya expuestos.

Para efectuar contrastes estadísticos, en la iteración final se calcula la


estimación de la matriz de varianzas y covarianzas de los estimadores mediante la
expresión:

ˆtT ˆt
X X 
1
V  ,    T
(7.53)
T  p  q 

El procedimiento iterativo no siempre es convergente. Si se produce


divergencia el modelo se puede volver a estimar una o más veces, utilizando diferentes
pronósticos iniciales, con la esperanza de obtener convergencia.

Puede también producirse por una mala especificación del modelo, es decir,
que no sea el que mejor representa la estructura del proceso estocástico que generó la
serie temporal objeto de análisis.

En este caso, habría que elegir una nueva especificación. La convergencia del
proceso de estimación puede que sea más rápida si el pronóstico inicial es bueno. Para
obtener valores iniciales de los parámetros  ,  pueden utilizarse las estimaciones
realizadas para la FAS y FAP.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-168

7.6 Pronósticos con Procesos MA(q)

Mientras Yt sea estacionario en covarianzas, podemos expresar la


información disponible en el tiempo en función de valores y choques presentes y pasados:

T  YT ; YT 1 ; YT  2 ;....; T ; T 1;  T  2 ;.... (7.54)

A partir de la información T , se desea estimar el pronóstico óptimo de Y en


algún instante de tiempo futuro T + h. El pronóstico óptimo es aquel que minimiza la
pérdida esperada.

El pronóstico óptimo, bajo estacionariedad débil, es la esperanza condicional


E YT  h T  , es decir, el valor esperado del valor futuro de la serie que se pronostica,
condicionado a la información disponible.

Supongamos un modelo MA(2):

Yt   t  1 t 1   2 t  2 (7.55)

con  t  N  0;  2  ; nos encontramos en T y queremos pronosticar para T + 1. Primero,


formulamos el proceso para T + 1:

YT 1   T 1  1 T   2 T 1 (7.56)

Luego, proyectamos sobre el conjunto de información en el tiempo T, lo cual


implica reemplazar todas las innovaciones futuras por cero:

YˆT 1 T  1 T   2 T 1 (7.57)

Para pronosticar dos etapas futuras observamos que:

YT  2   T  2  1 T 1   2 T (7.58)

YˆT  2 T   2 T (7.59)

Al continuar de esta forma vemos que:

YˆT  h T  0 h2 (7.60)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-169

Ahora calculemos los errores de pronóstico correspondientes. Para ello, se


debe recordar que el error de pronóstico es simplemente la diferencia entre el valor real y
el pronosticado, es decir, ˆT  h T  YT  h  YˆT  h T . Por lo tanto:

ˆT 1 T   T 1 RB (7.61)

ˆT  2 T   T  2  1 T 1 MA(1) (7.62)

ˆT  h T   T  h  1 T  h 1   2 T  h  2 h2 MA(2) (7.63)

Finalmente, la varianza del error de pronóstico es:

V  ˆT 1 T    2 (7.64)

V  ˆT  2 T    2 1  12  (7.65)

V  ˆT  h T    2 1  12   22  h2 (7.66)

Notar que en h  2 la varianza del error es la varianza no condicional de Yt .

Analicemos ahora el caso general del modelo MA(q). El modelo es:

Yt   t  1 t 1   2 t  2  ....   q t  q (7.67)

Si h  q , el pronóstico tiene la forma (análogo al caso MA(2)):

YˆT  h T  0  " ajuste " (7.68)

Si h  q , el pronóstico tiene la forma:

YˆT  h T  0 (7.69)

De esta forma, un proceso MA(q) no es pronosticable más de q períodos


adelante. Toda la dinámica del proceso MA(q), que se aprovecha para pronosticar, se
desvanece cuando llegamos al horizonte q.

Ello es un reflejo del comportamiento de la función de autocorrelación de un


MA(q), la cual se va a cero después del rezago q.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-170

Por otra parte, los errores de pronóstico son los siguientes:

ˆT  h T  MA  h  1 hq (7.70)

ˆT  h T  MA  q  hq (7.71)

Luego, el error de pronóstico a h etapas, cuando h  q , es justamente el


mismo proceso menos su media.

Finalmente, veamos la varianza del error de pronóstico:

V  ˆT  h T   V Yt  hq (7.72)

V  ˆT  h T   V Yt  hq (7.73)

Notar que la varianza del error de pronóstico cuando h  q dependerá del


número de períodos h a futuro que queramos predecir.

Ahora construiremos los intervalos de confianza. Dado que


ˆT  h T  YT  h  YˆT  h T , el valor futuro será entonces el pronóstico más el error:

YT  h  YˆT  h T  ˆT  h T (7.74)

Si las innovaciones se distribuyen en forma normal, el valor futuro de la serie


también tiene forma normal, condicional al conjunto de información disponible en el
período en el cual se emitió la información disponible.

Luego, el intervalo del pronóstico a un 95% de confiabilidad es:

YˆT  h T  1,96 V  ˆT  h T  (7.75)

Por lo tanto, se obtiene la siguiente función de densidad de pronóstico a h


etapas futuras:


YˆT  h  N YT  h T ;V  ˆT  h T   (7.76)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-171

Figura 7.4
Pronóstico de un MA(1)
2

1.5

0.5

Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior

-0.5

-1

-1.5

-2
Tiempo

Sin embargo, hasta ahora se han considerado conocidos los valores de los
parámetros y de las innovaciones. En la práctica se deben estimar (ver sección 8.5), y
luego utilizar las mismas ecuaciones pero con los estimadores de los parámetros y los
residuos. Este procedimiento es válido para estimar pronósticos, errores, varianzas e
intervalos.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-172

8 PROCESOS AUTORREGRESIVOS

Representan los valores de una variable durante un instante del tiempo en


función de sus valores precedentes. Un modelo autorregresivo de orden p o AR(p) tiene la
forma siguiente:

Yt    1Yt 1  2Yt  2  ....   pYt  p   t (8.1)

donde  es un término constante y  t es una variable ruido blanco, que representa los
errores del ajuste y otorga el carácter aleatorio a la misma.

8.1 Procesos AR(1)

En este caso, la representación es la siguiente:

Yt    1Yt 1   t (8.2)

Si el proceso es estacionario, entonces E Yt   E Yt 1  y V Yt   V Yt 1  .

8.1.1 Media

La media incondicional es:

E Yt   E Yt 1    (8.3)


    1    (8.4)
1  1

La media condicional es:

E Yt Yt 1   E    1Yt 1 Yt 1     1Yt 1 (8.5)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-173

8.1.2 Varianza

La varianza incondicional es:

V Yt   V Yt 1    0 (8.6)

 2
 0  12 0   2   0  (8.7)
1  12

La varianza condicional es:

V Yt Yt 1   V    1Yt 1   t Yt 1   0  12V Yt 1 Yt 1   V   t Yt 1  (8.8)

V Yt Yt 1   0   2   2 (8.9)

La condición a cumplir para que 0 sea positiva y finita es que 1  1 . En ese


caso el modelo es estacionario en media y varianza.

8.1.3 Autocovarianza

cov Yt , Yt 1   cov Yt 1 , Yt    1 (8.10)

cov Yt , Yt 1   E Yt 1   Yt      E  yt 1  yt  (8.11)

Yt    1Yt 1   t   1  1   1Yt 1   t (8.12)

Yt    1 Yt 1      t  yt  1 yt 1   t (8.13)

 1  E  yt 1  yt   E  yt 1  1 yt 1   t    1E  yt21   E  yt 1 t   1 0 (8.14)

La variable yt-1 está correlacionada con t-1 pero no con t, debido a que ésta
es una variable ruido blanco y no presenta autocorrelación. Por otra parte:

 2  E  yt  2  yt   E  yt  2  1 yt 1   t   (8.15)

 2  1 E  yt 1 yt   E  yt  2 t   1 1  12 0 (8.16)

En general, se tendrá que  k  1k  0 .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-174

8.1.4 Autocorrelación

0
0  1 (8.17)
0

1
1   1 (8.18)
0

2
2   12 (8.19)
0

k
En general, se tendrá que  k   1k . Los valores de la función de
0
autocorrelación son las sucesivas potencias de 1.

La condición 1  1 garantiza que los sucesivos valores k converjan a cero,


por lo que la función de autocorrelación o correlograma puede tener dos aspectos
distintos, dependiendo del signo de 1.

Utilizando el operador de retardos L, podemos establecer de otro modo la


condición de estacionariedad:

Yt    1 LYt   t  Yt 1  1 L      t (8.20)
 
  L

Para que el proceso AR(1) sea estacionario, 1  1 y es equivalente a la


condición de que la raíz del operador polinomial  (L) debe caer fuera del círculo unitario,
es decir:

1
1  1L   0  L 1  1  1  1 (8.21)
1

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-175

Figura 8.1
Correlograma Simple 1 > 0
1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9
Retardo

Figura 8.2
Correlograma Simple 1 < 0
1.5

0.5

0
0 1 2 3 4 5 6 7 8 9

-0.5

-1

-1.5
Retardo

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-176

Figura 8.3
Correlograma Parcial 1 > 0
1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9
Retardo

Figura 8.4
Correlograma Parcial 1 < 0
1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9

-0.2

-0.4

-0.6

-0.8
Retardo

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-177

Figura 8.5
Relación de 2 Procesos AR(1): 1 = 0,4 vs 1 = 0,9
1.5

0.5

phi=0,4
0
phi=0,9

100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
4
7

-0.5

-1

-1.5
Observaciones

Se observa que las fluctuaciones del proceso AR(1) con  = 0,9 son más
persistentes que con  = 0,4, a diferencia del MA(1), que tiene poca memoria.

8.2 Procesos AR(2)

En este caso, la representación es la siguiente:

Yt    1Yt 1  2Yt  2   t (8.22)

8.2.1 Media

E Yt   E Yt 1   E Yt  2    (8.23)


    1  2     (8.24)
1  1  2

8.2.2 Varianza

V Yt   V Yt 1   V Yt  2    0 (8.25)

 0  V  yt   E  yt2   E  yt  1 yt 1  2 yt  2   t    1 1  2 2   2 (8.26)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-178

8.2.3 Autocovarianza

cov Yt , Yt 1   cov Yt 1 , Yt    1 (8.27)

 1  cov Yt , Yt 1   E  yt 1  1 yt 1  2 yt  2   t    1 0  2 1 (8.28)

 2  cov Yt , Yt  2   E  yt  2  1 yt 1  2 yt  2   t    1 1  2 0 (8.29)

En general, se tendrá que  k  1 k 1  2 k  2 .

8.2.4 Autocorrelación

0
0  1 (8.30)
0
1
1      (8.31)
0 1 1 1
2
2   1 1  2 (8.32)
0
k
En general, se tendrá que  k   1  k 1  2  k  2 .
0

Utilizando el operador de retardos L, podemos establecer de otro modo la


condición de estacionariedad:

Yt    1 LYt  2 L2Y   t  Yt 1  1 L  2 L2      t (8.33)


 
  L

Para que el proceso AR(2) sea estacionario la raíz del operador polinomial
(L) debe caer fuera del círculo unitario, es decir:

1   L   L   0  L  1
1 2
2
(8.34)

  12  42
 1
 22
L*   (8.35)
1  12  42

 22

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-179

1 1
Sea G1  y G2  . Si G1  1 y G2  1 entonces G1  G2  G1  G2  1
L1 L2
y además G1  G2  G1  G2  2 .

Como G1  G2  2 y G1  G2  1 , para que un proceso AR(2) sea


estacionario es necesario (aunque no siempre suficiente) que 2  1 y 1  2 .

12
Las raíces serán iguales sólo si 12  42  0  2   . En este caso,
4
1 12
G1  G1  . Luego, si 1  2 , dado que 2   , el modelo resultante es
2 4
estacionario puesto con 1  2  0 .

12
Por otro lado, las raíces serán reales y diferentes si 12  42  0  2   .
4
Puede demostrarse que si G1  1 y G2  1 entonces:

2  1  1 (8.36)

2  1  1 (8.37)

1  2  1 (8.38)

Estas tres últimas condiciones son necesarias y suficientes para que el proceso
AR(2) sea estacionario, incluso cuando las soluciones sean complejas conjugadas.

2

2  1

1  2  1

1
2  1  1

1   2

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-180

8.3 Procesos AR(p)

En este caso, la representación es la siguiente:

Yt    1Yt 1  2Yt  2  ....   pYt  p   t (8.39)

Si el proceso es estacionario, entonces E Yt   E Yt 1   ....  E Yt  p  y


V Yt   V Yt 1   ....  V Yt  p  . Luego:

E Yt   E Yt 1   ....  E Yt  p    (8.40)


    1  2   ....   p     (8.41)
1  1  2  ....   p

La condición de estacionariedad es que las raíces de la ecuación polinomial


(L) estén fuera del círculo unidad:


1   L   L  ....   L   0
1 2

2
p
p
(8.42)
  L

1
Si Li es una raíz de la ecuación polinomial se demuestra que  i , donde
Li
i son las raíces de la denominada ecuación característica:

 p  1 p 1  2 p  2  ....   p 1   p  0 (8.43)

Por tanto, la condición de invertibilidad se puede obtener de forma alternativa


y es que las raíces de la ecuación característica deben ser menores a la unidad en valor
absoluto.

Luego, generalizando:

 0  1 1  2 2  ....   p p   2 (8.44)

 k  1 k 1  2 k  2  ....   p k  p , k1 (8.45)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-181

El sistema de ecuaciones (8.45) para k = 1...p, relaciona las p primeras


autocovarianzas con los parámetros del proceso. Se denominan ecuaciones de Yule-
Walker:

 1  1 0  2 1  ....   p p 1 (8.46)

 2  1 1  2 0  ....   p p  2 (8.47)

.....
 p  1 p 1  2 p  2  ....   p 0 (8.48)

Las ecuaciones de Yule-Walker se pueden expresar en términos de los


coeficientes de autocorrelación dividiendo por 0 ambos miembros:

1  1  0  2 1  ....   p  p 1 (8.49)

 2  1 1  2  0  ....   p  p  2 (8.50)

.....
 p  1  p 1  2  p  2  ....   p  0 (8.51)

Mediante estas ecuaciones se pueden obtener los coeficientes o parámetros


del proceso AR(p) con los datos de los coeficientes de autocorrelación o autocovarianzas.

Si se resuelve sucesivamente el sistema de Yule-Walker bajo la hipótesis de la


serie es un AR(1), AR(2), AR(3), etc., y se toma el último coeficiente de cada uno de los
procesos que corresponde a la función de autocorrelación parcial. Bajo el supuesto de que
p es el orden del proceso autorregresivo, se obtiene que los coeficientes de autocorrelación
parcial serán distintos de cero para retardos iguales o inferiores a p.

En términos matriciales, y considerando que 0  1,  k    k , las ecuaciones


de Y-W pueden escribirse de la siguiente manera:

 1   1 1 ....  p 1   1 
  
  2    1 1  p  2   2 
(8.52)
 ....   ....  ....   .... 
    
  p    p 1  p2 .... 1    p 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-182

Figura 8.6
Correlograma Parcial  > 0
1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9

-0.2
Retardo

Figura 8.7
Correlograma Parcial < 0
1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6 7 8 9

-0.2

-0.4

-0.6

-0.8
Retardo

Los procesos AR son siempre invertibles, pero deben cumplir ciertas


condiciones para que sean estacionarios; notar la dualidad con los procesos MA.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-183

8.4 Estimación de Procesos AR(p)

Un proceso autorregresivo no cumple la hipótesis del modelo clásico de


regresión basada en regresores fijos. Son variables aleatorias puesto que son retardos de
la variable Yt que es aleatoria (ó wt = Yt si corresponde). Sin embargo, en presencia de
errores que no presentan autocorrelación, los estimadores MCO tienen buenas
propiedades (consistencia).

Por el contrario, si el término de error estuviese correlacionado (no fuese ruido


blanco), estos estimadores serían inconsistentes. En este caso, el modelo estaría mal
especificado, puesto que una especificación correcta debe provocar un término de error
con estructura de ruido blanco.

La especificación es la siguiente:

wt    1wt 1  2 wt  2  ....  k wt  k   t (8.53)

w = W +  (8.54)

 w1     1 w0 w1 .... w1 p   1 


       
w  1 w1 w0 .... w2 p  
w 2 ,   1 , W  ,   2
 ....   ....  ....   .... 
       
 wT   k   1 wT 1 wT  2 .... wT  p   T 

Luego, el estimador MCO es simplemente ˆ  W T W  W T w . Si no se


1

incluye la media , simplemente se suprime la columna de unos en W.

8.5 Pronósticos con Procesos AR(p)

Considere un modelo AR(1):

Yt    Yt 1   t   t  N  0; 2  (8.55)

El proceso a una etapa más es:

YT 1    YT   T 1 (8.56)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-184

La proyección por su parte es:

YˆT 1 T    YT (8.57)

El proceso y la proyección en T + 2 son:

YT  2    YT 1   T  2 (8.58)

YˆT  2 T    YT 1 T   2YT   1    (8.59)

El proceso y la proyección en T + h son:

YT  h    YT  h 1   T  h (8.60)

YˆT  h T   hYT   1     2  .....   h 1  (8.61)

Notar que el pronóstico tiende a la media conforme aumente h:


h 

lim YˆT  h T 1
 (8.62)

Luego, no existe información útil del pasado, ni siquiera reciente, a medida


que aumenta el tamaño muestral.

El error de pronóstico, por su parte:

ˆT  h  YT  h  YˆT  h T    YT  h 1   T  h  YˆT  h T (8.63)

ˆT  h   2YT  h  2   1      T  h   T  h 1  YˆT  h T (8.64)

ˆT  h   hYT   1     2  ....   h 1 


(8.65)
  T  h   T  h 1   2 T  h  2  ....   2 h 1 T 1  YˆT  h T

ˆT  h   T  h   T  h 1   2 T  h  2  ....   2 h 1 T 1 (8.66)

y su varianza:

V  ˆT  h    2 1   2   4  ....   2 h  2  (8.67)

Notar que la varianza se incrementa conforme aumenta h, pero converge.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-185

Figura 8.8
Pronóstico de un AR(1)
5

4.5

3.5

Proceso
2.5 Cota Superior
Cota Inferior

1.5

0.5

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo

8.6 Regla de la Cadena Para Pronosticar AR(p)

Dado que cualquier proceso AR(p) estacionario en covarianza puede ser


expresado como un MA de orden infinito, no hay necesidad de técnicas especiales para
pronósticos autorregresivos.

Sin embargo, existe un método muy sencillo para calcular el pronóstico óptimo
de modelos autorregresivos, conocido como regla de la cadena para pronosticar.

Primero se construye el pronóstico óptimo a una etapa, y luego se construye el


óptimo a dos etapas, que depende del óptimo a una etapa ya calculado. Después se
estima el pronóstico a tres etapas, el que depende del pronóstico a dos etapas ya
calculado, y así sucesivamente.

El proceso a una etapa más es:

YT 1  YT   T 1 (8.68)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-186

La proyección por su parte es:

YˆT 1 T  YT (8.69)

El proceso y la proyección en T + 2 son:

YT  2  YT 1   T  2 (8.70)

YˆT  2 T  YT 1 T (8.71)

El proceso y la proyección en T + 3 son:

YT 3  YT  2   T 3 (8.72)

YˆT 3 T  YT  2 T (8.73)

Continuando de esta forma, se pueden formular pronósticos para todos y cada


uno de los períodos futuros. Notar que para un AR(1) se necesita el valor más reciente de
Yt, mientras que para un proceso general AR(p) se necesitan los p valores más recientes.

8.7 Dualidad entre Procesos AR y MA

 En un modelo AR(p) el término t puede representarse como una combinación finita


de Yt , Yt 1 ,....., Yt  p . Análogamente, Yt puede expresarse como una combinación
infinita de  t ,  t 1 ,  t  2 ,.....

En un modelo MA(q) Yt puede expresarse como una combinación finita de


 t ,  t 1 ,  t  2 ,.....,  t  q y el término t puede representarse como una combinación
infinita de Yt , Yt 1 , Yt  2 ,..... .

 En un modelo AR(p) no se requiere ninguna condición sobre los parámetros i para


que el proceso sea invertible; sin embargo, cada raíz L del polinomio (L) debe
estar fuera del círculo unitario para que el proceso sea estacionario.
En un modelo MA(q) no se requiere ninguna condición sobre los parámetros i para
que el proceso sea estacionario; sin embargo, cara raíz L del polinomio (L) debe
estar fuera del círculo unitario para que el proceso sea invertible

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-187

 La FAS de un proceso MA(q) se anula para retardos superiores a q; sin embargo, la


FAP es infinita y está dominada por una combinación lineal de oscilaciones
armónicas, exponenciales amortiguadas y productos de dichos términos por
potencias de k.

Recíprocamente, la FAP de un proceso AR(p) se anula para retardos superiores a p,


sin embargo, la FAS es infinita y está dominada por una combinación lineal de
oscilaciones armónicas, exponenciales amortiguadas y productos de dichos términos
por potencias de k.

8.8 Procesos ARMA(p,q)

Un modelo mixto con componente autorregresiva y con componente de


medias móviles se denomina ARMA (p,q), donde p es el orden de la parte autorregresiva y
q el de la parte de medias móviles:

Yt    1Yt 1  2Yt  2  ....   pYt  p   t  1 t 1   2 t  2  ....   q t  q (8.74)

  L
  L  Yt    L   t  Yt   (8.75)
  L t

La condición de estacionariedad es que las raíces de la ecuación


característica (L) = 0 estén fuera del círculo unidad. La condición de invertibilidad es que
las raíces de la ecuación (L) = 0 estén fuera del círculo unidad.

Lógicamente, en un proceso ARMA (p,q) tanto la FAS como la FAP tienen


infinitos elementos distintos de cero.

Para estimar modelos ARMA se utiliza el criterio de máxima verosimilitud. La


función de verosimilitud se obtiene de la siguiente forma. Supongamos que Yt evoluciona
en el tiempo de acuerdo con un proceso estocástico ARMA gaussiano cuya esperanza
incondicional es nula para todo t; esto implica que la función de verosimilitud de la muestra
condicionada a los valores de los parámetros del modelo es:

 1 
f Y ,  , ,  2    2 
n 2 1 2
 exp   Y T  1Y  (8.76)
 2 

donde:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-188

: Vector de dimensión p x 1 que contiene todos los parámetros de la parte


autorregresiva del modelo.

: Vector de dimensión q x 1 que contiene todos los parámetros de la parte media móvil
del modelo.

: Matriz de varianzas-covarianzas de Yt, de dimensión n × n. En general, los elementos


de esta matriz serán función de los parámetros  y 2 del modelo.

Transformando logarítmicamente la expresión anterior, tras simplificaciones


algrebraicas, se obtiene la función:

L Y ,  , ,  2    ln   Y T  1Y (8.77)

Consecuentemente, el problema de estimación por máxima verosimilitud


queda reducido a buscar los valores de  y 2 que minimizan la función anterior,
sustituyendo en cada caso la matriz  por su expresión analítica correcta.

Supongamos, por ejemplo, que Yt evoluciona en el tiempo de acuerdo con un


modelo invertible de medias móviles de orden 1: Yt   t   t 1 ,   1 y  t  N  0,  2  .
Por los resultados anteriores, sabemos que la matriz  tendrá la forma:

1   2  .... 0 
 
2   1 2 0 
  (8.78)
 ....  .... 
 
 0 0 .... 1   2 

Por otra parte, si Yt evoluciona en el tiempo de acuerdo con un modelo AR(1)


estacionario Yt  Yt 1   t ,   1 y  t  N  0,  2  , por resultados anteriores, sabemos
que:

 1  ....  n 1 
 
2   1  n2 
 (8.79)
1    ....  .... 
 n 1 
  n  2 .... 1 

En el contexto de modelos ARMA, las condiciones de primer orden del


problema de optimización dan lugar a un sistema de ecuaciones no lineales. Por ello, es

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-189

necesario recurrir a técnicas numéricas para resolverlas de forma aproximada, lo que


provoca una serie de problemas:

 Soluciones no exactas: Los procedimientos que se utilizan para resolver estos


problemas generan una secuencia de soluciones tentativas que, idealmente, deben
converger a la solución óptima. En la práctica, el proceso se interrumpe cuando la
solución obtenida es "suficientemente buena", lo cual introduce un cierto grado de
arbitraridad en el proceso de estimación.

 Posibilidad de convergencia fuera del óptimo global: El proceso iterativo


de búsqueda puede converger a un óptimo local o, incluso, a una región "plana" de
la función de verosimilitud, creada por un problema de identificación paramétrica
análogo al de colinealidad.

 Posibilidad de acumulación de errores de redondeo: Puesto que los


procesos de cálculo se desarrollan con una precisión finita, es posible cometer
errores de redondeo capaces de abortar la secuencia de cálculos (provocando, por
ejemplo, una división por cero) o dar lugar a una convergencia alejada del óptimo.

8.9 Pronósticos de Modelos ARMA(p,q)

Consideremos un proceso ARMA estacionario en covarianza. Como en el


caso de los procesos AR(p), siempre se puede convertir un proceso ARMA en uno de
medias móviles de orden infinito, y luego utilizar las técnicas de dichos procesos para
pronosticar (ver Capítulo 8).

Sin embargo, se dispone de un método más sencillo que combina las


metodologías consideradas para los MA y los AR.

El proceso en el futuro es:

YT  h  1YT  h 1  2YT  h  2  ....   pYT  h  p   T  h  1 T  h 1   2 T  h  2  ....   q T  h  q (8.80)

En el lado derecho hay varios valores futuros de Y y de , y quizás también


algunos valores pasado (depende de los valores de h, p y q).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-190

Se debe reemplazar todo el lado derecho por su proyección sobre el conjunto


de información en el tiempo T. Es decir, se sustituyen todos los valores futuros de Y por sus
pronósticos (obtenidos recursivamente por regla de la cadena) y todos los , también por
sus pronósticos óptimos.

YˆT  h T  1YˆT  h 1 T  2YˆT  h  2 T  ....   pYˆT  h  p T  ˆT  h T


(8.81)
 1ˆT  h 1 T   2ˆT  h  2 T  ....   qˆT  h  q T

Por ejemplo, para una ARMA(1,1):

Yt  Yt 1   t   t 1 (8.82)

El proceso en el tiempo T + 1 es:

YT 1  YT   T 1   T (8.83)

Al proyectar el lado derecho sobre T se obtiene:

YˆT 1 T  YT   T (8.84)

El proceso en el tiempo T + 2 es:

YT  2  YT 1   T  2   T 1 (8.85)

Al proyectar el lado derecho sobre T se obtiene:

YˆT  2 T  YˆT 1 T (8.86)

Sustituyendo el pronóstico a una etapa ya calculado se obtiene:

YˆT  2 T   2YT   T (8.87)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-191

8.10 Procesos ARIMA(p,i,q)

Hasta este momento se han tratado procesos estacionarios. Sin embargo, las
series de datos económicos suelen caracterizarse por ser no estacionarias: nótese la simple
observación de una tendencia creciente en el tiempo o de unas fluctuaciones que crecen en
tamaño con el paso del tiempo, como, por ejemplo, puede ocurrir con el precio de algunos
activos financieros.

Muchas series económicas se convierten en aproximadamente estacionarias


después de aplicar diferencias en una ó más etapas. Lo que se hace en tales situaciones es
trabajar con la serie en diferencias especificando y estimando un modelo para ellas.

Una predicción con estas series hay que traducirla a una predicción para la
serie origen, en cuyo análisis está interesado el investigador.

 Diferencias de orden uno o de primer orden o primeras diferencias:

Yt  Yt  Yt 1 (8.88)

 Diferencias de orden dos o segundas diferencias: se aplican primeras


diferencias a la serie ya diferenciada una vez.

  Yt    2Yt  Yt  Yt 1  Yt  2Yt 1  Yt  2 (8.89)

Un ejemplo de proceso estocástico o aleatorio no estacionario es el


denominado paseo o camino aleatorio:

Yt  Yt 1   t (8.90)

Yt    Yt 1   t (8.91)

donde t es ruido blanco. Este es un proceso no estacionario en varianza, ya que:

Yt  Yt 1   t  Yt  2   t 1   t  Yt 3   t  2   t 1   t  ..... (8.92)

N
Yt    t  k (8.93)
t 0

V Yt   N 2 (8.94)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-192

La transformación consiste en tomar primeras diferencias de la variable, con lo


que se produce una nueva serie claramente estacionaria: Yt = Yt - Yt-1 = t, variable que
sigue un proceso ruido blanco, estacionario.

La serie Yt es no estacionaria homogénea de orden d, si la serie wt = dYt es


estacionaria. Entonces, Yt es un proceso autorregresivo integrado de media móvil de orden
(p,d,q) y se denomina ARIMA (p,d,q). Si se aplican diferencias de orden d a Yt se obtiene
un proceso estacionario wt del tipo ARMA (p,q).

8.11 Procesos Estacionales

Hasta el momento solamente hemos considerado procesos estocásticos que no


contenía un componente estacional. Sin embargo, es posible que las variables sometidas
análisis se hayan medido como datos de frecuencia inferior al año y, en
consecuencia, son susceptibles de presentar un componente estacional que tenga un
comportamiento propio.

En este apartado vamos a analizar este tipo de modelos considerando que el


proceso contiene solamente componente estacional. No es el caso más habitual desde el
punto de vista empírico, pero sí que tiene interés desde el punto de vista teórico, en
especial de cara a ofrecer una mejor comprensión de aquellos procesos que combinan un
comportamiento estacional con otro no estacional.

Vamos a comenzar analizando el caso autorregresivo para, a continuación,


estudiar los procesos de medias móviles y, finalmente, los procesos mixtos. A lo largo de las
subsiguientes secciones consideraremos que disponemos datos de frecuencia inferior al
año, en general s, tal que s = 2,4,12 se interpreta como datos de frecuencia bi-mensual,
trimestral o mensuales, respectivamente.

La principal ventaja de utilizar modelos estacionales, es que


mejora el nivel de predicción y además permite aumentar el número de
datos utilizados en el proceso de calibración.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-193

8.11.1 Estacionalidad Mediante Variables Dicotómicas

La utilización de variables Dicotómicas, Dummies o Ficticias, es típicamente


utilizada en la modelación de procesos estacionales. Para cada estación diferentes, que
puede ser un mes, trimestre, semestre, estación del año, e incluso semana, se considera una
variable ficticia. Así, si por ejemplo interesa diferenciar entre meses del año, deben
considerarse 12 variables ficticias; si el análisis fuera a partir de trimestres, debieran
considerarse 4 variables ficticias, etc.

Si el análisis fuera, por ejemplo, considerando las 4 estaciones del año,


tendríamos que definir cuatro variables ficticias: D1, D2, D3 y D4. Así, para la primera
temporada (verano por ejemplo), la variable D1 toma el valor 1, mientras que el resto de
las variables toma el valor cero. Para la segunda temporada, la variable D2 toma el valor
1, y el resto toma el valor cero; análogo para las otras dos temporadas.

De esta forma, el modelo estacional puro considerando s estaciones dentro del


año, es el siguiente:
s
Yt    i Dit   t (8.95)
i 1

Esta última expresión corresponde al modelo más básico, definido únicamente


por una constante, que representa la ordenada en el origen. Sin embargo, cada estación
tiene su propia ordenada en el origen i. Cuando no hay estacionalidad, las i son iguales,
y se pueden eliminar todas las variables ficticias estacionales, para dejar sólo el intercepto
acostumbrado.

Luego, en lugar de incorporar un conjunto de s variables ficticias estacionales,


podríamos incluir sólo (s – 1) variables ficticias y una ordenada en el origen (intercepto).
Entonces, el intercepto representa la variable ficticia de la estación omitida, y
los parámetros i representan el aumento o la reducción en relación a la estación omitida.
Sin embargo, por ningún motivo deben incluirse s variables ficticias
estacionales y también el intercepto. Recordar que incluir el intercepto equivale a
incorporar una variable que siempre toma el valor 1. Si analizamos, la suma de las
variables ficticias por estación también es 1.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-194

Luego, si se incluye el intercepto y todo el conjunto de s variables ficticias, se


produce multicolinealidad perfecta, y los parámetros no son estimables.

El modelo también puede incorporar un término de tendencia determinista de


la siguiente forma:
s
Yt   t    i Dit   t (8.96)
i 1

El pronóstico y la varianza del error de predicción se construyen de manera


análoga a los casos anteriores en que no se consideró estacionalidad.

8.11.2 Procesos Autorregresivos Estacionales

Un proceso autorregresivo estacional de orden p es:

Yt    1Yt  s  2Yt  2 s  ....   pYt  ps   t (8.97)

Este proceso lo podemos expresar en función de un polinomio autorregresivo


de retardos de la siguiente manera:

1   L   L
1
s
2
2s
 ....   p Lps  Yt     t (8.98)

 p  Ls  Yt     t (8.99)

Se observa que existen grandes similitudes entre un autorregresivo estacional y


los modelos autorregresivos comunes. La diferencia principal reside en el hecho de que
aquí las correlaciones no se presentan entre un periodo y el inmediatamente
anterior, sino entre un periodo y s periodos atrás.

8.11.3 Estacionariedad del AR(p) Estacional

Dadas estas semejanzas, los resultados van a ser similares entre sí. Por
ejemplo, la primera cuestión que debemos dilucidar es si el proceso autorregresivo
estacional es estacionario o no. Tomando como referencia un proceso autorregresivo
regular, podemos decir que un proceso autorregresivo estacional será estacionario siempre
que las raíces del polinomio de retardos  p  Ls  estén todas fuera del círculo unidad.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-195

Una vez impuesta la condición de estacionariedad, el cálculo de los


momentos del proceso es similar a lo que hicimos con anterioridad para el proceso AR(p).
Así la media poblacional del proceso es:

E Yt   E Yt  s   ....  E Yt  ps    (8.100)


    1  2   ....   p     (8.101)
1  1  2  ....   p

Resultado es cualitativamente similar al expuesto para un autorregresivo de


orden p no estacional.

Por otra parte, a función de autocovarianzas tiene características similares a la


de un autorregresivo regular. Primero, tiene infinitos valores distintos de 0, no se anula
nunca. Además, los coeficientes son decrecientes, en valor absoluto.

8.11.4 Procesos Medias Móviles Estacionales

Un proceso media móvil estacional de orden q es:

Yt     t  1 t  s   2 t  2 s  ....   q t  qs (8.102)

Este proceso lo podemos expresar en función de un polinomio autorregresivo


de retardos de la siguiente manera:

Yt    1  1 Ls   2 L2 s  ....   q Lqs   t (8.103)

Yt     q  Ls   t (8.104)

Como todo proceso que solamente tiene parte de medias móviles, este
proceso será siempre estacionario. No será, por el contrario, siempre invertible. Para que
cumpla esta característica es necesario imponerle una condición similar a la de los
procesos de medias móviles regulares. Así, un proceso estacional de medias móviles será
invertible cuando las raíces del polinomio autorregresivo de retardos estén todas fuera del
círculo unidad.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-196

El análisis de los momentos de este proceso se hace de forma similar a como


lo hemos venido realizando. En primer lugar, la media poblacional del proceso se obtiene
como:

E Yt    (8.105)

La función de autocorrelación de un proceso estacional de medias móviles


tiene un comportamiento similar al de un proceso regular de medias móviles, pero con la
particularidad de que esta función muestra valores distintos de 0 sólo en las
frecuencias estacionales, esto es, para s = 1, 2, ....., q. El resto de los coeficientes
de la función se anulan.

8.11.5 Identificación de s

La existencia de un componente estacional en la serie puede deducirse del


contraste de Kruskal - Wallis por:

a.) El gráfico de la serie (la serie presenta valores superiores o inferiores al valor medio
anual, los cuales se repiten frecuentemente para determinar periodos al año).

b.) Correlograma muestral de dicha serie (FAM presenta valores elevados en los
retardos correspondientes a los periodos estacionales).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-197

9 PROCESOS ESTOCÁSTICOS NO ESTACIONARIOS

En este Capítulo comenzamos el estudio de los procesos no estacionarios. Un


proceso puede ser no estacionario en la media, en la varianza, en las covarianzas o en
otras características de la distribución de las variables a lo largo del tiempo.

Será no estacionario en la media si el nivel de la serie no es estable en el


tiempo, pudiendo en particular tener tendencia creciente o decreciente. Será no
estacionario en la varianza o en las covarianzas si estas varían con el tiempo.

Vamos a considerar la clase de procesos no estacionarios integrados, que son


procesos no estacionarios en la media, pero que pueden convertirse en estacionarios
tomando diferencias.

9.1 Paseo Aleatorio

Hemos visto que los procesos MA finitos son siempre estacionarios y que los
AR lo son si las raíces de   B   0 están fuera del círculo unidad. Consideremos el AR(l):

Yt    Yt 1   t (9.1)

Si   1 el proceso es explosivo; si   1 el proceso es no estacionario y


tampoco es explosivo, y pertenece a la clase de procesos integrados de orden uno (ya que
su primera diferencia, Yt  Yt 1   t , sí es un proceso estacionario). Este proceso se
denomina paseo aleatorio, y corresponde al más simple de los procesos no estacionarios.

Para calcular la función de autocorrelación de este proceso supondremos que


comienza en t = 0. Entonces, sustituyendo sucesivamente Yt por Yt 1 tendremos:

Yt  t  Y0   t   t 1   t  2  .....  1 (9.2)

De (9.2) se observa que el impacto de los choques no se disipa con el tiempo,


a diferencia del caso estacionario. Procesos de memoria corta suelen ser estacionarios,
mientras que procesos de memoria larga pueden ser no estacionarios.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-198

La media y varianza del proceso (9.2) son:

E Yt     t  Y0 (9.3)

V Yt    2t  V Yt  k    2  t  k  (9.4)

Se observa que la varianza aumenta con el tiempo, lo mismo con la media


cuando   0 . Además se tiene:

cov Yt , Yt  k    2t (9.5)

Luego, la función de autocorrelación es:

cov Yt , Yt  k   2t t
k    (9.6)
V Yt  k  V Yt    t  k    t  t  k 

Si t es grande, los coeficientes de la función de autocorrelacíón serán


próximos a uno y decrecerán muy lentamente con k.

Este proceso puede ser representado por lanzamientos sucesivos de una


moneda, donde la cara recibe el valor +1 y el sello recibe el valor –1.

El pronóstico en este caso (considerando  = 0) para un período más


adelante está dado por:

YˆT 1  E YT 1 T   YT  E   T 1 T   YT (9.7)

Para dos períodos más adelante es:

YˆT  2  E YT  2 T   E YT 1   T  2  (9.8)

YˆT  2  E YT   T 1   T  2   YT (9.9)

Del mismo modo, el pronóstico para h períodos más adelante es también YT .


Sin embargo, aunque el pronóstico Yˆ será el mismo independiente de h, la varianza del
T h

pronóstico crecerá conforme h se haga mayor.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-199

Para un período, el error de pronóstico es:

ˆT 1  YT 1  YˆT 1  YT   T 1  YT   T 1 (9.10)





YT 1 YˆT 1

y su varianza:

V  ˆT 1    2 (9.11)

El error de pronóstico y su varianza para dos períodos es:

ˆT  2  YT  2  YˆT  2  YT 1  T  2  YT  YT  T 1   T  2  YT   T 1   T  2 (9.12)

V  ˆT  2   E   T 1   T  2    E   T21   2 E  T 1 T  2   E   T2 2 


2
(9.13)
 

V  ˆT  2   2 2 (9.14)

Sucesivamente, la varianza del error de pronóstico para h períodos más es:

V  ˆT  h   h 2 (9.15)

De esta forma, el error estándar del pronóstico se incrementa con la raíz


cuadrada de h. Por lo tanto, se pueden obtener intervalos de confianza para los
pronósticos, los que se volverán más amplios conforme aumente el horizonte del
pronóstico.

Un extensión simple de este proceso consiste en agregar una tendencia en la


serie, de tal forma de agregar también una tendencia al pronóstico:

Yt    Yt 1   t (9.16)

YˆT 1  E YT 1 T   YT    E   T 1 T   YT   (9.17)

Para h períodos más adelante es:

YˆT  h  YT  h   (9.18)

Sin embargo, el error de pronóstico y su respectiva varianza será igual que el


caso sin tendencia.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-200

Figura 9.1
Pronóstico de un Paseo Aleatorio Sin Tendencia
3

Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior

-1

-2

-3
Tiempo

Figura 9.2
Pronóstico de un Paseo Aleatorio Con Tendencia
10

Proceso
5 Cota Superior
Cota Inferior

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-201

9.2 Procesos ARIMA

El paseo aleatorio expuesto anteriormente ha sido obtenido admitiendo que la


raíz de la parte AR de los procesos AR(1) es unitaria, con lo que se convierte en no
estacionario.

Esta idea puede generalizarse para cualquier proceso ARMA, permitiendo


una o varias raíces unitarias en el operador AR. Se obtienen entonces procesos del tipo:

1   L   L  ....   L  1  L 
1 2
2
p
p d
Yt  1  1 L   2 L2  ....   q Lq    t (9.19)

  L   d Yt    L   t (9.20)

  L  wt    L   t (9.21)

La serie Yt es no estacionaria homogénea de orden d, si la serie wt   d Yt es


estacionaria. Entonces, Yt es un proceso autorregresivo integrado de media móvil de orden
(p,d,q) y se denomina ARIMA (p,d,q). Si se aplican diferencias de orden d a Yt se obtiene
un proceso estacionario wt del tipo ARMA (p,q).

En esta notación p es el orden de la parte autorregresiva estacionaria, d es el


número de raíces unitarias (orden de integración del proceso) y q es el orden de la parte
media móvil.

El paseo aleatorio es el modelo ARIMA (0,1,0) que se caracteriza porque su


función de autocorrelación simple tiene coeficientes que decrecen lentamente. Todos los
procesos ARIMA no estacionarios tienen esta propiedad general.

En consecuencia, la FAS tendrá coeficientes positivos que se amortiguarán


linealmente y pueden ser distintos de cero incluso para valores altos de k. Esta propiedad
de persistencia de valores positivos en el correlograma (aunque sean pequeños) y de
decrecimiento lineal caracteriza a los procesos no estacionarios.

Sin embargo, la diferenciación de una serie para convertirla en


estacionaria sólo es adecuado cuando nos encontramos ante tendencias
estocásticas, nunca cuando estamos ante tendencias deterministas.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-202

En el caso de tendencia determinista, el procedimiento habitual es de aplicar


sobre la serie original un filtro sencillo: se estima la regresión de la serie no estacionaria Yt
sobre un término de tendencia determinista obteniéndose una estimación de la serie
original Yt : Yˆt  ˆ0  ˆ1t

Luego, es suficiente trabajar con la expresión:


Yt  Yt  Yˆt  Yt  ˆ0  ˆ1t  (9.22)

9.2.1 Identificación de Procesos ARIMA

El objetivo de esta etapa es buscar un proceso ARMA que haya podido


generar la serie temporal, es decir, que se adapte lo mejor posible a las características de
dicha serie. Pero esos procesos son estacionarios, por lo que habrá que efectuar un análisis
de la estacionariedad de los datos.

Para analizar la estacionariedad de una serie, se utilizan los siguientes


instrumentos:

 Representación Gráfica. Si el gráfico de la serie temporal presenta


fluctuaciones cuya amplitud cambia para distintos intervalos del período
muestral, se pensará que el proceso que genera la serie es no estacionario. Lo
mismo sucede cuando la tendencia es creciente o decreciente con el tiempo.

 El Correlograma. El hecho de que la función de autocorrelación simple


decrece muy lentamente al aumentar el retardo, ha demostrado ser una señal
de tendencia no estacionaria. Puesto que en la práctica se dispone de una
realización de un proceso estocástico, podemos obtener los coeficientes de
autocorrelación muestral y, a partir de ellos, el correlograma muestral. Una vez
representado el correlograma muestral, se conoce si la serie es o no
estacionaria.

 Mediante Contrastes de Raíces Unitarias. Son válidos para determinar


si existe tendencia determinística o estocástica; se verán más adelante.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-203

 Gráfico Desviación Típica de la Media. Si conforme crece la media, la


desviación típica aumenta, la varianza del proceso es creciente.

Si la serie temporal no es estacionaria se aplican las transformaciones


adecuadas con objeto de convertirla en estacionaria.

Cuando la serie presente no estacionariedad en media, se suele aplicar


el proceso de diferenciación. Pero, a veces, la toma de diferencias no es suficiente para
obtener series estacionarias en media y en varianza.

Una solución consiste en fijar logaritmos de la serie, teniendo en cuenta que


posteriormente hay que deshacer el cambio de variable. En series económicas que están
afectadas por una fuerte tendencia, suele ser necesario efectuar alguna transformación del
tipo Box-Cox, para obtener una serie estacionaria en varianza.

Una vez estacionaria, se determinará el orden de la parte autorregresiva (p) y


el de la parte de medias móviles (q) del proceso ARMA, que se considere haya podido
generar la serie estacionaria.

Para tal fin se utilizan el correlograma estimado y la función de


autocorrelación parcial estimada. Esta última puede obtenerse de dos formas alternativas,
prácticamente equivalentes: mediante el sistema de Yule-Walker, y mediante el método de
regresión (MCO o MV).

Se puede utilizar el sistema de Yule-Walker para estimar los coeficientes de


autocorrelación parcial a partir de los simples estimados:

ˆ1
ˆ11  ˆ1  (9.23)
ˆ1
 ˆ21   1 ˆ1  ˆ1 
    (9.24)
 ˆ   ˆ1 1  ˆ 2 
 22 
 ˆ31   1 ˆ1 ˆ 2  ˆ1 
    
 ˆ32    ˆ1 1 ˆ1  ˆ 2  (etc.) (9.25)
ˆ  ˆ
 33    2 ˆ1 1  
 ˆ 3 
 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-204

 
Luego, los valores de ˆ11 , ˆ22 , ˆ33 ,...., ˆkk se usan para construir la FAP.

La otra opción para el cálculo de la FAP, consiste en obtener los coeficientes


mediante las siguientes regresiones sucesivas:

Yt  11Yt 1   t (9.26)

Yt  21Yt 1  22Yt  2   t (9.27)

Yt  k 1Yt 1  k 2Yt  2  ....  kk Yt  k   t (9.28)

Las estimaciones ˆkk son la correlación estimada existente entre Yt e Yt  k ,


después de eliminar el efecto de Yt 1 , Yt  2 ,...., Yt  k 1 .

En los modelos AR(p), la FAP presenta los p primeros coeficientes distintos de


cero y el resto nulos. La FAS presenta un decrecimiento rápido de tipo exponencial,
sinusoidal o ambos. En los modelos MA(q), sucede el patrón opuesto: la FAS se anula para
retardos superiores a q y la FAP decrece exponencial o sinusoidalmente.

Sin embargo, la especificación de los modelos ARMA no se ajusta a unas


normas tan bien definidas. Por ejemplo, en un modelo AR(1), la FAP es cero para k >1,
pero esto no ocurre en un ARMA(1,1), pues a la componente AR(1) hay que superponer la
MA(1) cuya FAP converge exponencialmente a cero.

En la práctica, se puede especificar una de las componentes y


analizar sus residuos. Si el modelo considerado es un ARMA (2,1) se
especifica inicialmente la componente AR(2). Se analizarán estos residuos a
través del correlograma y si siguen un MA (1), el proceso completo será un
ARMA (2,1).

Para que una serie sea fácilmente identificable hay que


considerar un tamaño mayor a 50.

El estimador ˆ k de la FAS es una variable aleatoria cuya varianza se estima


de forma aproximada (Barlett, 1946) por:

1 k 1

V  ˆ k   
T
1  2 
i 1
ˆ12 

(9.29)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-205

Con un tamaño muestral suficientemente grande, ˆ k se aproxima a una


distribución normal. Se puede, por lo tanto, construir un intervalo de confianza al 95%,
para contrastar la hipótesis nula de que ˆ k  0 definido por 1,96 V  ˆ k  .

Si los coeficientes muestrales caen dentro del intervalo, se concluye que los
coeficientes de autocorrelación no son significativamente distintos de cero. En la práctica,
esta fórmula permite identificar procesos de media móvil, para los cuales  k se anula a
partir de algún k > q.

Para la FAP, se ha demostrado (Quenouille, 1949) que, en un proceso AR(p):

1
 
V ˆkk  , k  p
T
(9.30)

1
por lo que el intervalo de confianza, al 95%, para contrastar ˆkk  0 es igual a 1,96 .
T

Es posible verificar si una muestra procede de un proceso autorregresivo de un


orden p* dado, comprobando si ˆkk cae dentro del intervalo para todo k > p* (es
significativamente igual a cero).

En la práctica, se utilizan estas técnicas para calcular intervalos de confianza


para todos los coeficientes de autocorrelación parcial estimados, con independencia de
cuál sea el tipo de proceso, que se desconoce de antemano.

También hay que identificar la inclusión o no de término independiente


(constante). La media del proceso está ligada al mismo, por lo tanto, si la media observada
se considera significativamente igual a cero, no se introducirá término independiente en el
modelo.

Esta etapa suele plantear ciertas dificultades y su objetivo consiste, en general,


en la especificación tentativa de unos pocos modelos con estructuras sencillas. La etapa de
estimación y la posterior validación de los resultados confirmarán los indicios o, por el
contrario, servirán de fundamento para la reformulación de los modelos propuestos.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-206

9.2.2 Estimación de Procesos ARIMA

Dado que wt   d Yt  wt  1  L  Yt se puede construir el siguiente modelo


d

ARMA(p,q):

1   L   L
1 2
2
 ....   p Lp  wt  1  1 L   2 L2  ....   q Lq    t (9.31)

El objetivo es la estimación de los parámetros i y  j , para lo cual se dispone


de una muestra de tamaño T de la variable Y. Sin embargo, al tomar las diferencias de
orden d, quedarán sólo (T – d) datos  w1 , w2 ,...., wT  d  .

Es importante insistir en que las hipótesis que se consideran en el proceso de


estimación son:

 El error es ruido blanco gaussiano:  t  N  0,  2  .

 El proceso es estacionario.

 El proceso es invertible.

Debemos obtener estimaciones de los p parámetros autorregresivos y los q


parámetros media móvil. La metodología consiste en elegir los valores de parámetros que
minimizan la suma de diferencias al cuadrado entre la serie de tiempo real wt   d Yt y la
ajustada wˆ t .

De otra forma, podemos escribir la expresión (9.31) en función de los términos


del error gaussiano, considerando eso sí que la parte media móvil es invertible:

  L
  L  wt    L   t   t  w (9.32)
  L t

Considerando los estimadores ˆ y ˆ , la expresión sería:

ˆ  L 
ˆt  wt (9.33)
ˆ  L 

Luego, se debe minimizar la expresión  ˆ


t
t
2
.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-207

Si están presentes los términos de media móvil, esta expresión es no lineal, por
lo que deben utilizarse métodos de estimación no lineales. Adicionalmente, debe emplearse
algún criterio para inicializar la serie (elegir números para los valores iniciales no
observada).

Supongamos que un total de T + d observaciones están disponibles para la


serie estacionaria homogénea de orden d; denotamos esta observaciones como
Y d 1;....; Y0 ; Y1;....; YT  . Después de diferenciar la serie d veces, obtenemos la serie
estacionaria con T observaciones  w1 ;....; wT  . El problema consiste ahora en estimar el
modelo ARMA(p,q) que se ha especificado para la serie wt .

Dado que ˆt es un proceso rudo blanco, la función de log-verosimilitud


condicional asociada al vector de parámetros a estimar es la siguiente:

 t
2

  T ln    t
(9.34)
2 2

Dado que los parámetros a estimar están dentro del segundo término de la
derecha, se obtiene que la estimación por máxima verosimilitud condicionada y mínimos
cuadrados es la misma.

9.2.3 Inicialización de la Serie

Dado que la expresión  ˆ


t
t
2
depende de los valores pasados (está

condicionada) la estimación dependerá por lo tanto de la elección de los valores iniciales


de la serie.

La solución más común para escoger los valores iniciales de la serie


corresponde a establecer que dichos valores iniciales son iguales a sus medias no
condicionales.

Las medias no condicionales de los errores  t son cero siempre, mientras que
si no existe tendencia, la media no condicional de los wt iniciales también será cero. Esto
proporcionará una aproximación inicial adecuada si los valores reales de i
no son cercanos a 1 y si T es grande respecto a p y q.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-208

Un método alternativo es inicializar la serie con las medias condicionales. Sin


embargo, este procedimiento es técnicamente difícil y los beneficios poco importantes. Por
lo tanto, se recomienda inicializar las series en cero. Luego, dado que se
consideraron los valores no condicionales para inicializar la serie, los intervalos van de 1
T
hasta T:  ˆ
t 1
t
2
.

Sin embargo, es importante hacer notar que la estimación no lineal de los


parámetros, producto de la existencia de media móvil, dependerá de manera importante
de los valores con los que se inicialice el proceso iterativo.

Si los valores iniciales están cerca de los verdaderos parámetros, la estimación


será más rápida, pero si los valores iniciales son muy diferentes de los reales, puede que
incluso el procedimiento iterativo de calibración no converja. Para ello, es
factible utilizar la función de autocorrelación muestral. De hecho, pueden utilizarse las
ecuaciones de Yule-Walker como estimaciones iniciales.

Si el modelo contiene una parte MA, se tendrá que las ecuaciones de Yule-
Walker que relacionan la función de autocorrelación con los valores de los parámetros no
será lineal. Ello implica que se pueden obtener soluciones múltiples para un determinado
estimador de la parte MA.

Esto se hace más problemático a medida que aumente q. De hecho, para


obtener estimaciones iniciales para la parte MA(q) es necesario resolver q ecuaciones no
lineales simultáneas.

Notar que los valores de los parámetros estimados con las ecuaciones de
Yule-Walker corresponden a la función de autocorrelación muestral, y son por lo tanto una
estimación de la función de correlación real.

De hecho, para muestras pequeñas la función de autocorrelación muestral


estará sesgada en forma descendente en relación a la función de autocorrelación real.

Después que se ha estimado el modelo, se utiliza algún procedimiento de


verificación diagnóstica para determinar si fue correcta o no la especificación inicial del
modelo calibrado. Para ello, esperaríamos que los residuos ˆt se parezcan a los errores
verdaderos  t , los cuales por suposición no están correlacionados (ruido blanco).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-209

Una vez que el modelo ha pasado la etapa de verificación diagnóstica,


puede entonces utilizarse para predicción.

9.2.4 Validación de Procesos ARIMA

Por otra parte, es interesante comprobar la capacidad de ajuste a los datos


del modelo propuesto y estimado. Si éste no supera satisfactoriamente este paso, es
necesario reformularlo. Cabe decir que los resultados de la comprobación de la validez
del modelo suelen dar insinuaciones para proceder a la especificación de uno diferente.

Algunos análisis de validación del modelo son los siguientes:

a) Análisis de los residuos:

Se parte de la hipótesis de que el término de error de un modelo ARIMA es


ruido blanco. Estos errores son inobservables, pero no ocurre lo mismo con los
residuos. Cualquier contraste sobre la perturbación aleatoria debe basarse en
los residuos del modelo, los cuales deben seguir el comportamiento de un
proceso puramente aleatorio normal. En caso contrario, contendrían
información relevante para la predicción.

Con el objeto de estudiar si los residuos se aproximan al comportamiento de un


proceso ruido blanco, se disponen de las siguientes herramientas:

b) Contraste independencia de Box-Pierce y Ljiung-Box

Está destinado a contrastar la independencia o no autocorrelación de los


residuos. La autocorrelación se mide por los coeficientes de autocorrelación de
los residuos rk .

Notar que  k corresponde a las autocorrelaciones de Yt , mientras que rk está


relacionado a las de  t .

Es un contraste global acerca de la no autocorrelación de los residuos de las


observaciones separadas un número determinado de periodos:
H 0 : r1  r2  ....  rk  0 .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-210

Se utiliza el siguiente estadístico propuesto por Box y Pierce (1970):


m
Q  m   T  rˆt 2   m2  p  q (9.35)
t 1

La elección de m es arbitraria (m = T/4). Cuanto mayor sea mel contraste se


extenderá a desfases mayores, pero la precisión en la estimación de los rk es
menor y disminuye la potencia del contraste, es decir, aumenta la probabilidad
de no rechazar la hipótesis nula cuando es falsa (error tipo 2).

Se rechazará la hipótesis nula si el valor de Q experimental es superior que el


teórico o tabulado de la distribución a un nivel de significación dado.

El estadístico de Ljiung-Box es:


m
rˆt 2
Q  m   T T  2     m2  p  q (9.36)
t 1 T  t

Cuanto mayor sea el nivel de significación crítico mayor confianza podemos


tener para aceptar la hipótesis nula y viceversa: si toma el valor cero, podemos
rechazar la hipótesis nula al 100% de confianza.

c) Representación de la FAS y FAP de los residuos

La serie de residuos es aleatoria si los coeficientes de autocorrelación simple y


parcial son significativamente cero. Anderson (1942) ha demostrado que los
coeficientes de autocorrelación simples muestrales procedentes de un proceso
ruido blanco, siguen asintóticamente la siguiente distribución:

 1
rˆk  N  0,  , k (9.37)
 T

En consecuencia, bajo la hipótesis de que rk  0 , se construye un intervalo de


1,96
confianza al 95% de la forma  . Si algún rˆk cae fuera de los límites, se
T
rechaza la hipótesis de no autocorrelación. En este caso hay evidencia de no
aleatoriedad de la serie.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-211

Además, los errores deberán alternar el signo de su coeficiente de


autocorrelación sin ningún criterio obvio.

También, los coeficientes de la FAP deben ser significativamente cero. En la


práctica se construyen bandas de confianza utilizando la distribución de una
1
variable ruido blanco cuya varianza es según se ha visto anteriormente.
T

Hay que tener en cuenta que esta aproximación realizada sobre la varianza
no es muy adecuada tanto para la FAS como para la FAP, especialmente en
los retardos bajos. Se podría concluir que un coeficiente es estadísticamente no
significativo cuando en realidad lo es.

La FAS y la FAP de los residuos del modelo estimado son instrumentos valiosos
a la hora de reformular el modelo, en caso de que no se comporten como un
proceso ruido blanco.

Supongamos que se ha estimado un AR(1):

Yˆt  ˆ1Yt 1  ˆt  Yt  ˆ1Yt 1 (9.38)

Después de examinar la FAS y la FAP de la serie ˆt , se llega a la conclusión


de que sigue un modelo MA(1), no un proceso ruido blanco : ˆt   t  1 t 1 .

Sustituyendo en el modelo AR (1):

Yt  1Yt 1   t  1 t 1 (9.39)

se puede concluir que Yt es un ARMA(1,1).

d) Representación Gráfica de los residuos

La representación de los residuos en el tiempo permite observar si la varianza


es constante y si la media está próxima a cero. Además, se puede verificar si se
ajustan a una distribución normal y la existencia de residuos atípicos. Un
residuo se considera atípico si el valor absoluto excede en tres o cuatro veces
su desviación típica (siendo su media cero).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-212

Para contrastar la existencia de heteroscedasticidad se puede realizar el


contraste de White (1980). Su hipótesis nula es que el término de perturbación
es homocedástico e independiente de los regresores y que la especificación
lineal es correcta. Para contrastar la normalidad se utiliza el contraste de
Jarque-Bera (1987).

e) Análisis de los Parámetros Estimados

Primero hay que verificar si los parámetros o coeficientes son significativos. El


estadístico de contraste está construido bajo la hipótesis nula de que el
coeficiente es cero y sigue una distribución t-student con T - k grados de
libertad, con k igual al número de parámetros incluidos.

Si concluimos que alguno no es significativo se puede suprimir.

ˆi  i
H 0 : i  0   tT  k (9.40)
 
V ˆi

ˆj   j
H0 : j  0   tT  k (9.41)
 
V ˆj

ˆ  
H0 :   0   tT  k (9.42)
 
V ˆ

La aplicación del contraste anterior requiere un contraste de dos colas, pues la


hipótesis alternativa considera que puede tomar el coeficiente cualquier valor
distinto de cero. Si el valor obtenido es mayor que el teórico tabulado, se
rechaza la hipótesis nula y el parámetro es significativo.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-213

Otro aspecto importante es el examen del cumplimiento de las condiciones de


estacionariedad e invertibilidad. Si alguna de las raíces  L*  de:

1  ˆ1 L  ˆ2 L2  ....  ˆp Lp  0 (9.43)

1  ˆ1 L  ˆ2 L2  ....  ˆq Lq  0 (9.44)

fuesen inferior a la unidad, el modelo se rechazaría.

Si alguna de las raíces de 1  ˆ1 L  ˆ2 L2  ....  ˆp Lp  0 estuviese próxima a


uno, es posible que la serie original esté sub-diferenciada, por lo que puede
que precise alguna diferenciación adicional (raíz unitario, no estacionariedad).

Si alguna de las raíces de 1  ˆ1 L  ˆ2 L2  ....  ˆq Lq  0 está próxima a uno, es
posible que el modelo esté sobre-diferenciado.

Si existen raíces comunes  L*i  L*j  , se podría utilizar para las predicciones un
modelo con dos parámetros menos, y el modelo sería un ARMA(p-1, q-1).

Es conveniente también examinar la matriz de correlación entre los coeficientes


estimados. Cuando la correlación entre dos coeficientes es próxima a uno, los
coeficientes estimados son muy inestables, con lo que podrían cambiar
bastante de una muestra a otra.

El modelo estimado para el período muestral puede diferir del que se obtendría
para los períodos de predicción. Puede existir este problema siempre que
alguna de las correlaciones entre estimadores tome un valor superior a 0,6.

Para evitar este problema, puede ser eficaz eliminar algún parámetro aún a
costa de que el grado de ajuste sea más pequeño. No obstante, si todos los
coeficientes son significativos no sería aconsejable eliminar coeficientes del
modelo.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-214

f) Análisis de Bondad de Ajuste

Es factible usar el R 2 y el R 2 ajustado  R 2  . El coeficiente de determinación


ajustado penaliza la introducción de parámetros adicionales en el modelo. Si
se introducen parámetros adicionales, aunque no sean apropiados, pueden
incrementar el R 2 . Para evitar este problema se suele utilizar el coeficiente
ajustado.

El modelo se ajusta en mayor medida a los datos cuanto más próximos a la


unidad estén los coeficientes de determinación. Pero sólo son comparables
en modelos en los que se hayan tomado idéntico número de
diferencias, debido a que, para que este sea un elemento de comparación
directa, la varianza de la variable debe ser la misma.

Si se calcula el coeficiente de determinación R 2 con la varianza de la variable


diferenciada una vez, el resultado no será comparable con el calculado a
partir del ajuste a un modelo sobre la variable original.

Para paliar el anterior inconveniente, se han propuesto medidas alternativas


destacando el estadístico AIC (Akaike Information Criterion), formulado por
Akaike (1974). Consiste en seleccionar aquél modelo para el que se obtenga
un AIC más bajo. Otra medida es SC (Schwarz Criterion) y cuanto menor sea
éste, mejor es el ajuste.

g) Análisis de Estabilidad

La construcción de un modelo ARIMA está justificada por su utilización para la


predicción. Conviene saber entonces si el modelo estimado para el período
muestral sigue siendo válido para períodos futuros.

Se pretende contrastar si el último tramo muestral ha estado generado por la


misma estructura que el resto de las observaciones.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-215

Para esta finalidad se puede aplicar el contraste de estabilidad estructural de


Chow:

 T 2  T1 2 T2 2  
  ˆt    ˆ1t   ˆ2t   k
 t 1 
F T
t 1 t 1
 F k ,T  2 k  (9.45)
 1 2 T 2
2 
  ˆ1t   ˆ2t  T  2k 
 t 1 t 1 

donde k es el número de parámetros a estimar, T  T1  T2 , ˆt es el residuo


del modelo utilizando todo el período muestral, ˆ1t es el residuo utilizando los
T1 primeros datos, y ˆ2t es el residuo utilizando los T2 últimos datos.

Algunos autores aconsejan tomar como segundo tramo muestral un tercio o un


cuarto de la muestra. Si la F calculada o experimental es mayor que la
tabulada o teórica a un determinado nivel de significación, se rechaza la
hipótesis de estabilidad estructural.

9.2.5 Predicción con Procesos ARIMA

Una vez que el modelo ha sido estimado y sometido a la fase de diagnosis, se


convierte en un instrumento útil para la predicción. Sea el modelo estimado ARMA(p,q),
para la serie wt , siendo la serie original Yt un proceso ARIMA(p,d,q). Se trata de predecir
los valores para la serie no estacionaria Yt , una vez se haya realizado para la serie wt
estacionaria.

Por ejemplo, si wt  Yt  Yt 1 , donde wt es estacionaria, la estimación de esta


serie para el período T + 1 es wˆ T 1 . Luego, la correspondiente predicción de YˆT 1 está
dada por Yˆ  wˆ  Y . Si hubiera sido una aplicación de segundo orden
T 1 T 1 T

 wt  Yt  2Yt 1  Yt 2  , la predicción sería entonces YˆT 1  wˆ T 1  2YT  YT 1 .

La mejor predicción puntual es aquélla que se obtiene mediante la esperanza


matemática condicional a toda la información disponible hasta el período de predicción. La
expresión de este predictor es la siguiente:

YˆT 1  E YT 1 YT , YT 1 ,...., Y0  (9.46)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-216

YT 1    1YT  2YT 1  ....   pYT  p 1   T 1  1 T   2 T 1  ....   q T  q 1 (9.47)

Tomando esperanzas condicionadas, se obtiene:

YˆT 1    1YT  2YT 1  ....   pYT  p 1  1 T   2 T 1  ....   q T  q 1 (9.48)

donde todas las variables con subíndices inferiores a T+1, dejan de ser aleatorias, por lo
que sus esperanzas matemáticas coinciden con sus realizaciones y E   T 1   0 , por
hipótesis.

Después de obtener YˆT 1 se calcula YˆT  2 , y así sucesivamente. Los  t son


inobservables, por lo que hay que sustituirlos por sus estimaciones, que se obtienen a través
de los sucesivos residuos del modelo.

Si algún residuo no es posible obtenerlo, se considera igual a su media


teórica: cero. Esta solución es aceptable si el proceso es invertible, dado que, en ese caso,
la importancia de los valores iniciales tiende a desaparecer a medida que aumenta el
tamaño muestral.

Cuando dispongamos de los valores observados, se utilizan para efectuar la


predicción; si no se conocen, se utilizan sus estimaciones en períodos anteriores. A medida
que el horizonte de la predicción crece, la predicción por puntos de un modelo ARMA
tiende a la media.

a) Error de Predicción

La predicción de una variable aleatoria como es Yt conlleva incertidumbre,


pues depende de la muestra considerada; entonces aparece un error de
predicción.

Si se conociesen los valores exactos de los coeficientes, cosa imposible en la


mayoría de los casos, sería posible obtener una expresión del error de
predicción como sigue:

ˆt  s  Yt  s  Yˆt  s (9.49)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-217

Escribamos el proceso ARMA, como un proceso de medias móviles de infinitos


términos, mediante sustituciones sucesivas:

Yt    1Yt 1  2Yt  2  ....   pYt  p   T 1  1 t 1   2 t  2  ....   q t  q (9.50)

Yt     t   1 t 1   2 t  2   3 t 3  .... (9.51)

Yt  s     t  s   1 t  s 1   2 t  s  2  ....   s 1 t  s  s 1   s  j t  j (9.52)
j 0

La predicción Yˆt  s se puede basar únicamente en la información disponible


hasta el período t.

Escribimos la predicción como una suma ponderada de los términos de error


que podemos estimar:

Yˆt  s    ˆ s  j  t  j (9.53)
j 0

donde las ponderaciones ˆ s  j se elegirán de manera que minimicen el Error


Cuadrático Medio de predicción. Luego, y considerando (9.52) y (9.53), el
error de predicción es:

ˆt  s  Yt  s  Yˆt  s (9.54)


ˆt  s   t  s   1 t  s 1   2 t  s  2  ....   s 1 t  s  s 1    s  j ˆ s  j   t  j (9.55)
j 0

El error cuadrático medio de predicción, considerando que E   i ,  j   0 es de


la forma:

E  ˆt  s     2 1   12   22  ....   s21    2   s  j  ˆ s  j 
2 2
(9.56)
  j 0

Dado que el error cuadrático medio se minimiza cuando  s  j  ˆ s  j ,


finalmente se obtiene:

ˆt  s   t  s   1 t  s 1   2 t  s  2  ....   s 1 t  s  s 1 (9.57)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-218

V  ˆt  s   E  ˆt  s     2 1   12   22  ....   s21 


2
(9.58)
 

El uso más importante de los errores de predicción es la construcción de


intervalos de confianza para la predicción. El intervalo de predicción para el
pronóstico de Y es, al 95%, Yˆ  1,96 1   2   2  ....   2  .
t s t s  1 2 s 1

El cálculo de los parámetros  i se obtiene a partir de las siguientes relaciones:

  L  Yt    L   t  Yt    L    L   t    L   t
1
(9.59)

  L

b) Capacidad de Predicción

Podemos verificar si el modelo sigue siendo válido para los períodos de


predicción, una vez se ha comprobado su validez para el periodo muestral.

Para ello, es utiliza el siguiente estadístico:


h

 ˆ 2
t  s 1 t  s
s 0
  h2 (9.60)
ˆ 
2

Donde ˆt2 s 1 t  s es el error de predicción de Yt  s 1 utilizando la información

disponible en el momento (t + s) y ˆ  2

 ˆ t
2

, con k el número de
T k
parámetros del modelo (k = p + q).

Si el valor calculado en
¡Error! No se encuentra el origen de la referencia. supera al
tabulado, habrá diferencias significativas entre los verdaderos valores y los
estimados, por lo que se rechazará la hipótesis nula de estabilidad.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-219

9.3 Orden de Integración de una Serie: Métodos No Paramétricos

El orden de integración se puede determinar de diversas formas. Una de ella


es el uso de métodos no paramétricos.

Estos métodos tienen la ventaja de que no es necesario formular ninguna


hipótesis ni calcular la distribución de un estadístico bajo dicha hipótesis. Por contra, suelen
ser bastante subjetivos y no tan fiables como los métodos paramétricos. En cualquier caso,
siempre pueden darnos pistas sobre el orden de integración de la variable.

Es recomendable considerar estos métodos no paramétricos


antes de calibrar los modelos.

En esta sección vamos a considerar tres métodos alternativos: estudio de la


función de autocorrelación, sobrediferenciacón de la serie y estudio de la
varianza para diversos órdenes de integración. No es conveniente utilizarlos de
forma separada, sino que lo más habitual es usarlos conjuntamente.

9.3.1 Análisis de la Función de Autocorrelación

Supongamos que tenemos un proceso autorregresivo de orden 1. Su función


de autocorrelación es igual a  k  1k . Esta función de autocorrelación decae hacia 0,
pero sólo se anula en el infinito.

Entonces, el decaimiento que se observa en la función de autocorrelación de


la variable depende del valor del parámetro 1 . Si este toma, por ejemplo, un valor igual a
0.5, entonces para k = 5 el coeficiente de la función de autocorrelación es igual a 0.03. Si
1  0.8 , entonces 5  0.33 , mientras que la función de autocorrelación toma el valor
0.03 cuando k = 16.

Esto conlleva que cuanto mayor es el valor del parámetro


autorregresivo más lenta es la convergencia hacia 0 de la función de
autocorrelación.

Si consideramos el caso límite, 1  1 , en el que el proceso no es estacionario,


la función de autocorrelación debería expresar un decaimiento muy lento hacia 0, con
abundantes valores distintos de 0.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-220

Figura 9.3
Correlogramas Para Distintos Procesos
1.2 1.2

1 1

0.8 0.8
rho(k)

rho(k)
0.6 phi = 0.5 0.6 phi = 0.8

0.4 0.4

0.2 0.2

0 0
0

10

12

14

16

18

20

22

24

26

28

30

32

34

36

38

40

42

44

46

48

50

10

12

14

16

18

20

22

24

26

28

30

32

34

36

38

40

42

44

46

48

50
k k

1.2 1.2

1 1

0.8 0.8
rho(k)
rho(k)

0.6 phi = 0.9 0.6 phi = 0.99

0.4 0.4

0.2 0.2

0 0
0

10

12

14

16

18

20

22

24

26

28

30

32

34

36

38

40

42

44

46

48

50
0

10

12

14

16

18

20

22

24

26

28

30

32

34

36

38

40

42

44

46

48

50

k k

El problema que presenta este procedimiento es su subjetividad. No queda


claro cuándo podemos considerar que el primer valor del coeficiente de autocorrelación
está suficientemente próximo a la unidad, ¿basta con 0,7 o tiene que ser igual a 0,9999?;

Tampoco queda claro cuándo el valor está próximo a 0, ni cuánto valores de


la función de autocorrelación deben ser distintos de 0 para considerar que el decaimiento
hacia 0 es lento.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-221

9.3.2 Sobrediferenciación

La justificación de este método es la siguiente. Supongamos que tenemos un


proceso estacionario, un ruido blanco por ejemplo: Yt   t . Si tomamos primeras
diferencias, entonces el modelo se convierte en:

Yt  Yt 1   t   t 1  1  L  Yt  1  L   t (9.61)

y que es igual a:

Yt   t  1 t 1 (9.62)

Esto lo podemos interpretar diciendo que la variable Yt sigue un proceso


MA(1) no invertible con parámetro 1  1 . Esta no invertibilidad nos está indicado que el
proceso está sobre diferenciado.

Si tomamos en consideración ahora la forma que adopta la función de


autocorrelación de un MA(1), es directo comprobar que el primer valor de esta función
será igual a:

1 1
1    0,5 (9.63)
1  1 1  1
2

y el resto de los valores serán iguales a 0.

A partir de este resultado particular, podemos sacar la conclusión para el caso


general y decir que si la serie que estamos analizando está sobrediferenciada,
su función de autocorrelación exhibe un comportamiento de medias
móviles con primer valor de la función de autocorrelación próximo a –0,5.

Entonces, el proceso a seguir es el siguiente.

 En primer lugar debemos estudiar la función de autocorrelación simple (FAS)


de la serie en niveles Yt  .

 Si tenemos dudas sobre el decaimiento lento hacia 0, entonces debemos


calcular la FAS para la variable diferenciada  Yt  .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-222

 Si ésta presenta un comportamiento similar al de un MA(1), con su primer


coeficiente próximo a –0,5 podemos concluir que está sobrediferenciada y
concluir que la variable es estacionaria en niveles (valores originales de la
serie sin diferenciar). En caso contrario, es posible concluir que la serie es
integrada.

9.3.3 Análisis de la Varianza

Un método asociado al caso anterior es el estudio de la varianza de la


variable para diversos órdenes de integración. La justificación del método es la siguiente.
Supongamos que la variable está generada por un paseo aleatorio Yt  Yt 1   t . La
varianza de la variable Yt es igual a V Yt   t 2 .

Por tanto, es una varianza que tiene hacia infinito. Si tomamos primeras
diferencias, el modelo anterior nos queda de la siguiente manera:

Yt   t (9.64)

Por tanto, es inmediato comprobar que la varianza de la variable en primeras


diferencias es V  Yt    2 .

Por último, si sobrediferenciamos la variable anterior, el modelo queda así:

 2Yt   2 t   t   t 1 (9.65)

de lo que se desprende que V  Yt   V   t   t 1   V   t   V   t 1   2 2 .

En virtud de estos resultados, el procedimiento a seguir sería obtener la


varianza de la variable que estamos analizando para diversos valores del parámetro de
diferenciación d. El orden de integración seleccionado sería aquel para el que
la varianza de la variable se minimiza.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-223

10 RAÍCES UNITARIAS Y COINTEGRACIÓN

Los métodos de estimación que se usan habitualmente en los trabajos


económicos aplicados suponen que las medias y varianzas de las variables son constantes,
bien definidas e independientes del tiempo. Sin embargo, estas suposiciones no son
satisfechas por un gran número de series temporales de tipo económico. Las variables
cuyas medias y varianzas cambian a lo largo del tiempo se dicen no estacionarias o con
raíces unitarias. Utilizar métodos clásicos de estimación como MCO para
estimar relaciones con variables no estacionarias produce inferencias
erróneas.

Si las medias y varianzas de las variables “raíz unitaria” cambian a lo largo


del tiempo, todos los estadísticos computados en un modelo de regresión,
que usa estas medias y varianzas, también dependen del tiempo y no
convergen a su verdadero valor cuando el tamaño muestral aumenta.
Incluso los contrastes convencionales de hipótesis estarán muy sesgados hacia el rechazo
de la hipótesis nula de no relación entre las variables dependiente e independiente.

La aplicación de técnicas de cointegración y raíces unitarias son


fundamentales para entender los siguientes aspectos:

 Determinar si las variables en una regresión son o no estacionarias.

 Estimar si las variables satisfacen ciertas condiciones. Estas regresiones


de cointegración son las relaciones de equilibrio o a largo plazo entre
esas variables.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-224

10.1 Tendencias Determinísticas y Estocásticas

10.1.1 Tendencia Determinística

En un gran número de ocasiones, las series pueden no presentar componente


tendencial alguno, como es el caso de un proceso autorregresivo puro AR(1) en el que los
coeficientes cumplan las condiciones de estacionariedad:

Yt    1Yt 1   t (10.1)

Definir una tendencia en una serie temporal Yt es extremadamente sencillo.


Por ejemplo, la serie:

Yt     t   t (10.2)

La serie (10.2) presenta obviamente un patrón dominado fundamentalmente


por una tendencia lineal. Este tipo de proceso, se clasifica dentro de aquellos que
vienen definidos por lo que se denomina una tendencia determinista.

Figura 10.1
Proceso con Tendencia Determinista
60

50

40

30

20

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-225

Esta tendencia de tipo determinista puede combinarse con el proceso


autorregresivo presentado en (10.2), para generar otra variedad de proceso con
tendencia determinista que se denomina proceso estacionario sobre una
tendencia. Su expresión sería la siguiente:

Yt     t  1Yt 1   t (10.3)

En este caso, el proceso es dominado por la componente tendencial (para un


valor razonable de la varianza de  t ) por lo que distinguir gráficamente su evolución
temporal de un modelo tendencial determinista puro resulta casi imposible; es decir,
diferenciar (10.2) de (10.3) es muy difícil.

10.1.2 Tendencia Estocástica

Si observamos algunas series en economía, podríamos caer en la tentación de


calificarlas entre aquellas con tendencias deterministas como las observadas hasta aquí. Sin
embargo, desde la teoría económica sería muy difícil justificar una tendencia determinista
de este tipo en cualquiera de las series representadas en el acápite anterior. Aún a pesar
de existir componentes tendenciales importantes desde el punto de vista
teórico, seguramente estos no serían de naturaleza determinista.

Por ejemplo, es muy posible que la productividad tienda a crecer de forma


“natural” en la medida en que, con el paso del tiempo, se va produciendo la mejora
tecnológica de los procesos productivos. También es “natural” que el valor añadido
nominal en determinados productos (como los servicios) tienda a crecer incluso de forma
ligeramente exponencial a medida que una economía va alcanzando ciertos niveles de
desarrollo.

Sin embargo, ambos procesos teóricos no se producirán, con


total seguridad, de una manera invariable, constante, predecible y
determinista, con el paso del tiempo.

Frente a la tendencia determinista surge por tanto la necesidad de definir un


componente tendencial, con efectos permanentes en la evolución de la serie
analizada, pero de naturaleza estocástica. El caso más común es el paseo aleatorio
con deriva:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-226

Yt    Yt 1   t  E Yt     t  Y0 (10.4)

En cualquier caso, es evidente que el paseo aleatorio con deriva resulta


gráficamente muy similar al presentado en (10.2) o en (10.3). Esto explica que,
frecuentemente, se califiquen como deterministas series que, probablemente, presenten un
componente tendencial estocástico.

Solamente para muestras grandes un proceso podrá ser distinguido


del otro en la medida en que, aunque el paseo aleatorio con deriva presentará una
marcada evolución tendencial, tenderá a fluctuar de forma algo más visible
sobre la línea tendencial de lo que lo haría un modelo determinista puro.

Figura 10.2
Proceso con Tendencia Estocástica
45

40

35

30

25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones

Debe tenerse especial cuidado para no confundir la tendencia determinista y


estocástica, ya que entonces tanto uno como otro método resultarían incorrectos de aplicar.
Por ejemplo, si estamos ante un proceso del tipo:

  L  Yt   0  1t    L   t (10.5)

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-227

en el que tenemos tendencia determinista pero no estocástica, si tomamos una primera


diferencia la anterior expresión quedaría:

  L  Yt  1  1  L   L   t (10.6)

Luego, habríamos eliminado la tendencia temporal pero


habríamos introducido una raíz unitaria en el proceso MA, que ahora sería
no invertible. Debe notarse que este problema también se planteará, por las mismas
razones, en el caso en el que sobrediferenciemos una serie más allá de su orden de
integración.

Análogamente, cometemos un error aún más importante si intentamos


transformar un modelo con tendencia estocástica aplicando el filtro para la eliminación de
la tendencia determinista:

 En primer lugar, el estadístico “t” de significación individual tiende a


infinito para la variable de tendencia determinista
introducida en el filtro. Además es inconsistente, por lo que resulta
fácil rechazar erróneamente la hipótesis de nulidad del parámetro de
tendencia.

 El R 2 converge a una distribución no degenerada, es decir, a medida


que el tamaño de la muestra se incrementa no convergen hacia un
escalar, sino hacia una variable aleatoria.

Un efecto adicional comentado por Durlauf y Phillips (1988) es que, en estos


casos, el estadístico DW de la errónea regresión de la serie sobre una
tendencia temporal tiende a acercarse a cero.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-228

10.2 Regresión Espuria

El problema de las regresiones espurias es que tienden a admitirse como


buenas, relaciones económicas que, en realidad, sólo se deben a aspectos
casuales.

Por regresión espuria entendemos técnicamente aquellas ecuaciones de


regresión que presentan una elevada significatividad conjunta, medida en términos
del coeficiente de determinación R 2 o R 2 y, sin embargo, fuertes problemas de
autocorrelación positiva (reflejados en bajos valores del estadístico Durbin – Watson).

La presencia de un término de error fuertemente autocorrelacionado impide


efectuar un proceso de inferencia con mínimas garantías. La probabilidad de un error en el
cálculo y en la aplicación de los test de significancia individual convencionales es muy
importante, sin contar los problemas de ineficiencia en la estimación propios de una
situación de matriz de varianzas y covarianzas no escalar para la perturbación aleatoria.

Este tipo de regresiones aparecen cuando se relacionan series


temporales no estacionarias y se agudizan más cuando estas estén más cercanas a
la forma de un paseo aleatorio, es decir, cuanto más evidente sea la presencia de
tendencias estocásticas en las series.

Supongamos dos variables Yt y X t independientemente generadas por


paseos aleatorios:

Yt  Yt 1  ut
(10.7)
X t  X t 1  vt

donde ut y vt son variables aleatorias normales estándar independientes entre sí con


media cero y varianza unitaria (ruidos blancos). Dado que Yt y X t están generadas de
forma independiente, deberíamos esperar que no existiera ninguna relación significativa
entre ambas.

Sin embargo, sobre un conjunto de 1.000 muestras de Yt y X t con 50


observaciones, alrededor de un 65% de las regresiones de Yt sobre X t presentan
contrastes “t” significativos a un nivel de significatividad del 5%, generando un resultado
absurdo.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-229

Efectivamente, en la regresión:

Yt   0  1 X t   t (10.8)

es claro que, prescindiendo de la constante  0 , se obtiene:

 t  Yt  1 X t (10.9)

por lo que imponiendo las restricciones iniciales Y0  X 0  0 tenemos que:

T T
 t   ut  1  vt (10.10)
t 0 t 0

Por tanto, es obvio que estamos ante una secuencia  t no estacionaria


en varianza. Si esto es así, ˆt presenta una tendencia estocástica, lo que quiere decir
que el error cometido en “t” no se diluye en t + 1, t + 2, ...., t + s; es imposible por lo tanto
que una regresión en la que los errores se acumulan de forma permanente pueda tener
algún interés.

Nótese que en esta situación se violan algunas hipótesis básicas


asumidas en los procesos de inferencia habituales en el contexto del Modelo Básico de
Regresión Lineal (MCO):

 La varianza de  t ya hemos dicho que no es constante. En


la expresión (10.10) anterior puede comprobarse con sencillez cómo
se incrementa hacia el infinito a medida que t crece.

 No existe incorrelación serial. La misma expresión para (10.10)


puede utilizarse para comprobar cómo la correlación entre  t y  t 1
tiende a uno a medida que t se incrementa.

Dada esta acumulación de errores de base, ningún test de significancia


puede ser usado con garantías y, por ello, ninguna inferencia será fiable.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-230

10.3 Detección de Raíces Unitarias

10.3.1 Análisis Gráfico de la Serie

Uno de los métodos que suelen proponerse como suficientes para la detección
de la no estacionariedad de una serie es, erróneamente, el del análisis de representaciones
gráficas de la misma.

Así, se dice que la simple contemplación del gráfico de evolución temporal de


la serie permite decidir si la serie es o no estacionaria en virtud, por ejemplo, de la
pendiente que presente.

Efectivamente, pueden confundirse con facilidad


representaciones gráficas de procesos con tendencias estocásticas con
procesos con tendencias deterministas.

Por otro lado, incluso con procedimientos técnicamente elaborados, resulta


aún más complejo diferenciar, por ejemplo, un proceso con una raíz unitaria de otro con un
una raíz autorregresiva elevada.

No obstante, a pesar de que el análisis gráfico no puede


considerase una herramienta suficiente para el análisis de la
estacionariedad de una serie, si ha de servir como etapa previa a la
aplicación de contrastes más avanzados.

Efectivamente, observar la evolución gráfica de la serie puede permitir


localizar cambios de estructura, comportamientos estacionales o medias y tendencias de
tipo determinista, lo que permitirá aplicar, con mayor porcentaje de éxito, los test clásicos
de raíces unitarias.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-231

10.3.2 Análisis del Correlograma Simple de la Serie

Un procedimiento sencillo que no requiere la aplicación de ningún contraste


para determinar la presencia de raíces unitarias en las series, es el de observar el
correlograma de la misma, es decir, la representación gráfica de su función de
autocorrelación simple (FAS).

Distintos trabajos, pero en especial los presentados por Hoskin (1989),


Diebold y Rudebusch y Lo (1991), se han centrado en analizar las variaciones de la
autocorrelación en función del orden de integración “d” de una serie.

En general, la regla a aplicar será sencilla: los valores de la FAS de una


serie con raíces unitarias descienden muy suavemente hacia el cero
mientras que cuando no hay presencia de raíces unitarias el descenso es
exponencial.

La serie integrada es una serie de memoria ilimitada


(precisamente por presentar un componente tendencial), la serie no
integrada guarda sólo memoria de los “shocks” más recientes.

De esta forma, si la serie no estacionaria guarda memoria de los shocks


pasados y recientes, la relación entre dos valores separados por un lapso de tiempo “s”
presentarán necesariamente algún tipo de relación, o sea, los coeficientes de
correlación entre Yt e Yt  s tenderán a mantenerse elevados.

Efectivamente, la expresión genérica de la solución de una ecuación en


diferencias de primer orden puede expresarse como:
t 1
Yt  1tY0   1i t i (10.11)
i 0

t 1
1  1  Yt  Y0    t i (10.12)
i 0

A partir de las expresiones (10.11) y (10.12) puede calcularse el coeficiente


de autocorrelación entre Yt e Yt  s para cada caso.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-232

Cuando no existe raíz unitaria, el término 1 (menor que la unidad) fuerza a


los coeficientes de autocorrelación a descender rápidamente hacia el cero en una
progresión geométrica de razón 1 ; recordemos que, efectivamente, la expresión de la
serie de coeficientes de autocorrelación es  k  1k para un AR(1).

En el segundo caso (10.12), sin embargo, la varianza del proceso contiene un


término lineal (t - s), el que define más lento la progresión hacia el cero de los coeficientes
ts
de autocorrelación. La expresión de los coeficientes de correlación es ahora  k  .
t

Debe recordarse en este punto que la simple observación del gráfico de la


función de autocorrelación puede completarse con el cálculo de algunos conocidos
contrastes Q como los propuestos por Box y Pierce (1970) o Ljung y Box (1978):
K
QBP  T  ˆ k2   T2 k (10.13)
k 1

K
ˆ k2
QLB  T T  2     T2 k (10.14)
k 1 T k

Recordemos que, en ambos casos, la hipótesis a contrastar es que los “p”


primeros coeficientes de correlación calculados ˆ k son iguales a cero (k = 1, 2,...., p). El
escalar T será igual al número total de coeficientes de correlación representados en el
correlograma.

Estos contrastes se distribuyen como una  2 con (T - k) grados de libertad.


Dado que lo habitual es aplicarlos sobre los residuos de un modelo ARIMA previamente
estimado, para saber si estamos o no ante un ruido blanco, el parámetro k toma el
valor del número de coeficientes estimados de ese modelo ARIMA.

En cambio, si estamos observando los test directamente sobre una serie, y no


sobre los residuos de un modelo, los grados de libertad de la  2 serán entonces “p”. Si el
estadístico supera el valor de tablas rechazaremos la hipótesis nula de que los “p” primeros
coeficientes son significativamente nulos.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-233

10.3.3 Utilización del Estadístico de Durbin - Watson

El estadístico Durbin Watson (1950), tradicionalmente utilizado para detectar


la presencia de autocorrelación de primer orden en los residuos de un modelo estimado
por MCO, puede utilizarse según la propuesta de Sargan y Bhargava (1983) para
detectar la presencia de una raíz unitaria en una serie temporal Yt .

El estadístico es de la forma:
n

 ˆ  ˆt 1 
2
t
DW  t 2
n
(10.15)
 ˆtt2 
t 2

Asumiendo que el residuo, de estar autocorrelacionado, seguiría un modelo


simple AR(1), el valor del estadístico fluctuará entre 0 y 4. El límite inferior (0)
correspondería a una situación de autocorrelación perfecta positiva, el límite superior (4), a
una situación de autocorrelación perfecta negativa y el valor medio (2), mostraría ausencia
de autocorrelación.

A fin de utilizar este contraste para la detección de raíces unitarias, la idea es


aplicar la expresión (10.15) sobre los residuos del siguiente modelo:

Yt   0   t (10.16)

Si los residuos de este modelo están correlacionados de forma perfecta


siguiendo un paseo aleatorio, es decir, presentan una raíz unitaria   t   t 1  ut  , también
podremos decir que Yt es integrada de orden 1 ya que podríamos expresar el estadístico
DW como:
n n

 ˆ  ˆt 1   Y  Yt 1 
2 2
t t
DW  t 2
n
 t 2
n
(10.17)
 ˆ   Y 
2 2
tt t  Yt
t 2 t 2

Si esto es así, el estadístico DW tomará el valor 0. Por tanto, la


hipótesis a contrastar es si el estadístico DW toma un valor
significativamente distinto de cero.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-234

10.4 Contraste de Estacionariedad y de Raíz Unitaria

10.4.1 Contraste de Dickey – Fuller (DF)

Sin duda alguna, el test más habitual a la hora de determinar la


estacionariedad de una serie temporal, consiste en la aplicación del test conocido como de
Dickey–Fuller (Test DF).

Este es un contraste de No Estacionariedad ya que la hipótesis nula es


precisamente la presencia de una raíz unitaria en el proceso generador de datos de la
serie analizada.

Vamos a suponer inicialmente, como modelo de partida para el análisis de


una determinada serie Yt , el de un proceso estacionario autorregresivo de orden uno sin
constante:

Yt  1Yt 1   t (10.18)

Frente a este modelo se plantea, como hipótesis nula  H0  , el modelo


alternativo de un paseo aleatorio no estacionario del tipo:

Yt  Yt 1   t (10.19)

Sin embargo, para contrastar la nulidad del coeficiente 1 , no podemos


utilizar el contraste “t” habitual sobre la estimación por MCO del modelo (10.18).

La razón de ello es que la hipótesis nula que habitualmente se contrasta y, a


partir de la cual se deriva la expresión y propiedades del test “t”, es la de nulidad del
parámetro 1  0  de (10.18); sin embargo, en nuestro caso, necesitaríamos contrastar
H 0 : 1  1 .

Si la hipótesis nula fuera cierta  H 0 : 1  1 , la varianza de Yt no sería


estacionaria sino que crecería con los valores de “t” según la expresión de la varianza de
un paseo aleatorio con deriva: V Yt   t 2 .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-235

En estas condiciones, la estimación del parámetro 1 sería una estimación


consistente pero sesgada a la baja (función de densidad asimétrica) con relación al
verdadero valor del parámetro y el uso de la distribución “t” estándar sería incorrecto.

Si 1  1 , la distribución del estimador es asintóticamente Normal, o lo


que es lo mismo, el estadístico “t” de Student converge hacia una N(0,1) cuando los
grados de libertad tienden a infinito.

En el caso de que 1  1 , también puede caracterizarse la distribución del


estimador del parámetro y de su razón “t”, si bien la convergencia en el límite no se
produce hacia una Normal sino a una Cauchy.

El problema surge precisamente cuando 1  1 , ya que en este caso, la


distribución del parámetro no puede caracterizarse adecuadamente.

Por tanto, la distribución de probabilidad asintótica del estimador de MCO del


modelo AR(1) presenta una “discontinuidad” cuando 1  1 y, como sustituto, deberán
utilizarse las distribuciones derivadas de forma empírica mediante un
procedimiento de Montecarlo realizado por Dickey (1976).

En este experimento se generaron un elevado número de series ruido banco


 t para construir el mismo número de paseos aleatorios con término constante. La
estimación de los parámetros de interés en cada uno de esos modelos “controlados” arrojó
las siguientes conclusiones:

 El 90% de los valores estimados del parámetro 1 estaban menos


alejados de 2.58 errores estándar del verdadero valor (la unidad).

 El 95% de los valores estimados del parámetro 1 estaban menos


alejados de 2.89 errores estándar del verdadero valor (la unidad).

 El 99% de los valores estimados del parámetro 1 estaban menos


alejados de 3.51 errores estándar del verdadero valor (la unidad).

Tras este experimento de Dickey, fue Fuller (1976) quien obtuvo la distribución
límite apropiada y publicó, tabulados, toda una batería de valores críticos, dado que el
valor empírico del contraste varía en función del tamaño muestral.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-236

En la práctica, por cuestiones de sencillez operativa, el modelo utilizado para


el contraste DF no es el expuesto al comienzo del epígrafe (10.18) sino otro, equivalente al
anterior, que se obtiene restando a uno y otro lado el término Yt 1 :

Yt  Yt 1  0  1Yt 1  Yt 1   t
Yt  0  1  1 Yt 1   t  0   Yt 1   t (10.20)


Por lo tanto, la hipótesis nula inicial para (10.18), se transforma ahora en


H 0 :   0 frente a H1 :   0 .

Decir que  es nulo es lo mismo que decir que 1  1 , es decir, que existe una
raíz unitaria; decir que  es menor que cero equivale a decir que 1  1 (proceso
autorregresivo estacionario).

El procedimiento básico para la aplicación simple del test DF es, a partir de


aquí, aparentemente sencillo:

 Se estima el modelo propuesto y se calcula el valor estimado de la “t”


del parámetro analizado

 Una vez calculado se compara con el valor empírico de referencia


obtenido con las tablas de Dickey y Fuller

 Si el valor t estimado para el parámetro  es inferior al tabulado (dado


un determinado nivel de confianza), admitiremos la hipótesis nula, o sea, la
presencia de una raíz unitaria.

Sin embargo, los valores críticos t de referencia para el contraste


DF no sólo dependerán del tamaño muestral, sino también del tipo de
modelo estimado (proceso generador de datos supuesto).

Por lo tanto, antes de estimar los parámetros del modelo, hay que decidir si el
proceso generador de datos será el simple, como el expuesto anteriormente (10.18), ó
contendrá una constante 0  , un término tendencial determinista   t  , o ambas cosas
simultáneamente.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-237

Los tres modelos propuestos por Dickey-Fuller son:

Yt   Yt 1   t (10.21)

Yt  0   Yt 1   t (10.22)

Yt  0   t   Yt 1   t (10.23)

El contraste simple de DF consiste en determinar el valor del parámetro , para


lo cual se utilizará su estimador ˆ . Dicho estimador puede ser obtenido mediante MCO:

Una vez decidido el modelo, el estadístico de referencia para el contraste será


diferente, notándose generalmente por las letras t para el caso más simple, t para el caso
del modelo con constante y tt para el caso del modelo con tendencia determinista.

Consultar correctamente el etadístico de referencia es fundamental


dado que las diferencias entre los distintos valores de t, t y tt son importantes. Por
ejemplo, para un nivel de significación del 95% y 100 observaciones los valores críticos
serían –1.95 para t, -2.89 para t y –3.45 para tt .

Tal y como describen de forma muy clara Suriñach et al. (1995), los modelos
(10.22) y (10.23) presentados por Dickey y Fuller son en realidad formas reducidas de
determinados modelos estructurales.

Así, el modelo (10.22), que contrasta la hipótesis nula de paseo aleatorio con
deriva 0  frente a una alternativa de esquema AR(1) estacionario, es la forma reducida
del modelo VAR siguiente:

Yt    ut  ut 1  Yt 1   
   Yt  1  
 1   1Yt 1   t (10.24)
ut  1ut 1   t  Yt    1ut 1   t 
0

Yt   1  1   1  1 Yt 1   t (10.25)


  
0 

Bajo la hipótesis nula 1  1 el término constante sería nulo 0  0  ; luego, su


presencia en el modelo a estimar es irrelevante y sólo se justificaría para garantizar que, en
el caso de que fuera cierta la hipótesis alternativa H1 :   0 , el proceso autorregresivo
tenga media no nula.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-238

El modelo (10.23), que contrasta la hipótesis nula de un paseo aleatorio con


deriva frente a la alternativa de un proceso AR(1) estacionario sobre una tendencia
determinista   t  , sería la forma reducida del siguiente modelo VAR:

Yt     t  ut
(10.26)
ut  1ut 1   t

en que 0   1  1   1 y    1  1  .

Bajo la hipótesis de raíz unitaria 1  1 tendríamos que 0   y   0 .


Luego, como en el caso anterior, la presencia en este caso del parámetro  es
irrelevante en el caso de raíz unitaria, y su presencia intenta sólo garantizar la
consistencia del contraste en una situación de hipótesis alternativa (proceso estacionario
sobre tendencia determinista).

Tabla 12.3
Valores Críticos de D-F al 95%

MODELO Hipótesis Nula Estadístico Valor Crítico


Yt   Yt 1   t  0 t -1,95

 0 t -2,89

Yt  0   Yt 1   t 0  0   0 t /  -2,54

0    0 F , -4,71

 0 tt -3,45

0  0   0 tt /  -3,11
Yt  0   t   Yt 1   t  0  0 t /  -2,79

  0 F , -6,49
0      0 F ,  , -4,88

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-239

Dolado et al. (1990) y Perron (1990) propusieron, entre otros autores, seguir
un proceso en etapas a fin de aumentar la probabilidad de éxito en la elección del modelo
de referencia:

 En primer lugar se estimaría el modelo menos restringido (con


término constante y tendencia determinista).

 Dado que el principal error de esta táctica inicial consistiría en la escasa


potencia del contraste para el rechazo de la hipótesis nula por inclusión de
variables irrelevantes, si los valores críticos indican rechazo (ausencia
de raíz unitaria), terminaríamos el procedimiento.

 En el caso de no rechazarse la hipótesis nula de presencia de una raíz


unitaria, es decir, en el caso en que admitamos la presencia de una raíz
unitaria  H 0 :   0  , pasaríamos ahora a examinar la significancia del
parámetro tendencial determinista .

Dado que, en este punto, estaríamos bajo la hipótesis ya admitida de que


  0 , utilizaríamos el valor de referencia t  /  de la Tabla 12.1 y, para mayor
seguridad, también el contraste conjunto F , .

 Si el término tendencial resulta significativo    0  contrastaremos de


nuevo la presencia de una raíz unitaria H 0 :   0 pero utilizando entonces las
tablas de una normal estandarizada. Sea cual sea el resultado del test, con las
nuevas tablas finalizaríamos aquí el contraste admitiendo o rechazando la
presencia de una raíz unitaria.

 Si el término tendencial es no significativo    0  , deberá replantearse


el modelo inicialmente estimado pasándose a examinar otro con término
constante pero sin esta tendencia determinista. Con este modelo se vuelve a
analizar la presencia de una raíz unitaria  H 0 :   0  .

 En el caso en que, nuevamente, se sostenga la presencia de una raíz


unitaria, se contrastará entonces la adecuación del término independiente 0
con el contraste t /  o bien con F , .

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-240

 Si el término independiente resulta significativo, usamos de nuevo las


tablas de una normal para contrastar la presencia de la raíz unitaria,
concluyendo de nuevo aquí el contraste.

 Sólo si la constante 0 es no significativa se utiliza el modelo más simple


como modelo de referencia contrastándose, de nuevo, la presencia de raíz
unitaria. En este caso, no tiene cabida el uso de la distribución normal
estandarizada.

10.4.2 Contraste de Dickey – Fuller Aumentado (DFA)

Está claro que lo expuesto hasta este momento permite contrastar la presencia
de una o más raíces unitarias en una determinada serie temporal para la que se
supone un proceso AR(1).

Sin embargo, muchas serie temporales se ajustan más adecuadamente a


procesos autorregresivos de orden superior AR(2) o AR(3). No parece, por lo
tanto, muy correcto contrastar la presencia de una o más raíces unitarias utilizando siempre
la estructura de un modelo AR(1) ya que las raíces unitarias pueden aparecer también en
estructuras más complejas.

Este problema da lugar a lo que se conoce como test de raíces unitarias de


Dickey-Fuller Ampliado (DFA). El contraste de DF aumentado (DFA) considera la siguiente
forma reducida:
p
Yt  0   t   Yt 1    i Yt i 1   t (10.27)
i 2

 p
 p
donde    1   i  y  i    j .
 i 1  j 1

El procedimiento es análogo al expuesto en el test de DF simple; sin embargo,


los estimadores ˆi distribuyen asintóticamente como una normal estandarizada.

Para determinar el número de rezagos p del modelo (10.27) es posible


considerar criterios alternativos, por ejemplo el criterio de Akaike.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-241

El criterio de Akaike (AIC) considera la siguiente expresión:

 
2k   ˆi2 
AIC   log  i  (10.28)
n  n 
 
 

donde n es el número de observaciones, k es el número de parámetros estimados, y ˆ es


la serie de residuos obtenidos en la estimación.

Luego, interesa introducir un a variable adicional (rezago adicional en nuestra


caso) a un modelo con k variables explicativas si AICk 1  AICk .

De manera complementaria, se puede emplear el criterio modificado de


Akaike (MAIC):

2k    
MAIC   log   ei2 n  (10.29)
T k  i 
1
  T
donde   ˆ   ei2 n 
2
Y 2
t 1
 i  t  k 1

10.4.3 Contraste de Phillips – Perron (PP)

El contraste Phillips-Perron (1988) es una corrección no paramétrica del DFA


en el que se elimina el problema de correlación serial de los residuos. Se ha indicado por
parte de los investigadores que el contraste Phillips - Perron (PP) tiene mayor
potencia que el DFA de forma que en caso de duda parece adecuado atender a sus
resultados.

La diferencia fundamental entre ambos está en que mientras la validez del


procedimiento DF está basada en que los términos de error son ruido blanco, el
procedimiento de PP modifica los estadísticos después de la regresión para tener en cuenta
el efecto de los errores autocorrelacionados que aparecen en los resultados.

De esa forma, asintóticamente, el estadístico se corrige en la forma apropiada


y se aplica la misma distribución límite (DF).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-242

10.5 Cointegración

Las regresiones que incluyen series temporales pueden ocasionar coeficientes


de determinación muy altos pero sin reflejar el verdadero grado de asociación entre las
dos variables, sino que es la tendencia común presente en ellas (regresión espuria).

Cuando se lleva a cabo la regresión estática entre variables I(1) afectadas por
tendencias comunes, se encuentra un valor de R 2 elevado sin que exista una relación de
causalidad. Además el valor del estadístico de Durbin - Watson (DW) es muy
pequeño lo que indica que los errores de la ecuación están autocorrelacionados
positivamente.

Este es el problema de las regresiones espurias que implica no sólo que los
estimadores MCO de los coeficientes son ineficientes sino que los estimadores de los
errores estándar son inconsistentes.

En general, la integrabilidad es una propiedad dominante en las series, de


manera que para cualquier combinación lineal de dos procesos integrados, el proceso
resultante tendrá el orden mayor de las variables integradas. Pero, en
ocasiones, la combinación lineal de dos procesos I(1) es estacionaria.

Si la combinación lineal de dos variables o procesos no


estacionarios es estacionaria, se dice que las variables están cointegradas,
es decir, las tendencias se contrarrestan o se cancelan.

Es decir, si Yt es un vector de N series temporales, sus componentes son


cointegradas de orden d,b, que se define como Yt  CI  d , b  si:

 Todas las componentes de Yt son I(d).

 Existe un vector   0 tal que Z t   Yt  I  d  b  , con b > 0.

La relación Z t   Yt se denomina relación de cointegración, y el vector ,


vector de cointegración.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-243

Sean dos variables X t e Yt tales que la teoría económica sugiere una


relación de equilibrio a largo plazo entre ellas.

Supongamos que las series de datos X t e Yt son I(1). En la relación


Z t  1Yt   2 X t , lo normal es que Z t sea I(1). Sin embargo, es posible que exista un
valor particular de   1 , 2  , tal que Z t sea I(0), es decir, estacionaria. En este caso
las series serían CI(1,1), o cointegradas de orden 1.

Sea Yt *   0  1 X t , donde Yt * es el valor de equilibrio a largo plazo


correspondiente a X t . Si hay equilibrio en t, Yt *  Yt   0 , entonces Y t   0  1 X t  0 .

Como Yt , en general, será distinto de Yt * , podemos escribir


Yt   0  1 X t  ut , donde ut puede interpretarse como el error o desviación entre Yt y
su correspondiente valor de equilibrio en el período t.

Esta última ecuación es equivalente a Yt  1 X t   0  ut . Luego, la relación


de cointegración será:

Y 
Z t   Yt    1  1  , Yt    , Z t   0  ut (10.30)
X

Si las series son CI(1,1), Z t es estacionaria, por lo que el error será una
serie estacionaria.

La cointegración de dos o más series temporales apunta a la


existencia de una relación de largo plazo o de equilibrio entre ellas, es
decir, que las desviaciones de la situación de equilibrio no tienden, en
promedio, a ampliarse con el paso del tiempo.

Por el contrario, si X t e Yt son ambas I(1) pero no son cointegradas, Z t no


es estacionaria, es decir, las dos variables se alejarán una de otra con el paso del tiempo.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-244

Así, si X t e Yt son integradas del mismo orden, y si haciendo la regresión


Yt   0  1 X t  ut obtenemos los residuos estacionarios, hay evidencia de que las
dos series son cointegradas, lo cual implicaría que la relación a largo plazo que supone la
teoría económica viene apoyada por la evidencia empírica, y que la regresión efectuada
está libre de resultados espurios.

A la regresión anterior se le conoce como regresión de cointegración, siendo


el vector    0 ,1  el vector de cointegración.

El análisis de la cointegración permite detectar si existe la posibilidad de


obtener estimaciones libres de resultados espurios de los parámetros que definen las
relaciones entre dos o más series tanto a corto como a largo plazo. Las pruebas t y F
usuales serían válidas.

En general, si consideramos m variables integradas del mismo orden, el


número máximo de vectores de cointegración es m - 1. Al número de vectores de
cointegración linealmente independientes se le denomina rango de cointegración.

Una implicancia del concepto de cointegración es que si X t e Yt cointegran,


también lo harán X t e Yt  k , puesto que las variables Yt e Yt  k lo hacen.

10.6 Detección de Cointegración

10.6.1 Engle y Granger

El primer conjunto de contrastes fue considerado por Engle y Granger (1987).


Supongamos un vector Yt1 , Yt 2 ,...., Yt k  y regresionamos Yt1   2Yt 2   3Yt 3  ...   k Yt k  ut ,
que puede ser estimada por MCO y a la que se denomina “regresión de cointegración”.

Se contrasta la hipótesis nula de que los residuos ut tienen una raíz unitaria
contra la alternativa de que son I(0). De esa forma, la hipótesis nula es la no
cointegración y la alternativa la cointegración. Podemos aplicar la prueba DF o
ADF. Engle y Granger consideran que existe una relación de cointegración entre las
variables si los residuos ut son I(0).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-245

Los valores críticos son distintos de los del contraste de raíces


unitarias, pues la ut estimada está basada en los parámetros de cointegración
estimados. Engle y Granger han calculado estos valores, los cuales pueden encontrarse en
Engle y Granger (1987), Engle y Yoo (1987), Phillips y Outlaris (1990) y Mackinnon
(1991). En este contexto, las pruebas DF y ADF se conocen como EG y AEG,
respectivamente. En valor absoluto, los valores críticos de EG y AEG son
mayores a los de DF y ADF, respectivamente.

10.6.2 Durbin y Watson

Un método alternativo para contrastar la cointegración es el contraste Durbin-


Watson de la regresión de cointegración (CRDW). Se considera el estadístico DW de la
regresión de cointegración Yt   0  1 X t  ut y se contrasta la hipótesis nula de
que el estadístico DW es cero para ver si los residuos son estacionarios. Si no
son estacionarios el estadístico DW tenderá a cero.

Así, cuando el valor DW calculado es menor que el tabulado para cierto nivel
de significación, se acepta la hipótesis nula de no cointegración. Si es mayor, se acepta la
hipótesis de cointegración. Los valores críticos de este contraste están tabulados y pueden
verse en Sargan-Bhargava (1983).

Una regla práctica muy útil es que si DW < R 2 las series no están
cointegradas.

10.6.3 Modelo de Corrección de Errores (MCE)

En el caso de que el vector de variables del modelo esté constituido por dos
variables, Yt y X t , la relación a largo plazo entre ambas variables puede expresarse
como:

Yt *     X t   t (10.31)

Por otra parte, su relación a corto plazo puede expresarse, de acuerdo con el
MCE, de forma que las desviaciones respecto a la tendencia a largo plazo tienden a
corregirse.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-246

Si en un período el valor observado de Yt es superior al de su tendencia,


E Yt * X t  , se supone que se producirá en el período siguiente una disminución en Yt
que amortigüe esa diferencia, y si Yt es inferior a Yt * , se supone que en el período
siguiente se producirá un aumento de Yt que lo acerque a su tendencia, de forma que las
relación a corto plazo puede expresarse mediante las dos expresiones siguientes:

Yt  Yt *  g  Yt 1     X t 1  (10.32)
  
 t 1

donde g es un parámetro cuyo valor es menor que cero (para compensar la diferencia
generada en el período anterior).

Si aplicamos primeras diferencias a (10.32), sustituimos Yt * por su valor


estimado en la relación (10.31), y añadimos una perturbación aleatoria vt obtenemos:

Yt    X t  g  ˆt 1  vt (10.33)

La relación (10.31) se denomina regresión de cointegración, y la (10.33)


MCE con relación contemporánea.

De forma similar se procede en el caso de varias variables explicativas, en


cuyo caso aparecerían los términos correspondientes a cada una de dichas variables
explicativas, y la perturbación retardada estimada  ˆt 1  incluiría la diferencia entre el
valor retardado de Yt y una combinación lineal de los valores retardado des todas las
variables explicativas.

Así, en el caso de k variables explicativas, tendríamos:

Yt *    1 X t1   2 X t2  .....   k X tk   t (10.34)

Yt  1X t1   2 X t2  ....   k X tk  g  ˆt 1  vt (10.35)

Engle y Granger proponen estimar la relación (10.34), MCE, en dos etapas,


estimando en la primera etapa por MCO la relación (10.35), o regresión de cointegración
para calcular ˆt 1 y, en una segunda etapa estimar los parámetros de (10.34).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-247

El modelo CE con causalidad contemporánea presenta en general buenos


resultados, tanto si las variables están cointegradas como si no, ya que permite tener en
cuenta la relación causal a largo plazo y las desviaciones a corto plazo.

10.7 Causalidad

Aunque la causalidad es de naturaleza extra-estadística, es decir, que en un


modelo econométrico viene determinada por antecedentes económicos, a veces no es fácil
determinar si X t influye sobre Yt o si es Yt la causa de las variaciones de X t .

El test de Granger surge como elemento de ayuda para determinar el sentido


de una relación causal entre dos variables. El contraste de Granger se basa en estimar los
dos modelos siguientes:
r r
Yt   0    iYt i    j X t  j   t (10.36)
i 1 j 0

r r
X t   0   i X t i    jYt  j  t (10.37)
i 1 j 0

Las hipótesis a contrastar son las siguientes:

H 0 :  i  0, i  0; i  1,...., r
(10.38)
H 0 : i  0,  i  0; i  1,...., r

Si no se rechaza H 0 se concluye que Yt causa las variaciones de X t . Si se no


rechaza H 0 se concluye que X t causa las variaciones de Yt . Si ninguna de las dos
hipótesis se puede rechazar, entonces ambas variables son independientes. Si se rechazan
ambas, se produce entonces un feedback.

Para ello se aplica un test F de manera complementaria con los test-t; las
restricciones del test F en este caso corresponden a los valores de los parámetros según las
hipótesis nulas.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-248

11 ANÁLISIS FACTORIAL

El método de Análisis Factorial (FA) es una técnica que se utiliza


frecuentemente para crear nuevas variables que resuman toda la información
disponible contenida en las variables originales. También se utiliza para estudiar
la posible relación existente entre variables medidas en un conjunto de datos.

Un objetivo básico del FA es determinar si las variables de respuesta (X)


exhiben patrones de relaciones entre sí, de tal forma de agrupar dichas variables en
subconjuntos de variables correlacionadas, pero no correlacionadas con las de los otros
subconjuntos. Luego, el FA se utiliza para estudiar la estructura de correlación entre
variables dentro de un determinado conjunto de datos.

En resumen, el FA tiene por objetivo:

 Determinar si existe un conjunto más pequeño de variables no correlacionadas


que expliquen las relaciones existentes entre las variables originales.

 Determinar el número de variables subyacentes (Factores).

 Interpretar estas nuevas variables.

 Evaluar las unidades experimentales (o individuos) del conjunto de datos


(muestra) sobre estas nuevas variables.

 Utilizar estas nuevas variables en otros análisis estadístico de los datos, por
ejemplo para predicción.

Sin embargo, se debe tener especial cuidado con el método de FA,


particularmente en lo que respecta a la subjetividad que representa su utilización
en numerosos aspectos. Esta subjetividad está asociada, por ejemplo, al número de factores
que considere el investigador y a la interpretación de los factores, entre otros. De hecho,
algunos autores sugieren que es posible demostrarse mediante FA cualquier cosa que se
desee.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-249

El modelo matemático para el análisis factorial parece ser similar a la


ecuación de regresión múltiple, pero se debe recordar que en el caso de la regresión
múltiple, ésta considera variables simples que son predictoras de la variable dependiente
(criterio). En cambio, en el caso del análisis factorial, la variable dependiente
se expresa en términos de una combinación lineal de grupos de variables
que caracterizan un concepto en particular (factores).

Los factores no son variables independientes simples sino que cada uno está
constituido por un grupo de variables que caracterizan el concepto que representa el
factor.

Es por esta causa que se clasifica esta técnica entre las técnicas de
interdependencia. (Tanto las variables a un lado de la ecuación como en el otro están
interactuando como criterios y predictoras).

Por lo general, los factores que pueden caracterizar a un grupo de variables


no se conocen con anticipación, sino que llegan a ser determinados por medio del análisis
factorial. Estos factores se llama factores comunes, dado que todas la variables en
observación se llegan a expresar como funciones de ellos.

Cuando no se conoce con anticipación los factores que constituyen las


variables, se dice que procede una análisis exploratorio. Pero en cambio, si el
investigador ha elaborado el análisis anticipando (posiblemente apoyado en la teoría) la
existencia de cierto número de factores en particular y anticipando qué variables
conforman cada uno de los factores, se trata de un análisis confirmatorio.

Para efectos del presente tema vamos a proseguir según un


análisis exploratorio de factores.

Corresponde al investigador determinar lo que representa o constituye cada


uno de estos factores, para lo cual deberá considerar la información existente (marco
teórico).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-250

EJEMPLO DE MODELO FACTORIAL EXPLORATORIO

Se desea extrapolar, de una provincia un municipio, un modelo de regresión


explicativo del nivel de renta disponible en función de una serie de manifestaciones de esa
renta. Para ello, se parte de un amplio conjunto de variables provinciales para 8.000
municipios:

 Recaudación de los distintos impuestos directos e indirectos


 Tasa de paro y actividad
 Generación neta de empleo
 Kilómetros de carreteras de cada tipo en servicio
 Kilómetros de línea férrea en servicio
 Número de vehículos de distintos tipos por habitante
 Líneas telefónicas por cada 100 habitantes
 Camas hospitalarias por cada 1000 habitantes
 Empresas creadas y cerradas en el año
 Índice de precios al consumo
 Índice de precios industriales
 Índice de comercio al por menor
 Licencias fiscales concedidas

Con el fin de poder abordar con grados de libertad suficiente la estimación


del modelo de renta, se intenta resumir en tres factores, sin perder excesiva información y
logrando una incorrelación muy conveniente. El factorial arrojó tres factores cuyos
significados se asociaron a:

Factor 1: renta y riqueza personal - familiar

Factor 2: salud y desarrollo del mercado laboral

Factor 3: desarrollo infraestructural

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-251

EJEMPLO DE MODELO FACTORIAL CONFIRMATORIO

Se desea medir la capacidad de abstracción, analítica y memoria de los


alumnos. Se observaron 10 notas de cada alumno de un determinado grupo de estudiantes
universitarios. Entre estas notas, o al menos entre algunas de ellas, se observan
correlaciones elevadas que, en cierta medida, provienen de aptitudes globales del alumno
que no se observan directamente:

 Nota en álgebra
 Nota en cálculo
 Nota en estadística
 Nota en derecho comercial
 Nota en derecho laboral
 Nota en contabilidad financiera y de sociedades
 Nota en análisis de costos
 Nota en comunicación comercial
 Nota en administración
 Nota en econometría

Un análisis factorial permitió que la información relativa a estas variables se


resumiese en tres únicos factores de fondo, sin pérdida excesiva de información y logrando,
de nuevo, una incorrelación muy conveniente. Cada uno de estos tres factores se interpretó
como:

Factor 1: capacidad de abstracción

Factor 2: memoria

Factor 3: capacidad analítica

Independientemente de estos tres factores relacionados con grupos de


variables (notas) se identificó un factor común que podríamos llamar inteligencia en general
y un factor específico para cada asignatura (su propia dificultad y componentes de tipo
aleatorio relativos a las distintas formas de evaluación).

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-252

11.1 Comparación Entre FA y MCP

 Al igual que el método de Componentes Principales (MCP), el FA es una


técnica dirigida a las variables.

 Una ventaja que presenta el FA respecto al MCP, es que las nuevas variables
creadas (denominadas factores) son en general mucho más fácil de interpretar.
Recordemos que el MCP genera una transformación ortogonal de las variables
y no depende de un modelo subyacente. El FA, en cambio, sí depende de un
modelo estadístico razonable. Por lo tanto, el MCP es descriptivo y el FA tiene
un modelo estadístico formal.
 En el MCP el interés se centra en la explicación de la variabilidad de las
variables (varianzas), mientras que en el FA el interés se centra en la estructura
de la matriz de varianzas y covarianzas (correlaciones).

 Si las variables originales no están correlacionadas, tal como ocurre con el


MCP, no tiene sentido aplicar FA.

 En ambos casos pueden existir problemas con la escala de los valores de las
variables.

11.2 El Modelo de Análisis Factorial

11.2.1 Hipótesis del FA

Suponga que se observa un vector de respuestas p-variado X, de una


población que tiene media  y matriz de varianzas y covarianzas  . En el modelo general
de FA se supone que se tienen m factores subyacentes (m < p) denotados por f1 ,...., f m ,
tales que:

x j   j   j1 f1   j 2 f 2  ....   jm f m   j  j  1, 2,...., p (11.1)

En el modelo anterior se supone que:


iid
 f k  N  0;1 ,  k  1, 2,...., m
iid
  j  N  0; j  ,  j  1, 2,...., p

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-253

 cov  f k ; j   0 ,  j , k

Sin pérdida de generalidad, se puede suponer que  j  0 y que var  x j   1 .


Este siempre puede ser el caso, si se estandarizan las variables medidas antes de aplicar el
método de FA. Sin embargo, no es necesario estandarizar.

11.2.2 Forma Matricial del FA

En forma matricial, el modelo resulta:

X  F  (11.2)

donde:

X   x1 , x2 ,...., x p 
T
(11.3)

F   f1 , f 2 ,...., f m 
T
(11.4)

  1 ,2 ,...., p 


T
(11.5)

 11 12 .... 1m 


 22 .... 2 m 

21
(11.6)
 .... .... .... .... 
 
 p1  p 2 ....  pm 

Luego, en forma matricial, la hipótesis del modelo de FA es la siguiente:

 F  N  0; I 

 1 0 .... 0
0  .... 0 
  N  0;    
2

.... .... .... .... 
 
 0 0 ....  p 

 F T  0

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-254

11.3 Ecuaciones del FA

De las expresiones anteriores, debe notarse que:

X  F  (11.7)

 V X  (11.8)

  V  F   (11.9)

  V  F   T  V   (11.10)

  T  (11.11)

Luego, para determinar si existen F,  y  tales que X   F   , en lugar


de ello se intenta encontrar  y  de modo que   T  , lo que es equivalente a:
m
 jj    jk2   j (11.12)
k 1

Debe notarse lo siguiente:

 Si existen  y  de modo que   T  , entonces los factores comunes


explican con exactitud las covarianzas entre las variables de respuesta, lo que
se concluye dado que  es una matriz diagonal.
m
 La varianza de x j se puede dividir como  jj    jk2   j , y la proporción de
k 1
m
la varianza de x j que se explica por los factores es 
k 1
2
jk  jj . A esta última

expresión se le denomina comunidad de la j-ésima variable de respuesta.


m
 cov  xi ; x j    ik  jk (recordar que  ij  0 )
k 1

 cov  f k ; x j    jk , y se denomina carga de la j-ésima variable de respuesta


sobre el la k-ésimo factor (ver (11.1)).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-255

Si bien los desarrollos hasta ahora expuestos se han basado en la matriz de


varianzas y covarianzas  , los procedimientos casi siempre se realizan en torno a la
matriz de correlaciones, matriz que definiremos como P.

Si el FA se ha aplicado a la matriz P, entonces  es la matriz de


correlaciones entre las z j y las f k ; es decir, corr  f k ; z j    jk .

m
Del mismo modo, se tendrá que 
k 1
2
jk   j  1 , por lo que la comunidad de
m
la j-ésima variable es simplemente 
k 1
2
jk .

En el resto del Capítulo, supondremos que el FA se aplica a la matriz P.

11.3.1 No Unicidad de los Factores

Si el número de factores es mayor que uno (m > 1) la matriz de cargas  de


los factores no es única. Es decir, si existen  y  de modo que P   T  ,
entonces, para toda matriz ortogonal T tal que TT T  I , se cumplirá:

P  TT T  T  (11.13)

Luego, si  es una matriz de cargas, entonces T también. Esto representa


un grave dilema para muchos investigadores, mientras que otros lo ven como una ventaja.

Estos últimos creen que si no son interpretables un determinado conjunto de


factores, entonces puede existir otra solución que sí lo sea.

A esta multiplicación por la matriz T se le denomina rotación de factores.

11.3.2 Normalización del Modelo Factorial

El análisis expuesto en la sección anterior implica que, aunque observemos


toda la población, y los valores de  y  sean conocidos, no podemos determinar  de
manera única.

La solución para poder estimar esta matriz es imponer restricciones adicionales


sobre sus términos. Dos criterios alternativos son:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-256

1)  T   Diag

Con esta normalización, los vectores que definen el efecto de cada factor
sobre las p variables observadas son ortogonales. De esta manera, los factores,
además de estar incorrelacionados, producen efectos lo más distinto posible
sobre las variables. Por otra parte, esta normalización asegura una matriz de
cargas  única.

2)  T 1  Diag

Con esta normalización, los efectos de los factores sobre las variables,
ponderados por las varianzas de las perturbaciones de cada observación, se
hacen incorrelacionados. También se define una matriz de cargas única.

11.4 Resolución de las Ecuaciones del FA

11.4.1 Número de Factores

Si bien se presentan los desarrollos a base de la matriz de correlaciones P, las


técnicas descritas también pueden aplicarse sobre la matriz de varianzas y covarianzas  .

Para determinar si existe un conjunto de m factores subyacentes, se determina


si sería posible la existencia de  y  tales que P   T  .

El número de parámetros desconocidos en  y  es pm + p; el número de


parámetros en P es p  p  1 2 . Luego, las ecuaciones del FA dan origen a p  p  1 2
ecuaciones en p  m  1 incógnitas. Recordar que p es el número de unidades
experimentales y m es el número de factores.

Si por ejemplo p = 20 y m = 5, se tendrían 210 ecuaciones y 120 incógnitas


por resolverse.

Si p  m  1  p  p  1 2  m   p  1 2 , se tendría más incógnitas que


ecuaciones, por lo que la solución no sería única. Sin embargo, incluso cuando
m   p  1 2 , no existe solución única cuando m  2 , ya que a cualquier solución se le
pueden aplicar rotaciones hacia una cantidad infinita de soluciones.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-257

Sin embargo, es factible que existan soluciones diferentes entre sí sin la


necesidad de aplicar rotaciones, ya que  F puede ser formado de múltiples maneras.

Por otra parte, dado que deben respetarse ciertas restricciones respecto de los
valores que pueden tomar las cargas  jk y las varianzas  j , directamente se rechazan
todas aquellas soluciones absurdas (por ejemplo con valores negativos para  j o valores
mayores que uno para  jk ). Adicionalmente, puede exigirse que  T  Diag o
 1 T  Diag .

Luego, considerando un número elevado de ecuaciones e incógnitas, resulta


bastante difícil resolver el sistema P   T  . No obstante, existen varios programas
computacionales que resuelven adecuadamente las ecuaciones del FA.

11.4.2 Método del Factor Principal

Este es un método para estimar la matriz de cargas que se basa en los


componentes principales.

Supongamos que podemos obtener una estimación inicial de la matriz  ;


entonces, podemos escribir:

  ˆ    T
(11.14)

 
Dado que  ˆ es simétrica, puede descomponerse como:

  ˆ   HGH   HG  HG 
T 12 12 T
(11.15)

donde H es cuadrada de orden p y ortogonal; G es también de orden p pero diagonal y


 
contiene las raíces características de  ˆ . El modelo factorial (11.11) establece que,

 
dado que  ˆ es de rango m, la matriz G debe ser diagonal del tipo:

 G1mm  0m p  m  
G  (11.16)
0 p  m m 0 p  m  p  m  

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-258

Si llamamos H1 a la matriz (p x m) que contiene los vectores propios


asociados a los valores propios no nulos de G1, podemos entonces tomar como estimador
de  la siguiente matriz de (p x m):
12
ˆ  H 1 G1  (11.17)

Es interesante notar la normalización resultante de este proceso:


12 T 12
ˆ T ˆ  G1   H 1  H 1 G1   G1  Diag (11.18)
 
Im

En la práctica, este método se desarrolla de forma iterativa de la siguiente


manera:

1) 
Partir de una estimación inicial de ˆi o de ˆ i mediante ˆ i  Diag  
ˆ ˆT 
2) Calcular la matriz cuadrada y simétrica Qi     i 

3) Obtener la descomposición espectral de Qi de la forma:

T T
Qi  H i1Gi1  H i1   H i2Gi2  H i2  (11.19)

donde Gi1 contiene los m mayores valores propios de Qi , y H i1 sus vectores propios.
Elegiremos m de manera que los restantes valores propios contenidos en Gi2 sean todos
pequeños y en magnitud similar.
12
4) Tomar ˆi 1  H i1 Gi1  y volver al paso (1).

Los estimadores obtenidos mediante este método iterativo son consistentes


pero ineficientes. Además, no son invariantes ante transformaciones lineales.

Para poder llevar a cabo este procedimiento, necesitamos obtener estimadores


iniciales de ˆ (iteración cero). Es decir, deben estimarse los elementos de la diagonal
ˆ jj  , para luego estimar h2j  s 2j ˆ jj . Existen las siguientes alternativas:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-259

i. Tomar ˆ jj  0 . Esto equivale a extraer los componentes principales de  .


Supone tomar hˆ 2j  s 2j (en el caso de correlaciones h 2j  1 ), que es
claramente su valor máximo, por lo que podemos comenzar con un sesgo
importante.

1
ii. Tomar ˆ jj  , donde sii es el elemento diagonal i-ésimo de la matriz de
s jj
precisión  1 . Esto equivale a tomar hˆ 2j  s 2j R 2j , donde R 2j es el coeficiente
de correlación múltiple entre xj y el resto de las variables. Mientras mayor sea
el valor de R 2j , mayor será la comunidad de hˆ 2j . Notar también que el
término s 2j representa la j-ésima columna de valores de la matriz  .

A fin de entender el procedimiento descrito, consideremos un conjunto de


observaciones de 3 variables: x1, x2 y x3. Su matriz de varianzas y covarianzas es la
siguiente:

 0,35 0,15 0,19 


   0,15 0,13 0, 03 (11.20)
 0,19 0, 03 0,16 

1
Paso 1 (iteración 0): considerando ˆ jj  , se obtiene:
s jj

 52, 09 47,91 52,88 


   47,91 52, 09 47,12 
1
(11.21)
 52,88 47,12 60, 21 

 1 
 52, 09 0 0 
  0, 019 0 0 
 1  
ˆ 0   0 0  0 0, 019 0  (11.22)
52, 09
   0 0 0, 017 
 1  
 0 0
60, 21 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-260

Paso 2: calculamos la matriz cuadrada y simétrica Q0     0  :

 0,35 0,15 0,19  0, 019 0 0 



Q0   0,15  
0,13 0, 03   0 0, 019 0  (11.23)
 0,19 0, 03 0,16   0 0 0, 017 

 0,331 0,15 0,19 


Q0   0,15 0,11 0, 03 (11.24)
 0,19 0, 03 0,143 

T T
Paso 3: realizamos la descomposición espectral Q0  H 01G01  H 01   H 02G02  H 02  .
Sin embargo, para ello necesitamos previamente los valores propios de la matriz Q0 . A
partir de (11.24) se deduce directamente que los valores propios de la matriz Q0 son
0.379, 0.094 y –0.108. Dado que uno de ellos es negativo, la matriz no es positiva
definida.

Como hay un valor propio mucho mayor que los demás (0.379) consideraremos sólo un
factor. En consecuencia, la descomposición es la siguiente:
vector propio para 0,379
 
T
 0,331 0,15 0,19    0, 670   0, 670 
 0,15 0,11 0, 03   0, 442  0,379   0, 442 
  
 0,19 0, 03 0,143   0,596   0,596 
T
(11.25)
 0, 036 0, 741   0, 036 0, 741 
 0, 783 0, 438 0, 094 0 
    0   0, 783 0, 438
 0,108
 0, 621 0,508   0, 621 0,508 
  
vectores propios para 0,094 y  0,108

12
Paso 4: calculamos ˆ1  H 01 G01  :

 0, 670   0, 412


1   0, 442   0,379   0, 272
ˆ   (11.26)
 0,596   0,367 

La expresión (11.26) es la primera estimación de la matriz de cargas. Vamos


a volver al paso 1 para iterar.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-261


Paso 1: Estimamos ˆ1  Diag   ˆ1ˆ1T : 
  0,331 0,15 0,19   0, 412  
     
ˆ1  Diag   0,15 0,11 0, 03   0, 272   0, 412 0, 272 0,367  (11.27)
  0,19 0, 03 0,143   0,367  
    

0,180 0 0 
ˆ 
1   0 0, 056 0  (11.28)
 0 0 0, 025

Paso 2: calculamos la matriz cuadrada y simétrica Q1   ˆ1 :  


 0,35 0,15 0,19  0,180 0 0 

Q1   0,15  
0,13 0, 03   0 0, 056 0  (11.29)
 0,19 0, 03 0,16   0 0 0, 025

 0, 05 0,15 0,19 


Q1   0,15 0, 074 0, 03 (11.30)
 0,19 0, 03 0,135 

T T
Paso 3: realizamos la descomposición espectral Q1  H11G11  H11   H12G12  H12  . A
partir de (11.30) se deduce directamente que los valores propios de la matriz Q1 son
0.307, 0.067 y –0.215. En consecuencia, la descomposición es la siguiente:
T
 0, 05 0,15 0,19   0,559   0,559 
 0,15 0, 074 0, 03   0, 450  0,307   0, 450 
     
 0,19 0, 03 0,135   0, 696   0, 696 
T
(11.31)
 0, 081 0,825   0, 081 0,825 
  0, 067 0  
  0,806 0,385    0,806 0,385
 0 0, 215 
0,586 0, 414  0,586 0, 414 
12
Paso 4: calculamos ˆ2  H11 G11  :

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-262

 0,559   0,310 
ˆ2   0, 450   0,307   0, 249
  (11.32)
 0, 696   0,386 

Realizando una tercera iteración se obtiene:

 0, 269 
3   0, 229 
ˆ (11.33)
 0, 407 

Finalmente, el modelo con los nuevos parámetros es el siguiente:

 0, 269  1 


X   F     0, 229  f1  2 
  (11.34)
 0, 407  3 
 
ˆ3

 
1    0   0, 254 0 0 

   N   0  ;  0  
 2 0, 068 0 (11.35)
3      

0 0
    0 0, 011
  
 ˆ 3 

11.5 Determinación de la Cantidad Apropiada de Factores

Antes de iniciarse un FA, debe inferirse el valor de m. Una conjetura inicial


adecuada puede ser determinar el número de componentes principales, y considerar dicho
número como cantidad de factores. No obstante, el número inicial no necesariamente
corresponderá con el definitivo.

Se recomienda que el número máximo de factores no sea superior a la mitad


p
del número de variables menos uno: m   1 .
2

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-263

11.5.1 Criterios Subjetivos

 No Incluir Factores Triviales: los factores triviales son aquellos que tienen
sólo una variable original cargando sobre el factor. Ello implica que dicha
variable no se correlaciona con el resto, y es por sí misma un factor
subyacente. En tal caso, se elimina dicha variable antes del FA.

Esto no significa que la variable no sea importante, sino que sus características
son independientes de las otras variables. En síntesis, no tiene sentido construir
factores si se pueden emplear ellas mismas.

 No Eliminar Necesariamente Factores con Valores Pequeños de


 j o  j (ver (11.1)): Esto hace tender el método de FA a un MCP.
Análogamente, no es necesario que las comunidades tiendan a uno. Recordar
que en el FA interesa las correlaciones entre las variables, y no su variabilidad
individual como en el MCP.

 Si las diferencias entre la matriz de correlaciones observada (P) y la generada


por la solución de FA    es grande  P   T  , puede ser necesario
aumentar el número de factores. Análogamente, si la diferencia es muy
pequeña, puede reducirse el número de factores.

 Si, después de realizado el ajuste respecto a los factores comunes, se


presentan correlaciones altas entre variables, es factible considerarse el
incremento en el número de factores. Por el contrario, si las correlaciones son
pequeñas, podría reducirse el número de factores.

11.5.2 Criterios Objetivos

El criterio objetivo más utilizado corresponde al denominado enfoque de


posibilidad máxima, basado en los datos con distribución normal multivariada.

Este método permite considerar que si por ejemplo, 6 factores son adecuados,
eventualmente pueden ser adecuados también 5 ó 4. Pero si 6 factores son inadecuados,
es necesario incrementar el número de factores.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-264

Otro criterio utilizado comúnmente es el de Akaike (AIC). La cantidad de


factores que presentan el menor valor del estadístico AIC se considera como la mejor
selección. Ello requiere evidentemente varias selecciones diferentes de m. También es
factible considerar el criterio de Schwartz (SIC).

Sin embargo, estos métodos tienden a producir factores triviales, los que
deben eliminarse.

11.6 Rotación de Factores

Como se mencionó antes, un conjunto de factores no siempre se interpreta con


facilidad. De hecho, no es recomendable intentar interpretar los factores sin realizar una
rotación.

Los procedimientos de rotación intentan que la mayor cantidad posible de


cargas de los factores   jk  estén cercanas a cero, mientras se maximicen la mayor
cantidad posible de las restantes.

Además, dado que los factores son independientes, sería bueno (pero no
fundamental) que las variables de respuesta no se carguen mucho sobre distintos factores.

Por lo tanto, los factores que afectan a una determinadas variables no afectan
al resto, y viceversa.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-265

1,0
f2

4 6
5

0,0
1 f1

3
2

-1,0

-1,0 0,0 1,0

1,0
f2

4 6
5

0,0
1 f1

3
2

-1,0

-1,0 0,0 1,0

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-266

11.6.1 Rotación VARIMAX

La interpretación de los factores se facilita si los factores que afectan a unas


variables no lo hacen al resto, y viceversa. Luego, se desea maximizar la varianza de los
coeficientes que definen los efectos de cada factor sobre las variables observadas.

Definamos B  T  bij . En 1958, Kaiser propuso como medida de


estructura simple la suma de las varianzas de las cargas elevadas al cuadrado dentro de
cada columna de la matriz de los factores. Se eleva al cuadrado para prescindir de los
signos.

Su criterio por lo tanto es maximizar la varianza de los coeficientes que


definen los efectos de cada factor sobre las variables observadas; es decir, maximizar la
expresión:

 p  p 2
2

2
   jq  
m   j 1
b 4
 b jq  p 
 
1 m  p 2  p 2   
p     
j 1
V     b jq    b jq
*
 (11.36)
tij  p q 1  j 1  j 1   q 1  p 
 
 
 
2
 p 
La cantidad dentro de los paréntesis   b 2jq  en esta expresión es la
 j 1 
varianza de las cargas elevada al cuadrado, dentro de la q-ésima columna de B.

Dado que las cargas elevadas al cuadrado se encuentran entre 0 y 1, intentar


maximizar la varianza de las cargas elevadas al cuadrado (dentro de una columna)
equivale a dispersar las cargas elevadas al cuadrado dentro de una columna. Es decir,
forzar la mayor cantidad de cargas hacia 0 y forzar las demás hacia 1. Esto permite una
mejor interpretación de los factores, ya que existirá una correlación alta para
ciertas variables y una correlación baja para el resto.

Kaiser suma las varianzas de las cargas elevadas al cuadrado que están
dentro de una columna, a través de las distintas columnas (q). La matriz ortogonal T que
produce un máximo para esta suma de varianzas de las columnas da como resultado la
rotación VARIMAX de Kaiser de la matriz  de carga de los factores tij  bij ij .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-267

Notar que el criterio recién expuesto da igual peso a las variables de


respuesta que tengan tanto comunidades grandes como pequeñas.

Debido a ello, Kaiser sugirió que sería mejor dividir las cargas de los factores
para cada variable, por la comunidad propia de la variable, y luego maximizar la suma de
las varianzas de las razones elevadas al cuadrado dentro de una columna.

En consecuencia, Kaiser maximizaría realmente la expresión:

1 m  p b4  p b2 2 
V  2
 ij  p
t
  p  jq    jq  
q 1 
4
j 1 h j
 j 1 h 2  
(11.37)
  j 

donde h2j es la comunidad de la j-ésima variable de respuesta (j = 1, 2, ..., p)

La matriz T que maximiza la suma precedente produce la rotación VARIMAX


de la matriz de cargas de los factores. Este ajuste da más peso a las variables que tienen
las comunidades más grandes y menor a las que tienen comunidades pequeñas; es decir,
menos peso a las variables que tienen menos en común con las demás.

Notar que:

h 2j   j21   j22  ....   jm


2
 b 2j1  b 2j 2  ....  b 2jm (11.38)

Es decir, la rotación no cambia las comunidades (permanecen


constantes). Toda rotación ortogonal tiene esta propiedad, ya que las rotaciones
ortogonales de las matrices de cargas de los factores no afectan las comunidades de las
variables de respuesta. En consecuencia, las rotaciones ortogonales no afectan las
varianzas específicas de las variables.

11.6.2 Rotación Oblicua

En la práctica, las rotaciones oblicuas se pueden lograr multiplicando la matriz


 por una matriz Q no ortogonal  QT Q  I  . Las rotaciones oblicuas no producen nuevos
factores que permanecen no correlacionados, lo cual es una contradicción de las hipótesis
iniciales del FA. Luego, este tipo de rotaciones no tiene mucho sentido.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-268

En el desarrollo inicial de un proceso de FA se supone que existe un conjunto


no correlacionado de factores subyacentes que dirigen o controlan las variables que se
están midiendo. Luego, permitir rotaciones oblicuas implica por lo tanto desconocer esta
hipótesis. Si bien existen paquetes computacionales que permiten realizar rotaciones
oblicuas, ellas no son recomendables.
1,0
f2

4 6
5

0,0
1 f1

3
2

-1,0

-1,0 0,0 1,0

11.7 Cuantificación de Factores

La cuantificación de factores corresponde a asignarle valores a los factores


para cada unidad experimental del conjunto de datos.

La cuantificación de los factores no es sencilla, pues el modelo para cada


unidad experimental es X   F   donde  no se conoce y  se estima. En
consecuencia, para un determinado vector de observaciones X, no se puede determinar F
en forma explícita.

A continuación se presentan algunos métodos para estimar F.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-269

11.7.1 Método de Barlett

Después de resolver el modelo de FA, se tiene Z   F   donde


  N  0;  y Z es la variable de respuesta estandarizada. El paso siguiente es hallar F
que minimice:

Z r  
 ˆ F  1 Z r  ˆ F  (11.39)

donde Z r es el vector de datos estandarizados para el r-ésimo individuo. Para un Z r


dado, la expresión anterior se minimiza cuando:

 
1
Fˆr  ˆ Tˆ 1ˆ ˆ Tˆ 1Z r (11.40)

Luego, se forma Fr como el vector de las cuantificaciones estimadas de los


factores para el r-ésimo individuo (r = 1, 2, ...., N).

11.7.2 Método de Thompson

Thompson notó que, para datos normalmente distribuidos, la distribución


conjunta de Z y F era:

Z  0  P  
   N   ; T  (11.41)
F  0   I  

Esto implica que la esperanza condicional de F dado Z  Z * es:

E  F Z  Z *    T P 1Z * (11.42)

Por lo tanto, en el método de Thompson se estima el vector de valores para los


factores del r-ésimo individuo de la forma:

 
1
Fˆr  ˆ T 
ˆ ˆ T ˆ Zr (11.43)

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-270

11.7.3 Otros Métodos

Dado que para cuantificar un factor se requiere únicamente que una


determinada variable esté altamente correlacionada con un factor y poco correlacionada
con los demás factores, cualquier procedimiento que cumpla estas dos condiciones se
considera aceptable.

Una alternativa puede ser por ejemplo considerar el valor promedio de todas
aquellas variables que tengan correlación elevada con un determinado factor.

Una segunda alternativa puede ser considerar aquella variable que presenta
una mayor correlación con el factor como cuantificación de este mismo.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-271

12 ANÁLISIS DE CONGLOMERADOS (CLUSTER)

El análisis cluster consiste en definir esquemas de agrupación que permita


dividir un gran número de unidades experimentales (observaciones) en clases o grupos que
sean semejantes entre sí.

Luego, se realizan clasificaciones a partir de datos que no están inicialmente


clasificados. Por ejemplo, podría interesar analizar la semejanza de clientes de una
determinada tienda comercial. Las variables medidas podrían incluir aspectos como la
edad, el nivel educativo, nivel de ingresos, estado civil, número de hijos, etc.

Para determinar la semejanza de los grupos dentro de la muestra total, deben


definirse criterios que indiquen cuán semejante son las unidades experimentales dentro de
un determinado grupo y cuán distintas son del resto.

12.1 Medidas de Semejanza y Desemejanza

12.1.1 Distancia Métrica

Corresponde a la distancia euclidiana entre valores de dos observaciones:


12
d rs   xr  xs   xr  xs 
T
(12.1)

Como alternativa, que es en la mayoría de los casos recomendable, se puede


usar la distancia métrica estandarizada:
12
d rs   zr  zs   zr  zs 
T
(12.2)

12.1.2 Distancia de Mahalanobis

A diferencia de las anteriores, esta distancia requiere de la matriz de


varianzas y covarianzas    :

12
d rs   xr  xs   1  xr  xs  
T
(12.3)
 

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-272

12.2 Análisis Gráficos

Es importante hacer notar que diferentes técnicas de agrupación pueden


generar resultados completamente distintos. La razón de ello es que cada algoritmo de
agrupación impone una determinada estructura en la muestra.

Por otra parte, es probable que determinadas técnicas de agrupación


identifiquen agrupamientos que en realidad pueden no existir.

Para mitigar estos problemas algorítmicos, se pueden utilizar diferentes


técnicas gráficas que permitan validar los resultados de los algoritmos utilizados.

12.2.1 Gráficos de Dispersión (Bidimensionales)

Este tipo de gráfico es útil cuando la dimiensionalidad de los datos es p = 2.


De hecho, es probablemente el mejor método para identificar agrupamientos:

Figura 12.1
Gráfico de Dispersión Bidimensional
120

100

80

60
X2

40

20

0
0 10 20 30 40 50 60 70 80 90
X1

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-273

12.2.2 Gráficos de Dispersión (Tridimensionales)

Son similares a los gráficos bidimensionales, aunque en determinados casos,


por su representación gráfica, puede no identificarse de manera adecuada la agrupación
adecuada de los distintos conjuntos de datos. Ello se debe a que si bien son un
representación de tres dimensiones, siguen graficándose sólo en dos dimensiones.

Figura 12.2
Gráfico de Dispersión Tridimensional

x3

x2

x1

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-274

Figura 12.3
Gráfico de Dispersión de Esferas
140

120

100

80

60
X2

40

20

0
-20 0 20 40 60 80 100

-20
X1

12.2.3 Gráficos de Andrews

En 1972, Andrews sugirió que la observación p-variada para la r-ésima


xr   xr1 , xr 2 ,...., xrp  , podría representarse por la
T
observación experimental, esto es
función:

xr1
fr t    xr 2 sin  t   xr 3 cos  t   xr 4 sin  2t   xr 5 cos  2t   .... (12.4)
2

De este modo, los datos correspondientes a un individuo (o unidad


experimental en general) dan lugar a una función única para dicho individuo.

Las curvas resultantes no sólo representan la imagen de relaciones entre las


variables, sino que son útiles para hallar o validar agrupamientos que podrían existir en los
datos. También son útiles para localizar datos outliers.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-275

Para construir las curvas de Andrews, es importante que las variables de


respuesta se midan en unidades semejantes, por lo que es recomendable estandarizar los
datos antes de construir las gráficas.

Figura 12.4
Gráficos de Andrews

Notar que las interpretaciones gráficas resultantes son afectadas


por el ordenamiento de las variables. Si se cree que ciertas variables son más
importantes que otras, la más importante debe tomarse como x1 , la segunda en
importancia debe tomarse como x2 , y así sucesivamente.

En los casos donde se tienen grandes números de variables de respuesta, los


gráficos de Andrews pueden construirse luego de un análisis de MCP. En dicho caso, x1
debe tomarse como la primera calificación de una componente principal, x2 como la
segunda, etc.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-276

12.2.4 Gráficos de Estrellas

Cada dato se representará mediante una estrella que contendrá tantos rayos o
puntas como variables se deseen representar. Luego, existirá una estrella para cada unidad
experimental.

La longitud del j-ésimo rayo en la estrella de la i-ésima unidad experimental


(xij) dependerá del valor de la variable j en dicho dato.

Figura 12.5
Gráficos de Estrellas

Se utilizan los siguientes criterios para calcular la longitud del rayo:

a) Construir la variable z a partir de la estandarización de x. En cada eje se


marca el cero y los valores de la variable z se representan sobre los ejes
en unidades de desviación estándar.

Se construye la variable z   z1 , z2 ,...., z p  de manera que la variable


T
b)
z j vale 1 cuando x j es máxima y 0 cuando x j es mínima, de acuerdo
a la siguiente expresión:

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-277

xij  min i  xij 


zij  (12.5)
max i  xij   min i  xij 

Se construye la variable z   z1 , z2 ,...., z p  de manera que se cumpla


T
c)
0  z j  1 mediante la siguiente expresión:

xij  min i  xij 


zij  (12.6)
max i  xij 

Ejemplo (The World Competitiveness Yearbook 1999):

 x : ocho índices socioeconómicos de un país


x1 :
 Economía interna: inversiones, ahorro, consumo
x2 :
 Economía internacional: inversiones en extranjero, importación, exportación
x3 :
 Gobierno: Política fiscal, justicia, seguridad, deuda externa
x4 :
 Finanzas, sector bancario
x5 :
 Ciencia y tecnología: Inversión en I+D, propiedad intelectual, capacidad
tecnológica
x6 :
 Organización empresarial
x7 :
 Infraestructura, energía y medio ambiente
x8 :
 Sociedad: Recursos humanos, desempleo, calidad de vida, educación

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-278

Tabla 12.1
Datos Económicos de Países del Mundo

Observación (i) X1 X2 X3 X4 X5 X6 X7 X8
Canadá 61.0 51.5 64.5 67.0 61.0 68.5 69.0 68.0
Australia 60.0 49.5 67.5 67.0 60.0 64.0 73.0 67.0
Noruega 62.5 50.5 57.5 61.0 59.0 60.5 76.0 70.0
Venezuela 30.0 42.0 44.0 35.5 41.0 37.0 42.0 40.5
P. Bajos 64.5 72.0 61.5 72.5 63.0 73.0 69.5 65.0
Hungría 59.5 58.0 51.5 51.5 49.5 51.0 50.5 57.0
Portugal 58.0 54.5 52.0 59.5 42.0 48.0 49.0 57.5
España 57.5 59.0 63.5 64.5 49.5 57.5 55.0 59.0
China 66.5 54.5 62.0 40.5 49.5 42.5 39.0 57.0
Thailandia 44.5 45.5 62.0 39.0 38.0 38.0 39.0 49.5
Brasil 52.0 44.5 50.5 39.0 41.0 48.5 41.0 39.5
Mexico 53.5 40.5 50.5 36.5 39.0 48.5 42.0 43.0

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-279

12.2.5 Gráficos de Caras de Chernoff

Representan observación p-dimensional mediante cara bidimensional. Forma


de cabeza, curvatura de boca, tamaño de ojo y de nariz, posición de cejas etc.,
determinados por valores observados de las p variables.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-280

12.3 Métodos de Agrupación

12.3.1 Método del Vecino Más Cercano

En este método se empieza con un número de agrupamientos igual al total de


observaciones o unidades experimentales que se disponga. Luego, dependiendo de las
distancias entre puntos, se van agrupando hasta que finalmente se dispone de un único
grupo que contiene a las N unidades experimentales o individuos:

 Empiece con N agrupamientos, en que cada uno de ellos contiene


exactamente una unidad experimental

 Enlace los dos puntos más cercanos, de acuerdo a una de las medidas
de distancia definidas anteriormente (ver punto 14.1)

 Defina la desemejanza entre este nuevo agrupamiento y cualquier otro


punto como la distancia mínima entre cualquiera de estos dos puntos
agrupados y el otro punto

 Continúe combinando los agrupamientos que sean los más cercanos


entre sí de modo que, en cada etapa, la cantidad de agrupamientos se
reduzca en uno, y la desemejanza entre cualquier par de éstos siempre se
defina como la distancia entre sus miembros más cercanos

El número apropiado de agrupamientos se encuentra en algún


punto intermedio entre el principio y el final de este proceso.

Para ilustrar este método, consideremos un ejemplo. Las distancias métricas


para un grupo de 6 individuos se presenta en la siguiente Tabla:

1 2 3 4 5 6
1 - 0,31 0,23 0,32 0,26 0,25
2 - 0,34 0,21 0,36 0,28
3 - 0,31 0,04 0,07
4 - 0,31 0,28
5 - 0,09
6 -

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-281

La agrupación inicial se denota como G0  1 ,  2 , 3 ,  4 , 5 ,  6 .


Analizando la matriz de desemejanza anterior, se observa que los dos puntos más
cercanos entre sí son el 3 y el 5, con una distancia métrica de 0,04. Luego, se define una
nueva agrupación de la forma G1  1 ,  2 , 3  5 ,  4 ,  6 .

Posteriormente, debe calcularse una nueva matriz de desemejanza o de


distancias métricas.

 La distancia métrica entre el grupo 1 y el 3  5 corresponde al mínimo entre


0,23 y 0,26.
 La distancia métrica entre el grupo  2 y el 3  5 corresponde al mínimo
entre 0,34 y 0,36.
 La distancia métrica entre el grupo  4 y el 3  5 corresponde al mínimo
entre 0,31 y 0,31.
 La distancia métrica entre el grupo  6 y el 3  5 corresponde al mínimo
entre 0,07 y 0,09.

 El resto de las distancias se mantiene igual

La nueva matriz de desemejanza es la siguiente:

1 2 3-5 4 6
1 - 0,31 0,23 0,32 0,25
2 - 0,34 0,21 0,28
3-5 - 0,31 0,07
4 - 0,28
6 -

La menor distancia métrica corresponde ahora a la existente entre los grupos


6 y 3  5 , que es igual a 0,07. Luego, se define una nueva agrupación de la forma
G2  1 ,  2 , 3  5  6 ,  4 .

 La distancia métrica entre el grupo 1 y el 3  5  6 corresponde al mínimo


entre 0,23 y 0,25.

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-282

 La distancia métrica entre el grupo  2 y el 3  5  6 corresponde al mínimo


entre 0,34 y 0,28.
 La distancia métrica entre el grupo  4 y el 3  5  6 corresponde al mínimo
entre 0,31 y 0,28.

 El resto de las distancias se mantiene igual

1 2 3-5-6 4
1 - 0,31 0,23 0,32
2 - 0,28 0,21
3-5-6 - 0,28
4 -

La menor distancia métrica corresponde ahora a la existente entre los grupos


 2 y  4 , que es igual a 0,21. Luego, se define una nueva agrupación de la forma
G3  1 ,  2  4 , 3  5  6 .

 La distancia métrica entre el grupo 1 y el  2  4 corresponde al mínimo entre


0,31 y 0,32.
 La distancia métrica entre el grupo 3  5  6 y el  2  4 corresponde al
mínimo entre 0,28 y 0,28.

 El resto de las distancias se mantiene igual

1 2-4 3-5-6
1 - 0,31 0,23
2-4 - 0,28
3-5-6 -

La menor distancia métrica corresponde ahora a la existente entre los grupos


1 y 3  5  6 , que es igual a 0,23. Luego, se define una nueva agrupación de la forma
G4   2  4 , 1  3  5  6 .

 La distancia métrica entre el grupo  2  4 y el 1  3  5  6 corresponde al


mínimo entre 0,31 y 0,28.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-283

1-3-5-6 2-4
1-3-5-6 - 0,28
2-4 -

Finalmente, se obtiene el grupo G5  1  2  3  4  5  6 con todos los


individuos.

12.3.2 Diagrama de Árbol

Una manera de decidir cuándo detener el proceso de agrupación es construir


un diagrama de árbol jerárquico.

Este tipo de diagrama contiene ramas que une individuos y muestra el orden
en que se asignan los individuos a los agrupamientos. Las longitudes de las ramas son
proporcionales a las distancias métricas entre los individuos (o grupos de individuos).

Para el ejemplo anterior, en la siguiente Figura se presenta el árbol jerárquico


que se ha obtenido:

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-284

Figura 12.6
Diagrama de Árbol Jerárquico

2 4 3 5 6 1

0,04
0,07

0,21

0,23

Para determinar la cantidad de agrupaciones a conformar, es factible realizar


una inspección visual del árbol jerárquico que se ha construido.

Por ejemplo, con el diagrama de árbol expuesto en la Figura 14.6 no es tan


claro el número de agrupaciones que es posible definir. Una alternativa adecuada podría
ser por ejemplo considerar 4 agrupaciones: G2  1 ,  2 , 3  5  6 ,  4 .

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-285

Sin embargo, en un diagrama como el que se muestra en la siguiente Figura


14.7, se podrían definir claramente 3 agrupaciones:

Figura 12.7
Diagrama de Árbol Jerárquico con 3 Agrupaciones

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-286

12.3.3 Estadístico F de Beale

Otro procedimiento para determinar el número de agrupaciones a considerar


corresponde al propuesto por Beale.

Suponga que se tienen 2 agrupaciones posibles; la primera tiene a su vez C1


agrupaciones y la segunda tiene C2 agrupaciones, tal que C2  C1 .

Sean W1 y W2 las sumas de cuadrados correspondientes a las distancias


métricas dentro de cada una de las 2 agrupaciones, calculadas desde las medias de éstos.
Es decir, suponga que se tienen nr individuos en el r-ésimo agrupamiento: r  1, 2,...., C1 y
r  1, 2,...., C2 .

Si X rq representa el q-ésimo vector de observaciones en el r-ésimo


agrupamiento, entonces:
C1 nr C1

  X  Xr  X  X r  
T
W1   (12.7)
r 1 q 1
rq rq

C2 nr C2

  X  Xr  X  X r  
T
W2   (12.8)
r 1 q 1
rq rq

Para determinar si la primera agrupación es mejor que la segunda, Beale


sugirió calcular una pseudo-estadística tipo F por medio de:

F* 
W2  W1   N  C1  k1 (12.9)
W1  N  C2  k2   N  C1  k1
donde k1  C1 2 p y k2  C2 2 p ; N es el número total de individuos (unidades
experimentales) y p es el número de variables exógenas.

Si F * es mayor que el valor tabulado de F con  N  C1  k1 grados de


libertad en el denominador y  N  C2  k2   N  C1  k1  en el numerador (a la inversa de
la expresión (12.9)), entonces se elegiría la primera agrupación (aquella con más
agrupamientos) sobre la segunda (aquella con menos agrupamientos).

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-287

Notar que eventualemente pueden subdividirse las dos agrupaciones iniciales


y repetir el mismo análisis para determinar finalmente cuáles serían consideradas
semejantes y cuáles no.

12.4 Reducción de la Escala Multidimensional

La reducción de la escala multidimensional es una técnica matemática que


permite mapear en un espacio de menos dimensiones las distancias métricas entre los
individuos (unidades experimentales) que se encuentran en un espacio de muchas
dimensiones (muchas variables exógenas).

Resulta útil, por ejemplo, mapear distancias desde un espacio multidimensional


hacia uno bidimensional, para luego construir y analizar un gráfico de dispersión.

Para aplicar esta técnica, en primer lugar deben calcularse las distancias
métricas entre todas las parejas de individuos; es razonable antes estandarizar los datos.

Supongamos que Drs representa la distancia métrica entre el r-ésimo individuo


y el s-ésimo individuo, dentro de un espacio muestral p-dimensional: r  1, 2,...., N ,
s  1, 2,...., N ; N es el número total de individuos.

Si se representan respectivamente por Z r y Z s los vectores de valores


(estandarizados) del r-ésimo y s-ésimo individuo, la distancia métrica estandarizada entre
estos dos individuos se expresa como:
12
Drs   Z r  Z s   Z r  Z s 
T
(12.10)

Estas distancias se pueden ordenar desde la más pequeña hasta la más


grande.

Sean Dr1s1 la distancia entre los dos individuos más cercanos; Dr2 s2 la
distancia entre los siguientes dos individuos más cercanos, y así sucesivamente hasta llegar
a DrN  N 1 2 sN  N 1 2 , que es la distancia entre los individuos más lejados. Note que el número
N  N  1
de parejas distintas de individuos es .
2

Pontificia Universidad Católica de Chile


(CT-2950 Tópicos de Econometría 1-288

Considere a continuación la representación gráfica de N individuos en el


espacio bidimensional y denote por d rs la distancia entre el r-ésimo individuo y el s-ésimo
individuo, dentro del espacio bidimensional.

En este mismo espacio, sean d r1s1 la distancia entre los dos individuos más
cercanos; d r2 s2 la distancia entre los siguientes dos individuos más cercanos, y así
sucesivamente hasta llegar a d rN  N 1 2 sN  N 1 2 , que es la distancia entre los individuos más

alejados.

La reducción de escala multidimensional intenta localizar N


puntos en un espacio bidimensional de modo que las distancias entre las
parejas de puntos en este espacio corresponda tanto como pueda con las
distancias verdaderas ordenadas entre los puntos observados:

Dr1s1  Dr2 s2  ......  DrN  N 1 2 sN  N 1 2 (12.11)

La localización de los puntos observados en un espacio reducido se realiza de


tal forma que se minimice la expresión:
N r 1

  D  d rs  Drs
2
rs
E r 1 s 1
N r 1
(12.12)
 D
r 1 s 1
rs

sujeto a (12.11).

Para evaluar la calidad del ajuste, se acostumbra comparar gráficamente


las diferencias reales entre las parejas de puntos contra sus distancia
modeladas. Si la representación gráfica de estas parejas de distancias revela una
tendencia monótona creciente, entonces se puede deducir que la gráfica bidimensional
ilustra con exactitud la cercanía de las parejas de puntos.

Evidentemente, para determinar las distancias drs es necesario utilizar


programas computacionales específicos. Notar también que es altamente probable la
inexistencia de soluciones factibles, por lo que resulta necesario relajar algunas de las
restricciones, o incluso todas.

Pontificia Universidad Católica de Chile


ICT-2950 Tópicos de Econometría 1-289

Pontificia Universidad Católica de Chile

También podría gustarte