Setnupa (Tci295)

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
ESCUELA DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE TRANSPORTE Y LOGÍSTICA
ICT-2950 Tópicos de Econometría
Profesor: Louis de Grange C.
ICT 2512 Microeconomía Interrogación 1 17 de Abril

de 1998
APUNTES DE CLASES
ICT-2950 TÓPICOS DE ECONOMETRÍA
(VERSIÓN 1er SEMESTRE 2014)
(CT-2950 Tópicos de Econometría ii
ÍNDICE
Pág.
1 REPASO DE MATRICES Y ANÁLISIS DE DATOS .....................1-1
1.1 Operaciones con Matrices.................................................... 1-1
1.1.1 Matrices Especiales ........................................................................ 1-1
1.1.2 Suma ................................................................................................ 1-2
1.1.3 Multiplicación.................................................................................. 1-2
1.1.4 Operador de Kronecker................................................................. 1-2
1.1.5 Matrices Particionadas ................................................................... 1-3
1.1.6 Matriz Inversa ................................................................................. 1-3
1.1.7 Matriz Traspuesta ........................................................................... 1-3
1.1.8 Traza de una Matriz....................................................................... 1-4
1.1.9 Matrices Ortogonales .................................................................... 1-5
1.1.10 Vectores Característicos y Valores Propios................................... 1-5
1.1.11 Rango de una Matriz ..................................................................... 1-7
1.1.12 Formas Cuadráticas de una Matriz............................................... 1-7
1.1.13 Diferenciación de Matrices ............................................................ 1-8
1.1.14 Series de Taylor .............................................................................. 1-9
1.2 Análisis de Datos.................................................................... 1-9
1.2.1 Tipos de Variables ........................................................................ 1-10
1.2.2 Media, Varianza, Covarianza y Correlación............................. 1-10
1.2.3 Medidas de Dependencia Lineal de los Datos .......................... 1-12
1.2.4 Datos Atípicos (Outliers)............................................................... 1-12
2 REGRESIÓN LINEAL MÚLTIPLE .........................................2-15
2.1 Supuestos del Modelo.........................................................2-17
2.1.1 Supuestos Sobre la Perturbación................................................. 2-17
2.1.2 Supuestos sobre las Variables Explicativas ................................ 2-18
2.1.3 Supuestos sobre los Parámetros del Modelo ............................. 2-18
2.2 Estimación por Mínimos Cuadrados Ordinarios (MCO)..2-18
2.2.1 Vector de Parámetros ...................................................................2-21
2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras
Finitas y Muestras Grandes) ........................................................ 2-23
2.2.3 Teorema Central del Límite........................................................... 2-28
Pontificia Universidad Católica de Chile

ICT-2950 Tópicos de Econometría iii
2.2.4 Indicadores de Bondad de Ajuste ............................................... 2-30

2.2.5 MCO vs Máxima Verosimilitud ................................................... 2-33
2.2.6 Interpretación Económica............................................................. 2-35
2.2.7 Diagrama de Venn ....................................................................... 2-36
2.2.8 Interpretación Geométrica de los MCO.....................................2-38
3 INFERENCIA Y PRECICCIÓN..............................................3-43
3.1 Contraste de Restricciones ..................................................3-43
3.1.1 Contraste de una Restricción Lineal............................................. 3-43
3.1.2 Contraste de Restricciones Lineales Conjuntas........................... 3-44
3.1.3 Contraste Basado en una Región de Confianza ....................... 3-45
3.1.4 Mínimos Cuadrados Restringidos................................................ 3-48
3.1.5 Contraste de Restricciones No Lineales ......................................3-49
3.2 Predicción .............................................................................3-50
3.3 Estimación por Mínimos Cuadrados Generales (MCG) ..3-53
4 ESPECIFICACIÓN ...........................................................4-56
4.1 Variables Ficticias ................................................................4-56
4.1.1 Cambio Estructural en el Intercepto ............................................ 4-58
4.1.2 Cambio Estructural en la Pendiente............................................. 4-59
4.1.3 Cambio Estructural en el Intercepto y la Pendiente ................... 4-59
4.2 Variables No Lineales..........................................................4-60
4.2.1 Transformaciones Generales ....................................................... 4-60
4.2.2 Transformación Box - Tidwell ....................................................... 4-61
4.2.3 Transformación Box - Cox ............................................................ 4-62
4.3 Modelos No Lineales ..........................................................4-65
4.3.1 Modelo de Regresión Linealizado en Parámetros ..................... 4-66
4.3.2 Modelo de Regresión Linealizado en Variables........................ 4-67
4.4 Especificación de Variables ................................................4-68
4.4.1 Selección de Variables.................................................................4-68
4.4.2 Variables Omitidas ....................................................................... 4-69
4.4.3 Variables Superfluas.....................................................................4-71

(CT-2950 Tópicos de Econometría iv
4.5 Contraste de Subespecificación de Modelos (Test J) .......4-72

5 TEMAS ESPECÍFICOS.......................................................5-74
5.1 Ortogonalidad .....................................................................5-74
5.2 Multicolinealidad .................................................................5-76
5.2.1 Definición de Multicolinealidad................................................... 5-76
5.2.2 Causas de la Multicolinealidad................................................... 5-77
5.2.3 Efectos de la Multicolinealidad ................................................... 5-77
5.2.4 Detección de la Multicolinealidad y su Magnitud..................... 5-84
5.2.5 Corrección de la Multicolinealidad............................................. 5-87
5.2.6 Método de Componentes Principales......................................... 5-88
5.2.7 Regresión Crestra (Ridge Regression)......................................... 5-94
5.3 Heterocedasticidad..............................................................5-97
5.3.1 Definición de Heterocedasticidad ............................................... 5-97
5.3.2 Causas de la Heterocedasticidad ............................................... 5-99
5.3.3 Efectos de la Heterocedasticidad............................................. 5-101
5.3.4 Detección de la Heterocedasticidad........................................ 5-104
5.3.5 Corrección de la Heterocedasticidad ...................................... 5-111
5.4 Autocorrelación................................................................. 5-114
5.4.1 Definición de Autocorrelación .................................................. 5-114
5.4.2 Causas de la Autocorrelación .................................................. 5-115
5.4.3 Efectos de la Autocorrelación................................................... 5-116
5.4.4 Detección de la Autocorrelación.............................................. 5-118
5.4.5 Estimación bajo Autocorrelación .............................................. 5-122
5.5 Endogeneidad................................................................... 5-124
5.5.1 Definición de Endogeneidad .................................................... 5-124
5.5.2 Causas de la Endogeneidad .................................................... 5-125
5.5.3 Efectos de la Endogeneidad..................................................... 5-126
5.5.4 Detección de la Endogeneidad................................................ 5-127
5.5.5 Estimación bajo Endogeneidad ................................................ 5-128
5.6 Asimetría, Curtosis y Normalidad.................................... 5-130
5.6.1 Asimetría ..................................................................................... 5-130
5.6.2 Curtosis ....................................................................................... 5-131
5.6.3 Estadístico Jarque-Bera de Normalidad................................... 5-132

ICT-2950 Tópicos de Econometría v
5.7 Contrastes de Datos Atípicos ........................................... 5-132

6 INTRODUCCIÓN A LAS SERIES DE TIEMPO................6-134
6.1 Extrapolación de Series de Tiempo................................. 6-134
6.1.1 Modelos de Extrapolación Simple ........................................... 6-134
6.1.2 Modelos de Promedio Móvil .................................................... 6-135
6.2 Suavizamiento de Series de Tiempo ............................... 6-136
6.3 Estimación y Pronóstico de Modelos de Tendencia....... 6-137
6.4 Procesos Estocásticos........................................................ 6-137
6.5 Estacionariedad ................................................................ 6-138
6.5.1 Estacionariedad Estricta ............................................................ 6-138
6.5.2 Estacionariedad Débil ............................................................... 6-139
6.5.3 Función de Autocorrelación Simple (FAS) ............................... 6-140
6.5.4 Función de Autocorrelación Parcial (FAP) ............................... 6-142
6.5.5 Proceso Ruido Blanco................................................................ 6-143
6.6 Ergodicidad....................................................................... 6-145
6.7 Teorema de Wold............................................................. 6-146
6.8 Retardos y Diferencias...................................................... 6-147
6.8.1 Operador de Retardos .............................................................. 6-147
6.8.2 Operador de Diferencias .......................................................... 6-148
6.9 Ecuaciones de Diferencias ............................................... 6-148
6.9.1 Definición.................................................................................... 6-148
6.9.2 Solución Recursiva..................................................................... 6-149
6.9.3 Solución Analítica ...................................................................... 6-149

(CT-2950 Tópicos de Econometría vi
6.10 Círculo Unitario ................................................................. 6-156

7 PROCESOS MEDIA MÓVIL .............................................7-159
7.1 Procesos MA(1) ................................................................ 7-159
7.2 Procesos MA(2) ................................................................ 7-162
7.3 Procesos MA(q)................................................................. 7-163
7.4 Invertibilidad de los Procesos MA(q) .............................. 7-164
7.5 Estimación de Procesos MA(q) ........................................ 7-165
7.6 Pronósticos con Procesos MA(q) ..................................... 7-168
8 PROCESOS AUTORREGRESIVOS .....................................8-172
8.1 Procesos AR(1).................................................................. 8-172
8.1.1 Media ......................................................................................... 8-172
8.1.2 Varianza ..................................................................................... 8-173
8.1.3 Autocovarianza.......................................................................... 8-173
8.1.4 Autocorrelación.......................................................................... 8-174
8.2 Procesos AR(2).................................................................. 8-177
8.2.1 Media ......................................................................................... 8-177
8.2.2 Varianza ..................................................................................... 8-177
8.2.3 Autocovarianza.......................................................................... 8-178
8.2.4 Autocorrelación.......................................................................... 8-178
8.3 Procesos AR(p) .................................................................. 8-180
8.4 Estimación de Procesos AR(p).......................................... 8-183
8.5 Pronósticos con Procesos AR(p)....................................... 8-183
8.6 Regla de la Cadena Para Pronosticar AR(p) .................. 8-185
8.7 Dualidad entre Procesos AR y MA .................................. 8-186
8.8 Procesos ARMA(p,q) ........................................................ 8-187
8.9 Pronósticos de Modelos ARMA(p,q)............................... 8-189
8.10 Procesos ARIMA(p,i,q) ..................................................... 8-191
8.11 Procesos Estacionales ....................................................... 8-192
8.11.1 Estacionalidad Mediante Variables Dicotómicas.................... 8-193
8.11.2 Procesos Autorregresivos Estacionales..................................... 8-194
8.11.3 Estacionariedad del AR(p) Estacional ...................................... 8-194
8.11.4 Procesos Medias Móviles Estacionales.................................... 8-195
8.11.5 Identificación de s...................................................................... 8-196

ICT-2950 Tópicos de Econometría vii
9 PROCESOS ESTOCÁSTICOS NO ESTACIONARIOS ...............9-197

9.1 Paseo Aleatorio................................................................. 9-197
9.2 Procesos ARIMA ............................................................... 9-201
9.2.1 Identificación de Procesos ARIMA ........................................... 9-202
9.2.2 Estimación de Procesos ARIMA................................................ 9-206
9.2.3 Inicialización de la Serie........................................................... 9-207
9.2.4 Validación de Procesos ARIMA................................................ 9-209
9.2.5 Predicción con Procesos ARIMA .............................................. 9-215
9.3 Orden de Integración de una Serie: Métodos No
Paramétricos ...................................................................... 9-219
9.3.1 Análisis de la Función de Autocorrelación .............................. 9-219
9.3.2 Sobrediferenciación................................................................... 9-221
9.3.3 Análisis de la Varianza.............................................................. 9-222
10 RAÍCES UNITARIAS Y COINTEGRACIÓN .................10-223
10.1 Tendencias Determinísticas y Estocásticas ....................10-224
10.1.1 Tendencia Determinística......................................................... 10-224
10.1.2 Tendencia Estocástica.............................................................. 10-225
10.2 Regresión Espuria............................................................10-228
10.3 Detección de Raíces Unitarias .......................................10-230
10.3.1 Análisis Gráfico de la Serie .................................................... 10-230
10.3.2 Análisis del Correlograma Simple de la Serie....................... 10-231
10.3.3 Utilización del Estadístico de Durbin - Watson...................... 10-233
10.4 Contraste de Estacionariedad y de Raíz Unitaria ........10-234
10.4.1 Contraste de Dickey – Fuller (DF) .......................................... 10-234
10.4.2 Contraste de Dickey – Fuller Aumentado (DFA)................... 10-240
10.4.3 Contraste de Phillips – Perron (PP) ......................................... 10-241
10.5 Cointegración..................................................................10-242
10.6 Detección de Cointegración ..........................................10-244
10.6.1 Engle y Granger ...................................................................... 10-244
10.6.2 Durbin y Watson...................................................................... 10-245
10.6.3 Modelo de Corrección de Errores (MCE) ............................. 10-245

(CT-2950 Tópicos de Econometría viii
10.7 Causalidad ......................................................................10-247

11 ANÁLISIS FACTORIAL.................................................11-248
11.1 Comparación Entre FA y MCP ......................................11-252
11.2 El Modelo de Análisis Factorial .....................................11-252
11.2.1 Hipótesis del FA ....................................................................... 11-252
11.2.2 Forma Matricial del FA............................................................ 11-253
11.3 Ecuaciones del FA...........................................................11-254
11.3.1 No Unicidad de los Factores .................................................. 11-255
11.3.2 Normalización del Modelo Factorial..................................... 11-255
11.4 Resolución de las Ecuaciones del FA ............................11-256
11.4.1 Número de Factores................................................................ 11-256
11.4.2 Método del Factor Principal ................................................... 11-257
11.5 Determinación de la Cantidad Apropiada de Factores...... 11-
262
11.5.1 Criterios Subjetivos .................................................................. 11-263
11.5.2 Criterios Objetivos ................................................................... 11-263
11.6 Rotación de Factores ......................................................11-264
11.6.1 Rotación VARIMAX.................................................................. 11-266
11.6.2 Rotación Oblicua ..................................................................... 11-267
11.7 Cuantificación de Factores.............................................11-268
11.7.1 Método de Barlett.................................................................... 11-269
11.7.2 Método de Thompson ............................................................. 11-269
11.7.3 Otros Métodos......................................................................... 11-270
12 ANÁLISIS DE CONGLOMERADOS (CLUSTER)..................12-271
12.1 Medidas de Semejanza y Desemejanza ......................12-271
12.1.1 Distancia Métrica..................................................................... 12-271
12.1.2 Distancia de Mahalanobis ...................................................... 12-271
12.2 Análisis Gráficos .............................................................12-272
12.2.1 Gráficos de Dispersión (Bidimensionales) ............................. 12-272
12.2.2 Gráficos de Dispersión (Tridimensionales)............................. 12-273
12.2.3 Gráficos de Andrews............................................................... 12-274
12.2.4 Gráficos de Estrellas ................................................................ 12-276
12.2.5 Gráficos de Caras de Chernoff .............................................. 12-279

ICT-2950 Tópicos de Econometría ix
12.3 Métodos de Agrupación ................................................12-280

12.3.1 Método del Vecino Más Cercano ......................................... 12-280
12.3.2 Diagrama de Árbol.................................................................. 12-283
12.3.3 Estadístico F de Beale ............................................................. 12-286
12.4 Reducción de la Escala Multidimensional ....................12-287

ICT-2950 Tópicos de Econometría 1-1
1 REPASO DE MATRICES Y ANÁLISIS DE DATOS
1.1 Operaciones con Matrices
 a11 a12 .... a1n   a11 a21 .... am1 

a a22 
a2 n  a a22 am 2 
Sea la matriz A   21 donde AT   12 .
 ....  ....   ....  .... 
   
 am1 am 2 .... amn   a1n a2 n .... amn 
1.1.1 Matrices Especiales
D = diag(A) es la diagonal de la matriz A de dimensión n x n:
 a11 0 .... 0 
0 a 0 
D 22
 DT (1.1)
 ....  .... 
 
 0 0 .... ann 
T se denomina triangular superior de la matriz A:
 a11 a12 .... a1n 

0 a a2 n 
T  22
(1.2)
 ....  .... 
 
 0 0 .... amn 
In se denomina matriz identidad de dimensión n x n:
 1 0 .... 0 
0 1 0 
I  (1.3)
....  ....
 
 0 0 .... 1 

(CT-2950 Tópicos de Econometría 1-2
1.1.2 Suma
C  A  B es definido como cij  aij  bij dado que A y B tienen el mismo

número de filas y de columnas. Es fácil demostrar que:  A  B  C  A   B  C  y
también que A  B  B  A .
1.1.3 Multiplicación
n
C  A  B es definido como cij    aik  bkj  dado que A y B son matrices
k 1
conformables, es decir, A es de r x n y B e de n x p. Debe notarse que:
 A  B y B  A no son necesariamente iguales.
 Se cumple que A   B  C   A  B  A  C
 En general, A  B  B  A
n
 Dos vectores a  A y b  B son ortogonales  a  b  si aT  b    ai  bi   0
i 1
n
a   aT a 
12
  a
i 1
2
i
Si A  A  A se dice que A es idempotente, y en general  A   A, p  1 .

p

1.1.4 Operador de Kronecker
Si A es de m x n y B e de s x t, el operador de Kronecker de A y B, denotado

por A  B , es una matriz de ms x nt dada por:
 a11 B a12 B .... a1n B 

a B a B a2 n B 
A B   21 22
(1.4)
 ....  .... 
 
 an1 B an 2 B .... amn B 
Se cumplen las siguientes propiedades:

  A  B  C  D    AC  BD 
  A  B   C  D    A  C    A  D    B  C    B  D 
  A  B  C  A   B  C 
1.1.5 Matrices Particionadas
La matriz A de m x n puede ser particionada en 4 sub-matrices de la forma:
A A12 
A   11 (1.5)
 A21 A22 
Luego, si B es también particionada se puede obtener la siguiente expresión:
A A12   B11 B12   A11B11  A12 B21 A11B12  A12 B22 

A  B   11  (1.6)
 A21 A22   B21 B22   A21B11  A22 B21 A21B12  A22 B22 
1.1.6 Matriz Inversa
Dada la matriz A de n x n, si existe una matriz B que satisface AB = BA = In,

esta matriz B se denomina inversa de A, y se denota B  A1 . Se cumplen las siguientes
propiedades:
 AB 
1
  B 1 A1
 A1  A1  B 1  B 1
1
 A  B
1

1.1.7 Matriz Traspuesta
Se cumplen las siguientes propiedades:
 A T T
A
 A  B
T
  AT  BT

 A B
T
  BT AT
A  A 
1 T T 1

 Si A  AT se dice que A es simétrica
 A  AT y AT  A son simétricas
 A  B   AT  BT 
T

1.1.8 Traza de una Matriz
La traza de una matriz cuadrada conformable A de n x n se define como la

n
suma de los elementos de su diagonal: tr  A    aii . Debe notarse que:
i 1
 tr  AT   tr  A 
 tr  A  B   tr  A   tr  B 
 tr  A  B   tr  B  A 
 tr  k  A   k  tr  A 
 tr  A  B   tr  A   tr  B 
Debe notarse que para un producto de matrices cuyo resultado

es un escalar, dicho valor también corresponde a la traza del producto
original de las matrices. Es decir, el valor de un escalar es igual a su traza.

1.1.9 Matrices Ortogonales
Las matrices ortogonales son matrices cuadradas que pueden representar un

giro en el espacio respecto a un plano (o hiperplano). Para caracterizar estas matrices,
supongamos que, dado un vector X, lo ponderamos por una matriz no singular C, y
obtenemos un nuevo vector Y:
Y CX (1.7)
Si la operación realizada es sólo un giro, entonces el módulo o norma de Y

debe ser idéntica a la de X, y por lo tanto se cumple:
Y T Y  X T C T CX  X T X (1.8)
Por lo tanto, debe cumplirse que:
CT C  I (1.9)
La condición de ortogonalidad es la que se obtiene de (1.9), de donde se

deduce que la matriza traspuesta debe ser igual a su inversa:
C T  C 1 (1.10)
Luego, una matriz ortogonal debe tener filas (o columnas) que

son ortogonales entre sí, y de longitud igual a la unidad.
1.1.10 Vectores Característicos y Valores Propios
Dada una matriz cuadrada, existen determinadas propiedades de dicha

matriz que son invariantes ante transformaciones lineales de dicha matriz de tal forma que
se mantiene la información existente en la matriz. Algunos ejemplos pueden ser trasponer la
matriz o girarla.
Los valores propios son las medidas básicas de tamaño de una matriz. Dichas
medidas básicas, como la traza o el determinante, son función de los valores propios, y
serán por lo tanto invariantes ante transformaciones lineales que preserven los valores
propios.

Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos

vectores cuya dirección no se modifica al aplicar una transformación lineal a la matriz. Sea

A una matriz de n x n. Existe entonces un vector propio c que satisface:
 
Ac   c (1.11)
para determinados valores constantes de , que es un escalar, y que se denomina valor

propio.

Si c es un vector propio de A, y si multiplicamos (1.11) por cualquier   0 ,

entonces   c también será un vector propio de A. Para evitar esta indeterminación,

supondremos que c  1 .

Luego, existe una solución no nula (para c  0 ) que verifica:
det A    I  0 (1.12)
La expresión (1.12) es un sistema de ecuaciones lineal homogéneo que tiene

una solución no nula sólo si la matriz  A    I  es no singular. El polinomio que se obtiene
de (1.12) en función de  se denomina ecuación característica.
Las soluciones de (1.11) son los vectores característicos, y los distintos valores
de  en (1.12) son las raíces características, que son número reales si la matriz es simétrica.
En general, una matriz tiene h  n valores propios. A cada valor propio de la matriz
podemos asignarle un único vector propio que satisface (1.11).
Debe destacarse que:
 Si  es un valor propio de A, entonces  r es un valor propio de Ar
 Los valores propios de una matriz y su traspuesta son los mismos

n
 tr  A    i
i 1
n
 tr  Ar    ir
i 1
n
 tr  A1    i1
i 1

n
 A   i
i 1
 Los vectores característicos de una matriz simétrica son ortogonales

 Las matrices A y (A + I) tienen los mismos vectores propios, y si es un valor propio
de A + 1 es un valor propio de (A + I)
 Las matrices ABC, ACB y CAB tienen los mismos valores propios no nulos
 Si A es triangular, los valores propios son los elementos de la diagonal
 En una matriz simétrica, los valores propios son números reales y los vectores son
ortogonales
1.1.11 Rango de una Matriz
Supongamos una matriz A de m x n con m filas  a1 , a2 ,...., am  . El rango de la

matriz A corresponde al número de filas linealmente independientes. Si el rango es m, se
dice que la matriz es de rango completo.
 rango  AT   rango  A   rango  AT A 
 rango  A  B   min rango  A  ; rango  B 
 El rango también corresponde al número de raíces características  distintas de cero

en  AT A  . Si la matriz es simétrica, corresponde al número de raíces características
 distintas de cero en A.
1.1.12 Formas Cuadráticas de una Matriz
Sea una matriz A de n x n simétrica, y x   x1 , x2 ,...., xn  un vector. Entonces

n n
la expresión q  xT Ax    xi x j aij  se denomina forma cuadrática, que es un
i 1 j 1
polinomio de segundo grado en x.
 Si xT Ax  0 entonces A es definida positiva.
 Si xT Ax  0 entonces A es definida negativa.

 Si xT Ax  0 entonces A es semi-definida positiva.
 Si xT Ax  0 entonces A es semi-definida negativa.
1.1.13 Diferenciación de Matrices
Sea una matriz X de n x m con elementos xij , y f  f  X  una función que

depende de los elementos de X. Entonces:
df  df  
   (1.13)
dX  dxij  
Como ejemplo, supongamos que f  5 X 1  2 X 2  3 X 3 . Luego:
5
df  
 2 (1.14)
dX  
 3 
Además, es fácil obtener los siguientes resultados:
d T X  d T X 
 X, 
d dX
d T X  
 Si X simétrica entonces  2X 
d
df
 Si f  X   aT Xb entonces  bT a
dX
df
 Si f  X    A  X  B  entonces  AT BT
dX
df
 Si X es de n x n y f  X    X  entonces  In
dX
df
 Si X es de n x n y f  X    X T AX  entonces   A  AT  X
dX
Definiendo Y T   f1  X  ; f 2  X  ;.......; f n  X   , entonces:

 df1 df 2 df n 
 dx .....
dx1 dx1 
 1 
 df1 df 2 df n 
dY  df1 df 2 df n   .....
  ; ;......;  dx2 dx2 dx2 
dX  dX dX dX   
     
 
 df1 df 2 df n 
.....
 dxn dxn dxn 
dY
 Si Y  AX entonces  AT
dX
1.1.14 Series de Taylor


Para una función vectorial f  f  x  la expansión en series de Taylor es la
siguiente:
   T  
      2 f  x0    x  x0    x  x0 
f  x   f  x0   f  x0    x  x0    .... (1.15)
2
   
f  x    0  1  x   2  x T x  ...... (1.16)
1.2 Análisis de Datos
En general, consideraremos un total de n datos u observaciones o unidades

experimentales, y un total de p variables. Es decir, cada una de las n observaciones
considera p variables. Esta información puede ser representada como una matriz de p x n.
 x11 x12 .... x1 p 

x x22 x2 p 
X 
21
(1.17)
 ....  .... 
 
 xn1 xn 2 .... xnp 

1.2.1 Tipos de Variables
Las variables pueden ser básicamente de dos tipos: cuantitativas o

cualitativas. Las cuantitativas se caracterizan porque su valor puede ser expresado
numéricamente, como por ejemplo la edad de una persona, su peso, la población de un
país, el ingreso monetario de un individuo, etc. Las variables cualitativas se caracterizan
porque su valor corresponde a un atributo o categoría, como por ejemplo el sexo, su país
de nacimiento, temporada del año, etc.
Las variables cuantitativas pueden a su vez en continuas o discretas. Las

variables cualitativas por su parte pueden clasificarse en binarias (sólo 2 valores) o
múltiples (muchos valores).
1.2.2 Media, Varianza, Covarianza y Correlación
Estas variables representan un resumen de la información existente en los

datos. En términos probabilísticos, estas variables están asociadas a los momentos de la
función de densidad.
Para una determinada variable k en particular, su media se representa como:
1 n
xk   xik
n i 1
(1.18)
La varianza de esta variable k está relacionada conceptualmente con la

distorsión promedio de cada observación de la variable respecto a la media de dicha
variable, y se expresa de la siguiente forma:
1 n
V  xk     xik  xk 
2
(1.19)
n  1 i 1
Por otra parte, el grado de relación lineal entre dos variables se mide
por la covarianza. La covarianza entre las variables xk y x j se calcula como:
1  n 
cov  xk , x j      xik  xk   xij  x j  (1.20)
n  1  i 1 

Notar que la covarianza puede ser positiva o negativa. El signo de la

covarianza indica el signo de la varianción conjunta de las variables xk y x j . Su magnitud,
sin embargo, depende de la escala en que fueron medidas las variables.
A partir de las expresiones obtenidas de (1.20), se puede generar la matriz de

varianzas y covarianzas del conjunto de datos X. En la diagonal irán los términos
asociados a la varianza de cada una de las p variables, y fuera de la diagonal irán los
términos asociados a la covarianza entre las distintas variables. Luego, la matriz de
varianzas y covarianzas es de (p x p).
Una característica importante de la matriz de varianzas y covarianzas es que

es siempre simétrica y positiva-definida (excepto que existan filas columnas
dependientes).
La simetría se debe a que cov  xk , x j   cov  x j , xk  ; lo de positiva definida es

una extensión del hecho que la varianza es siempre positiva por definición, ya que es una
suma de elementos al cuadrado.
Adicionalmente, la traza, el determinante y los valores propios

de la matriz de varianzas y covarianzas son siempre no negativos.
Como se mencionó anteriormente, la magnitud de las varianzas y covarianzas

depende de la escala en que se han medido las variables xk y x j . Ello implica que valores
altos de la covarianza no implica necesariamente altos grados de relación lineal entre las
variables. Análogamente, valores bajos no implica ausencia de relación entre ellas.
Una alternativa que mitiga este problema es la matriz de correlaciones, que se

obtiene de la siguiente expresión:
cov  xk , x j 
rkj  (1.21)
V  xk   V  x j 
Las propiedades de la metriz de correlaciones son las mismas que las de la

matriz de varianzas y covarianzas: simétrica, semidefinida positiva, y con traza,
determinante y valores propios no nulos. Sin embargo, los valores de la matriz de
correlaciones van entre –1 y 1, y los elementos de la diagonal son siempre 1.

1.2.3 Medidas de Dependencia Lineal de los Datos
Interesa analizar la estructura de dependencia entre las variables. Estas

dependencias pueden estudiarse como:
 Dependencia entre pares de variables (correlación)
 Dependencia entre pares de variables pero eliminando el efecto del resto

(correlación parcial)
 Dependencia entre una variable y un conjunto de variables (regresión

lineal múltiple)
1.2.4 Datos Atípicos (Outliers)
a) Definición
Datos atípicos o Outliers son aquellas observaciones que al parecer han sido
generados de manera distinta al resto de los datos. Pueden ser causados por ejemplo por
errores de medición o digitación de los datos, cambios en los instrumentos de medición o
simplemente representan una heterogeneidad intrínseca de los elementos observados.
La caracterización de un único dato atípico es simple, ya que por definición

debe estar alejado del resto. Luego, la distancia entre dicha observación y el resto debe ser
alta. Alternativamente, podemos definir como dato atípico aquella observación que se
encuentra alejada del centro o de la media de los datos.
Una observación puede considerarse atípica si la distancia métrica entre dicha

observación y la media de los datos es grande:
12
d  xi , x    xi  x   xi  x 
T
(1.22)

Para identificar las observaciones atípicas, podríamos construir un histograma

de estas distancias y determinar si existen puntos muy alejados respecto a los demás.

Sin embargo, esta medida de distancia no es correcta cuando existe

dependencia entre observaciones (relación lineal). Ello se debe a que la distancia
euclidiana no considera la estructura de correlaciones entre los datos; una alternativa es
estandarizar previamente los datos en forma multivariante. La estandarización típicamente
utilizada es la siguiente:
xki  xk
zki  (1.23)
V  xk 
Luego, se puede construir la distancia euclidiana pero con las variables

estandarizadas:
12
d  zi , z    zi  z   zi  z 
T
(1.24)

b) Efectos de los Datos Atípicos
Las consecuencias incluso de una única observación atípica pueden ser

graves: distorsionar las medias y desviaciones típicas de las variables y destruir eventuales
relaciones existentes entre ellas.
Consideremos que tenemos una muestra de tamaño n con observaciones de

un vector p-dimensional x. Supongamos ahora que introducimos una observación atípica a,
que corresponde también a un vector de p variables. Sea x el vector de medias de las p
variables y V la matriz de varianzas y covarianzas sin el dato atípico; sea xa el vector de
medias de las p variables y Va la matriz de varianzas y covarianzas con el dato atípico. Se
comprueba fácilmente que:
ax 
xa  x    (1.25)
 n 1 
 n    a  x  a  x T  n 
Va    V    (1.26)
 n 1 n 1   n  1 
 
Las expresiones anteriores indican que un solo dato atípico puede afectar de
manera importante el vector de medias y la matriz de varianzas y covarianzas.

El efecto del dato atípico depende, además de su magnitud, de su ubicación,

particularmente la matriz de varianzas y covarianzas.
c) Identificación de Datos Atípicos
Una regla simple y automática para detectar datos atípicos es la siguiente:
xki  mediana  xk 
 4,5 k  1, 2,...., p (1.27)
MEDA  xk 
MEDA (xk) es la mediana de las desviaciones absolutas xki  mediana  xk  ,

que es una medida robusta de las dispersión.
Por otra parte, si el número de datos no es muy grande, los diagramas de

dispersión pueden ayudar a detectar datos atípicos.
Otra alternativa corresponde a escoger el intervalo que albergue a un

88,88% de las observaciones. El intervalo será el siguiente:
x 
k V  xk  ; xk   V  xk   k  1, 2,...., p (1.28)
Se suele considerar  = 3. Esta expresión proviene de la desigualdad de

1
Chebychev, ya que en el intervalo definido se encuentra una proporción 1  2 de las

observaciones. Si  = 4, se albergan el 93,5% de las observaciones.

2 REGRESIÓN LINEAL MÚLTIPLE
La econometría es la aplicación de métodos estadísticos y matemáticos al

análisis de datos, generalmente económicos, biológicos y sociológicos, a fin de otorgar un
contenido empírico sobre diferentes teorías, y así verificarlas o refutarlas.
El modelo de regresión lineal es el único escenario en econometría en el que

es factible contrastar fehacientemente la capacidad de predicción de los modelos
ajustados, mediante la aplicación de diversos test específicos. Otros modelos
econométricos, como por ejemplo modelos de elección discreta (Logit, Probit) o de variable
dependiente limitada (Tobit, Selección Muestral), si bien pueden estimarse mediante
técnicas econométricas, no existe un indicador de bondad de ajuste tan preciso como en el
caso de la regresión lineal.
Mediante un modelo de regresión lineal múltiple (RLM) tratamos de explicar el

comportamiento de una determinada variable, que denominaremos variable a explicar,
variable endógena o variable dependiente, (y representaremos con la letra Y) en función
de un conjunto de k variables explicativas x1 , x2 ,...., xk mediante una relación de
dependencia.
Y  f ; X   (2.1)
En el caso del modelo de RLM, la forma funcional es la siguiente:
Y  X   (2.2)
 y1   0   1 x11 x12 .... x1k   1 

    1 x  
y  x22 .... x2 k  
Y  2 ,   1 , X  21
,   2
 ....   ....  ....   .... 
       
 yn   k   1 xn1 xn 2 .... xnk   n 
 Y es el vector de variables dependientes (n x 1)
  es el vector de parámetros o coeficientes de calibración (k + 1 x 1). Normalmente,

se considera que hay k variables explicativas más un témino constante o intercepto
(representado por la columna de unos en la matriz X).

 X es la matriz de variables independientes o explicativas; observaciones conocidas

que incluye una columna con unos (n x k +1). También se les denomina regresores.
  es el vector de errores o residuos no observados (n x 1); también se le denomina

perturbación, término aleatorio o estocástico (para el caso de series de tiempo).
Los parámetros miden la intensidad media de los efectos de las variables

explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de
Y
la variable a explicar respecto a cada una de as variables explicativas:  j  .
x j
El error , por su parte, aparece por varias razones. Las tres principales
razones son las siguientes:
i. Muchas veces no es posible captar la totalidad de variables que explican un

determinado fenómeno. Es decir, se omiten algunas variables que pueden ser
más o menos relevantes en la especificación del modelo. Esto implica que la
naturaleza de la relación económica no está correctamente especificada.
Evidentemente se espera que en un modelo se especifiquen todas las
variables relevantes. Sin embargo, muchas de las variables omitidas pueden
incluso tener una influencia suave o irregular, por lo que la perturbación
busca representar la influencia neta de la suma de un gran número de
variables de tamaños y efectos independientes.
ii. Mediciones con Error de las variables explicativas o en la variable explicada.

Muchas veces no es posible obtener un valor preciso para las variables que
se desea estudiar o incorporar en los modelos. Por ejemplo, cuando se miden
tiempos de viaje en transporte público o consumo de combustible de los
automóviles. Sin embargo, y como veremos más adelante, si las variables
explicativas son medidas con error, se obtienen estimaciones sesgadas en la
regresión lineal, y si la variable explicada es medida con error, se produce
ineficiencia en la estimación (aumento de la varianza).
iii. Indeterminación humana, es decir, las personas o individuos se comportan de

manera diferente frente a los mismos estímulos. Elerror busca por lo tanto
representar esta aleatoriedad inherente al comportamiento humano.

2.1 Supuestos del Modelo
Trataremos de estimar el modelo de manera que, los valores ajustados de la

variable endógena o explicada, resulten tan próximos a los valores realmente observados
como sea posible. Debe notarse que el modelo corresponde a una esperanza
condicionada:
E Y / X   X  (2.3)
A fin de poder determinar las propiedades de los estimadores obtenidos al

aplicar distintos métodos de estimación y realizar diferentes contrastes, hemos de
especificar un conjunto de supuestos sobre la RLM que hemos formulado. Existen tres
grupos de supuestos: los supuestos sobre el término de perturbación, los supuestos
sobre las variables explicativas, y los supuestos sobre los parámetros del modelo.
2.1.1 Supuestos Sobre la Perturbación
 Valor esperado de la perturbación es cero: E   j   0 ,  j .
 Homocedasticidad: todos los términos de perturbación tienen la misma varianza

(varianza constante): V   i   V   j = 2 ,  i  j . Por tanto, todos los términos de
la diagonal principal de la matriz de varianzas y covarianzas serán iguales.
 No Autocorrelación: los errores son independientes unos de otros, por lo que la

matriz de varianzas y covarianzas es una matriz diagonal (fuera de la diagonal
principal todo son ceros): E   i ,  j   0 ,  i  j . Luego, considerando las hipótesis
de homocedasticidad y ausencia de autocorrelación, la matriz de varianzas y
covarianzas tiene la siguiente estructura:
 2 0 0 .... 0 
 
0 2 0 .... 0 
V      2 I (2.4)
 .... .... 
 2
 0 0 0 ....  
 La perturbación o error presenta una distribución normal:   N  0;  2 I  .

En síntesis, en un modelo bueno el error es impronosticable.
2.1.2 Supuestos sobre las Variables Explicativas
 Las variables explicativas son fijas o determinísticas.
 Las variables explicativas no están correlacionadas con el término de error o

perturbación: E  xi ,  i   0 ,  i .
 Las variables explicativas no presentan relación lineal exacta entre si (no existe
multicolinelidad perfecta).
 Las variables explicativas son medidas sin error.
 En el modelo no se excluyen las variables relevantes y tampoco se incluyen las

variables irrelevantes, a la hora de explicar el comportamiento de la variable
endógena.
2.1.3 Supuestos sobre los Parámetros del Modelo
 La única hipótesis que haremos acerca de los parámetros del modelo es la hipótesis
de permanencia estructural, lo que significa que los parámetros poblacionales j  j
se mantienen constantes a lo largo de toda la muestra.
2.2 Estimación por Mínimos Cuadrados Ordinarios (MCO)
Esl método de estimación de modelos de regresión lineal más famoso en el

mundo entero para efectuar investigación empírica es el de mínimos cuadrados ordinarios
(MCO). Este método intenta obtener estimadores de los parámetros de tal forma que la
variable predicha Yˆ se parezca lo más posible a la variable observada (Y), es decir, se
 
musca minimizar la diferencia Yˆ  Y . Sin embargo, no basta sólo con minimizar esta
diferencia, como se observa en la siguiente Figura:

Figura 2.1
Ajuste Según Minimización del Error
En la Figura 2.1 se observa claramente que si el criterio de ajuste fuera

simplemente minimizar los la diferencia entre los valores observados de las Y (puntos) y los
valores modelados (línea recta azul), los dos conjuntos de datos representados por los
puntos negros y rojos tendrían el mismo ajuste. Evidentemente, es mejor el ajuste de los
puntos rojos. Por lo tanto, minimizar las diferencias entre valores observados y modelados
no es un buen criterio.
Una segunda alternativa podría se minimizar el valor absoluto de las

diferencias entre los valores observados y modelados, mitigando el problema expuesto en
el párrafo anterior. Sin embargo, este segundo criterio también tiene sus detractores, como
se observa en la siguiente Figura:

Figura 2.2
Ajuste Según Minimización del Valor Absoluto del Error
En la Figura 2.2 se observa los puntos negros presentan tres casos en que el
ajuste es exacto y otros tres casos en que el ajuste es malo. En el caso de los puntos rojos,
se observa que el ajuste en todos los casos es relativamente bueno. Para muchos
modeladores, el ajuste de los puntos rojos es preferible al de los puntos negros. Sin
embargo, la opinión en este segundo caso es dividida, ya que en determinadas situaciones
puede ser preferible predecir exactamente un número pequeño de casos a cambio de fallar
groseramente en otros, en lugar de estar cerca en todos, pero sin apuntar exactamente a
ninguno. Suponga por ejemplo que usted tiene un modelo que predice los números del
Loto; qué preferiría usted si jugara 6 veces, apuntarle al total de los números 3 veces y a
ningún número las otras tres veces, o fallar por poco las 6 veces. Evidentemente, en este
ejemplo es preferible el primer modelo.
Una tercera alternativa de criterio es minimizar el cuadrado de las diferencias

entre los valores observados y los modeloados. Esto permite, por una parte, penalizar los
errores y, por otra parte, castigar a aquellos puntos que se alejen mucho del valor
observado. Por lo tanto, este criterio penaliza más fuertemente a aquellos errores grandes
en magnitud que aquellos errores pequeños. A este criterio se le denomina Mínimos
Cuadrados Ordinarios o simplemente MCO (los mínimos cuadrados generales, que es un
criterio adicional que otorga un peso relativo a cada observacón, se presenta en los
próximos Capítulos).

Sin embargo, la principal razón del éxito de la estimación por MCO no se

debe a la minimización de la suma de errores al cuadrado, ya que ello poco nos dice
respecto de la real capacidad explicativa de las variables. La razón de su éxito se debe a
que sus resultados superan al de otros criterios (como los dos anteriores), y además a su
gran simplicidad en términos computacionales.
2.2.1 Vector de Parámetros
La estimación de MCO se realiza con el criterio de minimizar los cuadrados

de los errores inducidos por el modelo poblacional. Luego, debe resolverse el siguiente
problema de optimización:
Q= Y  X   Y  X  
T
min (2.5)
  
T
min Q  Y TY   T X TY  Y T X    T X T X   0 (2.6)
 
y dado que  X     T X T se obtiene:

T
min Q  Y TY  2 T X TY   T X T X  (2.7)
 
Q
 2 X T Y  2 X T X   0  X T Y  X T X  (2.8)

Si X tiene rango (k + 1) de la ecuación normal (2.8) se obtiene entonces la

siguiente solución única:
ˆ   X T X  X T Y
1
(2.9)
Debe notarse que la expresión (2.9) corresponde a la razón entre la

covarianza de X e Y y la varianza de X. Si X tiene rango menor que (k + 1), es decir,
existe dependencia lineal en las observaciones, de la ecuación normal (2.8) deja de
obtenerse una única solución. Por otra parte, si X tiene rango mayor que (k + 1), el
problema queda indeterminado (más parámetros que ecuaciones).

Por otra parte, la estimación de la varianza de ̂ se obtiene de la siguiente

manera:
  
V ˆ  E  ˆ    ˆ    
T
(2.10)

     E   X T X 1 X T    X T X 1 X T   
T
E  ˆ            
T
ˆ   (2.11)
   
 
V ˆ  E  X T X   X T  T X  X T X  
1 1
(2.12)
 
 
V ˆ   X T X  E  X T  T X   X T X 
1 1
(2.13)
 
V ˆ   X T X  X T E  T  X  X T X 
1 1
(2.14)
 
V ˆ   X T X  X T  2 I  X  X T X 
1 1
(2.15)
 
V ˆ   2  X T X 
1
(2.16)
Sin embargo, es necesario un estimador de  2 . Es directo demostrar a partir

de (2.9) y (2.2) que:
ˆ  MY  M  X      MX   M   M  (2.17)

donde M  I  X  X T X  X T
1
 es una matriz de n x n simétrica M  M 
T
e
idempotente  M  M T M  . Luego, de (2.17) se obtiene:
ˆT ˆ   T M  (2.18)
E  ˆT ˆ / X   E   T M  / X  (2.19)
E tr  ˆT ˆ / X    E tr   T M  / X   (2.20)
tr  ME   T / X    tr  M  2 I    2tr  M  (2.21)

   
 2tr  M    2tr I  X  X T X  X T   2 tr  I n   tr X  X T X  X T  (2.22)
1

1
 2 tr  I n   tr  I k     2  n  k  (2.23)
Por lo tanto se obtiene:
E  ˆT ˆ / X    2  n  k  (2.24)
ˆT ˆ
ˆ 2  (2.25)
n  k 
Finalmente, de (2.16) y de (2.25) resulta:
ˆT ˆ
   XTX 
1
Vˆ ˆ  (2.26)
n  k 
2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras Finitas y

Muestras Grandes)
i. El estimador MCO es insesgado y eficiente:
ˆ   X T X   X   X   
1 T
(2.27)
ˆ   X T X  X X  X X  X 
1 T T 1 T
(2.28)
ˆ     X T X   X     ˆ      X X   X  
1 T T 1 T
(2.29)
 
E ˆ    E  X T X   X T   
1
(2.30)
 
 
E ˆ    E  X T X   X T        X T X  E  X T  
1 1
(2.31)
 
 
E ˆ     X T X  E  X T  E   
1
(2.32)
 
E ˆ   (2.33)

Figura 2.3
Ilustración del Sesgo en la Estimación MCO de 
Densidad
SESGO
 
E ˆ    
E  Estimador de 
Para demostrar que ̂ presenta la mínima varianza:
b  X T 1

X  X T  C Y  ˆ  CY (2.34)
E b   X T 1

X  X T  C X    I  CX     (2.35)

   X X  

T
V  b   E   X T X  X T  C  T
1 T 1
XT C  (2.36)
 
 X   
T
X  X T  C E   T   X T X  X T  C
1 1
V b  T
(2.37)
   
T
 X T X  X T  C  2I XT X  XT C
1 1
V b  (2.38)
V b   2  X T 1
 
X   CC T  V ˆ   2  CC T   V ˆ   (2.39)
ˆ  N   ;  2  X T X  
1
(2.40)
 

Figura 2.4
Ilustración de la Eficiencia en la Estimación MCO de 
N = 800
N = 300
Densidad
N = 100
N = 30
 
E ˆ   Estimador de 
A partir de las dos Figuras anteriores surge la siguiente pregunta: ¿qué es

preferible, un estimador insesgado o uno eficiente? Surge entonces el concepto de Error
Cuadrático Medio (ECM):
     
2
ECM ˆ   sesgo ˆ   V ˆ (2.41)
 
También es posible dar un peso relativo al cuadrado del sesgo y a la

varianza, dependiendo lo que el modelador valore más:
     
2
ECMP ˆ    sesgo ˆ   1    V ˆ (2.42)
 
La varianza mide la dispersión en torno a la media del parámetro estimado,

mientras que el ECM mide la dispersión en torno al verdadero parámetro poblacional. Si el
estimador es insesgado, ambos coiniciden. El concepto del ECM se aprecia en la siguiente
Figura:

Figura 2.5
Ilustración del Error Cuadrático Medio (ECM) de 
Densidad
SESGO
 
E ˆ   E    Estimador de 
ii. El estimador MCO es consistente: plim ˆ   (sin sesgo ni varianza)

n 
Figura 2.6
Ilustración de la Consistencia en la Estimación MCO de 
Densidad
 
E ˆ   Estimador de 

iii. Otras Propiedades:
 El valor medio de los residuos es nulo, lo cual implica que la suma de los
residuos es igual a cero. Esta característica es bastante trivial pues se deduce de la
misma metodología de los mínimos cuadrados, la cual impone a través de su primera
ecuación normal que esta suma sea cero (columna de unos en matriz X).
Si el modelo de regresión posee una constante entonces la primera derivada parcial

del lagrangeano (ver (2.8)), o primera expresión de ecuación normal, indicará que
la suma de los residuos muestrales es cero.
Sin embargo, si el modelo no posee una constante en su formulación, esta condición

no necesariamente se cumplirá pues nunca surge como condición necesaria de
primer orden al no tener nunca que derivar con respecto a este parámetro.
Puede sin embargo darse el caso que la representación de los datos haga que este
parámetro sea efectivamente cero, por ejemplo si las series Y, X se entregan en forma
de desviación de sus propias medias, lo cual implicaría que la suma de estos residuos
también lo será (por construcción el intercepto es cero). De (2.8) se obtiene:
2 X T Y  2 X T X   0  X T Y  X    X T   0 (2.43)
 Los datos muestrales y modelados de Y tienen igual media. Esta

característica se deduce de la noción que el valor actual de la variable dependiente
se puede descomponer en lo que estima el modelo y el residuo. Una implicancia de
esta condición es que la metodología de los mínimos cuadrados hace que la recta de
regresión que pasa a través de la nube de puntos pase justo por el punto que
representa a la media de X y la media de Y. Es decir, el hiperplano de la regresión
pasa por el punto de las medias de los datos, puesto que la primera ecuación normal
implica Y  X  .
 La media de los valores estimados por la regresión es igual a la media de los valores
actuales; ello se deduce de (2.8) ya que Yˆ  X  .

Figura 2.7
Hiperplano de la Regresión y Medias de las Variables
Yˆ  X ˆ
X X
 Los residuos no se correlacionan con la variable independiente (ver (2.43)).
 Los residuos no se correlacionan con la variable dependiente estimada.
Todos los resultados anteriores requieren que la regresión tenga un término

constante.
2.2.3 Teorema Central del Límite
 Caso univariante: una sola muestra de tamaño n con media  y varianza  2 .

d
n  xn     N 0;  2  (2.44)
 Caso univariante con desigualdad de varianzas: varias muestra con medias

i. y varianzas  i2 .

d
n  xn   n   N 0;  2  (2.45)
1 2 1
donde:  2 
n
  1   22  ....   n2  y  n   1   2  ....   n 
n

 Caso multivariante: un vector de muestras de tamaño n con media  y matriz de
varianzas y covarianzas Q.
 d
n  X n     N  0; Q  (2.46)
 Caso multivariante con desigualdad de varianzas: varias muestra con


media i y matriz de varianzas y covarianzas Qi .
 d
n  X n   n   N  0; Q  (2.47)
1  1   
donde: Q  lim
n  n
 Q1  Q2  ....  Qn  y  n   1   2  ....   n  .
n
 Distribución de una función g  xn  :
d   g     2 
n  g  xn   g      N 0;     2
 (2.48)
  x  
Lo anterior se obtiene de estimar la media y la varianza de las extensiones en

Series de Taylor de la función g  xn  :
g   
g  xn   g      xn    (2.49)
x
Para un conjunto de funciones, el resultados es:
    d
n  g  xn   g      N 0; g T  Q g  (2.50)

2.2.4 Indicadores de Bondad de Ajuste
Lo qué se intenta es determinar objetivamente cuán bueno es el modelo que se

ha ajustado:
Y X  
  (2.51)

  
porcion explicada porcion no explicada
   X ˆ  ˆ 
T
Y T Y  X ˆ  ˆ (2.52)
Y T Y  ˆ T X T X ˆ  ˆT ˆ (2.53)
ˆ T X T X ˆ ˆT ˆ ˆ T X T X ˆ ˆT ˆ
1    1 (2.54)
Y TY Y TY Y TY Y TY
ˆT ˆ
R2  1  (2.55)
Y TY
Una expresión análoga para R2 pero más general es la siguiente:
 ˆ 
2
i
R2  1 i
(2.56)
 Y  Y 
2
i
i
Las expresiones (2.55) y (2.56) son idénticas entre sí sólo si la variable Y tiene
media cero. La expresión (2.56) es la correlación al cuadrado entre los valores observados
de Y y las predicciones calculadas por la ecuación de regresión estimada Yˆ . El valor de
R2 indica el porcentaje de la varianza de Y que es explicada por las variables X. Dicho de
otra forma, R2 mide el éxito de la ecuación de regresión, dentro de la muestra, para
predecir Y.
Notar que el valor de R2 no guarda relación con la calidad del estimador de

, ya que uno puede tener una buen estimador de y un bajo R2 producto simplemente de
una alta varianza del error. Por ora parte, es interesante notar que, en presencia del
intercepto (término constante de la regresión), el valor del R2 se ubica siempre entre 0 y 1.

El uso del R2 debe ser cuidadoso, ya que dependerá de la escala de las

variables explicativas y de la variable explicada; por ejemplo usar valores en niveles, en
logaritmos o en porcentajes para el mismo fenómeno entrega normalmente diferentes
valores de R2. tampoco es razonable comparar R2 entre distintas muestras.
Sin embargo, la utilización de (2.56) como indicador general de bondad de

ajuste, si bien es teóricamente robusta, presenta algunos problemas, razón por la cual
muchos econometristas no le dan una gran importancia. El principal de ellos hace
referencia al número de grados de libertad utilizados en la estimación de los parámetros.
De hecho, R2 nunca decrecerá si se añaden nuevas variables a la ecuación

de regresión. Es relativamente trivial demostrar que al agregar una variable adicional (y su
respectivo parámetro) al modelo de regresión, se obtiene un nuevo R2 mayor o al menos
igual que el original, incluso si la variable adicional es superflua (no aporta información).
No obstante, adicionar variables tiene un costo en términos de grados de

libertad, lo que se traduce en una reducción en la significancia de los parámetros de las
variables originales. Es por ello que se considera un valor ajustado como el siguiente:
1
  i 
2
 n  1  1   n  k  i Vˆ   
R 2  1  1  R 2   1 (2.57)
n  k  1
  Yi  Y 
2 Vˆ Y 
 n  1 i
La expresión (2.57) tiene la ventaja de que podría reducirse si se añade una

variable poco importante dentro del conjunto de variables explicativas. Incluso, este valor
ajustado podría ser negativo en algunos casos extremos, particularmente cuando el ajuste
es deficiente. En el límite, si Y y X tienen un ajuste cercano a cero  R 2  0  , se tendría un
k  1
valor de R 2  . Por otra parte, si hay más de una variable explicativa, R 2  R 2 .
nk
Finalmente, un contraste de significancia de la regresión como un todo,

corresponde a analizar si la totalidad de los coeficientes, a excepción del intercepto, son
distintos de cero. Si todas las pendientes son cero, el coeficiente de correlación múltiple R 2
también lo será; luego, es posible basarse en el valor de R 2 para contrastar esta hipótesis.
El contraste es el siguiente:

R2  n  k 
F k 1;n  k   (2.58)
1  R 2   k  1
Valores grandes para la expresión (2.58) dan evidencia en contra de la
hipótesis nula (parámetros iguales a cero).
Debe considerarse que cualquier muestra que presente la misma

media y misma varianza, presentará por lo tanto los mismos valores
estimados para los parámetros (ver el cuarteto de Anscombe).
Figura 2.8
Cuarteto de Anscombe
12,00 10,00
9,00
10,00
8,00
7,00
8,00
6,00
Variable Y
Variable Y
6,00 5,00
4,00
4,00
3,00
2,00
2,00
1,00
0,00 0,00
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0
Variable X Variable X
14 14,00
12 12,00
10 10,00
Variable Y
Variable Y
8 8,00
6 6,00
4 4,00
2 2,00
0 0,00
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0 20,0
Variable X Variable X

Figura 2.9
Estimación del Cuarteto de Anscombe
1 0
0,50 3,00
se( ) 0,12 1,12
R2-se(y) 0,67 1,24
F(k; n-k+1); (n-k) 17,99 9,00
Var Mod; Var Error 27,51 13,76
t-student 4,24 2,67
2.2.5 MCO vs Máxima Verosimilitud
El método de estimación por MCO consiste en asignar valores numéricos a los

parámetros desconocidos de manera que la suma cuadrática de errores sea mínima y sólo
requiere que la matriz X T X sea invertible. A continuación veremos un método de
estimación alternativo, el método de máxima verosimilitud.
El método de máxima verosimilitud (MV), un método de estimación alternativo,

propone en cambio como un estimador el valor que maximiza la probabilidad de obtener
la muestra ya disponible. El método MV se basa, principalmente, en la distribución que
sigue el término de error. A tales efectos, se suele suponer que las perturbaciones aleatorias
se distribuyen con una distribución Normal que, además de cumplir las propiedades de una
muestra grande, es una aproximación cómoda y fácil de tratar.
Suponiendo que el término de error sigue una distribución normal, y dado que
la media del error cero, se tiene que:
1  2 
f  i   exp   i 2  ,  i  1,...., n (2.59)
 2  2 
Maximizar la probabilidad de obtener la muestra ya disponible equivale

maximizar la función de densidad conjunta del vector aleatorio . Para ello, hemos de
suponer homoscedasticidad y ausencia de autocorrelación. Luego, la expresión de la
función de densidad conjunta es la siguiente:

    i 2 
n
n
 1   i 
 f  i     exp   2 2 
  2 
(2.60)
i 1  
 
Dado que  sigue una distribución Normal Multivariante de orden k, la

variable Y, al ser una combinación lineal de las perturbaciones aleatorias, también se
distribuirá con una distribución Normal Multivariante. Así, para que la función de densidad
conjunta sea una función de verosimilitud, el vector aleatorio  ha de expresarse en función
del vector Y, es decir:
 1 
n
 Y  X  T Y  X   
L Y ;  ,    
2
 exp    (2.61)
  2  2  2

 
Maximizar la función de verosimilitud (2.61) equivale a maximizar la

probabilidad que los datos (X) provengan de la distribución considerada. Luego, el
estimador de máxima verosimilitud maximiza por lo tanto dicha probabilidad.
Dado que (2.61) es una función estricta creciente y monótona, maximizarla

equivale a maximizar una transformación monótona, como por ejemplo logaritmo natural:
n n 1
ln L   ln  2   ln  2 2   2 Y  X   Y  X  
T
(2.62)
2 2 2
Derivando (2.62) respecto a  y a  2 , se obtienen los siguientes resultados:
ˆMV   X T X  X T Y  ˆMCO
1
(2.63)
ˆ 2

ˆ ˆ   ˆ
T
2

ˆ ˆ 
T
(2.64)
MV MCO
n nk
Observamos que el estimador de MV de  coincide con el MCO, con lo que

tendrá las mismas propiedades: será lineal, insesgado, óptimo y consistente. Es fácil ver que
el estimador de MV de  2 , en cambio, resulta diferente del MCO y es sesgado a la baja
aunque asintóticamente insesgado (cuando n   ).

El estimador de MV es consistente, asintóticamente normal, asintóticamente

eficiente e invariante. La matriz de varianzas y covarianzas asintótica del estimador de MV
corresponde al negativo de la inversa de la matriz informacional I   :
  2 ln L 
I    E  T  (2.65)
   
1
1    2 ln L  
  I       E  T   (2.66)
     
Notar que en el caso de la distribución normal,     ,  2  .
2.2.6 Interpretación Económica
La interpretación económica nos permite comprobar si las estimaciones

obtenidas son coherentes con la teoría económica. Según la especificación del modelo, la
interpretación y significación de los parámetros puede variar. Si el modelo está
especificado en niveles, el parámetro refleja el efecto medio que tiene una variación
unitaria de la variable explicativa sobre la variable endógena:
Y
j  (2.67)
x j
En cambio, si el modelo está especificado en logaritmos, los parámetros

pueden interpretarse como una elasticidad, como es el caso de la función de producción
de Cobb-Douglas:
 ln Y
j  (2.68)
 ln x j
Q P  ln Q
Recordar que la elasticidad precio-demanda es    .
P Q  ln P

2.2.7 Diagrama de Venn
Considere una variable Y que la deseamos regresionar con una variable X,

obteniendo un término de error . La variabilidad de la variable dependiente Y está
representada por el círculo amarillo de la Figura 2.10. La variabilidad de la variable
independiente X está representada por el círculo blanco. La superposición de ambos
círculos, representada por el área azul, representa la variación que tienen en común ambas
variables. Mientras mayor sea el área azul, mayor será la correlación entre ambas
variables, por lo que la información utilizada para estimar el parámetro x es mayor. La
parte del círculo amarillo que no se superpone al círculo blanco corresponde a la variación
en Y que no es explicada por X, y por lo tanto se traspasa al error . El R2 puede en este
caso interpretarse como la razón entre el a´rea azul y el círculo amarillo.
Figura 2.10
Diagrama de Venn Para Una Variable Explicativa
Consideremos ahora la Figura 2.11 siguiente, que representa un diagrama de

Venn para 2 variables explicativas:

Figura 2.11
Diagrama de Venn Para Dos Variables Explicativas
El área naranja más el área roja representa la correlación conjunta (grado de

colinealidad) que tienen las variables X y Z.
Si regresionamos Y sólo sobre X, se utilizaría el área azúl más la roja. SI

regresionamos Y sólo sobre Z, usaríamos el área verde más la roja. Luego, el área roja
representa aquela variación en Y que es explicada tanto por X como por Z, debido a que
estas dos variables explicativas están correlacionadas.
Por lo tanto, se observa claramente que regresionar Y sobre X y Z

simultáneamente, genera resultados diferentes que regresionar Y sobre X o Y sobre Z
separadamente. Pero, ¿qué pasaría si X y Z están incorrelacionadas?

Figura 2.12
Diagrama de Venn Para Dos Variables Explicativas Incorrelacionadas
Si X y Z están incorrelacionadas, estimar separademente Y sobre cada

regresor X y Z entregará los mismos resultados que regresionar Y sobre los dos regresores.
Sin embargo, se observa claramente que incluir ambas variables aumenta la proporción
explicada de la variación de Y (excepto que el área azul o el área verde fueran cero, es
decir, que no haya intercección entre Y y X o entre Y y Z). El R2 en este caso puede
interpretarse como la razón entre la suma de las áreas azul más la verde y el círculo
amarillo.
2.2.8 Interpretación Geométrica de los MCO
Considere el modelo Y = 1X1 y 2X2 + . Considerando las variables como

vectores, se puede generar la siguiente Figura:

A
C
Y X2
X1
B
La regresión de Y sobre X1 y X2 corresponde a la proyección de dicho vector

sobre el hiperplano generado por las variables independientes, en este caso el plano
formado por X1 y X2:
A
C
Y X2
F2
Yˆ D
O
F1
X1 B
Luego, el valor de los parámetros estimados es necesario descomponer el

vector proyectado Yˆ sobre las distintas variables X, obteniendo en este caso los trazos
definidos por OF1 y OF2, por lo que se obtiene las siguientes estimaciones MCO:

OF1 OF2
ˆ1  , ˆ2  (2.69)
OB OC
Es interesante notar que los estimadores de los parámetros

pueden ser mayor o menor que uno, y también positivos o negativos,
dependiendo de la estructura de los vectores considerados.
Notar también que ˆ  Y  Yˆ  AD .
A
C
X2
ˆ
̂ 2
Yˆ D
O
̂1
X1 B
Por otra parte, teniendo en cuenta que las variables están medidas en
desviaciones respecto a sus medias (estandarizadas), el coeficiente de determinación
puede escribirse como:
Yˆ T Yˆ
R (2.70)
Y TY
Dado que Yˆ T Yˆ  Yˆ T Y  ˆ   Yˆ T Y  Yˆ T ˆ  Yˆ T Y se obtiene:
Yˆ T Yˆ  Yˆ T Yˆ Yˆ T Y  Yˆ T Y Yˆ T Y
R2    R  (2.71)
Y T Y  Yˆ T Yˆ Y T Y  Yˆ T Yˆ Y T Y  Yˆ T Yˆ
La expresión anterior es el coeficiente de correlación simple entre Yˆ e Y.

Por otra parte, se tiene que:
OD Yˆ T Yˆ Yˆ T Y
cos     (2.72)
OA Y TY Y T Y  Yˆ T Yˆ
A
C
Y X2
F2
 Yˆ D
O
F1
X1 B
Por lo tanto, el coeficiente de correlación múltiple o R2 es igual al coseno del

ángulo que forma el vector Y con el plan formado por X1 y X2.
El coeficiente de correlación parcial entre Y y X2, dado X1, corresponde al

coeficiente de correlación simple entre los residuos de la regresión de Y y X2 ambas sobre
X2 por separado. Luego, este coeficiente será igual al coseno del ángulo (1 ) que forman
ambos vectores de residuos:
AG1
cos 1  (2.73)
CG2

A
C
Y X2
F2
 Yˆ 1
O
F1
G1
G2
X1 B
El contraste F en este caso se forma a partir de un cuociente. En el numerador

es la diferencia de la suma de los cuadrados de los residuos con y sin restricciones; en el
denominador la suma de los cuadrados de los residuos sin restricciones.
ˆ ˆ
T
R R  ˆT ˆ  p
 F p ;n  k  (2.74)
ˆT ˆ  n  k 
Luego, si se desea contrastar la hipótesis ˆ2  0 (por lo que no existiría

correlación entre Y y la variable X2), el vector de residuos con restricciones  ˆR  será la
diferencia entre el vector Y y el vector que resulta de proyectar Y sobre X1, al que
denominaremos Yˆ1 , y se tendrá que Yˆ1  OG1 . En consecuencia: ˆR  Y  Yˆ1  AG1 .
Análogamente, el vector de errores sin restricción es ˆ  Y  Yˆ  AD
Finalmente, se tendrá la siguiente expresión:
 AG  1
2
  AD 
2
 1F (2.75)
1;n  2
 AD   n  2 
2

3 INFERENCIA Y PRECICCIÓN
3.1 Contraste de Restricciones
3.1.1 Contraste de una Restricción Lineal
Dado que la distribución de los coeficientes de regresión pueden ser

caracterizados a partir de ˆ  N   ;  2  X T X   , y dado que se ha supuesto
1
 
independencia estadística entre los parámetros y el vector de residuos, entonces el
estadístico:
 ˆ     t
i i
(3.1)
se  ˆ 
 nk 
i
sigue una distribución t con (n - k) grados de libertad. Notar que al ser un análisis asintótico
(n grande), la distribución t converge a una distribución normal. Notar además que el
 
término se ˆ   2 S ii , donde Sii es el i-ésimo elemento de la diagonal de  X T X  .
1
i
Para llevar a cabo hipótesis sobre el valor de un coeficiente puede emplearse

un estadístico de la t tradicional. Si el valor del parámetro calibrado ̂ difiere
significativamente del verdadero valor de , deducimos entonces que los datos muestrales
no son consistentes con la hipótesis nula.
Un contraste común consiste en si un parámetro ̂ es significativamente

distinto de cero. En tal caso, el estadístico es:
î
t (3.2)
 
se î
En general, si  
î   i se î  t / 2 , donde /2 define el grado de
confiabilidad exigido de la distribución t con (n - k) grados de libertad, entonces la
hipótesis se rechaza y se dice que el coeficiente es estadísticamente significativo; es decir,
la variable asociada a dicho componente ayuda a describir el fenómeno estudiado.

En otras palabras, t es una medida de la diferencia entre la función hipotética

de los verdaderos coeficientes y la misma función de las estimaciones de dichos
coeficientes. Si la hipótesis es verdadera, las estimaciones deberían reflejarlo al menos
dentro de los rangos de variabilidad muestral. El valor t = 1,96 (correspondiente a un
grado de significatividad del 95% en muestras grandes) normalmente es el utilizado como
valor de referencia.
Un intervalo de confianza para i estaría dado por:
  
 î  t 2 se î   i  î  t 2 se î    1   (3.3)
3.1.2 Contraste de Restricciones Lineales Conjuntas
Consideremos las siguientes restricciones lineales del modelo de RLM:
R11 1  R12  2  ....  R1k  k  q1 

R21 1  R22  2  ....  R2 k  k  q2 
 R  q (3.4)
.... 
R p1 1  R p 2  2  ....  R pk  k  q p 
La matriz R tiene k columnas y p filas (restricciones); con las restricciones hay

por lo tanto sólo k - p parámetros libres.
La hipótesis nula corresponde en este caso a R = q. A partir del valor

numérico que tome el estadístico de contraste es posible determinar si la diferencia entre
R y q es estadísticamente significativa o no lo es. La regla de decisión es la siguiente:
 Rˆ  q   Rˆ  q 
1
 R  X T X 1 RT 
T
  p
 F p ;n  k  (3.5)
ˆ ˆ  n  k 
T
ˆT ˆ
donde ˆ 2   ˆT ˆ  ˆ 2  n  k  .
nk
 Si F  F p ;n  k  el estadístico de contraste se encuentra fuera de la región de

aceptación, lo cual nos lleva a rechazar la hipótesis nula. Por tanto, las restricciones
lineales no son ciertas en el ámbito de la población.

 Si F  F p ;n  k  el estadístico de contraste cae dentro de la región de aceptación,

con lo cual no podemos rechazar la hipótesis nula. En consecuencia, podemos
afirmar que las restricciones son ciertas en el ámbito de la población.
En el caso particular que se desee testear que todos los k parámetros de la

regresión, excepto la constante o intercepto, son significativamente distintos de cero, se
tendrá que R = Ik-1 y q = (0, 0, …, 0). Luego, de (3.5) se obtiene:
ˆ T  X T X  ˆ  k  1
 Fk 1;n  k  (3.6)
ˆT ˆ  n  k 
y dado que ˆ   X T X  X T Y se obtiene finalmente:

1
R2  n  k 
F (3.7)
1  R 2   k  1 k 1;nk 
Esta última expresión (3.7) nos indica que aquellas regresiones que tienen
bajo coeficiente de ajuste, es decir un bajo R2, tienen a su vez un test F también muy bajo,
lo cual permitiría decir que la probabilidad de rechazar la hipótesis es muy baja.
3.1.3 Contraste Basado en una Región de Confianza
En el modelo de RLM, una región de confianza para un conjunto de

coeficientes sería el conjunto de valores para los cuales la hipótesis de que el conjunto de
coeficientes verdaderos iguala a estos valores no sería rechazada. El contraste en este caso
es:
1
1 ˆ  T  ˆT ˆ  T 1 
    X X  R  ˆ - 
T
 - R   F p ;n  k  (3.8)
2  nk  
 
En el caso de 2 parámetros ˆ1 , ˆ2 , cuyos estimadores presenten distintas
varianzas, la región de confianza está dada por una elipse en el plano ˆ1 , ˆ2 . Para  
entender este contraste, consideremos la siguiente Figura:

Figura 3.1
Región de Confianza Para Variables Incorrelacionadas
1
̂1
̂ 2 2
Considerando una significancia del 95% para cada parámetro en forma

independiente, el área del rectángulo de la Figura 3.1 sería 0,95x0,95 = 0,9025. Por lo
tanto, el rectángulo no es lo suficientemente grande, y un contraste de cada parámetro por
separado podría no se adecuado. La elipse representa un corte de la campana de Gauss a
una “altura” que representa el 95%. Luego, si se exigierea un 99%, el área de la elipse
crecería, y si se exigiera un 90%, el área sería menor.

¿Por qué se produce esta diferencia entre el rectángulo y la elipse?. La

respuesta es simple: las áreas en las cuatro puntas del rectángulo, que están fuera de la
elipse, son muy poco probables, es decir, es muy difícil que en una distribución conjunta los
2 parámetros estimados tengan valores que caigan en dichas áreas. Por otra parte, las
áreas de la elipse que caen fuera del rectangulo pasan a ser más probables, ya que
representan probabilidades condicionales. Es decir, dado que existe una distribución
divariada en el ejemplo de la Figura 3.1, es más probable obtener dos estimadores de 1 y
2 representados en el punto A que en el punto B.
Considerando que existe correlación (colinealidad) entre las variables

explicativas, el análisis es similar. Sin embargo, y como se aprecia en la Figura 3.2, los
errores que se pueden cometer son mucho mayores.
Figura 3.2
Región de Confianza Para Variables Correlacionadas
1
̂1
̂ 2 2

3.1.4 Mínimos Cuadrados Restringidos
De manera análoga al estimador de MCO, en el caso restringido se resuelve

el siguiente problema de optimización:
Q= Y  X   Y  X  
T
min (3.9)
  
T
s.a.: R  =q (2) (3.10)
Sin pérdida de generalidad, el lagrangeano del problema anterior es:
L   ,   = Y  X   Y  X    2  R   q 
T
(3.11)
L


 2 X T Y  X ˆR  2 RT   0  (3.12)
L


 2 RT ˆR  q  0  (3.13)
Dividiendo por 2 y desarrollando se obtiene la siguiente matriz particionada:
XT X RT   ˆR   X T Y 
      (3.14)
 R 0     q 
Si X T X es no singular, se obtiene entonces:
 Rˆ  q 
1
ˆR  ˆ   X T X  RT  R  X T X  RT 
1 1
(3.15)
 
 Rˆ  q 
1
   R  X T X  RT 
1
(3.16)
 
De la expresión (2.9) se observa que, si la restricción es correcta, es decir,

 
efectivamente R ˆ  q , el estimador restringido corresponde al estimador de MCO
 ˆ R 
 ˆ . Del mismo modo, el parámetro  valdría cero.

Adicionalmente, se tiene que:
 
V ˆR   2  X T X    2  X T X  RT  R  X T X  RT  R  X T X 
1 1 1 1
(3.17)
    
Matriz Positiva Definida
Luego, el estimador restringido presenta menor varianza que el estimador

MCO. Ello se explica por el valor de la información contenida en las restricciones, lo que
reduce la incertidumbre en la estimación (más grados de libertad).
3.1.5 Contraste de Restricciones No Lineales
El problema general consiste en el contraste de la hipótesis que implica una

función no lineal de los coeficiente de la regresión:
g    q (3.18)
Analizando el caso de una única restricción resulta:
  t
g ˆ  q
(3.19)
se  g  ˆ  
 nk 
 
La aproximación lineal en series de Taylor para g î implica lo siguiente:
T
 g    
 
g ˆ  g     
  
  ˆ    (3.20)
T
 g      g    
  
V  g ˆ   
     V ˆ   
  
 (3.21)
T
 g      ˆT ˆ 1   g    
  
V  g ˆ    
     n  k   XTX  
   
 (3.22)
De la expresión (3.21) se obtiene el valor requerido:
    
12
se  g ˆ   V  g ˆ  (3.23)
   

3.2 Predicción
Junto con la estimación de parámetros y la inferencia, el uso más habitual de

la regresión es la predicción.
La predicción del conjunto de regresores X0 es la siguiente:
Y 0  X 0   0 (3.24)
Sin embargo, usando el modelo estimado tendríamos:
Yˆ 0  X 0 ˆ (3.25)
que corresponde al estimador de E(Y0). Luego, el error de predicción en este caso está
dado por:

e0  Y 0  Yˆ 0  X 0   ˆ   0 (3.26)
La varianza de este error es:
      
V  e0    2  V  X 0   ˆ    2  X 0TV    ˆ  X 0 (3.27)
V  e0    2  X 0T  2  X T X   X 0
1
(3.28)
 

V  e 0    2 1  X 0T  X T X  X 0
1
 (3.29)
La expresión (3.29) representa la distancia de los elementos de X0 respecto a

la media de los datos. Esto implica que mientras más lejos estén los datos X0 de la media,
mayor será el grado de incertidumbre. El intervalo de confianza para la predicción es por
lo tanto:
 
12
Yˆ 0  t 2   2 1  X 0T  X T X  X 0 
1
(3.30)
 

Es interesante determinar cuál es el valor de X0 que minimiza la varianza de la

predicción. Para ello, se puede resolver el siguiente problema de minimización:
min X 0T  X T X  X 0
1
(3.31)
X 
s.a.: X 10  1 () (3.32)
La restricción X 10  1 se refiere al hecho de que el primer elemento de X0 es el

intercepto de la ecuación de regresión.
El lagrangeano y condiciones de primer orden son:
L  X 0T  X T X  X 0    X 10  1
1
(3.33)
1
 
L 0
 2 X X  X      0
T 1 0
(3.34)
X 0
 .... 
 
0
1
 
 T 0
X  X X 
0
(3.35)
2  .... 
 
0
La expresión (3.35) indica que X0 es proporcional a la primera columna de

XTX, por lo que se obtiene:
 n 
 n 
  xi 2 
  i 1 
X0    (3.36)
2  .... 
 n 
  xik 
 i 1 
 2
De la primera fila de (3.36) se deduce que 1  n  . En
2 n
consecuencia, podemos escribir (3.36) como:

 1 
 n 
  xi 2 n 
 i 1 
X0   (3.37)
 .... 
 n 
  xik n 
 i 1 
El lado derecho de (3.37) corresponde al vector de medias de las

observaciones. En consecuencia, la varianza del error de pronóstico es minimizada cuando
todas las nuevas observaciones de las variables independientes son iguales a sus valores
medios. A partir de (3.37), para luego sustituir en (3.29), se obtiene:
1
 
0 1 T 0
X  X X (3.38)
n  .... 
 
0
 1
V  e0    2 1   (3.39)
 n
En consecuencia, el intervalo de confianza será menor en los valores medios

de las variables de X.
Figura 3.3
Intervalo de Confianza Para las Predicciones
Yˆ  X ˆ
X X

Finalmente, la predicción se puede medir de acuerdo a diversos criterios. Sin

embargo, todos estos criterios se basan en evaluaciones ex-post, es decir, predicciones
para las que las variables exógenas no tienen que ser predichas en los n0 períodos
siguientes. Dos de estos criterios son la raíz del error cuadrático medio (RECM) y el error
absoluto medio (EAM):
1
 Y  Yˆ 
2
RECM  i i (3.40)
n0 i
1
EAM 
n0
 Y  Yˆ
i
i i (3.41)
Los dos criterios anteriores presentan evidentemente un problema de escala.

Criterios alternativos son:
1
 Y  Yˆ 
2
i i
n0
U i
(3.42)
1
 Y 
2
i
n0 i
1
  Y  Yˆ 
2
i i
n0
U  i
(3.43)
1
  Y 
2
i
n0 i
 
donde Yi  Yi  Yi 1  y Yî  Yî  Yî 1 . Este último es válido sólo en series de tiempo.
3.3 Estimación por Mínimos Cuadrados Generales (MCG)
En este caso asumimos que V      2 I , por lo que podemos expresar la

matriz de varianzas y covarianzas de la perturbación como V() = 2, donde  es una
matriz de n x n positiva definida:
 112  122  132 ....  12n 

 2 
  21  222  232 ....  22n 
V      2  (3.44)
 .... .... 
 2 2 
 n1  n 2  n 3 ....  nn 
2 2

Esta matriz  la podemos descomponer de la siguiente manera:
  PPT   1   P 1  P 1 
T
(3.45)
con lo que se obtiene el siguiente modelo:
P 1Y  P 1 X   P 1  Y *  X *    * (3.46)
Por tanto, se ha conseguido una transformación del modelo de forma que las
perturbaciones cumplen las hipótesis habituales. Al estimador de  por MCO en el modelo
transformado se le denomina estimador de Mínimos Cuadrados Generalizados (MCG):
ˆMCG   X *T X *  X *T Y *   X T  1 X  X T  1Y
1 1
(3.47)
 
V ˆMCG   2  X *T X *    2  X T  1 X 
1 1
(3.48)
siendo el siguiente un estimador insesgado de la varianza de las perturbaciones:

T

ˆ  
 
 
  Y  X   
T
Y  X ˆ 1 ˆ
MCG MCG
ˆ 2  (3.49)
nk
Es decir, el estimador MCG minimiza la suma de cuadrados de residuos

ponderada por la inversa de su matriz de covarianzas.
No hay una contrapartida precisa del R2 del modelo ordinario con el R2 del
modelo generalizado. Una elección sería usar el R2 del modelo transformado Y* = X* + *,
pero esta regresión no tiene por qué tener término constante el coeficiente de
determinación no estaría acotado entre cero y uno.
Pero incluso si existe término constante, el modelo transformado no es más que

un instrumento computacional, no el modelo de interés. El hecho de que se obtenga una
mejora o un empeoramiento en el ajuste del modelo transformado puede no tener ningún
interés, ya que la variable dependiente Y* es diferente de la original.

Por otra parte, el estimador de MCG es en presencia de autocorrelación y/o

heterocedasticidad más eficiente que el de MCO, aunque ambos son insesgados,
consistentes y asintóticamente normales.
Para usar MCG es necesario sin embargo obtener un estimador consistente de

n  n  1
. Debido a que  es una matriz de n x n con elementos, es imposible con las n
2
observaciones estimar todos los elementos. Considerando ̂ como estimador de , se
obtendría:
 
1
ˆMCG  X T ˆ 1 X X T ˆ 1Y (3.50)
ˆT ˆ 1ˆ T ˆ 1
   
1
V ˆMCG  X  X (3.51)
nk
En el caso de heterocedasticidad, se tendrá que:
1 
 0 .... 0 
 1

 1 
 0 .... 0 
P 2  (3.52)
 .... .... 
 
0 1 
0 ....
  n 
Por su parte, en el caso de correlación serial (autocorrelación), se tendrá que:
 1  2 0 .... 0
 
 1 .... 0
P  1   
2 1 2 
(3.53)
 .... .... .... 
 
 0 ....   1 

4 ESPECIFICACIÓN
La especificación de los modelos es un tema que no es tratado en detalle en

los libros de econometría, ya que estos se centran principalmente en los procesos de
estimación e inferencia, para un modelo conocido. La razón de ello es que la
especificación correcta para obtener un buen modelo es normalmente difícil.
En este capítulo estudiaremos técnicas que nos permiten definir la forma

funcional de un modelo de regresión lineal, a fin de obtener mejores resultados. Sin
embargo, nunca debemos dejar de considerar las siguientes aseveraciones:
“Los modelos son para ser usados, no para creer en ellos” (Henry Theil,
1971).
“Todos los modelos son incorrectos, pero algunos son útiles” (George E.
Box, 1987).
“Los modelos son sólo metáforas, una pequeña ventana para ver el resto
del mundo” (Peter Kennedy, 2005).
4.1 Variables Ficticias
Si es posible definir con certeza el momento del eventual quiebre estructural

ya sea en un parámetro como en una combinación de parámetros entonces podemos
aplicar lo que se conoce como variables mudas.
Las variables ficticias recogen los efectos diferenciales que se producen en el

comportamiento de los agentes económicos debido a diferentes causas como las
siguientes:
 De tipo temporal: Para recoger efectos diferentes en función del tiempo en que se
producen las observaciones de las variables (por ejemplo, consumo en periodos de
guerra o paz).
 De carácter espacial: Para tener en cuenta la pertenencia o no de la observación
a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas).

 De tipo cualitativo: Para recoger los efectos de variables cualitativas como el

género, el estado civil, tener o no cargas familiares, nivel de educación, etc. sobre el
comportamiento de los agentes económicos en decisiones de consumo, de oferta de
trabajo, etc.
 Otras causas: Para conocer los efectos que las variables cuantitativas tienen sobre
la variable endógena, distinguiendo por submuestras (por ejemplo, la propensión
marginal al consumo de individuos de rentas altas o bajas).
Una variable muda o ficticia generalmente se asocia a una función indicadora

de un evento determinado. Esta nueva variable artificial tomará valor unitario si el evento
está presente y cero si no es así. Ejemplos de este tipo de funciones son muchos, por
ejemplo:
 Guerra - Paz
 Hombre - Mujer
 Profesional - Técnico
 Gobierno A - Gobierno B
 Crisis Bancaria - Normalidad
 Tipo de Cambio Fijo - Tipo de Cambio Flexible
Si estas variables no son directamente cuantificables entonces surge la

alternativa de utilizar variables dicotómicas mudas. Volvamos al modelo de regresión
simple para entender cómo contrastar cambios estructurales en algún o algunos parámetros
utilizando esta variable. Supongamos que el modelo a estimar es:
Y i   0  1 x1i   i (4.1)
Sin embargo, se ha identificado que para cierto grupo de observaciones

existen cambios estructurales. Para incorporar este hecho econométricamente, creamos una
nueva serie artificial (muda) Dj que tomará valores de cero y uno. La siguiente Tabla
ayuda a comprender esta representación:

Tabla 4.1
Variables Ficticias
Observación (i) Yi Xi Di
1 Y1 X1 0
2 Y2 X2 0
...... ...... ...... ......
j-1 Yj-1 Xj-1 0
j Yj Xj 1
j+1 Yj+1 Xj+1 1
...... ...... ...... ......
n Yn Xn 1
Con esta nueva variable podemos contrastar cambios tanto en el coeficiente

de intercepto 0 como en el de la pendiente 1.
4.1.1 Cambio Estructural en el Intercepto
La especificación del modelo es en este caso la siguiente:
Y i   0  1 x1i   i i  1, 2,..., j  1
(4.2)
Y  0   x  2 D  
i i
1 1
i i
i  j , j  1,..., n
La hipótesis está representada por :
H0 : 2  0
(4.3)
H1 :  2  0
El contraste consiste en evaluar si el parámetro ̂ 2 es significativamente

distinto de cero o no. Para esto generamos un test t:
ˆ2   2 ˆ2
tc   (4.4)
 
Vˆ ˆ2  
Vˆ ˆ2

Si tc (en valor absoluto) es menor al valor tabulado de tn  k para cierto nivel

de precisión, no rechazamos la hipótesis de que el parámetro es cero, no habiendo por lo
tanto indicios de quiebre estructural en el parámetro del intercepto.
4.1.2 Cambio Estructural en la Pendiente
La especificación del modelo es en este caso la siguiente:
Y i   0  1 x1i   i i  1, 2,..., j  1
(4.5)
Y i   0   1   2 D j  x1i   i i  j , j  1,..., n
H0 : 2  0
(4.6)
H1 :  2  0
El contraste es análogo al caso anterior:
ˆ2   2 ˆ2
tc   (4.7)
 
Vˆ ˆ2  
Vˆ ˆ2
4.1.3 Cambio Estructural en el Intercepto y la Pendiente
La especificación del modelo es en este tercer caso la siguiente:
Y i   0  1 x1i   i i  1, 2,..., j  1
(4.8)
Y   0   1   2 D
i j
xi
1  3 D  
j i
i  j , j  1,..., n
H 0 :  2  3  0 (4.9)
El contraste es el siguiente:
   Rˆ  q 
1
 R  X T X 1 RT 
T
R ˆ  q p
Fc =    F p ;n  k  (4.10)
  n  k 
T

donde p es el número de restricciones que estamos imponiendo en la hipótesis nula. En

nuestro caso se tendría que buscar el valor tabulado de F2;n  4 .
Si Fc es menor al valor tabulado de F p ;n  k  , no rechazamos la hipótesis de

que ambos parámetros son cero, no habiendo indicios de quiebre estructural en los
parámetros de la pendiente y el intercepto.
4.2 Variables No Lineales
Un típico error de especificación ocurre cuando se utiliza un modelo lineal en

variables explicativas cuando realmente no lo es.
Supongamos que uno tiene una variable de respuesta Y y varias variables

predictoras X y desea hacer transformaciones en las variables de respuesta para mejorar la
medida de ajuste del modelo. Lo primero que uno intenta es hacer un gráfico matricial y de
éste extraer las relaciones de X con cada una de las variables predictoras.
Pero estas transformaciones se pueden ver afectadas por la colinealidad

(dependencia lineal) existente entre las variables predictoras.
4.2.1 Transformaciones Generales
Consideremos por ahora solo modelos con una variable independiente. La

idea es tratar de aumentar la medida de ajuste R 2 del modelo, sin incluir variables
adicionales. Lo primero que hay que hacer es un gráfico para observar el tipo de
tendencia.
La siguiente tabla muestra las transformaciones de las variables dependiente e

independiente que se requieren para linealizar varios modelos:

Tabla 4.2
Transformación de Variables
Nombre del Modelo Ecuación Original Transformación Modelo Linealizado
Exponencial Y   exp   X  Z  ln Y ; X  X Z  ln    X
Logarítmico Y     ln  X  Y  Y ;W  ln X Y    W
Potencial Y  X  Z  ln Y ;W  ln X Z  ln    W
 1
Hiperbólico Y   Y  Y ;W  Y    W
X X
1 1
Doblemente Inverso Y Z ;X  X Z    X
X Y
El primer y tercer modelo son válidos bajo la suposición de que los errores son
multiplicativos y habría que cotejar haciendo análisis de residuales si el logaritmo de los
errores tiene una media de cero y varianza constante. Si los errores no son multiplicativos
entonces deberían aplicarse técnicas de regresión no lineal que son expuestas más
adelante.
4.2.2 Transformación Box - Tidwell
En 1962, Box y Tidwell, propusieron un método para transformar las variables

predictoras pero solo usando potencia de ellas. Más específicamente, ellos consideraron el
modelo:
k
Y   0    i wi   (4.11)
i 1
donde wi   xi  si  i  0 y wi  ln  xi  si  i  0 . El método está basado en el

i
desarrollo en series de Taylor del modelo anterior con respecto a   1 , 2 ,...., k  .
Haciendo las derivaciones respectivas, el modelo (4.11) se reduce a:
k k
Y   0    i xi    i zi   (4.12)
i 1 i 1
donde  i   i  1  i y zi  xi ln  xi  i  1, 2,...., k .

El procedimiento para la estimación de los î se puede resumir como sigue:
 Hacer la regresión lineal múltiple considerando las variables predictoras originales

xi y denotar los estimados de los coeficientes por î .
 Hacer una regresión lineal múltiple de Y respecto a las variables predictoras

originales xi mas las variables zi  xi ln  xi  y denotar los estimados de los
coeficientes de zi por î .
î
 Estimar î  1 .
î
El procedimiento se puede repetir varias veces usando en cada etapa las

nuevas variables transformadas y la siguiente relación de recurrencia:
 în  n
în 1    1 ˆ (4.13)
ˆ n  i
 i 
El proceso termina cuando ˆ in 1  ˆ in   . Sin embargo, es común que con

una iteración sea suficiente.
4.2.3 Transformación Box - Cox
En 1964, Box y Cox introdujeron una transformación de la variable de

respuesta con el objetivo de satisfacer la suposición de normalidad del modelo de
regresión. La transformación es de la forma Y  (transformación potencia), donde  es
estimada con los datos tomados. Más específicamente, la transformación está definida,
 xi 

1
para todo x mayor que cero, por xi     si   0 y xi     ln  xi  si

 xi 

1
  0 . Por la regla de L´Hopital se puede demostrar que lim  ln  xi  . Notar
 0 
que si   1 se obtiene el modelo lineal, y si   0 se obtiene un modelo logarítmico.
Luego, el modelo Box-Cox es una especificación no lineal generalizada.
El parámetro  se estima usando el método de Máxima verosimilitud,

conjuntamente con los coeficientes del modelo de regresión lineal múltiple:

k
Y      0    i xi        T X      (4.14)
i 1
Escribiendo la función de verosimilitud se tiene que:

n
 1   1 
L Y ;  ,  2     exp   2 2     
T
(4.15)
  2   
Luego se puede establecer que el logaritmo de la función de verosimilitud está

dado por:
n n 1
ln L   ln  2   ln  2   2   T   (4.16)
2 2 2
Debe recordarse que si una variable z distribuye f(z), y existe otra variable u
tal que u = (z) (ó z = (u)), se tiene que u distribuye de la forma
z
f z  f   u    '  u  . Dado que   Y      T X      Y  se obtiene que
u
 i   yi       
  yi 1 y por lo tanto ln  i      1 yi . Finalmente, el logaritmo de la
yi yi  yi 
función de verosimilitud en este caso es el siguiente:
n n n
ln L   ln  2   ln  2      1  ln yi
2
2 2 i 1
(4.17)
1

 2 Y      T X     Y      T X    
2
T

n
El término    1  ln yi aparece debido justamente al cambio de variables
i 1
al moverse de la función de distribución de  a la función de distribución de Y. Una

comparación de (4.17) entre los valores de   1 y   0 nos permite elegir entre un
modelo lineal y uno logarítmico.
Sin embargo, si se desea aplicar técnicas de MCO en lugar de MV, es factible

normalizar las observaciones por su media geométrica:

 ln y i
 n 
ln y g  i 1
 y g  exp   ln yi n  (4.18)
n  i 1 
yi
Las variables normalizadas son ahora yi*  . Luego, podemos calcular el
yg
ajuste de los siguientes modelos lineal y log-lineal en forma directa (suponiendo que las
perturbaciones son normal):
Y *   X *   (4.19)
ln Y *   ln X *   (4.20)
Notar que en (4.19) tanto la endógena como las exógenas han sido
normalizadas por su media geométrica.
La comparación directa (MV vs MCO) es posible debido a que:
ln yi*  ln yi  ln yg (4.21)
 n   n 
n    ln yi 
n
ln yi 

i 1
ln y g    i 1
i 1  n 
  n  i 1
 n 
 (4.22)
   
   
n
n n n  ln yi n
 ln y   ln y   ln e
i 1
*
i
i 1
i
i 1
i 1
0 (4.23)
n
De este modo, el término    1  ln yi* de la expresión (4.17) es igual a
i 1
cero para la versión log-lineal del modelo, pero también es cero para la versión lineal, ya
que   1 . En consecuencia, la estimación MV y MCO produjeron los mismos resultados
cuando los datos son normalizados. En el caso de MCO, se escogerá el  que entregue
un mayor valor de R 2 .

4.3 Modelos No Lineales
Lo que caracteriza a un modelo de regresión no lineal es el método utilizado

para estimar sus parámetros. La forma general del modelo de regresión es:
Y  f ; X   (4.24)
Considerando el mismo argumento que MCO se obtiene:
1 n
  Yi  f   ; X i  
2
min Q= (4.25)
  2 i 1 
 i2
Q n f   ; X i 
  Yi  f   ; X i   0 (4.26)
 i 1 
 2Q  f   ; X i  f   ; X i  n 2 f   ; X i  
 T
 2 
  T
   Yi  f   ; X i    T 
 (4.27)
 i 1
La matriz (4.27) debe ser positiva definida. Por otra parte, la distribución
asintótica del estimador de mínimos cuadrados no lineal viene dada por:
 
d
n ˆ NL    N  0;  2  1  (4.28)
donde:
1 n
   
2 p
ˆ 2   Yi  f ˆ ; X i
n i 1
2
(4.29)
 XTX
ˆ ˆ
 1 n f  ; X i f  ; X i   
ˆ     (4.30)
 n  n i 1   T

4.3.1 Modelo de Regresión Linealizado en Parámetros
Los resultados en este caso se basan en aproximaciones de series de Taylor en

torno a un determinado vector de parámetros  0 :
K f   0 ; X 
f ; X   f  ; X   
0
 k   k0  (4.31)
k 1  0
k
f   0 ; X 
Haciendo  Z k y reagrupando términos se obtiene:
 k0
K K
f   ; X   f   0 ; X    Z k  k0   Z k  k (4.32)
k 1 k 1
Reemplazando luego en (4.24):

K K
Y  f   0 ; X    Z k  k0   Z k  k   (4.33)
k 1 k 1
K K
Y  f   0 ; X    Z k  k0   Z k  k   (4.34)
 k 1
 k 1
Y
K
Y   Z k  k   (4.35)
k 1
Por lo tanto, para un determinado valor de  0 se estiman Y y Z k , para luego

determinar los parámetros ˆk de (4.35) utilizando MCO. Estos parámetros ˆk deben ser
utilizados como nuevo valor de  0 , y repetir el proceso hasta que converja ˆ   0   . k
Sin embargo, si bien es posible aplicar los contrastes de hipótesis y procedimientos de

inferencia de los MCO, no está garantizado que el R 2 esté entre 0 y 1.

4.3.2 Modelo de Regresión Linealizado en Variables
Un caso más general se obtiene si se consideran una mayor cantidad de

términos en la expansión en series de Taylor en torno a X:
K f   ; X 0 
f ; X   f ; X 0
 x  x 
i
0
i
i 1 xi
(4.36)
1 K K  f ; X 
2 0
 
2 i 1 j 1 xi x j
 xi  xi0  x j  x 0j   ....
En el caso de que exista sólo una variable explicativa, se obtendría:
f   ; x 0 
f   ; x  f   ; x  
0
x  x  0
x
(4.37)
1  f ; X  1  f ; X 
2 0 3 0
 x x  
0 2
 x  x 0   .....
3
 2 3
2 x 3! x
y reagrupando términos:
f   ; x    0   1 x   2 x 2   3 x 3  .... (4.38)
Luego, se debe calibrar el siguiente modelo lineal:
Y   0   1 x   2 x 2   3 x 3  ....   (4.39)
La elección del número de parámetros se puede obtener a partir de la

significancia estadística de sus respectivos parámetros. Sin embargo, estos parámetros î
no tienen una interpretación económica clara.

4.4 Especificación de Variables
Existen numerosos errores que pueden cometerse producto de una mala

especificación de la ecuación estimada, ya sea por omisión de variables relevantes o por
inclusión de variables irrelevantes o superfluas.
4.4.1 Selección de Variables
Como se vio anteriormente, el valor del R 2 nunca decrecerá si se añaden

nuevas variables a la ecuación de regresión, aun cuando dichas variables no aporten a la
explicación del fenómeno estudiado. Para evitar ello, se considera el R 2 ajustado:
R j2  1  1  R 2j 
 n  1 (4.40)
n  k 
Dado que el R 2 incorpora penalización por los grados de libertad, y a la vez

revela un incremento en el ajuste, una alternativa es elegir la especificación que maximiza
el valor del R 2 . Puede demostrarse que esto último equivale a minimizar el estimador de
ˆT ˆ
varianza ˆ 2  .
n  k 
Sin embargo, se ha sugerido que el R 2 no penaliza suficientemente la

pérdida de grados de libertad. Tres alternativas que se han propuesto para la
comparación de modelos son las siguientes:
n  k  1 R
R j2 
j
  2
(4.41)
n  k 
j
j
 ˆT ˆ   k j 
AIC j  ln    2  (4.42)
 n  n
 ˆT ˆ   k j ln  n  
SIC j  ln    (4.43)
 n   n 
En el caso de la expresión (4.41), obtenido de Amemiya (1985), el criterio

consiste escoger el modelo con las variables que presenten el mayor R j2 .

Análogamente, en el caso de la expresión (4.42), el criterio es escoger el

modelo que presente el mínimo valor de AIC j . Lo mismo con SIC j en (4.43).
Es interesante notar que las expresiones para AIC j y SIC j provienen de

 ˆT ˆ 
ponderar el error cuadrático medio   del modelo calibrado. De hecho, el valor del
 n 
R 2 se puede rescribir como:
1
  i 
2
R j2  1  1  R 2j 
 n  1  1   n  k j  i (4.44)
n  k  1
  Yi  Y 
2
 n  1 i
Luego, en este caso el error cuadrático medio se corrige por los grados de
 ˆ ˆ 
T
libertad:   . Sin embargo, en los otros 2 criterios, el error cuadrático medio se corrige
nk 
de la siguiente manera:
 2 k n  ˆ ˆ
T
AIC j  ej  (4.45)
penalización n
 k j n  ˆ ˆ
T
SIC j  n  (4.46)
penalización n
Al aplicar logaritmo natural a las expresiones (4.45) y (4.46) se obtienen

directamente las expresiones (4.42) y (4.43), respectivamente.
4.4.2 Variables Omitidas
Supongamos que el modelo especificado correctamente es el siguiente:
Y  X 1 1  X 2  2   (4.47)
Si realizamos una regresión de Y sobre X 1 , sin incluir X 2 , el estimador es:
ˆ1   X 1T X 1  X 1T Y   X 1T X 1  X 1T  X 1 1  X 2  2   
1 1
(4.48)



Y

ˆ1  1   X 1T X 1  X 1T X 2  2   X 1T X 1  X 1T 
1 1
(4.49)
 
E ˆ1  1   X 1T X 1  X 1T X 2  2  1
1
(4.50)
Si existe una única variable incluida y una única variable omitida, el signo del
sesgo en el estimador es evidente. Sin embargo, si existen varias variables, no es posible.
La varianza de ̂1 es:
 
V ˆ1   2  X 1T X 1 
1
(4.51)
Sin embargo, si hubiéramos especificado correctamente el modelo, incluyendo

las variables X 2 se tendría:
   
1
V ˆ1,2   2 X 1T X 1  X 1T X 2  X 2T X 2  X 1T X 1
1
(4.52)
Luego, a partir de (4.51) y (4.52), se deduce:
  1 X T X X T X 1 X T X
 
V ˆ
    2 1 2  2 2 
1 1
 V ˆ1,2 (4.53)
 1 2 1
La expresión (4.53) es siempre positiva. En consecuencia, si bien ̂1 es

sesgado, tiene menor varianza que ̂1,2 . Es interesante también notar que mientras mayor
sea la correlación entre X 1 y X 2 , más grande será la varianza de ̂1,2 respecto a la de
̂1 . Esto último equivale a resolver el problema con una restricción del tipo  2  0 .
Este sesgo no desaparecerá si aumenta el tamaño muestral, por lo que el

estimador es también inconsistente (excepto si X 1T X 2  0 ). Al mismo tiempo, una varianza
muy alta en la variable X 2 reducirá el sesgo, aunque no lo eliminará. Notar que el
intercepto también será sesgado, excepto que la variable omitida tenga media cero.
Por otra parte, se puede demostrar también que el estimador ˆ 2 está sesgado
hacia arriba (aún cuando X 1 y X 2 sean ortogonales); sin embargo, para estimar ese
sesgo debiéramos estimar ̂ 2 . Esto último implica que existirán problemas al contrastar
hipótesis sobre ̂1 .

Figura 4.1
Diagrama de Venn Para Una Analizar Omisión de Variables Relevantes
Y Y
X X
Al regresionar Y sólo sobre X, la proporción de la variación de Y no

explicada es mayor que al regresionar Y sobre X y Z, es decir, el 2 es mayor. Sin
embargo, al regresionar Y sólo sobre X, la información usada para obtener x es mayor
que al regresionar sobre las dos variables, ya que el área roja se usa tanto para estimar x
como z. Esto último implica que omitir Z aumenta la información para estimar x,
aumentando por lo tanto la significancia de x; lo contrario ocurre si se incluye Z.
4.4.3 Variables Superfluas
Supongamos que el modelo especificado correctamente es el siguiente:
Y  X 1 1   (4.54)
Sin embargo, la estimación se realiza a partir del siguiente modelo:
Y  X 1 1  X 2  2   (4.55)
En este caso, se puede demostrar que tanto ̂1 como ˆ 2 son insesgados. Sin
embargo, la varianza del estimador ̂1 será mayor. Esto se explica por la pérdida de
grados de libertad producto de la presencia de más parámetros en la estimación. Luego,
los estimadores si bien son insesgados y consistentes, son ineficientes. Esta pérdida de

eficiencia hace más difícil rechazar la hipótesis nula de que un determinado parámetro vale
cero.
Figura 4.2
Diagrama de Venn Para Una Analizar Inclusión de Variables Irrelevantes
X
Z
Al agregar Z, la información usada para obtener x claramente se reduce

(ineficiencia), y el 2 no se reduce de manera importante.
4.5 Contraste de Subespecificación de Modelos (Test J)
Este test nos permite comparar dos especificaciones alternativas de modelos, a

partir de un único modelo artificial anidado. Suponga que usted está haciendo competir
dos especificaciones diferentes para un fenómeno, las que puden ser representadas de la
siguiente forma:
H0 : Y  X   
(4.56)
H1 : Y  Z   
El modelo anidado artificial es el siguiente:
Y  1     X     Z    (4.57)

Bajo la hipótesis nula de que H0 es la correcta especificación, se tendrá

entonces que  = 0. La regresión (4.57) permite obtener estimadores para (1 – ) y ,
pero no para  (problema de identificabilidad de parámetros). Notar que X y Z no deben
tener variables en común.
El procedimiento es el siguiente:
i. Regresionar Y sobre Z y obtener ˆ , y calcular Yˆ1  Z ˆ
ii. Regresionar Y sobre X y sobre Yˆ1 , Y  X   Yˆ1   , y obtener la significancia

estadística de ̂ .
Luego, si el test t de ̂ es chico, entonces no se rechaza H0, y si es grande, se

rechaza H0 a favor de H1.

5 TEMAS ESPECÍFICOS
5.1 Ortogonalidad
La Ortogonalidad entre los regresores de un modelo econométrico implica

incorrelación entre dichos regresores, mientras que la Multicolinealidad implica
dependencia o correlación entre esas variables.
Se dice que dos regresores son ortogonales cuando están linealmente

incorrelacionados, es decir, su coeficiente de correlación lineal o su covarianza es cero.
Así, xi y xj son ortogonales si rij = 0.
Dos grupos de regresores son ortogonales si  X 1T X 2   0 , lo que significa que

cada regresor del primer bloque está incorrelacionado con cada regresor del segundo
bloque.
Sea el modelo particionado:
Y  X 1 1  X 2  2   (5.1)
Los estimadores MCO de los vectores de parámetros 1 y 2 de este modelo

coinciden con los que obtendríamos efectuando la regresión individual de Y sobre cada
uno de los bloques:
 ˆ1   X 1T X 1
1
ˆ X 1T X 2   X 1T Y 
   T    (5.2)
 ˆ   X 2 X 1 X 2T X 2   X 2T Y 
 2
  X 1T Y    X 1 X 1  X 1 Y 
 ˆ1   X 1T X 1
1  T 1 T 
0
     (5.3)
 ˆ   0
 2 X 2T X 2   X 2T Y    X T X 1 X T Y 
 2 2 2 
Las varianzas de los estimadores también coinciden con las calculadas al

hacer las regresiones individuales pero no así con los estimadores de las varianzas:
1   2  X T X 1 
 XTX 0 
 
V ˆ   2  1 1
 0
T  
X2 X2 

2
1
T
1

1 
  X 2 X 2  
(5.4)
 

1  ˆ 2  X T X 1 
 XTX 0 
 
Vˆ ˆ  ˆ 2  1 1
 0
T  
X2 X2 

2
1
T
1

1 
 ˆ  X 2 X 2  
(5.5)
 
ˆT ˆ
siendo ˆ 2  .
nk
Sin embargo, en las regresiones individuales se tendría:
uˆ T uˆ
 
Vˆ ˆ1  ˆ12  X 1T X 1   ˆ12 
1
(5.6)
n  k1
vˆT vˆ
 
Vˆ ˆ2  ˆ 22  X 2T X 2   ˆ 22 
1
(5.7)
n  k2
Por otra parte, si no existe ortogonalidad, se tendría que:
 ˆ1    X 1 X 1  X 1 Y   X 1 X 1  X 1 X 2 ˆ2 
T 1 T T 1 T
    (5.8)
 ˆ   T 
 2    X 2 X 2  X 2 Y   X 2 X 2  X 2 X 1 ˆ1 
1 T T 1 T
La solución (5.8) indica que ̂1 es el conjunto de coeficientes o parámetros de

la regresión de Y sobre X1 menos un vector de corrección. De hecho, manipulando
(5.8) resulta:

 ˆ1    X 1 X 1  X 1 Y  X 2 ˆ2
 T
 
1 T
  (5.9)
 ˆ 

 2    X 2 X 2  X 2 Y  X 1 ˆ1  
T 1 T

El teorema de Frisch-Waugh establece que el vector ̂ 2 es el conjunto de

parámetros que se obtiene de realizar una regresión de los residuos de la regresión de Y
sobre X1 , sobre el conjunto de residuos obtenidos de la regresión de X2 sobre X1. Esto es lo
que normalmente se conoce como extraer el efecto de X1.
Suponiendo una regresión de Y sobre W   X 1 , X 2  , el coeficiente ̂ 2 de X2

se calcula como:

ˆ2   X 2T MX 2  X MY 
1 T
2 (5.10)

donde M  I  X 1  X 1T X 1  X 1T
1
 es una matriz de n x n simétrica M  M 
T
e
idempotente  M  M T M  .
Esta matriz M genera el vector de residuos de la regresión de mínimos

cuadrados de Y sobre X1 cuando pre-multiplica al vector Y, por lo que:
ˆ  MY  MX 1  0 (5.11)
Una manera de interpretar el resultado MX1 = 0 es que la realización de una

regresión de X1 en X1 se obtendrá un ajuste perfecto, por lo que los residuos serán cero.
Finalmente, dado que en general Y = X + , se obtiene:
Yˆ  Y  ˆ   I  M  Y  PY (5.12)
La matriz P, simétrica e idempotente, se denomina matriz de proyección.

Esta matriz se genera a partir de X tal que cuando el vector Y se pre-multiplica por P, se
obtiene como resultados los valores calculados de la regresión por MCO de Y sobre X.
5.2 Multicolinealidad
5.2.1 Definición de Multicolinealidad
El término multicolinealidad (o colinealidad) en Econometría se refiere a una

situación en la que dos o más variables explicativas están fuertemente interrelacionadas y,
por tanto, resulta difícil cuantificar sus efectos individuales sobre la variable
explicada.
Este problema reside, por tanto, en la muestra utilizada y/o de la

especificación del modelo, y no tiene causas interpretables. Sí existen, en cambio, una serie
de situaciones en que la multicolinealidad resulta habitual.

En principio, cabe distinguir dos casos:
a) Multicolinealidad Perfecta, que se presenta cuando det  X T X   0 . En

este caso existen infinitas soluciones para el sistema  X X  ˆ  X
T T
Y . Este
caso se presenta usualmente suando el modelador construye artificialmente
ciertas variables explicativas, como por ejemplo variables dummy.
b) Multicolinealidad Fuerte, cuando la relación entre las variables es muy

fuerte pero no perfecta; es decir, los coeficientes de correlación lineal no serán
próximos a 1 pero se le aproximarán bastante. En este caso det  X T X   0 y
por lo tanto no existen razones a priori para no poder estimar el modelo. Esto
ocurre frecuentemente en datos económicos de series de tiempo.
5.2.2 Causas de la Multicolinealidad
 Existencia de alguna relación causal entre 2 variables explicativas (o

más). Es decir, una tercera variable exógena se relaciona muy
fuertemente con las otras 2.
 En economía, la mayoría de las variables explicativas están, de alguna

manera, correlacionadas. Cuando trabajamos con series temporales, la
mayoría de las variables económicas tienen una tendencia creciente;
Granger y Newold demostraron que basta con introducir una tendencia
lineal en dos series temporales independientes para que su correlación
aumente considerablemente, y por lo tanto, la existencia de esa
tendencia puede ser la causa de un problema de multicolinealidad.
 Existencia de una variable explicativa con escasa variabilidad en su

serie, por lo que su presencia puede confundirse con la delintercepto.
5.2.3 Efectos de la Multicolinealidad
En el caso de multicolinealidad extrema o perfecta, resulta claro que el

problema fundamental es que es imposible resolver de forma única el sistema de
ecuaciones normales:  X T X  ˆ  X T Y .

La multicolinealidad de grado o fuerte da lugar a distintos efectos, que

veremos en más detalle a continuación. Sin embargo, es importante mencionar que no
produce sesgo en la estimación, y que el R2 tampoco se ve afectado. Es decir, la
multicolinealidad induce problemas en la inferencia de los modelos (interpretación de los
parámetros) pero no en la predicción.
Algunos efectos son los siguientes:
 Las estimaciones individuales de los parámetros están mal identificadas,

esto es, el valor estimado de un parámetro puede depender crucialmente
del(los) valor(es) estimado(s) de otro(s). Esto significa que, dependiendo
de la muestra, puede no ser correcto al análisis del impacto que cada
variable correlacionada genera sobre la variable explicada. Es decir, se
pueden confundir los efectos marginales.
 Se genera una inflación artificial de la varianza de los parámetros

estimados. Luego, efectuar inferencia puede ser riesgoso y conducir a
conclusiones incorrectas. Este fenómeno se explica claramente si
analizamos el siguiente ejemplo simple:
yt   0  1 x1t   2 x2t   t (5.13)
La estimación por MCO del modelo (5.13) nos proporciona los

siguientes resultados:
ˆ ˆ  ˆ 23ˆ13 ˆ ˆ 22ˆ13  ˆ 23ˆ12

ˆ0  y  ˆ1 x1  ˆ2 x2 , ˆ1  33 12 , 2  (5.14)
ˆ 22ˆ 33  ˆ 232 ˆ 22ˆ 33  ˆ 232
donde:
1 N 
 ij     zit  zi   ztj  z j   ; i, j  1, 2,3.....
N  t 1  (5.15)
z1t  yt ; z2t  x1t ; z3t  x2t
Las varianzas de los estimadores son:

  1 Nˆˆˆ   1 Nˆˆˆ
2 2
var ˆ1  2
; var ˆ2  2
22 33
T (5.16)
 ˆ t
2
ˆ 2
ˆ 2  t 1
; ˆ 2  23
T 3 ˆ 22ˆ 33
Los test-t para ambos estimadores los escribimos como:
ˆ1 ˆ2
t1 
ˆ N
1  ˆ ˆ2
22 ; t2 
ˆ N
1  ˆ ˆ 2
33 (5.17)
Analizando (5.17), se desprende que cuando la colinealidad es perfecta

 ˆ 2  1 las varianzas tienden a infinito. Además, se aprecia que los test
t son función decreciente del ̂ 2 .
Por otra parte, cuando hay colinealidad fuerte  ˆ 2  1 se produce que

ˆ 232  ˆ 22ˆ 33 . Luego, los denominadores de (5.14) toman valores
cercanos a cero, generando estimaciones poco confiables en magnitud e
incluso en signo:
ˆ 33ˆ12  ˆ 23ˆ13 ˆ 33ˆ12   ˆ ˆ13 ˆ 22ˆ 33

ˆ1   (5.18)
ˆ 22ˆ 33  ˆ 23
2
ˆ 22ˆ 33 1  ˆ 2 
ˆ 22ˆ13  ˆ 23ˆ12 ˆ 22ˆ13   ˆ ˆ12 ˆ 22ˆ 33

ˆ2   (5.19)
ˆ 22ˆ 33  ˆ 232 ˆ 22ˆ 33 1  ˆ 2 
Por simplicidad supongamos que todas las variables tienen varianza

unitaria, es decir, supongamos que ˆ112  ˆ 22
2
 ˆ 332  1 . En este caso
tendríamos:
ˆ ˆ13
ˆ12   ˆ ˆ12
ˆ13  
ˆ1  ˆ2  (5.20)
1  ˆ 2  1  ˆ 2 
En consecuencia, si ˆ 2  1 se cumpliría que ˆ1   ˆ2 .

 Las estimaciones resultan sensibles con respecto a la muestra utilizada lo

que supone que si, por ejemplo, se amplía la muestra con una nueva
observación, las estimaciones obtenidas pueden variar sustancialmente.
Figura 5.1
Diagrama de Venn Para Dos Variables Fuertemente Colineales
X Z
En la Figura 5.1 se observan dos variables fuertemente colineales. El

área azul es utilizada para estimar ambos parámetros. Luego, dicha área
no permite distinguir claramente entre ambos parámetros. El área verde
es usada para estimar x y el área fucsia para estimar z.
i) Problemas de Identificación
No se puede aislar el efecto individual de un regresor sobre el

regresando ya que no se puede mantener la cláusula del “ceteris
paribus”.
En Econometría tradicional, el término identificación alude a la

posibilidad de obtener estimaciones independientes para los parámetros
de un modelo.

Se dice que un modelo está mal identificado cuando el valor estimado

de un(os) parámetro(s) depende crucialmente del(los) valor(es) de
otro(s). En este sentido, puede decirse que la colinealidad da lugar a un
problema de identificación paramétrica.
Para aclarar esta idea, utilizaremos un ejemplo correspondiente al caso

de multicolinealidad extrema. Sea el modelo:
Y  X 1 1  X 2  2   (5.21)
Supongamos que la segunda variable explicativa puede generarse a

partir de una transformación lineal de la primera, esto es:
X 2   1   2 X 1 . Si sustituimos esta igualdad en la ecuación (2.9) se
obtiene, tras realizar algunas operaciones algebraicas elementales, la
siguiente expresión:
Y   2 1  X 1  1   2 2    (5.22)
 
0 1
En (5.22) queda clara la imposibilidad de obtener estimaciones

independientes de 1 y  2 sin más que aplicar MCO.
Este problema también se produce en el caso de multicolinealidad de

grado. Para verlo, basta suponer que la relación entre las variables
explicativas fuera X 2   1   2 X 1  u , entonces el modelo (5.22) podría
expresarse como:
Y   2 1  X 1  1   2 2    2u   (5.23)
ii) Inflación de las Estimaciones
Si el determinante de X X 
T
es aproximadamente igual a cero
(columnas LD), tanto las estimaciones de parámetros, como las de sus
correspondientes varianzas, tenderán a ser sensibles y, en general, serán
mayores que las que se obtendrían si no existiera multicolinealidad. Por
esta razón, se dice que la multicolinealidad causa un problema de
"inflación de algunos parámetros estimados y de sus varianzas".

En general, esta inflación distorsionará los resultados de los procesos de

inferencia estadística que se desarrollen a partir de los resultados de la
estimación. Concretamente, puesto que las varianzas de los parámetros
estimados están distorsionadas al alza, el estadístico t de significación
individual de los parámetros:
î
t  t n  k  (5.24)
ˆ i
tenderá a no rechazar la hipótesis nula i = 0 más frecuentemente que si

no existiese multicolinealidad. Es decir, el estadístico t tendrá un
menor valor que el real.
Por otra parte, dado que la multicolinealidad no hace variar la bondad

del ajuste, si contrastamos la significancia conjunta de los parámetros a
través del R2 del modelo, podemos concluir que los parámetros
conjuntamente son significativos e individualmente no. Este hecho puede
sugerir la existencia de multicolinealidad de grado.
En síntesis:
 Intervalos de confianza grandes
 Valores muestrales de los estadísticos t pequeños, lo que implica que es

muy difícil no rechazar cualquier contraste de no singnificación de las
variables
 Los 2 puntos anteriores nos pueden llevar a no rechazar la significación

individual de todos los regresores y sin embargo rechazar la significación
conjunta de todos ellos (test F).

Figura 5.2
Región de Confianza Para Variables Colineales
1
̂1
̂ 2 2
 No afecta al R2 ya que éste mide el efecto conjunto de todos los

regresores sobre el regresando y la multicolinealidad afecta a los valores
individuales de los regresores. Por lo tanto, la regresión podrá ser
significativa a pesar de la existencia de multicolinealidad.
 No afecta a las predicciones de la variable Y.
iii) Sensibilidad de las Estimaciones con Respecto a los

Datos
Cuando existe un problema de multicolinealidad, ligeros cambios en la

matriz X y el vector Y (por ejemplo, si añadimos o suprimimos algún
dato) pueden llevar a grandes cambios en los coeficientes estimados.

Este hecho puede llevar erróneamente a considerar la posibilidad de

cambio estructural, cuando en realidad se trata de un problema de
multicolinealidad.
5.2.4 Detección de la Multicolinealidad y su Magnitud
Resulta frecuente que exista un problema de multicolinealidad en los siguientes

casos:
a) Cuando se emplean variables explicativas no estacionarias en media. Es decir,

si dos variables explicativas tienen una tendencia común, esto puede causar
multicolinealidad. Como veremos más adelante, transformar las variables para
que sean estacionarias, puede resolver el problema, salvo cuando la
multicolinealidad sea estricta. Esta causa es muy común en la práctica
econométrica.
b) Cuando se consideran muchas variables explicativas. Lógicamente, a medida

que aumenta el número de variables explicativas, es más fácil que aparezca
una pauta de relación entre ellas que de lugar a un problema de colinealidad.
c) Cuando la métrica de las variables da lugar a datos de un orden de magnitud

muy diferente. Puesto que el valor numérico del determinante de  X T X 
depende de las unidades de medida de las variables contenidas en X, si
dichas variables estén medidas en unidades de un orden de magnitud muy
diferente (por ejemplo kilómetros y centímetros) esto puede dar lugar a una
aparente multicolinealidad, debida a la acumulación de errores de redondeo.
Este problema se resolvería transformando adecuadamente la métrica de los
datos.
d) Cuando se incluyen como variables explicativas retardos sucesivos de la

variable endógena o de alguna de las variables explicativas. Esto puede
provocar multicolinealidad porque los valores de una variable económica en
distintos instantes de tiempo suelen estar correlacionados entre sí.

Para decidir si la colinealidad de grado o fuerte supone un problema para

nuestro análisis concreto, en primer lugar tendremos que definir claramente cuáles son los
objetivos últimos del mismo. Por ejemplo, si nuestra finalidad es predecir la evolución futura
de una variable, la posible multicolinealidad no nos causa ningún problema. Sin embargo,
si el énfasis está en obtener estimaciones de los parámetros lo más precisas posibles, la
colinealidad sería un problema muy grave ya que, como hemos visto, da lugar a un alto
grado de imprecisión en las estimaciones individuales.
Evidentemente, caracterizar el problema de colinealidad de grado como

det  X X   0 no es suficiente para la práctica econométrica ya que: 1) el valor de
T
det  X T X  depende de las unidades de medida y 2) no sabemos en qué grado de

proximidad a cero comienzan a hacerse relevantes los problemas que acabamos de
señalar.
Para detectar el posible problema de multicolinealidad estudiaremos dos tipos

de métodos: métodos basados en la correlación entre variables explicativas y métodos
basados en el tamaño de la matriz  X T X  .
i) Métodos Basados en la Correlación Entre Variables Explicativas.
Para detectar la multicolinealidad se podría calcular la correlación simple

existente entre pares de las variables exógenas (X). Denotaremos como rij al coeficiente de
correlación simple entre la variable xi y xj  rij  rji , i  j  . Al calcular estos coeficientes
simples de correlación para todos los pares de variables, se tendría una matriz Rx definida
como:
 1 r12 .... r1k 

 
 r21 1 .... r2 k 
Rx  (5.25)
 .... .... 
 
 rk1 rk 2 .... 1 
Si rij es cercano a la unidad, detectaríamos multicolinealidad por la alta

correlación muestral entre xi y xj. Para ver si la correlación es cercana a 1, podemos
realizar el siguiente test:

r ij n  2 1  t (5.26)
n2
1  rij2
El problema de este método es que sólo puede detectar correlación entre

pares de variables explicativas de la forma xi   x j . Sin embargo, es posible que existan
relaciones de dependencia lineal más complejas como, por ejemplo xi   x j   xk , que
no detectaríamos calculando sólo los coeficientes de correlación muestral entre pares de
variables. En este caso, lo que se puede hacer es un conjunto de regresiones de cada
variable exógena con respecto a las k - 1 restantes.
ii) Métodos Basados en el Tamaño de la Matriz.
Como sabemos, la multicolinealidad es un problema numérico ya que el

determinante de la matriz  X T X  es muy pequeño. Entonces, podemos pensar que sería
útil medir el "tamaño" de  X T X  .
Una primera solución sería calcular el valor numérico del determinante de

 X X  . El problema es que el determinante de esta matriz depende de las unidades de
T
medida de las variables explicativas. Otra posibilidad se basa en el hecho de que el

determinante de  X T X  es igual al producto de sus valores propios. Entonces, podemos
calcular los valores propios y comprobar si alguno es muy cercano a cero ya que, en este
caso, el determinante también tendría un valor próximo a cero. El problema es que el
tamaño de los valores propios también depende de las unidades de medida de las
variables explicativas. El último método consiste en medir el tamaño relativo de los valores
propios de la matriz  X T X  . De este modo, eliminamos el problema de las unidades de
medida. Es decir, calculamos los valores propios, los ordenamos de menor a mayor, y
obtenemos el ratio entre el valor propio máximo y el mínimo. Si este cociente es muy
grande, existiría un problema de multicolinealidad porque el valor propio mínimo es muy
pequeño en relación con el más grande. A la raíz cuadrada de este cociente se le llama
número de condición de la matriz X:
 max
Número de Condición  (5.27)
 min

5.2.5 Corrección de la Multicolinealidad
Existen diversas soluciones, aunque ninguna resulta plenamente satisfactoria.
 No Hacer Nada. Sólo tenerlo presente y ser cuidadoso.
 Suprimir Variables. La idea consiste en que, si se suprimen variables

que estén altamente correlacionadas con otras, la pérdida de capacidad
explicativa del modelo será pequeña, mientras que la multicolinealidad
se reducirá. Existe, sin embargo, el riesgo de eliminar variables que
debieran mantenerse en el modelo ya que, como hemos visto, en
situaciones de multicolinealidad las varianzas de los parámetros están
infladas y muchos parámetros serán formalmente no significativos.
 Utilización de Estimaciones Externas. Por ejemplo, sea una

función de demanda donde el consumo de un país (Ct) depende, a lo
largo del tiempo, de las variables renta (Yt) y precios (Pt):
Ct   0  1Yt   2 Pt   t (5.28)
y se sabe que las variables de renta y precios están altamente

correlacionadas. En este caso, una posible solución al problema de
multicolinealidad sería estimar el parámetro 1 en una función de
consumo con datos de sección cruzada definida como:
Ct  1Yt  vt (5.29)
De esta forma, se puede plantear el nuevo modelo de regresión con

datos temporales:
C  ˆ Y   
t 1 t 0   2 Pt   t (5.30)
en donde la variable a explicar ha cambiado con respecto al modelo

original. Sin embargo, esta solución a la multicolinealidad tiene varios
problemas:

a) Para que la solución fuese correcta tendríamos que tener como

 
nueva variable dependiente Ct  ˆ1Yt , pero no disponemos del
valor del verdadero parámetro 1 sino sólo de una estimación ̂1 .
b) El parámetro 1 en una regresión con datos de sección cruzada

tiene una interpretación distinta que cuando se estima con datos de
series temporales (Largo Plazo vs Corto Plazo).
 Incorporar Nuevas Observaciones. Algunas veces, aumentando el

tamaño muestral con el que trabajamos podemos reducir el problema de
multicolinealidad; esta podría ser una solución siempre que la
multicolinealidad fuera un problema muestral. Por supuesto, si existe una
relación lineal exacta entre algunas variables explicativas
(multicolinealidad estricta) por mucho que aumentemos el número de
observaciones, no va a desaparecer el problema.
 Imponer Restricciones Sobre los Parámetros. Evidentemente, si

la Teoría Económica o la experiencia empírica sugieren algunas
restricciones razonables sobre los parámetros del modelo más afectados
por la colinealidad, imponerlas permitirá reducir el problema. El riesgo
que se corre es, obviamente, imponer restricciones que no son ciertas.
 Transformación de Variables. Muchas veces el problema de

multicolinealidad surge al trabajar con variables no estacionarias en
media o con una tendencia creciente en el tiempo. En este caso, la
transformación adecuada para hacer estacionarias las variables sería
diferenciar.
5.2.6 Método de Componentes Principales
El Método de Componentes Principales (MCP) es una técnica estadística de

síntesis de la información, o reducción de la dimensión (número de variables); ante un
banco de datos con muchas variables, el objetivo será reducirlas a un menor número
perdiendo la menor cantidad de información posible.

Es decir, el MCP transforma un conjunto de variables predictoras

correlacionadas en un conjunto menor de variables no correlacionadas, a las que se les
denomina componentes principales.
Los nuevos componentes principales o factores serán una combinación lineal

de las variables originales, y además serán independientes entre sí. Un aspecto clave en
MCP es la interpretación de los factores, ya que ésta no viene dada a priori, sino que será
deducida tras observar la relación de los factores con las variables iniciales (habrá que
estudiar tanto el signo como la magnitud de las correlaciones).
Esto no siempre es fácil, y será de gran importancia el conocimiento que se

tenga sobre la materia de investigación. Para el análisis resulta fundamental el concepto de
vectores y valores propios de una matriz.
Las fases del Análisis de Componentes Principales son las siguientes:
 Análisis de la Matriz de Correlaciones: Un análisis de

componentes principales tiene sentido si existen altas correlaciones entre las
variables, ya que esto es indicativo de que existe información redundante y,
por tanto, pocos factores explicarían gran parte de la variabilidad total.
 Selección de los Componentes: La elección de los factores se

realiza de tal forma que el primero recoja la mayor proporción posible de
la variabilidad original; el segundo factor debe recoger la máxima
variabilidad posible no recogida por el primero, y así sucesivamente. Del
total de factores se elegirán aquellos que recojan el porcentaje de
variabilidad que se considere suficiente. A éstos se les denominará
componentes principales
 Análisis de la Matriz de Componentes: Una vez seleccionados los

componentes principales, se representan en forma de matriz. La matriz
tendrá tantas columnas como componentes principales y tantas filas como
variables.
 Interpretación de los Componentes: Para que un componente sea

fácilmente interpretable debe tener las siguientes características:

o Los coeficientes de los componentes deben ser próximos a 1.
o Una variable debe tener coeficientes elevados sólo con un factor.
o No deben existir componentes con coeficientes similares.
Estimación de los Componentes: Son los valores que tienen los

componentes principales para cada caso, que nos permitirán su
representación gráfica. Supongamos que tenemos un vector p-dimensional
X   x1 , x2 ,...., x p  que presenta una matriz de varianzas y covarianzas  .
El método de basa en encontrar un nuevo vector q-dimensional
Z   z1 , z2 ,...., zq  con q < p que cumpla:
p
zi    aij  x j  i  1,...., q (5.31)
j 1
Z = AX (5.32)
Además debe cumplirse para aiT   ai1 , ai 2 ,...., aip  que:
o var  zi   aiT  ai
o cov  zi , zk   aiT  ak
o var  z1   var  z2   ....  var  zq 
El objetivo del análisis de componentes principales es el de maximizar la

suma de cuadrados Z T Z  AT X T XA  AT  A , la cual representa la
variancia de Z, sujeta a que la suma de cuadrados de los coeficientes a sea
igual a 1 (condición de identificabilidad).
Este proceso de maximización con restricción conduce a una solución de

orden de la forma:
 X X a
T
i  i  ai (5.33)
donde es el multiplicador de Lagrange, asociado con el problema de

maximización, y a la vez es la raíz característica de la matriz    X T X  .

La matriz  tiene asociados valores y vectores propios  i , ai  donde

1  2  ....   p . Luego, el i- ésimo componente principal está dado por:
p
zi    aij  x j   ai1 x1  ai 2 x2  ....  aip x p (5.34)
j 1
donde var  zi   i  i  1,...., p  , cov  zi , zk   aiT  ak  0  i  k  .

Notar que los valores propios (i) son únicos, no así los vectores propios (y
por lo tanto los vectores zi).
La traza de la matriz  se obtiene como la suma de los valores propios

 p

 tr      i  . Por lo tanto, la proporción de la varianza explicada por
 i 1 
k
el k-ésimo componente principal es p

i 1
i
Si la matriz X está centrada y escalada tal que  corresponda a la matriz

p
de correlaciones, se cumple que 
i 1
i  p . En otras palabras, los elementos
i proporcionan la ponderación que tienen los componentes principales en

la varianza total de XTX de forma tal que 1  2  ....   p .
Además de reducir los efectos de la Multicolinealidad, la técnica de

Componentes Principales se utiliza para:
 Detectar la presencia de Datos Outliers.
 Revisar la hipótesis de Distribución Normal Multivariada de las

variables predictoras.
 Agrupar elementos de la muestra en subgrupos semejantes (Análisis

Cluster).
 Reducción de la dimensión en Análisis Discriminante.

Para entender de mejor manera los conceptos recién expuestos,

consideremos la siguiente muestra de las variables x1 y x2, obtenidas de una
distribución normal bi-variada:
Figura 5.3
Distribución Normal Bivariada: x1 vs x2
1.5
0.5
0
X2
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
-0.5
-1
-1.5
X1

Figura 5.4
Componentes Principales
1.5
2
0.5
1
0
X2
100
1
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
-0.5
-1
-1.5
X1
Respecto a la Figura 5.4, es interesante notar que:
x12 x22
 La ecuación de la elipse es:   c , donde x1 y x2 corresponden a
1 2
los ejes rotados y c es la distancia entre el plano de corte de la
distribución normal bivariada (campana) y el plano definido por
f  x1 , x2   0 .
 Los vectores propios son paralelos a los ejes rotados de la elipse.

 cov  x1 , x2   0
 Si x1 y x2 no están correlacionados  1,2  0  , se tendrá que 1   12 y

2   22 . Luego, no es necesario rotar la elipse.
 Si 2 = 0, los puntos caerían en la recta de x1 , y viceversa. Esto indica
que la correlación entre ambas variables es uno.

 Si 1 = 2 a elipse colapsará a una circunferencia, y los valores propios

quedarán indeterminados (se podrá determinar sólo uno), ya que la
variabilidad de los datos es la misma en todas las direcciones.
Sin embargo, si las variables x no están correlacionadas, no tiene

sentido aplicar el MCP. Luego, es necesario determinar si las variables de respuesta x
están o no correlacionadas antes de aplicar el MCP.
Esto se puede llevar a cabo probando si la matriz  es diagonal o no. Si es

diagonal, las variables de respuesta son independientes y no tiene sentido aplicar MCP.
Definiendo la hipótesis nula de que  es diagonal, o que es análogo a decir

que la matriz de correlaciones R es la identidad I, se tiene el siguiente contraste para
muestras grandes:
  2 p  5 
  ln R   p p 1 2
2
  n 1  (5.35)
  6 
Si el valor estimado es mayor que el valor crítico tabulado, se rechaza

entonces la hipótesis nula de no correlación entre las variables de respuesta, por lo que es
factible aplicar el MCP. Notar que ln R   î   ˆ i ,i .
i i
5.2.7 Regresión Crestra (Ridge Regression)
Fue propuesta por Hoerl y Kennard (1970) y se basa en perturbar la matriz

X X 
T
en otra parecida  X T X   I  , donde lo que hacemos es sumar a la diagonal
principal de X X 
T
una constante . La idea es perturbar lo mínimo posible la matriz
X X 
T
para que cambie su tamaño y su determinante sea distinto de cero. El problema
de estos regresores es la elección de la constante k que ha de sumarse a la diagonal
principal de  X T X  , además de que dichos estimadores no conservan la propiedad de
insesgadez de los MCO. Es decir:
ˆC   X T X   I  X T Y   X T X   I  X T  X    
1 1
(5.36)
y bajo las hipótesis habituales sobre el término de perturbación, se tiene que:

 
E ˆC   X T X   I  X T X   
1
(5.37)
 
sesgo ˆC    X T X   I  
1
(5.38)
El estimador Cresta o Ridge se obtiene de resolver el siguiente problema de

optimización:
Q= Y  X   Y  X     T 
T
min
  (5.39)
s.a.:   r
T
 
Gráficamente, la solución del problema (5.39) se muestra en la siguiente

Figura:
Figura 5.5
Estimador MCO vs Estimados Cresta
1
 MCO
C
2

El valor de r no se conoce, y debe ser definido por el modelador, lo que

equivale a definir un determinado valor para  en la ecuación (5.36). Existen múltiples
recomendaciones para estimar , entre las que se pueden mencionar:
ˆ 2
k  (5.40)
 
2
ˆ MAX
donde ˆ 2 se obtiene directamente de la estimación de MCO y ˆMAX es el máximo

parámetro estimado del siguiente modelo:
Y  Z   (5.41)
En el modelo (5.41) se construye a partir de la siguiente definición: sea

  X X y definamos también Z  XA,   AT  , AT  A   , donde A es una matriz
T
ortogonal y  es la matriz diagonal cuyos elementos son los valores propios de .
Pese a ser sesgado, el estimador cresta tiene menor varianza que el clásico
estimador de MCO:
  
V ˆC   2  X T X   I  X T X  X T X   I   V ˆMCO 
1 1
(5.42)
Además, es posible demostrar que siempre existe un valor de tal que el Error
Cuadrático Medio (ECM, que es la suma de la varianza del estimador más el cuadrado del
sesgo) del estimador Cresta es menor que el de MCO.
Además del problema de elegir el escalar  óptimo para cada problema en

concreto, esta solución no tiene ninguna interpretación económica. Es decir,
resolvemos el problema numérico, pero perturbamos la matriz  X T X  , lo cual supone
cambiar la información muestral sobre las variables explicativas. Este remedio a la
multicolinealidad no es muy utilizado en la práctica.

Figura 5.6
Error Cuadrático Medio Estimador MCO vs Estimados Cresta
ECMC
ECM
SesgoC
ECMMCO
VarC
5.3 Heterocedasticidad
5.3.1 Definición de Heterocedasticidad
La heterocedasticidad es la existencia de una varianza no constante en las

perturbaciones aleatorias de un modelo econométrico. Es decir, cada individuo u
observación de la muestra tiene una varianza propia diferente del resto. En ese caso, la
matriz de varianzas y covarianzas de las perturbaciones se representaría del siguiente
modo:
 12 0 0 .... 0 
 
 0  22 0 .... 0 
V      2 (5.43)
 .... .... 
 2
 0 0 0 ....  n 

Figura 5.7
Perturbaciones Heterocedásticas
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45
-10
-20
-30
-40
Observaciones
Producto de la presencia de una matriz de varianzas y covarianzas no escalar

de las perturbaciones aleatorias, la estimación correcta de los parámetros del modelo se
realiza mediante MCG:
ˆMCG   X T  1 X  X  1Y 
1 T
(5.44)
Sin embargo, para la aplicación de (5.44) en un modelo con n observaciones

y k variables explicativas, sería necesario estimar k + 1 parámetros (considerando el
intercepto) y n varianzas para las perturbaciones. Luego, hay más incógnitas que
ecuaciones independientes que se puedan construir con las n observaciones.
Por ello, habrá que hacer algún supuesto simplificador sobre la causa de la
heterocedasticidad, una vez que esta sea detectada. Evidentemente, encontrar una
simplificación correcta dotará de plena utilidad (eficiencia) a la estimación con MCG y, a
en caso contrario, un mal diseño de la causa de la heterocedasticidad (de la matriz )
producirá un valor ineficiente de dichos parámetros. Lamentablemente, muy rara vez de
puede inferir una forma funcional adecuada de , por lo que la única alternativa puede
ser estimar dicha matriz o simplemente usar MCO.

5.3.2 Causas de la Heterocedasticidad
La heterocedasticidad es un problema que surge en muchas aplicaciones,

sobre todo trabajando con datos de sección cruzada (corte transversal). Por ejemplo, en
una relación que explica los beneficios de un conjunto de empresas, es lógico pensar que
existe una mayor variación en los beneficios de las empresas grandes que en los beneficios
de las pequeñas. Pero incluso después de descontar las diferencias de tamaños, puede
seguir existiendo heterocedasticidad.
Así, la varianza de los beneficios puede depender también de la

diversificación del producto, de los gastos en investigación y desarrollo, de las
características de cada empresa y además, podrían variar los beneficios dentro de
empresas de un mismo tamaño debido a diferencias en la rotación de personal. Todas
estas variables, que afectan a la variable dependiente, difícilmente pueden ser
incorporadas correctamente en un modelo, ya que no existe información fidedigna al
respecto.
Si bien las causas que se citan a continuación no son las únicas posibilidades
que dan lugar a un modelo heterocedástico, sí son las más frecuentes. Notar que en la
mayoría de los casos, la heterocedasticidad es se debe a la presencia de una variable
heterocedástica.
a. Variables explicativas cuyo recorrido tenga una gran dispersión

respecto a su propia media.
En esta situación, los modelos de corte transversal son especialmente susceptibles a

registrar heterocedasticidad. La disposición arbitraria de las observaciones en este
caso (puede responder, por ejemplo al orden alfabético de las observaciones de la
endógena o al modo en que se han obtenido los datos o a cualquier otra razón)
pueden agrupar, casualmente, observaciones que presenten valores grandes en una
determinada variable explicativa y lo mismo con valores pequeños de esta misma
variable.
Si esta variable es la que está produciendo la distorsión en el modelo de

heterocedasticidad, dicha distorsión será probablemente mayor en aquellas
observaciones que contengan una mayor carga de ésta y menor en las que su peso

sea más pequeño. Por ello, la varianza de las perturbaciones aleatorias estimada por
sub-períodos distintos de una muestra sería diferente; es decir, habría
heterocedasticidad. La misma situación se puede dar en modelos de corte temporal
en los que la evolución histórica haya marcado diferentes períodos en cuanto a los
valores de una variable en relación a su media, agrupando en algún sub-período
valores altos y en otros valores pequeños, como por ejemplo en períodos de
inestabilidad en el precio del petróleo.
b. Omisión de variables relevantes en el modelo especificado.
Evidentemente, cuando se ha omitido una variable en la especificación, dicha

variable quedará parcialmente recogida en el comportamiento de las perturbaciones
aleatorias, pudiendo introducir en éstas su propia variación, no necesariamente fija.
Recuérdese que la hipótesis inicial del MRL de homocedasticidad hacía referencia a
la varianza constante de las perturbaciones aleatorias, pero no obligaba a que las
variables explicativas tuvieran también varianza constante, hecho que, además, sería
una restricción muy poco plausible.
c. Cambio de estructura.
El hecho de que se produzca un cambio de estructura determina un mal ajuste de los

parámetros al conjunto de los datos muestrales. Este no tiene porque influir del mismo
modo en todo el recorrido de la muestra, pudiendo producir cuantías de desajuste
del modelo diferentes y, por tanto, varianza no constante por sub-períodos.
Al fin y al cabo, el fenómeno del cambio de estructura es equiparable a una

especificación incorrecta por omisión de variables relevantes: precisamente faltaría la
variable ficticia que distingue entre las dos situaciones o estructuras distintas que
conviven en el período muestral elegido en el modelo. Un caso típico es ver el nivel
de ingreso entre profesionales con y sin post grado, o entre hombres y mujeres, o
entre jóvenes y adultos mayores jubilados.
d. Empleo de variables no relativizadas.
De un modo similar al comentado en el caso (a), aquellas observaciones que

contengan un valor mayor de una variable explicativa concreta (sospechosa de ser
la que produce la heterocedasticidad) pueden originar valores del error diferentes.

Observadas las causas frecuentes de heterocedasticidad, es fácil deducir que

la varianza no constante de las perturbaciones aleatorias viene casi siempre inducida por
alguna variable, presente o no en el modelo, por lo que se podrían distinguir dos
componentes en la varianza heterocedástica resultante del modelo: una cambiante,
proveniente de esa variable que induce el problema, y una constante, que sería la que se
daría si el modelo hubiera sido bien planteado. Matemáticamente podríamos escribir esto
del siguiente modo:
 i2  f  2 Z i  (5.45)
donde 2 sería el parámetro fijo o parte fija de la varianza, y Zi sería la matriz de variable
o variables que está produciendo ese comportamiento no constante de la varianza de las
perturbaciones aleatorias. Esta función podría ser empleada precisamente como el
“supuesto simplificador” al que anteriormente se hacía referencia para posibilitar la
estimación mediante MCG de  sin encontrarnos con más incógnitas que observaciones.
5.3.3 Efectos de la Heterocedasticidad
El gran efecto de la heterocedasticidad es que los estimadores de los

parámetros de varianza (no los ), son incorrectos. Luego, la eficiencia de los restantes
estimadores es menor y la inferencia estadística que se realice es incorrecta.
a. Cálculo incorrecto de varianzas y parámetros ineficientes.
En el caso de obviar la heterocedasticidad para la estimación de los

parámetros, es decir, seguir empleando la expresión MCO, caben dos opciones:
 Estimar los parámetros y también las varianza como si hubiera

homocedasticidad en el modelo; esto es, usar simplemente MCO.
 Estimar los parámetros  con MCO, pero luego calcular la verdadera

varianza que les correspondería a estos estimadores cuando la matriz de
varianzas y covarianzas de la perturbación aleatoria es no escalar.
Sobre esta reflexión es interesante notar el experimento realizado por

Goldfeldt y Quandt (1972) en el que pretendían analizar la ganancia en eficiencia (menor
varianza) en los siguientes tres casos:

 Estimación de los parámetros con la expresión de MCG y cálculo

correcto de sus varianzas correspodientes:
ˆMCG   X T  1 X  X  
 1Y  y V ˆMCG   2  X T  1 X 
1 T 1
 Estimación de los parámetros con la expresión MCO y cálculo de las

varianzas con la expresión que correspondería a un supuesto de
homocedasticidad:
 
ˆMCO   X T X  X T Y y V ˆMC 0   2  X T X 
1 1
 Estimación de los parámetros con la expresión MCO y cálculo de las

varianzas con la expresión que correspondería a un supuesto de
heterocedasticidad:
 
ˆMCO   X T X  X T Y y V ˆMCG   2  X T X  X  1 X  X T X 
1 1 T 1
Sobre un experimento controlado de generación de la varianza

heterocedástica se llegaba a las siguientes conclusiones:
1. La mayor varianza de MCO en vez de MCG puede producir un

incremento de más de 10 veces en la varianza estimada del parámetro
constante y valores hasta 4 veces mayores en las varianzas de los
parámetros que acompañan a variables explicativas.
2. Calcular la varianza de los estimadores ignorando la heterocedasticidad,

produce un sesgo por infravaloración de la real del orden del doble.
b. Invalidez de los contrastes de significancia.
Los contrastes que emplean para su cálculo estimaciones de la varianza o de

su raíz cuadrada (desviación típica), sufrirán un claro sesgo deducible de lo dicho
anteriormente:

 Si se confirma el problema de la heterocedasticidad y se siguen empleando

MCO, calculando erróneamente la varianza que correspondería a estos en
el caso de que hubiera homocedasticidad  2  X T X  , ya se ha
1
comentado que se estaría infravalorando la varianza real, por lo que

contrastes de significatividad de los parámetros como la t-estadística o la F
rechazarían la hipótesis nula con mayor frecuencia de la debida; es decir,
aceptarían la validez de determinadas variables para explicar la endógena
en casos en los que esto realmente es falso  tˆ  t  .
 Si se emplearan MCO en la estimación, calculando correctamente su

varianza en caso de heterocedasticidad  2  X T X  X  1 X  X T X 
1 T 1
ya se ha comentado que estos parámetros arrojarían una importante

ineficiencia respecto al empleo de MCG, por lo que, al contrario que en el
caso anterior, se aceptaría la hipótesis nula de los contrastes de
significatividad más veces de las reales  tˆ  t  .
En síntesis, en presencia de heterocedasticidad, ̂ será insesgado pero

ineficiente, mientras que ˆ 2 será sesgado. No obstante, si la heterocedasticidad no se
debe a alguna variable X, la estimación MCO será asintóticamente correcta.
En la Figura 5.8 5.4 se observa claramente que la muestra de color fucsia

genera un estimador MCO muy diferente a la muestra de color naranjo, y a su vez ambos
son diferentes al verdadero estimador (pendiente de la línea recta de color negro).
Sin embargo, se aprecia que el promedio de las pendientes de las línea fucsia
y naranja tiende a parecerse a la pendiente de la línea negra. Esto refleja por lo tanto la
ineficiencia que genera la heterocedasticidad al usar MCO.

Figura 5.8
Ejemplo del Efecto de la Heterocedasticidad
5.3.4 Detección de la Heterocedasticidad
a. Contrastes gráficos.
 Gráfica del error a través de las distintas observaciones del

modelo: Dado que las series económicas presentan casi siempre una
tendencia definida (positiva o negativa), la simple gráfica de error puede
servir para conocer intuitivamente si el mero transcurso del tiempo da lugar
a un incremento/decremento continuado del error, lo que sería significativo
de una relación entre la evolución de las variables del modelo y los valores
cada vez mayores o cada vez menores de éste.
En ambos, la mera evolución del tiempo podría estar correlacionada con

valores cada vez mayores (izquierda) del error o cada vez menores
(derecha), con lo que el cálculo de la varianza por sub-períodos arrojaría
valores significativamente diferentes; es decir la serie del error sería
heterocedástica.

 Gráfica del valor absoluto del error en función de una

explicativa sospechosa de producir la heterocedasticidad en el
modelo: Si se ordena de menor a mayor la variable sobre la que se quiere
investigar si produce o no heterocedasticidad y, con ella, los valores
absolutos del error estimado, el hecho de que la nube de puntos obtenida
en su gráfica conjunta se pudiera aproximar correctamente con una
regresión lineal significaría que el incremento de la variable explicativa da
lugar a un incremento de las perturbaciones aleatorias, lo que sería causa
de heterocedasticidad en éstas.
b. Contrastes paramétricos.
Varios de los contrastes que se desarrollan en este apartado tendrán un

método para dirimir la significatividad de los valores obtenidos a partir de las tablas
estadísticas de las funciones de densidad conocidas según la cual se distribuyen en cada
caso los ratios propuestos. Es por esta razón por la que se llaman "paramétricos".
 Contraste de Breusch-Pagan: La idea del contraste es comprobar si se

puede encontrar un conjunto de variables Z que sirvan para explicar la
evolución de la varianza de las perturbaciones aleatorias, estimada ésta a
partir del cuadrado de los errores del modelo inicial sobre el que se
pretende comprobar si existe o no heterocedasticidad. El proceso a seguir
para llevar a cabo este contraste es el siguiente:
i) Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinando los errores:
ˆT ˆ
Y  X    , ˆMCO   X T X  X T Y , î  Yi  Yî  ˆ 2 
1
nk
ii) Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:
ˆT ˆ î2
ˆ 2   i2  (5.46)
nk ˆ 2

Este valor al cuadrado nos elimina problemas de interpretación sobre la

evolución media del error en el tiempo debidos a la compensación de
signos que se produciría en cualquier cálculo agregado (valores
positivos y negativos). Por otra parte, la estandarización elimina
distorsiones debidas a las posibles distintas dimensiones de los errores
originales.
î2
iii) Se estima una regresión del error i2  calculado en el paso (ii)
ˆ 2
explicado por una constante 0 y el conjunto de las variables Z que se
pretende saber si producen o no heterocedasticidad en el modelo;
notar que las variables Z pueden ser todas o un subconjunto de las
variables X originales. Luego se obtiene el coeficiente de determinación
de este modelo y la varianza de la estimada:
i2   0  1Z1i   2 Z 2i  ....   p Z ip  vi  R2 (5.47)
iv) En principio, dado que el modelo tiene término constante, se cumple la

regla general de las regresiones en que la varianza de la variable
dependiente real es igual a la suma de la varianza de la dependiente
estimada más la varianza del error obtenido en el modelo. Por ello, si el
modelo es "malo" la varianza de la endógena estimada será pequeña
(es lo mismo que decir que la varianza del error estimado es grande o
que el "modelo tiene mucho error").
En definitiva, y siguiendo el interés que aquí buscamos, si la varianza

de la variable dependiente estimada en este segundo modelo es muy
pequeña, estaremos afirmando que el poder explicativo del conjunto
de variables Z sobre la representación de la varianza de las
perturbaciones aleatorias es escaso.
A partir de esta afirmación, podríamos generar un contraste calculado

con esta varianza, sabiendo que cuanto más cerca de cero se
encuentre, más probabilidades de homocedasticidad habrá en el
modelo. El contraste propuesto es:

n  R2   p2 1 (5.48)
Si el valor estimado de n  R2 supera al valor de tablas e  p2 1 , se

rechaza la hipótesis nula; es decir, se acepta que el conjunto de
variables Z está produciendo heterocedasticidad en el modelo original.
En caso contrario, se acepta la homocedasticidad.
El contraste de Breusch - Pagan efectivamente nos servirá para aceptar

o descartar la presencia de heterocedasticidad debida a ese conjunto
de variables Z citado, pero su operatividad es limitada. Si el conjunto
de las variables Z contiene variables no incluidas en el modelo original,
parece difícil no haberlas tenido en cuenta antes para realizar una
buena especificación y sí tenerlas en cuenta ahora para la
contrastación. Por otro lado, la lista de variables Z debe ser
necesariamente pequeña para poder realizarse el contraste.
 Contraste de Glesjer: De forma similar al caso anterior, Glesjer propone

descartar la variación del error en función de una variable Z, que ahora
pueden estar elevadas a una potencia "h" que estaría comprendida entre -1
y 1. El método que se propone es:
i) Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinando los errores:
ˆT ˆ
X X 
1
Y  X   , ˆ MCO
T T
ˆ ˆ
X Y ,  i  Yi  Yi   
ˆ 2
nk
ii) Estimar cuatro regresiones para los valores absolutos del error del
modelo anterior en función de una variable elevada consecutivamente
a " h ", que para cada modelo tomaría los valores -1, -0,5, 0,5 y 1:
î   0  1Z h  ui (5.49)
Se escogerá la regresión de las cuatro con parámetros significativos y

con mayor R2.

iii) Se entiende que, si el valor de esta R2 es suficientemente grande, se

estará confirmando que existe heterocedasticidad producida por la
variable Z, ya que esta es capaz de explicar la evolución de la
evolución del error como estimada de la evolución de las
perturbaciones aleatorias. Se puede usar el test expuesto en (5.48).
 Contraste de White: En este contraste la idea subyacente es determinar

si las variables explicativas del modelo, sus cuadrados y todos sus cruces
posibles no repetidos, sirven para determinar la evolución del error al
cuadrado.
Es decir, si la evolución de las variables explicativas y de sus varianzas y

covarianzas son significativas para determinar el valor de la varianza
muestral de los errores, entendida ésta como una estimación de las
varianzas de las perturbaciones aleatorias. El proceso a seguir para realizar
este contraste sería el siguiente:
i) Estimar el modelo original por MCO, determinando la serie de los

errores. Escrito esto en forma matricial para un modelo con n
observaciones y k variables explicativas:
ˆT ˆ
X X 
1
Y  X   , ˆ MCO
T T
ˆ ˆ
X Y ,  i  Yi  Yi   
ˆ 2
nk
ii) Estimar un modelo en el que la endógena sería los valores al cuadrado

de los errores obtenidos previamente (paso i) con todas las variables
explicativas del modelo inicial, sus cuadrados y sus combinaciones no
repetidas.
î2   0  1 X 1i  ....   k X ki  

 k 1  X 1i   ....   k  k  X ki  
2 2

2
  Rˆ (5.50)
 k  k 1  X 1  X 2   ....   k  k  k  X 1  X k  
i i i i


 3k 1  X 2i  X 3i   ....   4 k 1  X 2i  X ki   ....  i 

El valor de la R2ˆ de este segundo modelo (paso ii) nos dirá si las
variables elegidas sirven o no para estimar la evolución variante del
error al cuadrado, representativo de la varianza estimada de las
perturbaciones aleatorias.
Evidentemente, si la varianza de éstas fuera constante

(homocedasticidad), el carácter no constante de las variables
explicativas implicadas en el modelo no serviría para explicar la
endógena, luego la R2ˆ debiera ser muy pequeña.
En principio, la R2ˆ , como proporción de la varianza de la endógena

real que queda explicada por la estimada, debiera ser muy pequeña si
la capacidad explicativa de los regresores considerados también es
muy pequeña, siendo estos regresores, por su construcción,
representativos de varianzas y covarianzas de todas las explicativas del
modelo original.
Dicho esto, evidentemente un valor de la R2ˆ suficientemente pequeño

servirá para concluir que no existe heterocedasticidad en el modelo
producida por los valores de las explicativas consideradas en el
modelo inicial.
Para encontrar el valor crítico en esa consideración de “suficientemente

pequeño” se emplea la expresión deducida por Breusch y Pagan como
producto del coeficiente R2 por el número de datos del modelo, que se
distribuiría del siguiente modo:
n  R2ˆ   p2 1 (5.51)
En definitiva, si obtenemos un valor del producto n  R2ˆ mayor que el

reflejado por las tablas de  p2 1 , afirmaremos que existe
heterocedasticidad, y viceversa.

Otro modo de contrastar la existencia de heterocedasticidad en el

modelo a partir de la validez o no de los parámetros incluidos en la
regresión propuesta por White vendría dado por el valor del contraste
de significación conjunta F.
Si dicho contraste afirmara que, en conjunto, las variables explicitadas

tienen capacidad explicativa sobre la endógena, estaríamos afirmando
la presencia de heterocedasticidad en el modelo.
 Contraste de Spearman: La filosofía de este contraste reside en que la

variable sospechosa de producir heterocedasticidad debería provocar un
crecimiento del residuo estimado al mismo ritmo que ella va creciendo. Por
ello, si ordenáramos de menor a mayor tanto la variable “sospechosa”, por
ejemplo xki, como el valor absoluto del residuo î , el cambio de puesto en
ambas, y para cada una de las observaciones, debiera ser del mismo
número de puestos respecto al orden original de las series.
En la medida en la que este cambio de puesto respecto al original no sea el

mismo para las dos (una vez ordenadas) se podría hablar de movimientos
no correlacionados.
Dado que la correlación se mide entre uno y menos uno, Spearman

propone determinar un grado de correlación en ese “cambio de puesto
respecto al inicial” de cada una de las variables a partir de la diferencia (di)
entre el nuevo puesto y el inicial:
n
6 di2
rs  1  i 1
(5.52)
n  n 2  1
En esta expresión, una coincidencia máxima (todas las distancias son igual
a cero), daría lugar a una correlación de Spearman igual a uno; mientras
que una distancia máxima, provocaría un valor cero de dicho coeficiente de
correlación.

Para valorar la significatividad o no de esta correlación, se conoce la

función de distribución del siguiente ratio bajo la hipótesis nula de no
significatividad, demostrado por el autor:
rs n  2
 tn  2 (5.53)
1  rs2
Con ello, si el resultado del ratio es superior al valor de tablas, podremos

afirmar que la correlación es significativa o, de cara a nuestro interés en
este caso, que hay indicios de heterocedasticidad en el modelo provocada
por la variable xki.
5.3.5 Corrección de la Heterocedasticidad
Como hemos venido viendo repetidas veces a lo largo del tema, la

heterocedasticidad viene producida por la dependencia de la varianza de las
perturbaciones aleatorias de una o más variables que, a su vez, pueden estar presentes en
el modelo o no.
Los distintos métodos para detectar este problema servían para probar, en el
caso en el que ésta realmente se diese, la dependencia de la varianza de la perturbación
aleatoria de un conjunto de variables, a partir de lo que hemos llamado un supuesto
simplificador:
 i2  f  2 Z i  (5.54)
Por lógica, el modo de subsanar el problema detectado será operar

convenientemente las variables del modelo precisamente eliminando la fuente de
heterocedasticidad que habremos podido definir cuando detectamos la misma.
Como veremos a continuación, si el conjunto total de las variables del modelo

(endógena incluida) es dividido por la forma estimada de esta función de la raíz de la
varianza heterocedástica (una vez algún método de detección nos haya confirmado que
efectivamente el comportamiento de esta varianza se puede seguir convenientemente con
dicha función) estaremos corrigiendo el modelo.

Para comprobar esto, podemos volver a la forma matricial de varianzas

covarianzas no escalar:
 12 0 0 .... 0 
 
 0  22 0 .... 0 
V      2 (5.55)
 .... .... 
 2
 0 0 0 ....  n 
En esta matriz, si dividimos por la raíz de  i2  f  2 Z i  , obtendremos una

diagonal principal de unos; es decir, volveríamos al caso de una matriz de varianzas y
covarianzas escalar tal y como la que se supone en el modelo básico de regresión lineal.
Formalmente, para probar esto seguimos los siguientes pasos. Dado que la
matriz  es una matriz semidefinida positiva (todos los elementos de su diagonal principal
son necesariamente positivos), siempre podremos descomponerla en dos matrices de la
forma:
  PPT   1   P 1  P 1 
T
(5.56)
Volviendo a la matriz de varianzas y covarianzas no escalar, y uniendo esto a

la función que hemos comprobado sirve para definir esta varianza no constante
 i2  f  2 Z i  , es fácil llegar a que la descomposición   PPT   1   P 1  P 1 
T
es:
 1 0 0 .... 0   1 0 0 .... 0 
  
 0 2 0 .... 0   0  2 0 .... 0 
  2 PPT (5.57)
 .... ....   .... .... 
  
 0 0 0 ....  n   0 0 0 ....  n 
Si multiplicamos cada variable del modelo por esta matriz P, tal y como se ha
sugerido, obtenemos unas nuevas variables del siguiente tipo:
P 1Y  P 1 X   P 1  Y *  X *    * (5.58)
donde:


V   *   E   * *T   E  P 1   * *T  P 1 
T
  P 1
 P  E   
1 T * *T
(5.59)
V   *    1 E   * *T    1 2    2 I n (5.60)
Luego, podemos afirmar que el modelo transformado (aquel por el que se han
dividido todas las variables por la desviación típica estimada de las perturbaciones
aleatorias) soporta una matriz de varianzas covarianzas de las perturbaciones aleatorias
escalar, con lo que se puede estimar con toda garantía por MCO.
En síntesis, los pasos para corregir la heterocedasticidad son los siguientes:
a) Se estiman los parámetros del modelo por MCO, ignorando por el

momento el problema de la heterocedasticidad de las perturbaciones
aleatorias
b) Se establece un supuesto acerca de la formación de  i2 y se emplean los

residuos de la regresión por MCO para estimar la forma funcional
supuesta.
c) Se divide cada observación por  i2 según el paso anterior (según el

valor de esa heterocedasticidad supuesta estimada, siempre y cuando un
contraste nos haya confirmado que el “modelo simplificador” es bueno).
d) Se estima el modelo original ahora con todas las variables transformadas

según el paso (c).

5.4 Autocorrelación
5.4.1 Definición de Autocorrelación
Usando datos de series temporales es un problema común la presencia de

autocorrelación o correlación serial de las perturbaciones. Sin embargo, con datos de
sección cruzada o de panel, es más habitual encontrar un problema de heterocedasticidad.
En ese caso, la matriz de varianzas y covarianzas de las perturbaciones se representaría
del siguiente modo:
 1  2 ....  n 1 
 
2   1  ....  n  2 
V      2 (5.61)
1   2  .... .... 
 n 1 
   n2  n 3 .... 1 
Supongamos que se ha estimado un modelo por MCO y representamos

gráficamente los residuos resultantes:
Figura 5.9
Perturbaciones Autocorrelacionadas
1
0,5
0
0 5 10 15 20 25 30 35 40 45
-0,5
-1
-1,5
Observaciones

El patrón de estos residuos nos muestra que el conocimiento del signo de un

residuo es un buen indicador del signo del residuo en el período siguiente y esto es
autocorrelación. Luego, si se pueden predecir los errores cometidos por un modelo, se
puede por lo tanto mejorar el modelo al pronosticar dichos errores.
5.4.2 Causas de la Autocorrelación
a) Una explicación al problema de autocorrelación son los factores omitidos

en la regresión que están correlacionados a través del tiempo. El análisis
univariante de series temporales nos sugiere que las variables económicas
siguen distintas estructuras de autocorrelación.
b) Otra causa común de la autocorrelación es la existencia de tendencias

(inercias) y ciclos en los datos. Es decir, la mayoría de las variables
económicas no son estacionarias en media. Esto significa que si la variable
endógena del modelo tiene una tendencia creciente o presenta un
comportamiento cíclico que no es explicado por las exógenas, el término
de error recogerá ese ciclo o tendencia.
c) Si se omite una variable explicativa no estacionaria en media, esto

también provocará autocorrelación en el término de error. Por ejemplo, si
el modelo correcto es:
Y t  X 1t 1  X 2t  2   t (5.62)
y se trabaja con el modelo Y t  X 1t 1  u t donde u t  X 2t  2   t ,

entonces presentará autocorrelación aunque i sea un proceso de ruido
blanco. Sabemos además que la omisión de variables relevantes provoca
sesgos en el estimador MCO.
d) Otra fuente de autocorrelación es especificar una relación lineal entre las

variables cuando la verdadera relación es no lineal. En este caso, lo
habitual es tener una racha de residuos positivos (o negativos) seguida de
otra racha de residuos negativos (o positivos) y así sucesivamente. Aquí la
causa del problema en los residuos es un error de especificación en la
forma funcional.

e) La autocorrelación puede provenir del hecho de que la relación entre las

variables económicas es dinámica y no estática. Por ejemplo, trabajamos
con el modelo:
Y t   0  X t 1  u t (5.63)
cuando la verdadera relación es Y t   0  X t 1  Y t 1  2  et . Por tanto,

u t  Y t 1  2  et , pero Y t 1 es una función de u t 1 y por ello, u t será una
función de u t 1 .
c) Efectos de shocks con influencia prolongada en la economía, por ejemplo

un terremoto o una guerra:
5.4.3 Efectos de la Autocorrelación
La consecuencia más grave de la autocorrelación de las perturbaciones es

que la estimación MCO deja de ser eficiente y la inferencia estadística también se verá
afectada. Con datos de series temporales, suponer que las perturbaciones son
homocedásticas pero están correlacionadas equivale a escribir su matriz de covarianzas
como:
V     2 (5.64)
donde  es una matriz definida positiva y simétrica, pero no diagonal. El estimador MCO
de los parámetros  puede escribirse como:
ˆ     X T X  X T 
1
(5.65)
Si la E     0 y los regresores no están correlacionados con las

perturbaciones, sigue siendo un estimador insesgado, ya que E ˆ   .  
Con respecto a la eficiencia del estimador, ahora E( ) se tiene que:
 
V ˆ  E ˆ    ˆ   
T
  E  X X 
T 1
X T  T X  XX 
1
 (5.66)
 
V ˆ   2  X T X   X T  X   X T X  
1 1 1
(5.67)
 

y si   N  0;  2   entonces:

ˆ  N  ; 2  X T X 

1
X T
X
1
X X 
T 1

  (5.68)
Puesto que la matriz de covarianzas del estimador MCO no es  2  X T X  ,

1
cualquier inferencia basada en el estimador será errónea. Además, no sólo es incorrecta la

ˆ 2  X T X 
1
expresión de la matriz de covarianzas, sino que el estimador habitual de  2
será ahora sesgado.
Figura 5.10
Ejemplo del Efecto de la Autocorrelación
En la Figura 5.10 se observa claramente que la muestra de color fucsia

genera un estimador MCO muy diferente a la muestra de color verde, y a su vez ambos
son diferentes al verdadero estimador (pendiente de la línea recta de color negro).
Además, claramente en los casos de las líneas verde y fucsia se sobrestima el R2, y al
mismo tiempo subestima el 2. Al igual que en la heterocedasticidad, se aprecia que el
promedio de las pendientes de las línea fucsia y verde tiende a parecerse a la pendiente

de la línea negra. Esto refleja por lo tanto la ineficiencia que genera la autocorrelación al
usar MCO.
5.4.4 Detección de la Autocorrelación
Existen distintos procedimientos de detección de la autocorrelación.

Básicamente son instrumentos estadísticos y gráficos.
 Contraste de Durbin-Watson: En la práctica, no se sabe a priori si

existe autocorrelación y cúal puede ser el proceso más adecuado para
modelizarla.
Existen varios contrastes de autocorrelación que se construyen usando los

residuos MCO del modelo original. El más antiguo y conocido es el
estadístico de Durbin y Watson (1950, 1951) para detectar la presencia de
un AR(1).
La hipótesis nula es que en el modelo  t   t 1  vt , se cumple   0 ,

donde además vt es ruido blanco. El estadístico de contraste es:
 ˆ  ˆt 1 
2
t
DW  t 2
n 
 2 1  ˆ  (5.69)
 ˆ 
t 1
t
2
Esta última aproximación es buena si n es suficientemente grande. El

parámetro ˆ es el estimador MCO de  en la siguiente regresión:
ˆt  ˆt 1  vt (5.70)
donde ˆt es el residuo resultante de la estimación MCO del modelo

original, ignorando la presencia de autocorrelación.
La solución MCO es:

 ˆ ˆ 
t t 1
ˆ  t 2
n
(5.71)
 ˆ 
t 2
2
t 1
El rango de valores que puede tomar el estadístico DW es el siguiente:
o DW = 2 si ˆ  0 .
o DW   2, 4  si 1  ˆ  0 .
o DW   0, 2  si 0  ˆ  1 .
La distribución del estadístico DW bajo la hipótesis nula no es conocida. De

hecho, el DW depende de los residuos MCO, ˆMCO  M  , y la matriz M
depende de la matriz X , luego la distribución del estadístico depende de la
matriz de datos y los valores críticos del contraste serán diferentes para
cada posible matriz X.
Durbin y Watson tabularon los valores máximo  d max  y mínimo  d min  que
pueden tomar dichos valores críticos cuando la H1 :   0 , los regresores
son fijos y existe término constante en el modelo.
Con este estadístico:
o Si H 0 :   0 frente a H1 :   0
i) se rechaza H 0 si DW  d min
ii) no se rechaza H 0 si DW  d max
iii) se cae en zona de incertidumbre si d min  DW  d max
o Si la hipótesis a contrastar es H 0 :   0 frente a H1 :   0 , puesto

que el estadístico toma valores comprendidos entre 2 y 4, los
valores tabulados d min y d max se comparan con  4  DW  en
lugar de DW.

Este contraste se puede considerar como un contraste de mala

especificación del modelo. La omisión de variables relevantes, una forma
funcional no apropiada, cambios estructurales no tenidos en cuenta, etc.,
pueden llevar a un valor del estadístico significativo.
Con este estadístico no se puede concluir nada si se cae en una zona de

indeterminación y tampoco sirve si en el modelo aparecen regresores
estocásticos (como, por ejemplo, algún retardo de la endógena). En este
último caso, el valor del estadístico DW está sesgado hacia el 2, por lo que
se tendería a no rechazar la hipótesis nula de no autocorrelación.
Finalmente, si la estructura de autocorrelación existente en los residuos es de
tipo estacional, el contraste de Durbin - Watson, en general, no detecta este
tipo de autocorrelación.
Si la estructura de autocorrelación existente es de orden 2 o superior, en

general, el valor del DW nos llevará a rechazar la nula, pero también a
trabajar con una estructura de autocorrelación de orden 1.
Una alternativa propuesta por DW, cuando Y t   0  Y t 1 1  X t  2  u t ,

corresponde a la siguiente:
n 1
h  ˆ  N  0;1 (5.72)
 
1   n  1  V ˆ1
donde ̂1 es el estimador del coeficiente asociado a la variable endógena

rezagada y n es el tamaño muestral. Luego, si el valor estimado de h es
mayor al tabulado para un determinado nivel de confiabilidad, no se
rechaza la hipótesis de ausencia de autocorrelación, es decir, es altamente
probable que exista autocorrelación.
 Contraste de Breusch y Godfrey: Un procedimiento alternativo de

detección es el contraste de Breusch y Godfrey donde en la hipótesis nula
se tiene ausencia de autocorrelación, pero en la hipótesis alternativa se
presenta H1 :  t  AR  p  ó H1 :  t  MA  q  .

Operacionalmente, el test puede llevarse a cabo regresando los residuos

MCO ˆt , sobre las X t ,  t 1 ,....,  t  p y comparando n  R 2 con  p2 . Dado
que X T ˆ  0 , el contraste es equivalente a regresionar ˆt sobre la parte de
los residuos no explicada por las X t .
Si se encuentra algún ajuste, éste es debido a la correlación entre los

residuos presentes y los residuos retardados.
Este estadístico es muy sencillo de calcular y resuelve los problemas del

contraste de Durbin-Watson.
 Contraste de Box y Pierce: Otro estadístico es la Q de Box-Pierce

L
definido como Q  n rj2 donde:
j 1
 ˆ ˆ t t j
rj  t
(5.73)
 ˆt2 
t
Los valores resultantes se comparan con una distribución  L2 . La principal

diferencia entre el test de Breusch-Godfrey y el de Box-Pierce es el uso de
correlaciones parciales entre los residuos en el primero y el de correlaciones
simples en el segundo. Bajo la hipótesis nula de ausencia de
autocorrelación, ambos contrastes son asintóticamente equivalentes.
 Contrastes gráficos: La autocorrelación residual puede detectarse

mediante instrumentos gráficos, como por ejemplo, el gráfico estandarizado
de los residuos MCO resultantes de la estimación del modelo original, la
función de autocorrelación simple y la función de autocorrelación parcial. El
uso de estas funciones permite no sólo detectar la presencia de
autocorrelación en los residuos, sino también identificar la estructura
concreta que siguen los mismos (de tipo AR, MA o ARMA).

5.4.5 Estimación bajo Autocorrelación
Para describir los procedimientos de estimación más habituales trabajaremos

con un modelo concreto y un esquema de autocorrelación de tipo AR(1). Como ejemplo,
supongamos que:
Y t   0  X t 1   t (5.74)
 t   t 1  u t (5.75)
donde u t es un proceso de ruido blanco. El modelo transformado donde el término de

error no presenta autocorrelación es el siguiente:
Y t  Y t 1   0 1      X t   X t 1  1  u t (5.76)
      
Y t 0 X t
Y t  0  X t 1  u t (5.77)
Los procedimientos para estimar  0 , 1 y  son los siguientes:
 Procedimiento iterativo de Cochrane-Orcutt: Las etapas de este

método son las siguientes:
o Aplicar MCO al modelo original (5.74) ignorando la presencia de

autocorrelación y recuperar los residuos. A partir de ellos, obtener
una estimación preliminar de  como:
 ˆ ˆ 
t t 1
ˆ  t 2
n
(5.78)
 ˆ 
t 2
2
t 1
o Con la estimación ˆ de la etapa anterior se calculan las variables

transformadas:
Y t  Y t  ˆY t 1 , X t  X t  ˆ X t 1 (5.79)

o Luego se estima por MCO el modelo (5.77) y se recupera la

estimación del término constante ̂ 0 , a través de la relación
0 0  
   1  ˆ . Con las estimaciones  ,  se vuelve al modelo
0 1
original (5.74) y se recuperan los nuevos residuos y una nueva

ˆ
estimación de ˆ , usando de nuevo (5.78).
o Se repite la segunda etapa hasta alcanzar la convergencia. Un

criterio de convergencia puede ser parar cuando se cumple que:
ˆt  ˆt 1
 (5.80)
ˆt
 Procedimiento iterativo de Hildreth-Hu: Este método calcula el

estadístico de Durbin - Watson del modelo original y obtiene una estimación
inicial ˆt .
A partir de esta estimación, se construye una malla de valores

ˆ1 , ˆ2 ,..., ˆt ,...., ˆn y se realizan tantas regresiones en el modelo
transformado como valores tenga la malla. A continuación, se selecciona la
regresión que genere la menor suma residual que se habrá obtenido con un
valor ˆm .
A partir de este valor, se vuelve a construir una malla más fina de valores y
se vuelve a repetir el proceso hasta alcanzar convergencia.
 Método de diferencias: la idea es tratar el problema no lineal

directamente planteando como función objetivo:
n n
min   ˆtt2    Y t  Y t 1   0 1      X t   X t 1  1 
2
(5.81)
t 2 t 2
para obtener simultáneamente una estimación de  0 , 1 y  . Una solución

válida sólo cuando   1 , es eliminar la autocorrelación tomando primeras
diferencias a las variables. Es decir, si  t no sigue un proceso AR(1) sino un
camino aleatorio, de forma que  t  ut y ut es ruido blanco, el modelo
transformado adecuado sería:

Y t   X t 1  u t (5.82)
donde ha desaparecido el término constante del modelo original. Por esta

razón, trabajar con variables temporales estacionarias en media, en muchas
ocasiones resuelve el problema de correlación serial de los residuos.
5.5 Endogeneidad
5.5.1 Definición de Endogeneidad
Endógeno significa, literalmente, “determinado dentro del sistema,” es decir,

una variable que se determina conjuntamente con Y, o bien que está sujeta a causalidad
simultánea (X causa a Y e Y causa a X, simultáneamente).
La endogeneidad se define, en términos analíticos en el contexto de modelos

de regresión lineal, como la correlación entre una (o varias) variable(s) explicativa(s) y el
término de error. Esto implica que E  X T    0 . Luego, y como se observa a continuación,
el estimador MCO de  será sesgado:
ˆ   X T X  X T Y   X T X   X   X   
1 1 T
(5.83)
ˆ     X T X  X 
1 T
(5.84)
 
E ˆ    E  X T X   X T   
1
(5.85)
 
 
E ˆ    E  X T X   X T        X T X  E  X T  
1 1
(5.86)
  
 
  0

sesgo
 
E ˆ   (5.87)
Por lo tanto, cuando existe endogeneidad, la estimación de parámetros puede

ser sesgada e inconsistente, incluso con signos cambiados, y las conclusiones del proceso
de inferencia pueden se absolutamente incorrectas. Además, si ̂ está sesgado, también
estará sesgado ˆ .

X Y X Y
 
Sin Endogeneidad Con Endogeneidad
Y Y 
 
X X X
5.5.2 Causas de la Endogeneidad
a) Una primera causa de endogeneidad puede ser la omisión de variables

relevantes. Al omitir dichas variables, se traspasan al término de error. Si
las variables omitidas están correlacionadas con algunas variables no
omitidas, entonces el error del modelo también estará correlacionado con
algunas de las variables no omitidas, y por lo tanto se cumplirá que
E  X T   0 .
b) Otra causa común de endogeneidad es la simultaneidad. Es decir, cuando

la variable X causa a la variable Y, pero al mismo tiempo la variable Y
causa a la variable X. Por ejemplo, supongamos la demanda por usar una
autopista depende del precio de la autopista y yambién del nivel de
servicio o velocidad. Conforme aumente la demanda de la autopista,
también se reducirá su velocidad, lo que a su vez redundará en un nuevo
nivel de demanda hasta llegar a un equilibrio.
Yi   X i Yi    i (5.88)
Luego, la estimación de los efectos marginales con y sin endogeneidad

pueden ser muy distintos. Esto se da comúnmente en sistemas de
ecuaciones simultáneas (por ejemplo, oferta y demanda).

c) Una tercera causa de endogeneidad es la medición de la variable X con

error. Supongamos que el modelo verdadero es Yi   X i   i , pero no
observamos correctamente Xi, sino una aproximación de ella, que la
definimos como X i  X i*  ui , con ui  N  0;  u2  .
Luego, el modelo que se estimará será:
Yi   X i   i   X i*   ui   i   X i*  vi (5.89)

 
vi
El estimador MCO de (5.89) es el siguiente:
X Y *
i i  X  X
*
i
*
i  vi  X *
v
i i
ˆ  i
 i
 i
(5.90)
 X 
i
* 2
i  X 
i
* 2
i  X 
i
* 2
i
   
E   X i*vi  E    X i  ui   ui   i  
 
E ˆ     i

   i
  2
 (5.91)
E    X i*  
2
E    X i  ui  
 i   i 
 2  2   2 
 
E ˆ    2 u 2   1  2 u 2     2 x 2   
 x u   x u    x u 
(5.92)
d) Una cuarta fuente de endogeneidad se produce por el denominado sesgo

de selección. Es decir, cuando la muestra no representa adecuadamente a
la población, y está sesgada hacia una proporción específica del universo
total. Por ejemplo, las encuestas de participación voluntaria.
5.5.3 Efectos de la Endogeneidad
La consecuencia más grave de la endogeneidad es el sesgo en la estimación

de los parámetros y de las conclusiones que se obtengan del proceso de inferencia.
En la siguiente Figura se aprecia claramente los efectos que pueden generar la

omisión de variables en el contexto de endogeneidad:

Figura 5.11
Ejemplo del Efecto de la Autocorrelación
En la Figura 5.11 se observa claramente que la pendiente de la recta azul es

diferente a la pendiente de las rectas rojas; estas últimas, corrigen el efecto de la
endogeneidad, mientras que la recta azul no lo hace.
5.5.4 Detección de la Endogeneidad
Lamentablemente, no existe un contraste o metodología que permita

determinar la presencia de endogeneidad de manera infalible, y dependerá fuertemente de
las habilidades del modelador y su comprensión del problema estudiado a fin de identificar
potenciales fuentes de endogeneidad.
Sin embargo, mediante el test de Hausman, es posible comparar un estimador

sesgado (en presencia de endogeneidad) con un estimador insesgado (estimado
corrigiendo la endogeneidad). El test de Hausman es el siguiente:
βˆ - βˆ      βˆ - βˆ   
T 1
 var βˆ c  var βˆ s  2
(93)
c s
  c s m
donde βˆ c es el vector de parámetros estimados del modelo (de rango m) corrigiendo la

endogeneidad (estimador consistente), y βˆ s es el vector de parámetros estimados del
modelo usando las variables originales (estimador eficiente).

Otro método que se utiliza normalmente para detectar una potencial fuente de
endogeneidad producto de la omisión de variables relevantes o de la mala especificación
del modelo es el test de Ramsey para el siguiente modelo:
Yi   X i  1Yî 2   2Yî 3  ui (5.94)
La hipótesis nula es H 0 : 1   2  0 . Para testear esta hipótesis se usa el

clásico test F. Si se rechaza la hipótesis nula, se concluye que habría endogeneidad por
omisión de variables relevantes o por mala especificación del modelo.
5.5.5 Estimación bajo Endogeneidad
La forma más común de corregir el problema de endogeneidad es mediante el

uso de variables instrumentales (VI). Una variable instrumental (o simplemente instrumento)
es una variable que está altamente correlacionada con la variable X que presenta
endogeneidad, pero incorrelacionada con el término de error.
Z X Y

Es importante notar que el estimador VI corrige el sesgo de endogeneidad,

pero tiene mayor varianza. Luego, es un estimador consistente pero más ineficiente respecto
a MCO.
Recordemos que el estimador de MCO es:
ˆ   X T X  X T Y     X T X  X T 
1 1
(5.95)
Luego, si X T   0 , el estimador MCO será sesgado. Definamos ahora a Z

como un instrumento de X. Normalmente el rango de Z es igual al de X, aunque como
veremos más adelanta puede ser mayor, pero nunca menor. Es decir, el número de
instrumentos debe ser igual o mayor al número de variables con endogeneidad.

El estimador de variables instrumentales (cuando el número de instrumentos es

igual al número de variables con endogeneidad) se define como:
ˆVI   Z T X  Z T Y
1
(5.96)
Cuando una variable es exógenea, se define como instrumento a la misma

variable. De esta forma se asegura que el rango de las variables originales X y de las
variables instrumentales Z sea al menos el mismo.
En este estimador se cumple:
ˆVI   Z T X  Z T Y   Z T X  Z T  X    
1 1
(5.97)
ˆVI     Z T X  Z T 
1
(5.98)
De (5.98) se aprecia claramente que si Z es ortogonal a , el estimador ˆVI

será consistente. También se observa que mientras mayor sea la correlación entre Z y X,
más rápido convergerá el estimador ˆVI al parámetro poblacional .
Un instrumento Z débil será aquel que presente una baja correlación con la
variable X instrumentada.
Es interesante notar la siguiente relación:
Y Z  Z Z  Z Y
T T 1
  Z T X  Z TY
1
ˆVI   (5.99)
Y X  Z T Z  Z T X
1
Cuando el rango de Z es mayor al de X (es decir, cuando hay más

instrumentos que variables con endogeneidad), el instrumento se puede definir como:
 
1
ˆVI  Xˆ T Xˆ Xˆ T Y (5.100)
donde Xˆ  Z  Z T Z  Z T X es la predicción de X usando como variables explicativas los

1
instrumentos Z. Es decir, X̂ se obtiene de resolver el siguiente modelo de regresión

múltiple:

X  Z  v  ˆ   Z T Z  Z T X  Xˆ  Zˆ
1
(5.101)
Este método se conoce con Mínimos Cuadrados en 2 Etapas: primero se

estima X̂ , y luego se estima ˆVI .
Un instrumento se puede definir como débil si el R2 obtenido del modelo

(5.101) es estadísticamente pequeño, o si el test F de significancia conjunta de todos los
parámetros  es estadísticamente bajo.
De hecho, si el instrumento es muy débil, el método de VI puede generar

estimadores incluso más inconsistentes que MCO.
5.6 Asimetría, Curtosis y Normalidad
5.6.1 Asimetría
Si una distribución es simétrica, el sesgo vale cero. Cuanto mayor es el valor

absoluto del estadístico de asimetría, más sesgada es la distribución. Un valor positivo
grande indica que la cola de la derecha de la distribución es “larga”, y un valor negativo
grande indica una cola izquierda “larga”. La asimetría o sesgo poblacional se define
como:
E Y  Y 
3
A (5.102)
3
donde   E Y  Y 
2
e Y  E Y  . A partir de la muestra, la asimetría se estima de la
siguiente manera:
1 N
 Y  Y 
3
i
N
Aˆ  i 1
(5.103)
ˆ 3
1 N
1 N
 Y  Y 
2
donde ˆ 
N i 1
i eY 
N
Y .
i 1
i

 6
La distribución de este estimador es Aˆ  N  0;  , por lo que es factible
 N
construir el siguiente contraste:
Aˆ
 N  0;1 (5.104)
6 N
5.6.2 Curtosis
Es una variable aleatoria que mide el espesor de las colas de la curva de

distribución, en relación con la distribución normal. La curtosis de una variable aleatoria
normal es 3. Si la curtosis es mayor que 3, significa que las colas de la distribución son
“gordas”; cuando ello ocurre, se dice que la distribución es leptocúrtica, e indica que la
distribución tiene mayor masa de probabilidad en los extremos que la distribución normal.
La distribución es mesocúrtica, se corresponde a una normal, y platocúrtica si las colas
son “flacas”. La curtosis poblacional se define como:
E Y  Y 
4
K (5.105)
4
A partir de la muestra, la curtosis se estima de la siguiente manera:
1 N
 Y  Y 
4
i
N
Kˆ  i 1
(5.106)
ˆ 4
1 N
1 N
 Y  Y 
2
donde ˆ 
N i 1
i eY 
N
Y .
i 1
i
 24 
La distribución de este estimador es Kˆ  N  3;  , por lo que es factible
 N
construir el siguiente contraste:
Kˆ  3
 N  0;1 (5.107)
24 N

5.6.3 Estadístico Jarque-Bera de Normalidad
Combina información sobre asimetría y curtosis para producir una prueba más
general de normalidad:
N  k  ˆ2 1 ˆ
 
2
 A  K  3     2
2
JB  (5.108)
6  4 
De acuerdo a la hipótesis nula, que las observaciones son independientes y

normalmente distribuidas, el estadístico JB sigue una distribución  2 con 2 grados de
libertad (en muestras grandes).
5.7 Contrastes de Datos Atípicos
La hipótesis nula en este caso será que todos los datos provienen de la misma
función de distribución multivariante.
Consideremos que existe una observación sospechosa de ser atípica xi . La

hipótesis nula será H 0 : E  xi    , mientras que la alternativa será H1 : E  xi    .
Bajo H1 , como la estimación de i es xi , la estimación de la varianza será:
1
Vi  Wi (5.109)
n 1
donde:
n
  x  xi  x j  xi  
T
Wi  (5.110)
j 1  j  i 
j

es la estimación de la suma de los cuadrados de los residuos, y xi es la media de las

observaciones, en ambos casos eliminando la observación xi .
El contraste finalmente es el siguiente:
x  xi  Vi 1  x j  xi    p2
T
j (5.111)

Lo anterior implica que si la observación xi está muy lejos de la media de las

observaciones xi , que no consideran xi , se rechaza la hipótesis nula de que la esperanza
de xi es igual a la media de los datos. En tal caso, xi sí es una observación atípica que
puede ser eliminada del proceso de estimación.
El problema de este método se da cuando existe más de una observación

atípica, lo que genera una potencia muy baja del contraste. Un alternativa en tal caso
puede ser identificar a priori las observaciones sospechosas, e ir incorporando de a una
según el contraste (5.111). Evidentemente, se comenzará por aquella observación que
presente el menor valor calculado de  x j  xi  Vi 1  x j  xi  , y así sucesivamente.
T

6 INTRODUCCIÓN A LAS SERIES DE TIEMPO
Una serie de tiempo es una secuencia de observaciones o datos numéricos

ordenadas y equidistantes cronológicamente sobre una característica de una
unidad observable en diferentes períodos. La característica específica de una serie
temporal es, por lo tanto, que las observaciones están ordenadas en el tiempo.
Hay casos en los que la variable observada tiene un patrón de

comportamiento fijo; en términos estadísticos estamos ante una serie determinista. Por el
contrario, hay otras series que resultan impredecibles. Su pauta de comportamiento no
responde a un patrón fijo, por lo que son puramente aleatorias. Un ejemplo típico es la
sucesión de números premiados en un sorteo de loterías. En general, las series económicas
contienen una componente determinista y una componente aleatoria. La muestra está
definida en este caso por un tamaño o longitud de N componentes consecutivos de Yt.
6.1 Extrapolación de Series de Tiempo
Un modelo de series de tiempo es un método complejo de extrapolación de

datos. Sin embargo, en determinadas ocasiones, debido a urgencias o poca disponibilidad
de recursos, es factible utilizar métodos menos complejos. Estos son los denominados
modelos deterministas.
En estos modelos no se hace referencia a la naturaleza aleatoria o estocástica

de la serie. Proporcionan por lo tanto una alternativa simple, económica y en algunos casos
aceptable de pronóstico.
6.1.1 Modelos de Extrapolación Simple
El modelo de extrapolación más simple es el modelo de tendencia lineal:
Yt  a1  a2t (6.1)
donde t es el tiempo y  a1 , a2  son parámetros de calibración. El pronóstico para el

período t + l es Yˆ  a  a  t  l  .
t l 1 2
Una segunda alternativa corresponde a una de crecimiento exponencial:

Yt  c  e rt (6.2)
donde (c, r) son parámetros de calibración. El pronóstico para el período t + l es

Yˆt l  c  e   . Los parámetros en este caso pueden estimarse aplicando logaritmos
r t l
naturales a la expresión (6.2): ln Y  ln c  rt  Y  c  rt .

t t
Un tercer método de extrapolación es el de tendencia autoregresiva y su

variación logarítmica:
Yt  a1  a2Yt 1 (6.3)
ln Yt  b1  b2 ln Yt 1 (6.4)
Una cuarta alternativa corresponde al modelo con tendencia cuadrática:
Yt  a1  a2t  a3t 2 (6.5)
Modelos un poco más complejos corresponden a aquellos que presentan

curvas logísticas:
1
Yt  (6.6)
c  abt
donde (a, b, c) son parámetros de calibración. Al ser un modelo no lineal, debe estimarse
con métodos no lineales.
Una curva logística alternativa más simple de estimar es la siguiente:

c  c2 t 
Yt  e 1 (6.7)
La estimación en este último caso se obtiene aplicando logaritmos de tal forma

c
de obtener ln Yt  c1  2  Yt  c1  c2t .
t
6.1.2 Modelos de Promedio Móvil
Este modelo es útil cuando creemos que los valores probables a futuro son
promedios de sus valores anteriores. A menudo es razonable suponer que los valores más
recientes de la serie tienen un mayor impacto que los valores anteriores.

Yt    1    Yt i
i
(6.8)
i 0
En este caso se debe cumplir que 0 <   1. 0    1 . Si  = 1 el pronóstico

ˆ
se vuelve YT 1  YT , y nos olvidamos de los valores anteriores. A medida que  tome un
menor valor, consideramos en mayor medida el impacto de valores anteriores. Debe

notarse que   1    
i
 1 , por lo que las ponderaciones suman uno.
i 0 1  1   
Es importante notar que si la serie tiene una tendencia creciente, el modelo

(6.8) subpredecirá los valores (y viceversa). Esto recomienda eliminar la tendencia antes de
ajustar el modelo.
6.2 Suavizamiento de Series de Tiempo
Estas técnicas proporcionan un medio para reducir las fluctuaciones volátiles

de las series de tiempo en el corto plazo. Una de las técnicas más simples de
suavizamiento corresponde a considerar el promedio móvil de período n:
1 n 1
Yt   Yt i (6.9)
n i 0
Entre mayor sea n, más suave será Yt .
El suavizamiento exponencial corresponde a un promedio móvil ponderado

exponencialmente para el suavizamiento:
n 1
Yt    1    Yt i
i
(6.10)
i 0
n 1
Si escribimos 1    Yt 1    1    Yt i , y restamos esta expresión de la
i
i 1
ecuación (6.10), se obtiene la siguiente fórmula recurrente:
Yt   Yt  1    Yt 1 (6.11)

Notar que mientras más cerca está  de 1, mayor peso tiene la ponderación
actual de Yt al generar Yt ; valores pequeños de , implican en cambio una serie más
suavizada.
6.3 Estimación y Pronóstico de Modelos de Tendencia
Para ajustar los diversos modelos de tendencia de datos a una serie temporal,
se usa la técnica de MCO:
T
ˆ= argmin  Yt  Tt    
2
(6.12)
 t 1
donde  es el conjunto de parámetros a calibrar en el modelo y Tt()es la tendencia que

presenta la serie. El pronóstico de la serie, por su parte, se obtiene directamente del modelo
calibrado:
 
YˆT l  TT l ˆ (6.13)
Es interesante notar que la estimación correcta de MCO requiere que la media

del error de pronóstico sea cero. El intervalo de confianza del pronóstico es en este caso,
para un 95% de confiabilidad, el siguiente:
YˆT l  1,96  ˆ 2 (6.14)
donde ˆ 2 es la estimación de la desviación estándar de la perturbación de la tendencia.

Luego, la densidad pronosticada es YˆT l  N YT l ; ˆ 2  .
6.4 Procesos Estocásticos
Un proceso estocástico es un conjunto de variables aleatorias

correspondientes a distintos instantes de tiempo. Consecuentemente, una serie temporal
puede considerarse como una realización muestral de las n variables aleatorias que
forman su proceso estocástico generador. Es decir, la serie se forma a partir de un proceso
estocástico.

La estructura probabilística de un proceso estocástico queda completamente

definida por la distribución conjunta de las variables del mismo (por ejemplo una normal
multivariada f Y1 , Y2 ,...., YN  ). Evidentemente, para caracterizar empíricamente esta
distribución conjunta, es necesario observar un cierto número de realizaciones del proceso.
Este proceso de observación repetida no siempre es posible, por lo que suelen
utilizarse hipótesis simplificatorias del proceso estocástico:
 Linealidad
 Estacionariedad
 Normalidad (Gaussiano)
El término gaussiano quiere decir que la distribución conjunta de las variables

que forman el proceso estocástico es una normal multivariante, que puede ser
caracterizada por sus correspondientes vectores de medias y matrices de varianzas-
covarianzas (primeros y segundos momentos).
La caracterización de un proceso estocástico lineal gaussiano n-variante

definido en estos términos aún requiere conocer o estimar el valor de n medias, n varianzas
n   n  1
y covarianzas, por lo que en la mayor parte de los casos prácticos es necesario
2
recurrir a un supuesto simplificatorio adicional: el de estacionariedad.
6.5 Estacionariedad
6.5.1 Estacionariedad Estricta
Se dice que un proceso estocástico es estrictamente estacionario si la

distribución conjunta de las variables que lo forman es función únicamente de los intervalos
temporales que las separan. Así, el proceso Yt es estrictamente estacionario para todo t si
la función de distribución conjunta de Yi , Yi  k  es la misma que la de Y j , Y j  k  . Luego,
todos los momentos de la función de densidad de la variable (de cualquier orden)
son constantes en el tiempo.

6.5.2 Estacionariedad Débil
Un proceso es débilmente estacionario si su media es constante e

independiente del tiempo, su varianza es finita y constante, y el valor de la covarianza
entre dos periodos no depende del tiempo en el cual se ha calculado, sino de la distancia
o desfase entre aquellos.
Luego, en una serie estacionaria se cumple:
E Yt    (6.15)
V Yt    2   0 (6.16)
cov Yt , Yt  k    k , k (6.17)
cov Yt , Yt  k  k k
k    , k (6.18)
V Yt  V Yt  k  0 0 0
Los modelos de predicción de series temporales están diseñados para

procesos estacionarios. Si las características del proceso cambian a lo largo del tiempo,
resultará difícil representar la serie para intervalos de tiempo pasados y futuros mediante un
modelo lineal sencillo.
Sin embargo, por regla general, las series económicas no son series que
proceden de procesos estacionarios, sino que suelen tener una tendencia creciente o
decreciente, y variabilidad no constante.
Esta limitación no es tan importante porque, en la práctica, se pueden

transformar las series no estacionarias en otras que sí lo son.
Un tipo de proceso estacionario particular es el denominado ruido blanco,

formado por una sucesión de variables aleatorias con distribución normal,
esperanza cero, varianza constante e incorrelacionadas entre sí. La variable
aleatoria t es ruido blanco para cualquier t si  t  N  0,  2  y además
cov   t ,  t  k   0, k  0 .

Luego, en un proceso ruido blanco se cumple k = 0 y k = 0 k  1. El interés

de este de proceso radica en que, si sólo se cuenta con información muestral acerca de su
propio pasado, no puede realizarse ninguna previsión mejor que su esperanza
incondicional.
Por lo tanto, los procesos de ruido blanco de esperanza nula resultan útiles
para caracterizar las propiedades ideales del término de error de un modelo estocástico
dinámico.
6.5.3 Función de Autocorrelación Simple (FAS)
En la práctica se dispone de una muestra de un proceso estocástico, Y1, Y2,

…., Yn. Se pueden obtener los coeficientes de autocorrelación y, a partir de ellos, la
función de autocorrelación:
1 n
ˆ   Yt
n t 1
(6.19)
1 n
 Yt  ˆ 
2
ˆ0  (6.20)
n  1 t 1
nk
 Y  ˆ Y
t t k  ˆ 
ˆk  t 1
(6.21)
nk
ˆk
ˆ k  , k (6.22)
ˆ0
La expresión ˆ k corresponde entonces a la función de autocorrelación.
Como medida de precisión de ̂ se tiene que:
0  n 1
 k 
V  ˆ   
n
1  2  1    k 
k 1  n 
(6.23)
Si el tamaño de la muestra es grande con respecto a k, dividir por n o por n-k

es prácticamente lo mismo, así como el cálculo de la media con n o con n-k observaciones:

nk
 Y  ˆ Y
t t k  ˆ  nk
ˆ
t 1
nk
 Y  ˆ Y
t t k  ˆ 
ˆ k  k   t 1
(6.24)
ˆ0 1 N n
 Yt  ˆ   Y  ˆ 
2 2
t
n  1 t 1 t 1
1 k 1

V  ˆ k   
n
1  2 
i 1
i2 

(6.25)
La expresión (6.25) corresponde a la varianza aproximada bajo la hipótesis

de normalidad del proceso generador de datos.
El estadístico Q de Box-Ljung permite contrastar la significancia conjunta de los

coeficientes de autocorrelación muestral. Se define como:
m
ˆ k2
Q  m  n  n  2    m2  p  q (6.26)
k 1 n  k
siendo m un número arbitrario utilizado en el cálculo.
Bajo la hipótesis nula de que la muestra haya sido generada por un proceso
de ruido blanco, este estadístico se distribuye aproximadamente como una  m2  p  q .
El valor de m suele fijarse en tres veces la longitud del período estacional más
tres retardos. De esta manera, para series trimestrales tendríamos m = 15 y para series
mensuales m = 39. En el caso de datos que carecen de un período estacional definido, m
se fija en un número "razonable", en función de la longitud de la muestra (m = n/4).
A veces resulta interesante contrastar individualmente la significación de los

2
coeficientes de la FAS muestral. Para ello pueden compararse éstos con los valores 
n
que, aproximadamente, son los límites de un intervalo de confianza al 95% bajo la
hipótesis nula de que el verdadero valor del coeficiente es cero. Luego, si un coeficiente
está fuera del intervalo de confianza, se rechaza (aproximadamente) que su verdadero
valor sea cero.

El interés de la FAS consiste en que sus coeficientes pueden interpretarse como

una estimación del k-ésimo coeficiente de un modelo MA(k). Si los datos han sido
generados por un modelo MA(q), sólo los primeros q coeficientes de autocorrelación
simple serán distintos de cero, mientras que si los datos han sido generados por un modelo
AR(p), la FAS será infinita y tenderá a aproximarse a cero asintóticamente.
6.5.4 Función de Autocorrelación Parcial (FAP)
El coeficiente de autocorrelación parcial k-ésimo k de la serie Yt se define

como el último coeficiente de una autorregresión de la variable centrada sobre sus últimos
k valores. Es decir, corresponden a los parámetros del modelo de regresión lineal definido
por Yt  0  1Yt 1  2Yt  2 ,...., k Yt  k   t .
Puede demostrarse que los coeficientes teóricos de autocorrelación parcial

pueden calcularse a partir de los coeficientes de autocorrelación simple resolviendo las
ecuaciones de Yule-Walker expuestas en (6.27):
 1 1  2 ....  k  2 1 
  1 1 ....  k 3  2 
 1
 2 1 1 ....  k  4 3 
det  
 .... .... .... 
 k 2  k 3 1  k 1 
 
k    k 1  k  2  k 3 .... 1  k 
(6.27)
 1 1  2 ....  k  2  k 1 
  1 1 ....  k 3  k  2 
 1
 2 1 1 ....  k  4  k 3 
det  
 .... .... .... 
 k 2  k 3 1 1 
 
  k 1 k 2  k 3 .... 1 1 
El interés de la FAP consiste en que sus coeficientes pueden interpretarse como

una estimación del k-ésimo coeficiente de un modelo AR(k). Consecuentemente, si los datos
han sido generados por un modelo AR(p), sólo los primeros p coeficientes de
autocorrelación parcial serán distintos de cero. Por otra parte, si los datos han sido
generados por un modelo MA(q), la FAP será infinita y tenderá a aproximarse a cero
asintóticamente.

6.5.5 Proceso Ruido Blanco
Se dice que un proceso Yt es un proceso de ruido blanco si es estacionario en

sentido débil y, además, k = 0 k  1. Corresponde al más simple de los procesos
estacionarios.
El interés de este de proceso radica en que, si sólo se cuenta con información

muestral acerca de su propio pasado, no puede realizarse ninguna previsión mejor que su
esperanza incondicional.
Por tanto, los procesos de ruido blanco de esperanza nula resultan útiles para
caracterizar las propiedades ideales del término de error de un modelo estocástico
dinámico. Si Yt es independiente e idénticamente distribuido con media cero y varianza
constante, decimos entonces que es un ruido blanco gaussiano:
Yt   t  N  0,  2  (6.28)
Tanto Yt como t no están correlacionados en el tiempo. Supondremos

además que 2  . Un ejemplo de ruido blanco se presenta en la Figura 6.1:
Figura 6.1
Proceso Ruido Blanco 2 = 2,3
3
0
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
-1
-2
-3
Observaciones

A continuación vamos a caracterizar este proceso estacionario,

particularmente su estructura dinámica.
La media incondicional de Yt es la siguiente:
E Yt   E   t   0 (6.29)
y la varianza incondicional de Yt es:
V Yt   V   t    2   0 (6.30)
Dada la característica de estacionariedad, y que la función de

autocovaraianzas depende del espaciamiento y no del tiempo, se tendrá que:
 2 , si k  0
k   (6.31)
0 , k  1
Recordar que la varianza corresponde a la autocovarianza de orden cero.

Además, dado que el ruido blanco es incorrelacionado en el tiempo, todas las
autocovarianzas de orden superior a cero valen cero, como se expuso en (6.31). La
función de autocorrelación es en este caso la siguiente:
 k 1 , si k  0
k   (6.32)
 0 0 , k  1
Luego, la FAS y FAP valen cero siempre, excepto en k = 0. Este es uno caso
particular en que la FAS y la FAP coinciden.
En consecuencia, pronosticar un proceso RB es imposible. Sin

embargo, es deseable que procesos que sí sean pronosticables, presenten un error RB.
Otra caracterización dinámica de los procesos puede realizarse a partir de

sus momentos condicionados (en el pasado). Los momentos incondicionales requerían ser
constantes para que el proceso sea estacionario; sin embargo, los momentos condicionales
puede que no lo sean.

En el caso del RB gaussiano, los momentos incondicionales son

idénticos a los condicionales. Esto es consistente con que no nos sirve de nada la
información pasado y presente para pronosticar en el futuro.
Para determinar si una serie es RB, podemos contrastar si todas sus

autocorrelaciones de manera conjunta son cero. A partir de la ecuación:
 1
ˆk  N  0;  (6.33)
n 
se obtiene
nˆk  N  0;1 (6.34)
 
2
n ˆk  12 (6.35)
Luego, recordando que suma de m variables 12 distribuyen  m2 , bajo la

hipótesis nula de que Yt es RB se tendrá el estadístico de Box-Pierce:
m
QBP  n ˆk2   m2 (6.36)
k 1
Notar que el estadístico de Box-Pierce (6.36) es igual al de Box-Liung (6.26),

con la diferencia de que en este último la suma de las autocorrelaciones al cuadrado se
reemplaza por una suma ponderada de las mismas autocorrelaciones. Cuando n es
grande, ambos estadísticos difieren muy poco.
6.6 Ergodicidad
Diremos que un proceso es ergódico si sus promedios estadísticos se

pueden calcular a partir de una realización; es decir, si sus promedios estadísticos
coinciden con sus promedios temporales. Lo anterior implica que en un proceso ergódico,
una única realización de Yt nos provee información suficiente para estimar su media y sus
autocovarianzas.

En un proceso estocástico ergódico en varianza los valores de la serie

alejados en el tiempo están poco correlacionados, por lo que k decrece al aumentar el
retardo k. Es decir, cuando la dependencia entre observaciones tiende a cero al aumentar
el retardo, diremos que el proceso es ergódico en varianza.
El hecho de decir que el límite de una variable aleatoria coincide con una
N
1
constante, se representa analíticamente así: sea E Yt   Y  t  dt ; un proceso será
2 N N
ergódico en media si, con probabilidad 1, se cumple:
lim  E Yt     (6.37)

N 
N
1
donde E(Yt) es una variable aleatoria con media E  E Yt     E Y  t  dt   y
2N N
por lo tanto:
lim  E Yt      lim  t2   0  lim E  E Yt       0

2
(6.38)
N  N  N   
Lo anterior implica que cuando la dependencia entre observaciones tiende a

cero al aumentar el retardo, diremos que el proceso es ergódico. En adelante supondremos
que los procesos estacionarios son ergódicos.
En el caso de variables discretas, la ergodicidad implica que:
1 N
N
 Y  E Y 
t 1
t t (6.39)
1 N
  Yt  E Yt    V Yt 
2
(6.40)
N  1 t 1
6.7 Teorema de Wold
Si una serie es estacionaria en covarianza, no queda claro qué modelo

debemos ajustarle para describir su evolución. El teorema de representación de Wold
(1938) determina cuál es el proceso adecuado. Sea Yt cualquier proceso estacionario en
covarianza con media cero. Este proceso se puede representar como sigue:


Yt   i t i (6.41)
i 0

Donde 0 = 1 y 
i 0
i
2
 .
El teorema de Wold establece que cualquier proceso estacionario se puede

representar como una suma ponderada de los residuos pasados. La expresión (6.41) se
denomina proceso lineal general. Si un proceso estacionario no presenta media cero,
simplemente se analiza la variable desviada respecto a su media: yt  Yt  Y .
La media y varianza incondicional de (6.41) son las siguientes:
    
E Yt   E   i t i    i E   t i    i  0  0 (6.42)
 i 0  i 0 i 0
      
V Yt   V   i t i     i2V   t i     2  i2 (6.43)
 i 0   i 0  i 0
A partir de (6.43) podríamos describir las funciones de autocovarianzas y

autocorrelación, pero dicho cálculo es bastante tedioso y no muy revelador.
La media y varianza condicional de (6.41) son las siguientes, donde el

conjunto de información disponible es  t 1  Yt 1 , Yt  2 ,...., Y0 ,  t 1 ,  t  2 ,....,  0  :
E Yt  t 1   E   t  t 1   1 E   t 1  t 1    2 E   t  2  t 1   ....
 (6.44)
E Yt  t 1   0  1 t 1   2 t  2  ....   i t i
i 1

V Yt  t 1   E Yt  E Yt  t 1  
2
  E  t
2

 t 1   E   t2    2 (6.45)
6.8 Retardos y Diferencias
6.8.1 Operador de Retardos

i
El operador de retardos L es un operador lineal tal que LY t  Yt i . Sus
propiedades son las siguientes:

 Lc = c
  L  L  Y  LY  L Y  Y
i j
t
i
t
j
t t i  Yt  j
  L  L  Y  L  L Y   LY
i j
t
i j
t
i
t j  Yt i  j
 L iYt  Yt i

1
 Para a  1 , 1  aL  a 2 L2  .... Yt   a i LY
i
t  Yt
i 0 1  aL
6.8.2 Operador de Diferencias
El operador de diferencias  es un operador tal que Yt  Yt  Yt 1 . Notar

además que:
 Yt  1  L  Yt
  2Yt  Yt  2Yt 1  Yt  2
6.9 Ecuaciones de Diferencias
6.9.1 Definición
Una ecuación de diferencias (en nuestro caso lineal y finita) se puede definir
como una expresión que relaciona el valor de una variable en el momento presente Yt 
con momentos pasados de la misma:
Yt  1Yt 1  2Yt  2  ....   pYt  p (6.46)
Notar que la relación entre la variable y sus retardos es lineal. Las ecuaciones
de diferencia pueden presentar términos adicionales:
Yt  f  t   1Yt 1  2Yt  2  ....   pYt  p (6.47)
Posibles expresiones de la función “forzadora” f(t) son:
 f(t) = 

 f(t) =  + t
 f(t) = t
 f(t) =  + t + (L)t
Las dos primeras expresiones son determinísticas, y las dos segundas son
estocásticas. Las ecuaciones de diferencias finitas pueden ser resueltas mediante forma
recursiva o mediante resoluciones analíticas más complejas.
6.9.2 Solución Recursiva
La solución consiste en sustituir de manera recursiva los valores pasados de la

variable por otros valores (también pasados) de tal forma de expresar la variable en
función de las condiciones iniciales del proceso y de la función f(t). Por ejemplo:
Yt  1Yt 1   t (6.48)
Yt  12Yt  2   t  1  t 1 (6.49)
Yt  13Yt 3   t  1  t 1  12 t  2 (6.50)
.....
t 1
Yt  1tY0   1i t i (6.51)
i 0
Luego, conocidos los valores de 1i , Y0 y t-i, podremos determinar el valor de

Yt. Sin embargo, este método no siempre resulta ser el más conveniente, y es aplicable a
pocos casos.
6.9.3 Solución Analítica
Una segunda alternativa corresponde a encontrar la solución general de la

ecuación, que denominaremos Yt g . La solución general está definida como la suma de la
solución homogénea Yt h y de la solución particular Yt p :
Yt g  Yt h  Yt p (6.52)

La solución homogénea Yt h no es única, pero la solución particular Yt p sí.
a) Solución Homogénea
La solución homogénea se obtiene a partir del planteamiento de la ecuación

de diferencias y resolviendo la denominada ecuación característica. El sistema homogéneo
considera únicamente los retardos, y no la función f(t).
Sin pérdida de generalidad, vamos a proponer una sencilla transformación

que permite obtener la llamada solución general para el sistema homogéneo de cualquier
ecuación en diferencias ordinaria, lineal, de diferencias finitas y de coeficientes constantes.
Supongamos el caso más sencillo de todos, una ecuación genérica de primer

orden del tipo:
Yt  0  1Yt 1   t (6.53)
El sistema homogéneo es en este caso el siguiente:
Yt  1Yt 1  0 (6.54)
Aplicando el operador de rezagos se puede obtener el polinomio

característico:
1  1L  Yt  0    1  0 (6.55)
Esta ecuación (6.55) se denomina ecuación característica y a sus soluciones

raíces características. Realizando el cambio de variable Yt = t, la solución (raíz
característica) de esta ecuación será  = 1.
La solución homogénea se define como la función suma de las raíces del

polinomio característico elevadas a t; en este caso es:
Yt h  A1t (6.56)
siendo A una constante (A  R2). Notar que A1t es solución de la homogénea.
En el caso de segundo orden se obtiene:

Yt  0  1Yt 1  2Yt  2   t (6.57)
Yt  1Yt 1  2Yt  2  0 (6.58)
 2  1  2  0 (6.59)
   2  4
 1 1 2
 2
 
*
(6.60)
1  12  42

 2
Si todas las raíces son diferentes, la solución homogénea será:
Yt h  A11t  A2 2t (6.61)
No obstante, si las raíces del polinomio característico presentan multiplicidad

(raíces iguales), la solución homogénea habrá que buscarla como:
Yt h  A1 t  A2  t t   A3 t t 2  ......  Am 1 t t m  (6.62)

 
caso general con ( m 1) soluciones iguales
Los valores de los coeficientes Ai se pueden obtener directamente si se dispone

de las condiciones iniciales de Yt y resolviendo luego un sistema lineal de ecuaciones.
Supongamos por ejemplo la siguiente ecuación de diferencias finita:
Yt  0, 6Yt 1  0, 08Yt  2 (6.63)
El polinomio característico es:
 2  0, 6  0, 08  0 (6.64)
Luego, las raíces características son 1 = 0,2 y 2 = 0,4, con multiplicidad

igual a 1. La solución homogénea es:
Yt h  A1  0, 2   A2  0, 4 
t t
(6.65)
Considerando como segundo ejemplo la siguiente ecuación de diferencias:

Yt  4Yt 1  4Yt  2 (6.66)
El polinomio característico es:
 2  4  4  0 (6.67)
Luego, las raíces características son 1 = 2 = 2, por lo que se tiene

multiplicidad igual a 2. La solución homogénea es en este segundo caso:
Yt h  A1  2   A2  2   t
t t
(6.68)
Si por ejemplo Y0 = 1 e Y-1 = 3, se puede plantear el siguiente sistema de

ecuaciones:
1  A1  2   A2  2   0
0 0
(6.69)
3  A1  2   A2  2    1
1 1
(6.70)
de donde finalmente se obtiene A1 = 1 y A2 = -5. Notar que es factible obtener soluciones

complejas para las raíces características.
b) Solución Particular
La solución particular atenderá a la porción de la ecuación no considerada en

el sistema homogéneo. Luego, depende de la función forzadora f(t).
Vamos a considerar primero el caso en el que el sistema NO contiene

componentes estocásticos. La forma de encontrar con rapidez la solución particular es
asumir que Yt se comporta de forma análoga a la parte no homogénea de la
ecuación original, parte no homogénea que denominaremos g(t). Existen varios casos,
como se presenta a continuación:
 Caso 1: g(t) = 0
El caso ilustrado anteriormente con el ejemplo numérico es una situación

particular de un caso genérico del tipo:
Yt  0  1Yt 1  2Yt  2  ....   pYt  p (6.71)

Si asumimos que Yt se comportará como la parte no homogénea g(t) estamos

asumiendo la constancia de Yt, es decir:
Yt = g(t)  Yt = Y (6.72)
Si sustituimos Yt = Y en la ecuación original (6.71) obtenemos la solución

particular que, en este caso, será igual a una constante:
0
Y  0  1Y  2Y  ....   pY  Yt p  (6.73)
1  1  2  ....   p
Esta solución representa precisamente el valor de convergencia de Yt para

infinitas observaciones, siempre y cuando estemos hablando de un proceso Yt estacionario.
Es por eso por lo que, a veces, se define la solución particular como el punto de equilibrio
p
del proceso a largo plazo. Notar que el resultado anterior no es válido si 
i 1
i 1.
 Caso 2: g(t) = bt
La ecuación genérica sería ahora:
Yt  0  1Yt 1  2Yt  2  ....   pYt  p  b  t (6.74)
lo que equivale a introducir en el proceso estocástico una tendencia determinística.
En este caso, asumiendo de nuevo que Yt se comporta como g(t) debemos

considerar que Yt será también una función del tiempo:
g(t) = 0 + bt  Yt =  + t (6.75)
Sustituyendo Yt y g(t) en (6.74) obtenemos:
   t   1     t  1   2     t  2    ....   p     t  p    0  b  t (6.76)
0   1  22  ....  p p 

*  (6.77)
1  1  2  ....   p
b
*  (6.78)
1  1  2  ....   p

Yt p   *   *  t (6.79)
 Caso 3: g(t) = bdt
La ecuación genérica sería ahora:
Yt  1Yt 1  2Yt  2  ....   pYt  p  b  d t (6.80)
El patrón será ahora:
Yt = dt (6.81)
Resolviendo obtenemos:
b
*  (6.82)
1  1d  2 d 2  ....   p d  p
1
Yt p   *d t (6.83)
Ahora consideraremos el caso en que la función forzadora f(t) es estocástica:
Yt  0  1Yt 1  2Yt  2  ....   pYt  p   t  1 t 1  .....   q t  q (6.84)
q  L
 p  L  Yt   q  L   t  Yt   (6.85)
p  L t
En el caso de un proceso AR(1) se tendrá:
Yt  0  1Yt 1   t (6.86)
La solución homogénea ya es conocida: Yt h  A1 1  . La solución particular

t

0 
en este caso es de la forma: Yt p  b0   i t i  Yt p    1i t i .
i 0 1  1 i 0
Luego, la solución general es:
0 
Yt g  A1 1     1i t i
t
(6.87)
1  1 i 0

0 
 
Dado que Y0  A1    1i t i , se tendrá A1  Y0  0   1i  i .
1  1 i 0 1  1 i 0
Luego, resulta entonces:
 0 
  0 

  1   i  1      1i t i 
g i t
Yt  Y0  (6.88)
1  1 i 0    1  1 i 0
  
Sol  Homog Sol  Part
Notar que esta solución es válida sólo si 1  1, es decir, no existe raíz unitaria
(proceso no estacionario). En tal caso, la solución particular sería:

Yt p  Y0  0  t    t i (6.89)
i 0
Se observa que la presencia de la tendencia determinista 0t domina el

proceso de evolución del proceso a lo largo del tiempo.
En general, para cualquier proceso lineal con variables y errores rezagados

(6.84), la solución particular se puede obtener de la proposición:

Yt  b0  b1  t   it  t i
p
(6.90)
i 0
Luego, sustituyendo los valores de (6.90) en (6.84) se obtienen los valores de

los parámetros 0, 1 y i.

6.10 Círculo Unitario
Un proceso autorregresivo será estacionario (convergente en términos de su

solución analítica) si sus raíces caen dentro del círculo unitario, o si las raíces de su
polinomio de retardos caen fuera del mismo.
Efectivamente, en un proceso autoregresivo de orden 2, la solución

homogénea tiene la forma general:
Yt h  A1  1   A2  2  Yt h  A  r t  sen  wt   
t t
 (6.91)
Teorema de Moivre 
donde A1 y A2 son las constantes arbitrarias habituales que dependen de las condiciones de
borde (iniciales en nuestro caso), y 1 y 2 son las raíces características.
El parámetro “r” es lo que se denomina módulo o valor absoluto del número

complejo, y “w” representa lo que se denomina frecuencia angular y define el número de
ciclos por unidad de tiempo, es decir, la inversa del período. La frecuencia se mide en
radianes e indica el número de ciclos que hay por unidad de tiempo, y está elegida de
forma que satisfaga simultáneamente la expresión:
1
cos  w   (6.92)
2 2
El parámetro  representa lo que se denomina fase, que viene a indicar la

situación del ciclo en cada momento del tiempo.
Sin entrar en el desarrollo completo, esta transformación parte de la expresión

de las raíces características en forma polar. Para ello deben realizarse las siguiente
transformaciones:
  r  cos  w  ;  r  sen  w    2   2  r 2 (6.93)
Luego, r 2  1  r  1 .

Continuando con el análisis, y dada la forma general (7.78), está claro que la
convergencia (estacionariedad) de la ecuación en diferencias (proceso autorregresivo)
pasa por que 1 y 2 sean menores que la unidad, o más estrictamente, que 1 y 2 deben
caer dentro de un círculo unitario (y no simplemente que deben ser menores que 1).
La razón es que cuando 1 y 2 son enteras, bastaría una recta para

representarlas, por lo que el “círculo”, es decir las dos dimensiones, serían innecesarias;
pero cuando 1 y 2 son imaginarias, necesitamos una representación en dos ejes, uno real
y otro imaginario, para representar raíces imaginarias del tipo:
   2  4   i d
 1 1 2
 1
 2 2
*   (6.94)
1  12  42 1  i d
 
 2 2
Si usamos la representación real/imaginaria, cada una de las raíces

características vendrá representada por una coordenada del tipo:
 1 i d 
 ;  
 2 2 
 
*
(6.95)
 1 i d 
 2 ;  
2 

Es decir, una será la conjugada de la otra. La condición de convergencia en el

caso de raíces imaginarias obliga a que el parámetro r de amplitud sea menor que la
unidad en valor absoluto. Este parámetro es precisamente la distancia que separará las
soluciones 1 y 2 del origen del plano real/imaginario sean cuales sean estas.
Luego, necesariamente el par de soluciones 1 y 2 deberá estar dentro de un

círculo unitario como en el que se muestra en la ilustración presentada a continuación.

 1 i d 
1   ; 
2 2 
 1 i d 
 2   ; 
2 2 
Cuando las soluciones son reales, basta el eje horizontal (real) para
representarlas; cuando son imaginarias, deben “caer dentro del círculo unitario” ya que de
otra forma el radio “r” sería superior a 1 y la solución no sería convergente.

7 PROCESOS MEDIA MÓVIL
En los procesos de media móvil de orden q, cada observación Yt es generada

por una media ponderada de perturbaciones aleatorias, con un retardo de q períodos. Se
simboliza por MA(q):
Yt     t  1 t 1   2 t  2  ....   q t  q (7.1)
donde  es un término constante y t es una variable ruido blanco.
El proceso de media móvil de orden finito es una aproximación natural y obvia

de la representación de Wold.
7.1 Procesos MA(1)
El proceso de media móvil de primer orden o MA(1) es:
Yt     t  1 t 1    1  1 L   t (7.2)
donde t es una variable ruido blanco:  t  N  0;  2  .
La característica que describe al proceso MA y en particular al MA(1) es que

el valor actual de la serie observada se expresa como función de choques actuales y
rezagados inobservables.
Dependiendo del signo de 1, los choques anteriores alimentarán positiva o

negativamente el valor actual de la serie. Sin embargo, un mayor valor de 1 no se traduce
en una mayor persistencia de los choques pasados, como podría pensarse. El proceso
MA(1) tiene muy poca memoria, independiente del valor del parámetro 1.

Figura 7.1
Relación de 2 Procesos MA(1): 1 = 0,4 vs 1 = 0,9 y  t  N  0;1
1
0.8
0.6
0.4
0.2
tetha=0,4
0
tetha=0,9
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
4
7
-0.2
-0.4
-0.6
-0.8
-1
Observaciones
Cuando 1 tiene un mayor valor, la varianza incondicional aumenta; sin

embargo, la dinámica del proceso es la misma en ambos casos (poca memoria).
Los momentos incondicionales de un proceso MA(1) son los siguientes:
E Yt   E    E   t   1E   t 1    (7.3)
V Yt   V    V   t   12V   t 1    2  12 2   2 1  12    0 (7.4)
cov Yt , Yt 1   E Yt 1   Yt      E   t 1  1 t  2   t  1 t 1   (7.5)
cov Yt , Yt 1    1  1 2 (7.6)
cov Yt , Yt  2    2  0 (7.7)
En general, k = 0 para k > 1. Se dice que el proceso tiene una memoria de

sólo un período.
Cualquier valor de Yt está correlacionado con Yt-1 e Yt+1, pero con ningún otro
valor de la serie.

0
0  1 (7.8)
0
1 
1   12 (7.9)
 0 1  1
k
k   0 , k  1 (7.10)
0
Un modelo MA(1) siempre es estacionario independiente del valor de 1.
Por otra parte, los momentos condicionales de un proceso MA(1) son los
siguientes   t 1    t 1 ,  t  2 ,....  :
E Yt  t 1   E    E   t  t 1   1 E   t 1  t 1     1 t 1 (7.11)
V Yt  t 1   E Yt  E Yt  t 1    E   t2  t 1    2

2
(7.12)
Se observa que la media condicional se adapta en forma explícita al conjunto

de información, a diferencia de la media incondicional (8.3) que es constante. El hecho de
que la media condicional considere sólo el primer rezago del choque, es indicativo de la
memoria del proceso, que también está caracterizada por la función de autocorrelación.
Figura 7.2
Correlograma Simple 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo

Figura 7.3
Correlograma Simple 1 < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo
Si además 1  1 , se dice que el proceso es invertible. En dicho caso,

podemos expresar el proceso en términos de un choque actual y valores rezagados de la
serie en lugar de un choque actual y uno rezagado. A esto se le denomina representación
autoregresiva (ver sección 8.4)
7.2 Procesos MA(2)
En este caso, la representación de momentos no condicionales es la siguiente:
Yt     t  1 t 1   2 t  2 (7.13)
E Yt    (7.14)
V Yt    2  12 2   22 2   2 1  12   22    0 (7.15)
cov Yt , Yt 1   E   t  1 t 1   2 t  2   t 1  1 t  2   2 t 3   (7.16)
cov Yt , Yt 1    1   2 1  1 2  (7.17)
cov Yt , Yt  2   E   t  1 t 1   2 t  2   t  2  1 t 3   2 t  4   (7.18)

cov Yt , Yt  2    2   2 2 (7.19)
cov Yt , Yt 3    3  0 (7.20)
En general,  k  0 para k > 2.
0
0  1 (7.21)
0
 1 1  1 2
1   (7.22)
 0 1  12   22
2 2
2   (7.23)
 0 1  12   22
k
k   0 , k  3 (7.24)
0
Un modelo MA(2) siempre es estacionario con independencia del valor de sus

parámetros, y su memoria es de dos períodos.
7.3 Procesos MA(q)
En este caso, la representación es la siguiente:
Yt     t  1 t 1   2 t  2  ....   q t  q (7.25)
E Yt    (7.26)
V Yt    2  12 2  ....   q2 2   2 1  12  ....   q2    0 (7.27)
cov Yt , Yt 1    1   2 1  1 2   2 3  ....   q 1 q  (7.28)
cov Yt , Yt  2    2   2  2  1 3   2 4  ....   q  2 q  (7.29)
.....
cov Yt , Yt  q    q   q 2 (7.30)
En general,  k  0 para k > q. Los coeficientes de autocorrelación pueden ser

obtenidos a partir de las autocovarianzas. Todos los procesos MA de orden finito son
estacionarios.

7.4 Invertibilidad de los Procesos MA(q)
Cualquier proceso MA(q) puede expresarse como un AR(  ). Un modelo

MA(1):
Yt     t  1 t 1 (7.31)
Yt 1     t 1  1 t  2 (7.32)
Yt  2     t  2  1 t 3 (7.33)
.....
Despejando  t ,  t 1 ,  t  2 , etc. se obtiene:
 t    Yt  1 t 1 (7.34)
 t    Yt  1    Yt 1  1  t  2      Yt  1Yt 1  1  12  t  2  (7.35)
 t    Yt  1Yt 1  1  12    Yt  2  1 t 3  (7.36)
etc.
Si continuamos eliminando  t 3 y siguientes, el procedimiento continuará hasta

el infinito. Esto lleva a expresar Yt como función de sus valores retardados más una
constante y un término de error:
Yt     t  1Yt 1  12Yt  2  13Yt 3  ..... (7.37)

Yt     t    1 1iYt i
i
(7.38)
i 1
Esto tiene sentido si 1  1 , ya que, de otro modo, el efecto del pasado sería
más importante para explicar el comportamiento actual. Lo más lógico es pensar que el
efecto del pasado va siendo cada vez menor y el proceso es invertible.
Si 1  1 , es un caso límite de invertibilidad, en el que el efecto se mantiene

constante con el retardo.

Para un modelo MA(2), la condición de invertibilidad es L  1 en el

polinomio 1  1 L   2 L2  0 . Para un modelo MA(q), la condición de invertibilidad es
L  1 en el polinomio 1  1 L   2 L2  ....   q Lq  0 . Considerar el módulo es importante,
ya que pueden generarse raíces complejas.
Debido a que el proceso MA(q) se puede expresar como un AR(  ), consta

de infinitos coeficientes de autocorrelación parcial distintos de cero, aunque a partir del
valor q decaerán rápidamente. Así, la FAP de un proceso MA se comporta de manera
análoga a como lo hace la FAS en un AR.
7.5 Estimación de Procesos MA(q)
En este caso, debido a que los errores no son función lineal de los parámetros
(no se cumple el supuesto de linealidad requerido para utilizar MCO), la estimación se
resuelve mediante métodos numéricos.
Analicemos el caso de un MA(1):
Yt   t  1 t 1   t  Yt  1 t 1 (7.39)
ˆt  Yt  Yˆt  Yt  ˆ1 t 1 (7.40)
En forma recursiva se obtiene:
1  Y1  1 0 (7.41)
 2  Y2  11  Y2  1 Y1  1 0   Y2  1Y1  12 0 (7.42)
 3  Y3  1 2  Y3  1 Y2  1Y1  12 0   Y3  1Y2  12Y1  13 0 (7.43)
......
n 1
 n    1 1iYn i   1 1n 0
i n
(7.44)
i 0

El término de error no es función lineal del parámetro a diferencia de lo que

sucede con los modelos autorregresivos. El modelo se puede estimar a través de un
proceso iterativo de estimación no lineal, que utiliza los dos primeros términos de la
aproximación de  t a través del desarrollo en serie de Taylor (se consideran despreciables
los términos de segundo orden y superior).
 t 10 
t   t
0
1
 1  10  (7.45)
El parámetro  t0 es el valor que toma el residuo después de sustituir 1 por el

valor inicial 10 en (7.44). Esto implica que se requiere un valor inicial de este parámetro.
 t
En este caso se tiene que   t 1 , por lo que se cumple:
1
 t   t0  1  10   t01 (7.46)
Luego, reemplazando xt   t01 y zt   t0  10 t01 se obtiene:
zt  1 xt   t (7.47)
La expresión (7.47) es una ecuación de regresión lineal que se puede estimar

directamente mediante MCO. Luego, la estimación ˆ1 constituye la primera iteración del
proceso. Este valor se utiliza para realizar una segunda iteración, como valor inicial, y así
sucesivamente hasta que ˆ1h  ˆ1h 1   .
En el caso de un MA(2) la aproximación en series de Taylor sería:
 t 10 , 20   t 10 ,10 

t   t
0
1
1  1
0
  2
 2   20  (7.48)
 t  t
donde   t 1 y   t  2 . Luego se obtiene:
1  2
 t   t0   t01 1  10    t0 2  2   20  (7.49)

Reemplazando xt1   t01 , xt2   t0 2 y zt   t0  10 t01   20 t0 2 se obtiene:
zt  1 xt1   2 xt2   t (7.50)
Este método se puede extender para cualquier proceso MA(q) y ARMA(p,q):
Yt    1Yt 1  2Yt  2  ....   pYt  p   t  1 t 1   2 t  2  ....   q t  q (7.51)
Suponiendo que   0 se obtiene:
p  t  0 , 0  q  t  0 , 0 
t    
t
0
i
     
i i
0
 j
 j   j0  (7.52)
i 1 j 1
En este caso habrá que estimar un total de p + q parámetros, para lo cual se

aplican los procedimientos ya expuestos.
Para efectuar contrastes estadísticos, en la iteración final se calcula la

estimación de la matriz de varianzas y covarianzas de los estimadores mediante la
expresión:
ˆtT ˆt
X X 
1
V  ,    T
(7.53)
T  p  q 
El procedimiento iterativo no siempre es convergente. Si se produce

divergencia el modelo se puede volver a estimar una o más veces, utilizando diferentes
pronósticos iniciales, con la esperanza de obtener convergencia.
Puede también producirse por una mala especificación del modelo, es decir,
que no sea el que mejor representa la estructura del proceso estocástico que generó la
serie temporal objeto de análisis.
En este caso, habría que elegir una nueva especificación. La convergencia del
proceso de estimación puede que sea más rápida si el pronóstico inicial es bueno. Para
obtener valores iniciales de los parámetros  ,  pueden utilizarse las estimaciones
realizadas para la FAS y FAP.

7.6 Pronósticos con Procesos MA(q)
Mientras Yt sea estacionario en covarianzas, podemos expresar la

información disponible en el tiempo en función de valores y choques presentes y pasados:
T  YT ; YT 1 ; YT  2 ;....; T ; T 1;  T  2 ;.... (7.54)
A partir de la información T , se desea estimar el pronóstico óptimo de Y en

algún instante de tiempo futuro T + h. El pronóstico óptimo es aquel que minimiza la
pérdida esperada.
El pronóstico óptimo, bajo estacionariedad débil, es la esperanza condicional

E YT  h T  , es decir, el valor esperado del valor futuro de la serie que se pronostica,
condicionado a la información disponible.
Supongamos un modelo MA(2):
Yt   t  1 t 1   2 t  2 (7.55)
con  t  N  0;  2  ; nos encontramos en T y queremos pronosticar para T + 1. Primero,

formulamos el proceso para T + 1:
YT 1   T 1  1 T   2 T 1 (7.56)
Luego, proyectamos sobre el conjunto de información en el tiempo T, lo cual

implica reemplazar todas las innovaciones futuras por cero:
YˆT 1 T  1 T   2 T 1 (7.57)
Para pronosticar dos etapas futuras observamos que:
YT  2   T  2  1 T 1   2 T (7.58)
YˆT  2 T   2 T (7.59)
Al continuar de esta forma vemos que:
YˆT  h T  0 h2 (7.60)

Ahora calculemos los errores de pronóstico correspondientes. Para ello, se

debe recordar que el error de pronóstico es simplemente la diferencia entre el valor real y
el pronosticado, es decir, ˆT  h T  YT  h  YˆT  h T . Por lo tanto:
ˆT 1 T   T 1 RB (7.61)
ˆT  2 T   T  2  1 T 1 MA(1) (7.62)
ˆT  h T   T  h  1 T  h 1   2 T  h  2 h2 MA(2) (7.63)
Finalmente, la varianza del error de pronóstico es:
V  ˆT 1 T    2 (7.64)
V  ˆT  2 T    2 1  12  (7.65)
V  ˆT  h T    2 1  12   22  h2 (7.66)
Notar que en h  2 la varianza del error es la varianza no condicional de Yt .
Analicemos ahora el caso general del modelo MA(q). El modelo es:
Yt   t  1 t 1   2 t  2  ....   q t  q (7.67)
Si h  q , el pronóstico tiene la forma (análogo al caso MA(2)):
YˆT  h T  0  " ajuste " (7.68)
Si h  q , el pronóstico tiene la forma:
YˆT  h T  0 (7.69)
De esta forma, un proceso MA(q) no es pronosticable más de q períodos

adelante. Toda la dinámica del proceso MA(q), que se aprovecha para pronosticar, se
desvanece cuando llegamos al horizonte q.
Ello es un reflejo del comportamiento de la función de autocorrelación de un

MA(q), la cual se va a cero después del rezago q.

Por otra parte, los errores de pronóstico son los siguientes:
ˆT  h T  MA  h  1 hq (7.70)
ˆT  h T  MA  q  hq (7.71)
Luego, el error de pronóstico a h etapas, cuando h  q , es justamente el

mismo proceso menos su media.
Finalmente, veamos la varianza del error de pronóstico:
V  ˆT  h T   V Yt  hq (7.72)
V  ˆT  h T   V Yt  hq (7.73)
Notar que la varianza del error de pronóstico cuando h  q dependerá del

número de períodos h a futuro que queramos predecir.
Ahora construiremos los intervalos de confianza. Dado que

ˆT  h T  YT  h  YˆT  h T , el valor futuro será entonces el pronóstico más el error:
YT  h  YˆT  h T  ˆT  h T (7.74)
Si las innovaciones se distribuyen en forma normal, el valor futuro de la serie

también tiene forma normal, condicional al conjunto de información disponible en el
período en el cual se emitió la información disponible.
Luego, el intervalo del pronóstico a un 95% de confiabilidad es:
YˆT  h T  1,96 V  ˆT  h T  (7.75)
Por lo tanto, se obtiene la siguiente función de densidad de pronóstico a h

etapas futuras:

YˆT  h  N YT  h T ;V  ˆT  h T   (7.76)

Figura 7.4
Pronóstico de un MA(1)
2
1.5
0.5
Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior
-0.5
-1
-1.5
-2
Tiempo
Sin embargo, hasta ahora se han considerado conocidos los valores de los
parámetros y de las innovaciones. En la práctica se deben estimar (ver sección 8.5), y
luego utilizar las mismas ecuaciones pero con los estimadores de los parámetros y los
residuos. Este procedimiento es válido para estimar pronósticos, errores, varianzas e
intervalos.

8 PROCESOS AUTORREGRESIVOS
Representan los valores de una variable durante un instante del tiempo en

función de sus valores precedentes. Un modelo autorregresivo de orden p o AR(p) tiene la
forma siguiente:
Yt    1Yt 1  2Yt  2  ....   pYt  p   t (8.1)
donde  es un término constante y  t es una variable ruido blanco, que representa los
errores del ajuste y otorga el carácter aleatorio a la misma.
8.1 Procesos AR(1)
Yt    1Yt 1   t (8.2)
Si el proceso es estacionario, entonces E Yt   E Yt 1  y V Yt   V Yt 1  .
8.1.1 Media
La media incondicional es:
E Yt   E Yt 1    (8.3)

    1    (8.4)
1  1
La media condicional es:
E Yt Yt 1   E    1Yt 1 Yt 1     1Yt 1 (8.5)

8.1.2 Varianza
La varianza incondicional es:
V Yt   V Yt 1    0 (8.6)
 2
 0  12 0   2   0  (8.7)
1  12
La varianza condicional es:
V Yt Yt 1   V    1Yt 1   t Yt 1   0  12V Yt 1 Yt 1   V   t Yt 1  (8.8)
V Yt Yt 1   0   2   2 (8.9)
La condición a cumplir para que 0 sea positiva y finita es que 1  1 . En ese

caso el modelo es estacionario en media y varianza.
8.1.3 Autocovarianza
cov Yt , Yt 1   cov Yt 1 , Yt    1 (8.10)
cov Yt , Yt 1   E Yt 1   Yt      E  yt 1  yt  (8.11)
Yt    1Yt 1   t   1  1   1Yt 1   t (8.12)
Yt    1 Yt 1      t  yt  1 yt 1   t (8.13)
 1  E  yt 1  yt   E  yt 1  1 yt 1   t    1E  yt21   E  yt 1 t   1 0 (8.14)
La variable yt-1 está correlacionada con t-1 pero no con t, debido a que ésta
es una variable ruido blanco y no presenta autocorrelación. Por otra parte:
 2  E  yt  2  yt   E  yt  2  1 yt 1   t   (8.15)
 2  1 E  yt 1 yt   E  yt  2 t   1 1  12 0 (8.16)
En general, se tendrá que  k  1k  0 .

8.1.4 Autocorrelación
0
0  1 (8.17)
0
1
1   1 (8.18)
0
2
2   12 (8.19)
0
k
En general, se tendrá que  k   1k . Los valores de la función de
0
autocorrelación son las sucesivas potencias de 1.
La condición 1  1 garantiza que los sucesivos valores k converjan a cero,

por lo que la función de autocorrelación o correlograma puede tener dos aspectos
distintos, dependiendo del signo de 1.
Utilizando el operador de retardos L, podemos establecer de otro modo la

condición de estacionariedad:
Yt    1 LYt   t  Yt 1  1 L      t (8.20)
 
  L
Para que el proceso AR(1) sea estacionario, 1  1 y es equivalente a la

condición de que la raíz del operador polinomial  (L) debe caer fuera del círculo unitario,
es decir:
1
1  1L   0  L 1  1  1  1 (8.21)
1

Figura 8.1
Correlograma Simple 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo
Figura 8.2
Correlograma Simple 1 < 0
1.5
0.5
0
0 1 2 3 4 5 6 7 8 9
-0.5
-1
-1.5
Retardo

Figura 8.3
Correlograma Parcial 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo
Figura 8.4
Correlograma Parcial 1 < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo

Figura 8.5
Relación de 2 Procesos AR(1): 1 = 0,4 vs 1 = 0,9
1.5
0.5
phi=0,4
0
phi=0,9
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
4
7
-0.5
-1
-1.5
Observaciones
Se observa que las fluctuaciones del proceso AR(1) con  = 0,9 son más
persistentes que con  = 0,4, a diferencia del MA(1), que tiene poca memoria.
8.2 Procesos AR(2)
Yt    1Yt 1  2Yt  2   t (8.22)
8.2.1 Media
E Yt   E Yt 1   E Yt  2    (8.23)

    1  2     (8.24)
1  1  2
8.2.2 Varianza
V Yt   V Yt 1   V Yt  2    0 (8.25)
 0  V  yt   E  yt2   E  yt  1 yt 1  2 yt  2   t    1 1  2 2   2 (8.26)

8.2.3 Autocovarianza
cov Yt , Yt 1   cov Yt 1 , Yt    1 (8.27)
 1  cov Yt , Yt 1   E  yt 1  1 yt 1  2 yt  2   t    1 0  2 1 (8.28)
 2  cov Yt , Yt  2   E  yt  2  1 yt 1  2 yt  2   t    1 1  2 0 (8.29)
En general, se tendrá que  k  1 k 1  2 k  2 .
8.2.4 Autocorrelación
0
0  1 (8.30)
0
1
1      (8.31)
0 1 1 1
2
2   1 1  2 (8.32)
0
k
En general, se tendrá que  k   1  k 1  2  k  2 .
0
Utilizando el operador de retardos L, podemos establecer de otro modo la

condición de estacionariedad:
Yt    1 LYt  2 L2Y   t  Yt 1  1 L  2 L2      t (8.33)

 
  L
Para que el proceso AR(2) sea estacionario la raíz del operador polinomial
(L) debe caer fuera del círculo unitario, es decir:
1   L   L   0  L  1
1 2
2
(8.34)
  12  42
 1
 22
L*   (8.35)
1  12  42

 22

1 1
Sea G1  y G2  . Si G1  1 y G2  1 entonces G1  G2  G1  G2  1
L1 L2
y además G1  G2  G1  G2  2 .
Como G1  G2  2 y G1  G2  1 , para que un proceso AR(2) sea

estacionario es necesario (aunque no siempre suficiente) que 2  1 y 1  2 .
12
Las raíces serán iguales sólo si 12  42  0  2   . En este caso,
4
1 12
G1  G1  . Luego, si 1  2 , dado que 2   , el modelo resultante es
2 4
estacionario puesto con 1  2  0 .
12
Por otro lado, las raíces serán reales y diferentes si 12  42  0  2   .
4
Puede demostrarse que si G1  1 y G2  1 entonces:
2  1  1 (8.36)
2  1  1 (8.37)
1  2  1 (8.38)
Estas tres últimas condiciones son necesarias y suficientes para que el proceso
AR(2) sea estacionario, incluso cuando las soluciones sean complejas conjugadas.
2
2  1
1  2  1
1
2  1  1
1   2

8.3 Procesos AR(p)
Yt    1Yt 1  2Yt  2  ....   pYt  p   t (8.39)
Si el proceso es estacionario, entonces E Yt   E Yt 1   ....  E Yt  p  y

V Yt   V Yt 1   ....  V Yt  p  . Luego:
E Yt   E Yt 1   ....  E Yt  p    (8.40)

    1  2   ....   p     (8.41)
1  1  2  ....   p
La condición de estacionariedad es que las raíces de la ecuación polinomial

(L) estén fuera del círculo unidad:

1   L   L  ....   L   0
1 2

2
p
p
(8.42)
  L
1
Si Li es una raíz de la ecuación polinomial se demuestra que  i , donde
Li
i son las raíces de la denominada ecuación característica:
 p  1 p 1  2 p  2  ....   p 1   p  0 (8.43)
Por tanto, la condición de invertibilidad se puede obtener de forma alternativa

y es que las raíces de la ecuación característica deben ser menores a la unidad en valor
absoluto.
Luego, generalizando:
 0  1 1  2 2  ....   p p   2 (8.44)
 k  1 k 1  2 k  2  ....   p k  p , k1 (8.45)

El sistema de ecuaciones (8.45) para k = 1...p, relaciona las p primeras

autocovarianzas con los parámetros del proceso. Se denominan ecuaciones de Yule-
Walker:
 1  1 0  2 1  ....   p p 1 (8.46)
 2  1 1  2 0  ....   p p  2 (8.47)
.....
 p  1 p 1  2 p  2  ....   p 0 (8.48)
Las ecuaciones de Yule-Walker se pueden expresar en términos de los

coeficientes de autocorrelación dividiendo por 0 ambos miembros:
1  1  0  2 1  ....   p  p 1 (8.49)
 2  1 1  2  0  ....   p  p  2 (8.50)
.....
 p  1  p 1  2  p  2  ....   p  0 (8.51)
Mediante estas ecuaciones se pueden obtener los coeficientes o parámetros

del proceso AR(p) con los datos de los coeficientes de autocorrelación o autocovarianzas.
Si se resuelve sucesivamente el sistema de Yule-Walker bajo la hipótesis de la

serie es un AR(1), AR(2), AR(3), etc., y se toma el último coeficiente de cada uno de los
procesos que corresponde a la función de autocorrelación parcial. Bajo el supuesto de que
p es el orden del proceso autorregresivo, se obtiene que los coeficientes de autocorrelación
parcial serán distintos de cero para retardos iguales o inferiores a p.
En términos matriciales, y considerando que 0  1,  k    k , las ecuaciones

de Y-W pueden escribirse de la siguiente manera:
 1   1 1 ....  p 1   1 
  
  2    1 1  p  2   2 
(8.52)
 ....   ....  ....   .... 
    
  p    p 1  p2 .... 1    p 

Figura 8.6
Correlograma Parcial  > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
Retardo
Figura 8.7
Correlograma Parcial < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo
Los procesos AR son siempre invertibles, pero deben cumplir ciertas

condiciones para que sean estacionarios; notar la dualidad con los procesos MA.

8.4 Estimación de Procesos AR(p)
Un proceso autorregresivo no cumple la hipótesis del modelo clásico de

regresión basada en regresores fijos. Son variables aleatorias puesto que son retardos de
la variable Yt que es aleatoria (ó wt = Yt si corresponde). Sin embargo, en presencia de
errores que no presentan autocorrelación, los estimadores MCO tienen buenas
propiedades (consistencia).
Por el contrario, si el término de error estuviese correlacionado (no fuese ruido

blanco), estos estimadores serían inconsistentes. En este caso, el modelo estaría mal
especificado, puesto que una especificación correcta debe provocar un término de error
con estructura de ruido blanco.
La especificación es la siguiente:
wt    1wt 1  2 wt  2  ....  k wt  k   t (8.53)
w = W +  (8.54)
 w1     1 w0 w1 .... w1 p   1 

       
w  1 w1 w0 .... w2 p  
w 2 ,   1 , W  ,   2
 ....   ....  ....   .... 
       
 wT   k   1 wT 1 wT  2 .... wT  p   T 
Luego, el estimador MCO es simplemente ˆ  W T W  W T w . Si no se

1
incluye la media , simplemente se suprime la columna de unos en W.
8.5 Pronósticos con Procesos AR(p)
Considere un modelo AR(1):
Yt    Yt 1   t   t  N  0; 2  (8.55)
El proceso a una etapa más es:
YT 1    YT   T 1 (8.56)

La proyección por su parte es:
YˆT 1 T    YT (8.57)
El proceso y la proyección en T + 2 son:
YT  2    YT 1   T  2 (8.58)
YˆT  2 T    YT 1 T   2YT   1    (8.59)
El proceso y la proyección en T + h son:
YT  h    YT  h 1   T  h (8.60)
YˆT  h T   hYT   1     2  .....   h 1  (8.61)
Notar que el pronóstico tiende a la media conforme aumente h:

h 

lim YˆT  h T 1
 (8.62)
Luego, no existe información útil del pasado, ni siquiera reciente, a medida

que aumenta el tamaño muestral.
El error de pronóstico, por su parte:
ˆT  h  YT  h  YˆT  h T    YT  h 1   T  h  YˆT  h T (8.63)
ˆT  h   2YT  h  2   1      T  h   T  h 1  YˆT  h T (8.64)
ˆT  h   hYT   1     2  ....   h 1 

(8.65)
  T  h   T  h 1   2 T  h  2  ....   2 h 1 T 1  YˆT  h T
ˆT  h   T  h   T  h 1   2 T  h  2  ....   2 h 1 T 1 (8.66)
y su varianza:
V  ˆT  h    2 1   2   4  ....   2 h  2  (8.67)
Notar que la varianza se incrementa conforme aumenta h, pero converge.

Figura 8.8
Pronóstico de un AR(1)
5
4.5
3.5
Proceso
2.5 Cota Superior
Cota Inferior
1.5
0.5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo
8.6 Regla de la Cadena Para Pronosticar AR(p)
Dado que cualquier proceso AR(p) estacionario en covarianza puede ser

expresado como un MA de orden infinito, no hay necesidad de técnicas especiales para
pronósticos autorregresivos.
Sin embargo, existe un método muy sencillo para calcular el pronóstico óptimo
de modelos autorregresivos, conocido como regla de la cadena para pronosticar.
Primero se construye el pronóstico óptimo a una etapa, y luego se construye el

óptimo a dos etapas, que depende del óptimo a una etapa ya calculado. Después se
estima el pronóstico a tres etapas, el que depende del pronóstico a dos etapas ya
calculado, y así sucesivamente.
El proceso a una etapa más es:
YT 1  YT   T 1 (8.68)

La proyección por su parte es:
YˆT 1 T  YT (8.69)
YT  2  YT 1   T  2 (8.70)
YˆT  2 T  YT 1 T (8.71)
YT 3  YT  2   T 3 (8.72)
YˆT 3 T  YT  2 T (8.73)
Continuando de esta forma, se pueden formular pronósticos para todos y cada

uno de los períodos futuros. Notar que para un AR(1) se necesita el valor más reciente de
Yt, mientras que para un proceso general AR(p) se necesitan los p valores más recientes.
8.7 Dualidad entre Procesos AR y MA
 En un modelo AR(p) el término t puede representarse como una combinación finita

de Yt , Yt 1 ,....., Yt  p . Análogamente, Yt puede expresarse como una combinación
infinita de  t ,  t 1 ,  t  2 ,.....
En un modelo MA(q) Yt puede expresarse como una combinación finita de

 t ,  t 1 ,  t  2 ,.....,  t  q y el término t puede representarse como una combinación
infinita de Yt , Yt 1 , Yt  2 ,..... .
 En un modelo AR(p) no se requiere ninguna condición sobre los parámetros i para

que el proceso sea invertible; sin embargo, cada raíz L del polinomio (L) debe
estar fuera del círculo unitario para que el proceso sea estacionario.
En un modelo MA(q) no se requiere ninguna condición sobre los parámetros i para
que el proceso sea estacionario; sin embargo, cara raíz L del polinomio (L) debe
estar fuera del círculo unitario para que el proceso sea invertible

 La FAS de un proceso MA(q) se anula para retardos superiores a q; sin embargo, la

FAP es infinita y está dominada por una combinación lineal de oscilaciones
armónicas, exponenciales amortiguadas y productos de dichos términos por
potencias de k.
Recíprocamente, la FAP de un proceso AR(p) se anula para retardos superiores a p,

sin embargo, la FAS es infinita y está dominada por una combinación lineal de
oscilaciones armónicas, exponenciales amortiguadas y productos de dichos términos
por potencias de k.
8.8 Procesos ARMA(p,q)
Un modelo mixto con componente autorregresiva y con componente de

medias móviles se denomina ARMA (p,q), donde p es el orden de la parte autorregresiva y
q el de la parte de medias móviles:
Yt    1Yt 1  2Yt  2  ....   pYt  p   t  1 t 1   2 t  2  ....   q t  q (8.74)
  L
  L  Yt    L   t  Yt   (8.75)
  L t
La condición de estacionariedad es que las raíces de la ecuación

característica (L) = 0 estén fuera del círculo unidad. La condición de invertibilidad es que
las raíces de la ecuación (L) = 0 estén fuera del círculo unidad.
Lógicamente, en un proceso ARMA (p,q) tanto la FAS como la FAP tienen

infinitos elementos distintos de cero.
Para estimar modelos ARMA se utiliza el criterio de máxima verosimilitud. La

función de verosimilitud se obtiene de la siguiente forma. Supongamos que Yt evoluciona
en el tiempo de acuerdo con un proceso estocástico ARMA gaussiano cuya esperanza
incondicional es nula para todo t; esto implica que la función de verosimilitud de la muestra
condicionada a los valores de los parámetros del modelo es:
 1 
f Y ,  , ,  2    2 
n 2 1 2
 exp   Y T  1Y  (8.76)
 2 
donde:

: Vector de dimensión p x 1 que contiene todos los parámetros de la parte

autorregresiva del modelo.
: Vector de dimensión q x 1 que contiene todos los parámetros de la parte media móvil
del modelo.
: Matriz de varianzas-covarianzas de Yt, de dimensión n × n. En general, los elementos

de esta matriz serán función de los parámetros  y 2 del modelo.
Transformando logarítmicamente la expresión anterior, tras simplificaciones

algrebraicas, se obtiene la función:
L Y ,  , ,  2    ln   Y T  1Y (8.77)
Consecuentemente, el problema de estimación por máxima verosimilitud

queda reducido a buscar los valores de  y 2 que minimizan la función anterior,
sustituyendo en cada caso la matriz  por su expresión analítica correcta.
Supongamos, por ejemplo, que Yt evoluciona en el tiempo de acuerdo con un

modelo invertible de medias móviles de orden 1: Yt   t   t 1 ,   1 y  t  N  0,  2  .
Por los resultados anteriores, sabemos que la matriz  tendrá la forma:
1   2  .... 0 
 
2   1 2 0 
  (8.78)
 ....  .... 
 
 0 0 .... 1   2 
Por otra parte, si Yt evoluciona en el tiempo de acuerdo con un modelo AR(1)

estacionario Yt  Yt 1   t ,   1 y  t  N  0,  2  , por resultados anteriores, sabemos
que:
 1  ....  n 1 
 
2   1  n2 
 (8.79)
1    ....  .... 
 n 1 
  n  2 .... 1 
En el contexto de modelos ARMA, las condiciones de primer orden del

problema de optimización dan lugar a un sistema de ecuaciones no lineales. Por ello, es

necesario recurrir a técnicas numéricas para resolverlas de forma aproximada, lo que

provoca una serie de problemas:
 Soluciones no exactas: Los procedimientos que se utilizan para resolver estos

problemas generan una secuencia de soluciones tentativas que, idealmente, deben
converger a la solución óptima. En la práctica, el proceso se interrumpe cuando la
solución obtenida es "suficientemente buena", lo cual introduce un cierto grado de
arbitraridad en el proceso de estimación.
 Posibilidad de convergencia fuera del óptimo global: El proceso iterativo

de búsqueda puede converger a un óptimo local o, incluso, a una región "plana" de
la función de verosimilitud, creada por un problema de identificación paramétrica
análogo al de colinealidad.
 Posibilidad de acumulación de errores de redondeo: Puesto que los

procesos de cálculo se desarrollan con una precisión finita, es posible cometer
errores de redondeo capaces de abortar la secuencia de cálculos (provocando, por
ejemplo, una división por cero) o dar lugar a una convergencia alejada del óptimo.
8.9 Pronósticos de Modelos ARMA(p,q)
Consideremos un proceso ARMA estacionario en covarianza. Como en el

caso de los procesos AR(p), siempre se puede convertir un proceso ARMA en uno de
medias móviles de orden infinito, y luego utilizar las técnicas de dichos procesos para
pronosticar (ver Capítulo 8).
Sin embargo, se dispone de un método más sencillo que combina las

metodologías consideradas para los MA y los AR.
El proceso en el futuro es:
YT  h  1YT  h 1  2YT  h  2  ....   pYT  h  p   T  h  1 T  h 1   2 T  h  2  ....   q T  h  q (8.80)
En el lado derecho hay varios valores futuros de Y y de , y quizás también

algunos valores pasado (depende de los valores de h, p y q).

Se debe reemplazar todo el lado derecho por su proyección sobre el conjunto

de información en el tiempo T. Es decir, se sustituyen todos los valores futuros de Y por sus
pronósticos (obtenidos recursivamente por regla de la cadena) y todos los , también por
sus pronósticos óptimos.
YˆT  h T  1YˆT  h 1 T  2YˆT  h  2 T  ....   pYˆT  h  p T  ˆT  h T

(8.81)
 1ˆT  h 1 T   2ˆT  h  2 T  ....   qˆT  h  q T
Por ejemplo, para una ARMA(1,1):
Yt  Yt 1   t   t 1 (8.82)
El proceso en el tiempo T + 1 es:
YT 1  YT   T 1   T (8.83)
Al proyectar el lado derecho sobre T se obtiene:
YˆT 1 T  YT   T (8.84)
El proceso en el tiempo T + 2 es:
YT  2  YT 1   T  2   T 1 (8.85)
Al proyectar el lado derecho sobre T se obtiene:
YˆT  2 T  YˆT 1 T (8.86)
Sustituyendo el pronóstico a una etapa ya calculado se obtiene:
YˆT  2 T   2YT   T (8.87)

8.10 Procesos ARIMA(p,i,q)
Hasta este momento se han tratado procesos estacionarios. Sin embargo, las
series de datos económicos suelen caracterizarse por ser no estacionarias: nótese la simple
observación de una tendencia creciente en el tiempo o de unas fluctuaciones que crecen en
tamaño con el paso del tiempo, como, por ejemplo, puede ocurrir con el precio de algunos
activos financieros.
Muchas series económicas se convierten en aproximadamente estacionarias

después de aplicar diferencias en una ó más etapas. Lo que se hace en tales situaciones es
trabajar con la serie en diferencias especificando y estimando un modelo para ellas.
Una predicción con estas series hay que traducirla a una predicción para la
serie origen, en cuyo análisis está interesado el investigador.
 Diferencias de orden uno o de primer orden o primeras diferencias:
Yt  Yt  Yt 1 (8.88)
 Diferencias de orden dos o segundas diferencias: se aplican primeras

diferencias a la serie ya diferenciada una vez.
  Yt    2Yt  Yt  Yt 1  Yt  2Yt 1  Yt  2 (8.89)
Un ejemplo de proceso estocástico o aleatorio no estacionario es el

denominado paseo o camino aleatorio:
Yt  Yt 1   t (8.90)
Yt    Yt 1   t (8.91)
donde t es ruido blanco. Este es un proceso no estacionario en varianza, ya que:
Yt  Yt 1   t  Yt  2   t 1   t  Yt 3   t  2   t 1   t  ..... (8.92)
N
Yt    t  k (8.93)
t 0
V Yt   N 2 (8.94)

La transformación consiste en tomar primeras diferencias de la variable, con lo

que se produce una nueva serie claramente estacionaria: Yt = Yt - Yt-1 = t, variable que
sigue un proceso ruido blanco, estacionario.
La serie Yt es no estacionaria homogénea de orden d, si la serie wt = dYt es

estacionaria. Entonces, Yt es un proceso autorregresivo integrado de media móvil de orden
(p,d,q) y se denomina ARIMA (p,d,q). Si se aplican diferencias de orden d a Yt se obtiene
un proceso estacionario wt del tipo ARMA (p,q).
8.11 Procesos Estacionales
Hasta el momento solamente hemos considerado procesos estocásticos que no

contenía un componente estacional. Sin embargo, es posible que las variables sometidas
análisis se hayan medido como datos de frecuencia inferior al año y, en
consecuencia, son susceptibles de presentar un componente estacional que tenga un
comportamiento propio.
En este apartado vamos a analizar este tipo de modelos considerando que el

proceso contiene solamente componente estacional. No es el caso más habitual desde el
punto de vista empírico, pero sí que tiene interés desde el punto de vista teórico, en
especial de cara a ofrecer una mejor comprensión de aquellos procesos que combinan un
comportamiento estacional con otro no estacional.
Vamos a comenzar analizando el caso autorregresivo para, a continuación,

estudiar los procesos de medias móviles y, finalmente, los procesos mixtos. A lo largo de las
subsiguientes secciones consideraremos que disponemos datos de frecuencia inferior al
año, en general s, tal que s = 2,4,12 se interpreta como datos de frecuencia bi-mensual,
trimestral o mensuales, respectivamente.
La principal ventaja de utilizar modelos estacionales, es que

mejora el nivel de predicción y además permite aumentar el número de
datos utilizados en el proceso de calibración.

8.11.1 Estacionalidad Mediante Variables Dicotómicas
La utilización de variables Dicotómicas, Dummies o Ficticias, es típicamente

utilizada en la modelación de procesos estacionales. Para cada estación diferentes, que
puede ser un mes, trimestre, semestre, estación del año, e incluso semana, se considera una
variable ficticia. Así, si por ejemplo interesa diferenciar entre meses del año, deben
considerarse 12 variables ficticias; si el análisis fuera a partir de trimestres, debieran
considerarse 4 variables ficticias, etc.
Si el análisis fuera, por ejemplo, considerando las 4 estaciones del año,

tendríamos que definir cuatro variables ficticias: D1, D2, D3 y D4. Así, para la primera
temporada (verano por ejemplo), la variable D1 toma el valor 1, mientras que el resto de
las variables toma el valor cero. Para la segunda temporada, la variable D2 toma el valor
1, y el resto toma el valor cero; análogo para las otras dos temporadas.
De esta forma, el modelo estacional puro considerando s estaciones dentro del

año, es el siguiente:
s
Yt    i Dit   t (8.95)
i 1
Esta última expresión corresponde al modelo más básico, definido únicamente

por una constante, que representa la ordenada en el origen. Sin embargo, cada estación
tiene su propia ordenada en el origen i. Cuando no hay estacionalidad, las i son iguales,
y se pueden eliminar todas las variables ficticias estacionales, para dejar sólo el intercepto
acostumbrado.
Luego, en lugar de incorporar un conjunto de s variables ficticias estacionales,

podríamos incluir sólo (s – 1) variables ficticias y una ordenada en el origen (intercepto).
Entonces, el intercepto representa la variable ficticia de la estación omitida, y
los parámetros i representan el aumento o la reducción en relación a la estación omitida.
Sin embargo, por ningún motivo deben incluirse s variables ficticias
estacionales y también el intercepto. Recordar que incluir el intercepto equivale a
incorporar una variable que siempre toma el valor 1. Si analizamos, la suma de las
variables ficticias por estación también es 1.

Luego, si se incluye el intercepto y todo el conjunto de s variables ficticias, se

produce multicolinealidad perfecta, y los parámetros no son estimables.
El modelo también puede incorporar un término de tendencia determinista de

la siguiente forma:
s
Yt   t    i Dit   t (8.96)
i 1
El pronóstico y la varianza del error de predicción se construyen de manera

análoga a los casos anteriores en que no se consideró estacionalidad.
8.11.2 Procesos Autorregresivos Estacionales
Un proceso autorregresivo estacional de orden p es:
Yt    1Yt  s  2Yt  2 s  ....   pYt  ps   t (8.97)
Este proceso lo podemos expresar en función de un polinomio autorregresivo

de retardos de la siguiente manera:
1   L   L
1
s
2
2s
 ....   p Lps  Yt     t (8.98)
 p  Ls  Yt     t (8.99)
Se observa que existen grandes similitudes entre un autorregresivo estacional y

los modelos autorregresivos comunes. La diferencia principal reside en el hecho de que
aquí las correlaciones no se presentan entre un periodo y el inmediatamente
anterior, sino entre un periodo y s periodos atrás.
8.11.3 Estacionariedad del AR(p) Estacional
Dadas estas semejanzas, los resultados van a ser similares entre sí. Por
ejemplo, la primera cuestión que debemos dilucidar es si el proceso autorregresivo
estacional es estacionario o no. Tomando como referencia un proceso autorregresivo
regular, podemos decir que un proceso autorregresivo estacional será estacionario siempre
que las raíces del polinomio de retardos  p  Ls  estén todas fuera del círculo unidad.

Una vez impuesta la condición de estacionariedad, el cálculo de los

momentos del proceso es similar a lo que hicimos con anterioridad para el proceso AR(p).
Así la media poblacional del proceso es:
E Yt   E Yt  s   ....  E Yt  ps    (8.100)

    1  2   ....   p     (8.101)
1  1  2  ....   p
Resultado es cualitativamente similar al expuesto para un autorregresivo de

orden p no estacional.
Por otra parte, a función de autocovarianzas tiene características similares a la

de un autorregresivo regular. Primero, tiene infinitos valores distintos de 0, no se anula
nunca. Además, los coeficientes son decrecientes, en valor absoluto.
8.11.4 Procesos Medias Móviles Estacionales
Un proceso media móvil estacional de orden q es:
Yt     t  1 t  s   2 t  2 s  ....   q t  qs (8.102)
Este proceso lo podemos expresar en función de un polinomio autorregresivo

de retardos de la siguiente manera:
Yt    1  1 Ls   2 L2 s  ....   q Lqs   t (8.103)
Yt     q  Ls   t (8.104)
Como todo proceso que solamente tiene parte de medias móviles, este
proceso será siempre estacionario. No será, por el contrario, siempre invertible. Para que
cumpla esta característica es necesario imponerle una condición similar a la de los
procesos de medias móviles regulares. Así, un proceso estacional de medias móviles será
invertible cuando las raíces del polinomio autorregresivo de retardos estén todas fuera del
círculo unidad.

El análisis de los momentos de este proceso se hace de forma similar a como

lo hemos venido realizando. En primer lugar, la media poblacional del proceso se obtiene
como:
E Yt    (8.105)
La función de autocorrelación de un proceso estacional de medias móviles

tiene un comportamiento similar al de un proceso regular de medias móviles, pero con la
particularidad de que esta función muestra valores distintos de 0 sólo en las
frecuencias estacionales, esto es, para s = 1, 2, ....., q. El resto de los coeficientes
de la función se anulan.
8.11.5 Identificación de s
La existencia de un componente estacional en la serie puede deducirse del

contraste de Kruskal - Wallis por:
a.) El gráfico de la serie (la serie presenta valores superiores o inferiores al valor medio
anual, los cuales se repiten frecuentemente para determinar periodos al año).
b.) Correlograma muestral de dicha serie (FAM presenta valores elevados en los
retardos correspondientes a los periodos estacionales).

9 PROCESOS ESTOCÁSTICOS NO ESTACIONARIOS
En este Capítulo comenzamos el estudio de los procesos no estacionarios. Un

proceso puede ser no estacionario en la media, en la varianza, en las covarianzas o en
otras características de la distribución de las variables a lo largo del tiempo.
Será no estacionario en la media si el nivel de la serie no es estable en el

tiempo, pudiendo en particular tener tendencia creciente o decreciente. Será no
estacionario en la varianza o en las covarianzas si estas varían con el tiempo.
Vamos a considerar la clase de procesos no estacionarios integrados, que son

procesos no estacionarios en la media, pero que pueden convertirse en estacionarios
tomando diferencias.
9.1 Paseo Aleatorio
Hemos visto que los procesos MA finitos son siempre estacionarios y que los
AR lo son si las raíces de   B   0 están fuera del círculo unidad. Consideremos el AR(l):
Yt    Yt 1   t (9.1)
Si   1 el proceso es explosivo; si   1 el proceso es no estacionario y

tampoco es explosivo, y pertenece a la clase de procesos integrados de orden uno (ya que
su primera diferencia, Yt  Yt 1   t , sí es un proceso estacionario). Este proceso se
denomina paseo aleatorio, y corresponde al más simple de los procesos no estacionarios.
Para calcular la función de autocorrelación de este proceso supondremos que

comienza en t = 0. Entonces, sustituyendo sucesivamente Yt por Yt 1 tendremos:
Yt  t  Y0   t   t 1   t  2  .....  1 (9.2)
De (9.2) se observa que el impacto de los choques no se disipa con el tiempo,

a diferencia del caso estacionario. Procesos de memoria corta suelen ser estacionarios,
mientras que procesos de memoria larga pueden ser no estacionarios.

La media y varianza del proceso (9.2) son:
E Yt     t  Y0 (9.3)
V Yt    2t  V Yt  k    2  t  k  (9.4)
Se observa que la varianza aumenta con el tiempo, lo mismo con la media

cuando   0 . Además se tiene:
cov Yt , Yt  k    2t (9.5)
Luego, la función de autocorrelación es:
cov Yt , Yt  k   2t t
k    (9.6)
V Yt  k  V Yt    t  k    t  t  k 

Si t es grande, los coeficientes de la función de autocorrelacíón serán

próximos a uno y decrecerán muy lentamente con k.
Este proceso puede ser representado por lanzamientos sucesivos de una

moneda, donde la cara recibe el valor +1 y el sello recibe el valor –1.
El pronóstico en este caso (considerando  = 0) para un período más

adelante está dado por:
YˆT 1  E YT 1 T   YT  E   T 1 T   YT (9.7)
Para dos períodos más adelante es:
YˆT  2  E YT  2 T   E YT 1   T  2  (9.8)
YˆT  2  E YT   T 1   T  2   YT (9.9)
Del mismo modo, el pronóstico para h períodos más adelante es también YT .

Sin embargo, aunque el pronóstico Yˆ será el mismo independiente de h, la varianza del
T h
pronóstico crecerá conforme h se haga mayor.

Para un período, el error de pronóstico es:
ˆT 1  YT 1  YˆT 1  YT   T 1  YT   T 1 (9.10)




YT 1 YˆT 1
y su varianza:
V  ˆT 1    2 (9.11)
El error de pronóstico y su varianza para dos períodos es:
ˆT  2  YT  2  YˆT  2  YT 1  T  2  YT  YT  T 1   T  2  YT   T 1   T  2 (9.12)
V  ˆT  2   E   T 1   T  2    E   T21   2 E  T 1 T  2   E   T2 2 

2
(9.13)
 
V  ˆT  2   2 2 (9.14)
Sucesivamente, la varianza del error de pronóstico para h períodos más es:
V  ˆT  h   h 2 (9.15)
De esta forma, el error estándar del pronóstico se incrementa con la raíz

cuadrada de h. Por lo tanto, se pueden obtener intervalos de confianza para los
pronósticos, los que se volverán más amplios conforme aumente el horizonte del
pronóstico.
Un extensión simple de este proceso consiste en agregar una tendencia en la

serie, de tal forma de agregar también una tendencia al pronóstico:
Yt    Yt 1   t (9.16)
YˆT 1  E YT 1 T   YT    E   T 1 T   YT   (9.17)
Para h períodos más adelante es:
YˆT  h  YT  h   (9.18)
Sin embargo, el error de pronóstico y su respectiva varianza será igual que el

caso sin tendencia.

Figura 9.1
Pronóstico de un Paseo Aleatorio Sin Tendencia
3
Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior
-1
-2
-3
Tiempo
Figura 9.2
Pronóstico de un Paseo Aleatorio Con Tendencia
10
Proceso
5 Cota Superior
Cota Inferior
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo

9.2 Procesos ARIMA
El paseo aleatorio expuesto anteriormente ha sido obtenido admitiendo que la

raíz de la parte AR de los procesos AR(1) es unitaria, con lo que se convierte en no
estacionario.
Esta idea puede generalizarse para cualquier proceso ARMA, permitiendo

una o varias raíces unitarias en el operador AR. Se obtienen entonces procesos del tipo:
1   L   L  ....   L  1  L 
1 2
2
p
p d
Yt  1  1 L   2 L2  ....   q Lq    t (9.19)
  L   d Yt    L   t (9.20)
  L  wt    L   t (9.21)
La serie Yt es no estacionaria homogénea de orden d, si la serie wt   d Yt es

estacionaria. Entonces, Yt es un proceso autorregresivo integrado de media móvil de orden
(p,d,q) y se denomina ARIMA (p,d,q). Si se aplican diferencias de orden d a Yt se obtiene
un proceso estacionario wt del tipo ARMA (p,q).
En esta notación p es el orden de la parte autorregresiva estacionaria, d es el

número de raíces unitarias (orden de integración del proceso) y q es el orden de la parte
media móvil.
El paseo aleatorio es el modelo ARIMA (0,1,0) que se caracteriza porque su

función de autocorrelación simple tiene coeficientes que decrecen lentamente. Todos los
procesos ARIMA no estacionarios tienen esta propiedad general.
En consecuencia, la FAS tendrá coeficientes positivos que se amortiguarán

linealmente y pueden ser distintos de cero incluso para valores altos de k. Esta propiedad
de persistencia de valores positivos en el correlograma (aunque sean pequeños) y de
decrecimiento lineal caracteriza a los procesos no estacionarios.
Sin embargo, la diferenciación de una serie para convertirla en

estacionaria sólo es adecuado cuando nos encontramos ante tendencias
estocásticas, nunca cuando estamos ante tendencias deterministas.

En el caso de tendencia determinista, el procedimiento habitual es de aplicar

sobre la serie original un filtro sencillo: se estima la regresión de la serie no estacionaria Yt
sobre un término de tendencia determinista obteniéndose una estimación de la serie
original Yt : Yˆt  ˆ0  ˆ1t
Luego, es suficiente trabajar con la expresión:

Yt  Yt  Yˆt  Yt  ˆ0  ˆ1t  (9.22)
9.2.1 Identificación de Procesos ARIMA
El objetivo de esta etapa es buscar un proceso ARMA que haya podido

generar la serie temporal, es decir, que se adapte lo mejor posible a las características de
dicha serie. Pero esos procesos son estacionarios, por lo que habrá que efectuar un análisis
de la estacionariedad de los datos.
Para analizar la estacionariedad de una serie, se utilizan los siguientes

instrumentos:
 Representación Gráfica. Si el gráfico de la serie temporal presenta

fluctuaciones cuya amplitud cambia para distintos intervalos del período
muestral, se pensará que el proceso que genera la serie es no estacionario. Lo
mismo sucede cuando la tendencia es creciente o decreciente con el tiempo.
 El Correlograma. El hecho de que la función de autocorrelación simple

decrece muy lentamente al aumentar el retardo, ha demostrado ser una señal
de tendencia no estacionaria. Puesto que en la práctica se dispone de una
realización de un proceso estocástico, podemos obtener los coeficientes de
autocorrelación muestral y, a partir de ellos, el correlograma muestral. Una vez
representado el correlograma muestral, se conoce si la serie es o no
estacionaria.
 Mediante Contrastes de Raíces Unitarias. Son válidos para determinar

si existe tendencia determinística o estocástica; se verán más adelante.

 Gráfico Desviación Típica de la Media. Si conforme crece la media, la

desviación típica aumenta, la varianza del proceso es creciente.
Si la serie temporal no es estacionaria se aplican las transformaciones

adecuadas con objeto de convertirla en estacionaria.
Cuando la serie presente no estacionariedad en media, se suele aplicar

el proceso de diferenciación. Pero, a veces, la toma de diferencias no es suficiente para
obtener series estacionarias en media y en varianza.
Una solución consiste en fijar logaritmos de la serie, teniendo en cuenta que

posteriormente hay que deshacer el cambio de variable. En series económicas que están
afectadas por una fuerte tendencia, suele ser necesario efectuar alguna transformación del
tipo Box-Cox, para obtener una serie estacionaria en varianza.
Una vez estacionaria, se determinará el orden de la parte autorregresiva (p) y

el de la parte de medias móviles (q) del proceso ARMA, que se considere haya podido
generar la serie estacionaria.
Para tal fin se utilizan el correlograma estimado y la función de

autocorrelación parcial estimada. Esta última puede obtenerse de dos formas alternativas,
prácticamente equivalentes: mediante el sistema de Yule-Walker, y mediante el método de
regresión (MCO o MV).
Se puede utilizar el sistema de Yule-Walker para estimar los coeficientes de

autocorrelación parcial a partir de los simples estimados:
ˆ1
ˆ11  ˆ1  (9.23)
ˆ1
 ˆ21   1 ˆ1  ˆ1 
    (9.24)
 ˆ   ˆ1 1  ˆ 2 
 22 
 ˆ31   1 ˆ1 ˆ 2  ˆ1 
    
 ˆ32    ˆ1 1 ˆ1  ˆ 2  (etc.) (9.25)
ˆ  ˆ
 33    2 ˆ1 1  
 ˆ 3 
 

 
Luego, los valores de ˆ11 , ˆ22 , ˆ33 ,...., ˆkk se usan para construir la FAP.
La otra opción para el cálculo de la FAP, consiste en obtener los coeficientes

mediante las siguientes regresiones sucesivas:
Yt  11Yt 1   t (9.26)
Yt  21Yt 1  22Yt  2   t (9.27)
Yt  k 1Yt 1  k 2Yt  2  ....  kk Yt  k   t (9.28)
Las estimaciones ˆkk son la correlación estimada existente entre Yt e Yt  k ,

después de eliminar el efecto de Yt 1 , Yt  2 ,...., Yt  k 1 .
En los modelos AR(p), la FAP presenta los p primeros coeficientes distintos de

cero y el resto nulos. La FAS presenta un decrecimiento rápido de tipo exponencial,
sinusoidal o ambos. En los modelos MA(q), sucede el patrón opuesto: la FAS se anula para
retardos superiores a q y la FAP decrece exponencial o sinusoidalmente.
Sin embargo, la especificación de los modelos ARMA no se ajusta a unas

normas tan bien definidas. Por ejemplo, en un modelo AR(1), la FAP es cero para k >1,
pero esto no ocurre en un ARMA(1,1), pues a la componente AR(1) hay que superponer la
MA(1) cuya FAP converge exponencialmente a cero.
En la práctica, se puede especificar una de las componentes y

analizar sus residuos. Si el modelo considerado es un ARMA (2,1) se
especifica inicialmente la componente AR(2). Se analizarán estos residuos a
través del correlograma y si siguen un MA (1), el proceso completo será un
ARMA (2,1).
Para que una serie sea fácilmente identificable hay que

considerar un tamaño mayor a 50.
El estimador ˆ k de la FAS es una variable aleatoria cuya varianza se estima

de forma aproximada (Barlett, 1946) por:
1 k 1

V  ˆ k   
T
1  2 
i 1
ˆ12 

(9.29)

Con un tamaño muestral suficientemente grande, ˆ k se aproxima a una

distribución normal. Se puede, por lo tanto, construir un intervalo de confianza al 95%,
para contrastar la hipótesis nula de que ˆ k  0 definido por 1,96 V  ˆ k  .
Si los coeficientes muestrales caen dentro del intervalo, se concluye que los
coeficientes de autocorrelación no son significativamente distintos de cero. En la práctica,
esta fórmula permite identificar procesos de media móvil, para los cuales  k se anula a
partir de algún k > q.
Para la FAP, se ha demostrado (Quenouille, 1949) que, en un proceso AR(p):
1
 
V ˆkk  , k  p
T
(9.30)
1
por lo que el intervalo de confianza, al 95%, para contrastar ˆkk  0 es igual a 1,96 .
T
Es posible verificar si una muestra procede de un proceso autorregresivo de un

orden p* dado, comprobando si ˆkk cae dentro del intervalo para todo k > p* (es
significativamente igual a cero).
En la práctica, se utilizan estas técnicas para calcular intervalos de confianza

para todos los coeficientes de autocorrelación parcial estimados, con independencia de
cuál sea el tipo de proceso, que se desconoce de antemano.
También hay que identificar la inclusión o no de término independiente

(constante). La media del proceso está ligada al mismo, por lo tanto, si la media observada
se considera significativamente igual a cero, no se introducirá término independiente en el
modelo.
Esta etapa suele plantear ciertas dificultades y su objetivo consiste, en general,

en la especificación tentativa de unos pocos modelos con estructuras sencillas. La etapa de
estimación y la posterior validación de los resultados confirmarán los indicios o, por el
contrario, servirán de fundamento para la reformulación de los modelos propuestos.

9.2.2 Estimación de Procesos ARIMA
Dado que wt   d Yt  wt  1  L  Yt se puede construir el siguiente modelo

d
ARMA(p,q):
1   L   L
1 2
2
 ....   p Lp  wt  1  1 L   2 L2  ....   q Lq    t (9.31)
El objetivo es la estimación de los parámetros i y  j , para lo cual se dispone

de una muestra de tamaño T de la variable Y. Sin embargo, al tomar las diferencias de
orden d, quedarán sólo (T – d) datos  w1 , w2 ,...., wT  d  .
Es importante insistir en que las hipótesis que se consideran en el proceso de

estimación son:
 El error es ruido blanco gaussiano:  t  N  0,  2  .
 El proceso es estacionario.
 El proceso es invertible.
Debemos obtener estimaciones de los p parámetros autorregresivos y los q

parámetros media móvil. La metodología consiste en elegir los valores de parámetros que
minimizan la suma de diferencias al cuadrado entre la serie de tiempo real wt   d Yt y la
ajustada wˆ t .
De otra forma, podemos escribir la expresión (9.31) en función de los términos

del error gaussiano, considerando eso sí que la parte media móvil es invertible:
  L
  L  wt    L   t   t  w (9.32)
  L t
Considerando los estimadores ˆ y ˆ , la expresión sería:
ˆ  L 
ˆt  wt (9.33)
ˆ  L 
Luego, se debe minimizar la expresión  ˆ

t
t
2
.

Si están presentes los términos de media móvil, esta expresión es no lineal, por
lo que deben utilizarse métodos de estimación no lineales. Adicionalmente, debe emplearse
algún criterio para inicializar la serie (elegir números para los valores iniciales no
observada).
Supongamos que un total de T + d observaciones están disponibles para la

serie estacionaria homogénea de orden d; denotamos esta observaciones como
Y d 1;....; Y0 ; Y1;....; YT  . Después de diferenciar la serie d veces, obtenemos la serie
estacionaria con T observaciones  w1 ;....; wT  . El problema consiste ahora en estimar el
modelo ARMA(p,q) que se ha especificado para la serie wt .
Dado que ˆt es un proceso rudo blanco, la función de log-verosimilitud

condicional asociada al vector de parámetros a estimar es la siguiente:
 t
2
  T ln    t
(9.34)
2 2
Dado que los parámetros a estimar están dentro del segundo término de la
derecha, se obtiene que la estimación por máxima verosimilitud condicionada y mínimos
cuadrados es la misma.
9.2.3 Inicialización de la Serie
Dado que la expresión  ˆ

t
t
2
depende de los valores pasados (está
condicionada) la estimación dependerá por lo tanto de la elección de los valores iniciales

de la serie.
La solución más común para escoger los valores iniciales de la serie

corresponde a establecer que dichos valores iniciales son iguales a sus medias no
condicionales.
Las medias no condicionales de los errores  t son cero siempre, mientras que
si no existe tendencia, la media no condicional de los wt iniciales también será cero. Esto
proporcionará una aproximación inicial adecuada si los valores reales de i
no son cercanos a 1 y si T es grande respecto a p y q.

Un método alternativo es inicializar la serie con las medias condicionales. Sin

embargo, este procedimiento es técnicamente difícil y los beneficios poco importantes. Por
lo tanto, se recomienda inicializar las series en cero. Luego, dado que se
consideraron los valores no condicionales para inicializar la serie, los intervalos van de 1
T
hasta T:  ˆ
t 1
t
2
.
Sin embargo, es importante hacer notar que la estimación no lineal de los

parámetros, producto de la existencia de media móvil, dependerá de manera importante
de los valores con los que se inicialice el proceso iterativo.
Si los valores iniciales están cerca de los verdaderos parámetros, la estimación

será más rápida, pero si los valores iniciales son muy diferentes de los reales, puede que
incluso el procedimiento iterativo de calibración no converja. Para ello, es
factible utilizar la función de autocorrelación muestral. De hecho, pueden utilizarse las
ecuaciones de Yule-Walker como estimaciones iniciales.
Si el modelo contiene una parte MA, se tendrá que las ecuaciones de Yule-
Walker que relacionan la función de autocorrelación con los valores de los parámetros no
será lineal. Ello implica que se pueden obtener soluciones múltiples para un determinado
estimador de la parte MA.
Esto se hace más problemático a medida que aumente q. De hecho, para

obtener estimaciones iniciales para la parte MA(q) es necesario resolver q ecuaciones no
lineales simultáneas.
Notar que los valores de los parámetros estimados con las ecuaciones de
Yule-Walker corresponden a la función de autocorrelación muestral, y son por lo tanto una
estimación de la función de correlación real.
De hecho, para muestras pequeñas la función de autocorrelación muestral

estará sesgada en forma descendente en relación a la función de autocorrelación real.
Después que se ha estimado el modelo, se utiliza algún procedimiento de

verificación diagnóstica para determinar si fue correcta o no la especificación inicial del
modelo calibrado. Para ello, esperaríamos que los residuos ˆt se parezcan a los errores
verdaderos  t , los cuales por suposición no están correlacionados (ruido blanco).

Una vez que el modelo ha pasado la etapa de verificación diagnóstica,

puede entonces utilizarse para predicción.
9.2.4 Validación de Procesos ARIMA
Por otra parte, es interesante comprobar la capacidad de ajuste a los datos

del modelo propuesto y estimado. Si éste no supera satisfactoriamente este paso, es
necesario reformularlo. Cabe decir que los resultados de la comprobación de la validez
del modelo suelen dar insinuaciones para proceder a la especificación de uno diferente.
Algunos análisis de validación del modelo son los siguientes:
a) Análisis de los residuos:
Se parte de la hipótesis de que el término de error de un modelo ARIMA es

ruido blanco. Estos errores son inobservables, pero no ocurre lo mismo con los
residuos. Cualquier contraste sobre la perturbación aleatoria debe basarse en
los residuos del modelo, los cuales deben seguir el comportamiento de un
proceso puramente aleatorio normal. En caso contrario, contendrían
información relevante para la predicción.
Con el objeto de estudiar si los residuos se aproximan al comportamiento de un

proceso ruido blanco, se disponen de las siguientes herramientas:
b) Contraste independencia de Box-Pierce y Ljiung-Box
Está destinado a contrastar la independencia o no autocorrelación de los

residuos. La autocorrelación se mide por los coeficientes de autocorrelación de
los residuos rk .
Notar que  k corresponde a las autocorrelaciones de Yt , mientras que rk está

relacionado a las de  t .
Es un contraste global acerca de la no autocorrelación de los residuos de las

observaciones separadas un número determinado de periodos:
H 0 : r1  r2  ....  rk  0 .

Se utiliza el siguiente estadístico propuesto por Box y Pierce (1970):

m
Q  m   T  rˆt 2   m2  p  q (9.35)
t 1
La elección de m es arbitraria (m = T/4). Cuanto mayor sea mel contraste se

extenderá a desfases mayores, pero la precisión en la estimación de los rk es
menor y disminuye la potencia del contraste, es decir, aumenta la probabilidad
de no rechazar la hipótesis nula cuando es falsa (error tipo 2).
Se rechazará la hipótesis nula si el valor de Q experimental es superior que el

teórico o tabulado de la distribución a un nivel de significación dado.
El estadístico de Ljiung-Box es:

m
rˆt 2
Q  m   T T  2     m2  p  q (9.36)
t 1 T  t
Cuanto mayor sea el nivel de significación crítico mayor confianza podemos

tener para aceptar la hipótesis nula y viceversa: si toma el valor cero, podemos
rechazar la hipótesis nula al 100% de confianza.
c) Representación de la FAS y FAP de los residuos
La serie de residuos es aleatoria si los coeficientes de autocorrelación simple y

parcial son significativamente cero. Anderson (1942) ha demostrado que los
coeficientes de autocorrelación simples muestrales procedentes de un proceso
ruido blanco, siguen asintóticamente la siguiente distribución:
 1
rˆk  N  0,  , k (9.37)
 T
En consecuencia, bajo la hipótesis de que rk  0 , se construye un intervalo de

1,96
confianza al 95% de la forma  . Si algún rˆk cae fuera de los límites, se
T
rechaza la hipótesis de no autocorrelación. En este caso hay evidencia de no
aleatoriedad de la serie.

Además, los errores deberán alternar el signo de su coeficiente de

autocorrelación sin ningún criterio obvio.
También, los coeficientes de la FAP deben ser significativamente cero. En la

práctica se construyen bandas de confianza utilizando la distribución de una
1
variable ruido blanco cuya varianza es según se ha visto anteriormente.
T
Hay que tener en cuenta que esta aproximación realizada sobre la varianza
no es muy adecuada tanto para la FAS como para la FAP, especialmente en
los retardos bajos. Se podría concluir que un coeficiente es estadísticamente no
significativo cuando en realidad lo es.
La FAS y la FAP de los residuos del modelo estimado son instrumentos valiosos
a la hora de reformular el modelo, en caso de que no se comporten como un
proceso ruido blanco.
Supongamos que se ha estimado un AR(1):
Yˆt  ˆ1Yt 1  ˆt  Yt  ˆ1Yt 1 (9.38)
Después de examinar la FAS y la FAP de la serie ˆt , se llega a la conclusión

de que sigue un modelo MA(1), no un proceso ruido blanco : ˆt   t  1 t 1 .
Sustituyendo en el modelo AR (1):
Yt  1Yt 1   t  1 t 1 (9.39)
se puede concluir que Yt es un ARMA(1,1).
d) Representación Gráfica de los residuos
La representación de los residuos en el tiempo permite observar si la varianza

es constante y si la media está próxima a cero. Además, se puede verificar si se
ajustan a una distribución normal y la existencia de residuos atípicos. Un
residuo se considera atípico si el valor absoluto excede en tres o cuatro veces
su desviación típica (siendo su media cero).

Para contrastar la existencia de heteroscedasticidad se puede realizar el

contraste de White (1980). Su hipótesis nula es que el término de perturbación
es homocedástico e independiente de los regresores y que la especificación
lineal es correcta. Para contrastar la normalidad se utiliza el contraste de
Jarque-Bera (1987).
e) Análisis de los Parámetros Estimados
Primero hay que verificar si los parámetros o coeficientes son significativos. El

estadístico de contraste está construido bajo la hipótesis nula de que el
coeficiente es cero y sigue una distribución t-student con T - k grados de
libertad, con k igual al número de parámetros incluidos.
Si concluimos que alguno no es significativo se puede suprimir.
î  i
H 0 : i  0   tT  k (9.40)
 
V î
ˆj   j
H0 : j  0   tT  k (9.41)
 
V ˆj
ˆ  
H0 :   0   tT  k (9.42)
 
V ˆ
La aplicación del contraste anterior requiere un contraste de dos colas, pues la

hipótesis alternativa considera que puede tomar el coeficiente cualquier valor
distinto de cero. Si el valor obtenido es mayor que el teórico tabulado, se
rechaza la hipótesis nula y el parámetro es significativo.

Otro aspecto importante es el examen del cumplimiento de las condiciones de

estacionariedad e invertibilidad. Si alguna de las raíces  L*  de:
1  ˆ1 L  ˆ2 L2  ....  ˆp Lp  0 (9.43)
1  ˆ1 L  ˆ2 L2  ....  ˆq Lq  0 (9.44)
fuesen inferior a la unidad, el modelo se rechazaría.
Si alguna de las raíces de 1  ˆ1 L  ˆ2 L2  ....  ˆp Lp  0 estuviese próxima a

uno, es posible que la serie original esté sub-diferenciada, por lo que puede
que precise alguna diferenciación adicional (raíz unitario, no estacionariedad).
Si alguna de las raíces de 1  ˆ1 L  ˆ2 L2  ....  ˆq Lq  0 está próxima a uno, es
posible que el modelo esté sobre-diferenciado.
Si existen raíces comunes  L*i  L*j  , se podría utilizar para las predicciones un
modelo con dos parámetros menos, y el modelo sería un ARMA(p-1, q-1).
Es conveniente también examinar la matriz de correlación entre los coeficientes

estimados. Cuando la correlación entre dos coeficientes es próxima a uno, los
coeficientes estimados son muy inestables, con lo que podrían cambiar
bastante de una muestra a otra.
El modelo estimado para el período muestral puede diferir del que se obtendría
para los períodos de predicción. Puede existir este problema siempre que
alguna de las correlaciones entre estimadores tome un valor superior a 0,6.
Para evitar este problema, puede ser eficaz eliminar algún parámetro aún a
costa de que el grado de ajuste sea más pequeño. No obstante, si todos los
coeficientes son significativos no sería aconsejable eliminar coeficientes del
modelo.

f) Análisis de Bondad de Ajuste
Es factible usar el R 2 y el R 2 ajustado  R 2  . El coeficiente de determinación

ajustado penaliza la introducción de parámetros adicionales en el modelo. Si
se introducen parámetros adicionales, aunque no sean apropiados, pueden
incrementar el R 2 . Para evitar este problema se suele utilizar el coeficiente
ajustado.
El modelo se ajusta en mayor medida a los datos cuanto más próximos a la

unidad estén los coeficientes de determinación. Pero sólo son comparables
en modelos en los que se hayan tomado idéntico número de
diferencias, debido a que, para que este sea un elemento de comparación
directa, la varianza de la variable debe ser la misma.
Si se calcula el coeficiente de determinación R 2 con la varianza de la variable

diferenciada una vez, el resultado no será comparable con el calculado a
partir del ajuste a un modelo sobre la variable original.
Para paliar el anterior inconveniente, se han propuesto medidas alternativas

destacando el estadístico AIC (Akaike Information Criterion), formulado por
Akaike (1974). Consiste en seleccionar aquél modelo para el que se obtenga
un AIC más bajo. Otra medida es SC (Schwarz Criterion) y cuanto menor sea
éste, mejor es el ajuste.
g) Análisis de Estabilidad
La construcción de un modelo ARIMA está justificada por su utilización para la

predicción. Conviene saber entonces si el modelo estimado para el período
muestral sigue siendo válido para períodos futuros.
Se pretende contrastar si el último tramo muestral ha estado generado por la

misma estructura que el resto de las observaciones.

Para esta finalidad se puede aplicar el contraste de estabilidad estructural de

Chow:
 T 2  T1 2 T2 2  
  ˆt    ˆ1t   ˆ2t   k
 t 1 
F T
t 1 t 1
 F k ,T  2 k  (9.45)
 1 2 T 2
2 
  ˆ1t   ˆ2t  T  2k 
 t 1 t 1 
donde k es el número de parámetros a estimar, T  T1  T2 , ˆt es el residuo

del modelo utilizando todo el período muestral, ˆ1t es el residuo utilizando los
T1 primeros datos, y ˆ2t es el residuo utilizando los T2 últimos datos.
Algunos autores aconsejan tomar como segundo tramo muestral un tercio o un

cuarto de la muestra. Si la F calculada o experimental es mayor que la
tabulada o teórica a un determinado nivel de significación, se rechaza la
hipótesis de estabilidad estructural.
9.2.5 Predicción con Procesos ARIMA
Una vez que el modelo ha sido estimado y sometido a la fase de diagnosis, se

convierte en un instrumento útil para la predicción. Sea el modelo estimado ARMA(p,q),
para la serie wt , siendo la serie original Yt un proceso ARIMA(p,d,q). Se trata de predecir
los valores para la serie no estacionaria Yt , una vez se haya realizado para la serie wt
estacionaria.
Por ejemplo, si wt  Yt  Yt 1 , donde wt es estacionaria, la estimación de esta

serie para el período T + 1 es wˆ T 1 . Luego, la correspondiente predicción de YˆT 1 está
dada por Yˆ  wˆ  Y . Si hubiera sido una aplicación de segundo orden
T 1 T 1 T
 wt  Yt  2Yt 1  Yt 2  , la predicción sería entonces YˆT 1  wˆ T 1  2YT  YT 1 .
La mejor predicción puntual es aquélla que se obtiene mediante la esperanza

matemática condicional a toda la información disponible hasta el período de predicción. La
expresión de este predictor es la siguiente:
YˆT 1  E YT 1 YT , YT 1 ,...., Y0  (9.46)

YT 1    1YT  2YT 1  ....   pYT  p 1   T 1  1 T   2 T 1  ....   q T  q 1 (9.47)
Tomando esperanzas condicionadas, se obtiene:
YˆT 1    1YT  2YT 1  ....   pYT  p 1  1 T   2 T 1  ....   q T  q 1 (9.48)
donde todas las variables con subíndices inferiores a T+1, dejan de ser aleatorias, por lo
que sus esperanzas matemáticas coinciden con sus realizaciones y E   T 1   0 , por
hipótesis.
Después de obtener YˆT 1 se calcula YˆT  2 , y así sucesivamente. Los  t son

inobservables, por lo que hay que sustituirlos por sus estimaciones, que se obtienen a través
de los sucesivos residuos del modelo.
Si algún residuo no es posible obtenerlo, se considera igual a su media

teórica: cero. Esta solución es aceptable si el proceso es invertible, dado que, en ese caso,
la importancia de los valores iniciales tiende a desaparecer a medida que aumenta el
tamaño muestral.
Cuando dispongamos de los valores observados, se utilizan para efectuar la

predicción; si no se conocen, se utilizan sus estimaciones en períodos anteriores. A medida
que el horizonte de la predicción crece, la predicción por puntos de un modelo ARMA
tiende a la media.
a) Error de Predicción
La predicción de una variable aleatoria como es Yt conlleva incertidumbre,

pues depende de la muestra considerada; entonces aparece un error de
predicción.
Si se conociesen los valores exactos de los coeficientes, cosa imposible en la

mayoría de los casos, sería posible obtener una expresión del error de
predicción como sigue:
ˆt  s  Yt  s  Yˆt  s (9.49)

Escribamos el proceso ARMA, como un proceso de medias móviles de infinitos

términos, mediante sustituciones sucesivas:
Yt    1Yt 1  2Yt  2  ....   pYt  p   T 1  1 t 1   2 t  2  ....   q t  q (9.50)
Yt     t   1 t 1   2 t  2   3 t 3  .... (9.51)

Yt  s     t  s   1 t  s 1   2 t  s  2  ....   s 1 t  s  s 1   s  j t  j (9.52)
j 0
La predicción Yˆt  s se puede basar únicamente en la información disponible

hasta el período t.
Escribimos la predicción como una suma ponderada de los términos de error

que podemos estimar:

Yˆt  s    ˆ s  j  t  j (9.53)
j 0
donde las ponderaciones ˆ s  j se elegirán de manera que minimicen el Error

Cuadrático Medio de predicción. Luego, y considerando (9.52) y (9.53), el
error de predicción es:
ˆt  s  Yt  s  Yˆt  s (9.54)

ˆt  s   t  s   1 t  s 1   2 t  s  2  ....   s 1 t  s  s 1    s  j ˆ s  j   t  j (9.55)
j 0
El error cuadrático medio de predicción, considerando que E   i ,  j   0 es de

la forma:

E  ˆt  s     2 1   12   22  ....   s21    2   s  j  ˆ s  j 
2 2
(9.56)
  j 0
Dado que el error cuadrático medio se minimiza cuando  s  j  ˆ s  j ,

finalmente se obtiene:
ˆt  s   t  s   1 t  s 1   2 t  s  2  ....   s 1 t  s  s 1 (9.57)

V  ˆt  s   E  ˆt  s     2 1   12   22  ....   s21 

2
(9.58)
 
El uso más importante de los errores de predicción es la construcción de

intervalos de confianza para la predicción. El intervalo de predicción para el
pronóstico de Y es, al 95%, Yˆ  1,96 1   2   2  ....   2  .
t s t s  1 2 s 1
El cálculo de los parámetros  i se obtiene a partir de las siguientes relaciones:
  L  Yt    L   t  Yt    L    L   t    L   t
1
(9.59)

  L
b) Capacidad de Predicción
Podemos verificar si el modelo sigue siendo válido para los períodos de

predicción, una vez se ha comprobado su validez para el periodo muestral.
Para ello, es utiliza el siguiente estadístico:

h
 ˆ 2
t  s 1 t  s
s 0
  h2 (9.60)
ˆ 
2
Donde ˆt2 s 1 t  s es el error de predicción de Yt  s 1 utilizando la información
disponible en el momento (t + s) y ˆ  2

 ˆ t
2
, con k el número de
T k
parámetros del modelo (k = p + q).
Si el valor calculado en
¡Error! No se encuentra el origen de la referencia. supera al
tabulado, habrá diferencias significativas entre los verdaderos valores y los
estimados, por lo que se rechazará la hipótesis nula de estabilidad.

9.3 Orden de Integración de una Serie: Métodos No Paramétricos
El orden de integración se puede determinar de diversas formas. Una de ella

es el uso de métodos no paramétricos.
Estos métodos tienen la ventaja de que no es necesario formular ninguna

hipótesis ni calcular la distribución de un estadístico bajo dicha hipótesis. Por contra, suelen
ser bastante subjetivos y no tan fiables como los métodos paramétricos. En cualquier caso,
siempre pueden darnos pistas sobre el orden de integración de la variable.
Es recomendable considerar estos métodos no paramétricos

antes de calibrar los modelos.
En esta sección vamos a considerar tres métodos alternativos: estudio de la

función de autocorrelación, sobrediferenciacón de la serie y estudio de la
varianza para diversos órdenes de integración. No es conveniente utilizarlos de
forma separada, sino que lo más habitual es usarlos conjuntamente.
9.3.1 Análisis de la Función de Autocorrelación
Supongamos que tenemos un proceso autorregresivo de orden 1. Su función

de autocorrelación es igual a  k  1k . Esta función de autocorrelación decae hacia 0,
pero sólo se anula en el infinito.
Entonces, el decaimiento que se observa en la función de autocorrelación de

la variable depende del valor del parámetro 1 . Si este toma, por ejemplo, un valor igual a
0.5, entonces para k = 5 el coeficiente de la función de autocorrelación es igual a 0.03. Si
1  0.8 , entonces 5  0.33 , mientras que la función de autocorrelación toma el valor
0.03 cuando k = 16.
Esto conlleva que cuanto mayor es el valor del parámetro

autorregresivo más lenta es la convergencia hacia 0 de la función de
autocorrelación.
Si consideramos el caso límite, 1  1 , en el que el proceso no es estacionario,

la función de autocorrelación debería expresar un decaimiento muy lento hacia 0, con
abundantes valores distintos de 0.

Figura 9.3
Correlogramas Para Distintos Procesos
1.2 1.2
1 1
0.8 0.8
rho(k)
rho(k)
0.6 phi = 0.5 0.6 phi = 0.8
0.4 0.4
0.2 0.2
0 0
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
k k
1.2 1.2
1 1
0.8 0.8
rho(k)
rho(k)
0.6 phi = 0.9 0.6 phi = 0.99
0.4 0.4
0.2 0.2
0 0
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
k k
El problema que presenta este procedimiento es su subjetividad. No queda

claro cuándo podemos considerar que el primer valor del coeficiente de autocorrelación
está suficientemente próximo a la unidad, ¿basta con 0,7 o tiene que ser igual a 0,9999?;
Tampoco queda claro cuándo el valor está próximo a 0, ni cuánto valores de

la función de autocorrelación deben ser distintos de 0 para considerar que el decaimiento
hacia 0 es lento.

9.3.2 Sobrediferenciación
La justificación de este método es la siguiente. Supongamos que tenemos un

proceso estacionario, un ruido blanco por ejemplo: Yt   t . Si tomamos primeras
diferencias, entonces el modelo se convierte en:
Yt  Yt 1   t   t 1  1  L  Yt  1  L   t (9.61)
y que es igual a:
Yt   t  1 t 1 (9.62)
Esto lo podemos interpretar diciendo que la variable Yt sigue un proceso

MA(1) no invertible con parámetro 1  1 . Esta no invertibilidad nos está indicado que el
proceso está sobre diferenciado.
Si tomamos en consideración ahora la forma que adopta la función de

autocorrelación de un MA(1), es directo comprobar que el primer valor de esta función
será igual a:
1 1
1    0,5 (9.63)
1  1 1  1
2
y el resto de los valores serán iguales a 0.
A partir de este resultado particular, podemos sacar la conclusión para el caso

general y decir que si la serie que estamos analizando está sobrediferenciada,
su función de autocorrelación exhibe un comportamiento de medias
móviles con primer valor de la función de autocorrelación próximo a –0,5.
Entonces, el proceso a seguir es el siguiente.
 En primer lugar debemos estudiar la función de autocorrelación simple (FAS)

de la serie en niveles Yt  .
 Si tenemos dudas sobre el decaimiento lento hacia 0, entonces debemos

calcular la FAS para la variable diferenciada  Yt  .

 Si ésta presenta un comportamiento similar al de un MA(1), con su primer

coeficiente próximo a –0,5 podemos concluir que está sobrediferenciada y
concluir que la variable es estacionaria en niveles (valores originales de la
serie sin diferenciar). En caso contrario, es posible concluir que la serie es
integrada.
9.3.3 Análisis de la Varianza
Un método asociado al caso anterior es el estudio de la varianza de la

variable para diversos órdenes de integración. La justificación del método es la siguiente.
Supongamos que la variable está generada por un paseo aleatorio Yt  Yt 1   t . La
varianza de la variable Yt es igual a V Yt   t 2 .
Por tanto, es una varianza que tiene hacia infinito. Si tomamos primeras
diferencias, el modelo anterior nos queda de la siguiente manera:
Yt   t (9.64)
Por tanto, es inmediato comprobar que la varianza de la variable en primeras

diferencias es V  Yt    2 .
Por último, si sobrediferenciamos la variable anterior, el modelo queda así:
 2Yt   2 t   t   t 1 (9.65)
de lo que se desprende que V  Yt   V   t   t 1   V   t   V   t 1   2 2 .
En virtud de estos resultados, el procedimiento a seguir sería obtener la

varianza de la variable que estamos analizando para diversos valores del parámetro de
diferenciación d. El orden de integración seleccionado sería aquel para el que
la varianza de la variable se minimiza.

10 RAÍCES UNITARIAS Y COINTEGRACIÓN
Los métodos de estimación que se usan habitualmente en los trabajos

económicos aplicados suponen que las medias y varianzas de las variables son constantes,
bien definidas e independientes del tiempo. Sin embargo, estas suposiciones no son
satisfechas por un gran número de series temporales de tipo económico. Las variables
cuyas medias y varianzas cambian a lo largo del tiempo se dicen no estacionarias o con
raíces unitarias. Utilizar métodos clásicos de estimación como MCO para
estimar relaciones con variables no estacionarias produce inferencias
erróneas.
Si las medias y varianzas de las variables “raíz unitaria” cambian a lo largo

del tiempo, todos los estadísticos computados en un modelo de regresión,
que usa estas medias y varianzas, también dependen del tiempo y no
convergen a su verdadero valor cuando el tamaño muestral aumenta.
Incluso los contrastes convencionales de hipótesis estarán muy sesgados hacia el rechazo
de la hipótesis nula de no relación entre las variables dependiente e independiente.
La aplicación de técnicas de cointegración y raíces unitarias son

fundamentales para entender los siguientes aspectos:
 Determinar si las variables en una regresión son o no estacionarias.
 Estimar si las variables satisfacen ciertas condiciones. Estas regresiones

de cointegración son las relaciones de equilibrio o a largo plazo entre
esas variables.

10.1 Tendencias Determinísticas y Estocásticas
10.1.1 Tendencia Determinística
En un gran número de ocasiones, las series pueden no presentar componente

tendencial alguno, como es el caso de un proceso autorregresivo puro AR(1) en el que los
coeficientes cumplan las condiciones de estacionariedad:
Yt    1Yt 1   t (10.1)
Definir una tendencia en una serie temporal Yt es extremadamente sencillo.

Por ejemplo, la serie:
Yt     t   t (10.2)
La serie (10.2) presenta obviamente un patrón dominado fundamentalmente

por una tendencia lineal. Este tipo de proceso, se clasifica dentro de aquellos que
vienen definidos por lo que se denomina una tendencia determinista.
Figura 10.1
Proceso con Tendencia Determinista
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones

Esta tendencia de tipo determinista puede combinarse con el proceso

autorregresivo presentado en (10.2), para generar otra variedad de proceso con
tendencia determinista que se denomina proceso estacionario sobre una
tendencia. Su expresión sería la siguiente:
Yt     t  1Yt 1   t (10.3)
En este caso, el proceso es dominado por la componente tendencial (para un

valor razonable de la varianza de  t ) por lo que distinguir gráficamente su evolución
temporal de un modelo tendencial determinista puro resulta casi imposible; es decir,
diferenciar (10.2) de (10.3) es muy difícil.
10.1.2 Tendencia Estocástica
Si observamos algunas series en economía, podríamos caer en la tentación de

calificarlas entre aquellas con tendencias deterministas como las observadas hasta aquí. Sin
embargo, desde la teoría económica sería muy difícil justificar una tendencia determinista
de este tipo en cualquiera de las series representadas en el acápite anterior. Aún a pesar
de existir componentes tendenciales importantes desde el punto de vista
teórico, seguramente estos no serían de naturaleza determinista.
Por ejemplo, es muy posible que la productividad tienda a crecer de forma

“natural” en la medida en que, con el paso del tiempo, se va produciendo la mejora
tecnológica de los procesos productivos. También es “natural” que el valor añadido
nominal en determinados productos (como los servicios) tienda a crecer incluso de forma
ligeramente exponencial a medida que una economía va alcanzando ciertos niveles de
desarrollo.
Sin embargo, ambos procesos teóricos no se producirán, con

total seguridad, de una manera invariable, constante, predecible y
determinista, con el paso del tiempo.
Frente a la tendencia determinista surge por tanto la necesidad de definir un

componente tendencial, con efectos permanentes en la evolución de la serie
analizada, pero de naturaleza estocástica. El caso más común es el paseo aleatorio
con deriva:

Yt    Yt 1   t  E Yt     t  Y0 (10.4)
En cualquier caso, es evidente que el paseo aleatorio con deriva resulta

gráficamente muy similar al presentado en (10.2) o en (10.3). Esto explica que,
frecuentemente, se califiquen como deterministas series que, probablemente, presenten un
componente tendencial estocástico.
Solamente para muestras grandes un proceso podrá ser distinguido

del otro en la medida en que, aunque el paseo aleatorio con deriva presentará una
marcada evolución tendencial, tenderá a fluctuar de forma algo más visible
sobre la línea tendencial de lo que lo haría un modelo determinista puro.
Figura 10.2
Proceso con Tendencia Estocástica
45
40
35
30
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones
Debe tenerse especial cuidado para no confundir la tendencia determinista y

estocástica, ya que entonces tanto uno como otro método resultarían incorrectos de aplicar.
Por ejemplo, si estamos ante un proceso del tipo:
  L  Yt   0  1t    L   t (10.5)

en el que tenemos tendencia determinista pero no estocástica, si tomamos una primera

diferencia la anterior expresión quedaría:
  L  Yt  1  1  L   L   t (10.6)
Luego, habríamos eliminado la tendencia temporal pero

habríamos introducido una raíz unitaria en el proceso MA, que ahora sería
no invertible. Debe notarse que este problema también se planteará, por las mismas
razones, en el caso en el que sobrediferenciemos una serie más allá de su orden de
integración.
Análogamente, cometemos un error aún más importante si intentamos

transformar un modelo con tendencia estocástica aplicando el filtro para la eliminación de
la tendencia determinista:
 En primer lugar, el estadístico “t” de significación individual tiende a

infinito para la variable de tendencia determinista
introducida en el filtro. Además es inconsistente, por lo que resulta
fácil rechazar erróneamente la hipótesis de nulidad del parámetro de
tendencia.
 El R 2 converge a una distribución no degenerada, es decir, a medida

que el tamaño de la muestra se incrementa no convergen hacia un
escalar, sino hacia una variable aleatoria.
Un efecto adicional comentado por Durlauf y Phillips (1988) es que, en estos

casos, el estadístico DW de la errónea regresión de la serie sobre una
tendencia temporal tiende a acercarse a cero.

10.2 Regresión Espuria
El problema de las regresiones espurias es que tienden a admitirse como

buenas, relaciones económicas que, en realidad, sólo se deben a aspectos
casuales.
Por regresión espuria entendemos técnicamente aquellas ecuaciones de

regresión que presentan una elevada significatividad conjunta, medida en términos
del coeficiente de determinación R 2 o R 2 y, sin embargo, fuertes problemas de
autocorrelación positiva (reflejados en bajos valores del estadístico Durbin – Watson).
La presencia de un término de error fuertemente autocorrelacionado impide

efectuar un proceso de inferencia con mínimas garantías. La probabilidad de un error en el
cálculo y en la aplicación de los test de significancia individual convencionales es muy
importante, sin contar los problemas de ineficiencia en la estimación propios de una
situación de matriz de varianzas y covarianzas no escalar para la perturbación aleatoria.
Este tipo de regresiones aparecen cuando se relacionan series

temporales no estacionarias y se agudizan más cuando estas estén más cercanas a
la forma de un paseo aleatorio, es decir, cuanto más evidente sea la presencia de
tendencias estocásticas en las series.
Supongamos dos variables Yt y X t independientemente generadas por

paseos aleatorios:
Yt  Yt 1  ut
(10.7)
X t  X t 1  vt
donde ut y vt son variables aleatorias normales estándar independientes entre sí con

media cero y varianza unitaria (ruidos blancos). Dado que Yt y X t están generadas de
forma independiente, deberíamos esperar que no existiera ninguna relación significativa
entre ambas.
Sin embargo, sobre un conjunto de 1.000 muestras de Yt y X t con 50

observaciones, alrededor de un 65% de las regresiones de Yt sobre X t presentan
contrastes “t” significativos a un nivel de significatividad del 5%, generando un resultado
absurdo.

Efectivamente, en la regresión:
Yt   0  1 X t   t (10.8)
es claro que, prescindiendo de la constante  0 , se obtiene:
 t  Yt  1 X t (10.9)
por lo que imponiendo las restricciones iniciales Y0  X 0  0 tenemos que:
T T
 t   ut  1  vt (10.10)
t 0 t 0
Por tanto, es obvio que estamos ante una secuencia  t no estacionaria

en varianza. Si esto es así, ˆt presenta una tendencia estocástica, lo que quiere decir
que el error cometido en “t” no se diluye en t + 1, t + 2, ...., t + s; es imposible por lo tanto
que una regresión en la que los errores se acumulan de forma permanente pueda tener
algún interés.
Nótese que en esta situación se violan algunas hipótesis básicas

asumidas en los procesos de inferencia habituales en el contexto del Modelo Básico de
Regresión Lineal (MCO):
 La varianza de  t ya hemos dicho que no es constante. En

la expresión (10.10) anterior puede comprobarse con sencillez cómo
se incrementa hacia el infinito a medida que t crece.
 No existe incorrelación serial. La misma expresión para (10.10)

puede utilizarse para comprobar cómo la correlación entre  t y  t 1
tiende a uno a medida que t se incrementa.
Dada esta acumulación de errores de base, ningún test de significancia

puede ser usado con garantías y, por ello, ninguna inferencia será fiable.

10.3 Detección de Raíces Unitarias
10.3.1 Análisis Gráfico de la Serie
Uno de los métodos que suelen proponerse como suficientes para la detección
de la no estacionariedad de una serie es, erróneamente, el del análisis de representaciones
gráficas de la misma.
Así, se dice que la simple contemplación del gráfico de evolución temporal de

la serie permite decidir si la serie es o no estacionaria en virtud, por ejemplo, de la
pendiente que presente.
Efectivamente, pueden confundirse con facilidad

representaciones gráficas de procesos con tendencias estocásticas con
procesos con tendencias deterministas.
Por otro lado, incluso con procedimientos técnicamente elaborados, resulta

aún más complejo diferenciar, por ejemplo, un proceso con una raíz unitaria de otro con un
una raíz autorregresiva elevada.
No obstante, a pesar de que el análisis gráfico no puede

considerase una herramienta suficiente para el análisis de la
estacionariedad de una serie, si ha de servir como etapa previa a la
aplicación de contrastes más avanzados.
Efectivamente, observar la evolución gráfica de la serie puede permitir

localizar cambios de estructura, comportamientos estacionales o medias y tendencias de
tipo determinista, lo que permitirá aplicar, con mayor porcentaje de éxito, los test clásicos
de raíces unitarias.

10.3.2 Análisis del Correlograma Simple de la Serie
Un procedimiento sencillo que no requiere la aplicación de ningún contraste

para determinar la presencia de raíces unitarias en las series, es el de observar el
correlograma de la misma, es decir, la representación gráfica de su función de
autocorrelación simple (FAS).
Distintos trabajos, pero en especial los presentados por Hoskin (1989),

Diebold y Rudebusch y Lo (1991), se han centrado en analizar las variaciones de la
autocorrelación en función del orden de integración “d” de una serie.
En general, la regla a aplicar será sencilla: los valores de la FAS de una

serie con raíces unitarias descienden muy suavemente hacia el cero
mientras que cuando no hay presencia de raíces unitarias el descenso es
exponencial.
La serie integrada es una serie de memoria ilimitada

(precisamente por presentar un componente tendencial), la serie no
integrada guarda sólo memoria de los “shocks” más recientes.
De esta forma, si la serie no estacionaria guarda memoria de los shocks

pasados y recientes, la relación entre dos valores separados por un lapso de tiempo “s”
presentarán necesariamente algún tipo de relación, o sea, los coeficientes de
correlación entre Yt e Yt  s tenderán a mantenerse elevados.
Efectivamente, la expresión genérica de la solución de una ecuación en

diferencias de primer orden puede expresarse como:
t 1
Yt  1tY0   1i t i (10.11)
i 0
t 1
1  1  Yt  Y0    t i (10.12)
i 0
A partir de las expresiones (10.11) y (10.12) puede calcularse el coeficiente

de autocorrelación entre Yt e Yt  s para cada caso.

Cuando no existe raíz unitaria, el término 1 (menor que la unidad) fuerza a

los coeficientes de autocorrelación a descender rápidamente hacia el cero en una
progresión geométrica de razón 1 ; recordemos que, efectivamente, la expresión de la
serie de coeficientes de autocorrelación es  k  1k para un AR(1).
En el segundo caso (10.12), sin embargo, la varianza del proceso contiene un

término lineal (t - s), el que define más lento la progresión hacia el cero de los coeficientes
ts
de autocorrelación. La expresión de los coeficientes de correlación es ahora  k  .
t
Debe recordarse en este punto que la simple observación del gráfico de la

función de autocorrelación puede completarse con el cálculo de algunos conocidos
contrastes Q como los propuestos por Box y Pierce (1970) o Ljung y Box (1978):
K
QBP  T  ˆ k2   T2 k (10.13)
k 1
K
ˆ k2
QLB  T T  2     T2 k (10.14)
k 1 T k
Recordemos que, en ambos casos, la hipótesis a contrastar es que los “p”

primeros coeficientes de correlación calculados ˆ k son iguales a cero (k = 1, 2,...., p). El
escalar T será igual al número total de coeficientes de correlación representados en el
correlograma.
Estos contrastes se distribuyen como una  2 con (T - k) grados de libertad.

Dado que lo habitual es aplicarlos sobre los residuos de un modelo ARIMA previamente
estimado, para saber si estamos o no ante un ruido blanco, el parámetro k toma el
valor del número de coeficientes estimados de ese modelo ARIMA.
En cambio, si estamos observando los test directamente sobre una serie, y no

sobre los residuos de un modelo, los grados de libertad de la  2 serán entonces “p”. Si el
estadístico supera el valor de tablas rechazaremos la hipótesis nula de que los “p” primeros
coeficientes son significativamente nulos.

10.3.3 Utilización del Estadístico de Durbin - Watson
El estadístico Durbin Watson (1950), tradicionalmente utilizado para detectar

la presencia de autocorrelación de primer orden en los residuos de un modelo estimado
por MCO, puede utilizarse según la propuesta de Sargan y Bhargava (1983) para
detectar la presencia de una raíz unitaria en una serie temporal Yt .
El estadístico es de la forma:
n
 ˆ  ˆt 1 
2
t
DW  t 2
n
(10.15)
 ˆtt2 
t 2
Asumiendo que el residuo, de estar autocorrelacionado, seguiría un modelo

simple AR(1), el valor del estadístico fluctuará entre 0 y 4. El límite inferior (0)
correspondería a una situación de autocorrelación perfecta positiva, el límite superior (4), a
una situación de autocorrelación perfecta negativa y el valor medio (2), mostraría ausencia
de autocorrelación.
A fin de utilizar este contraste para la detección de raíces unitarias, la idea es

aplicar la expresión (10.15) sobre los residuos del siguiente modelo:
Yt   0   t (10.16)
Si los residuos de este modelo están correlacionados de forma perfecta

siguiendo un paseo aleatorio, es decir, presentan una raíz unitaria   t   t 1  ut  , también
podremos decir que Yt es integrada de orden 1 ya que podríamos expresar el estadístico
DW como:
n n
 ˆ  ˆt 1   Y  Yt 1 
2 2
t t
DW  t 2
n
 t 2
n
(10.17)
 ˆ   Y 
2 2
tt t  Yt
t 2 t 2
Si esto es así, el estadístico DW tomará el valor 0. Por tanto, la

hipótesis a contrastar es si el estadístico DW toma un valor
significativamente distinto de cero.

10.4 Contraste de Estacionariedad y de Raíz Unitaria
10.4.1 Contraste de Dickey – Fuller (DF)
Sin duda alguna, el test más habitual a la hora de determinar la

estacionariedad de una serie temporal, consiste en la aplicación del test conocido como de
Dickey–Fuller (Test DF).
Este es un contraste de No Estacionariedad ya que la hipótesis nula es

precisamente la presencia de una raíz unitaria en el proceso generador de datos de la
serie analizada.
Vamos a suponer inicialmente, como modelo de partida para el análisis de

una determinada serie Yt , el de un proceso estacionario autorregresivo de orden uno sin
constante:
Yt  1Yt 1   t (10.18)
Frente a este modelo se plantea, como hipótesis nula  H0  , el modelo

alternativo de un paseo aleatorio no estacionario del tipo:
Yt  Yt 1   t (10.19)
Sin embargo, para contrastar la nulidad del coeficiente 1 , no podemos

utilizar el contraste “t” habitual sobre la estimación por MCO del modelo (10.18).
La razón de ello es que la hipótesis nula que habitualmente se contrasta y, a

partir de la cual se deriva la expresión y propiedades del test “t”, es la de nulidad del
parámetro 1  0  de (10.18); sin embargo, en nuestro caso, necesitaríamos contrastar
H 0 : 1  1 .
Si la hipótesis nula fuera cierta  H 0 : 1  1 , la varianza de Yt no sería

estacionaria sino que crecería con los valores de “t” según la expresión de la varianza de
un paseo aleatorio con deriva: V Yt   t 2 .

En estas condiciones, la estimación del parámetro 1 sería una estimación

consistente pero sesgada a la baja (función de densidad asimétrica) con relación al
verdadero valor del parámetro y el uso de la distribución “t” estándar sería incorrecto.
Si 1  1 , la distribución del estimador es asintóticamente Normal, o lo

que es lo mismo, el estadístico “t” de Student converge hacia una N(0,1) cuando los
grados de libertad tienden a infinito.
En el caso de que 1  1 , también puede caracterizarse la distribución del

estimador del parámetro y de su razón “t”, si bien la convergencia en el límite no se
produce hacia una Normal sino a una Cauchy.
El problema surge precisamente cuando 1  1 , ya que en este caso, la

distribución del parámetro no puede caracterizarse adecuadamente.
Por tanto, la distribución de probabilidad asintótica del estimador de MCO del

modelo AR(1) presenta una “discontinuidad” cuando 1  1 y, como sustituto, deberán
utilizarse las distribuciones derivadas de forma empírica mediante un
procedimiento de Montecarlo realizado por Dickey (1976).
En este experimento se generaron un elevado número de series ruido banco

 t para construir el mismo número de paseos aleatorios con término constante. La
estimación de los parámetros de interés en cada uno de esos modelos “controlados” arrojó
las siguientes conclusiones:
 El 90% de los valores estimados del parámetro 1 estaban menos

alejados de 2.58 errores estándar del verdadero valor (la unidad).


Tras este experimento de Dickey, fue Fuller (1976) quien obtuvo la distribución
límite apropiada y publicó, tabulados, toda una batería de valores críticos, dado que el
valor empírico del contraste varía en función del tamaño muestral.

En la práctica, por cuestiones de sencillez operativa, el modelo utilizado para

el contraste DF no es el expuesto al comienzo del epígrafe (10.18) sino otro, equivalente al
anterior, que se obtiene restando a uno y otro lado el término Yt 1 :
Yt  Yt 1  0  1Yt 1  Yt 1   t
Yt  0  1  1 Yt 1   t  0   Yt 1   t (10.20)


Por lo tanto, la hipótesis nula inicial para (10.18), se transforma ahora en

H 0 :   0 frente a H1 :   0 .
Decir que  es nulo es lo mismo que decir que 1  1 , es decir, que existe una
raíz unitaria; decir que  es menor que cero equivale a decir que 1  1 (proceso
autorregresivo estacionario).
El procedimiento básico para la aplicación simple del test DF es, a partir de

aquí, aparentemente sencillo:
 Se estima el modelo propuesto y se calcula el valor estimado de la “t”

del parámetro analizado
 Una vez calculado se compara con el valor empírico de referencia

obtenido con las tablas de Dickey y Fuller
 Si el valor t estimado para el parámetro  es inferior al tabulado (dado

un determinado nivel de confianza), admitiremos la hipótesis nula, o sea, la
presencia de una raíz unitaria.
Sin embargo, los valores críticos t de referencia para el contraste

DF no sólo dependerán del tamaño muestral, sino también del tipo de
modelo estimado (proceso generador de datos supuesto).
Por lo tanto, antes de estimar los parámetros del modelo, hay que decidir si el
proceso generador de datos será el simple, como el expuesto anteriormente (10.18), ó
contendrá una constante 0  , un término tendencial determinista   t  , o ambas cosas
simultáneamente.

Los tres modelos propuestos por Dickey-Fuller son:
Yt   Yt 1   t (10.21)
Yt  0   Yt 1   t (10.22)
Yt  0   t   Yt 1   t (10.23)
El contraste simple de DF consiste en determinar el valor del parámetro , para

lo cual se utilizará su estimador ˆ . Dicho estimador puede ser obtenido mediante MCO:
Una vez decidido el modelo, el estadístico de referencia para el contraste será

diferente, notándose generalmente por las letras t para el caso más simple, t para el caso
del modelo con constante y tt para el caso del modelo con tendencia determinista.
Consultar correctamente el etadístico de referencia es fundamental

dado que las diferencias entre los distintos valores de t, t y tt son importantes. Por
ejemplo, para un nivel de significación del 95% y 100 observaciones los valores críticos
serían –1.95 para t, -2.89 para t y –3.45 para tt .
Tal y como describen de forma muy clara Suriñach et al. (1995), los modelos
(10.22) y (10.23) presentados por Dickey y Fuller son en realidad formas reducidas de
determinados modelos estructurales.
Así, el modelo (10.22), que contrasta la hipótesis nula de paseo aleatorio con
deriva 0  frente a una alternativa de esquema AR(1) estacionario, es la forma reducida
del modelo VAR siguiente:
Yt    ut  ut 1  Yt 1   
   Yt  1  
 1   1Yt 1   t (10.24)
ut  1ut 1   t  Yt    1ut 1   t 
0
Yt   1  1   1  1 Yt 1   t (10.25)

  
0 
Bajo la hipótesis nula 1  1 el término constante sería nulo 0  0  ; luego, su

presencia en el modelo a estimar es irrelevante y sólo se justificaría para garantizar que, en
el caso de que fuera cierta la hipótesis alternativa H1 :   0 , el proceso autorregresivo
tenga media no nula.

El modelo (10.23), que contrasta la hipótesis nula de un paseo aleatorio con

deriva frente a la alternativa de un proceso AR(1) estacionario sobre una tendencia
determinista   t  , sería la forma reducida del siguiente modelo VAR:
Yt     t  ut
(10.26)
ut  1ut 1   t
en que 0   1  1   1 y    1  1  .
Bajo la hipótesis de raíz unitaria 1  1 tendríamos que 0   y   0 .

Luego, como en el caso anterior, la presencia en este caso del parámetro  es
irrelevante en el caso de raíz unitaria, y su presencia intenta sólo garantizar la
consistencia del contraste en una situación de hipótesis alternativa (proceso estacionario
sobre tendencia determinista).
Tabla 12.3
Valores Críticos de D-F al 95%
MODELO Hipótesis Nula Estadístico Valor Crítico

Yt   Yt 1   t  0 t -1,95
 0 t -2,89
Yt  0   Yt 1   t 0  0   0 t /  -2,54
0    0 F , -4,71
 0 tt -3,45
0  0   0 tt /  -3,11
Yt  0   t   Yt 1   t  0  0 t /  -2,79
  0 F , -6,49
0      0 F ,  , -4,88

Dolado et al. (1990) y Perron (1990) propusieron, entre otros autores, seguir
un proceso en etapas a fin de aumentar la probabilidad de éxito en la elección del modelo
de referencia:
 En primer lugar se estimaría el modelo menos restringido (con

término constante y tendencia determinista).
 Dado que el principal error de esta táctica inicial consistiría en la escasa

potencia del contraste para el rechazo de la hipótesis nula por inclusión de
variables irrelevantes, si los valores críticos indican rechazo (ausencia
de raíz unitaria), terminaríamos el procedimiento.
 En el caso de no rechazarse la hipótesis nula de presencia de una raíz

unitaria, es decir, en el caso en que admitamos la presencia de una raíz
unitaria  H 0 :   0  , pasaríamos ahora a examinar la significancia del
parámetro tendencial determinista .
Dado que, en este punto, estaríamos bajo la hipótesis ya admitida de que

  0 , utilizaríamos el valor de referencia t  /  de la Tabla 12.1 y, para mayor
seguridad, también el contraste conjunto F , .
 Si el término tendencial resulta significativo    0  contrastaremos de

nuevo la presencia de una raíz unitaria H 0 :   0 pero utilizando entonces las
tablas de una normal estandarizada. Sea cual sea el resultado del test, con las
nuevas tablas finalizaríamos aquí el contraste admitiendo o rechazando la
presencia de una raíz unitaria.
 Si el término tendencial es no significativo    0  , deberá replantearse

el modelo inicialmente estimado pasándose a examinar otro con término
constante pero sin esta tendencia determinista. Con este modelo se vuelve a
analizar la presencia de una raíz unitaria  H 0 :   0  .
 En el caso en que, nuevamente, se sostenga la presencia de una raíz

unitaria, se contrastará entonces la adecuación del término independiente 0
con el contraste t /  o bien con F , .

 Si el término independiente resulta significativo, usamos de nuevo las

tablas de una normal para contrastar la presencia de la raíz unitaria,
concluyendo de nuevo aquí el contraste.
 Sólo si la constante 0 es no significativa se utiliza el modelo más simple

como modelo de referencia contrastándose, de nuevo, la presencia de raíz
unitaria. En este caso, no tiene cabida el uso de la distribución normal
estandarizada.
10.4.2 Contraste de Dickey – Fuller Aumentado (DFA)
Está claro que lo expuesto hasta este momento permite contrastar la presencia
de una o más raíces unitarias en una determinada serie temporal para la que se
supone un proceso AR(1).
Sin embargo, muchas serie temporales se ajustan más adecuadamente a

procesos autorregresivos de orden superior AR(2) o AR(3). No parece, por lo
tanto, muy correcto contrastar la presencia de una o más raíces unitarias utilizando siempre
la estructura de un modelo AR(1) ya que las raíces unitarias pueden aparecer también en
estructuras más complejas.
Este problema da lugar a lo que se conoce como test de raíces unitarias de

Dickey-Fuller Ampliado (DFA). El contraste de DF aumentado (DFA) considera la siguiente
forma reducida:
p
Yt  0   t   Yt 1    i Yt i 1   t (10.27)
i 2
 p
 p
donde    1   i  y  i    j .
 i 1  j 1
El procedimiento es análogo al expuesto en el test de DF simple; sin embargo,

los estimadores î distribuyen asintóticamente como una normal estandarizada.
Para determinar el número de rezagos p del modelo (10.27) es posible

considerar criterios alternativos, por ejemplo el criterio de Akaike.

El criterio de Akaike (AIC) considera la siguiente expresión:
 
2k   î2 
AIC   log  i  (10.28)
n  n 
 
 
donde n es el número de observaciones, k es el número de parámetros estimados, y ˆ es

la serie de residuos obtenidos en la estimación.
Luego, interesa introducir un a variable adicional (rezago adicional en nuestra

caso) a un modelo con k variables explicativas si AICk 1  AICk .
De manera complementaria, se puede emplear el criterio modificado de

Akaike (MAIC):
2k    
MAIC   log   ei2 n  (10.29)
T k  i 
1
  T
donde   ˆ   ei2 n 
2
Y 2
t 1
 i  t  k 1
10.4.3 Contraste de Phillips – Perron (PP)
El contraste Phillips-Perron (1988) es una corrección no paramétrica del DFA

en el que se elimina el problema de correlación serial de los residuos. Se ha indicado por
parte de los investigadores que el contraste Phillips - Perron (PP) tiene mayor
potencia que el DFA de forma que en caso de duda parece adecuado atender a sus
resultados.
La diferencia fundamental entre ambos está en que mientras la validez del

procedimiento DF está basada en que los términos de error son ruido blanco, el
procedimiento de PP modifica los estadísticos después de la regresión para tener en cuenta
el efecto de los errores autocorrelacionados que aparecen en los resultados.
De esa forma, asintóticamente, el estadístico se corrige en la forma apropiada

y se aplica la misma distribución límite (DF).

10.5 Cointegración
Las regresiones que incluyen series temporales pueden ocasionar coeficientes

de determinación muy altos pero sin reflejar el verdadero grado de asociación entre las
dos variables, sino que es la tendencia común presente en ellas (regresión espuria).
Cuando se lleva a cabo la regresión estática entre variables I(1) afectadas por
tendencias comunes, se encuentra un valor de R 2 elevado sin que exista una relación de
causalidad. Además el valor del estadístico de Durbin - Watson (DW) es muy
pequeño lo que indica que los errores de la ecuación están autocorrelacionados
positivamente.
Este es el problema de las regresiones espurias que implica no sólo que los
estimadores MCO de los coeficientes son ineficientes sino que los estimadores de los
errores estándar son inconsistentes.
En general, la integrabilidad es una propiedad dominante en las series, de

manera que para cualquier combinación lineal de dos procesos integrados, el proceso
resultante tendrá el orden mayor de las variables integradas. Pero, en
ocasiones, la combinación lineal de dos procesos I(1) es estacionaria.
Si la combinación lineal de dos variables o procesos no

estacionarios es estacionaria, se dice que las variables están cointegradas,
es decir, las tendencias se contrarrestan o se cancelan.
Es decir, si Yt es un vector de N series temporales, sus componentes son

cointegradas de orden d,b, que se define como Yt  CI  d , b  si:
 Todas las componentes de Yt son I(d).
 Existe un vector   0 tal que Z t   Yt  I  d  b  , con b > 0.
La relación Z t   Yt se denomina relación de cointegración, y el vector ,

vector de cointegración.

Sean dos variables X t e Yt tales que la teoría económica sugiere una

relación de equilibrio a largo plazo entre ellas.
Supongamos que las series de datos X t e Yt son I(1). En la relación

Z t  1Yt   2 X t , lo normal es que Z t sea I(1). Sin embargo, es posible que exista un
valor particular de   1 , 2  , tal que Z t sea I(0), es decir, estacionaria. En este caso
las series serían CI(1,1), o cointegradas de orden 1.
Sea Yt *   0  1 X t , donde Yt * es el valor de equilibrio a largo plazo

correspondiente a X t . Si hay equilibrio en t, Yt *  Yt   0 , entonces Y t   0  1 X t  0 .
Como Yt , en general, será distinto de Yt * , podemos escribir

Yt   0  1 X t  ut , donde ut puede interpretarse como el error o desviación entre Yt y
su correspondiente valor de equilibrio en el período t.
Esta última ecuación es equivalente a Yt  1 X t   0  ut . Luego, la relación

de cointegración será:
Y 
Z t   Yt    1  1  , Yt    , Z t   0  ut (10.30)
X
Si las series son CI(1,1), Z t es estacionaria, por lo que el error será una
serie estacionaria.
La cointegración de dos o más series temporales apunta a la

existencia de una relación de largo plazo o de equilibrio entre ellas, es
decir, que las desviaciones de la situación de equilibrio no tienden, en
promedio, a ampliarse con el paso del tiempo.
Por el contrario, si X t e Yt son ambas I(1) pero no son cointegradas, Z t no

es estacionaria, es decir, las dos variables se alejarán una de otra con el paso del tiempo.

Así, si X t e Yt son integradas del mismo orden, y si haciendo la regresión

Yt   0  1 X t  ut obtenemos los residuos estacionarios, hay evidencia de que las
dos series son cointegradas, lo cual implicaría que la relación a largo plazo que supone la
teoría económica viene apoyada por la evidencia empírica, y que la regresión efectuada
está libre de resultados espurios.
A la regresión anterior se le conoce como regresión de cointegración, siendo

el vector    0 ,1  el vector de cointegración.
El análisis de la cointegración permite detectar si existe la posibilidad de

obtener estimaciones libres de resultados espurios de los parámetros que definen las
relaciones entre dos o más series tanto a corto como a largo plazo. Las pruebas t y F
usuales serían válidas.
En general, si consideramos m variables integradas del mismo orden, el

número máximo de vectores de cointegración es m - 1. Al número de vectores de
cointegración linealmente independientes se le denomina rango de cointegración.
Una implicancia del concepto de cointegración es que si X t e Yt cointegran,

también lo harán X t e Yt  k , puesto que las variables Yt e Yt  k lo hacen.
10.6 Detección de Cointegración
10.6.1 Engle y Granger
El primer conjunto de contrastes fue considerado por Engle y Granger (1987).

Supongamos un vector Yt1 , Yt 2 ,...., Yt k  y regresionamos Yt1   2Yt 2   3Yt 3  ...   k Yt k  ut ,
que puede ser estimada por MCO y a la que se denomina “regresión de cointegración”.
Se contrasta la hipótesis nula de que los residuos ut tienen una raíz unitaria
contra la alternativa de que son I(0). De esa forma, la hipótesis nula es la no
cointegración y la alternativa la cointegración. Podemos aplicar la prueba DF o
ADF. Engle y Granger consideran que existe una relación de cointegración entre las
variables si los residuos ut son I(0).

Los valores críticos son distintos de los del contraste de raíces

unitarias, pues la ut estimada está basada en los parámetros de cointegración
estimados. Engle y Granger han calculado estos valores, los cuales pueden encontrarse en
Engle y Granger (1987), Engle y Yoo (1987), Phillips y Outlaris (1990) y Mackinnon
(1991). En este contexto, las pruebas DF y ADF se conocen como EG y AEG,
respectivamente. En valor absoluto, los valores críticos de EG y AEG son
mayores a los de DF y ADF, respectivamente.
10.6.2 Durbin y Watson
Un método alternativo para contrastar la cointegración es el contraste Durbin-

Watson de la regresión de cointegración (CRDW). Se considera el estadístico DW de la
regresión de cointegración Yt   0  1 X t  ut y se contrasta la hipótesis nula de
que el estadístico DW es cero para ver si los residuos son estacionarios. Si no
son estacionarios el estadístico DW tenderá a cero.
Así, cuando el valor DW calculado es menor que el tabulado para cierto nivel
de significación, se acepta la hipótesis nula de no cointegración. Si es mayor, se acepta la
hipótesis de cointegración. Los valores críticos de este contraste están tabulados y pueden
verse en Sargan-Bhargava (1983).
Una regla práctica muy útil es que si DW < R 2 las series no están
cointegradas.
10.6.3 Modelo de Corrección de Errores (MCE)
En el caso de que el vector de variables del modelo esté constituido por dos
variables, Yt y X t , la relación a largo plazo entre ambas variables puede expresarse
como:
Yt *     X t   t (10.31)
Por otra parte, su relación a corto plazo puede expresarse, de acuerdo con el
MCE, de forma que las desviaciones respecto a la tendencia a largo plazo tienden a
corregirse.

Si en un período el valor observado de Yt es superior al de su tendencia,

E Yt * X t  , se supone que se producirá en el período siguiente una disminución en Yt
que amortigüe esa diferencia, y si Yt es inferior a Yt * , se supone que en el período
siguiente se producirá un aumento de Yt que lo acerque a su tendencia, de forma que las
relación a corto plazo puede expresarse mediante las dos expresiones siguientes:
Yt  Yt *  g  Yt 1     X t 1  (10.32)
  
 t 1
donde g es un parámetro cuyo valor es menor que cero (para compensar la diferencia
generada en el período anterior).
Si aplicamos primeras diferencias a (10.32), sustituimos Yt * por su valor

estimado en la relación (10.31), y añadimos una perturbación aleatoria vt obtenemos:
Yt    X t  g  ˆt 1  vt (10.33)
La relación (10.31) se denomina regresión de cointegración, y la (10.33)

MCE con relación contemporánea.
De forma similar se procede en el caso de varias variables explicativas, en

cuyo caso aparecerían los términos correspondientes a cada una de dichas variables
explicativas, y la perturbación retardada estimada  ˆt 1  incluiría la diferencia entre el
valor retardado de Yt y una combinación lineal de los valores retardado des todas las
variables explicativas.
Así, en el caso de k variables explicativas, tendríamos:
Yt *    1 X t1   2 X t2  .....   k X tk   t (10.34)
Yt  1X t1   2 X t2  ....   k X tk  g  ˆt 1  vt (10.35)
Engle y Granger proponen estimar la relación (10.34), MCE, en dos etapas,

estimando en la primera etapa por MCO la relación (10.35), o regresión de cointegración
para calcular ˆt 1 y, en una segunda etapa estimar los parámetros de (10.34).

El modelo CE con causalidad contemporánea presenta en general buenos

resultados, tanto si las variables están cointegradas como si no, ya que permite tener en
cuenta la relación causal a largo plazo y las desviaciones a corto plazo.
10.7 Causalidad
Aunque la causalidad es de naturaleza extra-estadística, es decir, que en un

modelo econométrico viene determinada por antecedentes económicos, a veces no es fácil
determinar si X t influye sobre Yt o si es Yt la causa de las variaciones de X t .
El test de Granger surge como elemento de ayuda para determinar el sentido

de una relación causal entre dos variables. El contraste de Granger se basa en estimar los
dos modelos siguientes:
r r
Yt   0    iYt i    j X t  j   t (10.36)
i 1 j 0
r r
X t   0   i X t i    jYt  j  t (10.37)
i 1 j 0
Las hipótesis a contrastar son las siguientes:
H 0 :  i  0, i  0; i  1,...., r
(10.38)
H 0 : i  0,  i  0; i  1,...., r
Si no se rechaza H 0 se concluye que Yt causa las variaciones de X t . Si se no

rechaza H 0 se concluye que X t causa las variaciones de Yt . Si ninguna de las dos
hipótesis se puede rechazar, entonces ambas variables son independientes. Si se rechazan
ambas, se produce entonces un feedback.
Para ello se aplica un test F de manera complementaria con los test-t; las
restricciones del test F en este caso corresponden a los valores de los parámetros según las
hipótesis nulas.

11 ANÁLISIS FACTORIAL
El método de Análisis Factorial (FA) es una técnica que se utiliza

frecuentemente para crear nuevas variables que resuman toda la información
disponible contenida en las variables originales. También se utiliza para estudiar
la posible relación existente entre variables medidas en un conjunto de datos.
Un objetivo básico del FA es determinar si las variables de respuesta (X)

exhiben patrones de relaciones entre sí, de tal forma de agrupar dichas variables en
subconjuntos de variables correlacionadas, pero no correlacionadas con las de los otros
subconjuntos. Luego, el FA se utiliza para estudiar la estructura de correlación entre
variables dentro de un determinado conjunto de datos.
En resumen, el FA tiene por objetivo:
 Determinar si existe un conjunto más pequeño de variables no correlacionadas

que expliquen las relaciones existentes entre las variables originales.
 Determinar el número de variables subyacentes (Factores).
 Interpretar estas nuevas variables.
 Evaluar las unidades experimentales (o individuos) del conjunto de datos

(muestra) sobre estas nuevas variables.
 Utilizar estas nuevas variables en otros análisis estadístico de los datos, por
ejemplo para predicción.
Sin embargo, se debe tener especial cuidado con el método de FA,

particularmente en lo que respecta a la subjetividad que representa su utilización
en numerosos aspectos. Esta subjetividad está asociada, por ejemplo, al número de factores
que considere el investigador y a la interpretación de los factores, entre otros. De hecho,
algunos autores sugieren que es posible demostrarse mediante FA cualquier cosa que se
desee.

El modelo matemático para el análisis factorial parece ser similar a la

ecuación de regresión múltiple, pero se debe recordar que en el caso de la regresión
múltiple, ésta considera variables simples que son predictoras de la variable dependiente
(criterio). En cambio, en el caso del análisis factorial, la variable dependiente
se expresa en términos de una combinación lineal de grupos de variables
que caracterizan un concepto en particular (factores).
Los factores no son variables independientes simples sino que cada uno está
constituido por un grupo de variables que caracterizan el concepto que representa el
factor.
Es por esta causa que se clasifica esta técnica entre las técnicas de
interdependencia. (Tanto las variables a un lado de la ecuación como en el otro están
interactuando como criterios y predictoras).
Por lo general, los factores que pueden caracterizar a un grupo de variables

no se conocen con anticipación, sino que llegan a ser determinados por medio del análisis
factorial. Estos factores se llama factores comunes, dado que todas la variables en
observación se llegan a expresar como funciones de ellos.
Cuando no se conoce con anticipación los factores que constituyen las

variables, se dice que procede una análisis exploratorio. Pero en cambio, si el
investigador ha elaborado el análisis anticipando (posiblemente apoyado en la teoría) la
existencia de cierto número de factores en particular y anticipando qué variables
conforman cada uno de los factores, se trata de un análisis confirmatorio.
Para efectos del presente tema vamos a proseguir según un

análisis exploratorio de factores.
Corresponde al investigador determinar lo que representa o constituye cada

uno de estos factores, para lo cual deberá considerar la información existente (marco
teórico).

EJEMPLO DE MODELO FACTORIAL EXPLORATORIO
Se desea extrapolar, de una provincia un municipio, un modelo de regresión

explicativo del nivel de renta disponible en función de una serie de manifestaciones de esa
renta. Para ello, se parte de un amplio conjunto de variables provinciales para 8.000
municipios:
 Recaudación de los distintos impuestos directos e indirectos

 Tasa de paro y actividad
 Generación neta de empleo
 Kilómetros de carreteras de cada tipo en servicio
 Kilómetros de línea férrea en servicio
 Número de vehículos de distintos tipos por habitante
 Líneas telefónicas por cada 100 habitantes
 Camas hospitalarias por cada 1000 habitantes
 Empresas creadas y cerradas en el año
 Índice de precios al consumo
 Índice de precios industriales
 Índice de comercio al por menor
 Licencias fiscales concedidas
Con el fin de poder abordar con grados de libertad suficiente la estimación

del modelo de renta, se intenta resumir en tres factores, sin perder excesiva información y
logrando una incorrelación muy conveniente. El factorial arrojó tres factores cuyos
significados se asociaron a:
Factor 1: renta y riqueza personal - familiar
Factor 2: salud y desarrollo del mercado laboral
Factor 3: desarrollo infraestructural

EJEMPLO DE MODELO FACTORIAL CONFIRMATORIO
Se desea medir la capacidad de abstracción, analítica y memoria de los

alumnos. Se observaron 10 notas de cada alumno de un determinado grupo de estudiantes
universitarios. Entre estas notas, o al menos entre algunas de ellas, se observan
correlaciones elevadas que, en cierta medida, provienen de aptitudes globales del alumno
que no se observan directamente:
 Nota en álgebra
 Nota en cálculo
 Nota en estadística
 Nota en derecho comercial
 Nota en derecho laboral
 Nota en contabilidad financiera y de sociedades
 Nota en análisis de costos
 Nota en comunicación comercial
 Nota en administración
 Nota en econometría
Un análisis factorial permitió que la información relativa a estas variables se

resumiese en tres únicos factores de fondo, sin pérdida excesiva de información y logrando,
de nuevo, una incorrelación muy conveniente. Cada uno de estos tres factores se interpretó
como:
Factor 1: capacidad de abstracción
Factor 2: memoria
Factor 3: capacidad analítica
Independientemente de estos tres factores relacionados con grupos de

variables (notas) se identificó un factor común que podríamos llamar inteligencia en general
y un factor específico para cada asignatura (su propia dificultad y componentes de tipo
aleatorio relativos a las distintas formas de evaluación).

11.1 Comparación Entre FA y MCP
 Al igual que el método de Componentes Principales (MCP), el FA es una

técnica dirigida a las variables.
 Una ventaja que presenta el FA respecto al MCP, es que las nuevas variables
creadas (denominadas factores) son en general mucho más fácil de interpretar.
Recordemos que el MCP genera una transformación ortogonal de las variables
y no depende de un modelo subyacente. El FA, en cambio, sí depende de un
modelo estadístico razonable. Por lo tanto, el MCP es descriptivo y el FA tiene
un modelo estadístico formal.
 En el MCP el interés se centra en la explicación de la variabilidad de las
variables (varianzas), mientras que en el FA el interés se centra en la estructura
de la matriz de varianzas y covarianzas (correlaciones).
 Si las variables originales no están correlacionadas, tal como ocurre con el

MCP, no tiene sentido aplicar FA.
 En ambos casos pueden existir problemas con la escala de los valores de las
variables.
11.2 El Modelo de Análisis Factorial
11.2.1 Hipótesis del FA
Suponga que se observa un vector de respuestas p-variado X, de una

población que tiene media  y matriz de varianzas y covarianzas  . En el modelo general
de FA se supone que se tienen m factores subyacentes (m < p) denotados por f1 ,...., f m ,
tales que:
x j   j   j1 f1   j 2 f 2  ....   jm f m   j  j  1, 2,...., p (11.1)
En el modelo anterior se supone que:

iid
 f k  N  0;1 ,  k  1, 2,...., m
iid
  j  N  0; j  ,  j  1, 2,...., p

 cov  f k ; j   0 ,  j , k
Sin pérdida de generalidad, se puede suponer que  j  0 y que var  x j   1 .

Este siempre puede ser el caso, si se estandarizan las variables medidas antes de aplicar el
método de FA. Sin embargo, no es necesario estandarizar.
11.2.2 Forma Matricial del FA
En forma matricial, el modelo resulta:
X  F  (11.2)
donde:
X   x1 , x2 ,...., x p 
T
(11.3)
F   f1 , f 2 ,...., f m 
T
(11.4)
  1 ,2 ,...., p 

T
(11.5)
 11 12 .... 1m 

 22 .... 2 m 

21
(11.6)
 .... .... .... .... 
 
 p1  p 2 ....  pm 
Luego, en forma matricial, la hipótesis del modelo de FA es la siguiente:
 F  N  0; I 
 1 0 .... 0
0  .... 0 
  N  0;    
2

.... .... .... .... 
 
 0 0 ....  p 
 F T  0

11.3 Ecuaciones del FA
De las expresiones anteriores, debe notarse que:
X  F  (11.7)
 V X  (11.8)
  V  F   (11.9)
  V  F   T  V   (11.10)
  T  (11.11)
Luego, para determinar si existen F,  y  tales que X   F   , en lugar

de ello se intenta encontrar  y  de modo que   T  , lo que es equivalente a:
m
 jj    jk2   j (11.12)
k 1
Debe notarse lo siguiente:
 Si existen  y  de modo que   T  , entonces los factores comunes

explican con exactitud las covarianzas entre las variables de respuesta, lo que
se concluye dado que  es una matriz diagonal.
m
 La varianza de x j se puede dividir como  jj    jk2   j , y la proporción de
k 1
m
la varianza de x j que se explica por los factores es 
k 1
2
jk  jj . A esta última
expresión se le denomina comunidad de la j-ésima variable de respuesta.

m
 cov  xi ; x j    ik  jk (recordar que  ij  0 )
k 1
 cov  f k ; x j    jk , y se denomina carga de la j-ésima variable de respuesta

sobre el la k-ésimo factor (ver (11.1)).

Si bien los desarrollos hasta ahora expuestos se han basado en la matriz de

varianzas y covarianzas  , los procedimientos casi siempre se realizan en torno a la
matriz de correlaciones, matriz que definiremos como P.
Si el FA se ha aplicado a la matriz P, entonces  es la matriz de

correlaciones entre las z j y las f k ; es decir, corr  f k ; z j    jk .
m
Del mismo modo, se tendrá que 
k 1
2
jk   j  1 , por lo que la comunidad de
m
la j-ésima variable es simplemente 
k 1
2
jk .
En el resto del Capítulo, supondremos que el FA se aplica a la matriz P.
11.3.1 No Unicidad de los Factores
Si el número de factores es mayor que uno (m > 1) la matriz de cargas  de

los factores no es única. Es decir, si existen  y  de modo que P   T  ,
entonces, para toda matriz ortogonal T tal que TT T  I , se cumplirá:
P  TT T  T  (11.13)
Luego, si  es una matriz de cargas, entonces T también. Esto representa

un grave dilema para muchos investigadores, mientras que otros lo ven como una ventaja.
Estos últimos creen que si no son interpretables un determinado conjunto de

factores, entonces puede existir otra solución que sí lo sea.
A esta multiplicación por la matriz T se le denomina rotación de factores.
11.3.2 Normalización del Modelo Factorial
El análisis expuesto en la sección anterior implica que, aunque observemos

toda la población, y los valores de  y  sean conocidos, no podemos determinar  de
manera única.
La solución para poder estimar esta matriz es imponer restricciones adicionales

sobre sus términos. Dos criterios alternativos son:

1)  T   Diag
Con esta normalización, los vectores que definen el efecto de cada factor
sobre las p variables observadas son ortogonales. De esta manera, los factores,
además de estar incorrelacionados, producen efectos lo más distinto posible
sobre las variables. Por otra parte, esta normalización asegura una matriz de
cargas  única.
2)  T 1  Diag
Con esta normalización, los efectos de los factores sobre las variables,
ponderados por las varianzas de las perturbaciones de cada observación, se
hacen incorrelacionados. También se define una matriz de cargas única.
11.4 Resolución de las Ecuaciones del FA
11.4.1 Número de Factores
Si bien se presentan los desarrollos a base de la matriz de correlaciones P, las

técnicas descritas también pueden aplicarse sobre la matriz de varianzas y covarianzas  .
Para determinar si existe un conjunto de m factores subyacentes, se determina

si sería posible la existencia de  y  tales que P   T  .
El número de parámetros desconocidos en  y  es pm + p; el número de

parámetros en P es p  p  1 2 . Luego, las ecuaciones del FA dan origen a p  p  1 2
ecuaciones en p  m  1 incógnitas. Recordar que p es el número de unidades
experimentales y m es el número de factores.
Si por ejemplo p = 20 y m = 5, se tendrían 210 ecuaciones y 120 incógnitas

por resolverse.
Si p  m  1  p  p  1 2  m   p  1 2 , se tendría más incógnitas que

ecuaciones, por lo que la solución no sería única. Sin embargo, incluso cuando
m   p  1 2 , no existe solución única cuando m  2 , ya que a cualquier solución se le
pueden aplicar rotaciones hacia una cantidad infinita de soluciones.

Sin embargo, es factible que existan soluciones diferentes entre sí sin la

necesidad de aplicar rotaciones, ya que  F puede ser formado de múltiples maneras.
Por otra parte, dado que deben respetarse ciertas restricciones respecto de los
valores que pueden tomar las cargas  jk y las varianzas  j , directamente se rechazan
todas aquellas soluciones absurdas (por ejemplo con valores negativos para  j o valores
mayores que uno para  jk ). Adicionalmente, puede exigirse que  T  Diag o
 1 T  Diag .
Luego, considerando un número elevado de ecuaciones e incógnitas, resulta

bastante difícil resolver el sistema P   T  . No obstante, existen varios programas
computacionales que resuelven adecuadamente las ecuaciones del FA.
11.4.2 Método del Factor Principal
Este es un método para estimar la matriz de cargas que se basa en los

componentes principales.
Supongamos que podemos obtener una estimación inicial de la matriz  ;

entonces, podemos escribir:
  ˆ    T
(11.14)
 
Dado que  ˆ es simétrica, puede descomponerse como:
  ˆ   HGH   HG  HG 
T 12 12 T
(11.15)
donde H es cuadrada de orden p y ortogonal; G es también de orden p pero diagonal y

 
contiene las raíces características de  ˆ . El modelo factorial (11.11) establece que,
 
dado que  ˆ es de rango m, la matriz G debe ser diagonal del tipo:
 G1mm  0m p  m  
G  (11.16)
0 p  m m 0 p  m  p  m  

Si llamamos H1 a la matriz (p x m) que contiene los vectores propios

asociados a los valores propios no nulos de G1, podemos entonces tomar como estimador
de  la siguiente matriz de (p x m):
12
ˆ  H 1 G1  (11.17)
Es interesante notar la normalización resultante de este proceso:

12 T 12
ˆ T ˆ  G1   H 1  H 1 G1   G1  Diag (11.18)
 
Im
En la práctica, este método se desarrolla de forma iterativa de la siguiente

manera:
1) 
Partir de una estimación inicial de î o de ˆ i mediante ˆ i  Diag  
ˆ ˆT 
2) Calcular la matriz cuadrada y simétrica Qi     i 
3) Obtener la descomposición espectral de Qi de la forma:
T T
Qi  H i1Gi1  H i1   H i2Gi2  H i2  (11.19)
donde Gi1 contiene los m mayores valores propios de Qi , y H i1 sus vectores propios.
Elegiremos m de manera que los restantes valores propios contenidos en Gi2 sean todos
pequeños y en magnitud similar.
12
4) Tomar î 1  H i1 Gi1  y volver al paso (1).
Los estimadores obtenidos mediante este método iterativo son consistentes

pero ineficientes. Además, no son invariantes ante transformaciones lineales.
Para poder llevar a cabo este procedimiento, necesitamos obtener estimadores

iniciales de ˆ (iteración cero). Es decir, deben estimarse los elementos de la diagonal
ˆ jj  , para luego estimar h2j  s 2j ˆ jj . Existen las siguientes alternativas:

i. Tomar ˆ jj  0 . Esto equivale a extraer los componentes principales de  .

Supone tomar hˆ 2j  s 2j (en el caso de correlaciones h 2j  1 ), que es
claramente su valor máximo, por lo que podemos comenzar con un sesgo
importante.
1
ii. Tomar ˆ jj  , donde sii es el elemento diagonal i-ésimo de la matriz de
s jj
precisión  1 . Esto equivale a tomar hˆ 2j  s 2j R 2j , donde R 2j es el coeficiente
de correlación múltiple entre xj y el resto de las variables. Mientras mayor sea
el valor de R 2j , mayor será la comunidad de hˆ 2j . Notar también que el
término s 2j representa la j-ésima columna de valores de la matriz  .
A fin de entender el procedimiento descrito, consideremos un conjunto de

observaciones de 3 variables: x1, x2 y x3. Su matriz de varianzas y covarianzas es la
siguiente:
 0,35 0,15 0,19 

   0,15 0,13 0, 03 (11.20)
 0,19 0, 03 0,16 
1
Paso 1 (iteración 0): considerando ˆ jj  , se obtiene:
s jj
 52, 09 47,91 52,88 

   47,91 52, 09 47,12 
1
(11.21)
 52,88 47,12 60, 21 
 1 
 52, 09 0 0 
  0, 019 0 0 
 1  
ˆ 0   0 0  0 0, 019 0  (11.22)
52, 09
   0 0 0, 017 
 1  
 0 0
60, 21 


Paso 2: calculamos la matriz cuadrada y simétrica Q0     0  :
 0,35 0,15 0,19  0, 019 0 0 


Q0   0,15  
0,13 0, 03   0 0, 019 0  (11.23)
 0,19 0, 03 0,16   0 0 0, 017 
 0,331 0,15 0,19 

Q0   0,15 0,11 0, 03 (11.24)
 0,19 0, 03 0,143 
T T
Paso 3: realizamos la descomposición espectral Q0  H 01G01  H 01   H 02G02  H 02  .
Sin embargo, para ello necesitamos previamente los valores propios de la matriz Q0 . A
partir de (11.24) se deduce directamente que los valores propios de la matriz Q0 son
0.379, 0.094 y –0.108. Dado que uno de ellos es negativo, la matriz no es positiva
definida.
Como hay un valor propio mucho mayor que los demás (0.379) consideraremos sólo un
factor. En consecuencia, la descomposición es la siguiente:
vector propio para 0,379
 
T
 0,331 0,15 0,19    0, 670   0, 670 
 0,15 0,11 0, 03   0, 442  0,379   0, 442 
  
 0,19 0, 03 0,143   0,596   0,596 
T
(11.25)
 0, 036 0, 741   0, 036 0, 741 
 0, 783 0, 438 0, 094 0 
    0   0, 783 0, 438
 0,108
 0, 621 0,508   0, 621 0,508 
  
vectores propios para 0,094 y  0,108
12
Paso 4: calculamos ˆ1  H 01 G01  :
 0, 670   0, 412

1   0, 442   0,379   0, 272
ˆ   (11.26)
 0,596   0,367 
La expresión (11.26) es la primera estimación de la matriz de cargas. Vamos

a volver al paso 1 para iterar.


Paso 1: Estimamos ˆ1  Diag   ˆ1ˆ1T : 
  0,331 0,15 0,19   0, 412  
     
ˆ1  Diag   0,15 0,11 0, 03   0, 272   0, 412 0, 272 0,367  (11.27)
  0,19 0, 03 0,143   0,367  
    
0,180 0 0 
ˆ 
1   0 0, 056 0  (11.28)
 0 0 0, 025
Paso 2: calculamos la matriz cuadrada y simétrica Q1   ˆ1 :  

 0,35 0,15 0,19  0,180 0 0 

Q1   0,15  
0,13 0, 03   0 0, 056 0  (11.29)
 0,19 0, 03 0,16   0 0 0, 025
 0, 05 0,15 0,19 

Q1   0,15 0, 074 0, 03 (11.30)
 0,19 0, 03 0,135 
T T
Paso 3: realizamos la descomposición espectral Q1  H11G11  H11   H12G12  H12  . A
partir de (11.30) se deduce directamente que los valores propios de la matriz Q1 son
0.307, 0.067 y –0.215. En consecuencia, la descomposición es la siguiente:
T
 0, 05 0,15 0,19   0,559   0,559 
 0,15 0, 074 0, 03   0, 450  0,307   0, 450 
     
 0,19 0, 03 0,135   0, 696   0, 696 
T
(11.31)
 0, 081 0,825   0, 081 0,825 
  0, 067 0  
  0,806 0,385    0,806 0,385
 0 0, 215 
0,586 0, 414  0,586 0, 414 
12
Paso 4: calculamos ˆ2  H11 G11  :

 0,559   0,310 
ˆ2   0, 450   0,307   0, 249
  (11.32)
 0, 696   0,386 
Realizando una tercera iteración se obtiene:
 0, 269 
3   0, 229 
ˆ (11.33)
 0, 407 
Finalmente, el modelo con los nuevos parámetros es el siguiente:
 0, 269  1 

X   F     0, 229  f1  2 
  (11.34)
 0, 407  3 
 
ˆ3
 
1    0   0, 254 0 0 

   N   0  ;  0  
 2 0, 068 0 (11.35)
3      

0 0
    0 0, 011
  
 ˆ 3 
11.5 Determinación de la Cantidad Apropiada de Factores
Antes de iniciarse un FA, debe inferirse el valor de m. Una conjetura inicial

adecuada puede ser determinar el número de componentes principales, y considerar dicho
número como cantidad de factores. No obstante, el número inicial no necesariamente
corresponderá con el definitivo.
Se recomienda que el número máximo de factores no sea superior a la mitad

p
del número de variables menos uno: m   1 .
2

11.5.1 Criterios Subjetivos
 No Incluir Factores Triviales: los factores triviales son aquellos que tienen
sólo una variable original cargando sobre el factor. Ello implica que dicha
variable no se correlaciona con el resto, y es por sí misma un factor
subyacente. En tal caso, se elimina dicha variable antes del FA.
Esto no significa que la variable no sea importante, sino que sus características
son independientes de las otras variables. En síntesis, no tiene sentido construir
factores si se pueden emplear ellas mismas.
 No Eliminar Necesariamente Factores con Valores Pequeños de

 j o  j (ver (11.1)): Esto hace tender el método de FA a un MCP.
Análogamente, no es necesario que las comunidades tiendan a uno. Recordar
que en el FA interesa las correlaciones entre las variables, y no su variabilidad
individual como en el MCP.
 Si las diferencias entre la matriz de correlaciones observada (P) y la generada

por la solución de FA    es grande  P   T  , puede ser necesario
aumentar el número de factores. Análogamente, si la diferencia es muy
pequeña, puede reducirse el número de factores.
 Si, después de realizado el ajuste respecto a los factores comunes, se

presentan correlaciones altas entre variables, es factible considerarse el
incremento en el número de factores. Por el contrario, si las correlaciones son
pequeñas, podría reducirse el número de factores.
11.5.2 Criterios Objetivos
El criterio objetivo más utilizado corresponde al denominado enfoque de

posibilidad máxima, basado en los datos con distribución normal multivariada.
Este método permite considerar que si por ejemplo, 6 factores son adecuados,
eventualmente pueden ser adecuados también 5 ó 4. Pero si 6 factores son inadecuados,
es necesario incrementar el número de factores.

Otro criterio utilizado comúnmente es el de Akaike (AIC). La cantidad de

factores que presentan el menor valor del estadístico AIC se considera como la mejor
selección. Ello requiere evidentemente varias selecciones diferentes de m. También es
factible considerar el criterio de Schwartz (SIC).
Sin embargo, estos métodos tienden a producir factores triviales, los que
deben eliminarse.
11.6 Rotación de Factores
Como se mencionó antes, un conjunto de factores no siempre se interpreta con

facilidad. De hecho, no es recomendable intentar interpretar los factores sin realizar una
rotación.
Los procedimientos de rotación intentan que la mayor cantidad posible de

cargas de los factores   jk  estén cercanas a cero, mientras se maximicen la mayor
cantidad posible de las restantes.
Además, dado que los factores son independientes, sería bueno (pero no
fundamental) que las variables de respuesta no se carguen mucho sobre distintos factores.
Por lo tanto, los factores que afectan a una determinadas variables no afectan
al resto, y viceversa.

1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
-1,0 0,0 1,0
1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
-1,0 0,0 1,0

11.6.1 Rotación VARIMAX
La interpretación de los factores se facilita si los factores que afectan a unas

variables no lo hacen al resto, y viceversa. Luego, se desea maximizar la varianza de los
coeficientes que definen los efectos de cada factor sobre las variables observadas.
Definamos B  T  bij . En 1958, Kaiser propuso como medida de

estructura simple la suma de las varianzas de las cargas elevadas al cuadrado dentro de
cada columna de la matriz de los factores. Se eleva al cuadrado para prescindir de los
signos.
Su criterio por lo tanto es maximizar la varianza de los coeficientes que

definen los efectos de cada factor sobre las variables observadas; es decir, maximizar la
expresión:
 p  p 2
2

2
   jq  
m   j 1
b 4
 b jq  p 
 
1 m  p 2  p 2   
p     
j 1
V     b jq    b jq
*
 (11.36)
tij  p q 1  j 1  j 1   q 1  p 
 
 
 
2
 p 
La cantidad dentro de los paréntesis   b 2jq  en esta expresión es la
 j 1 
varianza de las cargas elevada al cuadrado, dentro de la q-ésima columna de B.
Dado que las cargas elevadas al cuadrado se encuentran entre 0 y 1, intentar

maximizar la varianza de las cargas elevadas al cuadrado (dentro de una columna)
equivale a dispersar las cargas elevadas al cuadrado dentro de una columna. Es decir,
forzar la mayor cantidad de cargas hacia 0 y forzar las demás hacia 1. Esto permite una
mejor interpretación de los factores, ya que existirá una correlación alta para
ciertas variables y una correlación baja para el resto.
Kaiser suma las varianzas de las cargas elevadas al cuadrado que están
dentro de una columna, a través de las distintas columnas (q). La matriz ortogonal T que
produce un máximo para esta suma de varianzas de las columnas da como resultado la
rotación VARIMAX de Kaiser de la matriz  de carga de los factores tij  bij ij .

Notar que el criterio recién expuesto da igual peso a las variables de

respuesta que tengan tanto comunidades grandes como pequeñas.
Debido a ello, Kaiser sugirió que sería mejor dividir las cargas de los factores
para cada variable, por la comunidad propia de la variable, y luego maximizar la suma de
las varianzas de las razones elevadas al cuadrado dentro de una columna.
En consecuencia, Kaiser maximizaría realmente la expresión:
1 m  p b4  p b2 2 
V  2
 ij  p
t
  p  jq    jq  
q 1 
4
j 1 h j
 j 1 h 2  
(11.37)
  j 

donde h2j es la comunidad de la j-ésima variable de respuesta (j = 1, 2, ..., p)
La matriz T que maximiza la suma precedente produce la rotación VARIMAX

de la matriz de cargas de los factores. Este ajuste da más peso a las variables que tienen
las comunidades más grandes y menor a las que tienen comunidades pequeñas; es decir,
menos peso a las variables que tienen menos en común con las demás.
Notar que:
h 2j   j21   j22  ....   jm

2
 b 2j1  b 2j 2  ....  b 2jm (11.38)
Es decir, la rotación no cambia las comunidades (permanecen

constantes). Toda rotación ortogonal tiene esta propiedad, ya que las rotaciones
ortogonales de las matrices de cargas de los factores no afectan las comunidades de las
variables de respuesta. En consecuencia, las rotaciones ortogonales no afectan las
varianzas específicas de las variables.
11.6.2 Rotación Oblicua
En la práctica, las rotaciones oblicuas se pueden lograr multiplicando la matriz

 por una matriz Q no ortogonal  QT Q  I  . Las rotaciones oblicuas no producen nuevos
factores que permanecen no correlacionados, lo cual es una contradicción de las hipótesis
iniciales del FA. Luego, este tipo de rotaciones no tiene mucho sentido.

En el desarrollo inicial de un proceso de FA se supone que existe un conjunto

no correlacionado de factores subyacentes que dirigen o controlan las variables que se
están midiendo. Luego, permitir rotaciones oblicuas implica por lo tanto desconocer esta
hipótesis. Si bien existen paquetes computacionales que permiten realizar rotaciones
oblicuas, ellas no son recomendables.
1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
-1,0 0,0 1,0
11.7 Cuantificación de Factores
La cuantificación de factores corresponde a asignarle valores a los factores

para cada unidad experimental del conjunto de datos.
La cuantificación de los factores no es sencilla, pues el modelo para cada

unidad experimental es X   F   donde  no se conoce y  se estima. En
consecuencia, para un determinado vector de observaciones X, no se puede determinar F
en forma explícita.
A continuación se presentan algunos métodos para estimar F.

11.7.1 Método de Barlett
Después de resolver el modelo de FA, se tiene Z   F   donde

  N  0;  y Z es la variable de respuesta estandarizada. El paso siguiente es hallar F
que minimice:
Z r  
 ˆ F  1 Z r  ˆ F  (11.39)
donde Z r es el vector de datos estandarizados para el r-ésimo individuo. Para un Z r

dado, la expresión anterior se minimiza cuando:
 
1
Fˆr  ˆ Tˆ 1ˆ ˆ Tˆ 1Z r (11.40)
Luego, se forma Fr como el vector de las cuantificaciones estimadas de los

factores para el r-ésimo individuo (r = 1, 2, ...., N).
11.7.2 Método de Thompson
Thompson notó que, para datos normalmente distribuidos, la distribución

conjunta de Z y F era:
Z  0  P  
   N   ; T  (11.41)
F  0   I  
Esto implica que la esperanza condicional de F dado Z  Z * es:
E  F Z  Z *    T P 1Z * (11.42)
Por lo tanto, en el método de Thompson se estima el vector de valores para los

factores del r-ésimo individuo de la forma:
 
1
Fˆr  ˆ T 
ˆ ˆ T ˆ Zr (11.43)

11.7.3 Otros Métodos
Dado que para cuantificar un factor se requiere únicamente que una

determinada variable esté altamente correlacionada con un factor y poco correlacionada
con los demás factores, cualquier procedimiento que cumpla estas dos condiciones se
considera aceptable.
Una alternativa puede ser por ejemplo considerar el valor promedio de todas
aquellas variables que tengan correlación elevada con un determinado factor.
Una segunda alternativa puede ser considerar aquella variable que presenta
una mayor correlación con el factor como cuantificación de este mismo.

12 ANÁLISIS DE CONGLOMERADOS (CLUSTER)
El análisis cluster consiste en definir esquemas de agrupación que permita

dividir un gran número de unidades experimentales (observaciones) en clases o grupos que
sean semejantes entre sí.
Luego, se realizan clasificaciones a partir de datos que no están inicialmente

clasificados. Por ejemplo, podría interesar analizar la semejanza de clientes de una
determinada tienda comercial. Las variables medidas podrían incluir aspectos como la
edad, el nivel educativo, nivel de ingresos, estado civil, número de hijos, etc.
Para determinar la semejanza de los grupos dentro de la muestra total, deben

definirse criterios que indiquen cuán semejante son las unidades experimentales dentro de
un determinado grupo y cuán distintas son del resto.
12.1 Medidas de Semejanza y Desemejanza
12.1.1 Distancia Métrica
Corresponde a la distancia euclidiana entre valores de dos observaciones:

12
d rs   xr  xs   xr  xs 
T
(12.1)

Como alternativa, que es en la mayoría de los casos recomendable, se puede

usar la distancia métrica estandarizada:
12
d rs   zr  zs   zr  zs 
T
(12.2)

12.1.2 Distancia de Mahalanobis
A diferencia de las anteriores, esta distancia requiere de la matriz de

varianzas y covarianzas    :
12
d rs   xr  xs   1  xr  xs  
T
(12.3)
 

12.2 Análisis Gráficos
Es importante hacer notar que diferentes técnicas de agrupación pueden

generar resultados completamente distintos. La razón de ello es que cada algoritmo de
agrupación impone una determinada estructura en la muestra.
Por otra parte, es probable que determinadas técnicas de agrupación

identifiquen agrupamientos que en realidad pueden no existir.
Para mitigar estos problemas algorítmicos, se pueden utilizar diferentes

técnicas gráficas que permitan validar los resultados de los algoritmos utilizados.
12.2.1 Gráficos de Dispersión (Bidimensionales)
Este tipo de gráfico es útil cuando la dimiensionalidad de los datos es p = 2.

De hecho, es probablemente el mejor método para identificar agrupamientos:
Figura 12.1
Gráfico de Dispersión Bidimensional
120
100
80
60
X2
40
20
0
0 10 20 30 40 50 60 70 80 90
X1

12.2.2 Gráficos de Dispersión (Tridimensionales)
Son similares a los gráficos bidimensionales, aunque en determinados casos,

por su representación gráfica, puede no identificarse de manera adecuada la agrupación
adecuada de los distintos conjuntos de datos. Ello se debe a que si bien son un
representación de tres dimensiones, siguen graficándose sólo en dos dimensiones.
Figura 12.2
Gráfico de Dispersión Tridimensional
x3
x2
x1

Figura 12.3
Gráfico de Dispersión de Esferas
140
120
100
80
60
X2
40
20
0
-20 0 20 40 60 80 100
-20
X1
12.2.3 Gráficos de Andrews
En 1972, Andrews sugirió que la observación p-variada para la r-ésima

xr   xr1 , xr 2 ,...., xrp  , podría representarse por la
T
observación experimental, esto es
función:
xr1
fr t    xr 2 sin  t   xr 3 cos  t   xr 4 sin  2t   xr 5 cos  2t   .... (12.4)
2
De este modo, los datos correspondientes a un individuo (o unidad

experimental en general) dan lugar a una función única para dicho individuo.
Las curvas resultantes no sólo representan la imagen de relaciones entre las

variables, sino que son útiles para hallar o validar agrupamientos que podrían existir en los
datos. También son útiles para localizar datos outliers.

Para construir las curvas de Andrews, es importante que las variables de

respuesta se midan en unidades semejantes, por lo que es recomendable estandarizar los
datos antes de construir las gráficas.
Figura 12.4
Gráficos de Andrews
Notar que las interpretaciones gráficas resultantes son afectadas

por el ordenamiento de las variables. Si se cree que ciertas variables son más
importantes que otras, la más importante debe tomarse como x1 , la segunda en
importancia debe tomarse como x2 , y así sucesivamente.
En los casos donde se tienen grandes números de variables de respuesta, los

gráficos de Andrews pueden construirse luego de un análisis de MCP. En dicho caso, x1
debe tomarse como la primera calificación de una componente principal, x2 como la
segunda, etc.

12.2.4 Gráficos de Estrellas
Cada dato se representará mediante una estrella que contendrá tantos rayos o
puntas como variables se deseen representar. Luego, existirá una estrella para cada unidad
experimental.
La longitud del j-ésimo rayo en la estrella de la i-ésima unidad experimental

(xij) dependerá del valor de la variable j en dicho dato.
Figura 12.5
Gráficos de Estrellas
Se utilizan los siguientes criterios para calcular la longitud del rayo:
a) Construir la variable z a partir de la estandarización de x. En cada eje se

marca el cero y los valores de la variable z se representan sobre los ejes
en unidades de desviación estándar.
Se construye la variable z   z1 , z2 ,...., z p  de manera que la variable

T
b)
z j vale 1 cuando x j es máxima y 0 cuando x j es mínima, de acuerdo
a la siguiente expresión:

xij  min i  xij 

zij  (12.5)
max i  xij   min i  xij 
Se construye la variable z   z1 , z2 ,...., z p  de manera que se cumpla

T
c)
0  z j  1 mediante la siguiente expresión:
xij  min i  xij 

zij  (12.6)
max i  xij 
Ejemplo (The World Competitiveness Yearbook 1999):
 x : ocho índices socioeconómicos de un país

x1 :
 Economía interna: inversiones, ahorro, consumo
x2 :
 Economía internacional: inversiones en extranjero, importación, exportación
x3 :
 Gobierno: Política fiscal, justicia, seguridad, deuda externa
x4 :
 Finanzas, sector bancario
x5 :
 Ciencia y tecnología: Inversión en I+D, propiedad intelectual, capacidad
tecnológica
x6 :
 Organización empresarial
x7 :
 Infraestructura, energía y medio ambiente
x8 :
 Sociedad: Recursos humanos, desempleo, calidad de vida, educación

Tabla 12.1
Datos Económicos de Países del Mundo
Observación (i) X1 X2 X3 X4 X5 X6 X7 X8
Canadá 61.0 51.5 64.5 67.0 61.0 68.5 69.0 68.0
Australia 60.0 49.5 67.5 67.0 60.0 64.0 73.0 67.0
Noruega 62.5 50.5 57.5 61.0 59.0 60.5 76.0 70.0
Venezuela 30.0 42.0 44.0 35.5 41.0 37.0 42.0 40.5
P. Bajos 64.5 72.0 61.5 72.5 63.0 73.0 69.5 65.0
Hungría 59.5 58.0 51.5 51.5 49.5 51.0 50.5 57.0
Portugal 58.0 54.5 52.0 59.5 42.0 48.0 49.0 57.5
España 57.5 59.0 63.5 64.5 49.5 57.5 55.0 59.0
China 66.5 54.5 62.0 40.5 49.5 42.5 39.0 57.0
Thailandia 44.5 45.5 62.0 39.0 38.0 38.0 39.0 49.5
Brasil 52.0 44.5 50.5 39.0 41.0 48.5 41.0 39.5
Mexico 53.5 40.5 50.5 36.5 39.0 48.5 42.0 43.0

12.2.5 Gráficos de Caras de Chernoff
Representan observación p-dimensional mediante cara bidimensional. Forma

de cabeza, curvatura de boca, tamaño de ojo y de nariz, posición de cejas etc.,
determinados por valores observados de las p variables.

12.3 Métodos de Agrupación
12.3.1 Método del Vecino Más Cercano
En este método se empieza con un número de agrupamientos igual al total de

observaciones o unidades experimentales que se disponga. Luego, dependiendo de las
distancias entre puntos, se van agrupando hasta que finalmente se dispone de un único
grupo que contiene a las N unidades experimentales o individuos:
 Empiece con N agrupamientos, en que cada uno de ellos contiene

exactamente una unidad experimental
 Enlace los dos puntos más cercanos, de acuerdo a una de las medidas
de distancia definidas anteriormente (ver punto 14.1)
 Defina la desemejanza entre este nuevo agrupamiento y cualquier otro

punto como la distancia mínima entre cualquiera de estos dos puntos
agrupados y el otro punto
 Continúe combinando los agrupamientos que sean los más cercanos

entre sí de modo que, en cada etapa, la cantidad de agrupamientos se
reduzca en uno, y la desemejanza entre cualquier par de éstos siempre se
defina como la distancia entre sus miembros más cercanos
El número apropiado de agrupamientos se encuentra en algún

punto intermedio entre el principio y el final de este proceso.
Para ilustrar este método, consideremos un ejemplo. Las distancias métricas

para un grupo de 6 individuos se presenta en la siguiente Tabla:
1 2 3 4 5 6
1 - 0,31 0,23 0,32 0,26 0,25
2 - 0,34 0,21 0,36 0,28
3 - 0,31 0,04 0,07
4 - 0,31 0,28
5 - 0,09
6 -

La agrupación inicial se denota como G0  1 ,  2 , 3 ,  4 , 5 ,  6 .

Analizando la matriz de desemejanza anterior, se observa que los dos puntos más
cercanos entre sí son el 3 y el 5, con una distancia métrica de 0,04. Luego, se define una
nueva agrupación de la forma G1  1 ,  2 , 3  5 ,  4 ,  6 .
Posteriormente, debe calcularse una nueva matriz de desemejanza o de

distancias métricas.
 La distancia métrica entre el grupo 1 y el 3  5 corresponde al mínimo entre

0,23 y 0,26.
 La distancia métrica entre el grupo  2 y el 3  5 corresponde al mínimo
entre 0,34 y 0,36.
entre 0,31 y 0,31.
entre 0,07 y 0,09.
 El resto de las distancias se mantiene igual
La nueva matriz de desemejanza es la siguiente:
1 2 3-5 4 6
1 - 0,31 0,23 0,32 0,25
2 - 0,34 0,21 0,28
3-5 - 0,31 0,07
4 - 0,28
6 -
La menor distancia métrica corresponde ahora a la existente entre los grupos

6 y 3  5 , que es igual a 0,07. Luego, se define una nueva agrupación de la forma
G2  1 ,  2 , 3  5  6 ,  4 .
 La distancia métrica entre el grupo 1 y el 3  5  6 corresponde al mínimo

entre 0,23 y 0,25.

 La distancia métrica entre el grupo  2 y el 3  5  6 corresponde al mínimo

entre 0,34 y 0,28.
 La distancia métrica entre el grupo  4 y el 3  5  6 corresponde al mínimo
entre 0,31 y 0,28.
1 2 3-5-6 4
1 - 0,31 0,23 0,32
2 - 0,28 0,21
3-5-6 - 0,28
4 -

 2 y  4 , que es igual a 0,21. Luego, se define una nueva agrupación de la forma
G3  1 ,  2  4 , 3  5  6 .
 La distancia métrica entre el grupo 1 y el  2  4 corresponde al mínimo entre

0,31 y 0,32.
 La distancia métrica entre el grupo 3  5  6 y el  2  4 corresponde al
mínimo entre 0,28 y 0,28.
1 2-4 3-5-6
1 - 0,31 0,23
2-4 - 0,28
3-5-6 -

1 y 3  5  6 , que es igual a 0,23. Luego, se define una nueva agrupación de la forma
G4   2  4 , 1  3  5  6 .
 La distancia métrica entre el grupo  2  4 y el 1  3  5  6 corresponde al

mínimo entre 0,31 y 0,28.

1-3-5-6 2-4
1-3-5-6 - 0,28
2-4 -
Finalmente, se obtiene el grupo G5  1  2  3  4  5  6 con todos los

individuos.
12.3.2 Diagrama de Árbol
Una manera de decidir cuándo detener el proceso de agrupación es construir

un diagrama de árbol jerárquico.
Este tipo de diagrama contiene ramas que une individuos y muestra el orden
en que se asignan los individuos a los agrupamientos. Las longitudes de las ramas son
proporcionales a las distancias métricas entre los individuos (o grupos de individuos).
Para el ejemplo anterior, en la siguiente Figura se presenta el árbol jerárquico

que se ha obtenido:

Figura 12.6
Diagrama de Árbol Jerárquico
2 4 3 5 6 1
0,04
0,07
0,21
0,23
Para determinar la cantidad de agrupaciones a conformar, es factible realizar

una inspección visual del árbol jerárquico que se ha construido.
Por ejemplo, con el diagrama de árbol expuesto en la Figura 14.6 no es tan

claro el número de agrupaciones que es posible definir. Una alternativa adecuada podría
ser por ejemplo considerar 4 agrupaciones: G2  1 ,  2 , 3  5  6 ,  4 .

Sin embargo, en un diagrama como el que se muestra en la siguiente Figura

14.7, se podrían definir claramente 3 agrupaciones:
Figura 12.7
Diagrama de Árbol Jerárquico con 3 Agrupaciones

12.3.3 Estadístico F de Beale
Otro procedimiento para determinar el número de agrupaciones a considerar

corresponde al propuesto por Beale.
Suponga que se tienen 2 agrupaciones posibles; la primera tiene a su vez C1

agrupaciones y la segunda tiene C2 agrupaciones, tal que C2  C1 .
Sean W1 y W2 las sumas de cuadrados correspondientes a las distancias

métricas dentro de cada una de las 2 agrupaciones, calculadas desde las medias de éstos.
Es decir, suponga que se tienen nr individuos en el r-ésimo agrupamiento: r  1, 2,...., C1 y
r  1, 2,...., C2 .
Si X rq representa el q-ésimo vector de observaciones en el r-ésimo

agrupamiento, entonces:
C1 nr C1
  X  Xr  X  X r  
T
W1   (12.7)
r 1 q 1
rq rq

C2 nr C2
  X  Xr  X  X r  
T
W2   (12.8)
r 1 q 1
rq rq

Para determinar si la primera agrupación es mejor que la segunda, Beale

sugirió calcular una pseudo-estadística tipo F por medio de:
F* 
W2  W1   N  C1  k1 (12.9)
W1  N  C2  k2   N  C1  k1
donde k1  C1 2 p y k2  C2 2 p ; N es el número total de individuos (unidades
experimentales) y p es el número de variables exógenas.
Si F * es mayor que el valor tabulado de F con  N  C1  k1 grados de

libertad en el denominador y  N  C2  k2   N  C1  k1  en el numerador (a la inversa de
la expresión (12.9)), entonces se elegiría la primera agrupación (aquella con más
agrupamientos) sobre la segunda (aquella con menos agrupamientos).

Notar que eventualemente pueden subdividirse las dos agrupaciones iniciales

y repetir el mismo análisis para determinar finalmente cuáles serían consideradas
semejantes y cuáles no.
12.4 Reducción de la Escala Multidimensional
La reducción de la escala multidimensional es una técnica matemática que

permite mapear en un espacio de menos dimensiones las distancias métricas entre los
individuos (unidades experimentales) que se encuentran en un espacio de muchas
dimensiones (muchas variables exógenas).
Resulta útil, por ejemplo, mapear distancias desde un espacio multidimensional

hacia uno bidimensional, para luego construir y analizar un gráfico de dispersión.
Para aplicar esta técnica, en primer lugar deben calcularse las distancias
métricas entre todas las parejas de individuos; es razonable antes estandarizar los datos.
Supongamos que Drs representa la distancia métrica entre el r-ésimo individuo

y el s-ésimo individuo, dentro de un espacio muestral p-dimensional: r  1, 2,...., N ,
s  1, 2,...., N ; N es el número total de individuos.
Si se representan respectivamente por Z r y Z s los vectores de valores

(estandarizados) del r-ésimo y s-ésimo individuo, la distancia métrica estandarizada entre
estos dos individuos se expresa como:
12
Drs   Z r  Z s   Z r  Z s 
T
(12.10)

Estas distancias se pueden ordenar desde la más pequeña hasta la más

grande.
Sean Dr1s1 la distancia entre los dos individuos más cercanos; Dr2 s2 la
distancia entre los siguientes dos individuos más cercanos, y así sucesivamente hasta llegar
a DrN  N 1 2 sN  N 1 2 , que es la distancia entre los individuos más lejados. Note que el número
N  N  1
de parejas distintas de individuos es .
2

Considere a continuación la representación gráfica de N individuos en el

espacio bidimensional y denote por d rs la distancia entre el r-ésimo individuo y el s-ésimo
individuo, dentro del espacio bidimensional.
En este mismo espacio, sean d r1s1 la distancia entre los dos individuos más
cercanos; d r2 s2 la distancia entre los siguientes dos individuos más cercanos, y así
sucesivamente hasta llegar a d rN  N 1 2 sN  N 1 2 , que es la distancia entre los individuos más
alejados.
La reducción de escala multidimensional intenta localizar N

puntos en un espacio bidimensional de modo que las distancias entre las
parejas de puntos en este espacio corresponda tanto como pueda con las
distancias verdaderas ordenadas entre los puntos observados:
Dr1s1  Dr2 s2  ......  DrN  N 1 2 sN  N 1 2 (12.11)
La localización de los puntos observados en un espacio reducido se realiza de

tal forma que se minimice la expresión:
N r 1
  D  d rs  Drs
2
rs
E r 1 s 1
N r 1
(12.12)
 D
r 1 s 1
rs
sujeto a (12.11).
Para evaluar la calidad del ajuste, se acostumbra comparar gráficamente

las diferencias reales entre las parejas de puntos contra sus distancia
modeladas. Si la representación gráfica de estas parejas de distancias revela una
tendencia monótona creciente, entonces se puede deducir que la gráfica bidimensional
ilustra con exactitud la cercanía de las parejas de puntos.
Evidentemente, para determinar las distancias drs es necesario utilizar

programas computacionales específicos. Notar también que es altamente probable la
inexistencia de soluciones factibles, por lo que resulta necesario relajar algunas de las
restricciones, o incluso todas.


Setnupa (Tci295)

Cargado por

Copyright:

Formatos disponibles

Setnupa (Tci295)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Setnupa (Tci295)

Cargado por

Copyright:

Formatos disponibles

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE

ICT 2512 Microeconomía Interrogación 1 17 de Abril

Pontificia Universidad Católica de Chile

2.2.4 Indicadores de Bondad de Ajuste ............................................... 2-30

Pontificia Universidad Católica de Chile

4.5 Contraste de Subespecificación de Modelos (Test J) .......4-72

Pontificia Universidad Católica de Chile

5.7 Contrastes de Datos Atípicos ........................................... 5-132

Pontificia Universidad Católica de Chile

6.10 Círculo Unitario ................................................................. 6-156

Pontificia Universidad Católica de Chile

9 PROCESOS ESTOCÁSTICOS NO ESTACIONARIOS ...............9-197

Pontificia Universidad Católica de Chile

10.7 Causalidad ......................................................................10-247

Pontificia Universidad Católica de Chile

12.3 Métodos de Agrupación ................................................12-280

Pontificia Universidad Católica de Chile

1 REPASO DE MATRICES Y ANÁLISIS DE DATOS

1.1 Operaciones con Matrices

 a11 a12 .... a1n   a11 a21 .... am1 

1.1.1 Matrices Especiales

D = diag(A) es la diagonal de la matriz A de dimensión n x n:

T se denomina triangular superior de la matriz A:

 a11 a12 .... a1n 

In se denomina matriz identidad de dimensión n x n:

Pontificia Universidad Católica de Chile

C  A  B es definido como cij  aij  bij dado que A y B tienen el mismo

conformables, es decir, A es de r x n y B e de n x p. Debe notarse que:

 A  B y B  A no son necesariamente iguales.

Si A  A  A se dice que A es idempotente, y en general  A   A, p  1 .

1.1.4 Operador de Kronecker

Si A es de m x n y B e de s x t, el operador de Kronecker de A y B, denotado

 a11 B a12 B .... a1n B 

Se cumplen las siguientes propiedades:

Pontificia Universidad Católica de Chile

1.1.5 Matrices Particionadas

La matriz A de m x n puede ser particionada en 4 sub-matrices de la forma:

Luego, si B es también particionada se puede obtener la siguiente expresión:

A A12   B11 B12   A11B11  A12 B21 A11B12  A12 B22 

1.1.6 Matriz Inversa

Dada la matriz A de n x n, si existe una matriz B que satisface AB = BA = In,

1.1.7 Matriz Traspuesta

Se cumplen las siguientes propiedades:

Pontificia Universidad Católica de Chile

 Si A  AT se dice que A es simétrica

1.1.8 Traza de una Matriz

La traza de una matriz cuadrada conformable A de n x n se define como la

Debe notarse que para un producto de matrices cuyo resultado

Pontificia Universidad Católica de Chile

1.1.9 Matrices Ortogonales

Las matrices ortogonales son matrices cuadradas que pueden representar un

Si la operación realizada es sólo un giro, entonces el módulo o norma de Y

Por lo tanto, debe cumplirse que:

La condición de ortogonalidad es la que se obtiene de (1.9), de donde se

Luego, una matriz ortogonal debe tener filas (o columnas) que

1.1.10 Vectores Característicos y Valores Propios

Dada una matriz cuadrada, existen determinadas propiedades de dicha

Pontificia Universidad Católica de Chile

Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos