Setnupa (Tci295)
Setnupa (Tci295)
Setnupa (Tci295)
ESCUELA DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE TRANSPORTE Y LOGÍSTICA
ICT-2950 Tópicos de Econometría
Profesor: Louis de Grange C.
APUNTES DE CLASES
ICT-2950 TÓPICOS DE ECONOMETRÍA
(VERSIÓN 1er SEMESTRE 2014)
(CT-2950 Tópicos de Econometría ii
ÍNDICE
Pág.
1 REPASO DE MATRICES Y ANÁLISIS DE DATOS .....................1-1
1.1 Operaciones con Matrices.................................................... 1-1
1.1.1 Matrices Especiales ........................................................................ 1-1
1.1.2 Suma ................................................................................................ 1-2
1.1.3 Multiplicación.................................................................................. 1-2
1.1.4 Operador de Kronecker................................................................. 1-2
1.1.5 Matrices Particionadas ................................................................... 1-3
1.1.6 Matriz Inversa ................................................................................. 1-3
1.1.7 Matriz Traspuesta ........................................................................... 1-3
1.1.8 Traza de una Matriz....................................................................... 1-4
1.1.9 Matrices Ortogonales .................................................................... 1-5
1.1.10 Vectores Característicos y Valores Propios................................... 1-5
1.1.11 Rango de una Matriz ..................................................................... 1-7
1.1.12 Formas Cuadráticas de una Matriz............................................... 1-7
1.1.13 Diferenciación de Matrices ............................................................ 1-8
1.1.14 Series de Taylor .............................................................................. 1-9
1.2 Análisis de Datos.................................................................... 1-9
1.2.1 Tipos de Variables ........................................................................ 1-10
1.2.2 Media, Varianza, Covarianza y Correlación............................. 1-10
1.2.3 Medidas de Dependencia Lineal de los Datos .......................... 1-12
1.2.4 Datos Atípicos (Outliers)............................................................... 1-12
2 REGRESIÓN LINEAL MÚLTIPLE .........................................2-15
2.1 Supuestos del Modelo.........................................................2-17
2.1.1 Supuestos Sobre la Perturbación................................................. 2-17
2.1.2 Supuestos sobre las Variables Explicativas ................................ 2-18
2.1.3 Supuestos sobre los Parámetros del Modelo ............................. 2-18
2.2 Estimación por Mínimos Cuadrados Ordinarios (MCO)..2-18
2.2.1 Vector de Parámetros ...................................................................2-21
2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras
Finitas y Muestras Grandes) ........................................................ 2-23
2.2.3 Teorema Central del Límite........................................................... 2-28
a11 0 .... 0
0 a 0
D 22
DT (1.1)
.... ....
0 0 .... ann
1 0 .... 0
0 1 0
I (1.3)
.... ....
0 0 .... 1
1.1.2 Suma
1.1.3 Multiplicación
n
C A B es definido como cij aik bkj dado que A y B son matrices
k 1
Se cumple que A B C A B A C
En general, A B B A
n
Dos vectores a A y b B son ortogonales a b si aT b ai bi 0
i 1
n
a aT a
12
a
i 1
2
i
A B C D AC BD
A B C D A C A D B C B D
A B C A B C
A A12
A 11 (1.5)
A21 A22
AB
1
B 1 A1
A1 A1 B 1 B 1
1
A B
1
A T T
A
A B
T
AT BT
A B
T
BT AT
A A
1 T T 1
A AT y AT A son simétricas
A B AT BT
T
tr AT tr A
tr A B tr A tr B
tr A B tr B A
tr k A k tr A
tr A B tr A tr B
Y CX (1.7)
Y T Y X T C T CX X T X (1.8)
CT C I (1.9)
C T C 1 (1.10)
Los valores propios son las medidas básicas de tamaño de una matriz. Dichas
medidas básicas, como la traza o el determinante, son función de los valores propios, y
serán por lo tanto invariantes ante transformaciones lineales que preserven los valores
propios.
Luego, existe una solución no nula (para c 0 ) que verifica:
det A I 0 (1.12)
Las soluciones de (1.11) son los vectores característicos, y los distintos valores
de en (1.12) son las raíces características, que son número reales si la matriz es simétrica.
En general, una matriz tiene h n valores propios. A cada valor propio de la matriz
podemos asignarle un único vector propio que satisface (1.11).
n
tr Ar ir
i 1
n
tr A1 i1
i 1
n
A i
i 1
Las matrices ABC, ACB y CAB tienen los mismos valores propios no nulos
En una matriz simétrica, los valores propios son números reales y los vectores son
ortogonales
df df
(1.13)
dX dxij
5
df
2 (1.14)
dX
3
d T X d T X
X,
d dX
d T X
Si X simétrica entonces 2X
d
df
Si f X aT Xb entonces bT a
dX
df
Si f X A X B entonces AT BT
dX
df
Si X es de n x n y f X X entonces In
dX
df
Si X es de n x n y f X X T AX entonces A AT X
dX
df1 df 2 df n
dx .....
dx1 dx1
1
df1 df 2 df n
dY df1 df 2 df n .....
; ;......; dx2 dx2 dx2
dX dX dX dX
df1 df 2 df n
.....
dxn dxn dxn
dY
Si Y AX entonces AT
dX
1 n
xk xik
n i 1
(1.18)
1 n
V xk xik xk
2
(1.19)
n 1 i 1
Por otra parte, el grado de relación lineal entre dos variables se mide
por la covarianza. La covarianza entre las variables xk y x j se calcula como:
1 n
cov xk , x j xik xk xij x j (1.20)
n 1 i 1
cov xk , x j
rkj (1.21)
V xk V x j
a) Definición
Datos atípicos o Outliers son aquellas observaciones que al parecer han sido
generados de manera distinta al resto de los datos. Pueden ser causados por ejemplo por
errores de medición o digitación de los datos, cambios en los instrumentos de medición o
simplemente representan una heterogeneidad intrínseca de los elementos observados.
xki xk
zki (1.23)
V xk
ax
xa x (1.25)
n 1
n a x a x T n
Va V (1.26)
n 1 n 1 n 1
Las expresiones anteriores indican que un solo dato atípico puede afectar de
manera importante el vector de medias y la matriz de varianzas y covarianzas.
xki mediana xk
4,5 k 1, 2,...., p (1.27)
MEDA xk
x
k V xk ; xk V xk k 1, 2,...., p (1.28)
Y f ; X (2.1)
Y X (2.2)
El error , por su parte, aparece por varias razones. Las tres principales
razones son las siguientes:
E Y / X X (2.3)
2 0 0 .... 0
0 2 0 .... 0
V 2 I (2.4)
.... ....
2
0 0 0 ....
Las variables explicativas no presentan relación lineal exacta entre si (no existe
multicolinelidad perfecta).
La única hipótesis que haremos acerca de los parámetros del modelo es la hipótesis
de permanencia estructural, lo que significa que los parámetros poblacionales j j
se mantienen constantes a lo largo de toda la muestra.
Figura 2.1
Ajuste Según Minimización del Error
Figura 2.2
Ajuste Según Minimización del Valor Absoluto del Error
En la Figura 2.2 se observa los puntos negros presentan tres casos en que el
ajuste es exacto y otros tres casos en que el ajuste es malo. En el caso de los puntos rojos,
se observa que el ajuste en todos los casos es relativamente bueno. Para muchos
modeladores, el ajuste de los puntos rojos es preferible al de los puntos negros. Sin
embargo, la opinión en este segundo caso es dividida, ya que en determinadas situaciones
puede ser preferible predecir exactamente un número pequeño de casos a cambio de fallar
groseramente en otros, en lugar de estar cerca en todos, pero sin apuntar exactamente a
ninguno. Suponga por ejemplo que usted tiene un modelo que predice los números del
Loto; qué preferiría usted si jugara 6 veces, apuntarle al total de los números 3 veces y a
ningún número las otras tres veces, o fallar por poco las 6 veces. Evidentemente, en este
ejemplo es preferible el primer modelo.
Q= Y X Y X
T
min (2.5)
T
min Q Y TY T X TY Y T X T X T X 0 (2.6)
min Q Y TY 2 T X TY T X T X (2.7)
Q
2 X T Y 2 X T X 0 X T Y X T X (2.8)
ˆ X T X X T Y
1
(2.9)
V ˆ E ˆ ˆ
T
(2.10)
E X T X 1 X T X T X 1 X T
T
E ˆ
T
ˆ (2.11)
V ˆ E X T X X T T X X T X
1 1
(2.12)
V ˆ X T X E X T T X X T X
1 1
(2.13)
V ˆ X T X X T E T X X T X
1 1
(2.14)
V ˆ X T X X T 2 I X X T X
1 1
(2.15)
V ˆ 2 X T X
1
(2.16)
ˆ MY M X MX M M (2.17)
donde M I X X T X X T
1
es una matriz de n x n simétrica M M
T
e
ˆT ˆ T M (2.18)
E ˆT ˆ / X E T M / X (2.19)
tr ME T / X tr M 2 I 2tr M (2.21)
2tr M 2tr I X X T X X T 2 tr I n tr X X T X X T (2.22)
1
1
2 tr I n tr I k 2 n k (2.23)
E ˆT ˆ / X 2 n k (2.24)
ˆT ˆ
ˆ 2 (2.25)
n k
ˆT ˆ
XTX
1
Vˆ ˆ (2.26)
n k
ˆ X T X X X
1 T
(2.27)
ˆ X T X X X X X X
1 T T 1 T
(2.28)
ˆ X T X X ˆ X X X
1 T T 1 T
(2.29)
E ˆ E X T X X T
1
(2.30)
E ˆ E X T X X T X T X E X T
1 1
(2.31)
E ˆ X T X E X T E
1
(2.32)
E ˆ (2.33)
Figura 2.3
Ilustración del Sesgo en la Estimación MCO de
Densidad
SESGO
E ˆ
E Estimador de
b X T 1
X X T C Y ˆ CY (2.34)
E b X T 1
X X T C X I CX (2.35)
X X
T
V b E X T X X T C T
1 T 1
XT C (2.36)
X
T
X X T C E T X T X X T C
1 1
V b T
(2.37)
T
X T X X T C 2I XT X XT C
1 1
V b (2.38)
V b 2 X T 1
X CC T V ˆ 2 CC T V ˆ (2.39)
ˆ N ; 2 X T X
1
(2.40)
Figura 2.4
Ilustración de la Eficiencia en la Estimación MCO de
N = 800
N = 300
Densidad
N = 100
N = 30
E ˆ Estimador de
2
ECM ˆ sesgo ˆ V ˆ (2.41)
2
ECMP ˆ sesgo ˆ 1 V ˆ (2.42)
Figura 2.5
Ilustración del Error Cuadrático Medio (ECM) de
Densidad
SESGO
E ˆ E Estimador de
Figura 2.6
Ilustración de la Consistencia en la Estimación MCO de
Densidad
E ˆ Estimador de
El valor medio de los residuos es nulo, lo cual implica que la suma de los
residuos es igual a cero. Esta característica es bastante trivial pues se deduce de la
misma metodología de los mínimos cuadrados, la cual impone a través de su primera
ecuación normal que esta suma sea cero (columna de unos en matriz X).
Puede sin embargo darse el caso que la representación de los datos haga que este
parámetro sea efectivamente cero, por ejemplo si las series Y, X se entregan en forma
de desviación de sus propias medias, lo cual implicaría que la suma de estos residuos
también lo será (por construcción el intercepto es cero). De (2.8) se obtiene:
2 X T Y 2 X T X 0 X T Y X X T 0 (2.43)
La media de los valores estimados por la regresión es igual a la media de los valores
actuales; ello se deduce de (2.8) ya que Yˆ X .
Figura 2.7
Hiperplano de la Regresión y Medias de las Variables
Yˆ X ˆ
X X
d
n xn n N 0; 2 (2.45)
1 2 1
donde: 2
n
1 22 .... n2 y n 1 2 .... n
n
Caso multivariante: un vector de muestras de tamaño n con media y matriz de
varianzas y covarianzas Q.
d
n X n N 0; Q (2.46)
d
n X n n N 0; Q (2.47)
1 1
donde: Q lim
n n
Q1 Q2 .... Qn y n 1 2 .... n .
n
d g 2
n g xn g N 0; 2
(2.48)
x
g
g xn g xn (2.49)
x
d
n g xn g N 0; g T Q g (2.50)
Y X
(2.51)
porcion explicada porcion no explicada
X ˆ ˆ
T
Y T Y X ˆ ˆ (2.52)
Y T Y ˆ T X T X ˆ ˆT ˆ (2.53)
ˆ T X T X ˆ ˆT ˆ ˆ T X T X ˆ ˆT ˆ
1 1 (2.54)
Y TY Y TY Y TY Y TY
ˆT ˆ
R2 1 (2.55)
Y TY
ˆ
2
i
R2 1 i
(2.56)
Y Y
2
i
i
Las expresiones (2.55) y (2.56) son idénticas entre sí sólo si la variable Y tiene
media cero. La expresión (2.56) es la correlación al cuadrado entre los valores observados
de Y y las predicciones calculadas por la ecuación de regresión estimada Yˆ . El valor de
R2 indica el porcentaje de la varianza de Y que es explicada por las variables X. Dicho de
otra forma, R2 mide el éxito de la ecuación de regresión, dentro de la muestra, para
predecir Y.
1
i
2
n 1 1 n k i Vˆ
R 2 1 1 R 2 1 (2.57)
n k 1
Yi Y
2 Vˆ Y
n 1 i
R2 n k
F k 1;n k (2.58)
1 R 2 k 1
Valores grandes para la expresión (2.58) dan evidencia en contra de la
hipótesis nula (parámetros iguales a cero).
Figura 2.8
Cuarteto de Anscombe
12,00 10,00
9,00
10,00
8,00
7,00
8,00
6,00
Variable Y
Variable Y
6,00 5,00
4,00
4,00
3,00
2,00
2,00
1,00
0,00 0,00
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0
Variable X Variable X
14 14,00
12 12,00
10 10,00
Variable Y
Variable Y
8 8,00
6 6,00
4 4,00
2 2,00
0 0,00
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0 20,0
Variable X Variable X
Figura 2.9
Estimación del Cuarteto de Anscombe
1 0
0,50 3,00
se( ) 0,12 1,12
R2-se(y) 0,67 1,24
F(k; n-k+1); (n-k) 17,99 9,00
Var Mod; Var Error 27,51 13,76
t-student 4,24 2,67
Suponiendo que el término de error sigue una distribución normal, y dado que
la media del error cero, se tiene que:
1 2
f i exp i 2 , i 1,...., n (2.59)
2 2
i 2
n
n
1 i
f i exp 2 2
2
(2.60)
i 1
1
n
Y X T Y X
L Y ; ,
2
exp (2.61)
2 2 2
n n 1
ln L ln 2 ln 2 2 2 Y X Y X
T
(2.62)
2 2 2
ˆMV X T X X T Y ˆMCO
1
(2.63)
ˆ 2
ˆ ˆ ˆ
T
2
ˆ ˆ
T
(2.64)
MV MCO
n nk
2 ln L
I E T (2.65)
1
1 2 ln L
I E T (2.66)
Y
j (2.67)
x j
ln Y
j (2.68)
ln x j
Q P ln Q
Recordar que la elasticidad precio-demanda es .
P Q ln P
Figura 2.10
Diagrama de Venn Para Una Variable Explicativa
Figura 2.11
Diagrama de Venn Para Dos Variables Explicativas
Figura 2.12
Diagrama de Venn Para Dos Variables Explicativas Incorrelacionadas
A
C
Y X2
X1
B
A
C
Y X2
F2
Yˆ D
O
F1
X1 B
OF1 OF2
ˆ1 , ˆ2 (2.69)
OB OC
A
C
X2
ˆ
̂ 2
Yˆ D
O
̂1
X1 B
Por otra parte, teniendo en cuenta que las variables están medidas en
desviaciones respecto a sus medias (estandarizadas), el coeficiente de determinación
puede escribirse como:
Yˆ T Yˆ
R (2.70)
Y TY
Yˆ T Yˆ Yˆ T Yˆ Yˆ T Y Yˆ T Y Yˆ T Y
R2 R (2.71)
Y T Y Yˆ T Yˆ Y T Y Yˆ T Yˆ Y T Y Yˆ T Yˆ
OD Yˆ T Yˆ Yˆ T Y
cos (2.72)
OA Y TY Y T Y Yˆ T Yˆ
A
C
Y X2
F2
Yˆ D
O
F1
X1 B
AG1
cos 1 (2.73)
CG2
A
C
Y X2
F2
Yˆ 1
O
F1
G1
G2
X1 B
ˆ ˆ
T
R R ˆT ˆ p
F p ;n k (2.74)
ˆT ˆ n k
AG 1
2
AD
2
1F (2.75)
1;n 2
AD n 2
2
3 INFERENCIA Y PRECICCIÓN
independencia estadística entre los parámetros y el vector de residuos, entonces el
estadístico:
ˆ t
i i
(3.1)
se ˆ
nk
i
sigue una distribución t con (n - k) grados de libertad. Notar que al ser un análisis asintótico
(n grande), la distribución t converge a una distribución normal. Notar además que el
término se ˆ 2 S ii , donde Sii es el i-ésimo elemento de la diagonal de X T X .
1
i
ˆi
t (3.2)
se ˆi
En general, si
ˆi i se ˆi t / 2 , donde /2 define el grado de
confiabilidad exigido de la distribución t con (n - k) grados de libertad, entonces la
hipótesis se rechaza y se dice que el coeficiente es estadísticamente significativo; es decir,
la variable asociada a dicho componente ayuda a describir el fenómeno estudiado.
ˆi t 2 se ˆi i ˆi t 2 se ˆi 1 (3.3)
Rˆ q Rˆ q
1
R X T X 1 RT
T
p
F p ;n k (3.5)
ˆ ˆ n k
T
ˆT ˆ
donde ˆ 2 ˆT ˆ ˆ 2 n k .
nk
ˆ T X T X ˆ k 1
Fk 1;n k (3.6)
ˆT ˆ n k
R2 n k
F (3.7)
1 R 2 k 1 k 1;nk
Esta última expresión (3.7) nos indica que aquellas regresiones que tienen
bajo coeficiente de ajuste, es decir un bajo R2, tienen a su vez un test F también muy bajo,
lo cual permitiría decir que la probabilidad de rechazar la hipótesis es muy baja.
En el caso de 2 parámetros ˆ1 , ˆ2 , cuyos estimadores presenten distintas
varianzas, la región de confianza está dada por una elipse en el plano ˆ1 , ˆ2 . Para
entender este contraste, consideremos la siguiente Figura:
Figura 3.1
Región de Confianza Para Variables Incorrelacionadas
1
̂1
̂ 2 2
Figura 3.2
Región de Confianza Para Variables Correlacionadas
1
̂1
̂ 2 2
Q= Y X Y X
T
min (3.9)
T
L , = Y X Y X 2 R q
T
(3.11)
L
2 X T Y X ˆR 2 RT 0 (3.12)
L
2 RT ˆR q 0 (3.13)
XT X RT ˆR X T Y
(3.14)
R 0 q
Rˆ q
1
ˆR ˆ X T X RT R X T X RT
1 1
(3.15)
Rˆ q
1
R X T X RT
1
(3.16)
ˆ R
ˆ . Del mismo modo, el parámetro valdría cero.
V ˆR 2 X T X 2 X T X RT R X T X RT R X T X
1 1 1 1
(3.17)
Matriz Positiva Definida
g q (3.18)
t
g ˆ q
(3.19)
se g ˆ
nk
La aproximación lineal en series de Taylor para g ˆi implica lo siguiente:
T
g
g ˆ g
ˆ (3.20)
T
g g
V g ˆ
V ˆ
(3.21)
T
g ˆT ˆ 1 g
V g ˆ
n k XTX
(3.22)
12
se g ˆ V g ˆ (3.23)
3.2 Predicción
Y 0 X 0 0 (3.24)
Yˆ 0 X 0 ˆ (3.25)
que corresponde al estimador de E(Y0). Luego, el error de predicción en este caso está
dado por:
e0 Y 0 Yˆ 0 X 0 ˆ 0 (3.26)
V e0 2 V X 0 ˆ 2 X 0TV ˆ X 0 (3.27)
V e0 2 X 0T 2 X T X X 0
1
(3.28)
V e 0 2 1 X 0T X T X X 0
1
(3.29)
12
Yˆ 0 t 2 2 1 X 0T X T X X 0
1
(3.30)
min X 0T X T X X 0
1
(3.31)
X
L X 0T X T X X 0 X 10 1
1
(3.33)
1
L 0
2 X X X 0
T 1 0
(3.34)
X 0
....
0
1
T 0
X X X
0
(3.35)
2 ....
0
n
n
xi 2
i 1
X0 (3.36)
2 ....
n
xik
i 1
2
De la primera fila de (3.36) se deduce que 1 n . En
2 n
consecuencia, podemos escribir (3.36) como:
1
n
xi 2 n
i 1
X0 (3.37)
....
n
xik n
i 1
1
0 1 T 0
X X X (3.38)
n ....
0
1
V e0 2 1 (3.39)
n
Figura 3.3
Intervalo de Confianza Para las Predicciones
Yˆ X ˆ
X X
1
Y Yˆ
2
RECM i i (3.40)
n0 i
1
EAM
n0
Y Yˆ
i
i i (3.41)
1
Y Yˆ
2
i i
n0
U i
(3.42)
1
Y
2
i
n0 i
1
Y Yˆ
2
i i
n0
U i
(3.43)
1
Y
2
i
n0 i
donde Yi Yi Yi 1 y Yˆi Yˆi Yˆi 1 . Este último es válido sólo en series de tiempo.
PPT 1 P 1 P 1
T
(3.45)
Por tanto, se ha conseguido una transformación del modelo de forma que las
perturbaciones cumplen las hipótesis habituales. Al estimador de por MCO en el modelo
transformado se le denomina estimador de Mínimos Cuadrados Generalizados (MCG):
ˆMCG X *T X * X *T Y * X T 1 X X T 1Y
1 1
(3.47)
V ˆMCG 2 X *T X * 2 X T 1 X
1 1
(3.48)
No hay una contrapartida precisa del R2 del modelo ordinario con el R2 del
modelo generalizado. Una elección sería usar el R2 del modelo transformado Y* = X* + *,
pero esta regresión no tiene por qué tener término constante el coeficiente de
determinación no estaría acotado entre cero y uno.
1
ˆMCG X T ˆ 1 X X T ˆ 1Y (3.50)
ˆT ˆ 1ˆ T ˆ 1
1
V ˆMCG X X (3.51)
nk
1
0 .... 0
1
1
0 .... 0
P 2 (3.52)
.... ....
0 1
0 ....
n
1 2 0 .... 0
1 .... 0
P 1
2 1 2
(3.53)
.... .... ....
0 .... 1
4 ESPECIFICACIÓN
“Los modelos son para ser usados, no para creer en ellos” (Henry Theil,
1971).
“Todos los modelos son incorrectos, pero algunos son útiles” (George E.
Box, 1987).
“Los modelos son sólo metáforas, una pequeña ventana para ver el resto
del mundo” (Peter Kennedy, 2005).
De tipo temporal: Para recoger efectos diferentes en función del tiempo en que se
producen las observaciones de las variables (por ejemplo, consumo en periodos de
guerra o paz).
De carácter espacial: Para tener en cuenta la pertenencia o no de la observación
a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas).
Guerra - Paz
Hombre - Mujer
Profesional - Técnico
Gobierno A - Gobierno B
Y i 0 1 x1i i (4.1)
Tabla 4.1
Variables Ficticias
Observación (i) Yi Xi Di
1 Y1 X1 0
2 Y2 X2 0
...... ...... ...... ......
j-1 Yj-1 Xj-1 0
j Yj Xj 1
j+1 Yj+1 Xj+1 1
...... ...... ...... ......
n Yn Xn 1
Y i 0 1 x1i i i 1, 2,..., j 1
(4.2)
Y 0 x 2 D
i i
1 1
i i
i j , j 1,..., n
H0 : 2 0
(4.3)
H1 : 2 0
ˆ2 2 ˆ2
tc (4.4)
Vˆ ˆ2
Vˆ ˆ2
Y i 0 1 x1i i i 1, 2,..., j 1
(4.5)
Y i 0 1 2 D j x1i i i j , j 1,..., n
H0 : 2 0
(4.6)
H1 : 2 0
ˆ2 2 ˆ2
tc (4.7)
Vˆ ˆ2
Vˆ ˆ2
Y i 0 1 x1i i i 1, 2,..., j 1
(4.8)
Y 0 1 2 D
i j
xi
1 3 D
j i
i j , j 1,..., n
H 0 : 2 3 0 (4.9)
El contraste es el siguiente:
Rˆ q
1
R X T X 1 RT
T
R ˆ q p
Fc = F p ;n k (4.10)
n k
T
Tabla 4.2
Transformación de Variables
Exponencial Y exp X Z ln Y ; X X Z ln X
Logarítmico Y ln X Y Y ;W ln X Y W
Potencial Y X Z ln Y ;W ln X Z ln W
1
Hiperbólico Y Y Y ;W Y W
X X
1 1
Doblemente Inverso Y Z ;X X Z X
X Y
El primer y tercer modelo son válidos bajo la suposición de que los errores son
multiplicativos y habría que cotejar haciendo análisis de residuales si el logaritmo de los
errores tiene una media de cero y varianza constante. Si los errores no son multiplicativos
entonces deberían aplicarse técnicas de regresión no lineal que son expuestas más
adelante.
desarrollo en series de Taylor del modelo anterior con respecto a 1 , 2 ,...., k .
Haciendo las derivaciones respectivas, el modelo (4.11) se reduce a:
k k
Y 0 i xi i zi (4.12)
i 1 i 1
donde i i 1 i y zi xi ln xi i 1, 2,...., k .
ˆin n
ˆin 1 1 ˆ (4.13)
ˆ n i
i
k
Y 0 i xi T X (4.14)
i 1
n n 1
ln L ln 2 ln 2 2 T (4.16)
2 2 2
Debe recordarse que si una variable z distribuye f(z), y existe otra variable u
tal que u = (z) (ó z = (u)), se tiene que u distribuye de la forma
z
f z f u ' u . Dado que Y T X Y se obtiene que
u
i yi
yi 1 y por lo tanto ln i 1 yi . Finalmente, el logaritmo de la
yi yi yi
función de verosimilitud en este caso es el siguiente:
n n n
ln L ln 2 ln 2 1 ln yi
2
2 2 i 1
(4.17)
1
2 Y T X Y T X
2
T
n
El término 1 ln yi aparece debido justamente al cambio de variables
i 1
ln y i
n
ln y g i 1
y g exp ln yi n (4.18)
n i 1
yi
Las variables normalizadas son ahora yi* . Luego, podemos calcular el
yg
ajuste de los siguientes modelos lineal y log-lineal en forma directa (suponiendo que las
perturbaciones son normal):
Y * X * (4.19)
ln Y * ln X * (4.20)
Notar que en (4.19) tanto la endógena como las exógenas han sido
normalizadas por su media geométrica.
ln yi* ln yi ln yg (4.21)
n n
n ln yi
n
ln yi
i 1
ln y g i 1
i 1 n
n i 1
n
(4.22)
n
n n n ln yi n
ln y ln y ln e
i 1
*
i
i 1
i
i 1
i 1
0 (4.23)
n
De este modo, el término 1 ln yi* de la expresión (4.17) es igual a
i 1
cero para la versión log-lineal del modelo, pero también es cero para la versión lineal, ya
que 1 . En consecuencia, la estimación MV y MCO produjeron los mismos resultados
cuando los datos son normalizados. En el caso de MCO, se escogerá el que entregue
un mayor valor de R 2 .
Y f ; X (4.24)
1 n
Yi f ; X i
2
min Q= (4.25)
2 i 1
i2
Q n f ; X i
Yi f ; X i 0 (4.26)
i 1
2Q f ; X i f ; X i n 2 f ; X i
T
2
T
Yi f ; X i T
(4.27)
i 1
La matriz (4.27) debe ser positiva definida. Por otra parte, la distribución
asintótica del estimador de mínimos cuadrados no lineal viene dada por:
d
n ˆ NL N 0; 2 1 (4.28)
donde:
1 n
2 p
ˆ 2 Yi f ˆ ; X i
n i 1
2
(4.29)
XTX
ˆ ˆ
1 n f ; X i f ; X i
ˆ (4.30)
n n i 1 T
K f 0 ; X
f ; X f ; X
0
k k0 (4.31)
k 1 0
k
f 0 ; X
Haciendo Z k y reagrupando términos se obtiene:
k0
K K
f ; X f 0 ; X Z k k0 Z k k (4.32)
k 1 k 1
K K
Y f 0 ; X Z k k0 Z k k (4.34)
k 1
k 1
Y
K
Y Z k k (4.35)
k 1
K f ; X 0
f ; X f ; X 0
x x
i
0
i
i 1 xi
(4.36)
1 K K f ; X
2 0
2 i 1 j 1 xi x j
xi xi0 x j x 0j ....
f ; x 0
f ; x f ; x
0
x x 0
x
(4.37)
1 f ; X 1 f ; X
2 0 3 0
x x
0 2
x x 0 .....
3
2 3
2 x 3! x
y reagrupando términos:
f ; x 0 1 x 2 x 2 3 x 3 .... (4.38)
Y 0 1 x 2 x 2 3 x 3 .... (4.39)
R j2 1 1 R 2j
n 1 (4.40)
n k
n k 1 R
R j2
j
2
(4.41)
n k
j
j
ˆT ˆ k j
AIC j ln 2 (4.42)
n n
ˆT ˆ k j ln n
SIC j ln (4.43)
n n
1
i
2
R j2 1 1 R 2j
n 1 1 n k j i (4.44)
n k 1
Yi Y
2
n 1 i
Luego, en este caso el error cuadrático medio se corrige por los grados de
ˆ ˆ
T
libertad: . Sin embargo, en los otros 2 criterios, el error cuadrático medio se corrige
nk
de la siguiente manera:
2 k n ˆ ˆ
T
AIC j ej (4.45)
penalización n
k j n ˆ ˆ
T
SIC j n (4.46)
penalización n
Y X 1 1 X 2 2 (4.47)
ˆ1 X 1T X 1 X 1T Y X 1T X 1 X 1T X 1 1 X 2 2
1 1
(4.48)
Y
ˆ1 1 X 1T X 1 X 1T X 2 2 X 1T X 1 X 1T
1 1
(4.49)
E ˆ1 1 X 1T X 1 X 1T X 2 2 1
1
(4.50)
Si existe una única variable incluida y una única variable omitida, el signo del
sesgo en el estimador es evidente. Sin embargo, si existen varias variables, no es posible.
V ˆ1 2 X 1T X 1
1
(4.51)
1
V ˆ1,2 2 X 1T X 1 X 1T X 2 X 2T X 2 X 1T X 1
1
(4.52)
1 X T X X T X 1 X T X
V ˆ
2 1 2 2 2
1 1
V ˆ1,2 (4.53)
1 2 1
Por otra parte, se puede demostrar también que el estimador ˆ 2 está sesgado
hacia arriba (aún cuando X 1 y X 2 sean ortogonales); sin embargo, para estimar ese
sesgo debiéramos estimar ̂ 2 . Esto último implica que existirán problemas al contrastar
hipótesis sobre ̂1 .
Figura 4.1
Diagrama de Venn Para Una Analizar Omisión de Variables Relevantes
Y Y
X X
Y X 1 1 (4.54)
Y X 1 1 X 2 2 (4.55)
En este caso, se puede demostrar que tanto ̂1 como ˆ 2 son insesgados. Sin
embargo, la varianza del estimador ̂1 será mayor. Esto se explica por la pérdida de
grados de libertad producto de la presencia de más parámetros en la estimación. Luego,
los estimadores si bien son insesgados y consistentes, son ineficientes. Esta pérdida de
eficiencia hace más difícil rechazar la hipótesis nula de que un determinado parámetro vale
cero.
Figura 4.2
Diagrama de Venn Para Una Analizar Inclusión de Variables Irrelevantes
X
Z
H0 : Y X
(4.56)
H1 : Y Z
Y 1 X Z (4.57)
El procedimiento es el siguiente:
5 TEMAS ESPECÍFICOS
5.1 Ortogonalidad
Y X 1 1 X 2 2 (5.1)
ˆ1 X 1T X 1
1
ˆ X 1T X 2 X 1T Y
T (5.2)
ˆ X 2 X 1 X 2T X 2 X 2T Y
2
X 1T Y X 1 X 1 X 1 Y
ˆ1 X 1T X 1
1 T 1 T
0
(5.3)
ˆ 0
2 X 2T X 2 X 2T Y X T X 1 X T Y
2 2 2
1 2 X T X 1
XTX 0
V ˆ 2 1 1
0
T
X2 X2
2
1
T
1
1
X 2 X 2
(5.4)
1 ˆ 2 X T X 1
XTX 0
Vˆ ˆ ˆ 2 1 1
0
T
X2 X2
2
1
T
1
1
ˆ X 2 X 2
(5.5)
ˆT ˆ
siendo ˆ 2 .
nk
uˆ T uˆ
Vˆ ˆ1 ˆ12 X 1T X 1 ˆ12
1
(5.6)
n k1
vˆT vˆ
Vˆ ˆ2 ˆ 22 X 2T X 2 ˆ 22
1
(5.7)
n k2
ˆ1 X 1 X 1 X 1 Y X 1 X 1 X 1 X 2 ˆ2
T 1 T T 1 T
(5.8)
ˆ T
2 X 2 X 2 X 2 Y X 2 X 2 X 2 X 1 ˆ1
1 T T 1 T
ˆ1 X 1 X 1 X 1 Y X 2 ˆ2
T
1 T
(5.9)
ˆ
2 X 2 X 2 X 2 Y X 1 ˆ1
T 1 T
ˆ2 X 2T MX 2 X MY
1 T
2 (5.10)
donde M I X 1 X 1T X 1 X 1T
1
es una matriz de n x n simétrica M M
T
e
idempotente M M T M .
ˆ MY MX 1 0 (5.11)
Yˆ Y ˆ I M Y PY (5.12)
5.2 Multicolinealidad
donde:
1 N
ij zit zi ztj z j ; i, j 1, 2,3.....
N t 1 (5.15)
z1t yt ; z2t x1t ; z3t x2t
1 Nˆˆˆ 1 Nˆˆˆ
2 2
var ˆ1 2
; var ˆ2 2
22 33
T (5.16)
ˆ t
2
ˆ 2
ˆ 2 t 1
; ˆ 2 23
T 3 ˆ 22ˆ 33
ˆ1 ˆ2
t1
ˆ N
1 ˆ ˆ2
22 ; t2
ˆ N
1 ˆ ˆ 2
33 (5.17)
ˆ ˆ13
ˆ12 ˆ ˆ12
ˆ13
ˆ1 ˆ2 (5.20)
1 ˆ 2 1 ˆ 2
En consecuencia, si ˆ 2 1 se cumpliría que ˆ1 ˆ2 .
Figura 5.1
Diagrama de Venn Para Dos Variables Fuertemente Colineales
X Z
i) Problemas de Identificación
Y X 1 1 X 2 2 (5.21)
Y 2 1 X 1 1 2 2 (5.22)
0 1
Y 2 1 X 1 1 2 2 2u (5.23)
Si el determinante de X X
T
es aproximadamente igual a cero
(columnas LD), tanto las estimaciones de parámetros, como las de sus
correspondientes varianzas, tenderán a ser sensibles y, en general, serán
mayores que las que se obtendrían si no existiera multicolinealidad. Por
esta razón, se dice que la multicolinealidad causa un problema de
"inflación de algunos parámetros estimados y de sus varianzas".
ˆi
t t n k (5.24)
ˆ i
En síntesis:
Figura 5.2
Región de Confianza Para Variables Colineales
1
̂1
̂ 2 2
r ij n 2 1 t (5.26)
n2
1 rij2
max
Número de Condición (5.27)
min
Ct 0 1Yt 2 Pt t (5.28)
Ct 1Yt vt (5.29)
C ˆ Y
t 1 t 0 2 Pt t (5.30)
p
zi aij x j i 1,...., q (5.31)
j 1
Z = AX (5.32)
o var zi aiT ai
o cov zi , zk aiT ak
X X a
T
i i ai (5.33)
p
zi aij x j ai1 x1 ai 2 x2 .... aip x p (5.34)
j 1
i 1
i
Figura 5.3
Distribución Normal Bivariada: x1 vs x2
1.5
0.5
0
X2
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
-0.5
-1
-1.5
X1
Figura 5.4
Componentes Principales
1.5
2
0.5
1
0
X2
100
1
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
-0.5
-1
-1.5
X1
x12 x22
La ecuación de la elipse es: c , donde x1 y x2 corresponden a
1 2
los ejes rotados y c es la distancia entre el plano de corte de la
distribución normal bivariada (campana) y el plano definido por
f x1 , x2 0 .
2 p 5
ln R p p 1 2
2
n 1 (5.35)
6
ˆC X T X I X T Y X T X I X T X
1 1
(5.36)
E ˆC X T X I X T X
1
(5.37)
sesgo ˆC X T X I
1
(5.38)
Q= Y X Y X T
T
min
(5.39)
s.a.: r
T
Figura 5.5
Estimador MCO vs Estimados Cresta
1
MCO
C
2
ˆ 2
k (5.40)
2
ˆ MAX
Y Z (5.41)
Pese a ser sesgado, el estimador cresta tiene menor varianza que el clásico
estimador de MCO:
V ˆC 2 X T X I X T X X T X I V ˆMCO
1 1
(5.42)
Además, es posible demostrar que siempre existe un valor de tal que el Error
Cuadrático Medio (ECM, que es la suma de la varianza del estimador más el cuadrado del
sesgo) del estimador Cresta es menor que el de MCO.
Figura 5.6
Error Cuadrático Medio Estimador MCO vs Estimados Cresta
ECMC
ECM
SesgoC
ECMMCO
VarC
5.3 Heterocedasticidad
12 0 0 .... 0
0 22 0 .... 0
V 2 (5.43)
.... ....
2
0 0 0 .... n
Figura 5.7
Perturbaciones Heterocedásticas
50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45
-10
-20
-30
-40
Observaciones
ˆMCG X T 1 X X 1Y
1 T
(5.44)
Por ello, habrá que hacer algún supuesto simplificador sobre la causa de la
heterocedasticidad, una vez que esta sea detectada. Evidentemente, encontrar una
simplificación correcta dotará de plena utilidad (eficiencia) a la estimación con MCG y, a
en caso contrario, un mal diseño de la causa de la heterocedasticidad (de la matriz )
producirá un valor ineficiente de dichos parámetros. Lamentablemente, muy rara vez de
puede inferir una forma funcional adecuada de , por lo que la única alternativa puede
ser estimar dicha matriz o simplemente usar MCO.
Si bien las causas que se citan a continuación no son las únicas posibilidades
que dan lugar a un modelo heterocedástico, sí son las más frecuentes. Notar que en la
mayoría de los casos, la heterocedasticidad es se debe a la presencia de una variable
heterocedástica.
sea más pequeño. Por ello, la varianza de las perturbaciones aleatorias estimada por
sub-períodos distintos de una muestra sería diferente; es decir, habría
heterocedasticidad. La misma situación se puede dar en modelos de corte temporal
en los que la evolución histórica haya marcado diferentes períodos en cuanto a los
valores de una variable en relación a su media, agrupando en algún sub-período
valores altos y en otros valores pequeños, como por ejemplo en períodos de
inestabilidad en el precio del petróleo.
c. Cambio de estructura.
i2 f 2 Z i (5.45)
donde 2 sería el parámetro fijo o parte fija de la varianza, y Zi sería la matriz de variable
o variables que está produciendo ese comportamiento no constante de la varianza de las
perturbaciones aleatorias. Esta función podría ser empleada precisamente como el
“supuesto simplificador” al que anteriormente se hacía referencia para posibilitar la
estimación mediante MCG de sin encontrarnos con más incógnitas que observaciones.
ˆMCG X T 1 X X
1Y y V ˆMCG 2 X T 1 X
1 T 1
ˆMCO X T X X T Y y V ˆMC 0 2 X T X
1 1
ˆMCO X T X X T Y y V ˆMCG 2 X T X X 1 X X T X
1 1 T 1
Sin embargo, se aprecia que el promedio de las pendientes de las línea fucsia
y naranja tiende a parecerse a la pendiente de la línea negra. Esto refleja por lo tanto la
ineficiencia que genera la heterocedasticidad al usar MCO.
Figura 5.8
Ejemplo del Efecto de la Heterocedasticidad
a. Contrastes gráficos.
b. Contrastes paramétricos.
ˆT ˆ
Y X , ˆMCO X T X X T Y , ˆi Yi Yˆi ˆ 2
1
nk
ii) Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:
ˆT ˆ ˆi2
ˆ 2 i2 (5.46)
nk ˆ 2
ˆi2
iii) Se estima una regresión del error i2 calculado en el paso (ii)
ˆ 2
explicado por una constante 0 y el conjunto de las variables Z que se
pretende saber si producen o no heterocedasticidad en el modelo;
notar que las variables Z pueden ser todas o un subconjunto de las
variables X originales. Luego se obtiene el coeficiente de determinación
de este modelo y la varianza de la estimada:
n R2 p2 1 (5.48)
ˆT ˆ
X X
1
Y X , ˆ MCO
T T
ˆ ˆ
X Y , i Yi Yi
ˆ 2
nk
ii) Estimar cuatro regresiones para los valores absolutos del error del
modelo anterior en función de una variable elevada consecutivamente
a " h ", que para cada modelo tomaría los valores -1, -0,5, 0,5 y 1:
ˆT ˆ
X X
1
Y X , ˆ MCO
T T
ˆ ˆ
X Y , i Yi Yi
ˆ 2
nk
ˆi2 0 1 X 1i .... k X ki
k 1 X 1i .... k k X ki
2 2
2
Rˆ (5.50)
k k 1 X 1 X 2 .... k k k X 1 X k
i i i i
3k 1 X 2i X 3i .... 4 k 1 X 2i X ki .... i
El valor de la R2ˆ de este segundo modelo (paso ii) nos dirá si las
variables elegidas sirven o no para estimar la evolución variante del
error al cuadrado, representativo de la varianza estimada de las
perturbaciones aleatorias.
n R2ˆ p2 1 (5.51)
En esta expresión, una coincidencia máxima (todas las distancias son igual
a cero), daría lugar a una correlación de Spearman igual a uno; mientras
que una distancia máxima, provocaría un valor cero de dicho coeficiente de
correlación.
rs n 2
tn 2 (5.53)
1 rs2
Los distintos métodos para detectar este problema servían para probar, en el
caso en el que ésta realmente se diese, la dependencia de la varianza de la perturbación
aleatoria de un conjunto de variables, a partir de lo que hemos llamado un supuesto
simplificador:
i2 f 2 Z i (5.54)
12 0 0 .... 0
0 22 0 .... 0
V 2 (5.55)
.... ....
2
0 0 0 .... n
Formalmente, para probar esto seguimos los siguientes pasos. Dado que la
matriz es una matriz semidefinida positiva (todos los elementos de su diagonal principal
son necesariamente positivos), siempre podremos descomponerla en dos matrices de la
forma:
PPT 1 P 1 P 1
T
(5.56)
es:
1 0 0 .... 0 1 0 0 .... 0
0 2 0 .... 0 0 2 0 .... 0
2 PPT (5.57)
.... .... .... ....
0 0 0 .... n 0 0 0 .... n
Si multiplicamos cada variable del modelo por esta matriz P, tal y como se ha
sugerido, obtenemos unas nuevas variables del siguiente tipo:
donde:
V * E * *T E P 1 * *T P 1
T
P 1
P E
1 T * *T
(5.59)
V * 1 E * *T 1 2 2 I n (5.60)
Luego, podemos afirmar que el modelo transformado (aquel por el que se han
dividido todas las variables por la desviación típica estimada de las perturbaciones
aleatorias) soporta una matriz de varianzas covarianzas de las perturbaciones aleatorias
escalar, con lo que se puede estimar con toda garantía por MCO.
5.4 Autocorrelación
1 2 .... n 1
2 1 .... n 2
V 2 (5.61)
1 2 .... ....
n 1
n2 n 3 .... 1
Figura 5.9
Perturbaciones Autocorrelacionadas
1
0,5
0
0 5 10 15 20 25 30 35 40 45
-0,5
-1
-1,5
Observaciones
Y t X 1t 1 X 2t 2 t (5.62)
Y t 0 X t 1 u t (5.63)
V 2 (5.64)
donde es una matriz definida positiva y simétrica, pero no diagonal. El estimador MCO
de los parámetros puede escribirse como:
ˆ X T X X T
1
(5.65)
V ˆ E ˆ ˆ
T
E X X
T 1
X T T X XX
1
(5.66)
V ˆ 2 X T X X T X X T X
1 1 1
(5.67)
y si N 0; 2 entonces:
ˆ N ; 2 X T X
1
X T
X
1
X X
T 1
(5.68)
Figura 5.10
Ejemplo del Efecto de la Autocorrelación
de la línea negra. Esto refleja por lo tanto la ineficiencia que genera la autocorrelación al
usar MCO.
ˆ ˆt 1
2
t
DW t 2
n
2 1 ˆ (5.69)
ˆ
t 1
t
2
ˆ ˆ
t t 1
ˆ t 2
n
(5.71)
ˆ
t 2
2
t 1
o DW = 2 si ˆ 0 .
o DW 2, 4 si 1 ˆ 0 .
o DW 0, 2 si 0 ˆ 1 .
Durbin y Watson tabularon los valores máximo d max y mínimo d min que
pueden tomar dichos valores críticos cuando la H1 : 0 , los regresores
son fijos y existe término constante en el modelo.
o Si H 0 : 0 frente a H1 : 0
i) se rechaza H 0 si DW d min
n 1
h ˆ N 0;1 (5.72)
1 n 1 V ˆ1
ˆ ˆ t t j
rj t
(5.73)
ˆt2
t
Y t 0 X t 1 t (5.74)
t t 1 u t (5.75)
Y t Y t 1 0 1 X t X t 1 1 u t (5.76)
Y t 0 X t
Y t 0 X t 1 u t (5.77)
ˆ ˆ
t t 1
ˆ t 2
n
(5.78)
ˆ
t 2
2
t 1
Y t Y t ˆY t 1 , X t X t ˆ X t 1 (5.79)
0 0
1 ˆ . Con las estimaciones , se vuelve al modelo
0 1
ˆt ˆt 1
(5.80)
ˆt
A partir de este valor, se vuelve a construir una malla más fina de valores y
se vuelve a repetir el proceso hasta alcanzar convergencia.
Y t X t 1 u t (5.82)
5.5 Endogeneidad
ˆ X T X X T Y X T X X X
1 1 T
(5.83)
ˆ X T X X
1 T
(5.84)
E ˆ E X T X X T
1
(5.85)
E ˆ E X T X X T X T X E X T
1 1
(5.86)
0
sesgo
E ˆ (5.87)
X Y X Y
Y Y
X X X
Yi X i Yi i (5.88)
Yi X i i X i* ui i X i* vi (5.89)
vi
X Y *
i i X X
*
i
*
i vi X *
v
i i
ˆ i
i
i
(5.90)
X
i
* 2
i X
i
* 2
i X
i
* 2
i
E X i*vi E X i ui ui i
E ˆ i
i
2
(5.91)
E X i*
2
E X i ui
i i
2 2 2
E ˆ 2 u 2 1 2 u 2 2 x 2
x u x u x u
(5.92)
Figura 5.11
Ejemplo del Efecto de la Autocorrelación
βˆ - βˆ βˆ - βˆ
T 1
var βˆ c var βˆ s 2
(93)
c s
c s m
Otro método que se utiliza normalmente para detectar una potencial fuente de
endogeneidad producto de la omisión de variables relevantes o de la mala especificación
del modelo es el test de Ramsey para el siguiente modelo:
Z X Y
ˆ X T X X T Y X T X X T
1 1
(5.95)
ˆVI Z T X Z T Y
1
(5.96)
ˆVI Z T X Z T Y Z T X Z T X
1 1
(5.97)
ˆVI Z T X Z T
1
(5.98)
Un instrumento Z débil será aquel que presente una baja correlación con la
variable X instrumentada.
Y Z Z Z Z Y
T T 1
Z T X Z TY
1
ˆVI (5.99)
Y X Z T Z Z T X
1
1
ˆVI Xˆ T Xˆ Xˆ T Y (5.100)
X Z v ˆ Z T Z Z T X Xˆ Zˆ
1
(5.101)
5.6.1 Asimetría
E Y Y
3
A (5.102)
3
donde E Y Y
2
e Y E Y . A partir de la muestra, la asimetría se estima de la
siguiente manera:
1 N
Y Y
3
i
N
Aˆ i 1
(5.103)
ˆ 3
1 N
1 N
Y Y
2
donde ˆ
N i 1
i eY
N
Y .
i 1
i
6
La distribución de este estimador es Aˆ N 0; , por lo que es factible
N
construir el siguiente contraste:
Aˆ
N 0;1 (5.104)
6 N
5.6.2 Curtosis
E Y Y
4
K (5.105)
4
1 N
Y Y
4
i
N
Kˆ i 1
(5.106)
ˆ 4
1 N
1 N
Y Y
2
donde ˆ
N i 1
i eY
N
Y .
i 1
i
24
La distribución de este estimador es Kˆ N 3; , por lo que es factible
N
construir el siguiente contraste:
Kˆ 3
N 0;1 (5.107)
24 N
Combina información sobre asimetría y curtosis para producir una prueba más
general de normalidad:
N k ˆ2 1 ˆ
2
A K 3 2
2
JB (5.108)
6 4
La hipótesis nula en este caso será que todos los datos provienen de la misma
función de distribución multivariante.
1
Vi Wi (5.109)
n 1
donde:
n
x xi x j xi
T
Wi (5.110)
j 1 j i
j
x xi Vi 1 x j xi p2
T
j (5.111)
Yt a1 a2t (6.1)
Yt c e rt (6.2)
Yt a1 a2Yt 1 (6.3)
ln Yt b1 b2 ln Yt 1 (6.4)
1
Yt (6.6)
c abt
donde (a, b, c) son parámetros de calibración. Al ser un modelo no lineal, debe estimarse
con métodos no lineales.
Este modelo es útil cuando creemos que los valores probables a futuro son
promedios de sus valores anteriores. A menudo es razonable suponer que los valores más
recientes de la serie tienen un mayor impacto que los valores anteriores.
Yt 1 Yt i
i
(6.8)
i 0
1 n 1
Yt Yt i (6.9)
n i 0
n 1
Si escribimos 1 Yt 1 1 Yt i , y restamos esta expresión de la
i
i 1
Notar que mientras más cerca está de 1, mayor peso tiene la ponderación
actual de Yt al generar Yt ; valores pequeños de , implican en cambio una serie más
suavizada.
Para ajustar los diversos modelos de tendencia de datos a una serie temporal,
se usa la técnica de MCO:
T
ˆ= argmin Yt Tt
2
(6.12)
t 1
YˆT l TT l ˆ (6.13)
Linealidad
Estacionariedad
Normalidad (Gaussiano)
6.5 Estacionariedad
E Yt (6.15)
V Yt 2 0 (6.16)
cov Yt , Yt k k k
k , k (6.18)
V Yt V Yt k 0 0 0
Sin embargo, por regla general, las series económicas no son series que
proceden de procesos estacionarios, sino que suelen tener una tendencia creciente o
decreciente, y variabilidad no constante.
Por lo tanto, los procesos de ruido blanco de esperanza nula resultan útiles
para caracterizar las propiedades ideales del término de error de un modelo estocástico
dinámico.
1 n
ˆ Yt
n t 1
(6.19)
1 n
Yt ˆ
2
ˆ0 (6.20)
n 1 t 1
nk
Y ˆ Y
t t k ˆ
ˆk t 1
(6.21)
nk
ˆk
ˆ k , k (6.22)
ˆ0
0 n 1
k
V ˆ
n
1 2 1 k
k 1 n
(6.23)
nk
Y ˆ Y
t t k ˆ nk
ˆ
t 1
nk
Y ˆ Y
t t k ˆ
ˆ k k t 1
(6.24)
ˆ0 1 N n
Yt ˆ Y ˆ
2 2
t
n 1 t 1 t 1
1 k 1
V ˆ k
n
1 2
i 1
i2
(6.25)
Bajo la hipótesis nula de que la muestra haya sido generada por un proceso
de ruido blanco, este estadístico se distribuye aproximadamente como una m2 p q .
El valor de m suele fijarse en tres veces la longitud del período estacional más
tres retardos. De esta manera, para series trimestrales tendríamos m = 15 y para series
mensuales m = 39. En el caso de datos que carecen de un período estacional definido, m
se fija en un número "razonable", en función de la longitud de la muestra (m = n/4).
1 1 2 .... k 2 1
1 1 .... k 3 2
1
2 1 1 .... k 4 3
det
.... .... ....
k 2 k 3 1 k 1
k k 1 k 2 k 3 .... 1 k
(6.27)
1 1 2 .... k 2 k 1
1 1 .... k 3 k 2
1
2 1 1 .... k 4 k 3
det
.... .... ....
k 2 k 3 1 1
k 1 k 2 k 3 .... 1 1
Por tanto, los procesos de ruido blanco de esperanza nula resultan útiles para
caracterizar las propiedades ideales del término de error de un modelo estocástico
dinámico. Si Yt es independiente e idénticamente distribuido con media cero y varianza
constante, decimos entonces que es un ruido blanco gaussiano:
Yt t N 0, 2 (6.28)
Figura 6.1
Proceso Ruido Blanco 2 = 2,3
3
0
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
-1
-2
-3
Observaciones
E Yt E t 0 (6.29)
V Yt V t 2 0 (6.30)
2 , si k 0
k (6.31)
0 , k 1
k 1 , si k 0
k (6.32)
0 0 , k 1
Luego, la FAS y FAP valen cero siempre, excepto en k = 0. Este es uno caso
particular en que la FAS y la FAP coinciden.
1
ˆk N 0; (6.33)
n
se obtiene
2
n ˆk 12 (6.35)
m
QBP n ˆk2 m2 (6.36)
k 1
6.6 Ergodicidad
El hecho de decir que el límite de una variable aleatoria coincide con una
N
1
constante, se representa analíticamente así: sea E Yt Y t dt ; un proceso será
2 N N
ergódico en media si, con probabilidad 1, se cumple:
N
1
donde E(Yt) es una variable aleatoria con media E E Yt E Y t dt y
2N N
por lo tanto:
1 N
N
Y E Y
t 1
t t (6.39)
1 N
Yt E Yt V Yt
2
(6.40)
N 1 t 1
Yt i t i (6.41)
i 0
Donde 0 = 1 y
i 0
i
2
.
E Yt E i t i i E t i i 0 0 (6.42)
i 0 i 0 i 0
V Yt V i t i i2V t i 2 i2 (6.43)
i 0 i 0 i 0
E Yt t 1 E t t 1 1 E t 1 t 1 2 E t 2 t 1 ....
(6.44)
E Yt t 1 0 1 t 1 2 t 2 .... i t i
i 1
V Yt t 1 E Yt E Yt t 1
2
E t
2
t 1 E t2 2 (6.45)
Lc = c
L L Y LY L Y Y
i j
t
i
t
j
t t i Yt j
L L Y L L Y LY
i j
t
i j
t
i
t j Yt i j
L iYt Yt i
1
Para a 1 , 1 aL a 2 L2 .... Yt a i LY
i
t Yt
i 0 1 aL
Yt 1 L Yt
2Yt Yt 2Yt 1 Yt 2
6.9.1 Definición
Una ecuación de diferencias (en nuestro caso lineal y finita) se puede definir
como una expresión que relaciona el valor de una variable en el momento presente Yt
con momentos pasados de la misma:
Notar que la relación entre la variable y sus retardos es lineal. Las ecuaciones
de diferencia pueden presentar términos adicionales:
f(t) =
f(t) = + t
f(t) = t
f(t) = + t + (L)t
Las dos primeras expresiones son determinísticas, y las dos segundas son
estocásticas. Las ecuaciones de diferencias finitas pueden ser resueltas mediante forma
recursiva o mediante resoluciones analíticas más complejas.
Yt 1Yt 1 t (6.48)
Yt 12Yt 2 t 1 t 1 (6.49)
.....
t 1
Yt 1tY0 1i t i (6.51)
i 0
Yt g Yt h Yt p (6.52)
a) Solución Homogénea
Yt 0 1Yt 1 t (6.53)
Yt 1Yt 1 0 (6.54)
1 1L Yt 0 1 0 (6.55)
Yt h A1t (6.56)
2 1 2 0 (6.59)
2 4
1 1 2
2
*
(6.60)
1 12 42
2
2 0, 6 0, 08 0 (6.64)
Yt h A1 0, 2 A2 0, 4
t t
(6.65)
2 4 4 0 (6.67)
Yt h A1 2 A2 2 t
t t
(6.68)
1 A1 2 A2 2 0
0 0
(6.69)
3 A1 2 A2 2 1
1 1
(6.70)
b) Solución Particular
Caso 1: g(t) = 0
Yt = g(t) Yt = Y (6.72)
0
Y 0 1Y 2Y .... pY Yt p (6.73)
1 1 2 .... p
t 1 t 1 2 t 2 .... p t p 0 b t (6.76)
b
* (6.78)
1 1 2 .... p
Yt p * * t (6.79)
Yt = dt (6.81)
Resolviendo obtenemos:
b
* (6.82)
1 1d 2 d 2 .... p d p
1
Yt p *d t (6.83)
q L
p L Yt q L t Yt (6.85)
p L t
Yt 0 1Yt 1 t (6.86)
0
en este caso es de la forma: Yt p b0 i t i Yt p 1i t i .
i 0 1 1 i 0
0
Yt g A1 1 1i t i
t
(6.87)
1 1 i 0
0
Dado que Y0 A1 1i t i , se tendrá A1 Y0 0 1i i .
1 1 i 0 1 1 i 0
0
0
1 i 1 1i t i
g i t
Yt Y0 (6.88)
1 1 i 0 1 1 i 0
Sol Homog Sol Part
Notar que esta solución es válida sólo si 1 1, es decir, no existe raíz unitaria
(proceso no estacionario). En tal caso, la solución particular sería:
Yt p Y0 0 t t i (6.89)
i 0
Yt h A1 1 A2 2 Yt h A r t sen wt
t t
(6.91)
Teorema de Moivre
donde A1 y A2 son las constantes arbitrarias habituales que dependen de las condiciones de
borde (iniciales en nuestro caso), y 1 y 2 son las raíces características.
1
cos w (6.92)
2 2
Continuando con el análisis, y dada la forma general (7.78), está claro que la
convergencia (estacionariedad) de la ecuación en diferencias (proceso autorregresivo)
pasa por que 1 y 2 sean menores que la unidad, o más estrictamente, que 1 y 2 deben
caer dentro de un círculo unitario (y no simplemente que deben ser menores que 1).
2 4 i d
1 1 2
1
2 2
* (6.94)
1 12 42 1 i d
2 2
1 i d
;
2 2
*
(6.95)
1 i d
2 ;
2
1 i d
1 ;
2 2
1 i d
2 ;
2 2
Cuando las soluciones son reales, basta el eje horizontal (real) para
representarlas; cuando son imaginarias, deben “caer dentro del círculo unitario” ya que de
otra forma el radio “r” sería superior a 1 y la solución no sería convergente.
Yt t 1 t 1 1 1 L t (7.2)
Figura 7.1
Relación de 2 Procesos MA(1): 1 = 0,4 vs 1 = 0,9 y t N 0;1
1
0.8
0.6
0.4
0.2
tetha=0,4
0
tetha=0,9
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
4
7
-0.2
-0.4
-0.6
-0.8
-1
Observaciones
Cualquier valor de Yt está correlacionado con Yt-1 e Yt+1, pero con ningún otro
valor de la serie.
0
0 1 (7.8)
0
1
1 12 (7.9)
0 1 1
k
k 0 , k 1 (7.10)
0
Por otra parte, los momentos condicionales de un proceso MA(1) son los
siguientes t 1 t 1 , t 2 ,.... :
Figura 7.2
Correlograma Simple 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo
Figura 7.3
Correlograma Simple 1 < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo
Yt t 1 t 1 2 t 2 (7.13)
E Yt (7.14)
0
0 1 (7.21)
0
1 1 1 2
1 (7.22)
0 1 12 22
2 2
2 (7.23)
0 1 12 22
k
k 0 , k 3 (7.24)
0
E Yt (7.26)
.....
cov Yt , Yt q q q 2 (7.30)
Yt t 1 t 1 (7.31)
Yt 1 t 1 1 t 2 (7.32)
Yt 2 t 2 1 t 3 (7.33)
.....
t Yt 1 t 1 (7.34)
etc.
Yt t 1 1iYt i
i
(7.38)
i 1
Esto tiene sentido si 1 1 , ya que, de otro modo, el efecto del pasado sería
más importante para explicar el comportamiento actual. Lo más lógico es pensar que el
efecto del pasado va siendo cada vez menor y el proceso es invertible.
En este caso, debido a que los errores no son función lineal de los parámetros
(no se cumple el supuesto de linealidad requerido para utilizar MCO), la estimación se
resuelve mediante métodos numéricos.
1 Y1 1 0 (7.41)
......
n 1
n 1 1iYn i 1 1n 0
i n
(7.44)
i 0
t 10
t t
0
1
1 10 (7.45)
t
En este caso se tiene que t 1 , por lo que se cumple:
1
zt 1 xt t (7.47)
1
1 1
0
2
2 20 (7.48)
t t
donde t 1 y t 2 . Luego se obtiene:
1 2
Reemplazando xt1 t01 , xt2 t0 2 y zt t0 10 t01 20 t0 2 se obtiene:
p t 0 , 0 q t 0 , 0
t
t
0
i
i i
0
j
j j0 (7.52)
i 1 j 1
ˆtT ˆt
X X
1
V , T
(7.53)
T p q
Puede también producirse por una mala especificación del modelo, es decir,
que no sea el que mejor representa la estructura del proceso estocástico que generó la
serie temporal objeto de análisis.
En este caso, habría que elegir una nueva especificación. La convergencia del
proceso de estimación puede que sea más rápida si el pronóstico inicial es bueno. Para
obtener valores iniciales de los parámetros , pueden utilizarse las estimaciones
realizadas para la FAS y FAP.
Yt t 1 t 1 2 t 2 (7.55)
YT 1 T 1 1 T 2 T 1 (7.56)
YT 2 T 2 1 T 1 2 T (7.58)
YˆT 2 T 2 T (7.59)
ˆT 1 T T 1 RB (7.61)
V ˆT 1 T 2 (7.64)
YˆT h T 0 (7.69)
YˆT h N YT h T ;V ˆT h T (7.76)
Figura 7.4
Pronóstico de un MA(1)
2
1.5
0.5
Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior
-0.5
-1
-1.5
-2
Tiempo
Sin embargo, hasta ahora se han considerado conocidos los valores de los
parámetros y de las innovaciones. En la práctica se deben estimar (ver sección 8.5), y
luego utilizar las mismas ecuaciones pero con los estimadores de los parámetros y los
residuos. Este procedimiento es válido para estimar pronósticos, errores, varianzas e
intervalos.
8 PROCESOS AUTORREGRESIVOS
donde es un término constante y t es una variable ruido blanco, que representa los
errores del ajuste y otorga el carácter aleatorio a la misma.
Yt 1Yt 1 t (8.2)
8.1.1 Media
1 (8.4)
1 1
8.1.2 Varianza
2
0 12 0 2 0 (8.7)
1 12
V Yt Yt 1 0 2 2 (8.9)
8.1.3 Autocovarianza
Yt 1 Yt 1 t yt 1 yt 1 t (8.13)
La variable yt-1 está correlacionada con t-1 pero no con t, debido a que ésta
es una variable ruido blanco y no presenta autocorrelación. Por otra parte:
2 E yt 2 yt E yt 2 1 yt 1 t (8.15)
8.1.4 Autocorrelación
0
0 1 (8.17)
0
1
1 1 (8.18)
0
2
2 12 (8.19)
0
k
En general, se tendrá que k 1k . Los valores de la función de
0
autocorrelación son las sucesivas potencias de 1.
Yt 1 LYt t Yt 1 1 L t (8.20)
L
1
1 1L 0 L 1 1 1 1 (8.21)
1
Figura 8.1
Correlograma Simple 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo
Figura 8.2
Correlograma Simple 1 < 0
1.5
0.5
0
0 1 2 3 4 5 6 7 8 9
-0.5
-1
-1.5
Retardo
Figura 8.3
Correlograma Parcial 1 > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
Retardo
Figura 8.4
Correlograma Parcial 1 < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo
Figura 8.5
Relación de 2 Procesos AR(1): 1 = 0,4 vs 1 = 0,9
1.5
0.5
phi=0,4
0
phi=0,9
100
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
1
4
7
-0.5
-1
-1.5
Observaciones
Se observa que las fluctuaciones del proceso AR(1) con = 0,9 son más
persistentes que con = 0,4, a diferencia del MA(1), que tiene poca memoria.
8.2.1 Media
1 2 (8.24)
1 1 2
8.2.2 Varianza
8.2.3 Autocovarianza
8.2.4 Autocorrelación
0
0 1 (8.30)
0
1
1 (8.31)
0 1 1 1
2
2 1 1 2 (8.32)
0
k
En general, se tendrá que k 1 k 1 2 k 2 .
0
Para que el proceso AR(2) sea estacionario la raíz del operador polinomial
(L) debe caer fuera del círculo unitario, es decir:
1 L L 0 L 1
1 2
2
(8.34)
12 42
1
22
L* (8.35)
1 12 42
22
1 1
Sea G1 y G2 . Si G1 1 y G2 1 entonces G1 G2 G1 G2 1
L1 L2
y además G1 G2 G1 G2 2 .
12
Las raíces serán iguales sólo si 12 42 0 2 . En este caso,
4
1 12
G1 G1 . Luego, si 1 2 , dado que 2 , el modelo resultante es
2 4
estacionario puesto con 1 2 0 .
12
Por otro lado, las raíces serán reales y diferentes si 12 42 0 2 .
4
Puede demostrarse que si G1 1 y G2 1 entonces:
2 1 1 (8.36)
2 1 1 (8.37)
1 2 1 (8.38)
Estas tres últimas condiciones son necesarias y suficientes para que el proceso
AR(2) sea estacionario, incluso cuando las soluciones sean complejas conjugadas.
2
2 1
1 2 1
1
2 1 1
1 2
1 2 .... p (8.41)
1 1 2 .... p
1 L L .... L 0
1 2
2
p
p
(8.42)
L
1
Si Li es una raíz de la ecuación polinomial se demuestra que i , donde
Li
i son las raíces de la denominada ecuación característica:
Luego, generalizando:
.....
p 1 p 1 2 p 2 .... p 0 (8.48)
1 1 0 2 1 .... p p 1 (8.49)
2 1 1 2 0 .... p p 2 (8.50)
.....
p 1 p 1 2 p 2 .... p 0 (8.51)
1 1 1 .... p 1 1
2 1 1 p 2 2
(8.52)
.... .... .... ....
p p 1 p2 .... 1 p
Figura 8.6
Correlograma Parcial > 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
Retardo
Figura 8.7
Correlograma Parcial < 0
1.2
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8 9
-0.2
-0.4
-0.6
-0.8
Retardo
La especificación es la siguiente:
w = W + (8.54)
YT 1 YT T 1 (8.56)
YT 2 YT 1 T 2 (8.58)
YT h YT h 1 T h (8.60)
h
lim YˆT h T 1
(8.62)
y su varianza:
Figura 8.8
Pronóstico de un AR(1)
5
4.5
3.5
Proceso
2.5 Cota Superior
Cota Inferior
1.5
0.5
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo
Sin embargo, existe un método muy sencillo para calcular el pronóstico óptimo
de modelos autorregresivos, conocido como regla de la cadena para pronosticar.
YT 1 YT T 1 (8.68)
YT 2 YT 1 T 2 (8.70)
YT 3 YT 2 T 3 (8.72)
L
L Yt L t Yt (8.75)
L t
1
f Y , , , 2 2
n 2 1 2
exp Y T 1Y (8.76)
2
donde:
: Vector de dimensión q x 1 que contiene todos los parámetros de la parte media móvil
del modelo.
L Y , , , 2 ln Y T 1Y (8.77)
1 2 .... 0
2 1 2 0
(8.78)
.... ....
0 0 .... 1 2
1 .... n 1
2 1 n2
(8.79)
1 .... ....
n 1
n 2 .... 1
Yt Yt 1 t t 1 (8.82)
YT 1 YT T 1 T (8.83)
YT 2 YT 1 T 2 T 1 (8.85)
Hasta este momento se han tratado procesos estacionarios. Sin embargo, las
series de datos económicos suelen caracterizarse por ser no estacionarias: nótese la simple
observación de una tendencia creciente en el tiempo o de unas fluctuaciones que crecen en
tamaño con el paso del tiempo, como, por ejemplo, puede ocurrir con el precio de algunos
activos financieros.
Una predicción con estas series hay que traducirla a una predicción para la
serie origen, en cuyo análisis está interesado el investigador.
Yt Yt Yt 1 (8.88)
Yt Yt 1 t (8.90)
Yt Yt 1 t (8.91)
Yt Yt 1 t Yt 2 t 1 t Yt 3 t 2 t 1 t ..... (8.92)
N
Yt t k (8.93)
t 0
V Yt N 2 (8.94)
1 L L
1
s
2
2s
.... p Lps Yt t (8.98)
p Ls Yt t (8.99)
Dadas estas semejanzas, los resultados van a ser similares entre sí. Por
ejemplo, la primera cuestión que debemos dilucidar es si el proceso autorregresivo
estacional es estacionario o no. Tomando como referencia un proceso autorregresivo
regular, podemos decir que un proceso autorregresivo estacional será estacionario siempre
que las raíces del polinomio de retardos p Ls estén todas fuera del círculo unidad.
1 2 .... p (8.101)
1 1 2 .... p
Yt q Ls t (8.104)
Como todo proceso que solamente tiene parte de medias móviles, este
proceso será siempre estacionario. No será, por el contrario, siempre invertible. Para que
cumpla esta característica es necesario imponerle una condición similar a la de los
procesos de medias móviles regulares. Así, un proceso estacional de medias móviles será
invertible cuando las raíces del polinomio autorregresivo de retardos estén todas fuera del
círculo unidad.
E Yt (8.105)
8.11.5 Identificación de s
a.) El gráfico de la serie (la serie presenta valores superiores o inferiores al valor medio
anual, los cuales se repiten frecuentemente para determinar periodos al año).
b.) Correlograma muestral de dicha serie (FAM presenta valores elevados en los
retardos correspondientes a los periodos estacionales).
Hemos visto que los procesos MA finitos son siempre estacionarios y que los
AR lo son si las raíces de B 0 están fuera del círculo unidad. Consideremos el AR(l):
Yt Yt 1 t (9.1)
Yt t Y0 t t 1 t 2 ..... 1 (9.2)
E Yt t Y0 (9.3)
cov Yt , Yt k 2t t
k (9.6)
V Yt k V Yt t k t t k
y su varianza:
V ˆT 1 2 (9.11)
V ˆT 2 2 2 (9.14)
V ˆT h h 2 (9.15)
Yt Yt 1 t (9.16)
YˆT h YT h (9.18)
Figura 9.1
Pronóstico de un Paseo Aleatorio Sin Tendencia
3
Proceso
0 Cota Superior
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Cota Inferior
-1
-2
-3
Tiempo
Figura 9.2
Pronóstico de un Paseo Aleatorio Con Tendencia
10
Proceso
5 Cota Superior
Cota Inferior
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Tiempo
1 L L .... L 1 L
1 2
2
p
p d
Yt 1 1 L 2 L2 .... q Lq t (9.19)
L d Yt L t (9.20)
L wt L t (9.21)
Yt Yt Yˆt Yt ˆ0 ˆ1t (9.22)
ˆ1
ˆ11 ˆ1 (9.23)
ˆ1
ˆ21 1 ˆ1 ˆ1
(9.24)
ˆ ˆ1 1 ˆ 2
22
ˆ31 1 ˆ1 ˆ 2 ˆ1
ˆ32 ˆ1 1 ˆ1 ˆ 2 (etc.) (9.25)
ˆ ˆ
33 2 ˆ1 1
ˆ 3
Luego, los valores de ˆ11 , ˆ22 , ˆ33 ,...., ˆkk se usan para construir la FAP.
Yt 11Yt 1 t (9.26)
1 k 1
V ˆ k
T
1 2
i 1
ˆ12
(9.29)
Si los coeficientes muestrales caen dentro del intervalo, se concluye que los
coeficientes de autocorrelación no son significativamente distintos de cero. En la práctica,
esta fórmula permite identificar procesos de media móvil, para los cuales k se anula a
partir de algún k > q.
1
V ˆkk , k p
T
(9.30)
1
por lo que el intervalo de confianza, al 95%, para contrastar ˆkk 0 es igual a 1,96 .
T
ARMA(p,q):
1 L L
1 2
2
.... p Lp wt 1 1 L 2 L2 .... q Lq t (9.31)
El proceso es estacionario.
El proceso es invertible.
L
L wt L t t w (9.32)
L t
ˆ L
ˆt wt (9.33)
ˆ L
Si están presentes los términos de media móvil, esta expresión es no lineal, por
lo que deben utilizarse métodos de estimación no lineales. Adicionalmente, debe emplearse
algún criterio para inicializar la serie (elegir números para los valores iniciales no
observada).
t
2
T ln t
(9.34)
2 2
Dado que los parámetros a estimar están dentro del segundo término de la
derecha, se obtiene que la estimación por máxima verosimilitud condicionada y mínimos
cuadrados es la misma.
Las medias no condicionales de los errores t son cero siempre, mientras que
si no existe tendencia, la media no condicional de los wt iniciales también será cero. Esto
proporcionará una aproximación inicial adecuada si los valores reales de i
no son cercanos a 1 y si T es grande respecto a p y q.
Si el modelo contiene una parte MA, se tendrá que las ecuaciones de Yule-
Walker que relacionan la función de autocorrelación con los valores de los parámetros no
será lineal. Ello implica que se pueden obtener soluciones múltiples para un determinado
estimador de la parte MA.
Notar que los valores de los parámetros estimados con las ecuaciones de
Yule-Walker corresponden a la función de autocorrelación muestral, y son por lo tanto una
estimación de la función de correlación real.
1
rˆk N 0, , k (9.37)
T
Hay que tener en cuenta que esta aproximación realizada sobre la varianza
no es muy adecuada tanto para la FAS como para la FAP, especialmente en
los retardos bajos. Se podría concluir que un coeficiente es estadísticamente no
significativo cuando en realidad lo es.
La FAS y la FAP de los residuos del modelo estimado son instrumentos valiosos
a la hora de reformular el modelo, en caso de que no se comporten como un
proceso ruido blanco.
ˆi i
H 0 : i 0 tT k (9.40)
V ˆi
ˆj j
H0 : j 0 tT k (9.41)
V ˆj
ˆ
H0 : 0 tT k (9.42)
V ˆ
Si alguna de las raíces de 1 ˆ1 L ˆ2 L2 .... ˆq Lq 0 está próxima a uno, es
posible que el modelo esté sobre-diferenciado.
Si existen raíces comunes L*i L*j , se podría utilizar para las predicciones un
modelo con dos parámetros menos, y el modelo sería un ARMA(p-1, q-1).
El modelo estimado para el período muestral puede diferir del que se obtendría
para los períodos de predicción. Puede existir este problema siempre que
alguna de las correlaciones entre estimadores tome un valor superior a 0,6.
Para evitar este problema, puede ser eficaz eliminar algún parámetro aún a
costa de que el grado de ajuste sea más pequeño. No obstante, si todos los
coeficientes son significativos no sería aconsejable eliminar coeficientes del
modelo.
g) Análisis de Estabilidad
T 2 T1 2 T2 2
ˆt ˆ1t ˆ2t k
t 1
F T
t 1 t 1
F k ,T 2 k (9.45)
1 2 T 2
2
ˆ1t ˆ2t T 2k
t 1 t 1
donde todas las variables con subíndices inferiores a T+1, dejan de ser aleatorias, por lo
que sus esperanzas matemáticas coinciden con sus realizaciones y E T 1 0 , por
hipótesis.
a) Error de Predicción
Yt t 1 t 1 2 t 2 3 t 3 .... (9.51)
Yt s t s 1 t s 1 2 t s 2 .... s 1 t s s 1 s j t j (9.52)
j 0
ˆt s t s 1 t s 1 2 t s 2 .... s 1 t s s 1 s j ˆ s j t j (9.55)
j 0
L Yt L t Yt L L t L t
1
(9.59)
L
b) Capacidad de Predicción
ˆ 2
t s 1 t s
s 0
h2 (9.60)
ˆ
2
disponible en el momento (t + s) y ˆ 2
ˆ t
2
, con k el número de
T k
parámetros del modelo (k = p + q).
Si el valor calculado en
¡Error! No se encuentra el origen de la referencia. supera al
tabulado, habrá diferencias significativas entre los verdaderos valores y los
estimados, por lo que se rechazará la hipótesis nula de estabilidad.
Figura 9.3
Correlogramas Para Distintos Procesos
1.2 1.2
1 1
0.8 0.8
rho(k)
rho(k)
0.6 phi = 0.5 0.6 phi = 0.8
0.4 0.4
0.2 0.2
0 0
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
k k
1.2 1.2
1 1
0.8 0.8
rho(k)
rho(k)
0.4 0.4
0.2 0.2
0 0
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
0
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
k k
9.3.2 Sobrediferenciación
Yt Yt 1 t t 1 1 L Yt 1 L t (9.61)
y que es igual a:
1 1
1 0,5 (9.63)
1 1 1 1
2
Por tanto, es una varianza que tiene hacia infinito. Si tomamos primeras
diferencias, el modelo anterior nos queda de la siguiente manera:
Yt t (9.64)
2Yt 2 t t t 1 (9.65)
Yt 1Yt 1 t (10.1)
Yt t t (10.2)
Figura 10.1
Proceso con Tendencia Determinista
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones
Yt t 1Yt 1 t (10.3)
Yt Yt 1 t E Yt t Y0 (10.4)
Figura 10.2
Proceso con Tendencia Estocástica
45
40
35
30
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Observaciones
L Yt 0 1t L t (10.5)
L Yt 1 1 L L t (10.6)
Yt Yt 1 ut
(10.7)
X t X t 1 vt
Efectivamente, en la regresión:
Yt 0 1 X t t (10.8)
t Yt 1 X t (10.9)
T T
t ut 1 vt (10.10)
t 0 t 0
Uno de los métodos que suelen proponerse como suficientes para la detección
de la no estacionariedad de una serie es, erróneamente, el del análisis de representaciones
gráficas de la misma.
t 1
1 1 Yt Y0 t i (10.12)
i 0
K
ˆ k2
QLB T T 2 T2 k (10.14)
k 1 T k
El estadístico es de la forma:
n
ˆ ˆt 1
2
t
DW t 2
n
(10.15)
ˆtt2
t 2
Yt 0 t (10.16)
ˆ ˆt 1 Y Yt 1
2 2
t t
DW t 2
n
t 2
n
(10.17)
ˆ Y
2 2
tt t Yt
t 2 t 2
Yt 1Yt 1 t (10.18)
Yt Yt 1 t (10.19)
Tras este experimento de Dickey, fue Fuller (1976) quien obtuvo la distribución
límite apropiada y publicó, tabulados, toda una batería de valores críticos, dado que el
valor empírico del contraste varía en función del tamaño muestral.
Yt Yt 1 0 1Yt 1 Yt 1 t
Yt 0 1 1 Yt 1 t 0 Yt 1 t (10.20)
Decir que es nulo es lo mismo que decir que 1 1 , es decir, que existe una
raíz unitaria; decir que es menor que cero equivale a decir que 1 1 (proceso
autorregresivo estacionario).
Por lo tanto, antes de estimar los parámetros del modelo, hay que decidir si el
proceso generador de datos será el simple, como el expuesto anteriormente (10.18), ó
contendrá una constante 0 , un término tendencial determinista t , o ambas cosas
simultáneamente.
Yt Yt 1 t (10.21)
Yt 0 Yt 1 t (10.22)
Yt 0 t Yt 1 t (10.23)
Tal y como describen de forma muy clara Suriñach et al. (1995), los modelos
(10.22) y (10.23) presentados por Dickey y Fuller son en realidad formas reducidas de
determinados modelos estructurales.
Así, el modelo (10.22), que contrasta la hipótesis nula de paseo aleatorio con
deriva 0 frente a una alternativa de esquema AR(1) estacionario, es la forma reducida
del modelo VAR siguiente:
Yt ut ut 1 Yt 1
Yt 1
1 1Yt 1 t (10.24)
ut 1ut 1 t Yt 1ut 1 t
0
Yt t ut
(10.26)
ut 1ut 1 t
en que 0 1 1 1 y 1 1 .
Tabla 12.3
Valores Críticos de D-F al 95%
0 t -2,89
Yt 0 Yt 1 t 0 0 0 t / -2,54
0 0 F , -4,71
0 tt -3,45
0 0 0 tt / -3,11
Yt 0 t Yt 1 t 0 0 t / -2,79
0 F , -6,49
0 0 F , , -4,88
Dolado et al. (1990) y Perron (1990) propusieron, entre otros autores, seguir
un proceso en etapas a fin de aumentar la probabilidad de éxito en la elección del modelo
de referencia:
Está claro que lo expuesto hasta este momento permite contrastar la presencia
de una o más raíces unitarias en una determinada serie temporal para la que se
supone un proceso AR(1).
p
p
donde 1 i y i j .
i 1 j 1
2k ˆi2
AIC log i (10.28)
n n
2k
MAIC log ei2 n (10.29)
T k i
1
T
donde ˆ ei2 n
2
Y 2
t 1
i t k 1
10.5 Cointegración
Cuando se lleva a cabo la regresión estática entre variables I(1) afectadas por
tendencias comunes, se encuentra un valor de R 2 elevado sin que exista una relación de
causalidad. Además el valor del estadístico de Durbin - Watson (DW) es muy
pequeño lo que indica que los errores de la ecuación están autocorrelacionados
positivamente.
Este es el problema de las regresiones espurias que implica no sólo que los
estimadores MCO de los coeficientes son ineficientes sino que los estimadores de los
errores estándar son inconsistentes.
Y
Z t Yt 1 1 , Yt , Z t 0 ut (10.30)
X
Si las series son CI(1,1), Z t es estacionaria, por lo que el error será una
serie estacionaria.
Se contrasta la hipótesis nula de que los residuos ut tienen una raíz unitaria
contra la alternativa de que son I(0). De esa forma, la hipótesis nula es la no
cointegración y la alternativa la cointegración. Podemos aplicar la prueba DF o
ADF. Engle y Granger consideran que existe una relación de cointegración entre las
variables si los residuos ut son I(0).
Así, cuando el valor DW calculado es menor que el tabulado para cierto nivel
de significación, se acepta la hipótesis nula de no cointegración. Si es mayor, se acepta la
hipótesis de cointegración. Los valores críticos de este contraste están tabulados y pueden
verse en Sargan-Bhargava (1983).
Una regla práctica muy útil es que si DW < R 2 las series no están
cointegradas.
En el caso de que el vector de variables del modelo esté constituido por dos
variables, Yt y X t , la relación a largo plazo entre ambas variables puede expresarse
como:
Yt * X t t (10.31)
Por otra parte, su relación a corto plazo puede expresarse, de acuerdo con el
MCE, de forma que las desviaciones respecto a la tendencia a largo plazo tienden a
corregirse.
Yt Yt * g Yt 1 X t 1 (10.32)
t 1
donde g es un parámetro cuyo valor es menor que cero (para compensar la diferencia
generada en el período anterior).
Yt * 1 X t1 2 X t2 ..... k X tk t (10.34)
10.7 Causalidad
r r
X t 0 i X t i jYt j t (10.37)
i 1 j 0
H 0 : i 0, i 0; i 1,...., r
(10.38)
H 0 : i 0, i 0; i 1,...., r
Para ello se aplica un test F de manera complementaria con los test-t; las
restricciones del test F en este caso corresponden a los valores de los parámetros según las
hipótesis nulas.
11 ANÁLISIS FACTORIAL
Utilizar estas nuevas variables en otros análisis estadístico de los datos, por
ejemplo para predicción.
Los factores no son variables independientes simples sino que cada uno está
constituido por un grupo de variables que caracterizan el concepto que representa el
factor.
Es por esta causa que se clasifica esta técnica entre las técnicas de
interdependencia. (Tanto las variables a un lado de la ecuación como en el otro están
interactuando como criterios y predictoras).
Nota en álgebra
Nota en cálculo
Nota en estadística
Nota en derecho comercial
Nota en derecho laboral
Nota en contabilidad financiera y de sociedades
Nota en análisis de costos
Nota en comunicación comercial
Nota en administración
Nota en econometría
Factor 2: memoria
Una ventaja que presenta el FA respecto al MCP, es que las nuevas variables
creadas (denominadas factores) son en general mucho más fácil de interpretar.
Recordemos que el MCP genera una transformación ortogonal de las variables
y no depende de un modelo subyacente. El FA, en cambio, sí depende de un
modelo estadístico razonable. Por lo tanto, el MCP es descriptivo y el FA tiene
un modelo estadístico formal.
En el MCP el interés se centra en la explicación de la variabilidad de las
variables (varianzas), mientras que en el FA el interés se centra en la estructura
de la matriz de varianzas y covarianzas (correlaciones).
En ambos casos pueden existir problemas con la escala de los valores de las
variables.
cov f k ; j 0 , j , k
X F (11.2)
donde:
X x1 , x2 ,...., x p
T
(11.3)
F f1 , f 2 ,...., f m
T
(11.4)
F N 0; I
1 0 .... 0
0 .... 0
N 0;
2
.... .... .... ....
0 0 .... p
F T 0
X F (11.7)
V X (11.8)
V F (11.9)
V F T V (11.10)
T (11.11)
m
Del mismo modo, se tendrá que
k 1
2
jk j 1 , por lo que la comunidad de
m
la j-ésima variable es simplemente
k 1
2
jk .
P TT T T (11.13)
1) T Diag
Con esta normalización, los vectores que definen el efecto de cada factor
sobre las p variables observadas son ortogonales. De esta manera, los factores,
además de estar incorrelacionados, producen efectos lo más distinto posible
sobre las variables. Por otra parte, esta normalización asegura una matriz de
cargas única.
2) T 1 Diag
Con esta normalización, los efectos de los factores sobre las variables,
ponderados por las varianzas de las perturbaciones de cada observación, se
hacen incorrelacionados. También se define una matriz de cargas única.
Por otra parte, dado que deben respetarse ciertas restricciones respecto de los
valores que pueden tomar las cargas jk y las varianzas j , directamente se rechazan
todas aquellas soluciones absurdas (por ejemplo con valores negativos para j o valores
mayores que uno para jk ). Adicionalmente, puede exigirse que T Diag o
1 T Diag .
ˆ T
(11.14)
Dado que ˆ es simétrica, puede descomponerse como:
ˆ HGH HG HG
T 12 12 T
(11.15)
dado que ˆ es de rango m, la matriz G debe ser diagonal del tipo:
G1mm 0m p m
G (11.16)
0 p m m 0 p m p m
1)
Partir de una estimación inicial de ˆi o de ˆ i mediante ˆ i Diag
ˆ ˆT
2) Calcular la matriz cuadrada y simétrica Qi i
T T
Qi H i1Gi1 H i1 H i2Gi2 H i2 (11.19)
donde Gi1 contiene los m mayores valores propios de Qi , y H i1 sus vectores propios.
Elegiremos m de manera que los restantes valores propios contenidos en Gi2 sean todos
pequeños y en magnitud similar.
12
4) Tomar ˆi 1 H i1 Gi1 y volver al paso (1).
1
ii. Tomar ˆ jj , donde sii es el elemento diagonal i-ésimo de la matriz de
s jj
precisión 1 . Esto equivale a tomar hˆ 2j s 2j R 2j , donde R 2j es el coeficiente
de correlación múltiple entre xj y el resto de las variables. Mientras mayor sea
el valor de R 2j , mayor será la comunidad de hˆ 2j . Notar también que el
término s 2j representa la j-ésima columna de valores de la matriz .
1
Paso 1 (iteración 0): considerando ˆ jj , se obtiene:
s jj
1
52, 09 0 0
0, 019 0 0
1
ˆ 0 0 0 0 0, 019 0 (11.22)
52, 09
0 0 0, 017
1
0 0
60, 21
T T
Paso 3: realizamos la descomposición espectral Q0 H 01G01 H 01 H 02G02 H 02 .
Sin embargo, para ello necesitamos previamente los valores propios de la matriz Q0 . A
partir de (11.24) se deduce directamente que los valores propios de la matriz Q0 son
0.379, 0.094 y –0.108. Dado que uno de ellos es negativo, la matriz no es positiva
definida.
Como hay un valor propio mucho mayor que los demás (0.379) consideraremos sólo un
factor. En consecuencia, la descomposición es la siguiente:
vector propio para 0,379
T
0,331 0,15 0,19 0, 670 0, 670
0,15 0,11 0, 03 0, 442 0,379 0, 442
0,19 0, 03 0,143 0,596 0,596
T
(11.25)
0, 036 0, 741 0, 036 0, 741
0, 783 0, 438 0, 094 0
0 0, 783 0, 438
0,108
0, 621 0,508 0, 621 0,508
vectores propios para 0,094 y 0,108
12
Paso 4: calculamos ˆ1 H 01 G01 :
Paso 1: Estimamos ˆ1 Diag ˆ1ˆ1T :
0,331 0,15 0,19 0, 412
ˆ1 Diag 0,15 0,11 0, 03 0, 272 0, 412 0, 272 0,367 (11.27)
0,19 0, 03 0,143 0,367
0,180 0 0
ˆ
1 0 0, 056 0 (11.28)
0 0 0, 025
T T
Paso 3: realizamos la descomposición espectral Q1 H11G11 H11 H12G12 H12 . A
partir de (11.30) se deduce directamente que los valores propios de la matriz Q1 son
0.307, 0.067 y –0.215. En consecuencia, la descomposición es la siguiente:
T
0, 05 0,15 0,19 0,559 0,559
0,15 0, 074 0, 03 0, 450 0,307 0, 450
0,19 0, 03 0,135 0, 696 0, 696
T
(11.31)
0, 081 0,825 0, 081 0,825
0, 067 0
0,806 0,385 0,806 0,385
0 0, 215
0,586 0, 414 0,586 0, 414
12
Paso 4: calculamos ˆ2 H11 G11 :
0,559 0,310
ˆ2 0, 450 0,307 0, 249
(11.32)
0, 696 0,386
0, 269
3 0, 229
ˆ (11.33)
0, 407
1 0 0, 254 0 0
N 0 ; 0
2 0, 068 0 (11.35)
3
0 0
0 0, 011
ˆ 3
No Incluir Factores Triviales: los factores triviales son aquellos que tienen
sólo una variable original cargando sobre el factor. Ello implica que dicha
variable no se correlaciona con el resto, y es por sí misma un factor
subyacente. En tal caso, se elimina dicha variable antes del FA.
Esto no significa que la variable no sea importante, sino que sus características
son independientes de las otras variables. En síntesis, no tiene sentido construir
factores si se pueden emplear ellas mismas.
Este método permite considerar que si por ejemplo, 6 factores son adecuados,
eventualmente pueden ser adecuados también 5 ó 4. Pero si 6 factores son inadecuados,
es necesario incrementar el número de factores.
Sin embargo, estos métodos tienden a producir factores triviales, los que
deben eliminarse.
Además, dado que los factores son independientes, sería bueno (pero no
fundamental) que las variables de respuesta no se carguen mucho sobre distintos factores.
Por lo tanto, los factores que afectan a una determinadas variables no afectan
al resto, y viceversa.
1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
1,0
f2
4 6
5
0,0
1 f1
3
2
-1,0
p p 2
2
2
jq
m j 1
b 4
b jq p
1 m p 2 p 2
p
j 1
V b jq b jq
*
(11.36)
tij p q 1 j 1 j 1 q 1 p
2
p
La cantidad dentro de los paréntesis b 2jq en esta expresión es la
j 1
varianza de las cargas elevada al cuadrado, dentro de la q-ésima columna de B.
Kaiser suma las varianzas de las cargas elevadas al cuadrado que están
dentro de una columna, a través de las distintas columnas (q). La matriz ortogonal T que
produce un máximo para esta suma de varianzas de las columnas da como resultado la
rotación VARIMAX de Kaiser de la matriz de carga de los factores tij bij ij .
Debido a ello, Kaiser sugirió que sería mejor dividir las cargas de los factores
para cada variable, por la comunidad propia de la variable, y luego maximizar la suma de
las varianzas de las razones elevadas al cuadrado dentro de una columna.
1 m p b4 p b2 2
V 2
ij p
t
p jq jq
q 1
4
j 1 h j
j 1 h 2
(11.37)
j
Notar que:
4 6
5
0,0
1 f1
3
2
-1,0
Z r
ˆ F 1 Z r ˆ F (11.39)
1
Fˆr ˆ Tˆ 1ˆ ˆ Tˆ 1Z r (11.40)
Z 0 P
N ; T (11.41)
F 0 I
E F Z Z * T P 1Z * (11.42)
1
Fˆr ˆ T
ˆ ˆ T ˆ Zr (11.43)
Una alternativa puede ser por ejemplo considerar el valor promedio de todas
aquellas variables que tengan correlación elevada con un determinado factor.
Una segunda alternativa puede ser considerar aquella variable que presenta
una mayor correlación con el factor como cuantificación de este mismo.
12
d rs xr xs 1 xr xs
T
(12.3)
Figura 12.1
Gráfico de Dispersión Bidimensional
120
100
80
60
X2
40
20
0
0 10 20 30 40 50 60 70 80 90
X1
Figura 12.2
Gráfico de Dispersión Tridimensional
x3
x2
x1
Figura 12.3
Gráfico de Dispersión de Esferas
140
120
100
80
60
X2
40
20
0
-20 0 20 40 60 80 100
-20
X1
xr1
fr t xr 2 sin t xr 3 cos t xr 4 sin 2t xr 5 cos 2t .... (12.4)
2
Figura 12.4
Gráficos de Andrews
Cada dato se representará mediante una estrella que contendrá tantos rayos o
puntas como variables se deseen representar. Luego, existirá una estrella para cada unidad
experimental.
Figura 12.5
Gráficos de Estrellas
Tabla 12.1
Datos Económicos de Países del Mundo
Observación (i) X1 X2 X3 X4 X5 X6 X7 X8
Canadá 61.0 51.5 64.5 67.0 61.0 68.5 69.0 68.0
Australia 60.0 49.5 67.5 67.0 60.0 64.0 73.0 67.0
Noruega 62.5 50.5 57.5 61.0 59.0 60.5 76.0 70.0
Venezuela 30.0 42.0 44.0 35.5 41.0 37.0 42.0 40.5
P. Bajos 64.5 72.0 61.5 72.5 63.0 73.0 69.5 65.0
Hungría 59.5 58.0 51.5 51.5 49.5 51.0 50.5 57.0
Portugal 58.0 54.5 52.0 59.5 42.0 48.0 49.0 57.5
España 57.5 59.0 63.5 64.5 49.5 57.5 55.0 59.0
China 66.5 54.5 62.0 40.5 49.5 42.5 39.0 57.0
Thailandia 44.5 45.5 62.0 39.0 38.0 38.0 39.0 49.5
Brasil 52.0 44.5 50.5 39.0 41.0 48.5 41.0 39.5
Mexico 53.5 40.5 50.5 36.5 39.0 48.5 42.0 43.0
Enlace los dos puntos más cercanos, de acuerdo a una de las medidas
de distancia definidas anteriormente (ver punto 14.1)
1 2 3 4 5 6
1 - 0,31 0,23 0,32 0,26 0,25
2 - 0,34 0,21 0,36 0,28
3 - 0,31 0,04 0,07
4 - 0,31 0,28
5 - 0,09
6 -
1 2 3-5 4 6
1 - 0,31 0,23 0,32 0,25
2 - 0,34 0,21 0,28
3-5 - 0,31 0,07
4 - 0,28
6 -
1 2 3-5-6 4
1 - 0,31 0,23 0,32
2 - 0,28 0,21
3-5-6 - 0,28
4 -
1 2-4 3-5-6
1 - 0,31 0,23
2-4 - 0,28
3-5-6 -
1-3-5-6 2-4
1-3-5-6 - 0,28
2-4 -
Este tipo de diagrama contiene ramas que une individuos y muestra el orden
en que se asignan los individuos a los agrupamientos. Las longitudes de las ramas son
proporcionales a las distancias métricas entre los individuos (o grupos de individuos).
Figura 12.6
Diagrama de Árbol Jerárquico
2 4 3 5 6 1
0,04
0,07
0,21
0,23
Figura 12.7
Diagrama de Árbol Jerárquico con 3 Agrupaciones
X Xr X X r
T
W1 (12.7)
r 1 q 1
rq rq
C2 nr C2
X Xr X X r
T
W2 (12.8)
r 1 q 1
rq rq
F*
W2 W1 N C1 k1 (12.9)
W1 N C2 k2 N C1 k1
donde k1 C1 2 p y k2 C2 2 p ; N es el número total de individuos (unidades
experimentales) y p es el número de variables exógenas.
Para aplicar esta técnica, en primer lugar deben calcularse las distancias
métricas entre todas las parejas de individuos; es razonable antes estandarizar los datos.
Sean Dr1s1 la distancia entre los dos individuos más cercanos; Dr2 s2 la
distancia entre los siguientes dos individuos más cercanos, y así sucesivamente hasta llegar
a DrN N 1 2 sN N 1 2 , que es la distancia entre los individuos más lejados. Note que el número
N N 1
de parejas distintas de individuos es .
2
En este mismo espacio, sean d r1s1 la distancia entre los dos individuos más
cercanos; d r2 s2 la distancia entre los siguientes dos individuos más cercanos, y así
sucesivamente hasta llegar a d rN N 1 2 sN N 1 2 , que es la distancia entre los individuos más
alejados.
D d rs Drs
2
rs
E r 1 s 1
N r 1
(12.12)
D
r 1 s 1
rs
sujeto a (12.11).