Solemne 2
Solemne 2
Solemne 2
es Bello
Facultad de Ingeniera
Pauta Solemne 2
An
alisis de Datos
2 Semestre - 2014
Profesores
MSc. Ram
on H. Cornejo-Mu
noz - Dr. John Rios Griego
Esta la segunda solemne del semestre que busca evaluar si domina los contenidos de
la segunda parte del curso An
alisis de Datos. Los materiales que podra ocupar son una
calculadora. La solemne tendr
a una duracion de 120 minutos. Cada pregunta tiene el mismo
puntaje, 30 puntos, por lo que es buena idea asignar igual cantidad de minutos que puntos
en cada pregunta, as le quedar
an 30 minutos libres para dedicarlos a preguntas pendientes.
No destine mucho tiempo a una sola pregunta.
Preguntas
1. Pregunta Te
orica: Esta pregunta contiene 2 subpreguntas.
(a) [20 pts.] Para cada violaci
on a los supuestos de MCO: Multicolinealidad, Heteroscedasticidad, Autocorrelaci
on, Inclusion de Variable Irrelevante y Omision de Variable
Relevante, especificar:
i.
ii.
iii.
iv.
v.
Explicaci
on sobre a que se refiere la violacion1 .
Causas por las que la violacion ocurre2 .
Formas de detecci
on de la violacion.
Consecuencias en los estimadores obtenidos por medio de MCO.
Formas de Correcci
on y cual es el efecto en los estimadores obtenidos por medio
de MCO3 .
Universidad Andr
es Bello
Facultad de Ingeniera
1
1
=
2
T OL
1 Rij
yi
0
ui
= + 1 xi +
xi
xi
xi
Autocorrelaci
on
5
Esto no es totalmente correcto, ya que existen algunas medidas que se pueden aplicar, pero lamentablemente
tienen consecuencias m
as nocivas, o tienen supuestos m
as fuertes que la misma multicolinealidad.
6
Lo que implica V () = 2 (X 0 X)1 X 0 X(X 0 X)1 . No es necesario indicarlo, pero es lo relevante de MCG.
Universidad Andr
es Bello
Facultad de Ingeniera
1 2 y
1 2 x
x2 x1
y2 y1
.
.
;x =
y =
.
.
.
.
y yi1
x xi1
Inclusi
on de Variable Irrelevante
i. Es incorporar una variable que no tiene impacto en el modelo suponiendo
que s lo tiene.
ii. Simplemente es creer que la variable es relevante e incorporarla.
iii. Se estudia la significancia del estimador y a traves de seleccion de modelos8 .
iv. Ocurren los mismos efectos que en Heteroscedasticidad y Autocorrelacion.
v. Sacar la variable de la regresion.
Omisi
on de Variable Relevante
i. No se considera una variable observable importante para el modelo.
ii. Simplemente es no incorporar una variable que teoricamente es muy importante para explicar la endogena.
iii. Solamente tener coeficientes de determinacion bajos9 .
iv. Los estimadores est
an sesgados, de hecho, el sesgo puede ser tanto positivo
como negativo, dependiendo de la relacion entre las variable exogenas.
v. S
olo se debe incorporar la variable omitida.
(b) [10 pts.] Con los datos obtenidos por J. Longley10 , se presentan datos que presentan,
las regresiones y los factores de inflacion de varianza de cada variable independiente
7
Ambas formas son equivalentes, la primera mostrada en 6.2 y Clase 7, en las slides 7 y 19, respectivamente.
Existen test formales para su detecci
on, pero no fueron vistos en clases.
9
Existen test formales para su detecci
on, pero no fueron vistos en clases.
10
An Appraisal of Least Squares Programs from the point of User, Journal of American Statistical Association, 62, 1967, p. 819-841.
8
Universidad Andr
es Bello
Facultad de Ingeniera
observable sobre el resto, todos calculados en el software R. Con estos datos responda
lo siguiente:
y cuales son los
i. Explique cual es el problema que tiene esta LA REGRESION
determinantes que lo llevan a identificarlo.
ii. Calcule el coeficiente de determinacion de cada variable exogena con respecto a
las dem
as y comente cuales son las variables que presentan el problema11 .
Respuesta: Este pregunta se encuentra en las diapositivas 6.2 y Clase 6.
Este ejercicio se basa en el ejemplo 10.10 del libro del syllabus Econometra de Damodar Gujarati. Por cada punto son 5 puntos.
obtenida con el software R con
i. Los resultados entregados por LA REGRESION
el comando regresion.R y summary(regresion.R) muestran que el coeficiente
de determinaci
on es altsimo (0.9895) con varias variables exogenas no significativas (X1, X2 y X5) que es el signo relevante para sospechar multicolinealidad.
ii. Dado los resultados del comando vif(regresion.R) donde los criterios para determinar multicolinealidad por variable se muestran en la pregunta 1.(a).Multicolinealidad.iii.
As, los Ri,otras dados los VIF entregados son12 ,
Cuadro 1: Coeficientes de determinacion auxiliares dados los VIF.
Variable
X1
X2
X3
X4
X5
VIF
119.04
535.57
11.85
2.49
334.79
TOL
0.0084
0.0019
0.0844
0.4009
0.0030
Valor R2
0.9916
0.9981
0.9156
0.5990
0.9970
As, las variables que presentan multicolinealidad son X1, X2, X3 y X5.
2. Pregunta Ejercicio: Se piensa que la potencia al freno (y) por el motor de un automovil
en un dinam
ometro es una funcion de la rapidez del motor en revoluciones por minuto
(x1), y la compresi
on del motor (x2). Se llevo a cabo un experimento en el laboratorio y
los datos colectados fueron:
Teniendo en cuenta los siguientes modelos:
Universidad Andr
es Bello
Facultad de Ingeniera
Y
60323
61122
60171
61187
63221
63639
64989
63761
66019
67857
68169
66513
68655
69564
69331
X1
830
885
882
895
962
981
990
1000
1012
1046
1084
1108
1126
1142
1157
X2
234289
259426
258054
284599
328975
346999
365385
363112
397469
419180
442769
444546
482704
502601
518173
X3
2356
2325
3682
3351
2099
1932
1870
3578
2904
2822
2936
4681
3813
3931
4806
Pn
d=
X4
1590
1456
1616
1650
3099
3594
3547
3350
3048
2857
2798
2637
2552
2514
2572
uj u
j1 )2
j=2 (
Pn
uj )2
j=1 (
5
X5
107608
108632
109773
110929
112075
113270
115094
116219
117388
118734
120445
121950
123366
125368
127852
TIME
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Universidad Andr
es Bello
Facultad de Ingeniera
x1
2000
1800
2400
1900
1600
2500
3000
3200
2800
3400
1800
2500
x2
100
95
110
96
100
110
98
100
105
97
100
104
Responda las siguientes preguntas considerando que las tablas mostradas a continuacion13 ,
(a) [10 pts.] Interprete los coeficientes del modelo (c)
(b) [15 pts.] Identificar una mala especificacion del modelo.
(c) [5 pts.] Seleccionar entre los tres modelos presentados a continuacion el mejor.
Respuesta: Este pregunta se encuentra basada en la diapositiva 6.2 en la
slide 10. Como es evidente, la pregunta es id
entica a la mostrada en clases,
con la u
nica diferencia de en vez de usar la misma variable incorporada no
linealmente, se presenta el modelo de forma lineal en los par
ametros. Cabe
13
Hemos cambiado los puntajes de las letras (b) y (c), que durante la Solemne tenan 10 puntos cada una, a
15 y 5 puntos respectivamente, dado el trabajo m
as pesado que se requera para (b).
Universidad Andr
es Bello
Facultad de Ingeniera
al
la
la
la
(b) En el Cuadro 4 se presentan los resultados para cada y(j) con j = {(a), (b), (c)}. En el
Cuadro 5 se muestran los c
alculos para obtener el estadstico di con i = {(a), (b), (c)}.
Finalmente, el Cuadro 6 muestra los valores para obtener la decision sobre el test,
donde (a) y (b) presentan autocorrelacion y (c) no lo presenta.
(c) Es claro que, s
olo tomando en cuenta esta posible violacion, no nos es posible argu7
Universidad Andr
es Bello
Facultad de Ingeniera
Cuadro 4: End
ogenas estimadas para todos los modelos.
y
225
212
229
222
219
278
246
237
233
224
223
230
x1
2000
1800
2400
1900
1600
2500
3000
3200
2800
3400
1800
2500
x2
100
95
110
96
100
110
98
100
105
97
100
104
y(a)
226.86
224.59
231.41
225.73
222.32
232.54
238.22
240.49
235.95
242.76
224.59
232.54
y(b)
228.92
218.59
249.57
220.66
228.92
249.57
224.79
228.92
239.24
222.72
228.92
237.18
y(c)
225.26
213.76
248.28
216.62
221.52
249.22
230.78
236.51
242.39
232.60
223.39
237.66
(
ui u
i1 )2
115.10
103.75
1.74
0.16
2379.36
1419.66
127.04
0.29
250.08
294.85
0.90
4692.97
d(a) =1.737
u
2i
3.47
158.54
5.78
13.89
11.02
2066.47
60.52
12.18
8.69
352.04
2.53
6.45
2701.64
u
i
-3.91
-6.59
-20.57
1.34
-9.91
28.42
21.21
8.08
-6.24
1.27
-5.91
-7.17
(
ui u
i1 )2
7.15
195.36
480.14
126.80
1470.59
52.10
172.40
205.22
56.56
51.77
1.58
2819.73
d(b) =1.387
u
2i
15.35
43.46
423.13
1.80
98.38
808.24
449.93
65.30
38.99
1.63
35.03
51.54
2032.82
u
i
-0.26
-1.75
-19.28
5.37
-2.51
28.78
15.22
0.49
-9.39
-8.59
-0.39
-7.65
(
ui u
i1 )2
2.22
307.13
608.19
62.37
979.64
183.89
216.90
97.76
0.63
67.37
52.79
2578.89
d(c) =1.525
u
2i
0.07
3.08
371.78
28.94
6.33
828.37
231.67
0.24
88.24
73.94
0.15
58.62
1691.42
d
1.737
1.387
1.525
dl
0.971
0.971
0.812
du
1.331
1.331
1.579
Decision
Hay autocorrelacion
Hay autocorrelacion
Sin decision
Universidad Andr
es Bello
Facultad de Ingeniera
no, ya que s
olo se est
a testeando que los errores estan correlacionados de orden 1,
cosa que puede no existir pero s se pueden presentar correlaciones para ordenes
m
as altos. Esta es una de las debilidades del test Durbin-Watson que es posible de
incorporar con otro tipo de test.
3. Pregunta de Aplicaci
on: El siguiente problema se basa en un paper publicado recientemente en la American Economic Association 14 . La literatura sobre el impacto de las
instituciones en el desarrollo de las sociedades no es nueva, pero fue principalmente creada
desde la sociologa en la decada de los 60s. Recientemente, los autores de este trabajo han
abierto la investigaci
on de esta
area desde el punto de vista de la economa, utilizando
variables instrumentales. Se presenta el abstract del documento como gua general:
We exploit differences in European mortality rates to estimate the effect of institutions
on economic performance. Europeans adopted very different colonization policies in different colonies, with different associated institutions. In places where Europeans faced high
mortality rates, they could not settle and were more likely to set up extractive institutions.
These institutions persisted to the present. Exploiting differences in European mortality
rates as an instrument for current institutions, we estimate large effects of institutions
on income per capita. Once the effect of institutions is controlled for, countries in Africa
or those closer to the equator do not have lower incomes.
En resumen, los autores tienen la hipotesis de que instituciones15 de las sociedades determinan su nivel de desarrollo, por lo que ocupan datos de PIB per capita para decenas de
pases en 1995 y los regresionan sobre instituciones que protegen los derechos de propiedad
entre 1985 y 1995. Lamentablemente esta relacion tiene un problema de endogeneidad o
de causalidad reversa, ya que las economas con alto nivel de ingresos podran generar
mejores instituciones. Por lo tanto, los autores proponen un instrumento para solucionar
este problema, el cual es la tasa de mortalidad de los colonos en los distintos pases. El
mecanismo se muestra en la siguiente figura,
As, se puede pensar que las instituciones que se erigieron durante el periodo de colonizacion de las sociedades primitivas del tercer mundo determinan de cierta forma el bienestar
actual de las mismas sociedades delimitadas geograficamente.
La ecuaci
on de donde derivan los resultados de la Tabla 2 es,
log yi = + Ri + X 0i + i
14
(1)
Daron Acemoglu, Simon Johnson, and James A. Robinson, The Colonial Origins of Comparative Development: An Empirical Investigation, American Economic Review : 91, December 2001: p. 1369-1401.
15
Instituciones es un termino muy amplio, pero es posible fijar ideas asociandolo a organizaciones que generan
sociedades para regular ciertas actividades importantes. Por lo tanto, m
as que pensar en instituciones estatales
actuales, se pueden pensar instituciones como la encomienda, la cual exista en el imperio inca y que funcionaba
de manera que los s
ubditos entregaban un tributo en forma de trabajo cada cierta cantidad de a
nos. Con esto,
las personas pertenecan al imperio y reciban sus beneficios a cambio de este pago obligatorio.
Universidad Andr
es Bello
Facultad de Ingeniera
(2)
Sea lo m
as completo posible con su respuesta, analice todos los par
ametros y cada una de las regresiones
en cada tabla.
17
Esta letra es la u
nica que necesita informaci
on adicional a la entregada en esta misma prueba. Por construcci
on se necesita informaci
on del paper para responderla, ya que los autores responden explcitamente esta
cuesti
on en las p
aginas 1383 y 1384, adem
as de utilizar la Figura 3 y la Tabla 3. Con esto, evaluamos si Ud. ley
o el
documento de forma correcta, ya que el resto de las letras est
an contenidas completamente con la informaci
on
contenida en esta misma Solemne.
10
Universidad Andr
es Bello
Facultad de Ingeniera
Condici
on de Exclusi
on: Esta condicion se cumple cuando el error de la segunda
etapa, i , no est
a correlacionado con el instrumento, log Mi . Tal como sabemos,
esta condici
on no es posible de testear cuando el modelo no esta sobreidentificado y solamente se puede justificar teoricamente. Los autores argumentan
que, para que esta condicion se cumpla, el efecto del instrumento log Mi s
olo
debe afectar a la performance econ
omica actual log yi a trav
es del mecanismo mostrado en el enunciado de esta pregunta y no tendra que
tener ninguna relaci
on con i : tasa de mortalidad de colonos, asentamientos,
instituciones primitivas, instituciones actuales, desarrollo economico actual. De
11
Universidad Andr
es Bello
Facultad de Ingeniera
Ri = R + R Ci + X 0i R + Ri
Ci = C + C Si + X 0i C + Ci
Si = S + S log Mi + X 0i S + Si
No es necesario que se hayan comentado los resultados, simplemente diciendo que en esta tabla se haca
referencia a la condici
on de exclusi
on bastaba. La hemos incoporado en la pauta s
olo con objetivos pedag
ogicos.
12
Universidad Andr
es Bello
Facultad de Ingeniera
Universidad Andr
es Bello
Facultad de Ingeniera
Informaci
on de la tabla: Esta tabla muestra una regresion en dos etapas
(2SLS) que es en realidad (1) y (2), segunda y primera etapas, respectivamente. Se utilizan distintas especificaciones donde las diferencias son el
grupo de pases a estudiar dentro de la regresion. Se muestran 3 paneles: Panel C es sobre los resultados OLS de la Tabla 2, Panel B es la primera etapa
(ecuaci
on (2)) y Panel A es la segunda etapa (Ecuacion (1)). Es importante
notar que los resultados de OLS son solo para tenelos a mano.
Signo de los par
ametros: El signo de Ri es positivo como se espera, tal como
log Mi tiene en todas las regresiones el signo negativo. Latitude tiene signo
positivo que es razonable y todos los demas controles tienen signo negativo,
cosa que es esperable y consistente a lo largo de las regresiones. Los controles
tienen signos distintos, pero en general son no significativos por lo que no
es relevante.
Significancia: Ri y log Mi son todos significativos independiente de la especificaci
on de controles. Los controles son en su mayora no significativos,
excepto Asia dummy en la segunda etapa, esto puede deberse a que el tipo
de instituciones fueron mas resilientes a los cambios en este continente.
Interpretaci
on de Par
ametros
Ri : Por cada punto porcentual que sube el ndice de riesgo de proteccion
contra la expropiacion sube 0.94 % el GDP en 1995 en (1). Aca es importante notar que el parametro, independiente de la regresion, es mayor
en valor que en OLS. Esto se debe a que gran parte de la correlaci
on est
a en la segunda etapa, y el canal de transmisi
on de la
causalidad es muy efectivo. As, como puede notarse, la elasticidad es muchsimo m
as importante que lo que podramos haber
adivinado con OLS.
log Mi : En la primera etapa, por cada punto porcentual que sube la tasa
de mortalidad de los colonos baja 0.61 % el ndice de riesgo de proteccion
contra la expropiacion en (1). El signo es correcto ya que si la mortalidad
aumenta, es razonable pensar que se crearon instituciones extractivas con
una menor proteccion a la propiedad privada.
Latitude, Asia dummy y Other continent dummy: Estas variables
son s
olo controles y ya se estudiaron en la regresion anterior. Importante
es decir que ya dejan de ser significativos, por lo que el efecto de las instituciones depende mas de factores de colonizacion que del lugar geografico
en donde ocurra esta misma colonizacion.
(d) Dado que existe el problema de endogeneidad, es correcto usar variables instrumentales para encontrar la elasticidad entre las endogenas. El instrumento seleccionado
cumple con las condiciones de relevancia y exclusion, por lo que es posible usar
este metodo de identificaci
on. Esta respuesta es correcta si y solo s se ha demostrado que se cumplen las condiciones en la letra (b), no bastando hacer solamente el
llamado al supuesto cumplimiento de las condiciones.
14
Universidad Andr
es Bello
Facultad de Ingeniera
15
Universidad Andr
es Bello
Facultad de Ingeniera
16