Estadística IZAGUIRRE ZERPAdocx
Estadística IZAGUIRRE ZERPAdocx
Estadística IZAGUIRRE ZERPAdocx
Alumnas:
Marina Izaguirre Izaguirre.marina@gmail.com
Claudia Zerpa claudia.zerpa.r@gmail.com
Consigna A
El trabajo consiste en hacer un análisis estadístico propio en Stata a partir la base de
datos del Quality of Government Institute, que pueden bajar de
http://qog.pol.gu.se/data/datadownloads/qogstandarddata (“The QoG Times-Series Data
(version January 2017 Time-Series data)”). El libro de códigos pueden bajarlo del
mismo website (“The QoG Standard Codebook”).
1. Defina la variable dependiente a analizar (debe ser continua). Se sugiere utilizar
un indicador de calidad de la regulación, “Regulatory quality” identificado en esta base
de datos como wbgi_rqe (ver libro de códigos para más detalles).
2. Defina las variables independientes a incluir (sugiero que para que el modelo sea
potente las mismas se basen en teorías/hipótesis)
La dispersión de casos parecería indicar un modelo lineal. Donde los países que casi nunca
muestran favoritismo (Valores más altos) tienen una calidad regulatoria alta, mientras que
aquellos que siempre muestran favoritismo tienen una calidad regulatoria baja. Al incluir los
nombres de los países en el gráfico, obtenemos los casos extremos, siendo Venezuela el de
menor calidad regulatoria y mayor frecuencia de favoritismo. Por el contrario, Nueva Zelanda
y Singapur parecerían tener la mejor calidad regulatoria y el menor favoritismo.
1
causalidad. Para ello la variación de nuestra variable dependiente debería ser explicada en
alguna medida por nuestra variable independiente. Para conocer en que proporciòn esto
sucede corremos una regresión:
El resultado arroja un R2 de 0,39. Esto quiere decir que nuestra variable independiente
“Favoritismo en las decisiones de los agentes gubernamentales” explica el 39% de la
variación de nuestra variable dependiente “Calidad Regulatoria, con una significancia
estadística de 0,0 para wef_fgo. Partiendo de una constante de -1,7 en la calidad regulatoria,
cada aumento de una unidad en la distancia del favoritismo en las decisiones de los agentes
gubernamentales mueve positivamente 0,6 puntos la calidad regulatoria. Asimismo, se
observa que las distancias cuadráticas del modelo son menores a los residuales restantes.
Ahora bien, podría considerarse una variable adicional, en donde la calidad regulatoria
dependa, no solo del favoritismo de los agentes públicos, sino también de la cantidad de
grupos de interés que busquen su favor. Becker afirma que “la competencia entre grupos de
presión para la influencia política determina el equilibrio en la estructura de impuestos,
subsidios y otros favores políticos” (Becker, 1983, pág. 372). De este modo a medida que
aumenta la cantidad de grupos de interés que compiten por el favoritismo en las decisiones
oficiales, el equilibrio resultante que funcione para la mayoría de los grupos es el que genere
las menores distorsiones de mercado, que corresponde a los niveles más bajos de calidad
regulatoria.
Aplicado a nuestro modelo podríamos suponer que, a mayor cantidad de grupos de interés,
mayor será la calidad de la política regulatoria, de modo tal que para comenzar el análisis de
un modelo multivariado se ha seleccionado la variable bti_ig Interest Groups que mide la
medida en que una red de asociaciones cooperativas o grupos de interés median entre la
2
sociedad y el sistema político. Para esta variable 1 representa poca cantidad de grupos de
interés y 10 muchos grupos de interés que se balancean y cooperan entre sí. Los valores
intermedios son 6 y 7, varios grupos con cierta dominancia y cartelización entre ellos.
(Teorell et al., 2018, p. 111).
3
En primer lugar, se observa que aumenta el R2, esto es, la proporción de lavariación de la
calidad regulatoria explicado por el modelo, que pasa a ser del 39% al 54%. El R2 ajustado
que mide el porcentaje de variación total de la variable dependiente (al igual que el R2)
teniendo en cuenta el todas las incluidas en el modelo como un todo , tiene valores similares.
Al mismo tiempo conservan significancia estadística los coeficientes de variación para cada
una de las variables independientes. Partiendo de una constante de calidad de -2,8 ( 𝛂), los
coeficientes de variación (𝛃) de las dos variables del modelo son distintos, en cuanto un
aumento de una medida en la variable en que los grupos de interés median entre la sociedad
civil y la política, produce un aumento aumento de 0,22 en la medida de una unidad en
nuestra variable dependiente. Un aumento en en un medida la distancia del favoritismo
produce un efecto de 0,44 en la calidad regulatoria. De modo tal que podemos concluir que la
variable que produce más efecto de la variable dependiente, es aquella cuyo coeficiente de
variación es mayor. Se conserva de esta manera la preponderancia explicativa de la distancia
del favoritismo, en detrimento de la cantidad de los grupos de interés que median entre la
sociedad civil y la política. Sin embargo, resulta notorio que el modelo presenta mayor
distancia cuadrática. En este sentido, resulta conveniente testear el modelo de OLS.
4
Se observa la distribución de residuos homogénea en torno al valor 0 para el el caso de los
grupos de interés. La nube de puntos de la variable wef_fgo pareceria no responder a un
modelo lineal al observarse una forma un tanto esferica. La recta podria entonces estar
influida por outliers. En ambos casos se observa como outliers evidentes el caso de Singapur,
cuyos valores siempre dan por encima de 2. Al aplicar la fórmula lvr2plot, mlabel(cname),
lo podemos identificar claramente como aquel que tiene mayor distancia cuadrática del
modelo.
De este modo, una primera corrección al modelo será la eliminación de Singapur, los
Emiratos Árabes y Qatar como outliers. La distancia cuadrática del modelo se reduce en 1
punto. Una segunda posible corrección sería la eliminación de la variable wef_fgo por
presentar una falsa linealidad, pero la
conservamos por el momento al no poder
descartar su significancia estadística.
En segundo lugar, testeamos la homocedasticidad para ver que la varianza de los residuos sea
constante, si esto no fuera así, nuestro modelo pierde poder explicativo en algún punto a lo
5
largo de la recta de nuestro modelo lineal, utilizando el comando rvfplot, yline(0).
Para eso, testeamos que la distribución de residuos se realice con media 0. Si esto no
sucediera, significaría que que no se estarían cancelando entre sí y afectan nuestra variable
dependiente. Para saber si los residuos se cancelan mutuamente, comparamos la distribución
de residuos contra una distribución normal para ver si los valores se cancelan mutuamente,
utilizando la función kdensity r, normal y el test de Shapiro Wilk.
6
La campana de distribución dista un poco de la distribución normal, y la hipótesis alternativa
de que la campana no es normal tiene significancia estadística, de modo tal que puede haber
otra variable no incluida en el modelo que lo esté afectando.
A fines de corregir el modelo de acuerdo a las observaciones del punto anterior, se han
incluido las variables wel_coc Control de la corrupción. La misma mide el grado de control
de la corrupción, donde 0 implica los niveles de control de la corrupción más bajos y 10 los
niveles de control más alto. La inclusión de esta variable se realiza bajo el supuesto de cierta
correlación entre los niveles más altos del indicador de favoritismos (que implican pocos
favores) y el control de la corrupción. El modelo entonces queda de la siguiente manera:
wbgi_rqe= 𝛂+ 𝛃 bti_ig + 𝛃 wef_fgo + 𝛃wel_coc+ 𝛆
7
Se observa, en primer lugar, que el R2, y el R2, ajustado, aumentan al 70%, al tiempo que se
reduce el residual del modelo. Ahora bien, la introducción de esta nueva variable de control
de la corrupción resta significancia estadística a la variable originalmente presentada sobre
favoritismo de los funcionarios, p, esto es la probabilidad de que la relaciòn causal no se deba
a la muestra, es superior a 0,05 no alcanzando el intervalo de 95% de confianza que se otorga
a las ciencias sociales. Parecería ser que una constante de -2,2 en la calidad regulatoria, los
coeficientes de variación que explican el modelo son la presencia de grupos de interés y el
control de la corrupción.
Ahora bien, el modelo presenta los siguientes riesgos multicolinealidad, esto es que las
variables explicativas de la regresiòn esten relacionadas entre si, en tanto la distancia
favoritismo podría ser influenciada por el control de la corrupción. Para corroborar, aplicamos
el test estadístico F que evalúa que el grado de ajuste de la regresión sea significativo como un
todo, pero ninguno de los coeficientes de regresión parcial lo sea principalmente. Este test nos
dice en qué grado la varianza de una variable dependiente está inflada. El test arroja valores
inferiores a 10 para el vif y superiores al 0,1 en el 1/VIF, por lo que podemos descartar la
multicolinealidad entre las variables que infle exageradamente el coeficiente de regresión
parcial de alguna variable
Visto que no hay colinealidad y que la variable planteada originalmente no tiene significancia
estadística, realizamos una última adecuación al modelo que queda configurado de la
siguiente manera para realizar el análisis de regresión:
wbgi_rqe= 𝛂+ 𝛃bti_ig+𝛃wel_coc
8
En el presente modelo se observa, no solo un aumento del R2 ajustado al 72%, sino también
una mayor capacidad explicativa del modelo, en tanto la suma de las distancias cuadráticas
del modelo es mayor, al tiempo que c/u de las variables independientes del modelo conserva
significancia estadística.
9
.
Bibliografía:
● Becker, Gary (1983) A Theory of Competition Among Pressure Groups for Political
Influence. The Quarterly Journal of Economics, Vol. 98, No. 3. (Aug., 1983), pp. 371-
400.
10