Estadística IZAGUIRRE ZERPAdocx

Maestría en Administración y Políticas Públicas
Técnicas de producción y de análisis del conocimiento académico y profesional.
Módulo II. Pedro Antenucci

Trabajo Final
Alumnas:
Marina Izaguirre Izaguirre.marina@gmail.com
Claudia Zerpa claudia.zerpa.r@gmail.com
Consigna A
El trabajo consiste en hacer un análisis estadístico propio en Stata a partir la base de
datos del Quality of Government Institute, que pueden bajar de
http://qog.pol.gu.se/data/datadownloads/qogstandarddata (“The QoG Times-Series Data
(version January 2017 Time-Series data)”). El libro de códigos pueden bajarlo del
mismo website (“The QoG Standard Codebook”).
1. Defina la variable dependiente a analizar (debe ser continua). Se sugiere utilizar
un indicador de calidad de la regulación, “Regulatory quality” identificado en esta base
de datos como wbgi_rqe (ver libro de códigos para más detalles).
Se ha elegido como variable dependiente la variable “Calidad Regulatoria”, que “incluye

mediciones de la incidencia de políticas de intervención “no amigables” con el mercado, tales
como: control de precios, supervisión bancaria inadecuada, así como percepciones de la carga
impuesta por la regulación excesiva en áreas tales como el comercio internacional y el
desarrollo de negocios” (Teorell et al., 2018, p. 626).
2. Defina las variables independientes a incluir (sugiero que para que el modelo sea
potente las mismas se basen en teorías/hipótesis)
Como punto de partida decidimos explorar un modelo univariado seleccionando

intuitivamente como variable dependiente “Favoritismo en las decisiones de los oficiales
gubernamentales” (wef_fgo). La misma mide en qué medida los oficiales gubernamentales
muestran favoritismo a las firmas bien conectadas e individuos al momento de decidir
políticas y contratos. Siendo que 1 significa que siempre muestra favoritismo y 7 que nunca
muestra favoritismo.(Teorell et al., 2018, p. 689).
De manera heurìstica graficamos ambas variables, utilizando el comando graph twoway

scatter wbgi_rqe wef_fgo. El cual arroja el siguiente resultado:
La dispersión de casos parecería indicar un modelo lineal. Donde los países que casi nunca
muestran favoritismo (Valores más altos) tienen una calidad regulatoria alta, mientras que
aquellos que siempre muestran favoritismo tienen una calidad regulatoria baja. Al incluir los
nombres de los países en el gráfico, obtenemos los casos extremos, siendo Venezuela el de
menor calidad regulatoria y mayor frecuencia de favoritismo. Por el contrario, Nueva Zelanda
y Singapur parecerían tener la mejor calidad regulatoria y el menor favoritismo.
Antes de correr una regresión decidimos verificar si

existía correlación entre las variables aplicado el
coeficiente de pearsons con un nivel de
significancia estadística de p<0,05 utilizando la
fórmula pwcorr wbgi_rqe wef_fgo, sig star(.05)1.
La misma, arroja un coeficiente de correlación
considerablemente positivo para ese nivel de
significancia estadística.
Ahora bien que dos variables se mueven juntas en
el mismo sentido no implica necesariamente
1 Fórmula extraída de https://statistics.laerd.com/stata-tutorials/pearsons-correlation-using-stata.php
1
causalidad. Para ello la variación de nuestra variable dependiente debería ser explicada en
alguna medida por nuestra variable independiente. Para conocer en que proporciòn esto
sucede corremos una regresión:
El resultado arroja un R2 de 0,39. Esto quiere decir que nuestra variable independiente
“Favoritismo en las decisiones de los agentes gubernamentales” explica el 39% de la
variación de nuestra variable dependiente “Calidad Regulatoria, con una significancia
estadística de 0,0 para wef_fgo. Partiendo de una constante de -1,7 en la calidad regulatoria,
cada aumento de una unidad en la distancia del favoritismo en las decisiones de los agentes
gubernamentales mueve positivamente 0,6 puntos la calidad regulatoria. Asimismo, se
observa que las distancias cuadráticas del modelo son menores a los residuales restantes.
Ahora bien, podría considerarse una variable adicional, en donde la calidad regulatoria
dependa, no solo del favoritismo de los agentes públicos, sino también de la cantidad de
grupos de interés que busquen su favor. Becker afirma que “la competencia entre grupos de
presión para la influencia política determina el equilibrio en la estructura de impuestos,
subsidios y otros favores políticos” (Becker, 1983, pág. 372). De este modo a medida que
aumenta la cantidad de grupos de interés que compiten por el favoritismo en las decisiones
oficiales, el equilibrio resultante que funcione para la mayoría de los grupos es el que genere
las menores distorsiones de mercado, que corresponde a los niveles más bajos de calidad
regulatoria.
Aplicado a nuestro modelo podríamos suponer que, a mayor cantidad de grupos de interés,
mayor será la calidad de la política regulatoria, de modo tal que para comenzar el análisis de
un modelo multivariado se ha seleccionado la variable bti_ig Interest Groups que mide la
medida en que una red de asociaciones cooperativas o grupos de interés median entre la
2
sociedad y el sistema político. Para esta variable 1 representa poca cantidad de grupos de
interés y 10 muchos grupos de interés que se balancean y cooperan entre sí. Los valores
intermedios son 6 y 7, varios grupos con cierta dominancia y cartelización entre ellos.
(Teorell et al., 2018, p. 111).
Al graficar el modelo se observa el

reposicionamiento de dos casos testigos donde
Singapur se presenta como un outlier de buenas
políticas a pesar de tener pocos grupos de interés.
La prueba del coeficiente de pearsons indica niveles
de correlación similares a la variable anterior, a
iguales niveles de significancia estadística.
3. Hacer una regresión ingresando las variables independientes en forma lineal,

interpretar y mostrar los resultados del mismo. Utilizar como criterio de significación un
valor p de 0.05 o menor (o confianza del 95%)
A partir de lo expuesto en el punto anterior se formula el siguiente modelo wbgi_rqe= 𝛂+ 𝛃
bti_ig + 𝛃 wef_fgo + 𝛆 y se corre la siguiente regresión:
3
En primer lugar, se observa que aumenta el R2, esto es, la proporción de lavariación de la
calidad regulatoria explicado por el modelo, que pasa a ser del 39% al 54%. El R2 ajustado
que mide el porcentaje de variación total de la variable dependiente (al igual que el R2)
teniendo en cuenta el todas las incluidas en el modelo como un todo , tiene valores similares.
Al mismo tiempo conservan significancia estadística los coeficientes de variación para cada
una de las variables independientes. Partiendo de una constante de calidad de -2,8 ( 𝛂), los
coeficientes de variación (𝛃) de las dos variables del modelo son distintos, en cuanto un
aumento de una medida en la variable en que los grupos de interés median entre la sociedad
civil y la política, produce un aumento aumento de 0,22 en la medida de una unidad en
nuestra variable dependiente. Un aumento en en un medida la distancia del favoritismo
produce un efecto de 0,44 en la calidad regulatoria. De modo tal que podemos concluir que la
variable que produce más efecto de la variable dependiente, es aquella cuyo coeficiente de
variación es mayor. Se conserva de esta manera la preponderancia explicativa de la distancia
del favoritismo, en detrimento de la cantidad de los grupos de interés que median entre la
sociedad civil y la política. Sin embargo, resulta notorio que el modelo presenta mayor
distancia cuadrática. En este sentido, resulta conveniente testear el modelo de OLS.
4. Evalué el cumplimiento de al menos dos de los supuestos de los modelos OLS.

Corrija el modelo si fuera necesario en función de lo observado
En primer lugar, testeamos si la función lineal del modelo es la que mejor se ajusta a nuestra
distribución de casos, realizando un test de linealidad. Para ello indicamos al sistema que
guarde los residuos con la función predict r, resid y luego le pedimos que los grafique en
torno a una recta scatter r wef_fgo y scatter r bti_ig.
4
Se observa la distribución de residuos homogénea en torno al valor 0 para el el caso de los
grupos de interés. La nube de puntos de la variable wef_fgo pareceria no responder a un
modelo lineal al observarse una forma un tanto esferica. La recta podria entonces estar
influida por outliers. En ambos casos se observa como outliers evidentes el caso de Singapur,
cuyos valores siempre dan por encima de 2. Al aplicar la fórmula lvr2plot, mlabel(cname),
lo podemos identificar claramente como aquel que tiene mayor distancia cuadrática del
modelo.
De este modo, una primera corrección al modelo será la eliminación de Singapur, los
Emiratos Árabes y Qatar como outliers. La distancia cuadrática del modelo se reduce en 1
punto. Una segunda posible corrección sería la eliminación de la variable wef_fgo por
presentar una falsa linealidad, pero la
conservamos por el momento al no poder
descartar su significancia estadística.
En segundo lugar, testeamos la homocedasticidad para ver que la varianza de los residuos sea
constante, si esto no fuera así, nuestro modelo pierde poder explicativo en algún punto a lo
5
largo de la recta de nuestro modelo lineal, utilizando el comando rvfplot, yline(0).
Se observa que la distribución de residuos aumenta a lo largo de la recta, no cumpliéndose

este criterio para el caso. El test de white (estat imtest, white), confirma la
heterocedasticidad al tener un P significantivamente estadístico. Entre los motivos de la
heterocedasticidad, se encuentra la omisión de variables relevantes que tengan poder
explicativo sobre la variable dependiente.
Para corroborar comprobar si hay alguna otra variable explicativa omitida que pueda ajustar
mejor los residuos, testeamos que los factores no incluidos en el modelo y presentes en el
error, no afecten nuestra variable dependiente.
Para eso, testeamos que la distribución de residuos se realice con media 0. Si esto no
sucediera, significaría que que no se estarían cancelando entre sí y afectan nuestra variable
dependiente. Para saber si los residuos se cancelan mutuamente, comparamos la distribución
de residuos contra una distribución normal para ver si los valores se cancelan mutuamente,
utilizando la función kdensity r, normal y el test de Shapiro Wilk.
6
La campana de distribución dista un poco de la distribución normal, y la hipótesis alternativa
de que la campana no es normal tiene significancia estadística, de modo tal que puede haber
otra variable no incluida en el modelo que lo esté afectando.
A fines de corregir el modelo de acuerdo a las observaciones del punto anterior, se han
incluido las variables wel_coc Control de la corrupción. La misma mide el grado de control
de la corrupción, donde 0 implica los niveles de control de la corrupción más bajos y 10 los
niveles de control más alto. La inclusión de esta variable se realiza bajo el supuesto de cierta
correlación entre los niveles más altos del indicador de favoritismos (que implican pocos
favores) y el control de la corrupción. El modelo entonces queda de la siguiente manera:
wbgi_rqe= 𝛂+ 𝛃 bti_ig + 𝛃 wef_fgo + 𝛃wel_coc+ 𝛆
7
Se observa, en primer lugar, que el R2, y el R2, ajustado, aumentan al 70%, al tiempo que se
reduce el residual del modelo. Ahora bien, la introducción de esta nueva variable de control
de la corrupción resta significancia estadística a la variable originalmente presentada sobre
favoritismo de los funcionarios, p, esto es la probabilidad de que la relaciòn causal no se deba
a la muestra, es superior a 0,05 no alcanzando el intervalo de 95% de confianza que se otorga
a las ciencias sociales. Parecería ser que una constante de -2,2 en la calidad regulatoria, los
coeficientes de variación que explican el modelo son la presencia de grupos de interés y el
control de la corrupción.
Ahora bien, el modelo presenta los siguientes riesgos multicolinealidad, esto es que las
variables explicativas de la regresiòn esten relacionadas entre si, en tanto la distancia
favoritismo podría ser influenciada por el control de la corrupción. Para corroborar, aplicamos
el test estadístico F que evalúa que el grado de ajuste de la regresión sea significativo como un
todo, pero ninguno de los coeficientes de regresión parcial lo sea principalmente. Este test nos
dice en qué grado la varianza de una variable dependiente está inflada. El test arroja valores
inferiores a 10 para el vif y superiores al 0,1 en el 1/VIF, por lo que podemos descartar la
multicolinealidad entre las variables que infle exageradamente el coeficiente de regresión
parcial de alguna variable
Visto que no hay colinealidad y que la variable planteada originalmente no tiene significancia
estadística, realizamos una última adecuación al modelo que queda configurado de la
siguiente manera para realizar el análisis de regresión:
wbgi_rqe= 𝛂+ 𝛃bti_ig+𝛃wel_coc
8
En el presente modelo se observa, no solo un aumento del R2 ajustado al 72%, sino también
una mayor capacidad explicativa del modelo, en tanto la suma de las distancias cuadráticas
del modelo es mayor, al tiempo que c/u de las variables independientes del modelo conserva
significancia estadística.
5. Realice un nuevo modelo incorporando la dimensión temporal

Dado que el modelo incluye datos a lo largo del tiempo, puede darse el caso de
autocorrelación de los residuos producto de una tendencia temporal. Podríamos suponer que
el control de la corrupción es influido por el tiempo, bajo el supuesto que a medida que pasan
los años lo países desarrollan medidas más efectivas de control de la corrupción, de modo tal
que con el paso del tiempo se debería observar una mejora en la calidad regulatoria. Para
controlar si ese es el caso, definimos la variable temporal como panel, con la función xtset
year volver a correr la regresión. Para corroborarlo, realizamos una regresión incluyendo la
variable temporal year en el modelo : wbgi_rqe= 𝛂+ 𝛃bti_ig+ 𝛃wel_coc + 𝛃year+ 𝛆
9
.
En este modelo se observa que la variable independiente year conserva significancia

estadística para su pendiente negativa, sin observarse varianzas infladas.. Por lo que resulta
relevante a la explicación del modelo, el cual mantiene su r2 ajustado en valores del 72%.
Bibliografía:
● Becker, Gary (1983) A Theory of Competition Among Pressure Groups for Political
Influence. The Quarterly Journal of Economics, Vol. 98, No. 3. (Aug., 1983), pp. 371-
400.
● Teorell, Jan; Stefan Dahlberg, Sören Holmberg, Bo Rothstein, Natalia Alvarado

Pachon & Richard Svensson (2018). The Quality of Government Standard Dataset,
version Jan18. University of Gothenburg: The Quality of Government Institute,
http://www.qogdata.pol.gu.se/data/qog_std_ts_jan18.dta
10

Estadística IZAGUIRRE ZERPAdocx

Cargado por

Copyright:

Formatos disponibles

Estadística IZAGUIRRE ZERPAdocx

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística IZAGUIRRE ZERPAdocx

Cargado por

Copyright:

Formatos disponibles

Maestría en Administración y Políticas Públicas

Técnicas de producción y de análisis del conocimiento académico y profesional.

Módulo II. Pedro Antenucci

Se ha elegido como variable dependiente la variable “Calidad Regulatoria”, que “incluye

Como punto de partida decidimos explorar un modelo univariado seleccionando

De manera heurìstica graficamos ambas variables, utilizando el comando graph twoway

Antes de correr una regresión decidimos verificar si

Al graficar el modelo se observa el

3. Hacer una regresión ingresando las variables independientes en forma lineal,

4. Evalué el cumplimiento de al menos dos de los supuestos de los modelos OLS.

Se observa que la distribución de residuos aumenta a lo largo de la recta, no cumpliéndose

5. Realice un nuevo modelo incorporando la dimensión temporal

En este modelo se observa que la variable independiente year conserva significancia

● Teorell, Jan; Stefan Dahlberg, Sören Holmberg, Bo Rothstein, Natalia Alvarado

También podría gustarte