0% encontró este documento útil (0 votos)
104 vistas13 páginas

MULTICOLINEALIDAD

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1/ 13

UNIVERSIDAD NACIONAL DEL

CALLAO

FACULTAD DE CIENCIAS ECONOMICAS

MUTICOLINEALIDAD

AUTORIZADA POR RESOLUCION 026-2016-D-FCE

PLAN DE TRABAJO INDIVIDUAL SEMESTRE ACADEMICO 2016 B

SEPARATA PREPARADA POR EL PROFESOR:

ISABEL MARGARITA DEL CARPIO ALVA

LIMA, DICIEMBRE 2016


INDICE
Introducción
1. Colinealidad en los regresores
2. Detección del problema
Matriz de correlación de los vectores de X
Análisis de estadísticos t y del coeficiente de ajuste
Test de Farrar Glauber

3. Corrección del problema


Eliminación de las variables según el grado de colinealidad
Transformación de variables
Combinación de información de corte transversal y de series de tiempo

4. Ejercicios de aplicación

Bibliografía
INTRODUCCION

La multicolinealidad se origina por la presencia de cierto grado de asociación entre las variables
explicativas de un modelo econométrico. En la práctica, esta es una característica de modelos
basados en información observable, puesto que la total independencia matemática de las
columnas de la matriz de regresores necesitaría que sean ortogonales entre sí, situación que es
improbable entre series de datos reales. Por lo que, ello exigiría encontrar total interdependencia
entre las columnas de la matriz de regresores.
En conclusión, la presencia de multicolinealidad, es un problema de grado.
Bajo el supuesto de no multicolinealidad entre los regresores de un modelo de regresión, en esta
separata consideraremos el supuesto de no multicolinealidad buscando respuestas a lo siguiente:
Naturaleza de la multicolinealidad, será realmente un problema, cómo se detecta y corrección del
problema de multicolinealidad.
1. LA MULTICOLINEALIDAD

La multicoinealidad se presenta cuando algunas variables explicativas no mantienen


independencia con respecto a otras variables explicativas presentes en la ecuación.
Regularmente las variables económicas suelen presentar algún grado de colinealidad,
pero, cuando es severa se convierte en un problema, haciendo que los estimadores sean
muy imprecisos, pues no se puede aislar el efecto marginal que tiene cada variable
explicativa sobre la variable endógena, haciendo que el modelo deje de ser satisfactorio,
por eso, se suele afirmar que la multicolinealidad es un problema de grado y no de
existencia.
La multicolinealidad aumenta la varianzas y covarianzas de los estimadores MCO, por lo
tanto, reduce los estadísticos t y aumenta la probabilidad de aceptar la hipótesis nula que
en verdad puede ser falsa (error tipo II).
En términos matriciales, cada una de las variables explicativas constituye un vector
columna y, en conjunto forman a la matriz de regresores X. Así, esta matriz incluye k
vectores columna de n filas (asociadas a las observaciones de cada variable) que
conforman una matriz de orden (n*k). Resulta necesario que la matriz X tenga rango
completo e igual a k (asumiendo que k es menor que n, ya que el rango deberá ser igual al
menor de ambos), de lo contrario, será imposible la estimación paramétrica.
Formalmente, lo anterior se cumplirá si el mayor orden de la submatriz cuadrada de X que
tenga determinante distinto de cero (que no sea singular) es k*k. De satisfacer estos
requisitos, la matriz X tiene rango completo y que todas sus columnas son linealmente
independientes.
La matriz X´X, será invertible, si se cumple con el requisito que X presente rango
completo, De esta manera, los estimadores beta serán computables. Para tal efecto, es
imprescindible que su determinante sea diferente de cero (no singular). El hecho de que X
tenga rango completo igual a k, permite que la matriz X´X (cuadrada y de orden k*k) tenga
un rango igual a k.

Causas de la multicolinealidad.-
- Inclusión de variables irrelevantes: al incluir variables irrelevantes, se eleva la
probabilidad de colinealidad.
- Inclusión de muchos rezagos de una variable explicativa producirá alta colinealidad,
por lo que es recomendable hacer una evaluación del número de rezagos óptimo.
- Las variables económicas suelen tener una marcada tendencia en el tiempo: cuando
las variables explicativas presentan una fuerte tendencia procíclica o anticíclica,
estarán altamente correlacionadas.

Consecuencias de la multicolinealidad.-

- La varianza dl estimador MCO de beta, es más grande con relación a una situación sin
multicolinealidad, la distribución t, que prueba la significancia individual de los
coeficientes, sigue siendo válida.
- Dado que, Var (beta)=ʛ²(X´X)¯¹ si /X´X/ tiende a cero, entonces, (X´X)¯¹ tiende al
infinito, por lo que la Var(beta) se eleva. Esto implica que los parámetros san
estimados con muy poca precisión, sus intervalos de confianza serán más amplios y
tenderán a ser estadísticamente no significativos, aumentará la probabilidad de
aceptar la hipótesis nula (error tipo II).
- Dado que las variables explicativas están muy correlacionadas entre sí, las covarianzas
entre los estimadores MCO de beta, tiende a ser muy alta. Por lo que se dificulta
separar el efecto en la variable dependiente que es atribuible a cada variable
explicativa.
- Las altas covarianzas entre los estimadores MCO, ocasiona una alta inestabilidad en
los valores estimados, es decir, pequeños cambios muestrales (inclusión o exclusión de
una variable explicativa, adición o sustracción de pocas observaciones) produzcan
grandes cambios en los estimadores de beta asociados a las variables colineales, pero
sin afectar a los estimadores de las variables no colineales.

2. Detección del problema


Como se dio a conocer, la multicolinealidad es un problema de grado, Por motivos
prácticos dos grados: perfecto y severo. El primer, dificulta la estimación paramétrica, ya
que origina una matriz X´X singular, no invertible. El grado severo, se presenta cuando es
alta la asociación lineal. Por ello, nos interesa para efectuar una buena estimación
paramétrica que el grado sea el mínimo posible.

- Matriz de correlación de los vectores de X


Para evaluar la existencia de colinealidad entre los regresores analizaremos la matriz
de correlaciones de las columnas de la matriz X.
De hallarse una correlación elevada entre al menos dos vectores distintos de la matriz,
se tendrá un indicio preliminar de la presencia de multicolinealidad en el modelo.

Ejemplo, sea el modelo de regresión:

Y= bo+b1X1+b2X2+b3X3

Su matriz de coeficientes de regresión:


X1 x2 X3
X1 1.000000 1.000000 -0.093509
X2 1.000000 1.00000 -0.093509
X3 -0.093509 -0.093509 1.000000

En la matriz, observamos que el coeficiente de correlación entre las variables X1 y X2


es igual a la unidad, indicando la existencia de colinealidad perfecta entre ambas y,
por lo tanto, no sería posible estimar el modelo con ambas variables presentes. Como
referencia práctica, puede considerarse que todo valor superior a 0.8 evidencie la
presencia de este problema. Por otra parte, en la matriz se presenta una correlación
igual a -0.093509 entre las variables X1 y X3.

- Análisis de estadísticos t y del coeficiente de ajuste


Una prueba de multicolinealidad consiste en comparar los estadísticos t de cada
coeficiente de regresión con el coeficiente de determinación.
La multicolinealidad origina un aumento de las desviaciones estándar de las
distribuciones de los coeficientes estimados, por tal razón, las razones t serán no
significativas, aunque su coeficiente de determinación sea alto.

- Test de Farrar-Glauber
Esta prueba permite un contraste más formal de la hipótesis de multicolinealidad y
consta de tres enfoques complementarios.

i) Test de ortogonalidad (Chi cuadrado)


Se busca evaluar la otorgonalidad de los regresores sobre la base de la matriz
de correlaciones por pares entre las series independientes.
Ho: las X son ortogonales entre sí
Si el resultado de la evaluación arroja que se rechaza Ho, entonces existe
multicolinealidad.
El estadístico de prueba es:
Chi cuadrado calculado = -{n-1- (2k+5)}*ln/R/
Chi cuadrado calculado sigue una distribución Chi cuadrado con {k(k-1)]/2gl
Donde:
K es el número de variables explicativas
R es la matriz de correlaciones entre pares de regresores
Regla de decisión:
Si Chi cuadrado calculado es mayor chi cuadrado crítico, entonces se rechaza
el supuesto de ortogonalidad (existe multicolinealidad).
Mientras más alto sea el chi cuadrado estimado, más severo será el grado de
colinealidad entre las variables explicativas.¨

ii) Test F
Se busca determinar qué regresor se encuentra más colineado con los demás,
para ello, se utilizan regresiones auxiliares de cada variable Xi, versus el resto
de variables explicativas.. Deberá observarse el coeficiente de determinación
de cada regresión y tomar nota del R cuadrado estimado más alto:

X2= f(c, X3,…, Xk) y se obtiene el R cuadrado X2


X3= f(c, X2, X4,…, Xk) y se obtiene el R cuadrado X3
…….
Xk=f(c, X2, X3,…, Xk) y se obtiene el R cuadrado Xk
Ho: R cuadrado máximo igual a cero
H1: R cuadrado máximo es diferente de cero

Fi= [ R ²máx/(k-1)]/ (1-R² máx)/(n-k) Fi sigue una distribución F con (k-1),


(n-k )gl Donde:
Fi es el valor estimado de la prueba F
K es el número de variables explicativas.
Regla de decisión.-
Si Fi es mayor F crítico, se rechaza Ho (la variable Xi está colineada con las
demás variables explicativas).

Test t.-
Se calcula la matriz de coeficientes de correlación entre las variables
explicativas y se escoge el más alto de ellos (r máximo).
Ho: r máximo igual a cero
H1: r máximo diferente de cero
T= r máx √(n-k) /√ (1-r máx)
Donde:
T valor estimado de prueba t
K es el número de variables asociadas a pendientes.
Regla de decisión.-
Si t mayor que t crítico, se rechaza la Ho (la variable Xi está colineada con la
variables Xj. El grado de multicolinealidad es alto.

Ejemplo:
Se desea estimar los gastos en transporte(GT) de un grupo de 100 trabajadores, para
lo cual se divide e año entre el número de días trabajados por el trabajador (W), el
número de días de descanso médico (M) y el número de días no trabajados por otras
razones(O). El promedio de días trabajados es 242.7, el de descanso médico es 2.1 y el
de ptros días no trabajados es de 102.2.
GTt= -9.6 + 2.10Wt + 0.45Ot
ee 1.98 1.77
t 1.06 0.25
R²= 0.72 Fcal= 124.7
 El estadístico t de ambos coeficientes de regresión son bajos, y no es posible
rechazar la hipótesis nula de que los coeficientes son cero. Por lo que,
aparentemente GT no son explicados por W y O.
 El R² es alto
 El estadístico F es 124.7, frente a F(2,97) .Por lo que se rechaza la hipótesis
nula(Ho:beta₂=beta₃=0)
 La aparente contradicción entre los resultados de las pruebas t y F, se deben a la
colinealidad entre W y O, toda vez que 365=W+M+O En el modelo no hay
colinealidad perfecta porque se ha excluído la variable M.
3. Corrección del problema
- Fundamentada en el principio de comenzar con un modelo que incluya todas las
variables explicativas disponibles eliminar una por una las variables hasta que el grado
de multicolinealidad se reduzca al nivel deseado, por lo que habrá que eliminarse
primero aquellas variables más correlacionadas con el resto.
La implementación del procedimiento puede conseguirse mediante la estimación de
un índice auxiliar de colinealidad promedio para cada variable. Este coeficiente puede
calcularse así:
k
Colinealidad promedio (Xi)=∑ |correlación (Xi,Xj)|/k
J=1

La suma de valores absolutos de las correlaciones cruzadas permitirá generar un ran-

king de regresores. De acuerdo con esta metodología, aquellos que tengan una ma-

yor colinealidad promedio deberán ser eliminados antes de la regresión.

Antes de dar cada paso de la eliminación, debe aplicarse un test apropiado para validar

La existencia de colinealidad en la matriz de regresores. De encontrarse este problema

en un grado significativo, se procederá a eliminar la siguiente variable más colineada

con el resto de regresores presentes y a recalcular el índice de colinealidad promedio

y el ranking de regresores. Estos asos se repetirán hasta que el problema se reduzca

por debajo del umbral de significancia estadístico deseado.

- Tansformación de variables.-
Si se dispone de información de series de tiempo de variables que tienden a moverse
en la misma dirección, Una forma de minimizar esta dependencia es trabajar con la
ecuación en primeras diferencias. De esta manera, se reduce frecuentemente la
severidad de la correlación. El modelo así corregido no presentará intercepto el
término de perturbación, tiene problemas de correlación serial.
Otra transformación es la de la razón entre las variables explicativas más asociadas, lo
cual podría generar heteroscedasticidad.

- Combinación de información de corte transversal y de series de tiempo.-


Conocida como mezcla de datos, si trabajamos con datos seriados para variables
explicativas asociadas, podemos ingresar información de corte transversal respecto a
uno de los coeficientes de regresión.
Ejemplo.-
En 1966 el Papa Paulo VI tomó la decisión de permitir que los católicos consuman
carne en viernes santo, esto habría desplazado la función de demanda por pescado.
Sea el modelo estimado:

Ft=-1.988398+0.039502PFt-0.000777PBt+1.770237log(Yd)t-3.14E-05CAT-0.355258D66
t 1.273645 -0.038453 0.945333 -0.957715 -1.006054

R²= 0.735631 Fcal= 10.57385 prob F= 0.000057


Donde:
Ft: cantidad de pescado consumido en libras, en el año t
PFt: índice de precios de pescado en el año t
PBt: índice de precios de carne de res en el año t
Ydt: ingreso real disponible en el año t (en miles de millones de dólares)
CAT: el número de católicos en USA, en el año t (decenas de miles)
D66t: variable dummy igual a 1 para el año 1966 (decisión papal); 0 en otros años
Periodo: 1946-1970
Si la decisión papal D66 contrajo la demanda de pescado, se debe rechazar

Ho=beta₅≥0

 Ninguno de los coeficientes de regresión es estadísticamente significativo


 El R² de 0.73 es alto
 Los signos de los coeficientes de regresión de PF, PB, LOG(Yd), CAT
 Considerando la matriz de correlaciones de las variables:
El ingreso per cápita disponible y el número de católicos, miden el poder de
compra (r=0.945766)
Es probable que los precios de pescado y de carne de res se muevan en el mismo
sentido, porque son precios de equilibrio de dos bienes sustitutos, por ejemplo
cuando se incrementa la demanda de pescado, el precio del pescado sube. Al subir
el precio del pescado la demanda de carne de res se expande aumentando
también el precio de la carne de res (r=0.958096)
 La multicolinealidad más probable es entre el número de católicos y el ingreso
disponible, ambos representan el poder de compra (r=0.945766), por lo que
podríamos eliminar alguna de esas variables, por ejempo CAT.

Ft=7.961108+0.027993PF+0.004692PB+0.360363logYd)-0.124462D66t
t 0.981075 0.242675 0.312010 -0.483211
R²= 0.722869 Fcal=13.04200 ProbF= 0.000022

 Pesar de haber eliminado CAT, persiste la multicolinealidad.


 Como PF y PB tienen r=0.958096, transformaremos los precios de estas variables
en precios relativos PF/PB, pues los consumidores reaccionan a cambios en los
precios relativos.

Ft=-5.168676-1.930897PF/PB+2.711743log (Yd) + 0.005197D66t


t -1.349591 4.128838 0.018554
R²= 0.639721 Fcal= 12.42938 Prob F= 0.000069
 Todavía persiste algo de multicolinealidad, la asociación entre log(Yd) y D66 es de
0.7445.

Para probar la hipótesis si la decisión papal contrajo la demanda de pescado, se

debe rechazar la Ho=beta₅≥0

tcal beta₅= beta₅/eebeta₅

=-0.124462/0.257573= -0.483210585

tcrít 96gl= 1.661. Como tcal beta₅ no es menor que tcrít, no es posible rechazar la

Ho. Por lo que, la decisión papal no ha contribuido a reducir la demanda de carne

de pescado entre los católicos (cualquier contracción de la demanda de pescado

es atribuible a otros factores distintos a la decisión papal).

4. Ejercicios de aplicación

1. Son características de alta multicolinealidad:


a. Coeficientes con altos errores estándar y bajo nivel de significancia individual,
aunque con alta significancia global y u R cuadrado alto.
b. Las varianzas de los beta estimados por MCO y las variables colineales son
grandes.
c. Los coeficientes estimados todavía son MELI
d. Solo a y b
e. Todas son verdaderas.
2. ¿Qué afirmación es verdadera?
a. Dado el siguiente modelo Y=b1+b2*X2+b3*X3, si el regresor X3 tiene la
especificación X2= γX3, entonces existe multicolinealidad en alto grado.
b. La multicolinealidad es un problema de grado y no de clase.
c. Dada la naturaleza de las variables económicas, no se puede evitar la
multicolinealidad.
d. Los estimadores siguen siendo insesgados y eficientes.
e. Todas menos una.
3. Al analizar la relación entre los índices de aprobación de préstamos y el porcentaje
de minorías en el vecindario, incluiríamos variables como el ingreso promedio, el
valor promedio de la vivienda, medidas de capacidad crediticia, etc. ¿Ingreso,
precios de vivienda y capacidad crediticia pueden estar muy correlacionados?
4. La siguiente ecuación describe el precio promedio de las viviendas en una
localidad, en términos de la contaminación (oxnit para óxido nitroso) y del número
promedio de habitantes (habit) en las casas:
Log (precio)= bo+b1log (oxit)+b2habit+u
¿Por qué estarían correlacionadas negativamente oxnit y habit?
5. Un problema de interés para los funcionarios encargados de la salud pública (y
otros) es determinar los efectos que tiene el tabaquismo durante el embarazo en
la salud infantil. Una medida de ésta es el peso al nacer; un índice demasiado bajo
pone al lactante en riesgo de contraer diversas enfermedades. Puesto que es
probable que otros factores, además del tabaquismo, que influyen en el peso al
nacer estén correlacionados con esta adicción, debemos tomarlos en cuenta.. Por
ejemplo, un ingreso más elevado por lo regular garantiza mejores atenciones
prenatales, así como mejor nutrición para la madre. Una ecuación que reconoce lo
anterior es
Peso=bo+b1cigs+b2ingrf+u
Donde peso es el peso al nacer; ingrf es el ingreso familiar.
¿Cree que es probable que cigs e ingrf estén correlacionadas? Explique si la
correlación sería negativa o positiva.
6. Se dispone de la estimación del siguiente modelo de la mortalidad infantil. Las
variables explicativas son PBI per cápita (PBIPC), tasa de alfabetización para las
mujeres (FLR), tasa de fertilidad total (TFR), se obtuvieron os resultados de
regresión:
Mort. Inf.= 168.3067-0.005511PBIPC-1.768029FLR+12.86864TFR
Prob 0.000 0.0047 0.0000 0.0032
R cuadrado= 0.747372
D Watson=2.170318
Fcalculado= 59.16767
Prob (F calculado)= 0.000000
¿Puesto que todos los coeficientes t son estadísticamente significativos, ¿se
puede decir que no existe un problema de colinealidad en el modelo?
7. Considere el siguiente modelo:
Yt=b1+b2Xt+b3Xt-1+b4Xt-2+b5Xt-3+b6Xt-4+ut
Y es el consumo, X es el ingreso, t es el tiempo
a. ¿Se esperaría la presencia de multicolinealidad en el modelo y por qué?
b. Si se espera la presencia de colinealidad, cómo solucionaría la presencia de
colinealidad?
8. La matriz de correlación para un modelo es la siguiente:
Xi Xi^2 Xi^3
Xi 1.0 0.9742 0.9284
Xi^2 1.0 0.9872
Xi^3 1.0
a. “Puesto que las correlaciones de orden cero son muy elevadas, debe existir
colinealidad severa”. Coméntese.
b. ¿Se eliminarían del modelo las variables Xi^2 y Xi^3?
c. ¿Si se eliminan las variables anteriores, qué sucederá con el valor del
coeficiente de Xi?
9. Considérese el siguiente modelo:
PNBt=b1b2Mt+b3Mt-1+b4 (Mt-Mt-1)+ut
Mt es la oferta monetaria
a. Suponiendo que tiene la información para estimar el modelo anterior, sería
posible estimar todos los coeficientes de esta regresión? Justifique su
respuesta.
b. De no ser posible, qué coeficientes, ¿qué coeficientes pueden ser estimados?
10. Con la información anual para el sector manufacturero norteamericano durante
el periodo 1899-1922, se obtuvo los siguientes resultados de regresión:

logY=2.81-0.53logK+0.9logL+0.047t

ee 1.38 0.34 0.14 0.021

Rcuadrado=0.97 Fcalculado=189.8

Y es el índice de producción real, K es el índice de insumo capital real, L es el índice


de insumo trabajo real, t es el tiempo o tendencia

a. ¿Existe multicolinealidad en el modelo, cómo se sabe?


b. ¿Cuál es el signo a priori de logK? ¿Concuerdan los resultados con esta
expectativa? Justifique su respuesta.
c. ¿De existir multicolinealidad, cómo solucionaría el problema?
11. Klein y Goldberger intentaron ajustar el siguiente modelo de regresión a la
economía norteamericana:
Yi=b1+b2X2i+b3X3i+b4X4i+ui
Y=consume, X2=ingreso salarial, X3=ingreso no salarial, no procedente del campo,
X4=ingreso procedente del campo. Pero, puesto que se espera que X2, X3, X4 sean
altamente colineales, ellos obtuvieron las siguientes estimaciones de b3 y b4 del
análisis de corte transversal: b3=0.75b2 y b4=0.625b2. Utilizando estas
estimaciones, ellos reformularon su función de consumo de la siguiente manera:
Yi=b1+b2X2i+0.75X3i+0.625X4i)+ui=b1+b2Zi+ui
a. ¿Cómo se interpretaría la variable Z?
b. ¿Cómo se llama esta forma de solucionar multicolinealidad?
12. En el modelo del logaritmo de importaciones, que depende del PNB e índice de
precios al consumidor (IPC) para los EUA, durante el periodo 1970-1998, se estimó
el siguiente modelo:
Ln importacionest=b1+b2lnPNBt+b3lnIPCt+ut

¿Se sospecha que hay multicolinealidad entre las variables explicativas?

13. Se dispone de información sobre los nuevos modelos de automóviles de


pasajeros(Y) en USA como función de automóviles nuevos, índice de precios al
consumidor, 1967=100, sin ajuste estacional (X2); Indice de precios al consumidor,
todos los renglones, todos los consumidores urbanos, 1967=100, sin ajuste
estacional (X3); el ingreso personal disponible, sin ajustar por variación
estacional(X4); la tasa de interés, colocación directa de valores de la compañía
financiera (X5); fuerza laboral civil empleada, sin ajustar por variación
estacional(X6)
a. Si se decide incluir todas las regresoras dadas, se espera encontrar el
problema de multicolinealidad?
b. ¿Si se espera lo anterior, cómo haría para resolver el problema?
14. Al estimar la cantidad demandada de pollo, que depende del precio de pollo,
precio de la carne de res, precio de la carne de ovino y del ingreso, se obtuvo los
siguientes resultados de regresión:
Qt= 34.77072-5.571690ppollo-0.147939povino+0.065223pres+0.133296ingreso
Prob 0.0636 0.000000 0.8854 0.9551 0.000000
Rcuadrado=0.751353 D Watson=1.885837 Fcalc= 18.88599 Prob F= 0.00000
a. ¿Está de acuerdo con los signos de los coeficientes de regresión? Justificar.
b. ¿Existe multicolinealidad en el modelo, demuéstrelo.
c. ¿De existir. cómo lo solucionaría?
15. ¿Qué son los factores de inflación de varianza?

Bibliografía
Juan Castro, Econometría aplicada.. Universidad del Pacífico, 1ra. Edic., 2010
Damodar Gujarati, Econometría. Mc Graw Hill, 5ta. Ed., 2010
Juan Pichihua, Econometría: Teoría y aplicaciones. Universidad Nacional Agraria La
Molina.
Jeffrey Wooldridge, Introducción a la econometría. Thomson, 2001.

También podría gustarte