ECONOMETRIA Completo PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 172

Econometrı́a

Autor:
M. Victoria Esteban González

Departamento de Economı́a Aplicada III. Econometrı́a y Estadı́stica


Facultad de Economı́a y Empresa
Universidad del Paı́s Vasco/Euskal Herriko Unibertsitatea
Queda terminantemente prohibida la reproducción no autorizada de este material docente, y la dis-
tribución no autorizada de copias de la misma, ası́ como cualquier otra infracción de los derechos que
sobre esta recopilación corresponden a la Profesora Ma Victoria Esteban junto con el Departamento
de Econometrı́a y Estadı́stica de la Facultad de Economı́a y Empresa de la UPV/EHU.

c
°UPV/EHU 2018.
Econometrı́a

ii
Presentación

El objetivo de este documento es introducir un conjunto de técnicas estadı́sticas y econométricas


para la estimación de modelos lineales en situaciones donde se cumplen las hipótesis estadı́sticas de
comportamiento habituales. Se pretende introducir al alumno en el análisis de regresión, por lo que
se estudia en detalle los Modelos de Regresión Lineal Simple y General. El objetivo fundamental
del curso es que, al final del mismo, los estudiantes sean capaces de utilizar un modelo de regresión
para resolver un problema sencillo que se les plantee: desde la especificación, estimación y validación
del modelo hasta contrastar hipótesis de relevancia económica y predecir. Este objetivo se ha de
satisfacer tanto desde un punto de vista teórico, resolver cuestiones y explicar resultados ya obte-
nidos, como práctico: estimar un modelo con una base de datos concreta y realizar los contrastes
pertinentes.
Estas notas incluyen seis temas. En el tema introductorio se define la disciplina de la Econometrı́a
y se introducen los conceptos básicos relacionados con un modelo econométrico. El segundo tema
introduce la especificación del Modelo de Regresión Lineal Simple ası́ como la nomenclatura y
conceptos más habituales a manejar en el contexto del análisis de regresión. El tema tres aborda
la estimación del modelo de regresión lineal simple. El estimador de referencia es el estimador
de Mı́nimos Cuadrados Ordinarios. Se estudiaran sus propiedades y cómo compararlo con otros
estimadores de interés. El tema cuatro se ocupa del contraste de hipótesis. El tema cinco analiza
la especificación, estimación e inferencia en el Modelo de Regresión Lineal General. También se
estudian las consecuencias de la existencia de colinealidad o de mala especificación en el modelo
para finalizar abordando la predicción de la variable de interés. El tema seis muestra cómo analizar
si alguna de las hipótesis estadı́sticas de comportamiento habituales no se cumplen y cuáles son las
consecuencias de su incumplimiento.
A lo largo de los temas se va mostrando cómo utilizar un software libre, el programa gretl, espe-
cialmente indicado para el análisis econométrico y que permite un afianzamiento de los contenidos
teóricos. Por ello, al final de los temas se incluye una sección que muestra cómo utilizar este pro-
grama en relación a los contenidos vistos. En cada tema se muestran ejemplos que ilustran los
diferentes escenarios de trabajo ası́ como se recomienda la realización de los ejercicios propuestos.
Al término de cada tema se muestra la bibliografı́a correspondiente. Al final del documento aparece
la bibliografı́a completa.
Las notas tienen como objetivo servir de apoyo al proceso de aprendizaje de los estudiantes de la
asignatura Econometrı́a del Doble Grado en Administración y Dirección de Empresas y Grado en
Derecho ası́ como del Grado en Administración y Dirección de Empresas. Sin embargo, dada su
temática básica de estadı́stica y análisis de regresión pueden ser útiles en asignaturas afines de los

iii
Econometrı́a

Grados en Economı́a, Marketing, Fiscalidad y Administración Pública. Ası́ mismo sirven de apoyo
a estudiantes de master por ejemplo el Master en Ciencias Actuariales y Financieras o el Master
Universitario en Banca y Finanzas Cuantitativas.

Las competencias especı́ficas de la asignatura y la evaluación

La asignatura de Econometrı́a es una asignatura de 6 créditos ECTS que conlleva 60 horas de trabajo
presencial en el aula y 90 horas de trabajo no presencial. La metodologı́a y modalidades docentes a
utilizar están sujetas al criterio del docente y pueden variar cada curso académico. Hay que tener
en cuenta que la organización de la metodologı́a docente junto con el diseño de los contenidos de
los temas del curso van dirigidos a que los alumnos alcancen las siguientes competencias especı́ficas
de la asignatura:

C1. Analizar de forma crı́tica los elementos básicos del modelo de regresión lineal con el objetivo de
comprender la lógica de la modelización econométrica y poder especificar relaciones causales
entre las variables.

C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.

C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.

C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.

A lo largo del curso se trabajan las siguientes Competencias Transversales del módulo1 :

CT1. Capacidad para emitir juicios razonados apoyándose en los datos obtenidos (M03CM02).

CT2. Desarrollar las habilidades de aprendizaje para adquirir un alto grado de autonomı́a, tanto de
cara a emprender estudios posteriores como de cara a su propia autoformación (M03CM05).

CT3. Capacidad para la comunicación escrita y oral con fluidez (M03CM09)s.

CT4. Capacidad para el pensamiento analı́tico y la reflexión crı́tica(M03CM11).

CT5. Capacidad para comunicarse en una lengua extranjera, preferentemente en inglés, francés o
alemán (M03CM13).

Los Resultados de Aprendizaje que se pretende que el alumnado adquiera con los contenidos y
metodologı́a de la asignatura son los siguientes:
1
Los códigos de las competencias transversales se corresponden con las del Módulo Avance en la Administración y
Dirección de empresas recogidas en la memoria del grado (www.ehu.eus).

iv
Econometrı́a

- Comprender la especificación del modelo de regresión lineal y, en particular, el significado y


las implicaciones de los supuestos básicos (C1).

- Saber incorporar en el modelo de regresión variables cuantitativas y cualitativas (C1).

- Interpretar los coeficientes del modelo de regresión, incluyendo los de especificaciones no li-
neales en las variables (C1, C3).

- Organizar y sistematizar información estadı́stica relevante (C3, C4).

- Utilizar un software econométrico (Gretl) para el análisis de bases de datos económicos e


interpretar sus resultados (C2, C3).

- Estimar el modelo de regresión por Mı́nimos Cuadrados Ordinarios (C2).

- Realizar contrastes de hipótesis sobre la relación económica propuesta (C3).

- Predecir valores de interés con un modelo econométrico (C3).

- Comprobar la validez de algunos de los supuestos básicos del modelo de regresión y aprender
a modificar el análisis en caso de incumplimiento (C3).

- Seleccionar entre especificaciones alternativas en base a las propiedades de los estimadores


(C3).

- Interpretar adecuadamente los resultados obtenidos en la estimación del modelo econométrico


(C3, C4).

El sistema actual de docencia dentro del EEES tiene como ejes fundamentales el proceso de en-
señanza-aprendizaje y la adquisición no sólo de conocimientos, sino también, y fundamentalmente,
de destrezas implica directamente la valoración del trabajo diario del alumno y su evolución en la
adquisición de las competencias. La utilización de la evaluación continua en la evaluación de los
alumnos implica la realización, junto con otras pruebas y tareas que el docente crea de interés, de
test rápidos o de preguntas cortas en relación a todo lo visto en las clases, conceptos teóricos y
ejercicios prácticos incluido el software gretl que permitan evaluar al alumno y saber si han adqui-
rido los resultados del aprendizaje alcanzando ası́ las competencias especı́ficas. Parte de las pruebas
tendrán componente de sorpresa, es decir sin previo aviso, y parte serán pactadas en cuanto a fecha.
Como se indicaba anteriormente estas notas sirven de apoyo al estudio. Analizan los problemas en
profundidad y permiten al alumno profundizar en los temas que conforman el contenido del curso.
Ası́ mismo tienen una fuerte vertiente práctica que permitirá al alumno no solo saber sino también
saber hacer. En ningún caso deben utilizarse como sustituto de los libros incluidos en la bibliografı́a.
De igual manera se recomienda la realización de ejercicios tanto los recomendados en clase como los
que aparecen en la bibliografı́a. La unión del estudio de los conceptos y la utilización de los mismos
en los ejercicios permite adquirir la agilidad necesaria para el dominio de la asignatura y alcanzar
las competencias especı́ficas de la misma.

v
Econometrı́a

Sobre el software gretl

A lo largo del curso se muestra cómo utilizar un software gretl que permite al alumno un afian-
zamiento de los contenidos teóricos del curso de Econometrı́a como la puesta en práctica de casos
reales con la utilización del software gretl2 .
gretl es software libre especialmente dirigido hacia la práctica de la econometrı́a y la estadı́stica,
muy fácil de utilizar. Ha sido elaborado por Allin Cottrell (Universidad Wake Forest) y existen
versiones en inglés, castellano y euskera, además de en otros idiomas. Junto con el programa se
pueden cargar los datos utilizados como ejemplos de aplicaciones econométricas en los siguientes
libros de texto Davidson y Mackinnon (2004), Greene (2008), Gujarati (1997), Ramanathan (2002),
Stock y Watson (2003), Verbeek (2004), Wooldridge (2003). Al instalar gretl automáticamente se
cargan los datos utilizados en Ramanathan (2002) y Greene (2008). El resto se pueden descargar
de la página:
http : //gretl.sourcef orge.net/gretl− data.html
en la opción textbook datasets. Este curso se estructura sobre casos prácticos presentados en Rama-
nathan (2002) y en Wooldridge (2003) y ejercicios a resolver con ayuda de gretl.
También da acceso a bases de datos muy amplias, tanto de organismos públicos, como el Banco de
España, como de ejemplos recogidos en textos de Econometrı́a. En la página

http : //gretl.sourcef orge.net/gretl− espanol.html

se encuentra la información en castellano relativa a la instalación y manejo del programa. También


hay versiones de esta ayuda en euskera y en inglés.
Una página web interesante sobre las posibilidades del programa para el aprendizaje de Econometrı́a
es:

http://www.learneconometrics.com/gretl.html

2
Acrónimo de Gnu Regression, Econometric and Time Series (Biblioteca Gnu de Regresión Econometrı́a y Series
Temporales)

vi
Contenido

1. Introducción a la Econometrı́a 1
1.1. ¿Qué es la Econometrı́a? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Modelo económico y modelo econométrico . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Etapas en la elaboración de un modelo econométrico . . . . . . . . . . . . . . . . . . 5
1.4. Tipologı́a de datos y variables en Econometrı́a . . . . . . . . . . . . . . . . . . . . . 6
1.4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2. Fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5. Tratamiento de la información con gretl : inclusión de datos en gretl y análisis des-
criptivo básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Modelo de Regresión Lineal Simple. Especificación 19


2.1. Especificación del Modelo de Regresión Lineal Simple . . . . . . . . . . . . . . . . . 21
2.2. Elementos del modelo de regresión simple . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1. Hipótesis básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3. Función de Regresión Poblacional. Interpretación de los coeficientes. . . . . . . . . . 27
2.4. Utilización de variables explicativas cualitativas . . . . . . . . . . . . . . . . . . . . . 30
2.5. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3. Modelo de Regresión Lineal Simple. Estimación 37


3.1. Estimación por Mı́nimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . . . . . 39
3.1.1. El criterio de estimación mı́nimo-cuadrático . . . . . . . . . . . . . . . . . . . 41
3.2. La Función de Regresión Muestral. Interpretación de los coeficientes estimados por
MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1. Propiedades de la Función de Regresión Muestral . . . . . . . . . . . . . . . . 47

vii
Econometrı́a

3.3. Bondad del ajuste. Coeficiente de determinación. . . . . . . . . . . . . . . . . . . . . 48


3.4. La estimación MCO en Gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4. Modelo de Regresión Lineal Simple. Inferencia 57


4.1. Propiedades del estimador de MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.1. Propiedades del estimador de MCO . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.2. Estimación de la varianza de las perturbaciones . . . . . . . . . . . . . . . . . 60
4.2. Distribución del estimador de MCO bajo Normalidad . . . . . . . . . . . . . . . . . 61
4.3. Estimación por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4. Contraste de hipótesis. Estadı́stico t . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4.1. Contraste de significatividad individual en el MRLS . . . . . . . . . . . . . . 64
4.4.2. Otros contrastes sobre β2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.3. Utilización del intervalo de confianza para hacer contraste de hipótesis . . . . 66
4.5. Inferencia en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.6. Resumen. Presentación de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.7. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5. Modelo de Regresión Lineal General 71


5.1. Especificación del Modelo de Regresión Lineal General (MRLG): supuestos básicos . 73
5.1.1. Hipótesis básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.2. Función de Regresión Poblacional. Interpretación de los coeficientes. . . . . . . . . . 76
5.2.1. Forma funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3. Utilización de variables explicativas cualitativas . . . . . . . . . . . . . . . . . . . . . 83
5.3.1. Modelo que recoge sólo efectos cualitativos: comparando medias. . . . . . . . 84
5.3.2. Dos o más conjuntos de variables ficticias . . . . . . . . . . . . . . . . . . . . 86
5.3.3. Inclusión de variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . 87
5.3.4. Comportamiento estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.3.5. Efectos de interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.4. Estimación por Mı́nimos Cuadrados Ordinarios (MCO) . . . . . . . . . . . . . . . . 90
5.4.1. Propiedades de la Función de Regresión Muestral, FRM . . . . . . . . . . . . 96
5.4.2. Medidas de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

viii
Econometrı́a

5.5.1. Estimación de la varianza de las perturbaciones . . . . . . . . . . . . . . . . . 101


5.6. Distribución del estimador MCO. Estimación por intervalo . . . . . . . . . . . . . . . 104
5.6.1. Distribución del estimador de MCO bajo Normalidad . . . . . . . . . . . . . 104
5.6.2. Estimación por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.7. Contraste de hipótesis sobre los coeficientes de la regresión . . . . . . . . . . . . . . 106
5.7.1. Contraste de restricciones sobre los coeficientes de regresión individuales.
Estadı́stico t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.7.2. Contraste de restricciones sobre los coeficientes de regresión. Estadı́stico F . . 108
5.7.3. Estimación mı́nimo-cuadrática sujeta a restricciones . . . . . . . . . . . . . . 113
5.8. Consecuencias del incumplimiento de algunos supuestos: colinealidad . . . . . . . . . 117
5.8.1. Multicolinealidad exacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.8.2. Alta colinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.9. Consecuencias del incumplimiento de algunos supuestos: omisión de variables rele-
vantes e inclusión de variables irrelevantes . . . . . . . . . . . . . . . . . . . . . . . . 121
5.9.1. Omisión de variables relevantes . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.9.2. Inclusión de variables irrelevantes . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.10. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.11. Estimación, contraste de hipótesis y predicción en el MRLG con gretl. Principales
resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.11.1. Tratamiento de las variables ficticias en gretl . . . . . . . . . . . . . . . . . . 128
5.11.2. El p-valor y conclusiones del contraste . . . . . . . . . . . . . . . . . . . . . . 134
5.11.3. Predicción en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.12. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

6. Heterocedasticidad. Implicaciones 139


6.1. Sobre las perturbaciones: contrastes de heterocedasticidad . . . . . . . . . . . . . . 141
6.1.1. Contraste de heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.1.2. Detección gráfica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.1.3. Contraste de White . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.1.4. Estimador robusto de la matriz de varianzas y covarianzas del estimador MCO
bajo heterocedasticidad. Contraste de hipótesis . . . . . . . . . . . . . . . . . 149
6.2. Heterocedasticidad en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6.3. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

ix
Econometrı́a

x
Figuras

1.1. Gráficos de las observaciones para las variables price y sqf t . . . . . . . . . . . . . . 16

2.1. Selección de un fichero de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21


2.2. Diagrama de dispersión precio-superficie de viviendas . . . . . . . . . . . . . . . . . . 22
2.3. Perturbaciones homocedásticas versus heterocedásticas . . . . . . . . . . . . . . . . . 26

3.1. Modelo de regresión simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


3.2. Función de regresión poblacional y función de regresión muestral . . . . . . . . . . . 40
3.3. Ventana de especificación del modelo lineal . . . . . . . . . . . . . . . . . . . . . . . 51
3.4. Ventana de resultados de estimación MCO . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5. Gráficos de resultados de regresión MCO . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6. Residuos MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.1. Relaciones económicas no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.1. Perturbaciones homocedásticas versus heterocedásticas . . . . . . . . . . . . . . . . . 141


6.2. Residuos MCO versus P OP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.3. Residuos MCO versus P OP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.4. Residuos MCO y sus cuadrados versus SEN . . . . . . . . . . . . . . . . . . . . . . . 146
6.5. Perturbaciones homocedásticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.6. Residuos MCO frente a una variable ficticia . . . . . . . . . . . . . . . . . . . . . . . 148
6.7. Residuos MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.8. Residuos MCO versus INCOME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6.9. Residuos MCO versus POP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

xi
Econometrı́a

xii
Tablas

2.1. Conjunto de datos incluidos en data3.1 House prices and sqft . . . . . . . . . . . . . 22

3.1. Residuos de la regresión MCO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.1. Estimación de varianzas y covarianza de β̂1 y β̂2 . . . . . . . . . . . . . . . . . . . . . 68

5.1. Datos de caracterı́sticas de viviendas. Fichero 4-1.gdt. . . . . . . . . . . . . . . . . . 93

xiii
Tema 1

Introducción a la Econometrı́a

En este tema y siguientes vamos a abordar cómo se relacionan las variables entre sı́. De ello se ocupa
la Econometrı́a. Ası́, en estos temas aprenderemos a interpretar la información estadı́stica sobre la
realidad económica. La importancia de la Econometrı́a va más allá de la disciplina de la economı́a.
La Econometrı́a es un conjunto de instrumentos de investigación empleados en finanzas, marketing,
dirección de empresas, negocios, historia, sociologı́a incluso agronomı́a.
La herramienta básica es un modelo econométrico que conjuga los esquemas teóricos sobre el funcio-
namiento de la Economı́a con las técnicas estadı́sticas de análisis de datos. Un modelo puede tener
una estructura muy compleja, pero nos centramos en el modelo más sencillo, y que da contenido
a buena parte de la asignatura, el modelo de regresión lineal simple. Este modelo explica el
comportamiento de una única variable económica mediante el comportamiento de otra variable.
Una vez comprendamos los mecanismos de funcionamiento y relaciones entre las variables de este
modelo pasaremos a estudiar un modelo más amplio, el modelo de regresión lineal general. A
diferencia del Modelo de Regresión Lineal Simple este modelo explica el comportamiento de una
única variable económica mediante un conjunto de variables.
En este tema definiremos la disciplina de la Econometrı́a e introduciremos conceptos relacionados
con un modelo econométrico: los datos, las variables, los parámetros, entre otros elementos de un
modelo.
El desarrollo de la Econometrı́a ha sido enormemente facilitado por el avance en la informática. El
curso, con gran componente aplicado necesita complementarse con el aprendizaje de un software
econométrico. El paquete econométrico a utilizar es gretl; se trata de software de libre uso, fácil
de manejar y que tiene acceso a las bases de datos que se estudian en muchos libros de análisis
econométrico. El alumno deberá aprender su manejo, en paralelo con los conceptos estadı́sticos y
econométricos, y a interpretar adecuadamente los resultados obtenidos.

Objetivo de aprendizaje:
Comprender la lógica de la modelización econométrica y las caracterı́sticas de los diferentes elemen-
tos de los modelos, ası́ como la relevancia de cada uno de los supuestos empleados en la especificación
de un modelo.

1
Econometrı́a

Al final de este tema deberı́ais ser capaces de:

1. Distinguir entre un modelo económico y un modelo econométrico.

2. Conocer las etapas en la realización de un trabajo aplicado.

3. Distinguir los diferentes tipos de datos empleados en el análisis econométrico.

4. Distinguir las diferentes variables implicadas en un modelo econométrico.

5. Distinguir entre parámetros de la relación económica y parámetros de la relación probabilı́stica.

6. Distinguir entre estimador y estimación.

Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:

• Stock and Watson, J. M. (2012). Cap.1.

• Wooldridge, J.M. (2006). Cap.1.

2
Econometrı́a

1.1. ¿Qué es la Econometrı́a?

Econometrı́a en sentido estricto significa medida de la economı́a. La Econometrı́a


se ocupa de formular, cuantificar y valorar las relaciones entre variables económicas,
para ello necesita de otras materias como son la Teorı́a Económica, la Estadı́stica y las
Matemáticas.

La Econometrı́a se ocupa del estudio de estructuras que permitan analizar caracterı́sti-


cas o propiedades de una variable económica utilizando como causas explicativas otras
variables económicas. (Novales, 1993)

1.2. Modelo económico y modelo econométrico

Como es sabido la Teorı́a Económica se ocupa del análisis de la economı́a, como consecuencia del
mismo formula las relaciones existentes entre las variables económicas objeto de estudio. Sin embargo
la teorı́a Económica no se ocupa de cuantificarlas, éste es un cometido especı́fico de la Econometrı́a,
que sı́ tiene como objetivo cuantificar las relaciones entre variables. Unido a este objetivo aparece un
pilar clave para la Econometrı́a que es la disponibilidad de información cuantificada sobre las varia-
bles que son objeto de estudio, en definitiva lo que llamamos datos. Las Matemáticas nos servirán
para escribir en términos de ecuaciones las teorı́as económicas objeto de estudio y la Estadı́stica nos
proporciona instrumentos para el tratamiento de datos que nos permiten cuantificar las relaciones y
valorar los resultados de acuerdo a criterios establecidos. En ocasiones nos encontraremos con pro-
blemas especı́ficos para los que la estadı́stica no tiene solución y por ello necesitaremos desarrollar
los instrumentos y métodos apropiados para llevar a cabo los objetivos.
Resumiendo, podrı́amos decir que los objetivos de la Econometrı́a son: verificación de una teorı́a,
estudio del pasado, descripción del presente, predicción del futuro y orientación de la acción polı́tica.
Para tratar de entender las relaciones entre la Econometrı́a y las otras materias mencionadas en el
apartado anterior vamos a desarrollar un ejemplo.
Supongamos que somos el gerente de una empresa y que estamos interesados en la relación existente
entre las ventas de un producto de la empresa y su precio, las condiciones de la competencia y el
ciclo económico. Un modelo que tiene en cuenta estos supuestos podrı́a ser el siguiente:

Vt = f (pt , pct , ct ) (1.1)

Siendo V las ventas de la empresa y p el precio del producto, la variable pc es el precio de la


competencia y nos sirve para aproximar las condiciones de la competencia. La variable c recoge el
momento del ciclo económico y sirve para aproximar las condiciones de mercado. El subı́ndice t
denota el tiempo o momento en el que se considera la relación. La ecuación anterior postula que
las ventas son función del precio del producto, el precio de la competencia y del ciclo económico.
Además la Teorı́a Económica nos dice que la relación entre ventas y precio es inversa, es decir, a
mayor precio menores ventas. Sin embargo será positiva con respecto al precio de la competencia ya
que si el precio de la competencia sube y el propio se mantiene es lógico que se espere vender más.
De igual manera se venderá más en momentos de auge económico que en momentos de depresión
por lo que la relación entre las ventas y el ciclo económico también se esperará que sea positiva.

3
Econometrı́a

El gerente también dispondrá de información en forma de cifras o datos sobre cuales eran las
ventas correspondientes a los diferentes precios que ha podido alcanzar su producto, el precio de
la competencia y el momento del ciclo económico, variable que puede aproximarse a una variable
cuantitativa que se mueva con el ciclo económico, por ejemplo el Índice de Producción Industrial.
Por ahora como gerentes de la empresa disponemos de dos informaciones distintas. Por un lado
disponemos de un modelo económico que nos relaciona un conjunto de variables y por otro dispone-
mos de observaciones o datos sobre las mismas para un periodo de tiempo dado. El gerente también
dispone de un objetivo que es saber como responden las ventas de su producto a cambios en su
precio. Para unir ambos conjuntos de información podemos empezar por dar forma a la función.
La elección más sencilla serı́a tomar una relación lineal, que para la ecuación (1.1) determinarı́a el
siguiente modelo:

Vt = β1 + β2 pt + β3 pct + β4 ct (1.2)

Los parámetros o coeficientes de cada variable se representan por β1 , β2 y β3 . El coeficiente β2


le indica al gerente cuanto cambian las ventas si el precio de su producto cambia en una unidad,
permaneciendo el resto de variables constantes.
Con los datos disponibles, que supongamos son:

fecha ventas precio p. competencia IPI


t V p pc c
enero 80 1725 12,37 11,23 101,7
febrero 80 1314 11,25 10,75 97,3

podemos relacionar las variables con los valores que han tomado en cada momento siguiendo la
ecuación (1.2). Ası́ en enero de 1980 la relación entre las ventas y el resto de variables ha sido:

1725 = β1 + 12, 37β2 + 11, 23β3 + 101, 7β4

Mientras que en febrero de 1980 fue:

1314 = β1 + 11, 25β2 + 10, 75β3 + 97, 3β4

Estas relaciones se repetirı́an para cada mes del que tengamos datos. Como el valor de las variables
cambia de un mes a otro, para que las igualdades se cumplan también deben cambiar los valores de
los parámetros. Este no es el objetivo del gerente, quién necesita la mejor aproximación posible del
valor de las ventas al precio, que resuma toda la información disponible del periodo considerado.
Para ello consideraremos que el modelo debe reflejar el comportamiento medio de la relación entre
variables manteniéndose la relación entre las variables estable. Para que esto se cumpla y podamos
recoger el comportamiento medio incluiremos en el modelo un nuevo elemento al que llamaremos
ut . Ası́ el modelo especificado será:

Vt = β1 + β2 pt + β3 cpt + β4 ct + ut (1.3)

El nuevo elemento deberá ser capaz de mantener la igualdad de la relación para cualquier conjunto
de datos, tomando por tanto a veces valores positivos y en otras ocasiones valores negativos; a
veces grandes, a veces pequeños. La interpretación del mismo resulta bastante intuitiva: recoge

4
Econometrı́a

todos los efectos que afectan a las ventas en cada perı́odo muestral y que no están explı́citamente
recogidos en las variables que el modelo contiene. Si el modelo ha recogido todas las influencias
“importantes y sistemáticas” que existen sobre las ventas, el nuevo elemento, que en adelante
llamaremos perturbación recogerá los efectos no sistemáticos que serán, en general, más erráticos.
Por tanto es factible considerar su comportamiento como aleatorio. Ası́ a la perturbación ut se le
trata como una variable aleatoria cuya distribución de probabilidad es preciso especificar al mismo
tiempo que el resto del modelo.
Dado que el modelo recogido por la ecuación (1.3) contiene una variable aleatoria para obtener
resultados a partir del mismo necesitaremos de la Estadı́stica. Mediante procedimientos estadı́sticos
podremos cuantificar la relación entre las variables, obteniendo valores numéricos para los coefi-
cientes β1 , β2 , β3 y β4 que reflejen la información que contienen los datos. De esta forma el modelo
general representado por la ecuación (1.3) que en principio puede servir para analizar el comporta-
miento de cualquier empresa servirá para contestar a las preguntas que el gerente se hace sobre su
propia empresa convirtiéndose en un modelo especı́fico válido para la toma de decisiones.
El ejemplo anterior describe una situación muy concreta pero la Econometrı́a es útil en otras muchas
situaciones, por ejemplo:

• Para analizar el efecto del impacto de cambios en la polı́tica fiscal sobre los indicadores
económicos de un paı́s, la demanda interna, los tipos de interés, exportaciones e importa-
ciones, desempleo, grado de morosidad.

• Los directivos de la empresa Mercedes pueden estar interesados en los factores que determinan
la demanda de automóviles.

• Para analizar los efectos de la publicidad en las ventas de una empresa.

• Para analizar el impacto en la función de producción de cambios en los factores de producción.

• Analizar si la demanda de tabaco se ve afectada por las campañas anti tabaco.

• Analizar si las campañas publicitarias contra el consumo de alcohol cuando se conduce reduce
el número de siniestros.

• Estudiar como afecta el tabaquismo al peso de nacimiento y posterior crecimiento de un bebe.

1.3. Etapas en la elaboración de un modelo econométrico

Un estudio econométrico consta de las siguientes etapas, Heij , de Boer, Franses, Kloer y Dijk (2004):

• Formulación del problema. Se trata de determinar la cuestión de interés. Debemos plantear de


forma precisa las preguntas que nos interesa responder. La teorı́a económica puede ayudarnos
a enfocar el problema, a determinar qué variables están involucradas y cuál puede ser la
relación entre ellas.

5
Econometrı́a

• Recolección de datos estadı́sticos relevantes para el análisis. En el caso del gerente los datos
están disponibles en los balances de la propia empresa. Los resultados del análisis van a
depender en gran medida de la calidad de los datos. Sin embargo, no siempre es sencillo
obtener los datos relevantes para el análisis. Podemos encontrar problemas como la ausencia
de algún dato, cambios en la definición de una variable, fallos en el método de recogida, tener
una cantidad insuficiente de datos o no disponer de información relativa a una variable.

• Formulación y estimación del modelo. En esta fase hay que dar forma al problema inicial
en términos de un modelo. Determinar la variable a explicar, en el ejemplo las ventas, y las
variables explicativas, en el ejemplo el precio, el precio de la competencia y el ciclo económico;
la forma funcional del modelo y la distribución probabilı́stica de la perturbación aleatoria.
El siguiente paso es la estimación de los parámetros desconocidos de la distribución y que son
de interés para el análisis. La estimación consiste en utilizar los datos y toda la información
relevante para aprender algo sobre los parámetros desconocidos. En la interpretación de los
resultados de estimación es importante tener en cuenta que no conocemos el valor de los
parámetros, por lo que únicamente vamos a hacer afirmaciones del tipo “con un 95 % de
confianza, el aumento del impuesto sobre carburantes no afecta al consumo de gasolina”.
Existen muchos métodos de estimación. La elección entre uno u otro depende de las propie-
dades del modelo econométrico seleccionado. Es decir, una mala selección del modelo también
influye en la validez de las estimaciones. Un curso introductorio de Econometrı́a, como este,
se suele centrar en el estudio del modelo de regresión lineal y su estimación mediante mı́nimos
cuadrados ordinarios, que son instrumentos sencillos y muy útiles en la práctica.

• Análisis del modelo. Se trata de estudiar si el modelo elegido es adecuado para recoger el
comportamiento de los datos. Consiste en una serie de contrastes diagnósticos que valoran si
el modelo está correctamente especificado, es decir, si los supuestos realizados son válidos. Si
es necesario, se modifica el modelo en base a los resultados obtenidos en los contrastes.

• Aplicación del modelo. Una vez obtenido un modelo correcto, se utiliza para responder a las
cuestiones de interés y para la predicción. Un modelo correctamente especificado y estimado
ha de ser utilizado para predecir. Este concepto implica tanto determinar los valores futuros
de la variable endógena como contestar a preguntas del tipo ¿qué pasarı́a sı́...?, en definitiva
debe servirnos para dar consejos de polı́tica económica.

1.4. Tipologı́a de datos y variables en Econometrı́a

El modelo econométrico genérico completamente especificado tiene la siguiente forma:

Yt = β1 + β2 X2t + β3 X3t + . . . + βK XKt + ut t = 1, 2, . . . , T (1.4)

Donde Y es la variable a explicar o variable endógena, X2 , X3 , . . ., XK son las variables explicati-


vas, o regresores, del modelo. El subı́ndice que las acompaña indica el número de variables explicati-
vas del modelo, el modelo anterior tiene K-variables explicativas. Los coeficientes βk k = 1, 2, . . . , K
son los parámetros a estimar, que se suponen constantes. Además es de interés notar que el paráme-
tro β1 acompaña a la variable explicativa X1 constante e igual a la unidad en todo momento del

6
Econometrı́a

tiempo. El subı́ndice t hace referencia al tiempo y por tanto T indica el tamaño de la muestra de
observaciones disponible.
La diferencia entre un modelo económico y un modelo econométrico es la perturbación aleatoria
que incluimos en el modelo econométrico. A partir de este elemento en el modelo econométrico
podemos distinguir dos partes la parte sistemática del modelo y la parte aleatoria. La primera
corresponde al comportamiento medio o estable de la relación y la segunda se corresponde con la
perturbación aleatoria, ut .
El objetivo sobre el modelo genérico representado por la ecuación (1.4) es conocer los valores de los
parámetros desconocidos βk k = 1, 2, . . . , K. Para llevar a cabo este objetivo utilizaremos métodos
estadı́sticos. Para ello al modelo especificado deberemos de añadir hipótesis sobre el comportamiento
probabilı́stico de la perturbación aleatoria que caractericen su distribución. En general, supondremos
que dicha perturbación tiene una distribución centrada en cero, o sea media cero, lo que implica
que el comportamiento medio de la variable a explicar está recogido en su totalidad por la parte
sistemática del modelo:

E(Yt ) = β1 + β2 X2t + β3 X3t + . . . + βK XKt t = 1, 2, . . . , T (1.5)

Además de la media debemos caracterizar también la varianza, covarianzas y distribución de la


perturbación.

1.4.1. Conceptos básicos

En los puntos anteriores han surgido algunos conceptos que deberı́an quedar claros para poder
referirnos a ellos con propiedad. Revisaremos algunos de ellos.

• Población y muestra:
Población son todos los posibles valores que toma la variable objeto de estudio. La muestra
serı́a la parte de la población que vamos a utilizar en el estudio para extraer conclusiones.
Por tanto la muestra está contenida en la población y nosotros la utilizaremos para establecer
conclusiones que puedan extrapolarse a la población.

• Datos:
Los datos son los valores numéricos que toman tanto la variable a explicar como las variables
explicativas. Generalmente los obtenemos de series estadı́sticas cuyas fuentes pueden ser ofi-
ciales o privadas. La importancia de los datos está determinada por la unidad de medida. Los
podemos clasificar en:

1. Datos de serie temporal: Reflejan la evolución de una variable a lo largo del tiempo,
según esto la variable estará ordenada cronológicamente con un orden lógico. Las varia-
bles medidas en series temporales se denotan con el subı́ndice t y este puede referirse a
observaciones temporales mensuales, trimestrales, diarias cuatrimestrales, anuales, etc.
Ejemplo: el Producto Nacional Bruto (PNB) de 1965-2000. En este caso la población
serı́an todos los posibles valores del PNB a lo largo del tiempo y la muestra el perı́odo
que vamos a estudiar, de 1965 al 2000.

7
Econometrı́a

2. Datos de sección cruzada o corte transversal: Son datos atemporales dado que miden
el comportamiento de una variable en diferentes unidades y en el mismo momento del
tiempo. Ejemplo: ventas de las empresas metalúrgicas en el Paı́s Vasco en el año 1999.
Esta serı́a la muestra a utilizar y la población estarı́a constituida por todas las unidades.
3. Datos de panel : es la unión de datos de serie temporal y datos de sección cruzada. Están
fuera del objetivo del curso.

• Variables:
Una variable es un ente económico que toma diferentes valores. Podemos distinguir entre va-
riables exógenas, aquellas que inciden en el modelo desde el exterior y variables endógenas,
aquellas que queremos explicar con el modelo. A las variables exógenas también se las de-
nomina variables explicativas o independientes y a la variable endógena también se le puede
denominar como variable a explicar o dependiente. Además debemos tener en cuenta que
podemos encontrarnos con relaciones simultáneas como:

Yt = β1 + β2 Yt−1 + ut

o como
Ct = β1 + β2 Yt + ut Yt = Ct + It

donde las variables cambian su papel según miremos a una ecuación u otra. Podemos distinguir,
entre otros, los siguientes tipos de variables:

1. - Fijas: aquellas que toman valores que el investigador puede controlar.


- Estocásticas: aquellas cuyo valor cambia según una ley de probabilidad.
2. - Cuantitativas: aquellas que podemos valorar numéricamente. Por ejemplo, la renta
disponible de una familia, el precio de un bien, la renta per cápita.
- Cualitativas: aquellas que miden cualidades y que por lo tanto no se miden con un valor
numérico y será el investigador el que se lo asigne según un criterio. Por ejemplo, si un
individuo está o no casado, si trabaja en turno de noche o no, si tiene estudios superiores
o no. En las variables cualitativas es el investigador el que establece el valor de la variable
para cada caracterı́stica. Por ejemplo:
½
1 si el individuo i es hombre
S1i =
0 en caso contrario
½
1 si el individuo i es mujer
S2i =
0 en caso contrario

definen dos variables cualitativas S1i y S2i que permiten recoger el sexo del individuo y
ver por ejemplo si existe discriminación salarial por sexo en un estudio sobre la función
de salario.

• Los parámetros:
Los parámetros son los valores que permanecen desconocidos del modelo. En un modelo eco-
nométrico podemos distinguir dos tipos de parámetros:

8
Econometrı́a

1. Los parámetros de la relación económica: Son las ponderaciones que aplicadas a las
variables exógenas nos permiten calcular la endógena.

Vt = β1 + β2 pt + β3 cpt + β4 ct + ut (1.6)

En el modelo anterior β1 , β2 , β3 y β4 .
2. Los parámetros de la estructura probabilı́stica: son los parámetros que determinan la
estructura de la parte aleatoria del modelo, media y varianza de la perturbación aleatoria
y de la variable endógena.

• Modelo:
Hemos visto que un modelo no es más que un conjunto de relaciones entre variables económicas
y que representamos mediante relaciones matemáticas. Clasificación de los modelos:

1. - Modelos exactos: aquellos que determinan exactamente el valor de una variable conocido
el valor de otra-s:
Y = β1 + β2 X

- Modelos estocásticos: aquellos que incluyen alguna variable aleatoria:

Yt = β1 + β2 Xt + ut u ∼ (m(u), V (u))

2. - Modelos uniecuacionales: aquellos que se componen de una única ecuación:

Ct = β1 + β2 Yt + ut

- Modelos multiecuacionales: aquellos que se componen de más de una ecuación. Por


ejemplo cuando una variable influye en otra-s y a la vez es influida por éstas:

Ct = β1 + β2 Yt + ut Yt = Ct + It

3. - Modelos estáticos: Cuando el tiempo no aparece de forma explı́cita en la ecuación y


todas las variables se miden en el mismo momento.
- Modelos dinámicos: Aquellos que tienen variables definidas en diferentes momentos del
tiempo o el tiempo aparece como variable explı́cita en la ecuación. Un ejemplo de los
primeros serı́a:
Ct = β1 + β2 Yt + β3 Ct−1 + ut
mientras que un ejemplo de los segundos serı́a el siguiente modelo no explı́citamente
dinámico, generalmente llamado estático histórico

Ct = β1 + β2 Yt + β3 t + ut

donde el parámetro c recoge la tendencia de la variable endógena a lo largo del tiempo.


4. - Modelos basados en series temporales: pueden ser dinámicos u estáticos.
- Modelos basado en datos de corte transversal: son siempre estáticos.

9
Econometrı́a

• Parámetro, estimador y estimación:


En el modelo:
Yt = β1 + β2 Xt + ut t = 1, 2, . . . , T
tenemos diferentes parámetros desconocidos. En la parte aleatoria aparecerı́an los que ca-
racterizan a la distribución probabilı́stica de la perturbación aleatoria y en la parte sistemática
aparecen β1 y β2 . Todos son parámetros desconocidos. Los llamaremos parámetros poblacio-
nales ya que lo que nosotros hemos especificado es un modelo general que deberı́a recoger el
comportamiento medio de las variables en la población. Para obtener resultados del modelo
anterior nosotros lo aplicamos a la muestra, de tamaño T. Nuestro objetivo es determinar el
valor de estos parámetros poblacionales desconocidos de la muestra. Para aproximarnos a ese
valor utilizamos técnicas estadı́sticas, en concreto estimadores. Un estimador no es más que
una fórmula que nos dice como debemos obtener los valores numéricos de β1 y β2 mediante la
muestra. Al valor finalmente obtenido en la muestra le llamamos estimación. En concreto la
notación matemática para estos conceptos, aplicada al parámetro β2 serı́a:

β2 parámetro poblacional
β̂2 estimador
0,5 estimación

donde por ejemplo:


PT
t=1 (Yt − Ȳ )(Xt − X̄)
β̂2 = PT = 0, 5
2
t=1 (Xt − X̄)
Los estimadores van a ser variables aleatorias con distribución a determinar ya los que exigi-
remos ciertas propiedades que van a determinar esta distribución.

• Estructura:
Cuando estudiamos la relación entre las variables económicas especificamos un modelo eco-
nométrico. En la especificación elegimos la forma funcional del modelo y las variables explica-
tivas a incluir ası́ como las propiedades de la perturbación. Una vez que el modelo está total-
mente especificado le estimaremos y tendremos unos valores para los parámetros. A la relación
resultante le llamamos estructura. Un modelo especificado serı́a:

Yt = β1 + β2 Xt + ut t = 1, 2, . . . , T

mientras que una estructura para ese modelo dada una muestra de tamaño T podrı́a ser:

Ŷt = 20 + 5Xt

Notar que un modelo puede tener diferentes estructuras según los valores que las variables
exógena y endógena tomen en la muestra.

1.4.2. Fuentes de datos

Encontrar y recopilar datos no es siempre sencillo. En ocasiones es muy costoso coleccionar los datos
adecuados a la situación y manejarlos. Sin embargo, esta tarea se ha visto favorecida en los últimos

10
Econometrı́a

años por la mejora en la recogida de datos y el hecho de que muchos organismos permiten acceder a
sus bases de datos en la World Wide Web. Algunos organismos que publican datos macroeconómicos
son:

• Instituto Vasco de Estadı́stica (EUSTAT): http://www.eustat.es.

• Banco de España: http://www.bde.es → Estadı́sticas. También publica el Boletı́n estadı́stico


mensual y el Boletı́n de coyuntura mensual.

• Instituto Nacional de Estadı́stica (INE): http://www.ine.es → Inebase o Banco tempus. Están


disponibles, por ejemplo, los resultados de la encuesta de población activa, la Contabilidad
Nacional o el boletı́n estadı́stico mensual. Además, en enlaces se encuentran otras páginas
web de servicios estadı́sticos.

• EUROSTAT: Es la Oficina Estadı́stica de la Unión Europea, se encarga de verificar y analizar


los datos nacionales recogidos por los Estados Miembros. El papel de Eurostat es consolidar los
datos y asegurarse de que son comparables utilizando una metodologı́a homogénea. La infor-
mación en términos de tablas estadı́sticas, boletines estadı́sticos e informativos, incluso docu-
mentos de trabajo papers se puede encontrar en la dirección: http://europa.eu.int/comm/eurostat.

• Organización para la Cooperación y Desarrollo Económico (OCDE): http://www.oecd.org,


Statistical portal, statistics. Están disponibles algunas series de las publicaciones Main Eco-
nomic Indicators (mensual) o Comercio internacional.

• Fondo Monetario Internacional (FMI): http://www.imf.org. Para obtener datos sobre un am-
plio conjunto de paı́ses también se puede consultar su publicación Estadı́sticas Financieras
Internacionales (mensual y anual).

Muchos manuales de Econometrı́a incluyen una base de datos que se analizan en el texto como ilus-
tración a la materia. En este curso utilizaremos principalmente los datos incluidos en Ramanathan
(2002) y Wooldridge (2006) que están accesibles como archivos de muestra en gretl.

1.5. Tratamiento de la información con gretl: inclusión de datos en


gretl y análisis descriptivo básico

gretl es un programa que permite obtener de manera sencilla mediante ventana resultados estadı́sti-
cos y econométricos. Una vez ejecutado el programa gretl en la ventana principal aparece un menú de
ventanas que nos permite diferentes posibilidades. En la pantalla principal, una vez abierto gretl
nos aparecen las siguientes pestañas:
Archivo Herramientas Datos Ver Añadir Muestra Variable Modelo Ayuda
Pero solo tres de ellas están activas, las distinguimos porque las no activas aparecen en gris mien-
tras que las activas están en negrita. Las activas son Archivo, Herramientas y Ayuda. En la primera
leemos datos. Empezaremos viendo como leer datos. Dependiendo del origen de éstos si están en
una archivo de muestra incluido en gretl , si están disponibles en papel, en la web o en un archivo

11
Econometrı́a

propio procederemos de una manera u otra.

• Para leer datos incluidos en la base del programa gretl :


Pinchar Archivo → Abrir archivo de datos → Archivo de muestra → Aquı́ seleccionamos la base
de datos que necesitemos, por ejemplo ETM → y ahora seleccionamos el archivo, por ejemplo
monthly-crsp.gdt
Aparecerán las variables de la muestra y en la barra superior se habrán activado las etiquetas men-
cionadas anteriormente. Por ejemplo en Datos podremos ver las observaciones y sus caracterı́sticas.
Algunas de las opciones que contiene la etiqueta Datos son las siguientes:

Mostrar valores
Editar los valores
Información del conjunto de datos
Estructura del conjunto de datos

Para obtener lo que necesitamos sólo tenemos que pinchar la etiqueta correspondiente y la variable
o variables a estudiar. Por ejemplo para ver la estructura del conjunto de datos pinchamos en
esta etiqueta y obtendremos una pantalla en la que aparecerá seleccionado el tipo de datos con el
que estamos trabajando, en este caso Serie temporal. Pinchamos adelante y veremos la frecuencia,
mensual, y el inicio y final de la muestra 1968:1 a 1998:12. La etiqueta estructura del conjunto
de datos es muy útil cuando necesitamos cambiar alguno de ellos por ejemplo si añadimos nuevas
observaciones.
En el menú inicial aparece también la etiqueta Ver con, entre otras, las siguientes opciones:

Gráficos
Gráficos múltiples
Estadı́sticos principales
Matriz de correlación

• Para hacer Gráficos:


Pinchar Ver → Gráficos → Gráficos de series temporales. Seleccionar las variables que se quieren
incluir en el gráfico y pinchar Aceptar.
Para guardar el gráfico: situar el ratón sobre el gráfico y pinchar con el botón derecho. Elegir opción.
Podemos guardarlos en postcript (.eps) o .png, etc. En la ventana que aparece para guardarlo
escribir la dirección de la carpeta donde queremos guardar el gráfico y ponerle un nombre por
ejemplo CRSPVW.
Dentro de las opciones que aparecen al pinchar con el botón derecho está la opción Editar. En esta
opción se pueden modificar los ejes, los nombres de las variables, incluso el tipo de lı́nea y color
utilizada para representar la serie de observaciones, entre otras posibilidades.

• Para obtener los Estadı́sticos principales de las variables de la muestra:


Pinchar en Ver → Estadı́sticos principales.

12
Econometrı́a

La ventana de output mostrará la media, moda, valor máximo y mı́nimo de la serie, desviación
tı́pica, coeficiente de variación, curtosis y asimetrı́a. Podemos obtener los estadı́sticos para una
única serie o para el conjunto de ellas seleccionándolo previamente.
Si queremos guardar el output pinchamos en el icono del diskette arriba a la izquierda y selecciona-
mos cómo queremos que lo guarde, texto plano, Word o Latex y en la ventana damos el nombre que
deseemos al fichero de resultados, por ejemplo estadVW para la serie CRSP o estadmuestra para
el conjunto y a continuación damos la dirección de la carpeta donde queremos que nos guarde el
fichero de resultados.
En el menú inicial también aparece la etiqueta Variable para trabajar con una única serie de la
muestra. Algunas de las opciones que incluye esta etiqueta son:

Buscar
Mostrar valores
Estadı́sticos principales
Contraste de Normalidad
Distribución de frecuencias
Gráfico de frecuencias (simple, contra la normal, contra la gamma)
Gráfico de series temporales
Editar atributos
etc.

• Obtener datos que están en el servidor:


Queremos estudiar una serie que se encuentra en el servidor, Crédito más de 5 años a hogares. Esta
serie aparece publicada en la base de datos del Banco de España con el código BE182704.
Pinchar Archivo → Bases de datos → Sobre servidor
En el listado de bases de datos que aparece vamos a bde18 Banco de España (Tipo de interés)
y pinchamos en Obtener listado de series comprobando que contienen la serie que queremos.
Series → Mostrar
Para representarla gráficamente: Series → Representar
Para importar los datos a gretl situamos el cursor sobre la serie de interés, BE182704, y vamos a
Series → Importar
Además tenemos opción de hacer lo siguiente:

• Añadir o cambiar información sobre la variable: en menú Variable → Editar atributos. En esta
ventana podremos cambiar también el nombre de la serie utilizado en los gráficos.

• Añadir notas explicativas: en menú Datos → Editar información

• Consultar las notas informativas: en menú Datos → Leer información o en Datos → Descrip-
ción

13
Econometrı́a

• Para crear un conjunto de datos:


Pinchar Archivo → Nuevo conjunto de datos y completar la información que pide sobre:

número de observaciones
estructura del conjunto de datos (serie temporal o sección cruzada)
frecuencia

A la pregunta ¿Desea empezar a introducir los valores de los datos usando la hoja de cálculo de
gretl ? contestar Sı́

• Introducir el nombre de la variable. El máximo de caracteres que acepta es 15, no usar acentos
ni la letra ñ. Pinchar Aceptar.

• En la hoja de cálculo situarnos en la primera celda y teclear la observación correspondiente,


a continuación pinchar intro. Si nos saltamos alguna observación podemos insertar una fila en
el lugar correspondiente con solo situarnos en la celda posterior e ir a observación → insertar
obs. Una vez introducidas todas las variables pinchar Aplicar.

• Para guardar los datos: en menú Archivo → Guardar datos. Dar nombre al conjunto de datos,
por ejemplo Azar y se grabará automáticamente con la extensión gdt.
Si en otro momento queremos usar este conjunto de datos solo habrá que clickear en él dos
veces para que se active.

• Si queremos añadir variables en menú: Pinchar en la etiqueta Añadir tenemos las siguientes
posibilidades:

• Logaritmos de las variables seleccionadas


• Cuadrados de las variables seleccionadas
• Retardos de las variables seleccionadas
• Primeras diferencias de las variables seleccionadas
• Diferencias del logaritmo las variables seleccionadas
• Diferencias estacionales de las variables seleccionadas
• Variable ı́ndice
• Tendencia temporal
• Variable aleatoria (uniforme, normal, chi cuadrado y t-Student) Por ejemplo para crear
una variable normal de media 0 y desviación 1 haremos nombre de la variable 0 1
• Variables ficticias, etc.
• Definir una nueva variable. Esta opción podemos utilizarla para crear combinaciones de
variables por ejemplo Zt = 4 + ²t ²t ∼ N (0, 1). Permite los operadores,
+, -, *, /, ^
(suma, resta, producto, potencia) entre otros.

14
Econometrı́a

• Para obtener información sobre la muestra pinchar en la etiqueta Muestra. En ella


encontraremos, entre otras, las siguientes opciones:

Establecer rango
Recuperar rango completo
Restringir, a partir de un criterio
etc.

Ejemplo 1.1

Vamos a trabajar con el archivo de datos data4 − 1.gdt ya que en los temas siguientes
va a ser uno de los ejemplos que seguiremos. Está incluido como archivo de muestra
en la pestaña Ramanathan. Una vez abierto podemos buscar información sobre sus
variables tal y como se ha indicado. Siguiendo la ruta indicada encontramos la siguiente
Información del conjunto de datos

DATA4-1: Data on single family homes in University City community


of San Diego, in 1990.
price = sale price in thousands of dollars (Range 199.9 - 505)
sqft = square feet of living area (Range 1065 - 3000)
bedrms = number of bedrooms (Range 3 - 4)
baths = number of bathrooms (Range 1.75 - 3)

Donde aparece una somera descripción de los datos disponibles y su fuente y/o origen.
En este caso nos dicen que son datos de hogares de la comunidad universitaria de San
Diego en 1990, de lo que deducimos que son datos de sección cruzada ya que se refieren
a un único año. También aparecen los nombres de las variables y su descripción ası́ como
el rango de cada una (la amplitud del intervalo de valores que toma la variable en la
muestra) y la fuente de los datos. Los estadı́sticos principales son los siguientes:

Estadı́sticos principales, usando las observaciones 1 - 14


Variable Media Mediana Mı́nimo Máximo
price 317,493 291,500 199,900 505,000
sqft 1910,93 1835,00 1065,00 3000,00
bedrms 3,64286 4,00000 3,00000 4,00000
baths 2,35714 2,25000 1,75000 3,00000

Variable Desv. Tı́p. C.V. Asimetrı́a Exc. de curtosis


price 88,4982 0,278741 0,653457 −0,529833
sqft 577,757 0,302344 0,485258 −0,672125
bedrms 0,497245 0,136499 −0,596285 −1,64444
baths 0,446291 0,189336 0,331609 −1,39015

15
Econometrı́a

Donde se nos muestra, para cada variable, su media, mediana, valores mı́nimo y máximo, desviación
tı́pica, coeficiente de variación (C.V.), coeficiente de asimetrı́a y coeficiente de exceso de curtosis.
Los gráficos de las variables price y sqft son:

550 3000

2800
500

2600
450
2400

400
2200
price

sqft
350 2000

1800
300

1600
250
1400

200
1200

150 1000
2 4 6 8 10 12 14 2 4 6 8 10 12 14
index index

Figura 1.1: Gráficos de las observaciones para las variables price y sqf t

Volviendo a la pantalla de inicio. También estaban disponibles al iniciar el programa las etiquetas
Herramientas y Ayuda. En Herramientas disponemos de instrumentos de análisis muy útiles como:

- En Tablas estadı́sticas los valores crı́ticos de las distribuciones Normal Tipificada, t-Student
y F-Snedecor entre otras distribuciones.

- Un buscador de valores p.

- Un calculadora de estadı́sticos de contraste como la igualdad de medias o varianzas.

- La posibilidad de dibujar distribuciones o curvas.

- Hacer contrastes no paramétricos.

- Generar numeros aleatorios.

En Ayuda encontramos al Guı́a del usuario y la Guı́a de instrucciones.

1.6. Bibliografı́a del tema

Referencias bibliográficas básicas:


• Teórica:
[1] Stock, James H. y Mark Watson (2012). Introducción a la Econometrı́a. Pearson.
[2] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición.

16
Econometrı́a

• Ejercicios con gretl:


[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.

Referencias Bibliográficas Complementarias:


[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de
regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −
juridicas/analisis − de − regresion − con − greti/Coursel isting).
[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a
Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación on-
line de la Facultad de C.C. Económicas y Empresariales.
[3] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a.
Editorial McGraw-Hill.
[4] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición.
[5] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.

17
Econometrı́a

18
Tema 2

Modelo de Regresión Lineal Simple.


Especificación

En este tema nos ocuparemos de analizar las relaciones entre dos variables y nuestro objetivo
fundamental será explicar el comportamiento de una variable, que llamaremos variable a explicar,
mediante otra variable económica, que llamaremos explicativa. Modelizaremos la relación entre las
variables mediante una ecuación matemática y daremos entrada en la misma a una variable aleatoria
que nos permita recoger la aleatoriedad del fenómeno económico. Ası́, aprenderemos a especificar
el Modelo de Regresión Lineal Simple, poniendo especial cuidado en el tratamiento de las variables
explicativas cualitativas.

Competencias a trabajar en estas sesiones:

C1. Analizar de forma crı́tica los elementos básicos del modelo de regresión lineal con el objetivo de
comprender la lógica de la modelización econométrica y poder especificar relaciones causales
entre las variables.

C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.

Al final de este tema deberı́ais ser capaces de:

1. Explicar y entender el alcance de las hipótesis básicas sobre el comportamiento del modelo de
regresión lineal general (C1).

2. Comprender la especificación del modelo de regresión lineal y, en particular, el significado y


las implicaciones de los supuestos básicos (C1).

3. Interpretar los coeficientes del modelo de regresión, incluyendo los de especificaciones no li-
neales en las variables (C1).

4. Saber incorporar en el modelo de regresión variables cuantitativas y cualitativas (C1).

19
Econometrı́a

5. Organizar y sistematizar información estadı́stica relevante (C4).

6. Utilizar un software econométrico (gretl ) para el análisis de bases de datos económicos e


interpretar sus resultados (C1).

Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:

• Stock and Watson, J. M. (2012). Cap. 4.

• Wooldridge, J.M. (2006). Cap. 2

20
Econometrı́a

2.1. Especificación del Modelo de Regresión Lineal Simple

Supongamos que nos interesa conocer la relación que hay entre el precio de una vivienda y su super-
ficie. Se trata de cuantificar la influencia que tiene el tamaño de una vivienda en la determinación
de su precio de venta mediante un modelo de regresión lineal simple. En este capı́tulo vamos a
especificar, estimar y analizar el modelo de regresión lineal simple. La teorı́a necesaria para
este fin será ilustrada mediante el estudio simultáneo del conjunto de datos data3-1 disponible en
gretl dentro del conjunto de datos correspondiente a Ramanathan. Este fichero contiene el precio de
venta y la superficie de 14 viviendas vendidas en el área de San Diego. Vamos a comenzar realizando
un análisis gráfico.

1. Accedemos a este conjunto de datos en Archivo → Abrir datos →Archivo de muestra y en la


carpeta de datos de Ramanathan seleccionamos data3-1 House prices and sqft:

Figura 2.1: Selección de un fichero de muestra

Se abre un fichero que contiene tres variables, const, price y sqft. La Tabla 2.1 muestra los
valores disponibles para cada variable.

2. En Datos →Leer información aparece la siguiente descripción del conjunto de datos:


DATA3-1: Precio de venta y superficie hábil de viviendas
unifamiliares en la comunidad universitaria de San Diego
en 1990.
price = Precio de venta en miles de dólares (Rango 199.9 - 505)
sqft = Pies cuadrados de área habitable (Rango 1065 - 3000)

3. Seguidamente seleccionamos ambas variables y en Datos →Mostrar valores vemos los valores
muestrales de las variables. Estos valores han sido recogidos en la Tabla 2.1.

21
Econometrı́a

i Pi SQFT i P SQFT

1 199,9 1065 8 365,0 1870


2 228,0 1254 9 295,0 1935
3 235,0 1300 10 290,0 1948
4 285,0 1577 11 385,0 2254
5 239,0 1600 12 505,0 2600
6 293,0 1750 13 425,0 2800
7 285,0 1800 14 415,0 3000

Tabla 2.1: Conjunto de datos incluidos en data3.1 House prices and sqft

4. Abrimos el diagrama de dispersión entre las dos variables (ver la Figura 2.2). En él observamos
una relación lineal positiva entre P y SQF T .
Precio, P con respecto a Superficie, F2 (con ajuste mnimo-cuadrÆtico)
550
Y = 52,4 + 0,139X

500

450

400
Precio, P

350

300

250

200

150
1500 2000 2500 3000
Superficie, F2

Figura 2.2: Diagrama de dispersión precio-superficie de viviendas

Un modelo sencillo que recoge una relación lineal causa-efecto entre la superficie y el precio de una
vivienda es: Pi = β1 + β2 SQF Ti + ui .
Esto quiere decir que el precio de una vivienda depende únicamente de su superficie y, por lo
tanto, dos viviendas de igual tamaño deben tener exactamente el mismo precio. Esta hipótesis es
poco realista porque diferencias en otras caracterı́sticas, como la orientación de la casa o su estado
de conservación, también influyen en su precio. Este modelo que recoge una relación lineal entre
únicamente dos variables se denomina modelo de regresión lineal simple.

2.2. Elementos del modelo de regresión simple

El Modelo de Regresión Lineal Simple (MRLS) relaciona dos variables de forma lineal,

Yi = β1 + β2 Xi + ui i = 1, . . . , N (2.1)

donde:
22
Econometrı́a

- Y es la variable a explicar, variable dependiente o endógena, es decir, la variable que


estamos interesados en explicar.

- X es la variable explicativa, variable independiente o exógena.

- La ordenada β1 y la pendiente β2 del modelo son los coeficientes de la regresión, son


parámetros poblacionales desconocidos. Si definimos K como el número de coeficientes desco-
nocidos a estimar, en el modelo de regresión simple tenemos K = 2 coeficientes a estimar.

- u es el término de error, variable aleatoria o perturbación.

- El subı́ndice i denota observación. En general, el subı́ndice i será empleado cuando la muestra


contenga datos de sección cruzada y el subı́ndice t cuando tengamos observaciones correspon-
dientes a series temporales, aunque esto no es de especial relevancia.

- N es el tamaño muestral, número de observaciones disponibles de las variables de estudio


(Y, X). Cuando tratemos con datos temporales T denotará el tamaño muestral.

El error ui se introduce por varias razones, entre las cuales tenemos:

• Efectos impredecibles, originados por las caracterı́sticas de la situación económica o del con-
texto de análisis, y efectos no cuantificables derivados de las preferencias y los gustos de los
individuos o entidades económicas.

• Errores de medida producidos a la hora de obtener datos sobre las variables de interés.

• Errores de especificación ocasionados por la omisión de alguna variable explicativa o bien, por
las posibles no linealidades en la relación entre X e Y .

Modelo para la relación precio-tamaño del piso. En este caso planteamos el siguiente modelo de
regresión lineal:

Pi = β1 + β2 SQF Ti + ui i = 1, . . . , N (2.2)

donde

- Pi es la observación i de la variable dependiente (endógena o a explicar) precio de venta de


un piso en miles de dólares.

- SQF Ti es la observación i de la variable independiente (exógena o explicativa) área habitable


del piso en pies cuadrados.

- Los dos coeficientes a estimar son β1 y β2 , y sospechamos que al menos β2 tiene valor positivo
ya que a mayor superficie habitable de la vivienda su precio lógicamente se esperará sea mayor.

- En este modelo el término de error o perturbación ui recogerı́a caracterı́sticas especı́ficas de


los pisos: lugar en el que se sitúa, orientación de la casa, vistas, etc., es decir, caracterı́sticas
que diferencian el precio de los pisos que tienen la misma superficie habitable.

23
Econometrı́a

Un primer objetivo del análisis econométrico es conocer β1 y β2 , que son los parámetros de la
relación entre P y SQF T . Del total de viviendas del área objeto de estudio, tenemos una muestra
con datos de N= 14 pisos. Por tanto, el objetivo del estudio es inferir, a partir de la muestra,
la relación precio-tamaño de una vivienda en la población. Para llevar a cabo esta inferencia es
necesario determinar la naturaleza aleatoria de las variables que intervienen en el estudio.

Representación del MRLS en forma matricial El modelo

Yi = β1 + β2 Xi + ui i = 1, 2, . . . , N (2.3)

puede escribirse para todas las observaciones disponibles como el siguiente sistema de N ecuaciones:



 Y1 = β1 + β2 X1 + u1 i=1



 Y2 = β1 + β2 X2 + u2 i=2

 .. ..

. .

 Yi = β1 + β2 Xi + ui i=i

 .. ..



 . .

YN = β1 + β2 XN + uN i=N

o bien en forma matricial como

Y = X β + u
(N × 1) (N × K) (K × 1) (N × 1)

donde K = 2 y
     
Y1 1 X1 u1
 Y2   1 X2   u2 
     
 ..   .. ..  · ¸  .. 
 .   . .  β1  . 
Y =


 X =


 β = u =



(N × 1)  Yi  (N × K)  1 Xi  (K × 1) β2 (N × 1)  ui 
 ..   .. ..   .. 
 .   . .   . 
YN 1 XN uN

Ejemplo 2.1

Siguiendo con el modelo del precio de una vivienda y con los datos recogidos en la Tabla
2.1, tenemos:

24
Econometrı́a

   
199, 9 1 1065
 228, 0   1 1254 
   
 235, 0   1 1300 
   
 285, 0   1 1577 
   
 239, 0   1 1600 
   
 293, 0   1 1750 
   
 285, 0   1 1800 
Y =


 X=



 365, 0   1 1870 
 295, 0   1 1935 
   
 290, 0   1 1948 
   
 385, 0   1 2254 
   
 505, 0   1 2600 
   
 425, 0   1 2800 
415, 0 1 3000

2.2.1. Hipótesis básicas.

El modelo debe completarse con la especificación de las propiedades estocásticas de la variable de


interés Y . A partir de las propiedades de Y es posible conocer las propiedades de los distintos
métodos de estimación, elegir el mejor estimador en el modelo, realizar contrastes, etc. Las con-
diciones bajo las cuales vamos a trabajar en un principio se denominan hipótesis básicas. Bajo
estas hipótesis estimaremos y analizaremos el modelo para, finalmente, predecir Y . En una segunda
etapa, podemos considerar otras situaciones, relajando algunas de estas hipótesis, analizando si los
procedimientos de estimación y contraste anteriores siguen siendo válidos. Las hipótesis básicas se
refieren a los distintos elementos de la regresión.

1. Hipótesis sobre la perturbación aleatoria

• La perturbación ui es una variable no observable cuyo valor medio condicionado en X es


cero para todo i, E(ui |Xi ) = 0 ∀i. La perturbación mide las diferencias con respecto a
un promedio, ui = Yi − E(Yi |Xi ) y a priori no tenemos razones para suponer que todas
las desviaciones están por encima o por debajo de ese promedio, por ello parece lógico
pensar que en media las desviaciones son cero.
Para la perturbación en i lo escribimos como E(ui |Xi ) = 0 ∀i, cuando miramos al
modelo en forma matricial escribimos esta hipótesis como E(u|X) = ~0:
   
E(u1 |X) 0
 E(u2 |X)   0 
    −→
E(u|X) =  .. = .. = 0
 .   . 
E(uN |X) 0
• V ar(ui ) = E(u2i |Xi ) = σu2 = σ 2 ∀i es decir la varianza de la perturbación es descono-
cida e igual a σ 2 para todas las observaciones. Estamos suponiendo igual dispersión o
variabilidad. A esta hipótesis se le conoce con el nombre de Homocedasticidad. El caso
contrario, cuando la dispersión varı́a a lo largo de la muestra se denomina Heterocedas-
ticidad. La Figura 2.3 ilustra ambas situaciones:

25
Econometrı́a

f ( u )

f ( u )

X 6

α +β α+β
X 1 X 6

X 1

X 2

X 2

X 6

X 6

Figura 2.3: Perturbaciones homocedásticas versus heterocedásticas

Hay que notar que generalmente σ 2 será desconocida.


• Cov(ui , uj ) = E(ui uj |X) = 0 ∀i, j i 6= j. La covarianza entre perturbaciones de dis-
tintas observaciones es cero. A esta hipótesis también se la llama hipótesis de No Auto-
correlación.
Uniendo la hipótesis de homocedasticidad y la hipótesis de no autocorrelación podemos
describir la matriz de varianzas y covarianzas de la perturbación.

E(uu0 |X) = σ 2 IN

 
E(u21 |X) E(u1 u02 |X)
. . . E(u1 u0N |X)
 E(u2 u01 |X) E(u22 |X)
. . . E(u2 u0N |X) 
 0 
E(uu |X) =  .. .. .. .. =
 . . . . 
E(uN u01 |X) E(uN u02 |X) . . . E(u2N |X)

   
σ2 0 0 . . . 0 1 0 0 ... 0
 0 σ2 0 . . . 0   0 1 0 ... 0 
   
= .. .. .. . . .  = σ2  2
.. .. .. . . ..  = σ IN
 . . . . ..   . . . . . 
0 0 0 . . . σ2 0 0 0 ... 1

A la hipótesis que reconoce que las varianzas de la perturbación no son constantes en


el tiempo o las observaciones se le conoce como hipótesis de Heterocedasticidad. A la
hipótesis que reconoce que las covarianzas entre perturbaciones de distinto momento del
tiempo, o entre distintas observaciones, son distintas de cero se le conoce con el nombre
de Autocorrelación.
• Las perturbaciones siguen una distribución condicionada en X normal.

u|X ∼ N ID(0N , σ 2 IN )

donde estamos escribiendo la distribución del vector de perturbaciones u y decimos que


las perturbaciones siguen una distribución condicionada en X normal, idéntica e inde-
pendientemente distribuidas, de media cero y varianza constante igual a σ 2 . Son inde-
pendientes dado que su covarianza es cero y dado que todas tienen igual varianza y

26
Econometrı́a

covarianza su distribución es idéntica, por ello para una perturbación en i escribimos su


distribución como ui |Xi ∼ N (0, σ 2 ).

Estas propiedades pueden también escribirse conjuntamente como

ui |X ∼ N ID(0, σu2 ) ∀i = 1, . . . , N

2. Hipótesis sobre las variables exógenas X.

• Condicionamos el análisis a unos valores dados de X. Este proceder es similar a considerar


las variables como no aleatorias o regresores fijos.
• La matriz X es de rango completo e igual a K (en el MRLS K = 2) con K < N ,
rg(X) = K, es decir no hay ninguna combinación lineal exacta entre las columnas de X,
son todas linealmente independientes con lo que el rango de la matriz es igual al número
de coeficientes desconocido ya que en X tenemos una columna por parámetro. A esta
hipótesis se le conoce con el nombre de No Multicolinealidad. El que además exijamos
que K < N es porque necesitamos tener más observaciones que coeficientes a estimar en
el modelo.

3. Hipótesis sobre la forma funcional.

• Linealidad en los coeficientes.


• Modelo correctamente especificado.

4. Los coeficientes permanecen constantes a lo largo de toda la muestra.

2.3. Función de Regresión Poblacional. Interpretación de los coeficien-


tes.

Abreviadamente, el modelo con las hipótesis básicas mencionadas se escribe:

Yi = β1 + β2 Xi + ui , ui |X ∼ N ID(0, σ 2 ) ∀i

Dado el supuesto básico E(u|X) = 0:

E(Yi |X) = E(β1 + β2 Xi + ui |X)


= β1 + β2 Xi + E(ui |X) =
| {z }
=0
= β1 + β2 Xi .

A E(Yi |X) se la denomina Función de Regresión Poblacional (FRP) y sus coeficientes, que
son desconocidos, pueden interpretarse como:

27
Econometrı́a

• β1 = E(Yi |Xi = 0): valor medio o esperado de la variable endógena cuando el valor que toma
la variable exógena es cero.

∆E(Yi ) ∂E(Yi )
• β2 = = : Incremento (o decremento) en el valor esperado o valor medio de Yi
∆Xi ∂Xi
cuando la variable explicativa X se incrementa en una unidad. La pendiente mide el efecto
de un aumento marginal en la variable explicativa sobre E(Yi ), un aumento unitario en la
variable explicativa conlleva un aumento medio de β2 unidades en la variable endógena.

→ Ası́, volviendo a nuestro ejemplo tenemos que:


β1 = E(Pi |SQF Ti = 0) es el precio medio de venta en miles de dólares cuando el piso dispone
de una superficie de cero pies habitables, que también puede ser considerado como precio mı́nimo
de partida. En este caso, esperarı́amos un coeficiente nulo dado que no tiene sentido hablar de un
piso sin superficie hábil o bien un precio de partida positivo. No obstante, aunque en este contexto
la ordenada no tiene en principio mucho sentido, no debemos de eliminarla a la ligera en aras de
obtener resultados fáciles de interpretar.
∆E(Pi ) ∂E(Pi )
β2 = = indica que, cuando un piso aumenta su superficie hábil en un pie
∆SQF Ti ∂SQF Ti
cuadrado, su precio medio aumenta en β2 miles $.

Ejemplo 2.2

Se propone la siguiente especificación de la función de consumo agregada para estudiar


la relación en Estados Unidos en el periodo 1960-2005 entre el consumo personal, GCP,
y el ingreso, PIB, ambos en miles de millones de dólares:

GCPt = β1 + β2 P IBt + ut

β2 recoge el incremento en el consumo personal o consumo medio por unidad de in-


cremento en el P IB. Además tiene interpretación económica ya que es la propensión
marginal a consumir que según la teorı́a keynesiana esta limitada entre 0 y 1. β1 es el
valor esperado o medio del consumo cuando el valor del P IB es cero.

Ejemplo 2.3

Se dispone de una base de datos para 51 estados de E.E.U.U. sobre el gasto agregado
en transporte urbano (EXP T RAV ) y la renta disponible agregada (IN COM E) corres-
pondientes al año 19931 . Las variables que se consideran son:

EXPTRAV = Gasto agregado en transporte urbano, en billones de dólares, (Rango


0,708 - 42,48).
INCOME = Renta disponible agregada, en billones de dólares, (Rango 9,3 - 683,5).
1
Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanthan, Ramu (2002) Introductory econometrics with
applications. Fichero de datos data8-2.gdt.

28
Econometrı́a

Un modelo para analizar si la renta disponible agregada explica el gasto agregado en


transporte urbano es el siguiente2 :

EXP T RAVi = β1 + β2 IN COM Ei + ui i = 1, . . . , 51 (2.4)

El parámetro β1 recoge el valor esperado o medio del gasto en transporte cuando la


renta es cero, β1 = E(EXP T RAVi |IN COM Ei = 0). La pendiente β2 recoge el incre-
mento en el valor esperado o valor medio del gasto en transporte cuando la renta se
incrementa en una unidad, es este caso cuando se incrementa en un billón de dólares,
β2 = ∂E(EXP T RAVi )
∂IN COM Ei . Esperarı́amos signo positivo.

Ejemplo 2.4

Se especifica la siguiente función de salarios en el año 2002:

Wi = β1 + β2 S2i + ui i = 1, 2, . . . N

donde Wi es el salario anual del individuo i y S2i es una variable ficticia que se define:
½
1 si el individuo i es mujer
S2i =
0 en caso contrario

La interpretación de los coeficientes de regresión del modelo es la siguiente:

• β1 = E(Wi |S2i = 0) luego es el salario esperado o salario medio cuando el individuo


es hombre. Esperarı́amos signo positivo.
• E(Wi |S2i = 1) = β1 + β2 es el salario esperado o salario medio de una mujer.
Luego β2 es el incremento o decremento en el salario medio para un individuo
por el hecho de ser mujer. Por tanto β2 recoge el efecto diferencial en el salario
medio entre hombres y mujeres. Si es cierto que existe discriminación salarial por
sexo esperarı́amos que tuviera signo negativo. De la misma forma si no existiera
discriminación salarial por sexo, es decir si hombres y mujeres tuvieran el mismo
salario, su valor serı́a cero.

Algunas consideraciones sobre la linealidad en parámetros Cuando decimos que el MRLS es


un modelo lineal queremos decir que Y o alguna transformación de Y es lineal en X o en algu-
na transformación lineal en X. Hay dos tipos de linealidad, linealidad en variables y linealidad
en parámetros. Dado que estamos interesados sólo en la linealidad en parámetros también serán
considerados lineales los siguientes modelos:
1 + u −→ Y = β + β Z + u
Yi = β1 + β2 X 1
con Zi = X
i i 1 2 i i
i i

Yi = β1 + β2 Xi2 + ui −→ Yi = β1 + β2 Wi + ui con Wi = Xi2


2
Son datos de sección cruzada luego utilizamos el subı́ndice i = 1, . . . , N .

29
Econometrı́a

que son lineales en parámetros según lo dicho anteriormente aunque no lo sean en variables. Ahora
bien, existen otras relaciones que aunque en principio no son lineales pueden transformarse en
lineales y por tanto son perfectamente estimables en nuestros términos. Por ejemplo:

1. Sea el siguiente modelo:


Xi = AB Yi ui
podemos transformar el modelo en lineal en parámetros tomado logaritmos y obtener:

Yi = β1 + β2 LnXi + ui (2.5)
LnA
donde β2 = (LnB)−1 y β1 = ( LnB ) a esta transformación se le llama semilogarı́tmica.

2. Sea el modelo:

Yi = AXiB ui −→ LnYi = β1 + β2 LnXi + ui (2.6)

donde β1 = LnA, a esta transformación se le llama doblemente logarı́tmica.

En este modelo en el que todas las variables están medidas en logaritmos, el parámetro de pendiente
además de recibir la interpretación habitual pueden interpretarse en términos de elasticidad:
∂E(LnYi ) ∂E(Yi ) Xi
β2 = =
∂LnXi ∂Xi Yi

Es importante notar que para la ecuación (2.5) la interpretación de los parámetros como elasticidades
no es posible ya que al no estar la variable Yi en logaritmos:
∂E(Yi ) ∂E(Yi )
β= = Xi
∂LnXi ∂Xi

2.4. Utilización de variables explicativas cualitativas

En los ejemplos anteriores se han especificado mayoritariamente modelos con variables de naturaleza
cuantitativa, es decir, aquéllas que toman valores numéricos. Sin embargo, las variables también
pueden ser cualitativas, es decir, pueden tomar valores no numéricos como categorı́as, clases o
atributos. Por ejemplo, son variables cualitativas el género de las personas, el estado civil, la raza,
el pertenecer a diferentes zonas geográficas, momentos históricos, estaciones del año, etc. De esta
forma, el salario de los trabajadores puede depender del género de los mismos; la tasa de criminalidad
puede venir determinada por la zona geográfica de residencia de los individuos; el PIB de los paı́ses
puede estar influenciado por determinados acontecimientos históricos como las guerras; las ventas
de un determinado producto pueden ser significativamente distintas en función de la época del año,
etc. En esta sección, aunque seguimos manteniendo que la variable dependiente es cuantitativa,
vamos a considerar que ésta puede venir explicada por una variable cualitativa.

Dado que las categorı́as de las variables no son directamente cuantificables, las vamos a cuantificar
construyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son numéricas.

30
Econometrı́a

Estas variables toman arbitrariamente el valor 1 si la categorı́a está presente en el individuo y 0 en


caso contrario3 .
½
1 si la categorı́a está presente
Di =
0 en caso contrario

En este tema ya hemos trabajado con ellas, el Ejemplo 2.4 especificamos la función de salario
en función del regresor cualitativo sexo e interpretamos sus parámetros. Trabajar con variables
cualitativas o con variables cuantitativas a la hora de interpretar los coeficientes de la regresión y
estimarlos es indiferente, sin embargo, hay que tener en cuenta algunas reglas a la hora de especificar
el modelo.
En el modelo (2.2) el precio de la vivienda depende exclusivamente de su superficie. Sin embargo
hay otras caracterı́sticas que pueden influir en el precio como la existencia de piscina, de garaje,
el número de habitaciones y/o de baños. Supongamos que tenemos información sobre si la vivenda
tiene piscina o no. Podrı́amos especificar un modelo para el precio de la vivienda suponiendo que
este dependa exclusivamente de si la vivienda tiene o no piscina. Esta variable tiene dos categorı́as
o estados de la naturaleza, tener o no piscina, que podemos recoger con las siguientes variables
ficticias que dividen la muestra en dos grupos y a las que asignamos un valor arbitrario a cada
clase4 :
½
1 si la vivienda i-ésima tiene piscina
P OOLi =
0 en caso contrario
½
1 si la vivienda i-ésima no tiene piscina
N OP OOLi =
0 en caso contrario

Y especificar el modelo:

Pi = β1 + β2 P OOLi + ui i = 1, . . . , N (2.7)

Tal que si E(ui |X) = 0 ∀i la FRP del modelo es E(Pi |X) = β1 + β2 P OOLi
−→ Si la vivienda no tiene piscina: E(Pi |P OOLi = 0) = β1
−→ Si la vivienda tiene piscina: E(Pi |P OOLi = 1) = β1 + β2
Luego β1 es el precio medio de una vivienda sin piscina, β1 + β2 es el precio medio de una vivienda
con piscina y β2 es el diferencial en el precio medio de una vivienda por tener piscina relativamente
a no tenerla.
El modelo (2.7) da lugar a dos ecuaciones:

Pi = β1 + ui i = 1, . . . , NN P para las viviendas sin piscina


Pi = β1 + β2 + ui i = 1, . . . , NN para las viviendas con piscina
3
Las variables ficticias pueden tomar dos valores cualesquiera, sin embargo, la interpretación de los coeficientes es
más sencilla si se consideran los valores 0 y 1.
4
Elegir los
½ valores (0,1) es muy cómodo pero podrı́amos elegir otros,½ por ejemplo:
1 si la vivienda i-ésima tiene piscina 2 si la vivienda i-ésima no tiene piscina
P OOLi = N OP OOLi =
0 en caso contrario 0 en caso contrario

31
Econometrı́a

En el modelo (2.7) el grupo de referencia, el recogido en el término independiente son las viviendas
que no tienen piscina. Podrı́amos haber definido el modelo en base a la variable N OP OOL.
• Alternativa de especificación del modelo (2.7):

Pi = α1 N OP OOLi + α2 P OOLi + ui i = 1, . . . , N (2.8)

de donde suponiendo ui |X ∼ N ID(0, σ 2 )

α1 = E(Pi |N OP OOLi = 1; P OOLi = 0) es el precio medio de una vivienda sin piscina


α2 = E(Pi |N OP OOLi = 0; P OOLi = 1) es el precio medio de una vivienda con piscina

por tanto estos coeficientes recogen el precio medio de la vivienda dentro del grupo.

En este caso el modelo (2.8) da lugar a dos ecuaciones:

Pi = α1 + ui i = 1, . . . , NP para las viviendas con piscina


Pi = α2 + ui i = 1, . . . , NN P para las viviendas sin piscina

La relación entre los parámetros del modelo (2.7) y los del modelo (2.8) es la siguiente:

β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1

¿Cómo serı́a la matriz X en los modelos anteriores? Supongamos que disponemos de in-
formación sobre qué viviendas tiene piscina en la muestra del fichero de datos data3-1.gdt y es la
siguiente:

i Pi SQF Ti Piscina P OOLi N OP OOLi


1 199,9 1065 si 1 0
2 228,0 1254 no 0 1
3 235,0 1300 si 1 0
4 285,0 1577 no 0 1
5 239,0 1600 no 0 1
6 293,0 1750 no 0 1
7 285,0 1800 no 0 1
8 365,0 1870 si 1 0
9 295,0 1935 no 0 1
10 290,0 1948 no 0 1
11 385,0 2254 si 1 0
12 505,0 2600 si 1 0
13 425,0 2800 no 0 1
14 415,0 3000 no 0 1

Luego para los modelos (2.7) y (2.8) respectivamente tendrı́amos:

32
Econometrı́a

   
1 1 0 1
 1 0   1 0 
   
 1 1   0 1 
   
 1 0   1 0 
   
 1 0   1 0 
   
 1 0   1 0 
   
 1 0   1 0 
X=


 X=



 1 1   0 1 
 1 0   1 0 
   
 1 0   1 0 
   
 1 1   0 1 
   
 1 1   0 1 
   
 1 0   1 0 
1 0 1 0

Ejemplo 2.5

Ejemplo para la función de salario. Por ejemplo si queremos estudiar la dependencia


del salario (Wi ) con respecto al sexo del individuo definiremos dos variables ficticias:
½ ½
1 si el individuo i es hombre 1 si el individuo i es mujer
S1i = S2i =
0 en caso contrario 0 en caso contrario
la variable sexo tiene dos categorı́as o estados de la naturaleza: hombre y mujer, para
recogerlos utilizamos dos variables ficticias que dividen la muestra en dos clases hombres
y mujeres, y asignamos un valor arbitrario a cada clase.
Supongamos que tenemos datos de salarios de hombres y mujeres, Wi y creemos que, en
media, existen diferencias salariales entre estos dos grupos. Para contrastar que esto es
cierto podemos recoger el efecto cualitativo sexo sobre el salario utilizando las variables
ficticias y podemos especificar el siguiente modelo :
Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 ) (2.9)

Hay que notar que el modelo (5.9) da lugar a dos ecuaciones:


Wi = β1 + ui i = 1, . . . , NH para los hombres
Wi = β1 + β2 + ui i = 1, . . . , NM para las mujeres

β1 = E(Wi |S2i = 0) es el salario medio de un hombre


β1 + β2 = E(Wi |S2i = 1) es el salario medio de una mujer
β1 es el salario medio cuando el individuo es W
hombre, β1 + β2 es el salario esperado de una
mujer y β2 recoge el efecto diferencial en el sa-
lario medio entre hombres y mujeres. Si no exis-
tiera discriminación salarial por sexo, es decir β1
si hombres y mujeres tuvieran el mismo salario
medio, su valor serı́a cero. En el gráfico podemos
β1 + β2
observar estos efectos donde se supone que β2 es
negativo por razones didácticas.
i
33
Econometrı́a

• Alternativa de especificación del modelo (5.9):

Wi = α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM (2.10)

de donde suponiendo ui ∼ N ID(0, σ 2 )

α1 = E(Wi |S1i = 1; S2i = 0) es el salario medio de un hombre


α2 = E(Wi |S1i = 0; S2i = 1) es el salario medio de una mujer

por tanto estos coeficientes recogen el salario medio dentro del grupo.

En este caso el modelo (5.10) da lugar a dos ecuaciones:

Wi = α1 + ui i = 1, . . . , NH para los hombres


Wi = α2 + ui i = 1, . . . , NM para las mujeres

La relación entre los parámetros del modelo (5.9) y los del modelo (5.10) es la siguiente:

β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1

Ejercicio 2.1

Interpreta los coeficientes de la siguiente regresión:

Wi = β1 S1i + β2 + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 )

donde Wi es el salario del individuo i y


½ ½
1 si el individuo i es hombre 1 si el individuo i es mujer
S1i = S2i =
0 en caso contrario 0 en caso contrario

¿Qué diferencia hay entre ésta especificación y la especificación del modelo (5.9)?

2.5. Bibliografı́a del tema

Referencias bibliográficas básicas:


• Teórica:
[1] Stock, James H. y Mark Watson (2012). Introducción a la Econometrı́a. Pearson.
[2] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición.
• Ejercicios con gretl:

34
Econometrı́a

[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.

Referencias Bibliográficas Complementarias:


[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de
regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −
juridicas/analisis − de − regresion − con − greti/Coursel isting).
[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a
Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación on-
line de la Facultad de C.C. Económicas y Empresariales.
[3] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a.
Editorial McGraw-Hill.
[4] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición.
[5] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.

35
Econometrı́a

36
Tema 3

Modelo de Regresión Lineal Simple.


Estimación

En este tema nos ocuparemos de estimar el Modelo de Regresión Lineal Simple. El método de
estimación que desarrollaremos son los Mı́nimos Cuadrados Ordinarios, MCO, que bajo ciertas
hipótesis de comportamiento sobre los distintos elementos del modelo nos proporcionará estimadores
con buenas propiedades, lineales, insesgados y de mı́nima varianza.
Para finalizar el tema veremos como realizar análisis de regresión mediante el software gretl.
Competencias a trabajar en estas sesiones:

C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.

C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.

C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.

Al final de este tema deberı́ais ser capaces de:

1. Aplicar el estimador de Mı́nimos Cuadrados Ordinarios, MCO (C2).

2. Distinguir entre la perturbación y el residuo u error de estimación. Conocer las distribuciones


respectivas (C2).

3. Organizar y sistematizar información estadı́stica relevante (C3).

4. Utilizar un software econométrico (Gretl) para el análisis de bases de datos económicos e


interpretar sus resultados (C2 , C3 y C4).

37
Econometrı́a

Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:

• Stock and Watson, J. M. (2012). Cap. 4.

• Wooldridge, J.M. (2006). Caps. 2

38
Econometrı́a

3.1. Estimación por Mı́nimos Cuadrados Ordinarios

Una vez descrito el ámbito en el que nos vamos a mover, vamos a obtener un estimador adecuado
de los coeficientes del modelo de regresión simple: el estimador de mı́nimos cuadrados ordi-
narios. En primer lugar, obtendremos el estimador y, a continuación, justificaremos su uso en base
a sus propiedades. El modelo simple (2.1) nos indica que cada observación Yi es una realización
de una variable que tiene dos componentes: uno que depende del valor del regresor Xi , cuyo valor
observamos, y un componente residual que no observamos. El MRLS desarrolla un sistema de N
ecuaciones: 

 Y1 = β1 + β2 X1 + u1

 .

 ..

Yi = β1 + β2 Xi + ui

 ..



 .

YN = β1 + β2 XN + uN

La Figura 3.1 representa gráficamente una posible muestra. Los puntos (Yi , Xi ) se sitúan o distri-
buyen alrededor de la recta β1 + β2 Xi . La desviación de cada punto respecto a esta recta central
viene dada por el valor que tome el término de error no observable ui . Por ejemplo, en la Figura 3.1,
la perturbación es positiva para la primera observación, de modo que Y1 se encuentra por encima
de la recta central. Por otro lado, el punto (Y2 , X2 ) se encuentra por debajo de la recta central, es
decir, u2 toma un valor negativo.

Yi 6
(Y1 , X1 )
6
u1
E(Yi ) = β1 + β2 Xi + E(ui |X)
? | {z }
=0

β1 6u2
?
(Y2 ,X2 )

-
Xi

Figura 3.1: Modelo de regresión simple

• Nuestro objetivo es estimar los parámetros desconocidos β1 y β2 de

Yi = β1 + β2 Xi + ui i = 1, 2, . . . , N

Y = Xβ + u en forma matricial.
A los parámetros estimados los denotamos β̂k y la estimación del modelo es

Ŷi = β̂1 + β̂2 Xi i = 1, 2, . . . , N

39
Econometrı́a

Ŷ = X β̂ en forma matricial,

a la cual denominamos Función de Regresión Muestral (FRM). La FRM es una estimación


de la FRP. Dado que se obtiene para una muestra dada, para cada muestra tendremos una FRM
distinta. En la FRM β̂1 y β̂2 son los estimadores de β1 y β2 .
• Elementos adicionales

• La perturbación del modelo recoge todo aquello que no ha sido explicado por la parte sis-
temática del modelo y se obtiene como la diferencia entre la variable a explicar y la recta de
regresión poblacional. Es una variable aleatoria no observable:

ui = Yi − E(Yi |Xi ) i = 1, 2, . . . , N

u = Y − Xβ en forma matricial.

• El residuo mide el error cometido al estimar la variable endógena y se define como la diferencia
entre la variable a explicar y la recta de regresión muestral1 :

ûi = Yi − Ŷi = Yi − β̂1 − β̂2 Xi i = 1, 2, . . . , N

û = Y − Ŷ = Y − X β̂ en forma matricial.

Este error proviene de dos fuentes: la primera, por el hecho de no poder obtener los valores de
la perturbación (ui ) y la segunda se debe a que la estimación de los coeficientes desconocidos
β1 y β2 introduce un error adicional. Es importante, por tanto, diferenciar y no confundir el
residuo con la perturbación.

• Representación gráfica:

Yi 6
Ŷi = β̂1 + β̂2 Xi
(Y1 , X1 )
Y1
6 6

β̂1 + β̂2 X1 = Ŷ1 ? 1 E(Yi |X) = β1 + β2 Xi
?u1
6 β1 + β2 X1
β1
β2
β̂1 β̂2
? -
Xi
X1

Figura 3.2: Función de regresión poblacional y función de regresión muestral


1
Los residuos son a la FRM lo que las perturbaciones a la FRP. Sin embargo, no son buenos estimadores de las
mismas porque no tienen las mismas propiedades. Tienen media cero pero son heterocedásticos y autocorrelados.

40
Econometrı́a

En la Figura 3.2 la función de regresión poblacional está trazada en color negro ası́ como los
coeficientes poblacionales, la ordenada (β1 ) y la pendiente (β2 ). Podemos ver que el valor Yi se
obtiene como la suma del valor que toma la parte sistemática β1 + β2 Xi (situada sobre la FRP) y
del valor que toma la perturbación ui , esto es, Yi = β1 + β2 Xi + ui .
La función de regresión muestral y los coeficientes estimados (β̂1 y β̂2 ) están representados en color
rojo. La diferencia entre la FRP y la FRM se debe a los errores que se cometen en la estimación
de los coeficientes de la regresión (β̂1 6= β1 , β̂2 6= β2 ). Basándonos en la FRM podemos obtener el
valor del punto Yi como la suma del valor estimado de la parte sistemática Ŷi = β̂1 + β̂2 Xi (situado
sobre la FRM) y del valor que toma el residuo ûi , esto es, Yi = Ŷi + ûi .

3.1.1. El criterio de estimación mı́nimo-cuadrático

Dados el modelo y una muestra, debemos decidir cómo obtener la función de regresión muestral, es
decir, cómo calcular las estimaciones β̂1 y β̂2 a partir de los datos. Un método muy utilizado por
su sencillez y buenas propiedades es el método de mı́nimos cuadrados ordinarios. El estimador de
Mı́nimos Cuadrados Ordinarios, o MCO, de los parámetros β1 y β2 se obtiene de minimizar
la suma de los residuos al cuadrado:
N
X N
X N
X
mı́n û2i = mı́n (Yi − Ŷi )2 = mı́n (Yi − β̂1 − β̂2 Xi )2 (3.1)
β̂1 ,β̂2 i=1 β̂1 ,β̂2 i=1 β̂1 ,β̂2 i=1

Las expresiones del estimador de β1 y β2 se obtienen de las condiciones de primer orden, para lo
cual igualamos las primeras derivadas a cero:
P
∂ N 2
i=1 ûi P
= −2 N i=1 (Yi − β̂1 − β̂2 Xi ) = 0
∂ β̂1
P
∂ N 2
i=1 ûi P
= −2 N i=1 (Yi − β̂1 − β̂2 Xi )Xi = 0
∂ β̂2

Ası́, obtenemos un sistema de ecuaciones, llamadas ecuaciones normales , que vienen dadas por:
N
X
(Yi − β̂1 − β̂2 Xi ) = 0 (3.2)
| {z }
i=1
u
bi
N
X
(Yi − β̂1 − β̂2 Xi )Xi = 0 (3.3)
| {z }
i=1
u
bi Xi

Las expresiones de los estimadores MCO para los coeficientes poblacionales β1 y β2 se obtienen de
resolver las ecuaciones para β̂1 y β̂2 :
PN PN
i=1 (Xi − X̄)(Yi − Ȳ ) i=1 Xi Yi − N X̄ Ȳ SXY
β̂2,M CO = PN = PN
= 2 (3.4)
i=1 (Xi − X̄)
2 2
i=1 Xi − N X̄
2 SX

β̂1,M CO = Ȳ − β̂2 X̄ (3.5)

41
Econometrı́a

PN 2
Estimación en forma matricial En forma matricial, i=1 ûi = û0 û donde û es un vector N × 1
(1 × 1)
y el criterio puede escribirse

mı́n û0 û = mı́n(Y − X β̂)0 (Y − X β̂).


β̂ β̂

Las K Condiciones de Primer Orden (C.P.O.) de mı́nimo son


∂ û0 û
= 0 ⇒ −2X 0 (Y − X β̂) = 0.
∂ β̂
Despejando, obtenemos las ecuaciones normales en forma matricial:

X 0 Y = X 0 X β̂M CO . (3.6)

de donde el estimador MCO (en forma matricial) es:

β̂M CO = (X 0 X)−1 X 0 Y (3.7)

en el que X 0 X es una matriz de orden (2 × 2), X 0 Y un vector de orden (2 × 1) y β̂ un vector de


orden (2 × 1), tales que para el MRLS

· P ¸ · P ¸ · ¸
X 0X = PN P X2i X 0Y = P Yi β̂ =
β̂1
.
(2 × 2)
Xi Xi (2 × 1)
Xi Yi (2 × 1) β̂2

El estimador MCO cumple también las condiciones de segundo orden de mı́nimo, con lo cual es,
efectivamente, la solución al problema de minimización de la suma de los residuos al cuadrado.

3.2. La Función de Regresión Muestral. Interpretación de los coeficien-


tes estimados por MCO

En la sección anterior hemos denotado a la Función de Regresión Muestral (FRM) como:

Ŷi = β̂1 + β̂2 Xi i = 1, 2, . . . , N


Ŷ = X β̂ en forma matricial,

Los coeficientes estimados tienen la siguiente interpretación:

b i |Xi = 0). Valor medio estimado de Yi cuando la variable explicativa es cero.


• β̂1 = E(Y
di )
∂ E(Y d)
∆E(Y
• β̂2 = = ∆X i . Incremento medio estimado (ó decremento medio estimado) en Yi
∂Xi i
cuando la variable X se incrementa en una unidad.

42
Econometrı́a

Ejemplo 3.1

Siguiendo con el modelo del precio de una vivienda y con los datos recogidos en la Tabla
2.1, tenemos:

i Pi SQF Ti SQF Ti × Pi SQF Ti2 P2


1 199,9 1065 212893,5 1134225 39960,01
2 228,0 1254 285912 1572516 51984
3 235,0 1300 305500 1690000 55225
4 285,0 1577 449445 2486929 81225
5 239,0 1600 382400 2560000 57121
6 293,0 1750 512750 3062500 85849
7 285,0 1800 513000 3240000 81225
8 365,0 1870 682550 3496900 133225
9 295,0 1935 570825 3744225 87025
10 290,0 1948 564920 3794704 84100
11 385,0 2254 867790 5080516 148225
12 505,0 2600 1313000 6760000 255025
13 425,0 2800 1190000 7840000 180625
14 415,0 3000 1245000 9000000 172225
P14
i=1 4444,9 26753 9095985,5 55462515 1513039,01

De donde:
P14
Pi 4444,9
P̄ = N P = 14
i=1
= 317, 4928571
14
SQF Ti 26753
SQF T = i=1N = 14 = 1910, 928571

PN
i=1 SQF Ti Pi − N × SQF T × P̄ 9095985, 5 − 14 × 317, 49 × 1910, 92
β̂2,M CO = PN 2 = = 0,1388
2 55462515 − 14 × (1910, 92)2
i=1 SQF Ti − N × SQF T

β̂1,M CO = P̄ − β̂2 SQF T = 317, 49 − 0,1388 × 1910, 92 = 52,3509

En forma matricial:

· ¸ · P ¸−1 · P ¸
β̂1 P N P SQF Ti P Pi
β̂M CO = = =
β̂2 SQF Ti SQF Ti2 SQF Ti Pi
· ¸−1 · ¸
14 26753 4444,9
= =
26753 55462515 9095985,5
· ¸ · ¸ · ¸
0,9129 −4,4036e − 04 4444,9 52,3509
= =
−4,4036e − 04 2,3044e − 07 9095985,5 0,1388

FRM: P̂i = 52,3509 + 0,1388 SQF Ti

43
Econometrı́a

βb1 = 52,35 miles de dólares y la estimación de la pendiente es βb2 = 0, 138750 miles $ por pie cuadrado.
Es decir, cuando la superficie de la vivienda aumenta en un pie cuadrado, el precio medio de venta
estimado aumenta en βb2 × 1000 = 138, 750 dólares. La interpretación del término independiente
estimado no tiene sentido salvo como precio de partida ya que indica que el precio medio estimado
de una vivienda sin superficie es 52.350 dólares.

Algunas equivalencias de notación

Yi = β1 + β2 Xi + ui i = 1, 2, . . . , N ⇔ Y = Xβ + u

E(Yi ) = β1 + β2 Xi i = 1, 2, . . . , N ⇔ E(Y ) = Xβ

Ŷi = β̂1 + β̂2 Xi i = 1, 2, . . . , N ⇔ Ŷ = X β̂

Yi = β̂1 + β̂2 Xi + ûi i = 1, 2, . . . , N ⇔ Y = X β̂ + û

ûi = Yi − Ŷi i = 1, 2, . . . , N ⇔ û = Y − Ŷ

Ejercicio 3.1

Sea el modelo de regresión lineal simple donde se regresa Yt sobre Xt , incluyendo un


término independiente.

Yt = β1 + β2 Xt + ut t = 1, . . . , T

Sin utilizar notación matricial:

1. Escribe el sistema de ecuaciones correspondiente al modelo propuesto.


2. Escribe la función objetivo correspondiente a la estimación por MCO de los paráme-
tros desconocidos. Deriva las condiciones de primer orden.
3. Obtén las ecuaciones normales correspondientes al modelo.
4. Obtén la expresión de β̂1 y β̂2 .

Utilizando notación matricial:

1. Escribe la expresión matricial del modelo.


2. Escribe la función objetivo correspondiente a la estimación por MCO de los paráme-
tros desconocidos. Deriva las condiciones de primer orden.
3. Obtén las ecuaciones normales correspondientes al modelo.
4. Obtén la expresión del estimador del vector de parámetros desconocidos β̂.

44
Econometrı́a

Ejercicio 3.2

Sea el siguiente modelo de regresión lineal simple donde se regresa Yt sobre Xt .

Yt = βXt + ut t = 1, . . . , T

Sin utilizar notación matricial:

1. Escribe el sistema de ecuaciones correspondiente al modelo propuesto.


2. Escribe la función objetivo correspondiente a la estimación por MCO del parámetro
desconocido. Deriva la condición de primer orden.
3. Obtén la ecuación normal del modelo.
4. Obtén la expresión de β̂.

Utilizando matrices escribe la expresión matricial del modelo y obtén la expresión de β̂.

Ejemplo 3.2

Supongamos que se dispone de datos para estimar la relación en Estados Unidos para
el periodo 1960-2005 entre el consumo personal, GCP, y el ingreso, PIB, propuesta en
el Ejemplo 2.3 y que la regresión estimada es la siguiente:

d t = −299, 5913 + 0, 721P IBt


GCP

La propensión marginal a consumir es 0, 72 lo que indica que cuando el ingreso real


se incrementa en un dólar el consumo personal aumenta en 72 centavos. La ordenada
es −299, 5913 lo que indica que si el ingreso es cero el nivel promedio del consumo es
negativo e igual a 299, 59 dólares. No tiene interpretación económica.
Si las unidades de ambas variables fuese billones de $: por cada billón de dólares de
incremento en el PIB el consumo se incrementarı́a en 0,721 billones, Luego por cada
100 billones de incremento en PIB el consumo se incrementa en 72,1 billones de dólares.
Cuando el PIB es cero el consumo es negativo e igual a 299591,3 billones de dólares.

Ejemplo 3.3

A continuación vamos a estimar el modelo donde suponemos que el precio de venta


de una vivienda depende exclusivamente de si tiene piscina o no. En el tema anterior
mostramos cómo especificar dicho modelo, recogido en la ecuación (2.7):

Pi = β1 + β2 P OOLi + ui i = 1, . . . , N

45
Econometrı́a

· ¸ · P ¸−1 · P ¸
β̂1 P N P P OOL2i P Pi
β̂M CO = = =
β̂2 P OOLi P OOLi P OOLi Pi
· ¸−1 · ¸
14 5 4444,9
= =
5 5 1689, 9
· ¸ · ¸ · ¸ · ¸
0,1111 −0,1111 4444,9 306,11 P̄N P
= = =
−0,1111 0,3111 1689, 9 31,86 P̄P − P̄N P

FRM: P̂i = 306,11 + 31,86P OOLi

• Como alternativa de especificación propusimos la ecuación (2.8)

Pi = α1 N OP OOLi + α2 P OOLi + ui i = 1, . . . , N

En este caso:

· ¸ · P 2
P ¸−1 · P ¸
α̂1 P N OP OOL i N OP
P OOL i P OOL i PN OP OOL i Pi
β̂M CO = = =
α̂2 N OP OOLi P OOLi P OOL2i P OOLi Pi
· ¸−1 · P ¸ " P N OP OOLi Pi # · ¸
NN P 0 P N OP OOL i Pi P NN P P̄N P
= = P OOLi Pi = =
0 NP P OOLi Pi P̄P
NP
· ¸−1 · ¸
9 0 2755
= =
0 5 1689,9
· ¸ · ¸ · ¸ · ¸
0,1111 0 2755 306,1111 P̄N P
= = =
0 0,2 1689,9 337,9800 P̄P

FRM: P̂i = 306,1111N OP OOLi + 337,98P OOLi

En este modelo interpretamos los parámetros de la forma siguiente:

α1 = E(Pi |N OP OOLi = 1; P OOLi = 0) es el precio medio de una vivienda sin piscina


α2 = E(Pi |N OP OOLi = 0; P OOLi = 1) es el precio medio de una vivienda con piscina

por tanto estos coeficientes recogen el precio medio de la vivienda dentro del grupo.
Y hemos obtenido que:

α̂1 = P̄N P es el precio medio estimado de una vivienda sin piscina


α̂2 = P̄P es el precio medio estimado de una vivienda con piscina

por tanto, estos coeficientes estimados son la media muestral de los precios de las vi-
viendas dentro del grupo.
Al ser la relación entre los parámetros del modelo (2.7) y los del modelo (2.8) la siguiente:

46
Econometrı́a

β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1

Tenemos:
β̂1 = α̂1 = P̄N P = 306, 11 y β̂2 = α̂2 − α̂1 = P̄P − P̄N P = 337,98 − 306, 11 = 31,86 luego
β̂2 es la diferencia entre las medias muestrales estimadas.

3.2.1. Propiedades de la Función de Regresión Muestral

1. Los residuos son ortogonales a las variables explicativas: X 0 û = 0 (û0 X = 0).

X 0 û = X 0 (Y − Ŷ ) = X 0 (Y − X β̂) = 0

por las ecuaciones normales.

2. Los residuos son ortogonales a las estimaciones de la variable endógena: Ŷ 0 û = 0 (û0 Ŷ = 0).

Ŷ 0 û = (X β̂)0 û = β̂ 0 |{z}
X 0 û = 0
=0

Por tanto los residuos están incorrelados con la variable explicativa y con la variable depen-
diente estimada.

Si el modelo tiene término independiente, es decir, si X1i = 1, entonces la primera fila de X 0 û es


P
igual a ûi y tenemos que
PN
3. La suma de los residuos es cero: i=1 ûi = 0. Por tanto la media muestral de los residuos es
¯=0
cero, û
" P # · ¸ N
N
ûi 0 X
0 1
X û = 0 ⇔ PN = ⇒ ûi = 0
1 Xi ûi
0
i=1

¯
4. La media muestral de Y es igual a la media muestral de las estimaciones de Y : Ȳ = Ŷ .

ûi = Yi − Ŷi ⇐⇒ Yi = Ŷi + ûi


X X X
Yi = Ŷi + ûi
| {z }
=0
1 X 1 X ¯
Yi = Ŷi =⇒ Ȳ = Ŷ
N N

5. La FRM pasa por el vector de medias: Ȳ = β̂1 + β̂2 X̄.


N
X X
ûi = 0 ⇔ (Yi − β̂1 − β̂2 Xi ) = 0
i=1
X X
Yi − N β̂1 − β̂2 Xi = 0

47
Econometrı́a

X X
Yi = N β̂1 + β̂2
Xi
1 X 1 X
Yi = β̂1 + β̂2 Xi
N N
Ȳ = β̂1 + β̂2 X̄

Nota: Las propiedades 1 y 2 se cumplen siempre, mientras que las 3, 4 y 5 se cumplen sólo si el
modelo tiene un término independiente.

3.3. Bondad del ajuste. Coeficiente de determinación.

Definimos la variación de la variable Y como la distancia de los valores observados de la variable a


su media muestral. La suma de esas variaciones al cuadrado es la variación que se quiere explicar
con la variación de las variables explicativas. Se le denota como SCT y se lee Suma de Cuadrados
Total. Lógicamente, el ajuste realizado será mejor cuanto mayor sea la proporción explicada de esa
variación.

X X
SCT = (Yi − Ȳ )2 = Yi2 − N Ȳ 2 = Y 0 Y − N Ȳ 2
Cuando el modelo tenga término independiente podremos dividir la variación total en dos partes,
variación explicada y variación sin explicar o residual.

SCT = SCE + SCR

Dado que Y = Ŷ + û, tenemos:

Y 0Y = (Ŷ + û)0 (Ŷ + û) =


= Ŷ 0 Ŷ + |{z}
Ŷ 0 û + |{z}
û0 Ŷ +û0 û = Ŷ 0 Ŷ + û0 û
=0 =0

Restando en ambos lados N Ȳ 2 ,

Y 0 Y − N Ȳ 2 = Ŷ 0 Ŷ − N Ȳ 2 + û0 û
¯
Si el modelo tiene término independiente, Ȳ = Ŷ de donde,
¯
Y 0 Y − N Ȳ 2 = Ŷ 0 Ŷ − N Ŷ 2 + û0 û
X X ¯ X
Yi 2 − N Ȳ 2 = Ŷi2 − N Ŷ 2 + û2i
X X ¯ X
(Yi − Ȳ )2 = (Ŷi − Ŷ )2 + û2i
| {z } | {z } | {z }
SCT SCE SCR

SCT = SCE + SCR

48
Econometrı́a

siendo:

SCT: Suma de Cuadrados Total, mide la variación total.


SCE: Suma de Cuadrados Explicada, mide la variación explicada.
SCR: Suma de Cuadrados Residual, mide la variación sin explicar.

X
SCT = (Yi − Ȳ )2 = Y 0 Y − N Ȳ 2
X ¯
SCE = (Ŷi − Ŷ )2 = Ŷ 0 Ŷ − N Ȳ 2 = β̂ 0 X 0 Y − N Ȳ 2
X
SCR = û2i = Y 0 Y − Ŷ 0 Ŷ = Y 0 Y − β̂ 0 X 0 Y

Nuestro objetivo es evaluar como se ajusta el modelo estimado a los datos, esto es, cómo explican las
variables explicativas del modelo en su conjunto conjunto, la variabilidad de la variable dependiente.
Para ello debemos utilizar un estadı́stico que recoja en un único valor el ajuste del modelo de
regresión lineal a los datos una vez que ha sido estimado por MCO. Este estadı́stico es el Coeficiente
de determinación, y mide la variabilidad observada de la variable dependiente que explica el modelo
en función de las variables explicativas.

Coeficiente de determinación, R2
SCE SCR
R2 = =1−
SCT SCT

• Si existe término independiente en el modelo el R2 estará entre los valores 0 y 1. Por la misma
razón si no existe término independiente el R2 no tiene sentido.

• El coeficiente de determinación mide la bondad del ajuste o lo que es lo mismo la variabilidad


de la variable endógena explicada con la variabilidad de las variables exógenas. Por tanto el R2
mide la proporción de la variabilidad observada de la variable dependiente Y que se ha podido
explicar por incluir de forma lineal en el modelo la variable explicativa X. Normalmente se
interpreta en porcentajes, por ejemplo, se dice que la regresión explica el 100 × R2 por ciento
de la variación observada en Y .

• A mayor R2 mejor ajuste.

• Es fácil comprobar que:


- El criterio mı́nimo-cuadrático equivale a maximizar R2 .
- R2 = rY2 Ŷ , mide la correlación entre el valor observado y el valor predicho o ajustado
con la regresión. Como 0 ≤ rY2 Ŷ ≤ 1, si R2 ' 0 diremos que el ajuste es pobre y, por el
contrario, será un buen ajuste cuando este estadı́stico esté próximo a la unidad.
Esta propiedad no se cumple en modelos sin término independiente.

49
Econometrı́a

Coeficiente de correlación El coeficiente de correlación da una medida estandarizada de la relación


lineal entre dos variables. Indica el sentido y el grado de la relación. Mide el grado de asociación
lineal entre dos variables. El coeficiente de correlación lineal simple muestral para X e Y se define:
P P
(Xi −X̄)(Yi −Ȳ )
Cov(X, Y ) Nq Xi Yi − N X̄ Ȳ
rxy = = qP P = q P 2 qP
SX SY (Xi −X̄)2 (Yi −Ȳ )2
Xi − N X̄ 2 Yi2 − N Ȳ 2
N N

El coeficiente de correlación está comprendido entre −1 y 1, −1 ≤ rXY ≤ 1. Cuanto más cerca


se encuentra de 1 más cerca se encuentran los datos de puntos de una lı́nea recta ascendente que
indica una relación lineal positiva. Cuanto más cerca de −1 más cerca se encuentran los datos de
puntos de una lı́nea recta descendente que indica una relación lineal negativa. Cuando r = 0 no
existe ninguna relación lineal entre las variables.
Además en el MRLS se puede de mostrar que R2 = rXY
2 .

Ejemplo 3.4

Con los resultados de la regresión del modelo (2.2) y los datos del fichero data3-1.gdt
calculamos el coeficiente de determinación:

X
SCT = Y 0 Y − N Ȳ 2 =
Pi2 − N P̄ 2 = 1513039, 01 − 14 × (317, 49)2 = 101814, 9997
X · ¸
0 0 2 0 4444,9
SCR = Y Y − β̂X Y = Pi − β̂X Y = 1513039, 01 − [52,3509 0,1388] =
9095985,5
= 1513039, 01 − 1494765, 4422 = 18273,5678

SCR 18273,5678
R2 = 1 − =1− = 0, 8205
SCT 101814, 9997
Podemos decir que este ajuste es bueno, ya que la variabilidad muestral de la superficie
de la vivienda (SQF T ) ha explicado el 82 % de la variabilidad muestral de los precios
de venta de dichas viviendas (P ).

3.4. La estimación MCO en Gretl

En esta sección se va a mostrar cómo utilizar gretl para estimar por MCO.
→ Como ejemplo, calcularemos las estimaciones MCO del modelo para el precio de la vivienda,
Pi = β1 + β2 SQF Ti + ui , con la muestra del fichero datos3-1.gdt. Una forma sencilla de obtener la
FRM mı́nimo-cuadrática es realizar el diagrama de dispersión en el cual la recta de regresión aparece
en la parte superior izquierda. En el ejemplo que nos ocupa tenemos que β̂1 = 52, 4 y β̂2 = 0, 139,
como se puede ver en la Figura 2.2.
Cómo podemos obtener una tabla de resultados detallados: Una vez iniciada la sesión de
Gretl y abierto el fichero datos3-1.gdt, vamos a
Modelo →Mı́nimos cuadrados ordinarios...

50
Econometrı́a

Figura 3.3: Ventana de especificación del modelo lineal

Aparece la ventana donde se especifica la parte sistemática del modelo:


• Escogemos la variable dependiente, el precio de venta: en el cuadro izquierdo pinchamos
sobre P y luego Elegir − >.
• Elegimos la variable independiente, el tamaño: en el cuadro izquierdo pinchamos sobre
SQF T y luego Añadir − >. La ventana de especificación aparece en la Figura 3.3.
Tras pinchar en Aceptar aparece la ventana de resultados del modelo (ver la Figura 3.4). En esta

MENÚ DEL MODELO

Figura 3.4: Ventana de resultados de estimación MCO

ventana aparecen todos los resultados básicos para el análisis del modelo y que se irán explicando
a lo largo del curso.

51
Econometrı́a

Modelo 1: MCO, usando las observaciones 1–14


Variable dependiente: price

Coeficiente Desv. Tı́pica Estadı́stico t valor p


const 52.3509 37.2855 1.4041 0.1857
sqft 0.138750 0.0187329 7.4068 0.0000

Media de la vble. dep. 317.4929 D.T. de la vble. dep. 88.49816


Suma de cuad. residuos 18273.57 D.T. de la regresión 39.02304
R2 0.820522 R2 corregido 0.805565
F (1, 12) 54.86051 Valor p (de F ) 8.20e–06
Log-verosimilitud −70.08421 Criterio de Akaike 144.1684
Criterio de Schwarz 145.4465 Hannan–Quinn 144.0501

La primera columna muestra las variables explicativas que se han incluido en el modelo, la constante
(const) y la superficie que posee la vivienda (SQF T ). En la segunda columna tenemos los coeficientes
estimados por MCO correspondientes a cada una de las variables. Como ya vimos, la estimación de
la ordenada es igual a βb1 = 52,35 miles de dólares y la estimación de la pendiente es βb2 = 0, 138750
miles $ por pie cuadrado. Ası́ la Función de Regresión Muestral es:
Pbi = 52, 3509 + 0,138750 SQF Ti (3.8)
Es decir, cuando la superficie de la vivienda aumenta en un pie cuadrado, el precio medio de venta
estimado aumenta en βb2 × 1000 = 138, 750 dólares. Observar que esta interpretación corresponde
a la estimación del coeficiente, no al parámetro poblacional β2 .

La desviación tı́pica de los residuos es el error tı́pico σ̂ y Suma de cuadrados de los residuos
P
es SCR = i û2i .
También encontramos el valor del coeficiente de determinación, R2 = 0, 820522 Además recor-

dar que en el MRLS R2 = rXY 2 luego rXY = 0, 820522 = ± 0, 9058. Si buscamos la matriz de
correlación obtenemos: corr(price, sqft) = 0.90582662. Luego ambas variables están correladas, con
correlación positiva y elevada. El resto de resultados se irán interpretando según avancemos en la
asignatura.
Guardar resultados. Si en el menú de resultados del modelo vamos a Archivo →Guardar a sesión
como icono, el modelo queda guardado dentro de la carpeta USER. Ası́, podemos recuperarlo siempre
que queramos; basta con pinchar sobre el botón iconos de sesión, cuarto por la izquierda de la barra
de herramientas, y en la ventana que aparece, pinchar dos veces sobre el icono llamado Modelo 1.
Si posteriormente estimáramos otro modelo y lo guardáramos como icono, Gretl lo denominarı́a
Modelo 2.
Algunos gráficos de interés. La opción Gráficos de la ventana de resultados del modelo incluye
distintas representaciones gráficas tanto de la variable endógena de interés, como de su ajuste y de
los errores de su ajuste. Veamos algunos de los más utilizados en regresión con datos de sección
cruzada.

• En Gráficos → Gráfico de variable estimada y observada →contra SQFT obtenemos el gráfico

52
Econometrı́a

de dispersión de las observaciones reales Pi frente a la variable explicativa SQF Ti junto con
la función de regresión muestral (3.8). El resultado es la figura izquierda de la Figura 3.5.
Precio, P observada y estimada Residuos de la regresin (= P observada - estimada)
550 100
actual
estimada
500 80

450 60

400 40
Precio, P

residuo
350 20

300 0

250 -20

200 -40

150 -60
1500 2000 2500 3000 1500 2000 2500 3000
Superficie, F2 Superficie, F2

Figura 3.5: Gráficos de resultados de regresión MCO

• Si seleccionamos Gráficos →Gráfico de residuos →contra SQFT, se representan los errores de


ajuste ûi sobre la variable explicativa SQF Ti , es decir, el diagrama de dispersión de los pares
de puntos (SQF T1 , û1 ), . . . , (SQF T14 , û14 ), como aparece en la figura derecha de la Figura
3.5. Podemos apreciar que los residuos se distribuyen alrededor del valor cero (u b̄ = 0) y que
la variación con respecto a esta media crece a medida que aumenta el tamaño de los pisos.
Este último resultado podrı́a indicar que la hipótesis básica de varianza constante quizás no
sea aceptable.

Variables asociadas a la regresión. Para ver los valores que toman los ajustes Ŷi y los residuos
ûi , debemos seleccionar Análisis →Mostrar variable observada, estimada, residuos.
El resultado que obtenemos es la tabla 3.1. Podemos guardar cualquiera de estos valores seleccio-
nando la opción Guardar del menú del modelo, tal como muestra la Figura 3.6.
Rango de estimación del modelo: 1--14
Desviación tı́pica de los residuos = 39,023

Observaciones P estimada residuos Observaciones P estimada residuos


1 199,9 200,1 −0,2 8 365,0 311,8 53,2
2 228,0 226,3 1,7 9 295,0 320,8 −25,8
3 235,0 232,7 2,3 10 290,0 322,6 −32,6
4 285,0 271,2 13,8 11 385,0 365,1 19,9
5 239,0 274,4 −35,5 12 505,0 413,1 91,9
6 293,0 295,2 −2,2 13 425,0 440,9 −15,9
7 285,0 302,1 −17,1 14 415,0 468,6 −53,6
Tabla 3.1: Residuos de la regresión MCO.

Para almacenar P̂i hay que elegir Guardar →Valores estimados. Sale una ventana en la que, por
defecto, el valor ajustado o estimado de la variable endógena se llama yhat1 y en la descripción
aparece valores estimados mediante el modelo 1. Dado que nuestra variable dependiente es el precio
de venta P , cambiamos de nombre a la variable y la renombramos como phat1. Si repetimos los

53
Econometrı́a

pasos anteriores pero escogemos Guardar →Residuos, en la ventana correspondiente se nombra a los
residuos como uhat1 y la descripción es residuos del modelo 1. Una vez guardadas estas dos series,
las encontramos en la ventana principal junto a la variable independiente P y la variable explicativa
SQF T .

Figura 3.6: Residuos MCO

3.5. Bibliografı́a del tema

Referencias bibliográficas básicas:


• Teórica:
[1] Stock, James H. y Mark Watson (2012). Introducción a la Econometrı́a. Pearson.
[2] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición.
• Ejercicios con gretl:
[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.

Referencias Bibliográficas Complementarias:


[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de
regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −
juridicas/analisis − de − regresion − con − greti/Coursel isting).
[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a
Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación on-
line de la Facultad de C.C. Económicas y Empresariales.

54
Econometrı́a

[3] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a.
Editorial McGraw-Hill.
[4] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición.
[5] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.

55
Econometrı́a

56
Tema 4

Modelo de Regresión Lineal Simple.


Inferencia

Una vez estimado el Modelo de Regresión Lineal Simple dedicaremos este tema a hacer inferencia
sobre el mismo. Aprenderemos a realizar contrates sobre posibles valores de los parámetros pobla-
cionales comenzando con el contraste de significatividad de la variable independiente. Previamente
hemos de derivar la distribución del estimador MCO. Para finalizar el tema veremos como realizar
inferencia mediante el software gretl.
Competencias a trabajar en estas sesiones:

C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.

C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.

C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.

Al final de este tema deberı́ais ser capaces de:

1. Conocer y saber demostrar las propiedades del estimador de MCO (C2 y C3).

2. Saber derivar la distribución del estimador de MCO (C2).

3. Saber derivar intervalos de confianza y utilizarlos para el contraste de hipótesis (C2 y C3)

4. Saber contrastar la significatividad individual de la variable explicativa (C2 y C3).

5. Utilizar un software econométrico (Gretl) para realizar contraste de hı́pótesis e interpretar sus
resultados (C2 , C3 y C4).

57
Econometrı́a

Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:

• Stock and Watson, J. M. (2012). Cap. 5.

• Wooldridge, J.M. (2006). Caps. 2

58
Econometrı́a

4.1. Propiedades del estimador de MCO

El método de MCO es sólo uno de los posibles métodos de estimación, la pregunta es ¿cómo
podemos elegir entre estimadores? obviamente en base a sus propiedades sobre su comportamiento
en muestras repetidas. Estas propiedades son insesgadez, varianza pequeña y error cuadrático medio.

Insesgadez Un estimador es insesgado si su valor esperado coincide con el verdadero valor del
parámetro. Sea θ̂ un estimador del parámetro θ, será insesgado si E(θ̂) = θ.

Varianza mı́nima Desearemos que la varianza de un estimador sea lo más pequeña posible ya que
cuanto menor sea la varianza muestral mayor es la precisión del estimador.

Si estamos comparando dos estimadores insesgados elegiremos aquel que tenga la menor varianza.
Pero si estamos comparando dos estimadores sesgados o un estimador sesgado y uno insesgado este
criterio no nos sirve y debemos introducir uno nuevo, el concepto de error cuadrático medio.

Error cuadrático Medio (ECM) ECM (θ̂) = E(θ̂ − θ)2 = V (θ̂) + Sesgo(θ̂)2 donde Sesgo(θ̂) =
E(θ̂) − θ. En base a este criterio elegimos el estimador con menor ECM.

4.1.1. Propiedades del estimador de MCO

Sea el modelo de regresión lineal general

Y = Xβ + u u|X ∼ N ID(0, σ 2 IN )

donde se cumplen todas las hipótesis básicas. El estimador MCO de los coeficientes

β̂ = (X 0 X)−1 X 0 Y

tiene las siguientes propiedades:

• Es lineal en las perturbaciones.

• Es insesgado.

• Tiene varianza mı́nima entre todos los estimadores lineales e insesgados

Demostración:

• Linealidad. El estimador MCO, condicionando en X, se puede expresar como una función


lineal de Y o de u que serı́an los elementos aleatorios.

β̂ = (X 0 X)−1 X 0 Y =
= (X 0 X)−1 X 0 (Xβ + u) =
= β + (X 0 X)−1 X 0 u

59
Econometrı́a

• Insesgadez. Dado que E(u|X) = 0 el estimador MCO es insesgado es decir, su valor esperado
es igual al vector de coeficientes del modelo.

E(β̂|X) = E((β + (X 0 X)−1 X 0 u)|X) =


= E(β) + (X 0 X)−1 X 0 E(u|X) = β
| {z }
=0

• Matriz de varianzas y covarianzas. Dado que E(u|X) = 0 y E(uu0 |X) = σ 2 IN )

V (β̂) = E[((β̂ − E(β̂)(β̂ − E(β̂))0 |X)] =


= E[(β̂ − β)(β̂ − β)0 |X] =
h£ ¤£ ¤0 i
= E (X 0 X)−1 X 0 u (X 0 X)−1 X 0 u |X =
= E[(X 0 X)−1 X 0 uu0 X(X 0 X)−1 )|X] =
= (X 0 X)−1 X 0 E[(uu0 )|X] X(X 0 X)−1 =
= (X 0 X)−1 X 0 σ 2 IN X(X 0 X)−1 =
= σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 =
= σ 2 (X 0 X)−1

Matricialmente para el MRLS:


· ¸ · ¸
V (β̂1 ) Cov(β̂1 , β̂2 ) 2 a11 a12
V (β̂) = =σ a21 a22
= σ 2 (X 0 X)−1
(2 × 2) Cov(β̂2 , β̂1 ) V (β̂2 )

donde akk es el elemento (k, k) de (X 0 X)−1 . Como toda matriz de varianzas y covarianzas, es
simétrica.
La matriz de varianzas y covarianzas V (β̂) = σ 2 (X 0 X)−1 es mı́nima y nos lo garantiza el Teorema
de Gauss-Markov.

Teorema de Gauss-Markov: Dados los supuestos básicos del modelo de regresión lineal, “dentro
de la clase de estimadores lineales e insesgados, β̂M CO es el estimador eficiente, es decir, β̂M CO tiene
mı́nima varianza”. Es el eficiente dentro de su clase.
Notar que para derivar la matriz de varianzas y covarianzas del estimados MCO hemos utilizado
todas las hipótesis básicas sobre la perturbación salvo la hipótesis de normalidad.

4.1.2. Estimación de la varianza de las perturbaciones

En la matriz de varianzas y covarianzas del estimador MCO aparece la varianza de las perturbacio-
nes, lo habitual es que sea desconocida y haya de ser estimada. Habitualmente se utiliza el siguiente
estimador insesgado de σ 2 :
P 2
2 û0 û SCR ûi
σ̂ = = = y E(σ̂ 2 ) = σ 2
N −K N −K N −K

60
Econometrı́a

Por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbación. Para
trabajar con él es útil escribirlo en términos de las variables observables mediante las matrices Y ,
X, ası́:

û0 û Y 0 Y − β̂ 0 X 0 Y Y 0 Y − β̂X 0 X β̂
σ̂ 2 = = =
N −K N −K N −K

Bajo las hipótesis básicas salvo la hipóteis de normalidad, un estimador insesgado de la matriz
de varianzas y covarianzas, de β̂M CO es

Vb (β̂M CO ) = σ̂ 2 (X 0 X)−1

Ejemplo 4.1

Con los datos disponibles en el fichero data3-1.gdt y los resultados de la estimación del
modelo (2.2),

Pi = β1 + β2 SQF Ti + ui i = 1, . . . , N

se calcula la siguiente matriz de varianzas y covarianzas estimada:


P
2 SCR Y 0 Y − β̂ 0 X 0 Y Pi2 − β̂X 0 Y 18273,5678
σ̂ = = = = = 1522, 79
N −K N −K N −K 12

· ¸−1
14 26753
Vb (β̂M CO ) = 1522, 79 × =
26753 55462515
· ¸
1390,21 −0,670583
=
3,50920e − 04

4.2. Distribución del estimador de MCO bajo Normalidad

Si Y = Xβ + u, donde u|X ∼ N (0, σ 2 IN ), el estimador MCO, dado que es lineal en las perturba-
ciones, también seguirá una distribución Normal Multivariante, con vector de medias E(β̂|X) = β
y matriz de varianzas y covarianzas V (β̂) = σ 2 (X 0 X)−1 . Es decir,

β̂M CO |X ∼ N (β, σ 2 (X 0 X)−1 )

Para el k-ésimo coeficiente,


β̂k |X ∼ N (βk , σ 2 akk )

61
Econometrı́a

donde akk es el elemento (k, k) de la matriz (X 0 X)−1 .

Luego para los coeficientes β2 y β1

β̂2 |X ∼ N (β2 , σ 2 a22 )

donde a22 es el elemento (2, 2) de la matriz (X 0 X)−1 .

β̂1 |X ∼ N (β1 , σ 2 a11 )


donde a11 es el elemento (1, 1) de la matriz (X 0 X)−1 .

4.3. Estimación por intervalo

Para el k-ésimo coeficiente,


β̂k |X ∼ N (βk , σ 2 akk )
Una vez estimada la varianza de la perturbación con el estimador insesgado σ̂ 2 se puede demostrar
que:

β̂k − βk
√ ∼t(N −K)
σ̂ akk

donde t(N −K) denota la distribución t-Student con (N − K) grados de libertad, y σ̂ akk es la des-
√ d β̂k ).
viación estimada del coeficiente estimado. (Notación σ̂ akk = σ̂β̂k = desv(

El intervalo de confianza asociado es:

h i
P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α

Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para un coeficiente
cualquiera βk k = 1, 2 como:
³ ´
IC(βk )1−α = β̂k ± t α2 (N −K) σ̂β̂k

Este es un estimador por intervalo porque en los extremos inferior y superior del intervalo aparecen
β̂k y σ̂β̂k , que son estimadores. Este intervalo es aleatorio, porque para cada muestra se obtiene un
valor numérico distinto de β̂k y σ̂β̂k . Cuando usamos una muestra para obtener las estimaciones,
tendremos [un número ≤ βk ≤ otro número] y se denomina estimación por intervalo de βk ó inter-
valo de confianza (1 − α) para βk . Un intervalo de confianza nos dice que, con probabilidad (1 − α)
se estima que el parámetro βk estará dentro de ese rango de valores.
Las propiedades de la variable aleatoria IC(βk ) se basan en la noción del muestreo repetido: si
obtuviéramos infinitas muestras de tamaño N de una misma población, y para cada una de ellas

62
Econometrı́a

construyésemos el intervalo, entonces (1−α)×100 % de todos los intervalos construidos contendrı́an


el verdadero valor (desconocido) de βk .
¿Para qué sirven las estimaciones por intervalo? La respuesta es que nos dan una información
muy valiosa sobre la precisión de las estimaciones por punto, esto es, nos dicen hasta qué punto
nos podemos fiar de ellas. Si un intervalo de confianza es ancho (debido a una Vb (β̂k ) grande) nos
está diciendo que no hay mucha información en la muestra sobre βk . Además, como veremos más
adelante, los intervalos sirven para realizar contraste de hipótesis.

4.4. Contraste de hipótesis. Estadı́stico t

Un problema fundamental de la Econometrı́a es aportar un conocimiento descriptivo de una eco-


nomı́a real, los economistas desarrollan teorı́as sobre el comportamiento económico y las evalúan.
Los contrastes de hipótesis son los procedimientos que se usan para evaluar estas teorı́as. Para ello
vamos a utilizar el modelo Y = Xβ + u donde consideramos que se cumplen las hipótesis básicas y
además la perturbación es normal. La normalidad no es necesaria para estimar por MCO ni para
determinar las propiedades del estimador pero si lo es para realizar inferencia dado que al ser β̂M CO
lineal en u tendrá su misma distribución y podremos derivar estadı́sticos de contraste basándonos
en ella.
Un contraste de hipótesis tiene tres etapas: formulación de dos hipótesis opuestas; derivación de un
estadı́stico de contraste y su distribución muestral y determinación de un criterio de decisión para
elegir una de las dos hipótesis planteadas.
Una hipótesis estadı́stica es una afirmación sobre la distribución de una o varias variables aleatorias.
En un contraste se trata de decidir cuál, entre dos hipótesis planteadas, es la que mejor se adecúa
a los datos1 . La hipótesis de interés se denomina hipótesis nula, H0 , y la supondremos cierta
mientras no haya evidencia en contra. La hipótesis frente a la que se contrasta la nula se llama
hipótesis alternativa, H1 .
Tanto las hipótesis nulas como alternativas pueden ser simples o compuestas. Las hipótesis simples
especifican un único valor para el parámetro poblacional y por tanto en ellas la distribución de
probabilidad queda perfectamente definida. En general especificaremos hipótesis nulas simples. En
la hipótesis compuesta se especifica un rango de valores para el parámetro poblacional. La hipótesis
alternativa puede ser a una cola o a dos colas. La hipótesis alternativa a una cola envuelve todos
los posibles valores del parámetro poblacional a un lado o a otro del valor especificado en la H0 .
La hipótesis alternativa a dos colas envuelve todos los valores posibles del parámetro poblacional
excepto el especificado por la H0 .
La elección entre las hipótesis se basa en un estadı́stico de contraste, que es una función de los
datos que mide la discrepancia entre estos y H0 . A continuación veremos en detalle el mecanismo
de contraste. En los contrastes sobre los coeficientes individuales se contrasta la hipótesis nula
H0 : βk = c, donde la constante c puede tomar diversos valores. Contrastamos una única restricción.
1
El establecimiento de una hipótesis sobre el parámetro desconocido θ divide su espacio paramétrico en dos partes,
una integrada por los valores que cumplan la hipótesis, le llamaremos Θ0 y otra formada por el conjunto de valores
que no la cumplen y que llamaremos Θ1 . Θ0 y Θ1 son disjuntos por definición, Θ0 ∪ Θ1 = Θ.

63
Econometrı́a

La hipótesis alternativa puede ser a una cola por ejemplo Ha : βk > 0 o a dos colas Ha : βk 6= c. Para
realizar el contraste hemos de derivar el estadı́stico de contraste y su distribución bajo la hipótesis
nula, evaluar el estadı́stico en la muestra y aplicar la regla de decisión. Para contrastar:

H0 : βk = c frente a Ha : βk 6= c

Bajo las hipótesis básicas y normalidad de las perturbaciones la distribución del estimador β̂k es la
siguiente:
β̂k |X ∼ N (βk , σ 2 akk )
Si σ 2 es conocida todo es conocido en la distribución de βk y el estadı́stico de contraste serı́a:

β̂k − c H0
∼ N (0, 1)
σβ̂k

En el resto de ejemplos consideramos el caso más habitual σ 2 desconocida, para el cual podemos
derivar el siguiente estadı́stico de contraste2 y distribución asociada cuando σ 2 es estimada con el
0 û
estimador insesgado σ̂ 2 = Nû−K :

β̂k − c H0
∼ t(N −K)
σ̂β̂k

β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α2 . En este caso contrario no se rechaza.
k

Si la alternativa es a una cola, por ejemplo:

H0 : βk = c frente a Ha : βk > c
β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α .
k

4.4.1. Contraste de significatividad individual en el MRLS

Cuando c = 0 al contraste se le denomina de significatividad individual. En este caso:

H0 : β2 = 0

Ha : β2 6= 0
2
Si σ 2 es desconocida habrı́a de ser estimada, bajo la normalidad de las perturbaciones
(N − K)σ̂ 2
ui |X ∼ N (0, σ 2 ) −→ ∼ χ2(N −K)
σ2
y derivar el correspondiente estadı́stico de contraste, que serı́a:
β̂k −c

σ akk H0 β̂k − c H0
qP ∼ t(N −K) si simplificamos √ ∼ t(N −K)
û2
i /σ
2 σ̂ akk
N −K

64
Econometrı́a

Podemos derivar el siguiente estadı́stico de contraste y distribución:

β̂2 H0
∼ t(N −K)
d
des(β̂2 )

β̂2
Si el estadı́stico calculado para la muestra es mayor que el estadı́stico en tablas, c β̂2 ) > t(N −K)| α2
des(
para un α dado, se rechaza la hipótesis nula. En este caso β2 6= 0 y la variable explicativa asociada
X es significativa para explicar el comportamiento de la variable endógena. Por tanto este contraste
sirve para decidir si la variable X debe mantenerse en el modelo y es en realidad un contraste
de especificación. Si el estadı́stico calculado para la muestra es menor que el estadı́stico en tablas,
β̂2
c < t(N −K)| α2 para un α dado, no se rechaza la hipótesis nula. En este caso β2 = 0 y la variable
des(β̂2 )
explicativa asociada X no es significativa para explicar el comportamiento de la variable endógena.

→ Continuamos con el ejemplo de la relación entre precio y superficie de vivienda. Veamos si la


superficie de la vivienda es un factor relevante para determinar su precio:
½
H0 : β2 = 0 βb2 H0
t= ∼ t(14−2)
Ha : β2 6= 0 d b
des(β2 )

El valor muestral del estadı́stico tc es:

β̂2 0, 13875
tc = = = 7, 4068
d
des(β̂2 ) 0, 0187329

El valor crı́tico del contraste para el nivel de significación del 5 % es t(14−2)0,05/2 = 2, 179. Como
resultado tenemos que 7, 4068 > 2, 179, por lo que tc pertenece a la región crı́tica y, en consecuen-
cia, rechazamos H0 a un nivel de significación del 5 %. Podemos concluir que la variable SQF T es
significativa o relevante para determinar el precio medio de la vivienda.

4.4.2. Otros contrastes sobre β2 .

Como hay evidencia estadı́stica de que β2 es distinto de cero y, por lo tanto, la variable explicativa
X es significativa, nos puede interesar saber qué valor puede tomar. Vamos a generalizar el proce-
dimiento de contraste anterior. Veamos dos ejemplos.

→ Ejemplo 1. Ante un aumento de la superficie de la vivienda de un pie cuadrado, ¿podrı́a el


precio medio de venta de la vivienda aumentar en 100 dólares? Planteamos el contraste:
½
H0 : β2 = 0, 1
Ha : β2 6= 0, 1

El estadı́stico de contraste y distribución asociada es:

βb2 − 0, 1 H0
t= ∼ t(N −K)
d βb2 )
des(

65
Econometrı́a

El valor muestral del estadı́stico calculado es:

0, 138750 − 0, 1
tc = = 2, 068
0, 0187329

El valor crı́tico es t(14−2)0,05/2 = 2, 179. Como el valor calculado cae fuera de la región crı́tica,
2, 068 < 2, 179, no rechazamos la H0 a un nivel de significación del 5 %. Por tanto, es posible un
incremento de 100 dólares en el precio medio de la vivienda ante un aumento unitario en la superficie.

→ Ejemplo 2. Ante el mismo aumento unitario en la superficie, ¿podrı́a el precio medio de venta
de la vivienda aumentar en 150 dólares? Planteamos el contraste y, al igual que en el caso anterior,
llegamos al estadı́stico de contraste:
½
H0 : β2 = 0, 15 βb2 − 0, 15 H0
t= ∼ t(N −K)
Ha : β2 6= 0, 15 d βb2 )
des(

El estadı́stico de contraste en este caso toma el valor

0, 138750 − 0, 15
tc = = −0, 6005 ⇒ | − 0, 6005| < 2, 179
0, 0187329

con 2, 179 = t(12)0,025 . Ası́, no rechazamos H0 a un nivel de significación del 5 % y también es posible
que si ∆SQF T = 1, entonces el precio medio de la vivienda aumente en 150$.
Notar que en este caso el valor muestral del estadı́stico es negativo por lo que se toma en valor
absoluto para seguir utilizando la cola derecha de la distribución t-student al tomar la regla de
decisión.

4.4.3. Utilización del intervalo de confianza para hacer contraste de hipótesis

En secciones anteriores hablamos de la estimación por intervalo y se mencionó que también podı́amos
realizar inferencia utilizando intervalos de confianza. Pues bien, el intervalo de confianza asociado
a β2 :

h i
P r β̂2 k − t α2 (N −K) σ̂β̂2 < β2 < β̂2 + t α2 (N −K) σ̂β̂2 = 1 − α

³ ´
IC(β2 )1−α : β̂2 ± t α2 (N −K) σ̂β̂2

y la regla de decisión es que si la constante c pertenece al intervalo, no rechazamos H0 con un nivel


de significación α y si no pertenece al intervalo, rechazamos H0 con un nivel de significación α.
Claramente se obtienen exactamente los mismos resultados utilizando los estadı́sticos de contraste
individuales que utilizando los intervalos de confianza.

66
Econometrı́a

4.5. Inferencia en gretl

Para mostrar cómo hacer inferencia en gretl seguimos utilizando el ejemplo: Pi = β1 +β2 SQF Ti +ui ,
con la muestra del fichero datos3-1.gdt. Los resultados de la estimación que muestra gretl son:

Modelo 1: MCO, usando las observaciones 1–14


Variable dependiente: price

Coeficiente Desv. Tı́pica Estadı́stico t valor p


const 52.3509 37.2855 1.4041 0.1857
sqft 0.138750 0.0187329 7.4068 0.0000

Media de la vble. dep. 317.4929 D.T. de la vble. dep. 88.49816


Suma de cuad. residuos 18273.57 D.T. de la regresión 39.02304
R2 0.820522 R2 corregido 0.805565
F (1, 12) 54.86051 Valor p (de F ) 8.20e–06
Log-verosimilitud −70.08421 Criterio de Akaike 144.1684
Criterio de Schwarz 145.4465 Hannan–Quinn 144.0501

→ Contraste de significatividad individual:


½
H0 : β2 = 0 βb2 H0
t= ∼ t(14−2)
Ha : β2 6= 0 d βb2 )
des(

El valor muestral del estadı́stico tc se incluye en los resultados de estimación, es la cuarta columna,
encabezada por Estadı́stico t. Es decir,

columna COEF ICIEN T E β̂2 0, 13875


tc = 7, 4068 = = =
columna DESV.T IP. d
desv(β̂2 ) 0, 0187329

El valor crı́tico del contraste para el nivel de significación del 5 % es t(14−2)0,05/2 = 2, 179. Como
resultado tenemos que 7, 4068 > 2, 179, por lo que tc pertenece a la región crı́tica y, en consecuencia,
rechazamos H0 a un nivel de significación del 5 %. Podemos concluir que la variable SQF T es sig-
nificativa o relevante para determinar el precio medio de la vivienda. En el tema siguiente, veremos
cómo la columna valor p de la tabla de resultados de Gretl informa sobre la conclusión del contraste.

Hay que tener en cuenta que la columna Estadı́stico t de los resultados de estimación de Gretl,
corresponde al valor muestral del estadı́stico para H0 : β2 = 0 exclusivamente. Por tanto, para
cualquier otra nula tenemos que calcular el valor muestral del estadı́stico de contraste o utilizar el
intervalo de confianza para realizar el contraste.

Utilización del intervalo de confianza para hacer inferencia Vamos a obtener los intervalos de
confianza para los dos coeficientes de regresión. Para ello, vamos a Análisis →Intervalos de confianza
para los coeficientes. El resultado mostrado es:

67
Econometrı́a

Variable Coeficiente Intervalo de confianza 95 %


const 52.3509 −28.8872 133.589
sqft 0.138750 0.0979349 0.179566

En esta tabla de resultados, la segunda columna ofrece las estimaciones por punto, esto es, βb1 =
52, 3509 y βb2 = 0, 138750. La tercera indica los lı́mites de los intervalos a una confianza del 95 %,
esto es:
IC(β1 )0,95 = [−28, 887 ; 133, 587]
IC(β2 )0,95 = [0, 0979349 ; 0, 179566]

Por tanto, podemos afirmar con un nivel de confianza del 95 % que, ante un aumento de la superficie
de la vivienda de un pie cuadrado, el precio medio de venta de dicha vivienda aumentará entre
97,9349 y 179,566 dólares.
Para hacer inferencia utilizando el intervalo de confianza solo tenemos que ver si el valor del paráme-
tro en la hipótesis nula cae dentro o fuera del intervalo de confianza. Si cae dentro no rechazamos
la hipótesis nula y si cae fuera rechazamos, para un nivel de significatividad α = 5 %. Por ejemplo
para el último caso:
0, 15 ∈ [0, 0979349 ; 0, 179566]
no rechazamos H0 a un nivel de significación del 5 %.
En la ventana de resultados de la estimación no aparece la varianza de la perturbación estimada,
pero se puede calcular:

- De su relación con la desviación tı́pica de los residuos; σ̂ 2 = 39, 02302 = 1522, 8.

- Dividiendo la SCR entre los grados de libertad N − 2.


SCR 18273, 6
σ̂ 2 = = = 1522, 8
N −2 14 − 2

También es posible obtener la estimación de la matriz de varianzas y covarianzas de los coe-


ficientes de regresión seleccionando en el menú del modelo Análisis →Matriz de covarianzas de los
coeficientes. El resultado para el conjunto de 14 observaciones es:
Matriz de covarianzas de los coeficientes de regresión
const sqft
1390,21 -0,670583 const
3,50920e-04 sqft

Tabla 4.1: Estimación de varianzas y covarianza de β̂1 y β̂2 .

es decir, vd ar(β̂2 ) = 3, 5092 × 10−4 y cov(


ar(β̂1 ) = 1390, 21, vd c β̂1 , β̂2 ) = −0, 670583.

Los errores tı́picos de estimación y de la regresión dependen de las unidades de medida, es decir, las
podemos reducir o agrandar cuanto queramos con sólo cambiar de escala las variables dependiente
e independiente.

68
Econometrı́a

4.6. Resumen. Presentación de los resultados

Los resultados de la estimación de un modelo se suelen presentar de forma resumida, incluyendo


tanto la recta de regresión como un conjunto de estadı́sticos útiles para evaluar los resultados. Una
forma habitual de presentar la estimación es la siguiente:

Pb = 52, 3509 + 0, 138750 F 2


c
(des) (37,285) (0,018733)
2
N = 14 R = 0, 82 σ̂ = 39, 023

Bajo cada coeficiente estimado aparece su error tı́pico de estimación. Otra opción es incluir los
estadı́sticos tc de significatividad individual o los grados de libertad. Por ejemplo,

Pb = 52, 3509 + 0, 138750 F 2


(estad. t) (1,404) (7,407)
2
Grados libertad = 12 R = 0, 82 σ̂ = 39, 023

4.7. Bibliografı́a del tema

Referencias bibliográficas básicas:


• Teórica:
[1] Stock, James H. y Mark Watson (2012). Introducción a la Econometrı́a. Pearson.
[2] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición.
• Ejercicios con gretl:
[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.

Referencias Bibliográficas Complementarias:


[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de
regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −
juridicas/analisis − de − regresion − con − greti/Coursel isting).
[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a
Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación on-
line de la Facultad de C.C. Económicas y Empresariales.
[3] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a.
Editorial McGraw-Hill.
[4] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición.

69
Econometrı́a

[5] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.

70
Tema 5

Modelo de Regresión Lineal General

En este tema nos ocuparemos de generalizar el Modelo de Regresión Lineal Simple para analizar
las relaciones entre un conjunto de variables. Nuestro objetivo fundamental será explicar el com-
portamiento de una variable, que llamamos variable a explicar, mediante un conjunto de variables
económicas, que llamamos explicativas. Especificaremos el Modelo de Regresión Lineal General,
poniendo especial cuidado en el tratamiento de las variables explicativas cualitativas.
A continuación estimaremos el modelo por Mı́nimos Cuadrados Ordinarios, MCO, que bajo ciertas
hipótesis de comportamiento sobre los distintos elementos del modelo nos proporciona estimadores
con buenas propiedades, lineales, insesgados y de mı́nima varianza. Una vez estimado el modelo
veremos como realizar contraste de restricciones lineales que recojan hipótesis relevantes desde el
punto de vista económico dentro del Modelo de Regresión Lineal General. Aprenderemos a contrastar
no sólo si las variables son relevantes individualmente sino si también lo son conjuntamente para
explicar el comportamiento de la variable objetivo y a hacer contraste de combinaciones lineales,
entre otros contrastes de interés.
Finalmente veremos que consecuencias tiene en las propiedades de los estimadores y en la inferencia
la omisión de variables relevantes y la inclusión de variables irrelevantes. También analizaremos
que problemas nos crea la existencia de combinaciones lineales exactas y/o aproximadas entre las
variables a incluir como explicativas en el modelo. Una vez el modelo esté correctamente especificado
para realizar inferencia podremos utilizarlo para predecir.
Para finalizar el tema veremos como realizar análisis de regresión y contraste de hipótesis mediante
el software gretl.
Competencias a trabajar en estas sesiones:

C1. Analizar de forma crı́tica los elementos básicos del modelo de regresión lineal con el objetivo de
comprender la lógica de la modelización econométrica y poder especificar relaciones causales
entre las variables.

C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.

71
Econometrı́a

C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.
C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.

Al final de este tema deberı́ais ser capaces de:

1. Explicar y entender el alcance de las hipótesis básicas sobre el comportamiento del modelo de
regresión lineal general (C1).
2. Interpretar los coeficientes del modelo de regresión, incluyendo los de especificaciones no li-
neales en las variables (C1).
3. Saber especificar correctamente modelos que incluyan variables cualitativas (C1).
4. Aplicar el estimador de Mı́nimos Cuadrados Ordinarios, MCO (C2).
5. Interpretar los coeficientes estimados del modelo de regresión (C2).
6. Distinguir entre la perturbación y el residuo u error de estimación. Conocer las distribuciones
respectivas (C2).
7. Conocer y saber demostrar las propiedades del estimador de MCO. Derivar la distribución del
estimador de MCO (C2 y C3).
8. Saber contrastar la significatividad individual de las variables explicativas (C2 y C3).
9. Saber contrastar la significatividad conjunta de las variables explicativas (C2 y C3).
10. Saber contrastar restricciones lineales de parámetros (C2 y C3).
11. Saber contrastar restricciones múltiples (C2 y C3).
12. Predecir por punto y por intervalo el valor de la variable endógena dados los valores de las
variables exógenas en el periodo de predicción (C2 y C3).
13. Organizar y sistematizar información estadı́stica relevante (C4).
14. Utilizar un software econométrico (Gretl) para realizar contraste de hı́pótesis relevantes para
la relación económica de las variables e interpretar sus resultados (C2 , C3 y C4).

Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:

• Stock and Watson, J. M. (2012). Cap. 6, 7 y 8.


• Wooldridge, J.M. (2006). Caps. 2, 3, 4, 6 y 7.

72
Econometrı́a

5.1. Especificación del Modelo de Regresión Lineal General (MRLG):


supuestos básicos

En Economı́a, en muchas situaciones, varias variables independientes influyen conjuntamente en


una variable dependiente. El modelo de regresión múltiple permite averiguar el efecto simultáneo
de varias variables independientes en una variable dependiente. Por ejemplo:

• El precio de un piso es función, entre otras caracterı́sticas, de su superficie, número de habi-


taciones y baños, localización y la existencia o no de ascensor.

• La cantidad vendida de un bien depende de su precio, del precio de la competencia y del ciclo
económico entre otras variables.

• La producción de una empresa depende de los factores de producción, capital y fuerza de


trabajo.

• El salario es una función del nivel de estudios, la experiencia, la edad y el puesto de trabajo.

La especificación de un modelo consiste en seleccionar las variables independientes que explican a la


variable objeto de estudio y determinar la forma funcional del mismo. Vamos a comenzar el análisis
de regresión determinando nuestro objetivo y los recursos disponibles para lograrlo.

Objetivo: Cuantificar la relación existente entre una variable dependiente a la que denotaremos
por Y , y un conjunto de K variables independientes, X1 , X2 , . . . , XK mediante la especificación de
un modelo lineal.

Recursos disponibles: Se dispone de una muestra de observaciones de las variables Y, X1 , X2 , . . . , XK


de tamaño N , que es el número de observaciones disponibles sobre todas las variables. Se denota:

Yi = observación i-ésima de Y
Xki = observación i-ésima de Xk ∀k = 1, . . . , K

donde Xki es una observación de las disponibles en la muestra i = 1, 2, . . . , N .

Modelo de Regresión lineal General (MRLG). Modelización El Modelo de Regresión Lineal


General se escribe:

Yi = β1 X1i + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N

donde habitualmente X1i = 1 ∀i, de forma que β1 es un término independiente y entonces,

Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N.

73
Econometrı́a

Elementos del MRLG

• Y es la variable a explicar, variable dependiente o endógena.


• Xk k = 1, . . . , K son las K variables explicativas, variables independientes o exógenas.
• βk k = 1, . . . , K son los coeficientes de la regresión o parámetros (desconocidos).
• u es la perturbación aleatoria o término de error.
• el subı́ndice i denota la observación correspondiente. El subı́ndice i se utiliza cuando tene-
mos observaciones de sección cruzada y el subı́ndice t cuando tenemos observaciones de serie
temporal.
• N es el tamaño muestral, el número de observaciones disponibles de las variables objeto de
estudio. Cuando trabajamos con datos de serie temporal el tamaño muestral se denota por T .

La perturbación aleatoria ui es una variable aleatoria no observable que pretende recoger:

• Variables no incluidas en el modelo.


• Comportamiento aleatorio de los agentes económicos.
• Errores de medida.

Representación del MRLG en forma matricial El modelo


Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N (5.1)

puede escribirse para todas las observaciones disponibles como el siguiente sistema de N ecuaciones:


 Y1 = β1 + β2 X21 + β3 X31 + . . . + βK XK1 + u1 i=1



 Y2 = β1 + β2 X22 + β3 X32 + . . . + βK XK2 + u2 i=2

 .. ..

. .

 Yi = β1 + β2 X2i + β3 X3i + . . . + βK XKi + ui i=i

 .. ..



 . .

YN = β1 + β2 X2N + β3 X3N + . . . + βK XKN + uN i=N

o bien en forma matricial como


Y = X β + u
(N × 1) (N × K) (K × 1) (N × 1)

donde
     
Y1 1 X21 X31 ··· XK1   u1
 Y2   1 X22 X32 ··· XK2  β1  u2 
     β2   
 ..   .. .. .. ..     .. 
 .   . . . .   β3   . 
Y =


 X =


 β =  u =



(N × 1)  Yi  (N × K)  1 X2i X3i ··· XKi  (K × 1)  ..  (N × 1)  ui 
 ..   .. .. .. ..   .   .. 
 .   . . . .   . 
βK
YN 1 X2N X3N ··· XKN uN

74
Econometrı́a

5.1.1. Hipótesis básicas.

1. Hipótesis sobre la perturbación aleatoria

• La media de la perturbación condicionada en X es cero, para todo i, E(ui |Xi ) = 0 ∀i.


Para la perturbación en i lo escribimos como E(ui |Xi ) = 0 ∀i, cuando miramos al
modelo en forma matricial escribimos esta hipótesis como E(u|X) = ~0.
• V (ui ) = E(u2i |Xi ) = σu2 = σ 2 ∀i es decir la varianza de la perturbación condicionada
en X es desconocida e igual a σ 2 para todas las observaciones. Estamos suponiendo igual
dispersión o variabilidad. A esta hipótesis se le conoce con el nombre de Homocedasticidad.
Hay que notar que generalmente σ 2 será desconocida y por tanto en el modelo tendremos
que estimar (K + 1) incógnitas, los k-coeficientes poblacionales desconocidos más la
varianza poblacional de la perturbación σ 2 .
• Cov(ui , uj ) = E(ui uj |X) = 0 ∀i, j i 6= j. La covarianza entre perturbaciones de dis-
tintas observaciones es cero. A esta hipótesis también se la llama hipótesis de No Auto-
correlación.
Uniendo la hipótesis de homocedasticidad y la hipótesis de no autocorrelación podemos
describir la matriz de varianzas y covarianzas de la perturbación.

E(uu0 |X) = σ 2 IN

   
σ2 0 0 . . . 0 1 0 0 ... 0
 0 σ2 0 . . . 0   0 1 0 ... 0 
  2 
E(uu0 |X) =  .. .. .. . . .  = σ  2
.. .. .. . . ..  = σ IN
 . . . . ..   . . . . . 
0 0 0 . . . σ2 0 0 0 ... 1

A la hipótesis que reconoce que las varianzas de la perturbación no son constantes en


el tiempo o las observaciones se le conoce como hipótesis de Heterocedasticidad. A la
hipótesis que reconoce que las covarianzas entre perturbaciones de distinto momento del
tiempo, o entre distintas observaciones, son distintas de cero se le conoce con el nombre
de Autocorrelación.
• La distribución de las perturbaciones condicionada en X es normal:

u|X ∼ N ID(0N , σ 2 IN )

donde estamos escribiendo la distribución del vector de perturbaciones u y decimos que


las perturbaciones siguen una distribución normal, idéntica e independientemente dis-
tribuidas, de media cero y varianza constante igual a σ 2 . Son independientes dado que
su covarianza es cero y dado que todas tienen igual varianza y covarianza su distribu-
ción es idéntica, por ello para una perturbación en i escribimos su distribución como
ui |Xi ∼ N (0, σ 2 ).

75
Econometrı́a

Estas propiedades pueden también escribirse conjuntamente como

ui |X ∼ N ID(0, σu2 ) ∀i = 1, . . . , N

ó en forma matricial,

u|X ∼ N ( 0N , σu2 IN )
(N × 1) (N × 1) (N × N )

2. Hipótesis sobre las variables exógenas X.

• Condicionamos el análisis a unos valores dados de X. Este proceder es similar a considerar


las variables como no aleatorias o regresores fijos.
• La matriz X es de rango completo e igual a K con K < N , rg(X) = K, es decir no
hay ninguna combinación lineal exacta entre las columnas de X, son todas linealmente
independientes con lo que el rango de la matriz es igual al número de coeficientes desco-
nocido ya que en X tenemos una columna por parámetro. A esta hipótesis se le conoce
con el nombre de No Multicolinealidad. El que además exijamos que K < N es porque
necesitamos tener más observaciones que coeficientes a estimar en el modelo.

3. Hipótesis sobre la forma funcional.

• Linealidad en los coeficientes.


• Modelo correctamente especificado. Todas las variables X1 , X2 , . . . , XK explican Y y no
hay ninguna otra de fuera del modelo que explique a Y .

4. Los coeficientes permanecen constantes a lo largo de toda la muestra.

5.2. Función de Regresión Poblacional. Interpretación de los coeficien-


tes.

Dados los supuestos básicos del MRLG,

E(Yi |X) = E(β1 + β2 X2i + . . . + βK XKi + ui |X)


= β1 + β2 X2i + . . . + βK XKi + E(ui |X) =
| {z }
=0
= β1 + β2 X2i + . . . + βK XKi .

A E(Yi ) se la denomina Función de Regresión Poblacional (FRP) y sus coeficientes, pueden


interpretarse como:

76
Econometrı́a

• β1 = E(Yi |X2i = . . . = XKi = 0). Valor medio o esperado de Yi cuando las variables explica-
tivas son todas cero.

∂E(Yi ) ∆E(Y )
• βk = = ∆X i ∀k = 2, . . . , K. Incremento (o decremento) en el valor esperado de
∂Xki ki
Yi cuando la variable explicativa Xk se incrementa en una unidad, manteniéndose constantes el
resto de las variables. Un aumento unitario en la variable explicativa Xk conlleva un aumento
medio de βk unidades en la variable endógena, ceteris paribus.

Ejemplo 5.1

Estamos interesados en explicar el precio de una vivienda, en miles de dólares (PRICE),


mediante las variables explicativas: el tamaño de la casa o el número de pies cuadrados
del área habitable (SQFT), el número de habitaciones (BEDRMS) y el número de baños
(BATHS). Formulamos el modelo de regresión lineal múltiple:

P RICEi = β1 + β2 SQF Ti + β3 BEDRM Si + β4 BAT HSi + ui i = 1, 2, . . . , N (5.2)

Interpretación de los coeficientes:

• El coeficiente β1 = E(P RICEi |SQF Ti = BEDRM Si = BAT HSi = 0) es el valor


medio esperado de aquellas viviendas que no tienen ningún pie cuadrado de área
habitable, ni habitaciones ni baños.
• El coeficiente β2 = ∂E(P RICEi )
∂SQF Ti , mide el incremento en el valor esperado del precio de
una vivienda cuando su superficie se incrementa en un pie cuadrado, manteniéndose
el resto de variables constante. Luego, considerando dos casas con el mismo número
de habitaciones y de baños, para aquella casa que tenga un pie cuadrado más de
área habitable se espera que cambie en media su precio de venta en β2 miles de
dólares.
• El coeficiente β3 = ∂E(P RICEi )
∂BEDRM Si , mide el incremento en el valor esperado del precio
de una vivienda cuando el número de habitaciones de la misma se incrementa en
una unidad, manteniéndose el resto de variables constante. Considerando dos casas
con el mismo número de pies cuadrados de área habitable y número de baños, para
aquella casa que tenga una habitación más se espera que cambie en media su precio
de venta en β3 miles de dólares.
• El coeficiente β4 = ∂E(P RICEi )
∂BAT HSi , mide el incremento en el valor esperado del precio
de una vivienda cuando el número de habitaciones de la misma se incrementa en
una unidad, manteniéndose el resto de variables constante. Considerando dos casas
con el mismo número de pies cuadrados de área habitable y número de habitaciones,
para aquella casa que tenga un baño más se espera que cambie en media su precio
de venta en β4 miles de dólares.

77
Econometrı́a

Ejemplo 5.2

El objetivo de este ejemplo es proponer un modelo económico para una cadena de comida
rápida de USA. El gerente de dicha cadena ha de tomar decisiones sobre su polı́tica
de precios y el gasto en publicidad. Para valorar el efecto en sus ventas de diferentes
estructuras de precios y diferentes niveles de gasto en publicidad la cadena fija precios y
gasto en publicidad diferentes en las distintas ciudades en que está implantada. Uno de
sus objetivos es analizar cómo cambian sus ingresos por ventas cuando cambia el nivel
de gasto en publicidad. ¿Un incremento en los gastos en publicidad se traduce en un
incremento en ventas? Si esto ocurre ası́, ¿el incremento en las ventas es suficiente para
justificar el incremento en el gasto en publicidad? Su otro objetivo fundamental es fijar
una adecuada polı́tica o estrategia de precios, ¿una reducción en el precio lleva a un
incremento o decrecimiento de los ingresos por ventas? Si la reducción en precios lleva
solo a un pequeño incremento en la cantidad vendida, los ingresos por ventas caeran
(demanda ineslástica en precio) pero si una reducción en el precio conlleva un gran
incremento en la cantidad vendida, los ingresos por ventas creceran (demanda elástica
en precio).
Para proponer un modelo económico que describa el comportamiento de las ventas de
la cadena vamos a empezar suponiendo que las ventas se relacionan linealmente con el
precio del producto y el gasto en publicidad. La ecuación que recoge al modelo económico
es:

S = β1 + β2 P + β3 A (5.3)

Donde S son las ventas mensuales en una de las ciudades en que está implantada la
cadena, P es el precio del producto en dicha ciudad y A el gasto mensual en publicidad
en la ciudad referida. Se analiza el comportamiento de ciudades con poblaciones com-
parables ya que obviamente las ventas en grandes ciudades son mayores que las ventas
en ciudades pequeñas.
Por otro lado hemos de reflexionar sobre cómo medir la variable P . Un local de comida
rápida ofrece un buen número de productos alternativos: hamburguesas, pizzas, pollo
rebozado, aritos, shakes, etc cada uno con su propio precio y no está claro cual es el
precio de referencia a elegir. Lo más adecuado es tomar un precio medio de todos los
productos. Necesitamos datos sobre ese precio medio y cómo cambia de ciudad en ciudad.
Para ello el gerente construye un ı́ndice de precios de todos los productos vendidos en el
mes, medido en dólares, para cada ciudad donde la cadena está implantada, la variable
P . Las ventas mensuales y el gasto mensual en publicidad en la ciudad se miden en miles
de dólares.
Se dispone de las observaciones de dichas variables en un mes concreto para un conjunto
de 75 ciudades. Si añadimos el término de perturbación obtenemos el siguiente modelo
econométrico:

Si = β1 + β2 Pi + β3 Ai + ui i = 1, . . . , 75 (5.4)

β1 , β2 y β3 son los parámetros desconocidos cuyo valor queremos estimar.

78
Econometrı́a

• El coeficiente β1 es el valor esperado de las ventas cuando el precio y el gasto en


publicidad es cero β1 = E(Si |Pi = Ai = 0).
• El coeficiente β2 = ∂E(Si)
∂Pi , mide el cambio esperado en las ventas cuando el pre-
cio medio cambia en una unidad permaneciendo el gasto en publicidad constante.
Luego, considerando dos ciudades con el mismo gasto en publicidad, para aquella
ciudad que tenga un precio medio una unidad más caro se espera que sus ventas
cambien en media en β2 miles de dólares.
• El coeficiente β3 = ∂E(Si)
∂Ai , mide el cambio esperado en las ventas cuando el gasto
en publicidad cambia en una unidad permaneciendo el precio medio constante.
Luego, considerando dos ciudades con el mismo precio medio, para aquella ciudad
que tenga un un gasto en publicidad una unidad más alto se espera que cambie en
media sus ventas en β3 miles de dólares.

Ejemplo 5.3

Se especifica la siguiente función de salarios en el año 2002:

Wi = β1 + β2 S2i + ui i = 1, 2, . . . N

donde Wi es el salario anual del individuo i y S2i es una variable ficticia que se define:
½
1 si el individuo i es mujer
S2i =
0 en caso contrario

La interpretación de los coeficientes de regresión del modelo es la siguiente:

• β1 = E(Wi |S2i = 0) luego es el salario esperado cuando el individuo es hombre.


Esperarı́amos signo positivo.
• E(Wi |S2i = 1) = β1 + β2 es el salario esperado de una mujer. Luego β2 es el
incremento o decremento en el salario esperado para un individuo por el hecho de ser
mujer. Por tanto β2 recoge el efecto diferencial en el salario esperado entre hombres
y mujeres. Si es cierto que existe discriminación salarial por sexo esperarı́amos que
tuviera signo negativo. De la misma forma si no existiera discriminación salarial
por sexo, es decir si hombres y mujeres tuvieran el mismo salario, su valor serı́a
cero.

Ejemplo 5.4

Se especifica la siguiente función de salarios en el año 2002:

Wi = β1 + β2 S2i + β3 Xi + ui i = 1, 2, . . . N

donde Wi es el salario anual del individuo i, Xi son los años de experiencia del individuo
i y S2i es una variable ficticia que se define:

79
Econometrı́a

½
1 si el individuo i es mujer
S2i =
0 en caso contrario

La interpretación de los coeficientes de regresión del modelo es la siguiente:

• β1 = E(Wi |S2i = Xi = 0) luego es el salario esperado cuando el individuo es


hombre y no tiene experiencia. Esperarı́amos signo positivo.
• E(Wi |S2i = 1, Xi = 0) = β1 +β2 luego β2 es el incremento o decremento en el salario
esperado para un individuo cuando no tiene experiencia por el hecho de ser mujer.
Por tanto β2 recoge el efecto diferencial en el salario esperado entre hombres y
mujeres con igual experiencia laboral. Si es cierto que existe discriminación salarial
por sexo esperarı́amos que tuviera signo negativo. De la misma forma, si no existiera
discriminación salarial por sexo su valor serı́a cero.
• β3 = ∂E(W
∂Xi
i)
es el incremento en el salario esperado del individuo i cuando la
experiencia se incrementa en un año. Es independiente del sexo del individuo i
luego es el mismo para hombres y mujeres. Esperarı́amos signo positivo, a mayor
experiencia mayor remuneración.

Ejemplo 5.5

Se especifica la siguiente función de ventas de una empresa para el perı́odo de Enero de


1978 a Diciembre de 2002:

Vt = β1 + β2 D2t + β3 D3t + β4 D4t + ut t = 1, 2, . . . T

donde Vt son las ventas de la empresa en el momento t y las variables Djt son variables
ficticias que se definen:
½
1 si la observación t pertenece al trimestre j j = 2, 3, 4
Djt =
0 en caso contrario

La interpretación de los coeficientes de regresión del modelo es la siguiente:

• E(Vt |D2t = D3t = D4t = 0) = β1 es el valor esperado de las ventas en el primer


trimestre.
• E(Vt |D2t = 1; D3t = D4t = 0) = β1 + β2 es el valor esperado de las ventas en
el segundo trimestre. Luego β2 es el diferencial entre las ventas esperadas en el
segundo trimestre y el primer trimestre.
• E(Vt |D3t = 1; D2t = D4t = 0) = β1 + β3 es el valor esperado de las ventas en el
tercer trimestre. Luego β3 es el diferencial entre las ventas esperadas en el tercer
trimestre y el primer trimestre.
• E(Vt |D2t = D3t = 0; D4t = 1) = β1 + β4 es el valor esperado de las ventas en el
segundo trimestre. Luego β4 es el diferencial entre las ventas esperadas en el cuarto
trimestre y el primer trimestre.

80
Econometrı́a

Algunas consideraciones sobre la linealidad en parámetros Hay dos tipos de linealidad, linealidad
en variables y linealidad en parámetros. Nosotros estamos interesados en la linealidad en parámetros.
Existen relaciones que aunque en principio no son lineales pueden transformarse en lineales y por
tanto son perfectamente estimables en nuestros términos. Un ejemplo especı́fico de un modelo no
lineal linealizable es la función Cobb-Douglas de la teorı́a de producción. La función de producción
Cobb-Douglas, en su forma estocástica, se expresa como:

Qt = A Lβt 2 Ktβ3 eut

De la ecuación anterior se deduce que la relación entre la producción y los factores capital y trabajo
es claramente no lineal. Sin embargo, podemos transformar el modelo tomando logaritmos y obtener
la siguiente relación lineal en los parámetros β1 , β2 y β3 :

Qt = ALβt 2 Ktβ3 eut −→ LnQt = β1 + β2 LnLt + β3 LnKt + ut (5.5)

siendo β1 = LnA. Una ventaja de este tipo de modelos como el recogido en la ecuación (5.5), en los
que todas las variables están medidas en logaritmos, es que los parámetros de pendiente además
de recibir la interpretación habitual pueden interpretarse en términos de elasticidades:

∂E(LnQt ) ∂E(Qt ) Lt
β2 = =
∂LnLt ∂Lt Qt

∂E(LnQt ) ∂E(Qt ) Kt
β3 = =
∂LnKt ∂Kt Qt
Es decir βk k = 2, 3, miden el cambio porcentual o elasticidad (parcial) generado en la variable
endógena como consecuencia de un cambio porcentual (un 1 %) en la variable exógena correspon-
diente, ceteris paribus. En el ejemplo anterior β2 y β3 representan las elasticidades de la función de
producción con respecto a los factores de producción trabajo y capital respectivamente.
Por otro lado la suma (β2 +β3 ) da información sobre los rendimientos a escala , es decir, la respuesta
de la producción a un cambio proporcional en los factores de producción. Si la suma es 1 existen
rendimientos constantes a escala, al duplicar los factores de producción se duplica la producción.
Si la suma es menor que 1 existen rendimientos decrecientes a escala, al duplicar los factores de
producción ésta crece menos del doble. Si la suma es mayor que 1 existen rendimientos crecientes a
escala, al duplicar los factores de producción ésta crece más del doble.

5.2.1. Forma funcional

La elección de la forma funcional que recoge la relación existente entre la variable dependiente y las
variables explicativas es un aspecto de la especificación de un modelo muy importante en el análisis
económico. De hecho, la teorı́a económica no siempre propone relaciones lineales entre variables de
interés. Es el caso, por ejemplo, de la función de consumo de un bien que aumenta con la renta
pero no de forma indefinida ni a ritmo constante sino, en general, a una tasa decreciente, o de las
funciones de costes marginales que suelen tener forma de U, veáse la Figura 5.1.

81
Econometrı́a

Consumo Costes

Figura 5.1: Relaciones económicas no lineales

Es necesario hacer enfásis en el hecho de que el supuesto de linealidad del modelo de regresión no
implica una relación lineal entre las variables sino un modelo en el que los parámetros entran de
forma lineal. Por “lineal en los parámetros” se entiende que los parámetros no se multiplican entre
sı́, no están elevados a potencias, etc. Sin embargo tanto regresando como regresores, sı́ se pueden
transformar para obtener al final un modelo de regresión lineal que satisfaga los supuestos clásicos.
Este hecho hace que el modelo de regresión lineal sea bastante flexible y se pueda utilizar para
modelar relaciones entre variables económicas no lineales. Ası́, tanto la función de consumo como
la función de costes marginales de la Figura 5.1 se pueden modelizar utilizando formas funcionales
sencillas no lineales en las variables. En el caso de la función de consumo, el supuesto de rendimientos
decrecientes se puede representar mediante modelos logarı́tmicos o semilogarı́tmicos del tipo:

ln C = α + β ln R + u (5.6)
C = α + β ln R + u (5.7)

y las funciones de costes totales se pueden representar mediantes funciones polinómicas:

CM = β1 + β2 Q + β3 Q2 + u (5.8)

Los modelos (5.6), (5.7) y (5.8) cumplen el supuesto de linealidad porque son lineales en los paráme-
tros y se pueden analizar dentro del marco del MRLG. Ahora bien, como no son modelos lineales en
las variables, el efecto marginal del regresor sobre la variable dependiente no va a ser constante. Por
ejemplo, en el modelo (5.8), el efecto marginal de un incremento unitario de la producción sobre los
costes marginales viene dado por:

∂E(CT )
= β2 + 2 β3 Q
∂Q

Este resultado implica que la pendiente de la función de costes marginales no es constante sino que
es una función lineal de Q que involucra a los parámetros β2 y β3 .
Otra forma de modelar relaciones no lineales entre las variables explicativas y el regresando es incluir
términos de interacción, es decir, el producto de varios regresores del modelo. Consideremos, por
ejemplo, el siguiente modelo:

Y = β1 + β2 X2 + β3 X3 + β4 (X2 × X3 ) + u

82
Econometrı́a

Este modelo es lineal en los parámetros, por lo que cumple el supuesto de linealidad. El efecto
marginal de X2 sobre Y es:
∂E(Y )
= β2 + β4 X3
∂X2
de forma que el incremento esperado en Y ante un incremento unitario en X2 no es constante sino
que depende del valor de X3 .
Los modelos que no cumplen el supuesto de linealidad se pueden clasificar en dos grupos. En el
primer grupo se encuentran los modelos que no son lineales en los parámetros pero que se pueden
linealizar mediante alguna transformación. En este grupo entra por ejemplo la función de producción
Cobb-Douglas que no es lineal ni en las variables ni en los parámetros, pero tomando logaritmos se
obtiene una función que no es lineal en las variables pero sı́ es lineal en los parámetros. El segundo
grupo lo forman los modelos que no son lineales en los parámetros y que no se pueden linealizar
mediante ninguna transformación, por ejemplo,

Y = β1 + X1β2 β3 + X2β2 + u

Este tipo de modelos se estima por mı́nimos cuadrados no lineales.

5.3. Utilización de variables explicativas cualitativas

A lo largo del curso se han especificado mayoritariamente modelos con variables de naturaleza
cuantitativa, es decir, aquéllas que toman valores numéricos. Sin embargo, las variables también
pueden ser cualitativas, es decir, pueden tomar valores no numéricos como categorı́as, clases o
atributos. Por ejemplo, son variables cualitativas el género de las personas, el estado civil, la raza,
el pertenecer a diferentes zonas geográficas, momentos históricos, estaciones del año, etc. De esta
forma, el salario de los trabajadores puede depender del género de los mismos; la tasa de criminalidad
puede venir determinada por la zona geográfica de residencia de los individuos; el PIB de los paı́ses
puede estar influenciado por determinados acontecimientos históricos como las guerras; las ventas
de un determinado producto pueden ser significativamente distintas en función de la época del año,
etc. En esta sección, aunque seguimos manteniendo que la variable dependiente es cuantitativa,
vamos a considerar que ésta puede venir explicada por variables cualitativas y/o cuantitativas y
veremos como trabajar con ellas incluyéndolas como regresores en el MRLG.

Dado que las categorı́as de las variables no son directamente cuantificables, las vamos a cuantificar
construyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son numéricas.
Estas variables toman arbitrariamente el valor 1 si la categorı́a está presente en el individuo y 0 en
caso contrario1 .

½
1 si la categorı́a está presente
Di =
0 en caso contrario
1
Las variables ficticias pueden tomar dos valores cualesquiera, sin embargo, la interpretación de los coeficientes es
más sencilla si se consideran los valores 0 y 1.

83
Econometrı́a

Por ejemplo si queremos estudiar la dependencia del salario (Wi ) con respecto al sexo del individuo
definiremos dos variables ficticias:

½
1 si el individuo i es hombre
S1i =
0 en caso contrario

½
1 si el individuo i es mujer
S2i =
0 en caso contrario

la variable sexo tiene dos categorı́as o estados de la naturaleza: hombre y mujer, para recogerlos
utilizamos dos variables ficticias que dividen la muestra en dos clases hombres y mujeres, y asignamos
un valor arbitrario a cada clase.
En este tema ya hemos trabajado con ellas, el Ejemplo 5.3 especificamos la función de salario en
función del regresor cualitativo sexo e interpretamos sus parámetros. En el Ejemplo 5.4 además
se añadió un regresor cuantitativo, la experiencia y se interpretaron los parámetros. Si se retoman
dichos ejercicios se puede ver que trabajar con variables cualitativas o con variables cuantitativas a
la hora de interpretar los coeficientes de la regresión y estimarlos es indiferente sin embargo hay que
tener en cuenta algunas reglas a la hora de especificar el modelo. A conocer éstas vamos a dedicar
las secciones siguientes.

5.3.1. Modelo que recoge sólo efectos cualitativos: comparando medias.

Sólo un conjunto de variables ficticias. Supongamos que tenemos datos de salarios de hombres
y mujeres, Wi y creemos que, en media, existen diferencias salariales entre estos dos grupos. Para
contrastar que esto es cierto podemos recoger el efecto cualitativo sexo sobre el salario utilizando
las variables ficticias:

½ ½
1 si el individuo i es hombre 1 si el individuo i es mujer
S1i = S2i =
0 en caso contrario 0 en caso contrario

y podemos especificar el siguiente modelo como ya se hizo en el Ejemplo 2.5:

Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 ) (5.9)

84
Econometrı́a

Hay que notar que el modelo (5.9) da lugar a


dos ecuaciones:

Wi = β1 + ui i = 1, . . . , NH para los hombres W


Wi = β1 + β2 + ui i = 1, . . . , NM para las mujeres

β1 es el salario esperado cuando el individuo es


hombre, β1 +β2 es el salario esperado de una mu- β1
jer y β2 recoge el efecto diferencial en el salario
esperado entre hombres y mujeres. Si no exis-
β1 + β2
tiera discriminación salarial por sexo, es decir si
hombres y mujeres tuvieran el mismo salario, su
valor serı́a cero. En el gráfico podemos observar i
estos efectos donde se supone que β2 es negativo
por razones didácticas.
• Alternativa de especificación del modelo (5.9):

Wi = α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM (5.10)


de donde suponiendo ui ∼ N ID(0, σ 2 )
α1 = E(Wi |S1i = 1; S2i = 0) es el salario esperado de un hombre
α2 = E(Wi |S1i = 0; S2i = 1) es el salario esperado de una mujer
por tanto estos coeficientes recogen el salario medio dentro del grupo.

En este caso el modelo (5.10) da lugar a dos ecuaciones:


Wi = α1 + ui i = 1, . . . , NH para los hombres
Wi = α2 + ui i = 1, . . . , NM para las mujeres

La relación entre los parámetros del modelo (5.9) y los del modelo (5.10) es la siguiente:

β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1

Ejercicio 5.2

Interpreta los coeficientes de la siguiente regresión:


Wi = β1 S1i + β2 + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 )
donde Wi es el salario del individuo i y
½ ½
1 si el individuo i es hombre 1 si el individuo i es mujer
S1i = S2i =
0 en caso contrario 0 en caso contrario
¿Qué diferencia hay entre ésta especificación y la especificación del modelo (5.9)?

85
Econometrı́a

5.3.2. Dos o más conjuntos de variables ficticias

Supongamos que pensamos que en el nivel de salarios influye además del sexo el nivel de educación.
Para recoger estos efectos podemos definir dos conjuntos de variables ficticias, sexo y educación, la
primera con dos categorı́as o estados de la naturaleza y la segunda con tres, y recoger cada categorı́a
o estado de la naturaleza con un variable ficticia. Ası́, definimos:

½ ½
1 si el individuo i es hombre 1 si i tiene hasta estudios primarios
S1i = E1i =
½ 0 en caso contrario ½ 0 en caso contrario
1 si el individuo i es mujer 1 si i tiene hasta estudios secundarios
S2i = E2i =
0 en caso contrario ½ 0 en caso contrario
1 si i tiene hasta estudios universitarios
E3i =
0 en caso contrario

siendo Eij sucesos excluyentes. La especificación correspondiente es:

Wi = µ + α2 S2i + β2 E2i + β3 E3i + ui i = 1, . . . , NH + NM (5.11)

donde hemos excluido una categorı́a de cada factor cualitativo. Podemos obtener el salario esperado
de los diferentes individuos de la muestra:
E(Wi /S2i = E2i = E3i = 0) = µ, salario esperado de un hombre con estudios primarios.
E(Wi /E2i = 1; S2i = E3i = 0) = µ + β2 , salario esperado de un hombre con estudios secundarios.
E(Wi /E3i = 1; S2i = E2i = 0) = µ + β3 , salario esperado de un hombre con estudios universitarios.
E(Wi /S2i = 1; E2i = E3i = 0) = µ + α2 , salario esperado de una mujer con estudios primarios
E(Wi /S2i = E2i = 1; E3i = 0) = µ + α2 + β2 , salario esperado de una mujer con estudios secundarios.
E(Wi /S2i = E3i = 1; E2i = 0) = µ + α2 + β3 , salario esperado de una mujer con estudios universitarios.

Esta información podemos resumirla en la siguiente tabla:

E(Wi ) E1i E2i E3i


S1i µ µ + β2 µ + β3
S2i µ + α2 µ + α2 + β2 µ + α2 + β3

y podemos interpretar los parámetros como sigue:


µ Base de comparación.
α2 Efecto diferencial en el salario medio debido al factor sexo. Por tanto es el diferencial en
el salario medio entre hombres y mujeres independientemente de su nivel de educación.
β2 Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios.
Por tanto es el diferencial en el salario medio, para hombres y mujeres, entre tener un
nivel de estudios primarios y tener secundaria.
β3 Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios.
Por tanto es el diferencial en el salario medio, para hombres y mujeres, entre tener un
nivel de estudios primarios y tener estudios universitarios.

86
Econometrı́a

La matriz de regresores del modelo serı́a:

 
iN1 0 0 0
 iN2 0 iN2 0 
 
 iN3 0 0 iN3 
X=



 iN4 iN4 0 0 
 iN5 iN5 iN5 0 
iN6 iN6 0 iN6

donde iNj es un vector de unos de tamaño el número de individuos que cumplen las condiciones,
por ejemplo iN6 es un vector de unos de tamaño el número de mujeres con estudios universitarios.
Cuando existen dos o más conjuntos de variables ficticias lo que no debemos hacer es incluir todas
las variables ficticias y un término independiente. En el caso anterior tenemos dos conjuntos con
dos y tres estados de la naturaleza respectivamente, si proponemos la especificación:

Wi = µ∗ + α1∗ S1i + α2∗ S2i + β1∗ E1i + β2∗ E2i + β3∗ E3i + ui i = 1, . . . , NH + NM (5.12)

el determinante |X‘X| = 0, no se cumplirı́an todas las hipótesis básicas y no podrı́amos estimar


separadamente ninguno de los coeficientes. La matriz de regresores del modelo (5.12) es:

 
iN1 iN1 0 iN1 0 0
 iN2 iN2 0 0 iN2 0 
 
 iN3 iN3 0 0 0 iN3 
X=

 ⇒ rg(X) < K

 iN4 0 iN4 iN4 0 0 
 iN5 0 iN5 0 iN5 0 
iN6 0 iN6 0 0 iN6

5.3.3. Inclusión de variables cuantitativas

En cualquiera de los modelos anteriores puede incluirse una-s variable-s cuantitativas, por ejemplo
si creemos que el salario depende no solo de sexo sino también del número de horas trabajadas,
variable que denotamos como Xi propondremos:

Wi = α1 S1i + α2 S2i + βXi + ui i = 1, . . . , NH + NM (5.13)

Donde el coeficiente β se interpreta de la forma habitual, β = ∂E(W i)


∂Xi . En forma matricial el modelo
serı́a:
 
· ¸ · ¸ α1 · ¸
WH iH 0 XH  uH
= α2  + ⇒ Y = Xβ + u
WM 0 i M XM uM
β

87
Econometrı́a

La especificación alternativa correspondiente


serı́a:
W α1∗ + α2∗ + βXM
Wi = α1∗ + α2∗ S2i + βXi + ui (5.14)
α1∗ + βXH
i = 1, . . . , NH + NM
Donde el coeficiente β se interpreta de la forma α1∗ + α2∗
habitual. En forma matricial el modelo serı́a:
α1∗
 
· ¸ · ¸ α1∗ · ¸
WH iH 0 XH  α2  +
∗ uH
=
WM iM iM XM uM X
β

⇒ Y = Xβ + u

5.3.4. Comportamiento estacional

Las variables ficticias permiten recoger fácilmente comportamientos estacionales, como se hizo en
el Ejemplo 2.8. Por ejemplo, que las ventas de una empresa sean sistemáticamente superiores en
alguno de los trimestres del año y que ese comportamiento se repita sistemáticamente año tras año
es un clásico patrón de comportamiento sistemático estacional. Este comportamiento se produce en
datos de series temporales de periodo inferior al anual y puede ser estudiado fácilmente mediante
variables ficticias.
Por ejemplo para recoger el comportamiento estacional de una variable Yt muestreada trimestral-
mente podemos proponer el modelo:

Yt = β1 + β2 D2t + β3 D3t + β4 D4t + ut t = 1, 2, . . . T

donde t es el tiempo y las variables Djt son variables ficticias estacionales que se definen:
½
1 si la observación t pertenece al trimestre j j = 2, 3, 4
Djt =
0 en caso contrario

La especificación alternativa serı́a:

Yt = β1 D1t + β2 D2t + β3 D3t + β4 D4t + ut t = 1, 2, . . . T

5.3.5. Efectos de interacción

Entre factores cualitativos y cuantitativos En las ecuaciones (5.13) y (5.14) se recogen cambios
en ordenada pero no en pendiente, sin embargo podemos pensar que el número de horas trabajadas
cambia según el sexo del individuo con lo cual debemos recoger cambios en pendiente. Este efecto
podemos analizarlo asociando las variables ficticias a la variable cuantitativa. Ası́ proponemos el
siguiente modelo:

Wi = α1 S1i + α2 S2i + β1 (S1i × Xi ) + β2 (S2i × Xi ) + ui i = 1, . . . , NH + NM (5.15)

88
Econometrı́a

E(Wi /S1i = 1; S2i = 0) = α1 + β1 Xi


E(Wi /S1i = 0; S2i = 1) = α2 + β2 Xi
donde β1 y β2 recogen el incremento en el salario medio ante un aumento unitario en las horas
trabajadas, para los hombres y para las mujeres respectivamente.
α1∗ + α2∗ + (β1∗ + β2∗ )XM
Una especificación alternativa serı́a: W

Wi = α1∗ + α2∗ S2i + β1∗ Xi + β2∗ (S2i × Xi ) + ui α1∗ + β1∗ XH

i = 1, . . . , NH + NM (5.16)
α1∗ + α2∗
siendo α2∗ el incremento salarial en media por el α1∗
hecho de ser mujer y β2∗ el incremento en el sala-
rio medio de una mujer con respecto a un hom-
bre ante un aumento de una hora en el número X
de horas trabajado.

Entre factores cualitativos En el modelo (5.11) se supone que el efecto de cada factor es constante
para todos los niveles de los demás factores. Sin embargo si suponemos que el efecto diferencial del
sexo variase con el nivel de educación existirı́a un efecto interacción entre las variables ficticias sexo
y educación, que podemos recoger ası́:
Wi = µ + α2 S2i + β2 E2i + β3 E3i + γ2 (S2i × E2i ) + γ3 (S2i × E3i ) + ui i = 1, . . . , NH + NM (5.17)

donde la tabla que resume el comportamiento de la recta de regresión poblacional serı́a:

E(Wi ) E1i E2i E3i


S1i µ µ + β2 µ + β3
S2i µ + α2 µ + α2 + β2 + γ2 µ + α2 + β3 + γ3

y podemos interpretar los parámetros como sigue:


µ base de comparación.
β2 Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios,
con respecto a tener estudios primarios, para los hombres.
β3 Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios,
con respecto a tener estudios primarios, para los hombres.
α2 Efecto diferencial en el salario medio entre los hombres y las mujeres para un nivel de
educación primaria.
α2 + γ 2 Efecto diferencial en el salario medio, entre hombres y mujeres, para un nivel de educa-
ción secundaria.
α2 + γ 3 Efecto diferencial en el salario medio, entre hombres y mujeres, para un nivel de educa-
ción universitaria.
β2 + γ2 Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios,
con respecto a tener estudios primarios, para las mujeres.
β3 + γ3 Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios,
con respecto a tener estudios primarios, para las mujeres.

89
Econometrı́a

5.4. Estimación por Mı́nimos Cuadrados Ordinarios (MCO)

• Nuestro objetivo es estimar los parámetros desconocidos βk , k = 1, . . . , K de


Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N
Y = Xβ + u en forma matricial.
A los parámetros estimados los denotamos β̂k y la estimación del modelo es
Ŷt = β̂1 + β̂2 X2i + . . . + β̂K XKi i = 1, 2, . . . , N
Ŷ = X β̂ en forma matricial,

a la cual denominamos Función de Regresión Muestral (FRM).

• Estimador MCO del MRLG


Criterio:
N
X N
X
mı́n û2i = mı́n (Yi − Ŷi )2 =
β̂1 ,...,β̂K i=1 β̂1 ,...,β̂K i=1

N
X
mı́n (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi )2 (5.18)
β̂1 ,...,β̂K i=1

Las K Condiciones de Primer Orden (C.P.O.) de mı́nimo son


P
∂ N 2
i=1 ûi
= 0
∂ β̂1
P
∂ N 2
i=1 ûi
= 0
∂ β̂2
P
∂ N 2
i=1 ûi
= 0
∂ β̂3
.. ..
. .
PN 2
∂ i=1 ûi
= 0
∂ β̂K
de donde se obtienen las ecuaciones normales:
N
X
−2 (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi ) = 0
i=1
N
X
−2 (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi )X2i = 0
i=1
.. ..
. .
N
X
−2 (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi )XKi = 0
i=1

90
Econometrı́a

que pueden escribirse como:


X P P
Yi = N β̂1 + β̂2 X2i + . . . + β̂K XKi
X P P 2 P
X2i Yi = β̂1 X2i + β̂2 X2i + . . . + β̂K X2i XKi
.. ..
. .
X P P P 2
XKi Yi = β̂1 XKi + β̂2 XKi X2i + . . . + β̂K XKi
PN 2
En forma matricial, i=1 ûi = û0 û donde û es un vector N × 1 y el criterio puede escribirse
(1 × 1)

mı́n û0 û = mı́n(Y − X β̂)0 (Y − X β̂).


β̂ β̂

Las K Condiciones de Primer Orden (C.P.O.) de mı́nimo son

∂ û0 û
= 0 ⇒ −2X 0 (Y − X β̂) = 0.
∂ β̂

Despejando, obtenemos las ecuaciones normales en forma matricial:

X 0 Y = X 0 X β̂M CO . (5.19)

de donde el estimador MCO (en forma matricial) es:

β̂M CO = (X 0 X)−1 X 0 Y (5.20)

en el que X 0 X es una matriz de orden K × K, X 0 Y un vector de orden K × 1 y β̂ un vector de


orden K × 1, tales que

 P P P 
PN P X2i P X3i · · · P XKi
 X X 2 

 P 2i P 2i P 2i X
X
2
3i · · · P X2i XKi 

X 0X =  X3i X3i X2i X3i ··· X3i XKi 
(K × K)
 .. .. .. .. .. 
 . . . 
P P P . P. 2
XKi XKi X2i XKi X3i ··· XKi

 P   
β̂1
P Yi  
 

 P X2i Yi 



β̂2 

0
XY = X3i Yi  β̂ = β̂3 .
 ..   
(K × 1)   (K × 1)  .. 
P .  . 
XKi Yi β̂K

El estimador MCO cumple también las condiciones de segundo orden de mı́nimo, con lo cual es,
efectivamente, la solución al problema de minimización de la suma de los residuos al cuadrado.

91
Econometrı́a

Algunas equivalencias de notación

Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N ⇔ Y = Xβ + u

E(Yi ) = β1 + β2 X2i + . . . + βK XKi i = 1, 2, . . . , N ⇔ E(Y ) = Xβ

Ŷi = β̂1 + β̂2 X2i + . . . + β̂K XKi i = 1, 2, . . . , N ⇔ Ŷ = X β̂

Yi = β̂1 + β̂2 X2i + . . . + β̂K XKi + ûi i = 1, 2, . . . , N ⇔ Y = X β̂ + û

ûi = Yi − Ŷi i = 1, 2, . . . , N ⇔ û = Y − Ŷ

Interpretación de los coeficientes estimados por MCO

b i |Xki = 0, ∀k = 2, . . . , K). Valor esperado estimado de Yi cuando las variables


• β̂1 = E(Y
explicativas son todas cero.
di )
∂ E(Y d)
∆E(Y
• β̂k = = ∆X i ∀k = 2, . . . , K. Incremento esperado estimado (ó decremento es-
∂Xki ki
perado estimado) en Yi cuando la variable Xk se incrementa en una unidad, manteniéndose
constantes el resto de las variables explicativas.

Ejemplo 5.6

Vamos a retomar ahora el Ejemplo 5.1 donde se analizaban los determinantes del precio
de la vivienda. Se dispone de una base de datos sobre el precio de una vivienda y distin-
tas caracterı́sticas de la misma para 14 viviendas vendidas en la comunidad universitaria
de San Diego en 1980. Son datos de sección cruzada y la descripción de las variables
disponibles es2 :

PRICE = precio de venta de la vivienda en miles de dólares (Rango 199,9 - 505)


SQFT = pies cuadrados de área habitable (Rango 1065 - 3000)
BEDRMS= número de dormitorios (Rango 3 - 4)
BATHS = número de baños (Rango 1,74 - 3)

Para analizar si el tamaño, el número de habitaciones y el número de baños son factores


que explican o no el precio de la vivienda se especifica el siguiente modelo:

P RICEi = β1 + β2 SQF Ti + β3 BEDRM Si + β4 BAT HS + ui i = 1, . . . , 14 (5.21)

Para estimar el modelo se utilizan las observaciones disponibles en el fichero data4-1.gdt


y que son las siguientes3 :
2
Fuente: Ramanathan, Ramu (2002) Introductory econometrics with applications. Conjunto de datos data4-1.gdt
3
Puedes acceder a estos datos ejecutando gretl → En Archivo → Abrir datos → Archivo de muestra → Elige
Ramanathan, el fichero data4-1.gdt.

92
Econometrı́a

Obsv. P RICE SQF T BEDRM S BAT HS


1 199,9 1065 3 1,75
2 228,0 1254 3 2,00
3 235,0 1300 3 2,00
4 285,0 1577 4 2,50
5 239,0 1600 3 2,00
6 293,0 1750 4 2,00
7 285,0 1800 4 2,75
8 365,0 1870 4 2,00
9 295,0 1935 4 2,50
10 290,0 1948 4 2,00
11 385,0 2254 4 3,00
12 505,0 2600 3 2,50
13 425,0 2800 4 3,00
14 415,0 3000 4 3,00

Tabla 5.1: Datos de caracterı́sticas de viviendas. Fichero 4-1.gdt.

Las estimaciones obtenidas resultan de aplicar el criterio MCO β̂ = (X 0 X)−1 X 0 Y :


   P P P −1
β̂1 14
P P SQF Ti2 P BEDRM Si P BAT HSi
 β̂2   
  =  P SQF Ti P SQF Ti P SQF Ti BEDRM Si P SQF Ti BAT HSi  ×
 β̂3   2 
P BEDRM Si P BEDRM Si SQF Ti P BEDRM S i P BEDRM2 Si BAT HSi
β̂4 BAT HSi BAT HSi SQF Ti BAT HSi BEDRM Si BAT HSi

 P   −1    
P P RICEi 14 26753 51 33 4444, 9 129, 062
   26753 65699, 75     0, 1548 
 P SQF Ti P RICEi = 55462515 99193   9095985, 5 = 
   121, 75     −21, 5875 
P BEDRM Si P RICEi 51 99193 189 16372, 7
BAT HSi P RICEi 33 65699, 75 121, 75 80, 375 10821, 075 −12, 1928

• La función de regresión muestral obtenida es:


d i = 129, 062 + 0, 1548 SQF Ti − 21, 5875 BEDRM Si − 12, 1928 BAT HSi
P RICE

• Interpretación de los signos obtenidos:


Los signos obtenidos son los adecuados. Para la variable SQF T el signo es positivo
ya que manteniendo el resto de variables constantes lógicamente si aumenta el área
habitable aumentará el precio del piso. Si manteniendo el resto de variables constante
la superficie habitada aumenta en un pie cuadrado el precio medio estimado de una
vivienda aumentará en 154,8 dólares. También son adecuados los signos para BEDRM S
y BAT HS ya que en ambos casos se mantiene constante la superficie habitable por lo
que se aumenta el número de habitaciones (o baños) a costa de una menor superficie
de éstas, lo cual es lógico que se valore negativamente por el comprador medio. Ası́,
si se aumenta el número de habitaciones, manteniendo constante el número de baños
y la superficie de la vivienda, el precio medio se estima disminuirá en 21.588 dólares.
Manteniéndose constante la superficie habitable y el número de habitaciones el hecho
de tener un baño más redunda en habitaciones más pequeñas por lo que se estima que
el precio medio se reducirá en 12.193 dólares.

93
Econometrı́a

Mediante las estimaciones obtenidas podemos estimar el incremento medio en el precio


de la vivienda ante cambios en las variables explicativas. Por ejemplo, si mantenemos
el número de baños, tenemos una habitación más y aumenta el área habitable en 500
pies cuadrados, el cambio en el precio medio estimado de una vivienda será de 55,812
dólares:

4 Pd
RICEi = 0, 15484 SQF Ti − 21, 5884 BEDRM Si − 12, 1924 BAT HSi =

= (0, 1548 × 500) − 21, 588 × 1 − 12, 192 × 0) = 77, 4000 − 21, 588 = 55, 812

Ejemplo 5.7

Vamos a retomar ahora el Ejemplo 5.2 donde se analizaban los determinantes


de las ventas de una cadena de comida rápida. Se dispone de una base de da-
tos para 75 ciudades en las que está enclavadas una cadena de comida rápida
sobre sus ventas, precio y gasto en publicidad. Son datos de sección cruzada
y la descripción de las variables disponibles es4 :

S = Ingresos mensuales por ventas en miles de dólares (Rango 62,400 - 91,200)


P = Índice de precios de todos los productos vendidos en un mes (Rango 4,83 - 6,49)
A = Gasto en publicidad (Rango 0,5 - 3,1)
Para analizar si el precio y el gasto en publicidad son factores que explican o
no el ingreso por ventas se especifica el siguiente modelo:

Si = β1 + β2 Pi + β3 Ai + ui i = 1, . . . , 75 (5.22)

Para estimar el modelo se utilizan las observaciones disponibles en el fichero


andy.gdt y que son las siguientes5 :
Las estimaciones obtenidas resultan de aplicar el criterio MCO β̂ = (X 0 X)−1 X 0 Y :
   P P −1  P 
β̂1 75
P P Pi2 P Ai P Si
 β̂2  =   × =
P Pi P Pi P Pi2Ai P S i Pi
β̂3 Ai Pi A i Ai Si Ai

 −1    
75,0000 426,5400 138,3000 5803,1000 118, 914
 426,5400 2445,7074 787,3810   32847,6770  =  −7, 90785 
138,3000 787,3810 306,2100 10789,6000 1, 86258

• La función de regresión muestral obtenida es:

Sbi = 118, 914 − 7, 90785Pi + 1, 86258Ai

• Interpretación de los signos obtenidos:


Para la variable P el signo es negativo lo que indica que la demanda es elástica.
4
Fuente: Ramanathan, Ramu (2002) Introductory econometrics with applications. Carpeta PoE, conjunto de datos
andy.gdt
5
Puedes acceder a estos datos ejecutando gretl → En Archivo → Abrir datos → Archivo de muestra → Elige PoE,
el fichero andy.gdt.

94
Econometrı́a

Estimamos que permaneciendo el gasto en publicidad constante un incremento


de un dólar en el precio lleva a una caı́da en los ingresos mensuales de 7908$.
O lo que es lo mismo una reducción de un dólar en el precio se estima que
produce un incremento de las ventas de 7908$. En este caso una estrategia de
reducción de precios a través de ofertas especiales serı́a exitosa en incrementar
los ingresos por ventas.
Sin embargo la magnitud del cambio en precios es muy importante. Un cambio
de 1$ en el precio es relativamente un cambio grande. La media muestral del
precio es 5, 99 y su desviación tı́pica es 0, 52. Un cambio en precio de un 10 %
es más realista y en este caso el cambio estimado en los ingresos por ventas es
de 791$.
El signo del coeficiente estimado para el gasto en publicidad es positivo. Es-
timamos que manteniéndose el precio constante, un incremento en el gasto
en publicidad de 1000$ lleva a un incremento en los ingresos por ventas de
1863$. Esta información puede ser utilizada para analizar si un incremento en
el gasto en publicidad incrementa el beneficio teniendo en cuenta el coste de
producir una hamburguesa más.
El término independiente implica que cuando ambos precio y gasto en publi-
cidad es cero los ingresos por ventas son 118, 914$. Esto no es posible, a precio
cero ingresos por ventas cero. En muchos casos el término independiente no
es interpretable.

Estadı́sticos principales, usando las observaciones 1 - 75


Variable Media Mediana Mı́nimo Máximo
sales 77,3747 76,5000 62,4000 91,2000
price 5,68720 5,69000 4,83000 6,49000
advert 1,84400 1,80000 0,500000 3,10000

Variable Desv. Tı́p. C.V. Asimetrı́a Exc. de curtosis


sales 6,48854 0,0838587 −0,0106308 −0,744672
price 0,518432 0,0911577 0,0618457 −1,33284
advert 0,831677 0,451018 0,0370873 −1,29511

En el tema siguiente veremos cómo realizar contraste de hipótesis y en el Tema


4 veremos cómo hacer predicción. Sin embargo es fácil ver que para un precio
de Pi = 5, 5 y un gasto en publicidad de Ai = 1, 2 el valor predicho de las
ventas es:

Ŝi = 118, 91−7, 908Pi +1, 863Ai = 118, 91−7, 9079×5, 5+1, 863×1, 2 = 77, 656$

95
Econometrı́a

5.4.1. Propiedades de la Función de Regresión Muestral, FRM

1. Los residuos son ortogonales a las variables explicativas: X 0 û = 0 (û0 X = 0).

X 0 û = X 0 (Y − Ŷ ) = X 0 (Y − X β̂) = 0

por las ecuaciones normales.

2. Los residuos son ortogonales a las estimaciones de la variable endógena: Ŷ 0 û = 0 (û0 Ŷ = 0).

Ŷ 0 û = (X β̂)0 û = β̂ 0 |{z}
X 0 û = 0
=0

Si el modelo tiene término independiente, es decir, si X1i = 1, entonces la primera fila de X 0 û es


P
igual a ûi y tenemos que
PN
3. La suma de los residuos es cero: i=1 ûi = 0.
 P   
N
P1 ûi 0
 N   
 X û   0 
 P1N 2i i    XN
X û = 0 ⇔ 
0
1 X3i ûi
= 0 ⇒ ûi = 0
   .. 
 ..    i=1
 .  .
PN
1 X Ki ûi 0

¯
4. La media muestral de Y es igual a la media muestral de las estimaciones de Y : Ȳ = Ŷ .

ûi = Yi − Ŷi ⇐⇒ Yi = Ŷt + ûi


X X X
Yi = Ŷi + ûi
| {z }
=0
1 X 1 X ¯
Yi = Ŷi =⇒ Ȳ = Ŷ
N N

5. La FRM pasa por el vector de medias: Ȳ = β̂1 + β̂2 X̄2 + . . . + β̂K X̄K .
N
X X
ûi = 0 ⇔ (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi ) = 0
i=1
X X X
Yi − N β̂1 − β̂2 X2i − . . . − β̂K XKi = 0

X X X
Yi = N β̂1 + β̂2 X2i + . . . + β̂K XKi
1 X 1 X 1 X
Yi = β̂1 + β̂2 X2i + . . . + β̂K XKi
N N N
Ȳ = β̂1 + β̂2 X̄2 + . . . + β̂K X̄K

Nota: Las propiedades 1 y 2 se cumplen siempre, mientras que las 3, 4 y 5 se cumplen sólo si el
modelo tiene un término independiente.

96
Econometrı́a

5.4.2. Medidas de bondad del ajuste

Definimos la variación de la variable Y como la distancia de los valores observados de la variable a


su media muestral. La suma de esas variaciones al cuadrado es la variación que se quiere explicar
con la variación de las variables explicativas. Se le denota como SCT y se lee Suma de Cuadrados
Total. Lógicamente, el ajuste realizado será mejor cuanto mayor sea la proporción explicada de esa
variación.

X X
SCT = (Yi − Ȳ )2 = Yi2 − N Ȳ 2 = Y 0 Y − N Ȳ 2
Cuando el modelo tenga término independiente podremos dividir la variación total en dos partes,
variación explicada y variación sin explicar.
SCT = SCE + SCR
siendo:

SCT: Suma de Cuadrados Total, mide la variación total.


SCE: Suma de Cuadrados Explicada, mide la variación explicada.
SCR: Suma de Cuadrados Residual, mide la variación sin explicar.

X
SCT = (Yi − Ȳ )2 = Y 0 Y − N Ȳ 2
X ¯
SCE = (Ŷi − Ŷ )2 = Ŷ 0 Ŷ − N Ȳ 2
X
SCR = û2i = Y 0 Y − Ŷ 0 Ŷ = Y 0 Y − β̂ 0 X 0 Y

Coeficiente de determinación, R2
SCE SCR
R2 = =1−
SCT SCT

• Si existe término independiente en el modelo el R2 estará entre los valores 0 y 1. Por la misma
razón si no existe término independiente el R2 no tiene sentido.

• El coeficiente de determinación mide la bondad del ajuste o lo que es lo mismo la variabi-


lidad de la variable endógena explicada con la variabilidad de las variables exógenas. Es un
porcentaje.

• A mayor R2 mejor ajuste. Podemos tener la tentación de mejorar el ajuste incluyendo variables
exógenas y este proceder es un error. El problema que presenta el coeficiente de determinación
es que aumenta o se mantiene constante con la inclusión de nuevas variables explicativas en el
modelo, aunque éstas no contribuyan a explicar la variable endógena. Debido a este problema,
se define otra medida de bondad de ajuste, el coeficiente de determinación corregido, R̄2 .

97
Econometrı́a

Coeficiente de determinación corregido, R̄2 .


SCR
(N −K) (N − 1) SCR
R̄2 = 1 − SCT
= 1−
(N −1)
(N − K) SCT
(N − 1)
= 1− (1 − R2 )
(N − K)

• Cualquiera que sea el número de variables incluidas en un modelo la SCT será constante y
por tanto si incluimos una nueva variable la SCR será menor y la SCE será mayor.

• Dado que R̄2 se define como una ponderación del R2 por los grados de libertad tendrá en
cuenta estos últimos.

• Este coeficiente, penaliza la inclusión de nuevas variables explicativas. Si la nueva variable


incluida explica a la variable endógena compensando la pérdida de grados de libertad, es
decir compensando el hecho de estimar un coeficiente más, el R̄2 aumenta. Sin embargo si la
nueva variable incluida no explica a la variable endógena compensando la pérdida de grados
de libertad el R̄2 disminuye.

• Si K = 1, R2 = R̄2 .

• Si K > 1, R̄2 ≤ R2 .

El R2 y el R̄2 son sólo dos estadı́sticos y no deben ser utilizados para comparar la especificación
de modelos entre sı́, sólo los contrastes de hipótesis que se verán más adelante son la herramienta
adecuada.
Existen otros criterios de selección de modelos: el criterio de información de Akaike (AIC) o los
criterios Bayesiano de Schwarz (BIC) y de Hannan-Quinn (HQC). Estos criterios se calculan en
función de la suma de cuadrados residual y de algún factor que penalice por la pérdida de grados
de libertad. Un modelo más complejo, con más variables explicativas, reducirá la suma de cuadra-
dos residual pero aumentará el factor de penalización. Utilizando estos criterios se escogerı́a aquel
modelo con un menor valor de AIC, BIC o HQC. Normalmente no suelen dar la misma elección,
siendo el criterio AIC el que elige un modelo con mayor número de parámetros. El cálculo de estos
criterios es algo complejo sin embargo el programa gretl los muestra automáticamente en el output
de regresión. Únicamente los veremos con dicho programa.

Coeficientes de correlación El coeficiente de correlación lineal simple mide el grado de asociación


lineal entre dos variables. Para X e Y se define
P P
(Xi −X̄)(Yi −Ȳ )
Nq Xi Yi − N X̄ Ȳ
rxy = qP P = qP qP
(Xi −X̄)2 (Yi −Ȳ )2
N N
Xi2 − N X̄ 2 Yi2 − N Ȳ 2

El coeficiente de correlación simple toma valores entre -1 y 1 y su interpretación podéis recordarla


revisando el Tema 1. En el MRLG tendremos una matriz de coeficientes de correlación habitualmente

98
Econometrı́a

denotada por R:
 
r11 r12 ... r1K
 r21 r22 ... r2K 
 
R= .. .. .. .. 
 . . . . 
rK1 rK2 . . . rKK
La matriz de correlación R se define como aquella matriz cuyos elementos son el coeficiente de
correlación simple entre dos variables i y j, tal que:

• r1k representa la correlación entre Y y Xk k = 1, 2, . . . K

• rkk = 1, los elementos de la diagonal principal son todos unos. Muestran la correlación de una
variable consigo misma.

• rkh , muestran la correlación de la variable exógena k con la variable exógena h.

• Además es una matriz simétrica.

En el modelo lineal general la correlación entre Y y X2 no está adecuadamente recogida por el


coeficiente de correlación simple ya que parte de la variación de Y será debida al resto de variables
exógenas. Será necesario descontar este efecto tanto de Y como de X2 . Por ejemplo, en el modelo

Yi = β1 + β2 X2i + β3 X3i + ui

para estudiar la influencia de X2 en Y utilizaremos el coeficiente de correlación parcial entre Y y


X2 que mide la correlación que queda entre estas dos variables después de eliminar el efecto de X3
sobre Y y sobre X2 .

r12 − r13 r23


r12·3 = p 2
p
2
1 − r13 1 − r23

Ejemplo 5.8

Con los datos de la Tabla 5.1 y los resultados de la estimación del modelo (5.21) calcu-
lamos el coeficiente de determinación y el coeficiente de determinación corregido:

SCT = Y 0 Y − N Ȳ 2 = 1512980 − 14 × 317, 4932 = 101754, 7293


SCR = Y 0 Y − β̂X 0 Y = 1512980 − 1496279, 9 = 16700, 1

SCR 16700, 1
R2 = 1 − =1− = 0, 835976
SCT 101754, 7293
(N − 1) 14 − 1
R̄2 = 1− (1 − R2 ) = 1 − (1 − 0, 835976) = 0, 786769
(N − K) 14 − 4

Luego el 83, 59 % de la variabilidad en el precio de la vivienda queda explicada por la


variabilidad del tamaño de la vivienda, el número de dormitorios y el número de baños.
Es un ajuste bastante alto. El R̄2 se interpreta de igual manera.

99
Econometrı́a

También podemos calcular la matriz de correlaciones entre SQF T, BEDRM S y BAT HS:
 
1, 0 0, 4647 0, 7873
R= 1, 0 0, 5323 
1, 0

Luego las variables exógenas están correlacionadas positivamente entre sı́. El coeficiente
más alto es el coeficiente de correlación simple entre SQF T y BAT HS.
Ejemplo 5.9

Con los resultados de la regresión del modelo (5.22) y los datos del fichero andy.gdt
calculamos el coeficiente de determinación y el coeficiente de determinación corregido:

SCT = Y 0 Y − N Ȳ 2 = 452128,4100 − 75 × 77, 3752 = 3111, 6131


SCR = Y 0 Y − β̂X 0 Y = 452128,4100 − 450409,4671 = 1718, 9429

SCR 1718, 943


R2 = 1 − =1− = 0, 448258
SCT 3111, 6131
(N − 1) 75 − 1
R̄2 = 1− (1 − R2 ) = 1 − (1 − 0, 448258) = 0, 432932
(N − K) 75 − 3

La correlación entre P y A es: corr(P, A) = 0, 0263 un valor muy bajo y positivo. En


términos de matriz de correlación:

· ¸
1, 0 0, 0263
R=
1, 0

5.5. Propiedades de los estimadores MCO

Sea el modelo de regresión lineal general

Y = Xβ + u u ∼ N ID(0, σ 2 IN )

donde se cumplen todas las hipótesis básicas. El estimador MCO de los coeficientes

β̂ = (X 0 X)−1 X 0 Y

tiene las siguientes propiedades:

• Es lineal en las perturbaciones.

β̂ = β + (X 0 X)−1 X 0 u

100
Econometrı́a

• Es insesgado.

E(β̂|X) = E((β + (X 0 X)−1 X 0 u)|X) = β

Donde para demostrarlo hemos utilizado E(u|X) = 0.

• Tiene varianza mı́nima entre todos los estimadores lineales e insesgados


Dado que E(u|X) = 0 y E(uu0 |X) = σ 2 IN

V (β̂) = σ 2 (X 0 X)−1

Esta matriz de varianzas y covarianzas es mı́nima y nos lo garantiza el Teorema de Gauss-Markov.


 
V (β̂1 ) Cov(β̂1 , β̂2 ) Cov(β̂1 , β̂3 ) ··· Cov(β̂1 , β̂K )
 Cov(β̂2 , β̂1 ) V (β̂2 ) Cov(β̂2 , β̂3 ) ··· Cov(β̂2 , β̂K ) 
 
V (β̂) = 

Cov(β̂3 , β̂1 ) Cov(β̂3 , β̂2 ) V (β̂3 ) ··· Cov(β̂3 , β̂K ) =

(K × K)  .. .. .. .. .. 
. . . . .
Cov(β̂K , β̂1 ) Cov(β̂K , β̂2 ) Cov(β̂K , β̂3 ) ··· V (β̂K )

 
a11 a12 a13 ··· a1K
 a21 a22 a23 ··· a2K 
 
 a31 a32 a33 ··· a3K 
= σ2   = σ 2 (X 0 X)−1
 .. .. .. .. .. 
 . . . . . 
aK1 aK2 aK3 · · · aKK

donde akk es el elemento (k, k) de (X 0 X)−1 . Como toda matriz de varianzas y covarianzas, es
simétrica.

Teorema de Gauss-Markov: Dados los supuestos básicos del modelo de regresión lineal general,
“dentro de la clase de estimadores lineales e insesgados, β̂ es el estimador eficiente, es decir, β̂ tiene
mı́nima varianza”.

5.5.1. Estimación de la varianza de las perturbaciones

En la matriz de varianzas y covarianzas del estimador MCO aparece la varianza de las perturbacio-
nes, lo habitual es que sea desconocida y haya de ser estimada. Habitualmente se utiliza el siguiente
estimador insesgado de σ 2 :
P 2
û0 û SCR ûi
σ̂ 2 = = = y E(σ̂ 2 ) = σ 2
N −K N −K N −K
Por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbación. En
términos de las variables observables mediante las matrices Y , X, podemos expresarlo:

û0 û Y 0 Y − β̂ 0 X 0 Y Y 0 Y − β̂X 0 X β̂
σ̂ 2 = = =
N −K N −K N −K

101
Econometrı́a

Bajo las hipótesis básicas, un estimador insesgado de la matriz de varianzas y covarianzas,


de β̂M CO es
Vb (β̂M CO ) = σ̂ 2 (X 0 X)−1

Ejemplo 5.10

Con los datos de la Tabla 5.1 y los resultados de la estimación del modelo (5.21) se
calcula la siguiente matriz de varianzas y covarianzas estimada:

Y 0 Y − β̂ 0 X 0 Y 1513039, 0100 − 1496338, 9414


σ̂ 2 = = = 1670, 0069
N −K 14 − 4

 −1
14 26753 51 33
 26753 55462515 99193 65699, 75 
Vb (β̂M CO ) = 1670, 0069 × 

 =
51 99193 189 121, 75 
33 65699, 75 121, 75 80, 375
 
7797, 47 0, 670891 −1677, 13 −1209, 37
 0, 670891 0, 00102019 −0, 0754606 −0, 995066 
= 
 −1677, 13 −0, 0754606

730, 585 −356, 4 
−1209, 37 −0, 995066 −356, 4 1870, 56

Ejemplo 5.11

Con los datos disponibles en el fichero andy.gdt y los resultados de la estimación del
modelo (5.22) se calcula la siguiente matriz de varianzas y covarianzas estimada:

Y 0 Y − β̂ 0 X 0 Y 452128,4100 − 450409,4671 1718, 943


σ̂ 2 = = = = 23, 8742
N −K 75 − 3 72

 −1
75,0000 426,5400 138,3000
Vb (β̂M CO ) = 23, 8742 ×  426,5400 2445,7074 787,3810  =
138,3000 787,3810 306,2100
 
40, 34330 −6, 79506 −0, 74842
=  −6, 79506 1, 20120 −0, 01974 
−0, 74842 −0, 01974 0, 46675

102
Econometrı́a

Ejemplo 5.12

Vamos a retormar el Ejemplo 2.5 utilizado para ilustrar la especificación de un modelo


que recoge sólo efectos cualitativos, es decir tenemos un único conjunto de variables
ficticias. Estamos comparando medias.
Suponı́amos que disponı́amos de datos de salarios de hombres y mujeres, Wi y creemos
que, en media, existen diferencias salariales entre estos dos grupos. Para contrastar que
esto es cierto podemos recoger el efecto cualitativo sexo sobre el salario utilizando las
variables ficticias:
½ ½
1 si el individuo i es hombre 1 si el individuo i es mujer
S1i = S2i =
0 en caso contrario 0 en caso contrario

y podemos especificar el siguiente modelo como ya se hizo en el Ejemplo 2.6:

Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 )

Recordemos que β1 es el salario esperado cuando el individuo es hombre, β1 + β2 es el


salario esperado de una mujer y β2 recoge el efecto diferencial en el salario esperado entre
hombres y mujeres. Si no existiera discriminación salarial por sexo, es decir si hombres
y mujeres tuvieran el mismo salario, su valor serı́a cero.
• Estimación del modelo anterior:

Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM

· ¸ · ¸· ¸ · ¸
WH iH 0 β1 uH
= + ⇒ Y = Xβ + u
WM iM iM β2 uM

Notación utilizada: NH es el número de individuos varones y NM el número de mujeres.


WH , WM son vectores columna que recogen los salarios de hombres y mujeres, por tanto
de orden NH × 1 y NM × 1, respectivamente. iH , iM son vectores de unos de tamaño
NH × 1 y NM × 1 respectivamente.

β̂M CO = (X 0 X)−1 X 0 Y

· ¸ ·· ¸· ¸¸−1 · 0 ¸· ¸
β̂1 i0H i0M iH 0 iH i0M WH
= =
β̂2 0 i0M iM iM 0 i0M WM
· ¸−1 · P P ¸ · ¸
NH + NM NM P WH + WM = W̄H
=
NM NM WM W̄M − W̄H
que serı́a el equivalente a estimar cada ecuación por separado, en las dos ecuaciones a
las que da lugar el modelo (5.9):

Wi = β1 + ui i = 1, . . . , NH para los hombres


Wi = β1 + β2 + ui i = 1, . . . , NM para las mujeres

103
Econometrı́a

• Alternativa de especificación :

Wi = α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM
de donde suponiendo ui ∼ N ID(0, σ 2 )

α1 = E(Wi |S1i = 1; S2i = 0) es el salario esperado de un hombre


α2 = E(Wi |S1i = 0; S2i = 1) es el salario esperado de una mujer

por tanto estos coeficientes recogen el salario medio dentro del grupo.

• Estimación del modelo alternativo:

Wi = α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM

· ¸ · ¸· ¸ · ¸
WH iH 0 α1 uH
= + ⇒ Y = Xβ + u
WM 0 iM α2 uM

β̂M CO = (X 0 X)−1 X 0 Y

· ¸ ·· ¸· ¸¸−1 · 0 ¸· ¸
α̂1 i0H 0 iH 0 iH 0 WH
= =
α̂2 0 i0M 0 iM 0 i0M WM
· ¸−1 · P ¸ · P ¸ · ¸
NH 0 P WH W H /NH W̄H
= = P =
0 NM WM WM /NM W̄M

Ŵi = α̂1 S1i + α̂2 S2i = W̄H S1i + W̄M S2i

Los mismos resultados se obtendrı́an si hubiésemos estimados las ecuaciones por separado
en las dos ecuaciones a que da lugar la especificación alternativa:

Wi = α1 + ui i = 1, . . . , NH y Wi = α2 + ui i = 1, . . . , NH

5.6. Distribución del estimador MCO. Estimación por intervalo

5.6.1. Distribución del estimador de MCO bajo Normalidad

Si Y = Xβ + u, donde u|X ∼ N (0, σ 2 IN ), el estimador MCO, dado que es lineal en las perturba-
ciones, también seguirá una distribución Normal Multivariante

β̂M CO |X ∼ N (β, σ 2 (X 0 X)−1 )

104
Econometrı́a

Para el k-ésimo coeficiente,


β̂k |X ∼ N (βk , σ 2 akk )
donde akk es el elemento (k, k) de la matriz (X 0 X)−1 .

5.6.2. Estimación por intervalo

Para el k-ésimo coeficiente,


β̂k |X ∼ N (βk , σ 2 akk )
Una vez estimada la varianza de la perturbación con el estimador insesgado σ̂ 2 se puede demostrar
que:

β̂k − βk
√ ∼t(N −K)
σ̂ akk

donde t(N −K) denota la distribución t-Student con (N − K) grados de libertad, y σ̂ akk es la des-

viación estimada del coeficiente estimado. (Notación σ̂ akk = σ̂β̂k ).

El intervalo de confianza asociado es:

h i
P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α
Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para un coeficiente
cualquiera βk como: ³ ´
IC(βk )1−α = β̂k ± t 2 (N −K) σ̂β̂k
α

Las estimaciones por intervalo dan una información muy valiosa sobre la precisión de las estimaciones
por punto, esto es, nos dicen hasta qué punto nos podemos fiar de ellas. Si un intervalo de confianza
es ancho (debido a una Vb (β̂k ) grande) nos está diciendo que no hay mucha información en la
muestra sobre βk . Además, como veremos más adelante, los intervalos sirven para realizar contraste
de hipótesis.

Ejemplo 5.13

Para los valores estimados del modelo (5.22) obtenemos los siguientes intervalos de
estimación:

• Para la variable precio, P :


h i
P r β̂2 − t α2 (N −K) σ̂β̂2 < β2 < β̂2 + t α2 (N −K) σ̂β̂2 = 1 − α
Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para
el coeficiente β2 como:
³ ´
IC(β2 )1−α = β̂2 ± 1, 993 σ̂β̂2 = (−7, 908 ± 1, 993 × 1, 096) = [−10, 092, −5, 724]

105
Econometrı́a

Estimamos que una reducción de 1$ lleva a un incremento en los ingresos por ventas
de entre 5.724$ y 10.092$.
• Para la variable gasto en publicidad, A:

h i
P r β̂3 − t α2 (N −K) σ̂β̂3 < β3 < β̂3 + t α2 (N −K) σ̂β̂3 = 1 − α

Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para
el coeficiente β3 como:
³ ´
IC(β3 )1−α = β̂3 ± 1, 993 σ̂β̂3 = (1, 8626 ± 1, 993 × 0, 6832) = [0, 501, 3, 224]

Estimamos que un incremento de 1000$ en el gasto en publicidad lleva a un incre-


mento en los ingresos por ventas de entre 501$ y 3.224$.

5.7. Contraste de hipótesis sobre los coeficientes de la regresión

Un problema fundamental de la Econometrı́a es aportar un conocimiento descriptivo de una eco-


nomı́a real, los economistas desarrollan teorı́as sobre el comportamiento económico y las evalúan.
Los contrastes de hipótesis son los procedimientos que se usan para evaluar estas teorı́as. Para ello
vamos a utilizar el modelo Y = Xβ + u donde consideramos que se cumplen las hipótesis básicas y
además la perturbación es normal. La normalidad no es necesaria para estimar por MCO ni para
determinar las propiedades del estimador pero si lo es para realizar inferencia dado que al ser β̂M CO
lineal en u tendrá su misma distribución y podremos derivar estadı́sticos de contraste basándonos
en ella.
Por ejemplo, dado que
ui |X ∼ N (0, σ 2 ) −→ β̂k ∼ N (βk , σ 2 akk )

si conocemos todos los elementos incluido σ 2 podrı́amos contrastar hipótesis de la forma H0 : βk = c


con el siguiente estadı́stico:
β̂k − c H0
√ ∼ N (0, 1)
σ akk

En general nosotros lo que queremos es contrastar conjuntos lineales de hipótesis. Podemos realizar
contrastes sobre los coeficientes individuales y sobre conjuntos de coeficientes, incluso sobre todos
los coeficientes a la vez. Los contrastes más importantes en Econometrı́a son los contrastes de
significatividad de los regresores individuales y el contraste de significatividad conjunta. En ellos
tratamos de analizar si cada uno de los regresores del modelo de forma individual o conjuntamente
son útiles para explicar el comportamiento de la variable endógena. Los veremos a continuación
junto con otros de interés.

106
Econometrı́a

5.7.1. Contraste de restricciones sobre los coeficientes de regresión individuales.


Estadı́stico t

En los contrastes sobre los coeficientes individuales se contrasta la hipótesis nula H0 : βk = c,


donde la constante c puede tomar diversos valores. Contrastamos una única restricción. La hipótesis
alternativa puede ser a una cola por ejemplo Ha : βk > 0 o a dos colas Ha : βk 6= c. Para realizar
el contraste hemos de derivar el estadı́stico de contraste y su distribución bajo la hipótesis nula,
evaluar el estadı́stico en la muestra y aplicar la regla de decisión. Para contrastar:

H0 : βk = c frente a Ha : βk 6= c

Bajo las hipótesis básicas y normalidad de las perturbaciones la distribución del estimador β̂k es la
siguiente:
β̂k ∼ N (βk , σ 2 akk )
Si σ 2 es conocida todo es conocido en la distribución de βk y el estadı́stico de contraste serı́a:

β̂k − c H0
∼ N (0, 1)
σβ̂k

El caso más habitual es que σ 2 sea desconocida, en este caso podemos derivar el siguiente estadı́stico
0 û
de contraste y distribución asociada cuando σ 2 es estimada con el estimador insesgado σ̂ 2 = Nû−K :

β̂k − c H0
∼ t(N −K)
σ̂β̂k

β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α2 . En este caso contrario no se rechaza.
k

Si la alternativa es a una cola, por ejemplo:

H0 : βk = c frente a Ha : βk > c
β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α .
k

Contraste de significatividad individual

Cuando c = 0 al contraste se le denomina de significatividad individual. En este caso:

H0 : βk = 0

Ha : βk 6= 0
Podemos derivar el siguiente estadı́stico de contraste y distribución:

β̂k H0
∼ t(N −K)
σ̂β̂k

107
Econometrı́a

β̂k
Si el estadı́stico calculado para la muestra es mayor que el estadı́stico en tablas, σ̂β̂ > t(N −K)| α2
k
para un α dado, se rechaza la hipótesis nula. En este caso βk 6= 0 y la variable explicativa asociada
Xk es significativa para explicar el comportamiento de la variable endógena. Por tanto este contraste
sirve para decidir si la variable Xk debe mantenerse en el modelo. Si el estadı́stico calculado para
la muestra es menor que el estadı́stico en tablas, σ̂β̂k < t(N −K)| α2 para un α dado, no se rechaza
β̂k
la hipótesis nula. En este caso βk = 0 y la variable explicativa asociada Xk no es significativa para
explicar el comportamiento de la variable endógena.

Utilización del intervalo de confianza para hacer contraste de hipótesis En secciones anteriores
hablamos de la estimación por intervalo y se mencionó que también podı́amos realizar inferencia
utilizando intervalos de confianza. Pues bien si recordamos el intervalo de confianza asociado a βk :

h i
P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α
³ ´
IC(βk )1−α : β̂k ± t α2 (N −K) σ̂β̂k

y la regla de decisión es que si la constante c pertenece al intervalo, no rechazamos H0 con un nivel


de significación α y si no pertenece al intervalo, rechazamos H0 con un nivel de significación α.
Claramente se obtienen exactamente los mismos resultados utilizando los estadı́sticos de contraste
individuales que utilizando los intervalos de confianza.

5.7.2. Contraste de restricciones sobre los coeficientes de regresión. Estadı́stico F

En ocasiones interesa averiguar cuál es el efecto de la combinación de varias variables, por ejemplo
nos interesará saber si la combinación de todas las variables es un útil predictor de la variable
dependiente.

Contraste de significatividad conjunto

H0 : β2 = β3 = · · · = βK = 0

Ha : alguna igualdad no se da
En este caso podemos derivar el siguiente estadı́stico de contraste y distribución asociada:

R2 /K − 1 H0
∼ F(K−1,N −K)
1 − R2 /N − K

2
R /K−1
Si 1−R 2 /N −K > F(q,N −K)|α el estadı́stico calculado para la muestra es mayor que el estadı́stico en

tablas, para un α dado, se rechaza la hipótesis nula y se concluye que las variables son conjuntamente
significativas para explicar el comportamiento de la variable endógena.

108
Econometrı́a

Ejemplo 5.14

Vamos a mostrar un ejemplo sobre los contrastes de significatividad individual y conjunto


con los resultados de la estimación del modelo (5.21). Primero vamos a escribir los
resultados de la estimación de la forma habitual en que se muestran en la literatura:

d = 129, 062 + 0, 154800 SQF T − 21, 5875 BEDRM S − 12, 1928 BAT HS
P RICE
(σ̂β̂k ) (88,30) (0,03) (27,02) (43,25)
N = 14 R2 = 0, 8359 R̄2 = 0, 7868

Contrastes de significatividad individual, contrastamos:


¾
H0 : βk = 0 β̂k H0
con el estadı́stico y distribución ∼ t(14−4)
Ha : βk 6= 0 σ̂β̂k

• Para la variable SQF T obtenemos:


0, 1548
= 4, 8465 > 2, 22814 = t(10) |0,025
0, 0319

luego rechazamos H0 para α = 5 % y la variable SQF T es significativa.


• Para la variable BEDRM S obtenemos:
¯ ¯
¯ −21, 587 ¯
¯ ¯
¯ 27, 0293 ¯ = | − 0, 7987| < 2, 22814 = t(10) |0,025

luego no rechazamos H0 para α = 5 % y la variable BEDRM S no es significativa.


• Para la variable BAT HS obtenemos:
¯ ¯
¯ −12, 192 ¯
¯ ¯
¯ 43, 25 ¯ = | − 0, 2819| < 2, 22814 = t(10) |0,025

luego no rechazamos H0 para α = 5 % y la variable BAT HS no es significativa.

En el contraste de significatividad conjunta, contrastamos:


¾
H0 : β2 = β3 = β4 = 0 R2 /K − 1 H0
con ∼ F(K−1,N −K)
Ha : alguna igualdad no se da 1 − R2 /N − K

Evaluado el estadı́stico en la muestra obtenemos:


0, 8359/3
= 16, 989 > 3, 70826 = F(3,10) |0,05
(1 − 0, 8359)/10

rechazamos H0 para α = 5 %. Concluimos que las variables exógenas SQF T, BEDRM S


y BAT HS son conjuntamente significativas.

109
Econometrı́a

Ejemplo 5.15

Vamos a mostrar un ejemplo sobre los contrastes de significatividad individual y conjunto


con los resultados de la estimación del modelo (5.22). La ecuación de regresión muestral
era:

Sbi = 118, 914 − 7, 90785 Pi + 1, 86258 Ai i = 1, . . . , 75


(σ̂β̂k ) (6,35164) (1,09599 ) (0,683195)
N = 75 R2 = 0, 448258 R̄2 = 0, 432932

Como puede apreciarse en la ecuación anterior, se indica que bajo cada coeficiente esti-
mado aparece su correspondiente desviación tı́pica estimada6 .
Contrastes de significatividad individual, contrastamos:
¾
H0 : βk = 0 β̂k H0
con el estadı́stico y distribución ∼ t(75−3)
Ha : βk 6= 0 σ̂β̂k

• Para la variable P obtenemos:


¯ ¯
¯ −7, 90785 ¯
¯ ¯
¯ 1, 09599 ¯ = | − 7, 215| > 1, 99346 = t(72) |0,025

luego rechazamos H0 para α = 5 % y la variable P es significativa.


• Para la variable A obtenemos:
1, 86258
= 2, 726 > 1, 99346 = t(72) |0,025
0, 683195

luego rechazamos H0 para α = 5 % y la variable A es significativa.

En el contraste de significatividad conjunta, contrastamos:


¾
H0 : β2 = β3 = 0 R2 /K − 1 H0
con ∼ F(K−1,N −K)
Ha : β2 6= 0 y/o β3 6= 0 1 − R2 /N − K

Evaluado el estadı́stico en la muestra obtenemos:


0, 448258/2
= 29, 24786 > 3, 12391 = F(2,72) |0,05
(1 − 0, 448258)/72

rechazamos H0 para α = 5 %. Concluimos que las variables exógenas P y A son conjun-


tamente significativas.
Además hay otras hipótesis de interés:

• ¿Es la demanda inelástica o elástica con respecto al precio? En este caso queremos
saber si:
6
Una alternativa a presentar las desviaciones tı́picas estimadas de los coeficientes es presentar el valor muestral del
estadı́stico de significatividad individual para el coeficiente de regresión correspondiente o los valores p.

110
Econometrı́a

• β2 ≥ 0, una reducción en el precio conlleva un decrecimiento en los ingresos


por ventas, la demanda es inelástica con respecto al precio.
• β2 < 0, una reducción en el precio conlleva un crecimiento en los ingresos por
ventas, la demanda es elástica con respecto al precio.
En general estaremos dispuestos a aceptar que la demanda es elástica cuando existe
una fuerte evidencia en los datos para soportar esta hipótesis. Luego lo mejor es
que contratemos como hipótesis nula que la demanda es inelástica:

H0 : β2 ≥ 0, la demanda es inelástica
Ha : β2 < 0, la demanda es elástica

En la práctica contrastamos:
¾
H0 : β2 = 0 β̂2 H0
con el estadı́stico y distribución ∼ t(75−3)
Ha : β2 < 0 σ̂β̂2

Si rechazamos H0 para β2 = 0, además lo rechazamos para β2 > 0, por lo que


asumimos que β2 = 0 es cierto. El estadı́stico evaluado en la muestra es7 :
−7, 908
= −7, 215 < −1, 666 = t(72) |0,05
1, 096

luego rechazamos H0 para α = 5 % y concluimos que la demanda es elástica,


β2 < 0. La evidencia muestral soporta que una reducción en el precio conllevará un
incremento en los ingresos por ventas.
• ¿Es efectiva la polı́tica de gasto en publicidad? Una hipótesis de interés es si un
incremento en el gasto en publicidad conllevará un incremento en los ingresos por
ventas que cubra el incremento en el gasto en publicidad:

H0 : β3 ≤ 1 H1 : β3 > 1

Luego contrastamos:
¾
H0 : β3 = 1 β̂3 − 1 H0
con el estadı́stico y distribución ∼ t(75−3)
Ha : β3 > 1 σ̂β̂3

El estadı́stico evaluado en la muestra es:


1, 8626 − 1
= 1, 263 < 1, 666 = t(72) |0,05
0, 6832

luego no rechazamos H0 para α = 5 % y β3 = 1. En nuestra muestra no hay


suficiente evidencia para concluir que la publicidad será efectiva.

¯ ¯
¯ ¯
7
También podemos tomar el estadı́stico en valor absoluto ¯ −7,908
1,096 ¯
= | − 7, 215| = 7, 215 > 1, 666 = t(72) |0,05 luego
rechazamos H0 para α = 5 %.

111
Econometrı́a

Ejemplo 5.16

Utilizamos la función de salarios especificada para el año 2002 que se propuso en el


Ejemplo 2.7:
Wi = β1 + β2 S2i + β3 Xi + ui i = 1, 2, . . . N
donde Wi es el salario anual del individuo i, Xi son los años de experiencia del individuo
i y S2i es una variable ficticia que se define:
½
1 si el individuo i es mujer
S2i =
0 en caso contrario

En este modelo podemos contrastar:

• Si la experiencia es determinante del salario: H0 : β3 = 0, si esta hipótesis no se


rechaza para un nivel de significatividad dado el salario no depende de los años de
experiencia del individuo. Contrastamos:
¾
H0 : β3 = 0 β̂3 H0
con el estadı́stico y distribución ∼ t(N −3)
Ha : β3 6= 0 σ̂β̂ 3

• Si existe discriminación salarial por sexo: H0 : β2 = 0, si esta hipótesis no se rechaza


para un nivel de significatividad dado no existe discriminación salarial por sexo.
Por ejemplo si la experiencia es cero y β2 = 0, el salario esperado es β1 ∀i luego el
salario esperado es el mismo para hombres y mujeres.
¾
H0 : β2 = 0 β̂2 H0
con el estadı́stico y distribución ∼ t(N −3)
Ha : β2 6= 0 σ̂β̂2

Contraste de combinaciones lineales

Por ejemplo contrastamos la hipótesis:

H0 : β2 + β3 = 1

Ha : β2 + β3 6= 1
Renombrando ŵ = β̂2 + β̂3 y c = 1 se puede expresar la hipótesis nula y alternativa ası́ como el
estadı́stico de contraste y su distribución asociada como:

H0 : w = c Ha : w 6= c

ŵ − c H0
∼ t(N −K) si H0 es cierta
σ̂ŵ

2 ) dado que:
La distribución del estadı́stico ŵ ∼ N (µw , σw

ŵ = β̂2 + β̂3

112
Econometrı́a

β̂2 ∼ N (β2 , σ 2 a22 )


β̂3 ∼ N (β3 , σ 2 a33 )

es
µw = E(ŵ) = E(β̂2 + β̂3 ) = β2 + β3
2 = V (ŵ) = E[ŵ − E(ŵ)]2 = E[(β̂ + β̂ ) − (β + β )]2 = V (β̂ ) + V (β̂ ) + 2Cov(β̂ , β̂ )
σw 2 3 2 3 2 3 2 3
= σ 2 (a22 + a33 + 2a23 )
Por tanto
β̂2 + β̂3 ∼ N (β2 + β3 , σ 2 (a22 + a33 + 2a23 ))

Luego en términos de los coeficientes estimados originales el estadı́stico de contraste y distribución


es:
β̂2 + β̂3 − 1 H0
q ∼ t(N −K)
ˆ β̂2 , β̂3 )
V̂ (β̂2 ) + V̂ (β̂3 ) + 2Cov(

o lo que es igual:

β̂ + β̂3 − 1 H0
√ 2 ∼ t(N −K)
σ̂ a22 + a33 + 2a23

Con la regla de decisión habitual.

Ejemplo 5.17

Para contrastar:
H0 : β2 = β3 Ha : β2 6= β3
es equivalente a escribir:

H0 : β2 − β3 = 0 Ha : β2 − β3 6= 0

que podemos contrastar con el estadı́stico y distribución:

β̂2 − β̂3 H0
√ ∼ t(N −K)
σ̂ a22 + a33 − 2a23

Con la regla de decisión habitual.

5.7.3. Estimación mı́nimo-cuadrática sujeta a restricciones

Un aspecto básico de la inferencia estadı́stica que se lleva a cabo en Economı́a es que el investigador
sólo contrasta hipótesis en cuya validez está dispuesto a creer a priori, de modo que si su contraste
no las rechaza, entonces pasa a imponerlas en la representación estructural que está considerando.
Si la hipótesis nula no se rechaza, entonces serı́a muy interesante disponer de un procedimiento
para estimar de nuevo el modelo, pero esta vez imponiendo ese conjunto de hipótesis que hemos

113
Econometrı́a

contrastado y no rechazado. La idea de eficiencia está ligada a la utilización óptima de toda la


información disponible. Si se cree que los coeficientes del modelo satisfacen ciertas restricciones,
entonces se ganarı́a eficiencia introduciendo dichas restricciones en el proceso de información.
En este caso vamos a encontrar el estimador que minimice la suma de cuadrados de los residuos,
pero esta vez imponiendo las restricciones, es decir, se trata esta vez de resolver un problema de
optimización sujeto a restricciones lineales.
Sea β̂r el estimador resultante de resolver el lagrangiano de tal problema. A β̂r , se le llama estima-
dor de Mı́nimos Cuadrados Restringidos (MCR) y es tal que:

β̂r = β̂M CO + expresión matricial A

donde β̂M CO es el estimador Mı́nimo Cuadrático Ordinario sin restringir.

La matriz de varianzas y covarianzas de este estimador es:

V (β̂r ) = σ 2 (X 0 X)−1 − σ 2 expresión matricial B

Resultados:

1. β̂r es lineal en u.

2. Si las restricciones que hemos impuesto son ciertas el estimador β̂r es insesgado. Si
la restricción no se cumple el estimador restringido será sesgado, por lo tanto para comparar
los estimadores MCR y MCO habrá, en general, que utilizar el criterio del error cuadrático
medio.

3. Comparando las matrices de varianzas y covarianzas de los estimadores de mı́nimos cuadrados


ordinarios y mı́nimos cuadrados restringidos se puede demostrar que

V (β̂) − V (β̂r )

es una matriz semidefinida positiva aunque la restricción no se cumpla.

Estimar sujeto a restricciones mediante el estimador β̂r es equivalente a estimar por MCO el modelo
que cumple la restricción. A este modelo se le llama modelo restringido. Se puede demostrar que es
posible utilizar la suma de cuadrados del modelo restringido (û0r ûr ) para hacer contraste de hipótesis
mediante el estadı́stico siguiente:

û0r ûr − û0 û/q H0


∼ F(q,N −K)
û0 û/(N − K)

donde:

114
Econometrı́a

• û0r ûr es la suma de cuadrados residual del modelo restringido estimado por MCO, siendo el
modelo restringido aquel que cumple la hipótesis nula.

• û0 û es la suma de cuadrados residual del modelo no restringido o lo que es igual el modelo de
interés estimado por MCO.

• q es el número de restricciones que se contrastan.

A este estadı́stico se le conoce con el nombre de estadı́stico de diferencias en las sumas


residuales de cuadrados. Es un estadı́stico de tipo general que puede ser utilizado para contrastar
hipótesis lineales con solo especificar correctamente los modelos restringido y no restringido. Para
su aplicación sólo es necesario obtener la SCR del modelo restringido y no restringido. El modelo
restringido es aquel que cumple la hipótesis nula mientras que el modelo no restringido es el modelo
de interés.
Vamos a estudiarlo en detalle en el ejemplo siguiente.

Ejemplo 5.18

Contraste de un subconjunto de coeficientes.


Supongamos el siguiente modelo de regresión:

Yi = β1 + β2 X2i + . . . + βk Xki + α1 Z1i + α2 Z2i + . . . + αr Zri + ui i = 1, 2, . . . , N

y queremos contrastar si el subconjunto de regresores Z1i , Z2i , . . . , Zri son conjuntamente


significativos para explicar el comportamiento de la variable endógena. La hipótesis de
contraste es:
H0 : α1 = α2 = . . . = αr = 0
Ha : alguna igualdad no se de
El estadı́stico de contraste y distribución son:

û0r ûr − û0 û/r H0


∼ F(r,N −K) (5.23)
û0 û/(N − K)

donde:

• û0r ûr es la suma de cuadrados residual del modelo restringido estimado por MCO,
siendo el modelo restringido aquel que cumple la hipótesis nula. Luego el modelo
restringido es:

Yi = β1 + β2 X2i + . . . + βk Xki + uri i = 1, 2, . . . , N

• û0 û es la suma de cuadrados residual del modelo no restringido o lo que es igual el


modelo de interés estimado por MCO:

Yi = β1 + β2 X2i + . . . + βk Xki + α1 Z1i + α2 Z2i + . . . + αr Zri + ui i = 1, 2, . . . , N

115
Econometrı́a

• r es el número de restricciones que se contrastan, en este caso el número de coefi-


cientes αr .

La regla de decisión es la habitual, se rechaza la hipótesis nula si:

û0r ûr − û0 û/r


> F(r,N −K)| α
û0 û/(N − K)

en cuyo caso las variables exógenas Zri contribuyen a explicar el comportamiento de


la variable endógena, en este caso debemos especificar el modelo no restringido. Si
û0r ûr −û0 û/r
û0 û/(N −K) < F(r,N −K)| α no rechazamos H0 en cuyo caso las variables Zri no contri-
buyen a explicar a la variable endógena y debemos especificar el modelo restringido.
Ejemplo 5.19

Cómo estimar el modelo restringido: Sea el MRLG,

MNR: Yi = β1 + β2 X2i + β3 X3i + ui

donde queremos contrastar la hipótesis nula H0 : β2 + β3 = 1 sustituyendo la restricción


en el modelo encontramos el modelo restringido:

MR: Yi = β1 + β2 X2i + (1 − β2 )X3i + uri

Yi − X3i = β1r + β2r (X2i − X3i ) + uri


| {z } | {z }
=Yi? =Xi?

Yi? = β1r + β2r Xi? + uri

La aplicación de MCO en el modelo resultante son los llamados estimadores de Mı́nimos


Cuadrados Restringidos, MCR. Los demás β̂ r se obtienen con las restricciones. En el
ejemplo en el modelo restringido se calculan β̂1r y β̂2r y finalmente se calcula β̂3r = 1 − β̂2r .
0
En este modelo restringido estimado por MCO se calcula la SCR = ûr ûr . Si escribimos
el MR en términos matriciales
Y ? = X ? β r + ur
entonces
û0r ûr = Y ?0 Y ? − β̂ r0 X ?0 Y ?
donde Y ? y X ? son las variables que quedan en el modelo restringido y
· ¸ · P ? ¸−1 · P ? ¸
β̂1r N
P X
P ?2
i Y
P ? ?
i
=
β̂2r Xi? Xi Yi Xi
· P ¸−1 · P ¸
N
P P(X2i − X3i )2 P(Yi − X3i )
=
(X2i − X3i ) (X2i − X3i ) (Yi − X3i )(X2i − X3i )

116
Econometrı́a

Ejemplo 5.20

El estadı́stico de diferencias en las sumas residuales de cuadrados puede ser utilizado


para contrastar cualquier hipótesis lineal incluidas la significatividad individual y con-
junta. Veamos que ocurre si hacemos el contraste de significatividad conjunta con este
estadı́stico: H0 : β2 = β3 = . . . = βK = 0. Para esta hipótesis el modelo restringido es

Yi = β1 + ui

si estimamos el MR por MCO obtenemos:


X X
M inβ̂1 û2i = M inβ̂1 (Yi − β̂1 )2
P X
∂ û2i
= −2 (Yi − β̂1 ) = 0 −→ β̂1r = Ȳ
∂ β̂1
de donde
X
ûr0 ûr = (Yi − Ŷi )2 =
X X
= (Yi − β̂1r )2 = (Yi − Ȳ )2 = SCT

Ası́
û0r ûr − û0 û/q (SCT − SCR)/q
=
û0 û/(N − K) SCR/N − K
dividiendo el numerador y el denominador de entre SCT obtenemos.

(û0r ûr − û0 û)/q R2 /K − 1 H0


F = = ∼ F(K−1,N −K)
û0 û/N − K (1 − R2 )/N − K

estadı́stico que coincide con el obtenido para el contraste de significatividad conjunta.

5.8. Consecuencias del incumplimiento de algunos supuestos: colinea-


lidad

A la hora de estimar un modelo económico, los datos disponibles sobre las variables explicativas o
regresores pueden presentar un alto grado de correlación, especialmente en un contexto de series
temporales y con series macroeconómicas.
Cuando dos o más variables explicativas de un modelo están altamente correlacionadas en la muestra,
es muy difı́cil separar el efecto parcial de cada una de estas variables sobre la variable dependiente.
La información muestral que incorpora una de estas variables es casi la misma que el resto de las
correlacionadas con ella. En este tema analizaremos las implicaciones que este fenómeno muestral
tiene en la estimación por el método de Mı́nimos Cuadrados Ordinarios.

117
Econometrı́a

• El problema de multicolinealidad es un problema relacionado con la matriz de variables exóge-


nas X .

• Se refiere no tanto a si existe o no relación lineal entre las variables exógenas del modelo de
regresión, que existirá, como al grado de correlación lineal entre las variables explicativas del
modelo de regresión lineal.

• En todo momento nosotros vamos a suponer que tenemos un modelo correctamente especi-
ficado y que al estimarlo detectamos los problemas en la matriz de datos X. Ası́, estamos
enfocando el problema como un problema muestral.

• Podemos distinguir dos casos:

• Multicolinealidad exacta: se produce cuando existe una relación lineal exacta.


• Alta colinealidad: cuando la correlación entre las variables exógenas es muy alta pero no
exacta.

5.8.1. Multicolinealidad exacta

Para verlo más claramente vamos a seguir un ejemplo. Sea el modelo:

Yi = β1 + β2 X2i + β3 X3i + ui i = 1, . . . , N (5.24)

y supongamos que X3i = 2X2i . Las ecuaciones normales que se obtienen del criterio de estimación
MCO forman un sistema de tres ecuaciones pero solo dos son linealmente independientes:
P P P
Yi = N β̂1 + β̂2 X2i + β̂3 X3i
P P P 2
P
Yi X2i = β̂1 X2i + β̂2 X2i + β̂3 X3i X2i
P P P P 2
Yi X3i = β̂1 X3i + β̂2 X2i X3i + β̂3 X3i

ya que si sustituimos en estas ecuaciones la relación lineal exacta X3i = 2X2i y reorganizamos,
obtenemos:
P P
Yi = N β̂1 + (β̂2 + 2β̂3 ) X2i
P P P 2
Yi X2i = β̂1 X2i + (β̂2 + 2β̂3 ) X2i
P ³ P P 2´
2( Yi X2i ) = 2 β̂1 X2i + (β̂2 + 2β̂3 ) X2i

Se puede observar que la tercera ecuación es la misma que la segunda excepto por un factor de escala
igual a 2. Por lo tanto, hay tres incógnitas β̂1 , β̂2 y β̂3 pero solamente dos ecuaciones linealmente
independientes. Dado que X3i y X2i son combinación lineal exacta rg(X) = K − 1 = 3 − 1 = 2,
luego X no es de rango completo y no se cumple una de las hipótesis básicas, la hipótesis de No
Multicolinealidad. Consecuentemente, no es posible estimar de forma única todos los coeficientes del

118
Econometrı́a

modelo. Ahora bien, las dos primeras ecuaciones si podemos resolverlas para β̂1 y la combinación
lineal (β̂2 + 2β̂3 ).
Esto mismo se puede comprobar sustituyendo X3i = 2X2i en el modelo (5.24).

Yi = β1 + (β2 + 2β3 )X2i + ui i = 1, 2, . . . , N (5.25)

donde podemos estimar de forma separada y única el coeficiente β1 y la combinación lineal (β̂2 +2β̂3 )
pero no cada uno de sus parámetros de forma individual. Además no importa la solución arbitraria
de las ecuaciones normales, esta combinación lineal tiene siempre un único valor y siempre el mismo.
• Consecuencias de la multicolinealidad exacta:

• Los efectos directos de la correlación exacta entre regresores es que el valor del determinante
|X 0 X| = 0, por tanto no podemos encontrar (X 0 X)−1 y por tanto, no podemos estimar el
modelo por MCO ya que el estimador se define como β̂M CO = (X 0 X)−1 X 0 Y .

• En este caso lo que ocurre es que tenemos combinaciones lineales en las columnas de la matriz
X con lo que rg(X) 6= K por lo que (X 0 X) es una matriz singular.

• Relajamos la hipótesis básica:

rg(X) 6= K tal que rg(X) 6= K ⇒ |X 0 X| = 0 ⇒6 ∃(X 0 X)−1

• Cuando la correlación entre regresores es perfecta el problema de multicolinealidad exacta


se convierte en un problema de especificación ya que no podemos estimar todos los
parámetros del modelo de forma individual. Podremos estimar:

• individualmente: aquellos parámetros cuyas variables exógenas no están afectadas de


correlación exacta con otras variables exógenas del modelo y
• combinaciones lineales de los parámetros cuyas variables exógenas están implicadas en
las relaciones lineales exactas.

• Detección: basta con ver que |X 0 X| = 0.

5.8.2. Alta colinealidad

En este caso el valor del |X 0 X| está muy próximo a cero, pero será distinto de cero, por tanto
∃(X 0 X)−1 y podremos calcular los estimadores MCO. Además estos estimadores serán lineales,
insesgados y de varianza mı́nima. Sin embargo la existencia de alta colinealidad entre variables
produce efectos importantes que deben ser tenidos en cuenta y que son los siguientes:

• Varianzas y covarianzas cuantitativamente muy grandes:


Dado que (X 0 X) es casi singular, el valor de |X 0 X| será muy pequeño, por lo que, (X 0 X)−1
tendrá elementos muy grandes. Ası́, encontraremos varianzas y covarianzas muy grandes,
pero estos valores serán los más pequeños que podemos encontrar en estas circunstancias.

119
Econometrı́a

Cualquier otro estimador tendrá varianza mayor y por tanto el estimador MCO seguirá siendo
de varianza mı́nima. Aunque como consecuencia del tamaño de (X 0 X)−1 , las estimaciones sean
muy imprecisas8 .

• Como consecuencia de lo anterior, podremos encontrar R2 grandes, que indican que las va-
riables exógenas conjuntamente explican mucho de la variabilidad de la variable endógena,
unidos a variables explicativas que aportan poco a explicar esta variabilidad.

• Pequeños cambios en los datos producen cambios importantes en las estimaciones de los
parámetros.

¿Cómo podemos analizar si existe un problema de alta colinealidad?

• Una primera aproximación consiste en obtener los coeficientes de correlación muestral simples
para cada par de variables explicativas y ver si el grado de correlación entre estas variables es
alto.

• El valor del determinante decrece cuando aumenta la colinealidad, tendiendo a cero cuando
esta se hace exacta. Este hecho podemos interpretarlo como un aviso pero no tenemos una
medida que nos permita afirmar cuando es grave o muy grave.

• Valores altos del R2 y en (X 0 X)−1 , especialmente en su diagonal.

• Otra forma de detectar la multicolinealidad consiste en realizar la regresión de cada una


de las variables explicativas sobre el resto9 y analizar los coeficientes de determinación de cada
regresión. Si alguno o algunos de estos coeficientes de determinación (Rj2 ) son altos, estarı́a
señalando la posible existencia de un problema de multicolinealidad.

• Belsley, Kuh y Welsch (1980) consideran una serie de indicadores para analizar el grado de
multicolinealidad entre los regresores de un modelo, como por ejemplo los llamados Toleran-
cia (TOL) y Factor de Inflación de la Varianza (VIF) que se definen:
1 1
V IFj = ³ ´ T OLj =
1 − Rj2 V IFj

siendo Rj2 el coeficiente de determinación de la regresión auxiliar de la variable Xj sobre el


resto de las variables explicativas y 1 ≤ V IFj ≤ ∞.
La varianza de cada uno de los coeficientes de la regresión MCO (βˆj ) de un modelo de regresión
lineal general se puede expresar como:

σ2 1 σ2
var(βˆj ) = P ¡ ¢2 ³ ´ = P¡ ¢2 V IFj
Xji − X̄j 1 − Rj2 Xji − X̄j

8
Como veremos en la sección de Contraste de hipótesis el mayor tamaño de las varianzas hará que aumente
la probabilidad de no rechazar la hipótesis nula de significatividad individual, cuando en realidad la variable sea
significativa, sólo que los datos no permiten detectar esta significatividad.
9
En cada regresión se incluye el término constante como regresor pero no como variable dependiente.

120
Econometrı́a

donde βj , es el coeficiente que acompaña a la variable Xj y Rj2 es el coeficiente de determinación


de la regresión auxiliar de la variable Xj en función del resto de las variables explicativas. Como
vemos existe una relación inmediata entre el valor V IFj y la varianza del coeficiente estimado.
Cuanto más se acerque Rj2 a la unidad, es decir, cuanto mayor sea la colinealidad de la variable
Xj con el resto, mayor es el valor de V IFj y mayor es la varianza del coeficiente estimado,
porque tal y como hemos dicho, la multicolinealidad “infla” la varianza. Según estos autores,
si V IFj > 10, entonces concluiremos que la colinealidad de Xj con las demás variables es alta.
La utilización de los coeficientes T OL y V IF para detectar la presencia de la multicolinealidad
ha recibido múltiples crı́ticas, porque la conclusión obtenida con estos valores no siempre recoge
adecuadamente la información y problema de los datos. Tal y como hemos ¢2visto anteriormente,

las varianzas de los estimadores dependen del V IFj , σ 2 y Xji − X̄j , por lo que un alto
V IFj no es condición suficiente ni necesaria para que dichas varianzas sean elevadas ya que
P¡ ¢2
es posible que σ 2 sea pequeño o Xji − X̄j grande y se compensen.

En la literatura se han propuesto muchas soluciones al posible problema de alta colinealidad y


ninguna de ellas es totalmente satisfactoria, por ello parece sensato aprender a convivir con el
problema y tener cuidado de no omitir aquellas variables que esconden su significatividad bajo un
problema de colinealidad y no incurrir ası́ en un problema de mala especificación. Aunque no es
fácil, se pueden considerar las siguientes “soluciones” para intentar resolver el problema:

• Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede


ser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea
consiste en conseguir datos menos correlacionados que los anteriores, bien cambiando toda la
muestra o simplemente incorporando más datos en la muestra inicial. De todas formas, no
siempre resulta fácil obtener mejores datos por lo que muy probablemente debamos convivir
con el problema teniendo cuidado con la inferencia realizada y las conclusiones de la misma.

• En ocasiones, si se incorpora información a priori sobre los coeficientes del modelo desaparece
el problema. Aún ası́, serı́a conveniente tener en cuenta dicha información antes de la detección
del problema de multicolinealidad y no posteriormente, ya que ası́ estimaremos el modelo más
eficientemente.

5.9. Consecuencias del incumplimiento de algunos supuestos: omisión


de variables relevantes e inclusión de variables irrelevantes

Dentro de las hipótesis básicas hemos supuesto que el modelo estaba correctamente especificado,
esto en ocasiones no es ası́ bien porque faltan variables (omisión de variables relevantes) o porque
hay más de las necesarias (inclusión de variables irrelevantes). Estas situaciones influyen en las
propiedades del estimador MCO y es necesario tenerlo en cuenta.

121
Econometrı́a

5.9.1. Omisión de variables relevantes

Suponemos que el modelo correctamente especificado es:


· ¸
β1
Y = Xβ + u = [ X1 X2 ] + u = X1 β1 + X2 β2 + u (5.26)
β2

donde X1 es una submatriz de orden (N × K1 ) y X2 es una submatriz de orden (N × K2 ) y por


tanto β1 es un subvector de orden (K1 × 1) y β2 es un subvector de orden (K2 × 1). Pero nosotros
estimamos el siguiente modelo incorrectamente especificado:

Y = X1 β1 + v donde v = X2 β2 + u (5.27)

El modelo (5.27) incurre en un error de especificación ya que se omiten las variables relevantes
recogidas en X2 . Esto es lo mismo que imponer la restricción vectorial β2 = 0 cuando no es cierta.
El estimador MCO de β1 es β̂1 = (X10 X1 )−1 X10 Y , y v̂ = Y − X1 β̂1 . Consecuencias:

• En general los estimadores son sesgados:

E(β̂1 ) = E((X10 X1 )−1 X10 Y ) = β1 + (X10 X1 )−1 X10 X2 β2

Sesgo(β̂1 ) = (X10 X1 )−1 X10 X2 β2 y se anulara si X10 X2 = 0, es decir, si las variables omitidas
son ortogonales a las no omitidas. Notar que el sesgo se anula también para β2 = 0 pero esta
es una solución trivial dado que al ser X2 regresores relevantes necesariamente β2 6= 0.

• Las matriz de varianzas y covarianzas es V (β̂1 ) = σ 2 (X10 X1 )−1

• El estimador de la varianza de la perturbación es sesgado, y lo es siempre incluso cuando los


regresores son ortogonales:

v̂ 0 v̂ E(v̂ 0 v̂)
σ̂ 2 = −→ E(σ̂ 2 ) = 6= σ 2
N − K1 N − K1

5.9.2. Inclusión de variables irrelevantes

Este caso formalmente es justo el inverso del anterior. El modelo correctamente especificado es:

Y = X1 β1 + u u ∼ N (0, σ 2 I) (5.28)

y el modelo estimado es:


Y = X1 β1 + X2 β2 + v (5.29)
donde aparecen las variables irrelevantes en la matriz X2 de orden (N × K2 ) con unos coeficientes,
β2 , de orden (K2 × 1), que son cero, poblacionalmente. Consecuencias:

• Los estimadores de los coeficientes son insesgados. Podemos escribir el modelo correcto como:

Y = X1 β1 + X2 0 + u (5.30)

122
Econometrı́a

· ¸ ÷ ¸ · 0 ¸−1 · 0 ¸!
β̂1 β1 X1 X1 X10 X2 X1 u
E = E + 0 0 =
β̂2 0 X2 X1 X2 X2 X20 u
· ¸ · 0 ¸−1 · 0 ¸ · ¸
β1 X1 X1 X10 X2 X1 E(u) β1
= + =
0 X20 X1 X20 X2 X20 E(u) 0
| {z }
0

ya que X es fija y E(u) = 0. Por lo tanto, el estimador de (5.29) sigue siendo insesgado
aunque se incluyan variables irrelevantes.

• Las matriz de varianzas y covarianzas es V(β̂) = σ 2 (X 0 X)−1

• El estimador de la varianza de las perturbaciones del modelo (5.29) es un estimador insesgado


de σ 2
v̂ 0 v̂
σ̂ 2 =
N − (K1 + K2 )

5.10. Predicción

Aunque pueda considerarse que la obtención de un buen conjunto de estimaciones es el objetivo


principal de la Econometrı́a, a menudo también tiene gran importancia el logro de unas predicciones
precisas. Supongamos que con N observaciones se ha estimado el modelo:

Yi = β1 + β2 X2i + . . . + βK XKi + ui .

Dada una nueva observación de las variables explicativas,


£ ¤
Xp0 = 1 X2p · · · XKp p 6∈ {1, 2, . . . , N }

se puede utilizar el modelo estimado por MCO para predecir el valor que tendrá la variable endógena
(desconocido en ese momento). Dado el modelo de regresión, la ecuación para Yp es:

Yp = β1 + β2 X2p + . . . + βK XKp + up

Para abreviar, utilizaremos la expresión vectorial:

Yp = Xp0 β + up

Dada la información muestral disponible (no conocemos β ni up ) la predicción por punto de Yp


es:
Yˆp = Xp0 β̂M CO
O lo que es lo mismo:
Ŷp = β̂1 + β̂2 X2p + . . . + β̂K XKp .

Hay cuatro fuentes potenciales de error al realizar una predicción:

123
Econometrı́a

1. El error de especificación. El modelo de regresión en que nos basamos puede ser incorrecto:
pueden faltar variables explicativas que afectan de manera clave a Y , puede que la forma
funcional propuesta no sea correcta, puede que se no se cumpla alguna hipótesis básica, etc.

2. Error en los valores de Xp . La predicción se hace para unos valores dados de Xp , pero estos
pueden ser desconocidos en el momento en que se hace la predicción.

3. El error muestral. No hay más remedio que usar β̂ en vez de los valores verdaderos β para
hacer la predicción.

4. El error aleatorio. Yp dependerá de up , la perturbación aleatoria (desconocida) correspondiente


a esa observación. Cuanto más diferente sea de cero, mayor será este error.

Dadas todas estas fuentes de incertidumbre a la hora de predecir Y , es muy recomendable que la
predicción puntual de Y se acompañe con una medida de lo precisa que esperamos que sea esa
predicción. En esto consiste la predicción por intervalo.

• Predicción por intervalo del valor de la variable endógena


Es muy difı́cil que el valor predicho para Yp , Ŷp coincida con el valor real. Si la predicción por punto
se hace para el mes siguiente, o para el año siguiente, llegará un momento en que conoceremos el
error cometido. Este error se denomina error de predicción y es igual a

ep = Yp − Yˆp

En el momento en que hacemos la predicción, tenemos cierta información sobre ep , ya que es una
variable aleatoria con una distribución conocida. En concreto,

¡ ¢−1
ep ∼ N (0, σ 2 ( 1 + Xp0 X 0 X Xp ))

Demostración:

ep = Yp − Yˆp = Xp0 β + up − Xp0 β̂ =


= up − Xp0 (β̂ −β) (5.31)

Buscamos su distribución. Si up es normal el estimador MCO dado que es lineal en la perturbación


también lo será y por tanto el error de predicción también lo es. En cuanto a su media y varianza:

h i
E(ep ) = E up − Xp0 (β̂ −β) = 0 − Xp0 (β − β) = 0

124
Econometrı́a

V (ep ) = E [ep − E(ep )] [ep − E(ep )]0 =


¡ ¢
= E ep e0p =
·³ ´³ ´0 ¸
0 0
= E up − Xp (β̂ −β) up − Xp (β̂ −β) =
£ ¤ h i h i
= E up u0p + E Xp0 (β̂ −β) (β̂ −β)0 Xp − 2Xp0 E (β̂ −β) u0p =
¡ ¢ h i h¡ ¢−1 0 i
= E u2p + Xp0 E (β̂ −β) (β̂ −β)0 Xp − 2Xp0 E X 0 X X u up =
¡ ¢−1
= σ 2 + σ 2 Xp0 X 0 X Xp − 0 =
³ ¡ ¢ ´
2 0 0 −1
= σ 1 + Xp X X Xp

Por tanto: ³ ¡ ¢−1 ´


ep ∼ N (0, σ 2 1 + Xp0 X 0 X Xp )

Tipificando el error de predicción queda:


ep − 0
q ∼ N (0, 1)
σ 1 + Xp0 ( X 0 X )−1 Xp

El problema es que σ 2 es desconocida. Utilizando que ep y σ̂ 2 obtenemos

ep
q ∼ t(N −K)
σ̂ 1 + Xp0 ( X 0 X )−1 Xp

De hecho el denominador final es σ̂ep (la desviación estimada del error de predicción). Tras sustituir
ep = Yp − Ŷp , se puede utilizar dicha distribución para obtener el siguiente intervalo de predicción
para la variable endógena:
" #
Yp − Ŷp
P r − t α2 (N −K) ≤ ≤ t α2 (N −K) = 1 − α
σ̂ep

h i
P r Ŷp − t α2 (N −K) · σ̂ep ≤ Yp ≤ Ŷp + t α2 (N −K) · σ̂ep = 1 − α

³ ´
IC1−α (Yp ) = Ŷp − t α2 (N −K) σ̂ep , Ŷp + t α2 (N −K) σ̂ep

5.11. Estimación, contraste de hipótesis y predicción en el MRLG con


gretl. Principales resultados

• Estimación por Mı́nimos Cuadrados Ordinarios, MCO:


Una vez abierto el fichero de datos con el que vamos a trabajar, vamos a

125
Econometrı́a

Modelo → Mı́nimos Cuadrados Ordinarios


Aparecerá una ventana para especificar la parte sistemática del modelo donde debemos:
Seleccionar la variable dependiente pinchando a la izquierda sobre ella y a continuación pinchar en
la derecha → la flecha azul
Seleccionar las variables independientes pinchando a la izquierda sobre ella-s y a continuación pin-
char en la derecha → la flecha verde
Para obtener los resultados de la estimación MCO pinchar en Aceptar. No pinchar en la indicación
Desviaciones Tı́picas Robustas.

En esta ventana aparecerán los resultados básicos de la estimación del modelo. Los podemos guardar
como texto plano de la manera habitual o como icono con Archivo → Guardar como icono.
Los resultados que gretl nos devuelve muestran entre otros estadı́sticos la estimación de los paráme-
tros de la recta de ajuste, sus desviaciones tı́picas y estadı́sticos de significatividad individual.

Vamos a utilizar como ejemplo la estimación realizada con el fichero de datos data4-1.gdt:

P RICEi = β1 + β2 SQF Ti + β3 BEDRM Si + β4 BAT HS + ui i = 1, . . . , 14

Los resultados de la estimación MCO mostrados por gretl son los siguientes:

Modelo 1: MCO, usando las observaciones 1–14


Variable dependiente: price

Coeficiente Desv. Tı́pica Estadı́stico t Valor p


const 129,062 88,3033 1,4616 0,1746
sqft 0,154800 0,0319404 4,8465 0,0007
bedrms −21,5875 27,0293 −0,7987 0,4430
baths −12,1928 43,2500 −0,2819 0,7838

Media de la vble. dep. 317,4929 D.T. de la vble. dep. 88,49816


Suma de cuad. residuos 16700,07 D.T. de la regresión 40,86572
R2 0,835976 R2 corregido 0,786769
F (3, 10) 16,98894 Valor p (de F ) 0,000299
Log-verosimilitud −69,45391 Criterio de Akaike 146,9078
Criterio de Schwarz 149,4641 Hannan–Quinn 146,6712

En la columna con encabezamiento Coeficiente aparece la estimación del coeficientre que acompaña
a la correspondiente variable. A continuación aparece su Desviación Tı́pica y el estadı́stico t de
significatividad individual para el contraste H0 : βk = 0 ası́ como su correspondiente valor p.

A continuación aparecen estadı́sticos de interés como pueden ser la media de la variable dependien-
te, R2 o R̄2 entre otros. La fila: F (3, 10) = 16,98894; Valor p (de F ) = 0,000299 se corresponde con
el valor muestral del estadı́stico F para el contraste de significatividad conjunto y su correspon-
diente valor-p. A continuación aparecen los estadı́sticos de Akaike, Schwarz y Hannan-Quinn para
la selección de modelos.

126
Econometrı́a

En la pestaña Contrastes que aparece en la pantalla de resultados de la regresión podemos Omitir u


añadir variables, sumar los coeficientes y contrastar combinaciones lineales o restricciones lineales
además podremos realizar contrastes sobre los residuos, de los cuales nos ocuparemos en el último
tema del curso.

• Por ejemplo para contrastar:

H0 : β3 = β4 versus Ha : β3 6= β4

cuyo estadı́stico de contraste y distribución asociada son:

β̂3 − β̂4
q ∼ tN −4
d β̂3 , β̂4 )
σ̂ 2 + σ̂ 2 − 2 × Cov(
β̂3 β̂4

en la pestaña Contrastes seleccionamos Restricciones lineales y escribimos b3-b4=0 y


gretl nos devuelve el siguiente resultado10
Restricción:
b[bedrms] - b[baths] = 0
Estadı́stico de contraste: F(1, 10) = 0,0266334, con valor p = 0,873614 luego no se
rechaza la hipótesis nula para α %.
Además nos proporciona las estimaciones restringidas:

Coeficiente Desv. Tı́pica Estadı́stico t Valor p


const 127,736 83,9482 1,522 0,1563
sqft 0,157407 0,0264067 5,961 9,44e-05 ***
bedrms -18,5060 18,4649 -1,002 0,3378
baths -18,5060 18,4649 -1,002 0,3378

Desviación tı́pica de la regresión = 39,0158

El modelo restringido es:

P RICEi = β1 + β2 SQF Ti + β3 (BEDRM Si + BAT HS) + ui i = 1, . . . , 14


d i = 127, 736 + 0, 1574 SQF Ti − 18, 5060 (BEDRM Si + BAT HSi )
y su FRM es P RICE
En la pantalla de resultados de la estimación aparecen en la barra de menú otros estadı́sticos o
resultados que pueden ser de interés, por ejemplo:

• Podemos hacer gráficos de interés: En la opción Gráficos podemos hacer gráficos que nos
ayudan a interpretar los resultados de la estimación, por ejemplo
Gráficos → Gráfico de la variable estimada y observada
Gráficos → Gráfico de residuos → contra alguna de las variables explicativas del modelo
10
Notar que Gretl realiza todos los contrastes
√ con el estadı́stico de diferencias en las sumas residuales de cuadrados.
Además cuando q = 1 t2 = F . Luego tc = 0, 0266334

127
Econometrı́a

• En la pestaña Guardar podemos guardar variables como los residuos, los residuos al cuadrado,
la suma de cuadrados residual y el coeficiente de determinación entre otros.

• En la pestaña Análisis nos muestra las estimaciones de la variable endógena, los intervalos
de confianza de los coeficientes y la matriz de varianzas y covarianzas entre otros resultados.
Para ver y guardar los valores de Ŷ , û y otros resultados de utilidad:

- Ver los valores: Pinchar en Análisis → Mostrar variable y seleccionar observada, estimada
o residuos según nuestro interés.
- Guardar los valores: Pinchar en Guardar → seleccionar la variable de interés.

Gretl utiliza por defecto la denominación yhat, uhat para designar a la variable endógena
estimada y a los residuos, respectivamente y en la descripción de la variable indicará por
ejemplo para uhat: residuos del modelo 1, donde el valor 1 indica que corresponde con el primer
modelo estimado, esto resulta muy útil pues en general trabajaremos con varios modelos a la
vez y hay que distinguir claramente las variables de cada uno.

En la pestaña Análisis encontramos la matriz de varianzas y covarianzas de los coefi-


cientes estimados es:

Matriz de covarianzas de los coeficientes


const sqft bedrms baths
7797,5 0,67089 −1677,1 −1209,4 const
0,0010202 −0,075461 −0,99507 sqft
730,58 −356,40 bedrms
1870,6 baths

Los intervalos de confianza de los coeficientes son:

t(10, 0, 025) = 2, 228

Variable Coeficiente Intervalo de confianza 95 %


const 129,062 −67,6903 325,814
sqft 0,154800 0,0836321 0,225968
bedrms −21,5875 −81,8126 38,6376
baths −12,1928 −108,560 84,1742

5.11.1. Tratamiento de las variables ficticias en gretl

Gretl permite trabajar tanto con variables ficticias cuantitativas como cualitativas y su tratamiento
no difiere, solo debemos de ocuparnos de especificar correctamente el modelo. En el caso de que la
variable ficticia no esté construida gretl permite hacerlo. En la pantalla inicial en Añadir podemos
añadir Variables ficticias periódicas que se ajustarán lógicamente a la periodicidad muestral del
conjunto de datos, Variables ficticias para las variables discretas seleccionadas donde por ejemplo si
tenemos una variable que toma valores 1, 2 y 3 podremos construir tres variables ficticias tal como

128
Econometrı́a

½
1 si la variable toma valor 1
D1 =
0 en caso contrario
½
1 si la variable toma valor 2
D2 =
0 en caso contrario
½
1 si la variable toma valor 3
D3 =
0 en caso contrario

Por supuesto también podremos introducirlas con el editor.


Veamos un ejemplo aplicado. Abrimos el fichero de datos data7-3 de Ramanathan, que contiene
datos para 14 viviendas sobre el precio de venta de la vivienda (PRICE), pies cuadrados habitables
(SQFT), número de habitaciones (BEDRMS) y número de baños (BATHS), y una variable ficticia
que toma el valor 1 si la vivienda tiene piscina y 0 en caso contrario (POOL), una variable ficticia
que toma el valor 1 si la vivienda tiene sala de estar y 0 en caso contrario (FAMROOM) y una
variable ficticia que toma el valor 1 si la vivienda tiene chimenea y 0 en caso contrario (FIREPL).
Seleccionamos las variables PRICE y POOL y observamos los valores de estas dos variables:

Obs price pool

1 199,9 1
2 228,0 0
3 235,0 1
4 285,0 0
5 239,0 0
6 293,0 0
7 285,0 0
8 365,0 1
9 295,0 0
10 290,0 0
11 385,0 1
12 505,0 1
13 425,0 0
14 415,0 0

Por ejemplo, la primera vivienda de la muestra tiene un precio de 199.900 dólares y tiene piscina
(ya que la variable POOL toma el valor 1), mientras que la segunda no tiene piscina (la variable
POOL toma el valor 0) y su precio de venta es de 228.000 dólares, etc.

Con los datos anteriores podemos obtener fácilmente que el precio medio de la vivienda es 317.493
dólares:

Estadı́sticos principales, usando las observaciones 1 - 14


para la variable price (14 observaciones válidas)

129
Econometrı́a

Media Mediana Mı́nimo Máximo


317, 49 291, 50 199, 90 505, 00

Desv. Tı́p. C.V. Asimetrı́a Exc. de curtosis


88, 498 0, 27874 0, 65346 −0, 52983

Sin embargo, también es posible obtener el precio medio para las viviendas que tienen piscina, por
un lado, y para las que no la tienen, por otro. Para ello, en primer, lugar se selecciona el precio para
aquellas viviendas con piscina. Seleccionamos la variable PRICE, pinchamos en Muestra → Definir
a partir de v. ficticia..., seleccionamos la variable POOL y aceptamos.
De esta forma hemos seleccionado el precio para aquellas viviendas que tienen piscina11 . A conti-
nuación, se obtienen los estadı́sticos principales:

Estadı́sticos principales, usando las observaciones 1 - 5


para la variable price (5 observaciones válidas)
Media Mediana Mı́nimo Máximo
337, 98 365, 00 199, 90 505, 00

Desv. Tı́p. C.V. Asimetrı́a Exc. de curtosis


122, 99 0, 36390 0, 15896 −1, 2798

Para seleccionar el precio de las viviendas que no tienen piscina, pinchamos en Muestra → Restringir
a partir de criterio, introducimos la condición P OOL = 0 y aceptamos. Los estadı́sticos principales
son los siguientes:

Estadı́sticos principales, usando las observaciones 1 - 9


para la variable price (9 observaciones válidas)
Media Mediana Mı́nimo Máximo
306, 11 290, 00 228, 00 425, 00

Desv. Tı́p. C.V. Asimetrı́a Exc. de curtosis


68, 959 0, 225275 0, 87575 −0, 52255

Por tanto, el precio medio de las viviendas con piscina es de 337.980 dólares frente a los 306.111 de
las viviendas sin piscina. Dado el modelo una vivienda con piscina es en promedio 31.869 dólares más
cara que la que no tiene piscina. Notar que no se están teniendo en cuenta otros factores que pueden
afectar al precio de la vivienda (número de pies cuadrados habitables, número de habitaciones, etc.).
El sencillo análisis anterior podemos realizarlo mediante un análisis de regresión. Podemos especi-
ficar un modelo econométrico utilizando la variable ficticia POOL como regresor, estimarlo, hacer
inferencia e ir incorporando otras caracterı́sticas que pueden afectar a los precios de las viviendas.
11
Para restablecer el tamaño muestral inicial pinchar en Muestra → Recuperar el rango completo.

130
Econometrı́a

Para comenzar, consideramos el siguiente modelo:

P RICEi = α1 + α2 P OOLi + ui i = 1, . . . , 14 (5.32)

donde

• α1 : precio medio de una vivienda sin piscina.

• α1 + α2 : precio medio de una vivienda con piscina.

• α2 : diferencia en el precio medio de una vivienda con piscina con respecto a una que no la
tiene.

Los resultados de estimar el modelo por Mı́nimos Cuadrados Ordinarios utilizando gretl obtenemos
que las estimaciones de los coeficientes son las siguientes:

Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14


Variable dependiente: price

Variable Coeficiente Desv. tı́pica Estadı́stico t valor p


const 306,111 30,2077 10,1335 0,0000
pool 31,8689 50,5471 0,6305 0,5402

Media de la var. dependiente 317,493


D.T. de la variable dependiente 88,4982
Suma de cuadrados de los residuos 98550,5
Desviación tı́pica de los residuos (σ̂) 90,6231
R2 0,0320632
R̄2 corregido −0,0485982
Grados de libertad 12
Log-verosimilitud −81,880
Criterio de información de Akaike 167,760
Criterio de información Bayesiano de Schwarz 169,038

d i = 306, 111 + 31, 869 P OOLi


P RICE i = 1, . . . , 14
(10,13) (0,63)

Para contrastar en el modelo (5.32) si hay diferencias significativas en el precio medio de la vivienda
entre aquéllas que tienen piscina y las que no, la hipótesis de contraste es H0 : α2 = 0. Este
contraste se puede realizar utilizando el estadı́stico t habitual cuyo p-valor es 0,5405, por lo que no
se rechaza la hipótesis nula para un nivel de significación del 5 %, es decir, el precio medio de la
vivienda no es significativamente diferente por el hecho de tener piscina. Alternativamente, se puede
realizar el contraste utilizando el estadı́stico F basado en las sumas de cuadrados de los residuos

131
Econometrı́a

siendo en este caso el modelo (5.32) el modelo no restringido mientras que el modelo restringido es
P RICEi = α1 + ui i = 1, . . . , 14.
Supongamos que ampliamos el modelo (5.32) incorporando regresores que podrı́an explicar el pre-
cio de la vivienda como: el hecho de que la vivienda tenga sala de estar o no, el hecho que tenga
chimenea o no, su superficie, el número de habitaciones y el número de baños. Las dos primeras son
variables ficticias que pueden definirse ası́:

½
1 si la vivienda i-ésima tiene chimenea
F IREP Li =
½0 en caso contrario
1 si la vivienda i-ésima tiene sala de estar
F AM ROOMi =
0 en caso contrario

Mientras que la superficie, el número de baños y el número de habitaciones se definen como en los
temas anteriores:
SQF Ti tamaño de la vivienda i-ésima en pies cuadrados
BEDRM S número de habitaciones de la vivienda i-ésima
BAT HS número de cuartos de baño de la vivienda i-ésima

Con todas ellas podemos especificar el siguiente modelo para explicar el precio de la vivienda:

P RICEi = γ1 + γ2 P OOLi + γ3 F AM ROOMi + γ4 F IREP Li

+β1 SQF Ti + β2 BEDRM Si + β3 BAT HSi + ui i = 1, . . . , 14 (5.33)

Donde lo primero a notar es que en el modelo (5.33), afectando a la ordenada, conviven tres conjuntos
de variables ficticias con dos categorı́as cada una, el hecho de tener o no piscina, el hecho de tener
o no chimenea y el hecho de tener o no sala de estar, de las cuales sólo se incluye una de cada
conjunto y se mantiene el término independiente. Esta forma de definir el modelo es muy cómoda
ya que sigue manteniendo los resultados de los modelos con término independiente y permite una
fácil interpretación de los coeficientes que acompañan a las variables ficticias. Ası́, γi i = 2, 3, 4
recogen el diferencial en el valor esperado de una vivienda por el hecho de poseer la caracterı́stica
correspondiente manteniéndose constante el resto de variables. El resultado de la estimación es:

Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14


Variable dependiente: price

Variable Coeficiente Desv. tı́pica Estadı́stico t valor p


const 39,0571 89,5397 0,4362 0,6758
pool 53,1958 22,0635 2,4110 0,0467
famroom −21,344 42,8734 −0,4979 0,6338
firepl 26,1880 53,8454 0,4864 0,6416
sqft 0,146551 0,0301014 4,8686 0,0018
bedrms −7,0455 28,7363 −0,2452 0,8134
baths −0,263691 41,4547 −0,0064 0,9951

132
Econometrı́a

Media de la var. dependiente 317,493


D.T. de la variable dependiente 88,4982
Suma de cuadrados de los residuos 9010,24
Desviación tı́pica de los residuos (σ̂) 35,8773
R2 0,911504
R̄2 corregido 0,835650
F (6, 7) 12,0166
valor p para F () 0,00221290
Log-verosimilitud −65,134
Criterio de información de Akaike 144,269
Criterio de información Bayesiano de Schwarz 148,743

La interpretación de los coeficientes estimados es la siguiente:

• γ̂1 = 39, 057: el precio medio estimado de las viviendas sin piscina, baños, habitaciones, sala
de estar ni chimenea y con 0 pies cuadrados habitables es de 39.057 dólares.

• γ̂2 = 53, 1958: la diferencia estimada en el precio medio de las viviendas con piscina con
respecto a las que no la tienen, siendo iguales en el resto de caracterı́sticas (pies cuadrados
habitables, habitaciones, baños, sala de estar y chimenea) es de 53.196 dólares.

• γ̂3 = −21, 34: el precio medio estimado de una vivienda con sala de estar es 21.340 dólares
inferior al de una sin sala de estar, siendo idénticas en el resto de caracterı́sticas. Esto se
debe a que, al mantener constante el número de pies cuadrados de la vivienda y el número de
habitaciones y baños, incluir una sala de estar hará que el resto de habitaciones o baños sean
de menor tamaño.

• γ̂4 = 26, 188: el precio medio estimado de una vivienda con chimenea es 26.188 dólares más
caro que el de una sin chimenea, siendo idénticas en el resto de caracterı́sticas.

• β̂1 = 0, 147: el precio medio estimado de una vivienda se incrementa en 147.000 dólares al
aumentar en 1 pie cuadrado habitable su superficie, permaneciendo constantes el número de
baños y habitaciones.

• β̂2 = −7, 046: el precio medio estimado de una vivienda disminuye en 7.046 dólares al aumentar
en 1 el número de habitaciones, permaneciendo constantes el número de baños y los pies
cuadrados habitaciones. Esto se debe a que las habitaciones serán de menor tamaño.

• β̂3 = −0, 264: el precio medio estimado de una vivienda disminuye en 264 dólares al aumentar
en 1 el número de baños, permaneciendo constantes el número de habitaciones y los pies
cuadrados habitables. De nuevo, las habitaciones serán de menor tamaño.

Contraste de hipótesis
Para contrastar, por ejemplo, que no existen diferencias significativas en el precio medio de la
vivienda por el hecho de tener chimenea, se realiza un contraste de significatividad individual de

133
Econometrı́a

la variable FIREPL. En este caso, observando el p-valor correspondiente, 0,6416, se puede concluir
que a un nivel de significación del 5 %, no existen diferencias significativas en el precio medio de
una vivienda por el hecho de tener chimenea.

Si comparamos los modelos (5.32) y (5.33), ninguna de las variables añadidas en el último es
significativa individualmente12 . Además, el R̄2 es inferior. El contraste de significatividad conjunta
para las variables añadidas se puede realizar con el estadı́stico F basado en las sumas de cuadrados
residuales de los modelos restringido (modelo (5.32)) y no restringido (modelo (5.33)). En este caso,
el resultado es:

Contraste de omisión de variables –


Hipótesis nula: los parámetros son cero para las variables
bedrms
baths
famroom
firepl
Estadı́stico de contraste: F (4, 7) = 0,0864517
con valor p = P (F (4, 7) > 0,0864517) = 0,983881

por lo que no se rechaza la hipótesis nula de que las variables añadidas al modelo (??) son conjun-
tamente no significativas. Al omitir dichas variables el modelo mejora en cuanto a la significación
de sus coeficientes y el R̄2 . Por tanto, manteniendo las variables POOL y SQFT, la inclusión del
resto (FIREPL, FAMROOM, BATHS, BEDRMS) no añade capacidad explicativa al modelo.

5.11.2. El p-valor y conclusiones del contraste

Otra forma de llevar a cabo el contraste es utilizar el valor-p. Este valor es una probabilidad e
indica cuál serı́a el menor nivel de significación que se tendrı́a que elegir para rechazar la hipótesis
nula, dada la realización muestral del estadı́stico. Si el contraste es a dos colas, el valor-p es dos veces
el área a la derecha de la realización muestral del estadı́stico en valor absoluto, en la distribución
de éste bajo la hipótesis nula, esto es

valor-p = 2 P(tj > tm


j |H0 )

Si el contraste es a una cola, el valor-p serı́a el área a la derecha de la realización muestral del
estadı́stico en valor absoluto, en la distribución de éste bajo la hipótesis nula, esto es valor-p =
P(tj > tmj |H0 ). A mayor valor-p, mayor serı́a la probabilidad de error de tipo I si elegimos rechazar
la hipótesis nula. Luego a mayor valor-p menor evidencia contra la hipótesis nula y por el contrario
a menor valor-p mayor evidencia contra la hipótesis nula. El cálculo del valor-p es más complicado
que elegir el nivel de significatividad a priori por lo que generalmente se realiza en el ordenador.
En la práctica se compara el valor-p con el valor 0,05 y si valor-p < 0, 05 se rechaza la H0 mientras
que si valor-p > 0, 05 no se rechaza la H0 .
12
Un problema añadido es que tenemos un bajo tamaño muestral, T=14, y hemos aumentado significativamente el
número de parámetros a estimar, K=7, por lo que tenemos muy pocos grados de libertad.

134
Econometrı́a

5.11.3. Predicción en gretl

Para hacer predicción con gretl debemos incorporar los nuevos datos (Xp ) a la base de datos me-
diante

Datos → Seleccionar todos

A continuación, pincharemos la opción

Datos → Añadir Observaciones

indicando el número de observaciones que queremos añadir, en este caso 1. En la fila correspon-
diente incluimos los valores de las variables explicativas en el periodo de predicción, en este caso la
observación N + 1, incorporando cada observación en la casilla correspondiente. Si no incorporamos
el valor para la variable Yi que es la que vamos a predecir, gretl nos mostrará un aviso (Atención:
habı́a observaciones perdidas). Podemos simplemente ignorarlo y darle a aceptar.
Posteriormente, estimaremos el modelo sin considerar esta nueva observación. Para ello, tenemos
que especificar el rango muestral, es decir, en la opción

Muestra → Establecer rango

especificaremos del rango de observaciones de la muestra para estimar el modelo, en nuestro caso
de la 1 a la N y elegimos Aceptar.
Estimaremos el modelo por MCO y en la ventana de los resultados elegimos

Análisis → Predicciones

En la nueva ventana podemos determinar el dominio de predicción, es decir el Inicio y Fin que en
este caso es en ambos la observación número N + 1, y también cuantas observaciones se quieren
representar antes de la prediccion.
Utilizando los resultados obtenidos en el Ejemplo 5.10 se va a predecir la variable P RICE. Los
resultados que muestra Gretl son los siguientes:

Para intervalos de confianza 95 %, t(10, ,0, 025) = 2, 228

Observaciones price predicción Desv. Tı́pica Intervalo de 95 %


15 500,00 479,91 55,390 356,49 603,32

Estadı́sticos de evaluación de la predicción

135
Econometrı́a

Error medio 20,095


Error cuadrático medio 403,79
Raı́z del Error cuadrático medio 20,095
Error absoluto medio 20,095
Porcentaje de error medio 4,0189
Porcentaje de error absoluto medio 4,0189
U de Theil 0

650
price
predicción
600 Intervalo de confianza 95 por ciento

550

500

450

400

350

300

250

200

150
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

El gráfico que se obtiene junto a los resultados muestra la serie de precios (P) observada en color
rojo y estimada con el modelo para las 14 observaciones anteriores a la predicción y la predicción
en color azul, junto con su intervalo de confianza en color verde.
La predicción por punto del precio de una vivienda con estas caracterı́sticas es de 479, 905 miles de
euros, mientras que la predicción por intervalo con un nivel de confianza del 95 % es (356, 5; 603, 3)
en miles de euros, por lo que el precio que nos piden, que era de 500 miles de euros por la vivienda,
está dentro del intervalo. Este precio para una vivienda de esas caracterı́sticas se aceptarı́a como
razonable dado nuestro modelo y la información muestral utilizada para su estimación, con un nivel
de confianza del 95 %.

5.12. Bibliografı́a del tema

Referencias bibliográficas básicas:


• Teórica:
[1] Stock, James H. y Mark Watson (2012). Introducción a la Econometrı́a. Pearson.
[2] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición.
• Ejercicios con gretl:
[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.

136
Econometrı́a

[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.

Referencias Bibliográficas Complementarias:


[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de
regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −
juridicas/analisis − de − regresion − con − greti/Coursel isting).
[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a
Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación on-
line de la Facultad de C.C. Económicas y Empresariales.
[3] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a.
Editorial McGraw-Hill.
[4] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición.
[5] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.

137
Econometrı́a

138
Tema 6

Heterocedasticidad. Implicaciones

En este tema vamos a ocuparnos de validar el modelo. Una vez especificado y estimado el modelo
de regresión lineal general y realizados los contrastes de interés el modelo puede ser utilizado para
la predicción. Esta será más fiable cuanto mejor especificado y estimado esté el modelo. En el
Tema 5 nos hemos ocupado de ver las consecuencias de omitir variables relevante e incluir variables
irrelevantes y para evitarlo utilizamos los contrastes de significatividad individual y conjunto. En
este tema nos ocuparemos de analizar si los coeficientes del modelo son constantes durante todo el
periodo muestral.
Por otro lado cuando especificamos las hipótesis básicas de comportamiento, sobre la perturbación
supusimos que es homocedástica y no autocorrelada, en este tema estudiaremos como contrastar
que efectivamente la perturbación tiene varianza constante y covarianzas cero.

Competencias a trabajar en estas sesiones:

2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en


base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.

3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo


econométrico con el objetivo de elaborar informes económicos.

4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.

Al final de este tema deberı́ais ser capaces de:

1. Explicar que se entiende por un modelo de regresión lineal con heterocedasticidad.

2. Analizar gráficamente la posible existencia de heterocedasticidad y saber contrastarla utili-


zando el estadı́stico de White.

3. Describir las propiedades del estimador MCO bajo heterocedasticidad.

139
Econometrı́a

4. Realizar contraste de hipótesis cuando la perturbación del modelo es heterocedástica.

5. Utilizar el software gretl para contrastar la existencia de heterocedasticidad en las pertur-


baciones y realizar contraste de hipótesis en los coeficientes de un modelo con perturbación
heterocedástica.

Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:

• Stock and Watson, J. M. (2012). Cap. 5.

• Wooldridge, J.M. (2006). Cap. 8.

140
Econometrı́a

6.1. Sobre las perturbaciones: contrastes de heterocedasticidad

6.1.1. Contraste de heterocedasticidad

Hasta el momento uno de los supuestos básicos del modelo de regresión lineal es que la va-
rianza de cada término de perturbación ui condicionada a los valores de las variables explicati-
vas, es constante e igual a σ 2 . Llamábamos a este supuesto homocedasticidad y lo denotábamos:
V (ui ) = σ 2 ó lo que es igual E(u2i |X) = σ 2 ∀i. La varianza σ 2 es una medida de dispersión de
ui alrededor de su media , E(ui |X) = 0, o equivalentemente, una medida de dispersión de la variable
dependiente Yi alrededor de su media β1 + β2 X2i + . . . + βk Xki . Ası́, homocedasticidad significa que
la dispersión es la misma a través de todas las observaciones.
Supongamos que disponemos de observaciones sobre consumo y renta para un conjunto de familias,
en un año determinado. Las familias con rentas bajas no tienen mucha flexibilidad en sus gastos, en
general el grueso de la misma se gastará en cosas básicas, por ello la forma de consumo entre familias
de renta baja no variará demasiado. Sin embargo, las familias de rentas altas tienen más posibilidades
de consumo, ser grandes consumidores o ahorradores o llevar un gasto equilibrado. En cualquier caso
su consumo puede ser muy distinto entre sı́ por lo que pueden tener una gran dispersión alrededor
de su consumo medio mientras que las familias con rentas bajas no. En esta situación suponer que
existe homocedasticidad no es sensato, deberı́amos suponer que existe heterocedasticidad.

f ( u )

f ( u )

X 6

α +β α+β
X 1 X 6

X 1

X 2

X 2

X 6

X 6

Figura 6.1: Perturbaciones homocedásticas versus heterocedásticas

En la Figura 6.1 se puede apreciar la diferencia entre el comportamiento de las perturbaciones


homocedásticas, a la izquierda y heterocedásticas, a la derecha. En la figura de la izquierda se
puede observar que la varianza condicional de Yi a las Xi permanece igual sin importar los valores
que tome la variable X. Recordar que la varianza condicional de Yi es la misma que la de ui , por
tanto, en el gráfico estamos observando cómo la varianza de la perturbación permanece constante
independientemente del valor que tome el regresor. En la figura de la derecha se puede observar que
la varianza de Yi aumenta a medida que Xi aumenta y por tanto hay heterocedasticidad:

E(u2i |X) = σi2

Llamamos heterocedasticidad al caso en que la varianza del término de error varı́a a través del tiem-
po si miramos a series temporales, V (ut ) = σt2 , o cambia de una observación a otra si miramos datos

141
Econometrı́a

de sección cruzada, (familias, paı́ses, etc.), V ar(ui ) = σi2 . Seguimos suponiendo que no existe auto-
correlación entre perturbaciones por lo que sólo consideramos la existencia de heterocedasticidad.
La matriz de varianzas y covarianzas de la perturbación será:
 2 
σ1 0 0 . . . 0
 0 σ2 0 . . . 0  X
 2 
E(uu0 |X) =  . =
 .. .. ... . . . ... 
.

0 0 2
0 . . . σN

La existencia de heterocedasticidad puede aparecer en numerosas aplicaciones económicas sin em-


bargo, es más habitual en datos de sección cruzada. A continuación veremos algunas situaciones en
las cuales las varianzas de ui pueden no ser constantes.

• En datos de sección cruzada.

Ejemplo 6.1 Supongamos que tenemos datos para diferentes comunidades autónomas es-
pañolas en el año 2005 sobre gasto sanitario agregado, GS, renta personal disponible, R, el
porcentaje de población que supera los 65 años, SEN y población, P OP , con los que estimar
el siguiente modelo:
GSi = β1 + β2 Ri + β3 SENi + β4 P OPi + ui i = 1, . . . , N (6.1)

Las comunidades con más población y/o mayor porcentaje de población con edad superior
a 65 años tendrán mayor gasto sanitario que aquellas con menor población o más joven.
En esta situación suponer que la dispersión de los gastos sanitarios es la misma para todas
las comunidades con distinto nivel de población y composición de la misma no es realista,
y se deberı́a proponer que la varianza de la perturbación sea heterocedástica V ar(ui ) =
σi2 , permitiendo por ejemplo que varı́e en función creciente con la población, es decir, σi2 =
σ 2 P OPi . Incluso podemos pensar que varı́e en función creciente con el porcentaje de población
mayor de 65 años, en cuyo caso propondrı́amos V ar(ui ) = σ 2 SENi o con ambas variables,
por lo que la forma funcional pudiera ser V ar(ui ) = σ 2 (a P OPi + b SENi ).

Ejemplo 6.2 Un ejemplo recurrente para mostrar la heterocedasticidad es el estudio de la


relación entre consumo y renta. Supongamos que tenemos datos sobre renta, R, y gasto en
consumo, C, para N familias, con los que estimar el modelo:
Ci = β1 + β2 Ri + ui i = 1, . . . , N (6.2)
Las familias con mayor renta, una vez satisfechas sus necesidades primordiales tienen mayores
posibilidades de decidir cuánto ahorrar y cuánto consumir, por lo que es habitual encontrar
una mayor variabilidad en el gasto realizado por familias de renta alta que por familias de
renta baja. En esta situación suponer que la dispersión de los gastos de consumo es la misma
para todas las familias con distinto nivel de renta no es realista y se deberı́a proponer que la
varianza de la perturbación sea heterocedástica V ar(ui ) = σi2 , permitiendo por ejemplo que
varı́e en función creciente con la renta de las familias, es decir, σi2 = σ 2 Ri .

142
Econometrı́a

Ejemplo 6.3 Un fenómeno parecido ocurre con las empresas que deben decidir qué por-
centaje de sus beneficios, B, deben repartir como dividendos, D. Las empresas con mayores
beneficios tienen un margen de decisión muy superior al fijar su polı́tica de dividendos. Al
estimar el modelo:

Di = β1 + β2 Bi + ui i = 1, . . . , N (6.3)

cabrı́a esperar que la varianza de ui dependa del nivel de beneficios de la empresa i-ésima y
podrı́amos proponer que por ejemplo, E(u2i ) = σi2 = σ 2 Bi .

• La heterocedasticidad también puede aparecer como consecuencia de la agregación de


datos. En este caso la varianza puede depender del número de observaciones del grupo.

Ejemplo 6.4 Supongamos un investigador que desea estimar los coeficientes del siguiente
modelo:

Yj = β1 + β2 Xj + uj j = 1, . . . , N (6.4)

donde uj ∼ N (0, σ 2 ), es decir, la varianza de la perturbación es homocedástica. Supongamos


que el número de observaciones N es tal que aconseja agrupar las observaciones en m-grupos
de ni observaciones cada uno. Supongamos que como observación del grupo i-ésimo se toma
la media aritmética dentro del grupo. El modelo a estimar serı́a:

Ȳi = β1 + β2 X̄i + ūi i = 1, . . . , m (6.5)

y la nueva perturbación ūi seguirá teniendo media cero, pero su varianza no será constante
ya que dependerá del número de observaciones dentro del grupo,
σ2
V ar(ūi ) = i = 1, . . . , m.
ni
Si el número de observaciones dentro del grupo es el mismo en todos los grupos la varianza
de la perturbación ūi es homocedástica.

• Otro caso serı́a la existencia de un cambio estructural en varianza recogido por una
variable ficticia en la varianza de la perturbación.

Ejemplo 6.5 Supongamos que se desea estudiar la relación entre producción, Y , y mano de
obra, X, para un conjunto de 20 trabajadores de los cuales 10 son mujeres y el resto hombres.
Si suponemos que la variabilidad de la producción es distinta para los hombres que para las
mujeres nuestro modelo a estimar serı́a:

Yi = β1 + β2 Xi + ui i = 1, . . . , 20 (6.6)

donde ui ∼ (0, α1 + α2 Di ) siendo Di una variable ficticia que toma valor la unidad si la
observación corresponde a una mujer y cero en el caso contrario. En este caso:

V ar(ui ) = α1 + α2 para las observaciones correspondientes a las mujeres


V ar(ui ) = α1 para las observaciones correspondientes a los hombres

143
Econometrı́a

Suponiendo que las primeras diez observaciones corresponden a mujeres, la matriz de varianzas
y covarianzas del vector de perturbaciones serı́a la siguiente:
· ¸
(α1 + α2 )I10 0
E(uu0 ) =
0 α1 I10

Consecuencias de ignorar la heterocedasticidad

Vamos a analizar las consecuencias de utilizar el estimador MCO en presencia de heterocedasticidad:

• En las propiedades del estimador MCO: El estimador MCO bajo heterocedasticidad


sigue siendo una combinación lineal de las perturbaciones. También sigue siendo insesgado ya
que E(u|X) = 0. Sin embargo, no va a ser de varianza mı́nima ya que la matriz de varianzas
y covarianzas σ 2 (X 0 X)−1 obtenida en el Tema 5 es mı́nima bajo las hipótesis básicas, es decir
bajo E(u0 u|X) = σ 2 IN . Ahora, sin embargo, éstas no se cumplen: estamos considerando el
P
supuesto de heterocedasticidad por tanto E(u2i ) 6= σ 2 , (E(uu0 |X) = ) el Teorema de Gauss-
Markov no se cumple y el estimador no es de varianza mı́nima. Ahora la matriz de varianzas
y covarianzas de los coeficientes obtenida bajo este supuesto no vendrá dada por la expresión
σ 2 (X 0 X)−1 y por tanto no será mı́nima. El estimador no es eficiente.

• En los contrastes de hipótesis: Una forma sencilla de pensar en las consecuencias sobre
los contrastes de hipótesis es pensar que dado que el estimador no es el mejor de los posibles
la inferencia realizada con el mismo no será fiable.
Formalmente lo que está ocurriendo es que el estimador de σ 2 propuesto σ̂ 2 = NSCR
−K ahora no
es insesgado por lo que los estadı́sticos de contraste habituales no tendrán las distribuciones
t y F habituales. Por tanto, los contrastes no son válidos.

La existencia de heterocedasticidad en ui tiene consecuencias en los estimadores MCO, en concreto


ya no son los estimadores de menor varianza entre los estimadores lineales e insesgados. Existe otro
estimador, el estimador de Mı́nimos Cuadrados Generalizados que es el de menor varianza entre
los lineales e insesgados y para el cual la inferencia es válida. Las consecuencias y soluciones del
problema no forman parte del contenido de este curso. Sin embargo, en la siguiente sección vamos
a aprender a detectar la existencia de heterocedasticidad con un estadı́stico de contraste sencillo y
que aparece por defecto en los resultados de estimación MCO de gretl. En cursos más avanzados
aprenderéis a solucionar el problema.

Detección de la heterocedasticidad

Sabemos que en presencia de heterocedasticidad el estimador MCO es ineficiente, y los contrastes de


hipótesis no son válidos por ello es importante detectar la posible existencia de heterocedasticidad.
La determinación de la existencia de heterocedasticidad sólo podremos conseguirla aplicando un
test de contraste para heterocedasticidad, sin embargo podemos aproximarnos gráficamente al pro-
blema realizando un estudio visual de los residuos del modelo. Los residuos MCO son un estimador

144
Econometrı́a

insesgado de ui aún en presencia de heterocedasticidad. Usaremos el residuo al cuadrado como apro-


ximación al comportamiento de la varianza de la perturbación. Para ver si puede existir un problema
de heterocedasticidad podemos empezar por dibujar el cuadrado de los residuos MCO contra la va-
riable de la cual sospechamos que depende σ 2 , es decir, que sospechamos causa la heterocedasticidad

Nuestro objetivo es claro: Detectar la existencia de heterocedasticidad en las perturbacio-


nes de un modelo. La primera aproximación al objetivo es el estudio de los gráficos de residuos
y de las variables del modelo.

6.1.2. Detección gráfica.

La aplicación del estimador de MCG y algunos contrastes de heterocedasticidad requieren conocer


la forma funcional de la varianza de la perturbación. Si suponemos que la varianza de la perturba-
ción depende de uno o más regresores, u otras variables conocidas, un instrumento adecuado para
aproximarnos a la misma serı́a llevar a cabo un análisis de los residuos MCO donde no hemos tenido
en cuenta la existencia de heterocedasticidad. Aunque ûM CO,i no es lo mismo que ui la detección
de patrones sistemáticos en la variabilidad de los residuos MCO nos indicará la posible existencia
de heterocedasticidad en las perturbaciones. Además, puede indicarnos una posible forma funcional
de la misma.
Consideramos el modelo (6.9) recogido en el Ejemplo 6.1:

GSi = β1 + β2 Ri + β3 SENi + β4 P OPi + ui i = 1, . . . , N

donde suponemos E(ui ) = 0 ∀i y E(ui uj ) = 0 ∀i, j i 6= j. Si sospechamos que ui es hetero-


cedástica debido a la variable P OP , podemos intentar detectar la existencia de heterocedasticidad
en las perturbaciones del modelo ayudándonos del gráfico de los residuos MCO, (ûM CO,i ), frente a
la variable P OPi .

Residuos de la regresión (= GS observada − estimada)


5

2
residuos MCO

−1

−2

−3

−4
0 5 10 15 20 25 30
POP

Figura 6.2: Residuos MCO versus P OP

145
Econometrı́a

Si el gráfico es como el recogido en la Figura 6.2 pensaremos que la variabilidad de los residuos
ûM CO,i se incrementan con P OPi y que el incremento es directamente proporcional. Ası́, podrı́amos
proponer, por ejemplo:
E(u2i ) = σ 2 P OPi i = 1, 2, . . . , N

Si el gráfico de los residuos MCO frente a P OP hubiera sido como el recogido en la Figura 6.3
supondrı́amos que el aumento en la varianza de ui es inversamente proporcional a P OPi y propon-
drı́amos:
E(u2i ) = σ 2 P OPi−1 i = 1, 2, . . . , N

2
residuos MCO

-1

-2

-3

-4
0 0.5 1 1.5 2
POP

Figura 6.3: Residuos MCO versus P OP

También podemos optar por dibujar la serie de los residuos al cuadrados MCO frente a la variable
que creemos causa la heterocedasticidad como se muestra en la Figura 6.4. En el gráfico de la
izquierda se muestran los pares (SENi , ûM CO,i ), en el gráfico de la derecha se muestran los pares
(SENi , û2M CO,i ). Ambos gráficos muestran la misma información, muestran que la variabilidad de los
residuos se incrementa con SEN y podrı́amos proponer, por ejemplo V ar(ui ) = E(u2i ) = σ 2 SENi .

Residuos de la regresión (= GS observada − estimada) 20


5
18
4
16

3
Cuadrado de los Residuos MCO

14

2
12
residuos MCO

1
10

0
8

−1 6

−2 4

−3 2

−4 0
6 8 10 12 14 16 18 6 8 10 12 14 16 18
SEN SEN

Figura 6.4: Residuos MCO y sus cuadrados versus SEN

146
Econometrı́a

En general a priori no se conocerá cuál de las variables exógenas genera la heterocedasticidad por
lo que resulta aconsejable estudiar los gráficos de los residuos de MCO, contraponiéndolos a cada
una de las variables exógenas del modelo, como estamos haciendo al estudiar los residuos frente a
P OPi y frente a SENi . Notar que ambas variables parecen afectar a la varianza de la perturbación,
por ello estarı́a justificado proponer V ar(ui ) = (a P OPi + b SENi ), donde a y b son desconocidos y
el factor de escala es la unidad, σ 2 = 1.

1.5

0.5
Residuos MCO

-0.5

-1

-1.5

-2

-2.5
0 5 10 15 20 25 30
POP

Figura 6.5: Perturbaciones homocedásticas

Si la gráfica entre ûM CO,i y P OPi hubiera resultado como la de la Figura 6.5, concluirı́amos que
la varianza de la perturbación no depende de P OPi ya que no se aprecia ningún patrón de com-
portamiento y parece que hay una distribución aleatoria de los pares (P OPi , ûi ). En esta situación
procede analizar los residuos frente al resto de regresores del modelo.
Las formas anteriores no son las únicas. Si recordamos, en el Ejemplo 3.6 se suponı́a una situación
donde hombres y mujeres en una empresa tenı́an diferente productividad y se suponı́a que V ar(ui ) =
α1 + α2 Di siendo Di una variable ficticia que toma valor uno si la observación corresponde a una
mujer y cero en caso contrario. En esta situación esperarı́amos un gráfico como el recogido en la
Figura 6.6 donde claramente la dispersión de los residuos para las mujeres es mucho mayor que para
los hombres.

Como conclusión diremos que al analizar los gráficos de la relación residuos MCO, o sus cuadra-
dos, con cada uno de los regresores lo que intentaremos detectar visualmente es un crecimiento o
decrecimiento en la variabilidad de los residuos con respecto a la variable en cuestión.
Sin embargo el estudio gráfico de los residuos no es determinativo. Para determinar si existe o no
heterocedasticidad tendremos que realizar un contraste de existencia de heterocedasticidad con un
estadı́stico adecuado. Estadı́sticos de contraste de existencia de heterocedasticidad hay muchos y
unos se adecúan más a unas situaciones que otros y en general necesitan suponer una forma funcional
para σi2 . El análisis gráfico no es una pérdida de tiempo ya que la relación entre Xki y ûM CO,i nos

147
Econometrı́a

800

600

400

200

Residuos MCO
0

-200

-400

-600

-800
0 1
D_i

Figura 6.6: Residuos MCO frente a una variable ficticia

indicará una posible forma funcional (de heterocedasticidad) para la varianza de la perturbación y
puede indicarnos cuál es el test de contraste más adecuado. En este tema vamos a estudiar un único
test de heterocedasticidad que tiene carácter general y no exige supuestos sobre el comportamiento
de σi2 . Además gretl lo proporciona directamente.

6.1.3. Contraste de White

El contraste de heterocedasticidad propuesto por White en 1980 es un contraste paramétrico, de


carácter general, que no precisa especificar la forma que puede adoptar la heterocedasticidad. En
este sentido puede calificarse de robusto. Antes de aplicar el contraste con gretl vamos a desarrollar
paso a paso el contraste para entender su mecanismo. Para la ilustración vamos a suponer que
queremos contrastar la existencia de heterocedasticidad en el modelo:

Yi = β1 + β2 X2i + β3 X3i + ui (6.7)

H0 : E(u2i |X) = σ 2 ∀i
Ha : E(u2i |X) = σi2

Se procede de la forma siguiente:

1. Estimamos por MCO el modelo original y calculamos los residuos de MCO, ûM CO,i .

2. Estimamos la regresión auxiliar: el cuadrado de los residuos mı́nimo-cuadráticos de la regresión


anterior, sobre una constante, los regresores del modelo original, sus cuadrados y productos
cruzados de segundo orden, evitando los redundantes:

û2i = α1 + α2 X2i + α3 X3i + α4 X2i


2 2
+ α5 X3i + α6 X2t X3i + ωi (6.8)

Contrastar la hipótesis nula de homocedasticidad es equivalente a contrastar que todos los


coeficientes de esta regresión, exceptuando el término independiente son cero. Es decir:

H0 : α2 = α3 = . . . = α6 = 0

148
Econometrı́a

3. El estadı́stico de contraste es λ = N R2 donde R2 es el coeficiente de determinación de la


regresión auxiliar (6.10). Rechazamos H0 si N R2 > χ(p)|α siendo p el número de coeficientes
en la regresión auxiliar sin incluir el término independiente, en el ejemplo p = 5.

Observaciones:

1. Este contraste es muy flexible ya que no especifica la forma funcional de heterocedasticidad,


pero por otro lado, si se rechaza la hipótesis nula de homocedasticidad no indica cuál puede
ser la dirección a seguir.

2. A la hora de incluir los regresores de la regresión auxiliar debemos ser muy cuidadosos para
no incurrir en multicolinealidad exacta, por ejemplo en el caso de las variables ficticias con
valores 0 y 1, en este caso el cuadrado de la variable coincide con ella misma.

3. También pueden surgir problemas en modelos con un alto número de regresores que puede
conllevar que en la regresión auxiliar el número de variables sea tal que no supere al número
de observaciones y nos quedemos sin grados de libertad. Si éste es el caso podemos optar por
regresar el cuadrado de los residuos MCO sobre Ŷi y Ŷi2 ya que Ŷi es el ajuste de Yi usando
el estimador MCO con todos los regresores originales.

4. El contraste de White puede recoger otro tipo de problemas de mala especificación de la


parte sistemática, omisión de variables relevantes, mala forma funcional etc. Esto es positivo
si se identifica cuál es el problema, en caso contrario, la solución que se tome puede estar
equivocada. Si la detección de heterocedasticidad se debe a un problema de mala especificación
la solución pasa por especificar correctamente el modelo.

6.1.4. Estimador robusto de la matriz de varianzas y covarianzas del estimador MCO


bajo heterocedasticidad. Contraste de hipótesis

• En presencia de heterocedasticidad los estimadores de MCO son lineales e insesgados pero


ineficientes. Su matriz de varianzas y covarianzas se define σ 2 (X 0 X)−1 X 0 ΩX(X 0 X)−1 .

• El estimador de la matriz de varianzas y covarianzas del estimador MCO cuando no tenemos


en cuenta la existencia de heterocedasticidad es:

û0 ûM CO
Vd
ar(β̂M CO ) = σ̂ 2 (X 0 X)−1 donde σˆ2 = M CO
N −k

utilizar este estimador para hacer inferencia no es adecuado.

• Los estadı́sticos t y F habituales para hacer inferencia sobre β definidos en base a este estimador
de la matriz de varianzas y covarianzas del estimador MCO son inapropiados ya que:

- σ̂ 2 es un estimador sesgado

149
Econometrı́a

- y además (X 0 X)−1 6= (X 0 X)−1 X 0 ΩX(X 0 X)−1 .

• Para encontrar estas varianzas y covarianzas es necesario conocer Ω.

• La dificultad que entraña el conocimiento de Ω hace interesante el poder contar con una esti-
mación consistente, y robusta a la posible existencia de heterocedasticidad, de V ar(β̂M CO ) y
de esta forma derivar estadı́sticos válidos, al menos asintóticamente, para contrastar hipótesis
sobre el vector de coeficientes β.

• White (1980) demuestra que un estimador consistente de la matriz de varianzas y covarianzas


asintótica de β̂M CO en presencia de heterocedasticidad es:

(X 0 X)−1 (X 0 SX)(X 0 X)−1 = Vd


ar(β̂M CO )W hite

donde S = diag(û21 , û22 , . . . , û2N ) esta matriz de varianzas y covarianzas consistente asintóti-
camente puede ser utilizada para hacer inferencia válida al menos asintóticamente utilizando
β̂M CO sin tener que especificar a priori la estructura de heterocedasticidad.

• Ası́ un estadı́stico válido para contrastar cuando existe heterocedasticidad es:

H0 : βj = c β̂j,M CO − c H0
−→ N (0, 1)
Ha : βj 6= c d
desv(β̂j,M CO )W hite

d β̂j,M CO )W hite se busca apropiadamente en la matrix Vd


Donde desv( ar(β̂M CO )W hite La regla
de decisión es la habitual.

6.2. Heterocedasticidad en gretl

Ejemplo
El Departamento de Sanidad de E.E.U.U. quiere estudiar la relación entre el gasto sanitario agregado
en billones de dólares (exphlth), la renta personal disponible agregada también en billones de dólares
(income), el porcentaje de población que supera los 65 años en el año 2005 (seniors) y la pobla-
ción en millones (pop). Para ello encarga un estudio a dos becarios de la facultad de Económicas de
Harvard poniendo a su disposición datos de 2005 para dichas variables sobre 51 estados americanos1 .

Puedes acceder a estos datos ejecutando GRETL → En Archivo → Abrir datos → Archivo de
muestra → Elige Ramanathan, fichero data8-3.gdt.

1. Escribe el modelo que te permita analizar la influencia de las variables explicativas income,
seniors y pop sobre la variable exphlth. Estı́malo por MCO. Interpreta los resultados de la
estimación en términos de significatividad y bondad del ajuste.
1
Fuente: Ramanathan, Ramu (2002): Introductory Econometrics with Applications, fichero data8-3.gdt.

150
Econometrı́a

El modelo a estimar es:

EXP HLT Hi = β1 + β2 IN COM Ei + β3 P OPi + β4 SENi + ui i = 1, . . . , N (6.9)

Los resultados de la estimación por Mı́nimos Cuadrados Ordinarios son los siguientes:

Modelo 1: MCO, usando las observaciones 1–51


Variable dependiente: exphlth

Coeficiente Desv. Tı́pica Estadı́stico t valor p


const −3.93356 1.34384 −2.9271 0.0053
income 0.106889 0.0141020 7.5797 0.0000
pop 0.784397 0.312314 2.5116 0.0155
seniors 0.314650 0.102968 3.0558 0.0037

Media de la vble. dep. 15.26494 D.T. de la vble. dep. 17.88771


Suma de cuad. residuos 112.4706 D.T. de la regresión 1.546929
R2 0.992970 R2 corregido 0.992521
F (3, 47) 2212.858 Valor p (de F ) 1.40e–50
Log-verosimilitud −92.53295 Criterio de Akaike 193.0659
Criterio de Schwarz 200.7932 Hannan–Quinn 196.0187

Los resultados de la estimación muestran un buen ajuste, explicamos el 99, 3 % de la variabi-


lidad del gasto sanitario con la variación de las variables exógenas. Además las variables son
significativas a nivel individual y conjunto.

2. Obtén los siguientes gráficos y comenta la información que te proporcionan

a) Gráfico de la serie de residuos MCO.


b) Gráfico de residuos MCO sobre la variable income.
c) Gráfico de residuos MCO sobre la variable pop.

Residuos de la regresión (= exphlth observada - estimada)


5
4
3
2
residuo

1
0
-1
-2
-3
-4
0 10 20 30 40 50

Figura 6.7: Residuos MCO

151
Econometrı́a

La Figura 6.7 muestra los residuos MCO, ûM CO,i por observación. Los residuos aparecen cen-
trados en torno al valor cero como corresponde a su media. Para las 25 primeras observaciones
la dispersión de los residuos permanece más o menos constante salvo en dos observaciones. En
adelante la observación 25 aumenta la dispersión en los residuos.

3. Gráfico de la serie de residuos MCO sobre la variable INCOME.

Residuos de la regresión (= exphlth observada - estimada)


5

2
residuo

-1

-2

-3

-4
0 100 200 300 400 500 600 700
income

Figura 6.8: Residuos MCO versus INCOME

La Figura 6.8 muestra los pares (IN COM Ei , ûM CO,i ). Para valores de IN COM E en el
intervalo (0, 100) vemos una alta concentración de observaciones donde la dispersión de los
residuos permanece más o menos constante salvo en dos observaciones. En adelante al valor
100 y a medida que IN COM E toma valores mayores aumenta la dispersión en los residuos y
la concentración desaparece.

4. Gráfico de residuos MCO sobre la variable POP.

Residuos de la regresión (= exphlth observada - estimada)


5

2
residuo

-1

-2

-3

-4
0 5 10 15 20 25 30
pop

Figura 6.9: Residuos MCO versus POP

152
Econometrı́a

La Figura 6.9 muestra los pares (P OPi , ûM CO,i ). Para valores de P OP en el intervalo (0, 5)
vemos una alta concentración de observaciones donde la dispersión de los residuos permanece
más o menos constante salvo en dos observaciones. En adelante al valor 5 y a medida que P OP
toma valores mayores aumenta la dispersión en los residuos y la concentración desaparece. Este
gráfico replica la forma del comentado anteriormente.

5. Contrasta la existencia de heterocedasticidad.


Regresión auxiliar:
û2i = α1 + α2 IN COM Ei + α3 P OPi + α4 SENi + α5 IN COM Ei2 + α6 P OPi2

+α7 SENi2 + α8 IN COM Ei P OPi + α9 IN COM Ei SENi

+α11 P OPi SENi + ωi (6.10)

Contrastar la hipótesis nula de homocedasticidad es equivalente a contrastar que todos los


coeficientes de esta regresión, exceptuando el término independiente son cero. Es decir:

H0 : α2 = α3 = α4 = . . . = α10 = 0

El estadı́stico de contraste es λ = N R2 donde R2 es el coeficiente de determinación de la


regresión auxiliar (6.10). Rechazamos H0 si N R2 > χ(p)|α siendo p el número de coeficientes
en la regresión auxiliar sin incluir el término independiente, en el ejemplo p = 9.
Encontramos este contraste en Gretl en la pantalla de resultados de la estimación MCO pin-
chando en la pestaña Contrates y seleccionando:

Heterocedasticidad → Contraste de White

Gretl nos devuelve el siguiente resultado:


Contraste de heterocedasticidad de White MCO, usando las observaciones 1-51
Variable dependiente: uhat2

Coeficiente Desv. Tı́pica Estadı́stico t valor p

const 10.8361 4.89514 2.214 0.0325 **


income -0.712618 0.348653 -2.044 0.0474 **
pop 15.7074 7.42431 2.116 0.0405 **
seniors -2.00213 0.965046 -2.075 0.0443 **
sq income -0.000884586 0.00102650 -0.861 0.3938
X2 X3 0.0515366 0.0467038 1.103 0.2763
X2 X4 0.0561182 0.0258280 2.173 0.0356 **
sq pop -0.715606 0.534564 -1.339 0.1881
X3 X4 -1.17973 0.547742 -2.154 0.0372 **
sq seniors 0.0860328 0.0461497 1.864 0.0695 *

153
Econometrı́a

R-cuadrado = 0.778511
Estadı́stico de contraste: T R2 = 39,704042,
con valor p= P (Chi − cuadrado(9) > 39,704042) = 0,000009

T R2 = 39,704042 > χ2(9)0,05 = 16, 919 luego rechazamos la hipótesis nula para α = 5 % y
existe heterocedasticidad

6. A la vista de lo resultados del contraste contrasta apropiadamente la significatividad individual


de la variables POP.
Dado que existe heterocedasticidad el estimador de MCO es lineal e insesgado pero no es de
varianza mı́nima. Además la inferencia en base a los estadı́stico t y F habituales no es válida.
Para poder realizar inferencia válida con el estimador MCO debemos estimar su matriz de
varianzas y covarianzas de forma robusta con el estimador de White.
Encontramos esta estimación en Gretl en la pestaña Modelo pinchamos en Mı́nimos Cuadrados
Ordinarios, seleccionamos apropiadamente las variables y Clikcamos en Desviaciones tı́picas
Robustas eligiendo la opción HC0
Gretl nos devuelve los siguientes resultados:

Modelo 2: MCO, usando las observaciones 1–51


Variable dependiente: exphlth
Desviaciones tı́picas robustas ante heterocedasticidad, variante HC0

Coeficiente Desv. Tı́pica Estadı́stico t valor p


const −3.93356 1.54437 −2.5470 0.0142
income 0.106889 0.0259509 4.1189 0.0002
pop 0.784397 0.540137 1.4522 0.1531
seniors 0.314650 0.118378 2.6580 0.0107

Media de la vble. dep. 15.26494 D.T. de la vble. dep. 17.88771


Suma de cuad. residuos 112.4706 D.T. de la regresión 1.546929
R2 0.992970 R2 corregido 0.992521
F (3, 47) 1026.139 Valor p (de F ) 8.05e–43
Log-verosimilitud −92.53295 Criterio de Akaike 193.0659
Criterio de Schwarz 200.7932 Hannan–Quinn 196.0187

realizamos el contraste pedido, contrastamos:

H0 : β3 = 0 β̂3,M CO 0H
−→ N (0, 1)
Ha : β3 6= 0 d β̂3,M CO )W hite
desv(

El valor muestral del estadı́stico que nos proporciona gretl es 1, 4522 < 1, 96 = N (0, 1)0,025
luego no rechazamos la hipótesis nula para un nivel de significatividad del 5 % luego la variable
Población no es significativa para explicar el gasto en sanidad.

154
Econometrı́a

6.3. Bibliografı́a del tema

Referencias bibliográficas básicas:


• Teórica:
[1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición.
[2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a.
Prentice Hall. Madrid.
[3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición.
[4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición,
Editorial AC, Madrid.
• Ejercicios con gretl:
[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.

Referencias Bibliográficas Complementarias:


[1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de
regresión con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y −
juridicas/analisis − de − regresion − con − greti/Coursel isting).
[2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a
Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación on-
line de la Facultad de C.C. Económicas y Empresariales.
[3] Esteban, M.V. (2007). Estadı́stica Actuarial: Regresión. Material docente. Servicio de Publica-
ciones.
[4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08. Publica-
ción on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarriko-
online.com.
[5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publi-
caciones.
[6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a.
Editorial McGraw-Hill.
[7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición.
[8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.
[9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley.

155
Econometrı́a

156

También podría gustarte