ECONOMETRIA Completo PDF
ECONOMETRIA Completo PDF
ECONOMETRIA Completo PDF
Autor:
M. Victoria Esteban González
c
°UPV/EHU 2018.
Econometrı́a
ii
Presentación
iii
Econometrı́a
Grados en Economı́a, Marketing, Fiscalidad y Administración Pública. Ası́ mismo sirven de apoyo
a estudiantes de master por ejemplo el Master en Ciencias Actuariales y Financieras o el Master
Universitario en Banca y Finanzas Cuantitativas.
La asignatura de Econometrı́a es una asignatura de 6 créditos ECTS que conlleva 60 horas de trabajo
presencial en el aula y 90 horas de trabajo no presencial. La metodologı́a y modalidades docentes a
utilizar están sujetas al criterio del docente y pueden variar cada curso académico. Hay que tener
en cuenta que la organización de la metodologı́a docente junto con el diseño de los contenidos de
los temas del curso van dirigidos a que los alumnos alcancen las siguientes competencias especı́ficas
de la asignatura:
C1. Analizar de forma crı́tica los elementos básicos del modelo de regresión lineal con el objetivo de
comprender la lógica de la modelización econométrica y poder especificar relaciones causales
entre las variables.
C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.
C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.
C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.
A lo largo del curso se trabajan las siguientes Competencias Transversales del módulo1 :
CT1. Capacidad para emitir juicios razonados apoyándose en los datos obtenidos (M03CM02).
CT2. Desarrollar las habilidades de aprendizaje para adquirir un alto grado de autonomı́a, tanto de
cara a emprender estudios posteriores como de cara a su propia autoformación (M03CM05).
CT5. Capacidad para comunicarse en una lengua extranjera, preferentemente en inglés, francés o
alemán (M03CM13).
Los Resultados de Aprendizaje que se pretende que el alumnado adquiera con los contenidos y
metodologı́a de la asignatura son los siguientes:
1
Los códigos de las competencias transversales se corresponden con las del Módulo Avance en la Administración y
Dirección de empresas recogidas en la memoria del grado (www.ehu.eus).
iv
Econometrı́a
- Interpretar los coeficientes del modelo de regresión, incluyendo los de especificaciones no li-
neales en las variables (C1, C3).
- Comprobar la validez de algunos de los supuestos básicos del modelo de regresión y aprender
a modificar el análisis en caso de incumplimiento (C3).
El sistema actual de docencia dentro del EEES tiene como ejes fundamentales el proceso de en-
señanza-aprendizaje y la adquisición no sólo de conocimientos, sino también, y fundamentalmente,
de destrezas implica directamente la valoración del trabajo diario del alumno y su evolución en la
adquisición de las competencias. La utilización de la evaluación continua en la evaluación de los
alumnos implica la realización, junto con otras pruebas y tareas que el docente crea de interés, de
test rápidos o de preguntas cortas en relación a todo lo visto en las clases, conceptos teóricos y
ejercicios prácticos incluido el software gretl que permitan evaluar al alumno y saber si han adqui-
rido los resultados del aprendizaje alcanzando ası́ las competencias especı́ficas. Parte de las pruebas
tendrán componente de sorpresa, es decir sin previo aviso, y parte serán pactadas en cuanto a fecha.
Como se indicaba anteriormente estas notas sirven de apoyo al estudio. Analizan los problemas en
profundidad y permiten al alumno profundizar en los temas que conforman el contenido del curso.
Ası́ mismo tienen una fuerte vertiente práctica que permitirá al alumno no solo saber sino también
saber hacer. En ningún caso deben utilizarse como sustituto de los libros incluidos en la bibliografı́a.
De igual manera se recomienda la realización de ejercicios tanto los recomendados en clase como los
que aparecen en la bibliografı́a. La unión del estudio de los conceptos y la utilización de los mismos
en los ejercicios permite adquirir la agilidad necesaria para el dominio de la asignatura y alcanzar
las competencias especı́ficas de la misma.
v
Econometrı́a
A lo largo del curso se muestra cómo utilizar un software gretl que permite al alumno un afian-
zamiento de los contenidos teóricos del curso de Econometrı́a como la puesta en práctica de casos
reales con la utilización del software gretl2 .
gretl es software libre especialmente dirigido hacia la práctica de la econometrı́a y la estadı́stica,
muy fácil de utilizar. Ha sido elaborado por Allin Cottrell (Universidad Wake Forest) y existen
versiones en inglés, castellano y euskera, además de en otros idiomas. Junto con el programa se
pueden cargar los datos utilizados como ejemplos de aplicaciones econométricas en los siguientes
libros de texto Davidson y Mackinnon (2004), Greene (2008), Gujarati (1997), Ramanathan (2002),
Stock y Watson (2003), Verbeek (2004), Wooldridge (2003). Al instalar gretl automáticamente se
cargan los datos utilizados en Ramanathan (2002) y Greene (2008). El resto se pueden descargar
de la página:
http : //gretl.sourcef orge.net/gretl− data.html
en la opción textbook datasets. Este curso se estructura sobre casos prácticos presentados en Rama-
nathan (2002) y en Wooldridge (2003) y ejercicios a resolver con ayuda de gretl.
También da acceso a bases de datos muy amplias, tanto de organismos públicos, como el Banco de
España, como de ejemplos recogidos en textos de Econometrı́a. En la página
http://www.learneconometrics.com/gretl.html
2
Acrónimo de Gnu Regression, Econometric and Time Series (Biblioteca Gnu de Regresión Econometrı́a y Series
Temporales)
vi
Contenido
1. Introducción a la Econometrı́a 1
1.1. ¿Qué es la Econometrı́a? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Modelo económico y modelo econométrico . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Etapas en la elaboración de un modelo econométrico . . . . . . . . . . . . . . . . . . 5
1.4. Tipologı́a de datos y variables en Econometrı́a . . . . . . . . . . . . . . . . . . . . . 6
1.4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2. Fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5. Tratamiento de la información con gretl : inclusión de datos en gretl y análisis des-
criptivo básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
vii
Econometrı́a
viii
Econometrı́a
ix
Econometrı́a
x
Figuras
xi
Econometrı́a
xii
Tablas
xiii
Tema 1
Introducción a la Econometrı́a
En este tema y siguientes vamos a abordar cómo se relacionan las variables entre sı́. De ello se ocupa
la Econometrı́a. Ası́, en estos temas aprenderemos a interpretar la información estadı́stica sobre la
realidad económica. La importancia de la Econometrı́a va más allá de la disciplina de la economı́a.
La Econometrı́a es un conjunto de instrumentos de investigación empleados en finanzas, marketing,
dirección de empresas, negocios, historia, sociologı́a incluso agronomı́a.
La herramienta básica es un modelo econométrico que conjuga los esquemas teóricos sobre el funcio-
namiento de la Economı́a con las técnicas estadı́sticas de análisis de datos. Un modelo puede tener
una estructura muy compleja, pero nos centramos en el modelo más sencillo, y que da contenido
a buena parte de la asignatura, el modelo de regresión lineal simple. Este modelo explica el
comportamiento de una única variable económica mediante el comportamiento de otra variable.
Una vez comprendamos los mecanismos de funcionamiento y relaciones entre las variables de este
modelo pasaremos a estudiar un modelo más amplio, el modelo de regresión lineal general. A
diferencia del Modelo de Regresión Lineal Simple este modelo explica el comportamiento de una
única variable económica mediante un conjunto de variables.
En este tema definiremos la disciplina de la Econometrı́a e introduciremos conceptos relacionados
con un modelo econométrico: los datos, las variables, los parámetros, entre otros elementos de un
modelo.
El desarrollo de la Econometrı́a ha sido enormemente facilitado por el avance en la informática. El
curso, con gran componente aplicado necesita complementarse con el aprendizaje de un software
econométrico. El paquete econométrico a utilizar es gretl; se trata de software de libre uso, fácil
de manejar y que tiene acceso a las bases de datos que se estudian en muchos libros de análisis
econométrico. El alumno deberá aprender su manejo, en paralelo con los conceptos estadı́sticos y
econométricos, y a interpretar adecuadamente los resultados obtenidos.
Objetivo de aprendizaje:
Comprender la lógica de la modelización econométrica y las caracterı́sticas de los diferentes elemen-
tos de los modelos, ası́ como la relevancia de cada uno de los supuestos empleados en la especificación
de un modelo.
1
Econometrı́a
Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:
2
Econometrı́a
Como es sabido la Teorı́a Económica se ocupa del análisis de la economı́a, como consecuencia del
mismo formula las relaciones existentes entre las variables económicas objeto de estudio. Sin embargo
la teorı́a Económica no se ocupa de cuantificarlas, éste es un cometido especı́fico de la Econometrı́a,
que sı́ tiene como objetivo cuantificar las relaciones entre variables. Unido a este objetivo aparece un
pilar clave para la Econometrı́a que es la disponibilidad de información cuantificada sobre las varia-
bles que son objeto de estudio, en definitiva lo que llamamos datos. Las Matemáticas nos servirán
para escribir en términos de ecuaciones las teorı́as económicas objeto de estudio y la Estadı́stica nos
proporciona instrumentos para el tratamiento de datos que nos permiten cuantificar las relaciones y
valorar los resultados de acuerdo a criterios establecidos. En ocasiones nos encontraremos con pro-
blemas especı́ficos para los que la estadı́stica no tiene solución y por ello necesitaremos desarrollar
los instrumentos y métodos apropiados para llevar a cabo los objetivos.
Resumiendo, podrı́amos decir que los objetivos de la Econometrı́a son: verificación de una teorı́a,
estudio del pasado, descripción del presente, predicción del futuro y orientación de la acción polı́tica.
Para tratar de entender las relaciones entre la Econometrı́a y las otras materias mencionadas en el
apartado anterior vamos a desarrollar un ejemplo.
Supongamos que somos el gerente de una empresa y que estamos interesados en la relación existente
entre las ventas de un producto de la empresa y su precio, las condiciones de la competencia y el
ciclo económico. Un modelo que tiene en cuenta estos supuestos podrı́a ser el siguiente:
3
Econometrı́a
El gerente también dispondrá de información en forma de cifras o datos sobre cuales eran las
ventas correspondientes a los diferentes precios que ha podido alcanzar su producto, el precio de
la competencia y el momento del ciclo económico, variable que puede aproximarse a una variable
cuantitativa que se mueva con el ciclo económico, por ejemplo el Índice de Producción Industrial.
Por ahora como gerentes de la empresa disponemos de dos informaciones distintas. Por un lado
disponemos de un modelo económico que nos relaciona un conjunto de variables y por otro dispone-
mos de observaciones o datos sobre las mismas para un periodo de tiempo dado. El gerente también
dispone de un objetivo que es saber como responden las ventas de su producto a cambios en su
precio. Para unir ambos conjuntos de información podemos empezar por dar forma a la función.
La elección más sencilla serı́a tomar una relación lineal, que para la ecuación (1.1) determinarı́a el
siguiente modelo:
Vt = β1 + β2 pt + β3 pct + β4 ct (1.2)
podemos relacionar las variables con los valores que han tomado en cada momento siguiendo la
ecuación (1.2). Ası́ en enero de 1980 la relación entre las ventas y el resto de variables ha sido:
Estas relaciones se repetirı́an para cada mes del que tengamos datos. Como el valor de las variables
cambia de un mes a otro, para que las igualdades se cumplan también deben cambiar los valores de
los parámetros. Este no es el objetivo del gerente, quién necesita la mejor aproximación posible del
valor de las ventas al precio, que resuma toda la información disponible del periodo considerado.
Para ello consideraremos que el modelo debe reflejar el comportamiento medio de la relación entre
variables manteniéndose la relación entre las variables estable. Para que esto se cumpla y podamos
recoger el comportamiento medio incluiremos en el modelo un nuevo elemento al que llamaremos
ut . Ası́ el modelo especificado será:
Vt = β1 + β2 pt + β3 cpt + β4 ct + ut (1.3)
El nuevo elemento deberá ser capaz de mantener la igualdad de la relación para cualquier conjunto
de datos, tomando por tanto a veces valores positivos y en otras ocasiones valores negativos; a
veces grandes, a veces pequeños. La interpretación del mismo resulta bastante intuitiva: recoge
4
Econometrı́a
todos los efectos que afectan a las ventas en cada perı́odo muestral y que no están explı́citamente
recogidos en las variables que el modelo contiene. Si el modelo ha recogido todas las influencias
“importantes y sistemáticas” que existen sobre las ventas, el nuevo elemento, que en adelante
llamaremos perturbación recogerá los efectos no sistemáticos que serán, en general, más erráticos.
Por tanto es factible considerar su comportamiento como aleatorio. Ası́ a la perturbación ut se le
trata como una variable aleatoria cuya distribución de probabilidad es preciso especificar al mismo
tiempo que el resto del modelo.
Dado que el modelo recogido por la ecuación (1.3) contiene una variable aleatoria para obtener
resultados a partir del mismo necesitaremos de la Estadı́stica. Mediante procedimientos estadı́sticos
podremos cuantificar la relación entre las variables, obteniendo valores numéricos para los coefi-
cientes β1 , β2 , β3 y β4 que reflejen la información que contienen los datos. De esta forma el modelo
general representado por la ecuación (1.3) que en principio puede servir para analizar el comporta-
miento de cualquier empresa servirá para contestar a las preguntas que el gerente se hace sobre su
propia empresa convirtiéndose en un modelo especı́fico válido para la toma de decisiones.
El ejemplo anterior describe una situación muy concreta pero la Econometrı́a es útil en otras muchas
situaciones, por ejemplo:
• Para analizar el efecto del impacto de cambios en la polı́tica fiscal sobre los indicadores
económicos de un paı́s, la demanda interna, los tipos de interés, exportaciones e importa-
ciones, desempleo, grado de morosidad.
• Los directivos de la empresa Mercedes pueden estar interesados en los factores que determinan
la demanda de automóviles.
• Analizar si las campañas publicitarias contra el consumo de alcohol cuando se conduce reduce
el número de siniestros.
Un estudio econométrico consta de las siguientes etapas, Heij , de Boer, Franses, Kloer y Dijk (2004):
5
Econometrı́a
• Recolección de datos estadı́sticos relevantes para el análisis. En el caso del gerente los datos
están disponibles en los balances de la propia empresa. Los resultados del análisis van a
depender en gran medida de la calidad de los datos. Sin embargo, no siempre es sencillo
obtener los datos relevantes para el análisis. Podemos encontrar problemas como la ausencia
de algún dato, cambios en la definición de una variable, fallos en el método de recogida, tener
una cantidad insuficiente de datos o no disponer de información relativa a una variable.
• Formulación y estimación del modelo. En esta fase hay que dar forma al problema inicial
en términos de un modelo. Determinar la variable a explicar, en el ejemplo las ventas, y las
variables explicativas, en el ejemplo el precio, el precio de la competencia y el ciclo económico;
la forma funcional del modelo y la distribución probabilı́stica de la perturbación aleatoria.
El siguiente paso es la estimación de los parámetros desconocidos de la distribución y que son
de interés para el análisis. La estimación consiste en utilizar los datos y toda la información
relevante para aprender algo sobre los parámetros desconocidos. En la interpretación de los
resultados de estimación es importante tener en cuenta que no conocemos el valor de los
parámetros, por lo que únicamente vamos a hacer afirmaciones del tipo “con un 95 % de
confianza, el aumento del impuesto sobre carburantes no afecta al consumo de gasolina”.
Existen muchos métodos de estimación. La elección entre uno u otro depende de las propie-
dades del modelo econométrico seleccionado. Es decir, una mala selección del modelo también
influye en la validez de las estimaciones. Un curso introductorio de Econometrı́a, como este,
se suele centrar en el estudio del modelo de regresión lineal y su estimación mediante mı́nimos
cuadrados ordinarios, que son instrumentos sencillos y muy útiles en la práctica.
• Análisis del modelo. Se trata de estudiar si el modelo elegido es adecuado para recoger el
comportamiento de los datos. Consiste en una serie de contrastes diagnósticos que valoran si
el modelo está correctamente especificado, es decir, si los supuestos realizados son válidos. Si
es necesario, se modifica el modelo en base a los resultados obtenidos en los contrastes.
• Aplicación del modelo. Una vez obtenido un modelo correcto, se utiliza para responder a las
cuestiones de interés y para la predicción. Un modelo correctamente especificado y estimado
ha de ser utilizado para predecir. Este concepto implica tanto determinar los valores futuros
de la variable endógena como contestar a preguntas del tipo ¿qué pasarı́a sı́...?, en definitiva
debe servirnos para dar consejos de polı́tica económica.
6
Econometrı́a
tiempo. El subı́ndice t hace referencia al tiempo y por tanto T indica el tamaño de la muestra de
observaciones disponible.
La diferencia entre un modelo económico y un modelo econométrico es la perturbación aleatoria
que incluimos en el modelo econométrico. A partir de este elemento en el modelo econométrico
podemos distinguir dos partes la parte sistemática del modelo y la parte aleatoria. La primera
corresponde al comportamiento medio o estable de la relación y la segunda se corresponde con la
perturbación aleatoria, ut .
El objetivo sobre el modelo genérico representado por la ecuación (1.4) es conocer los valores de los
parámetros desconocidos βk k = 1, 2, . . . , K. Para llevar a cabo este objetivo utilizaremos métodos
estadı́sticos. Para ello al modelo especificado deberemos de añadir hipótesis sobre el comportamiento
probabilı́stico de la perturbación aleatoria que caractericen su distribución. En general, supondremos
que dicha perturbación tiene una distribución centrada en cero, o sea media cero, lo que implica
que el comportamiento medio de la variable a explicar está recogido en su totalidad por la parte
sistemática del modelo:
En los puntos anteriores han surgido algunos conceptos que deberı́an quedar claros para poder
referirnos a ellos con propiedad. Revisaremos algunos de ellos.
• Población y muestra:
Población son todos los posibles valores que toma la variable objeto de estudio. La muestra
serı́a la parte de la población que vamos a utilizar en el estudio para extraer conclusiones.
Por tanto la muestra está contenida en la población y nosotros la utilizaremos para establecer
conclusiones que puedan extrapolarse a la población.
• Datos:
Los datos son los valores numéricos que toman tanto la variable a explicar como las variables
explicativas. Generalmente los obtenemos de series estadı́sticas cuyas fuentes pueden ser ofi-
ciales o privadas. La importancia de los datos está determinada por la unidad de medida. Los
podemos clasificar en:
1. Datos de serie temporal: Reflejan la evolución de una variable a lo largo del tiempo,
según esto la variable estará ordenada cronológicamente con un orden lógico. Las varia-
bles medidas en series temporales se denotan con el subı́ndice t y este puede referirse a
observaciones temporales mensuales, trimestrales, diarias cuatrimestrales, anuales, etc.
Ejemplo: el Producto Nacional Bruto (PNB) de 1965-2000. En este caso la población
serı́an todos los posibles valores del PNB a lo largo del tiempo y la muestra el perı́odo
que vamos a estudiar, de 1965 al 2000.
7
Econometrı́a
2. Datos de sección cruzada o corte transversal: Son datos atemporales dado que miden
el comportamiento de una variable en diferentes unidades y en el mismo momento del
tiempo. Ejemplo: ventas de las empresas metalúrgicas en el Paı́s Vasco en el año 1999.
Esta serı́a la muestra a utilizar y la población estarı́a constituida por todas las unidades.
3. Datos de panel : es la unión de datos de serie temporal y datos de sección cruzada. Están
fuera del objetivo del curso.
• Variables:
Una variable es un ente económico que toma diferentes valores. Podemos distinguir entre va-
riables exógenas, aquellas que inciden en el modelo desde el exterior y variables endógenas,
aquellas que queremos explicar con el modelo. A las variables exógenas también se las de-
nomina variables explicativas o independientes y a la variable endógena también se le puede
denominar como variable a explicar o dependiente. Además debemos tener en cuenta que
podemos encontrarnos con relaciones simultáneas como:
Yt = β1 + β2 Yt−1 + ut
o como
Ct = β1 + β2 Yt + ut Yt = Ct + It
donde las variables cambian su papel según miremos a una ecuación u otra. Podemos distinguir,
entre otros, los siguientes tipos de variables:
definen dos variables cualitativas S1i y S2i que permiten recoger el sexo del individuo y
ver por ejemplo si existe discriminación salarial por sexo en un estudio sobre la función
de salario.
• Los parámetros:
Los parámetros son los valores que permanecen desconocidos del modelo. En un modelo eco-
nométrico podemos distinguir dos tipos de parámetros:
8
Econometrı́a
1. Los parámetros de la relación económica: Son las ponderaciones que aplicadas a las
variables exógenas nos permiten calcular la endógena.
Vt = β1 + β2 pt + β3 cpt + β4 ct + ut (1.6)
En el modelo anterior β1 , β2 , β3 y β4 .
2. Los parámetros de la estructura probabilı́stica: son los parámetros que determinan la
estructura de la parte aleatoria del modelo, media y varianza de la perturbación aleatoria
y de la variable endógena.
• Modelo:
Hemos visto que un modelo no es más que un conjunto de relaciones entre variables económicas
y que representamos mediante relaciones matemáticas. Clasificación de los modelos:
1. - Modelos exactos: aquellos que determinan exactamente el valor de una variable conocido
el valor de otra-s:
Y = β1 + β2 X
Yt = β1 + β2 Xt + ut u ∼ (m(u), V (u))
Ct = β1 + β2 Yt + ut
Ct = β1 + β2 Yt + ut Yt = Ct + It
Ct = β1 + β2 Yt + β3 t + ut
9
Econometrı́a
β2 parámetro poblacional
β̂2 estimador
0,5 estimación
• Estructura:
Cuando estudiamos la relación entre las variables económicas especificamos un modelo eco-
nométrico. En la especificación elegimos la forma funcional del modelo y las variables explica-
tivas a incluir ası́ como las propiedades de la perturbación. Una vez que el modelo está total-
mente especificado le estimaremos y tendremos unos valores para los parámetros. A la relación
resultante le llamamos estructura. Un modelo especificado serı́a:
Yt = β1 + β2 Xt + ut t = 1, 2, . . . , T
mientras que una estructura para ese modelo dada una muestra de tamaño T podrı́a ser:
Ŷt = 20 + 5Xt
Notar que un modelo puede tener diferentes estructuras según los valores que las variables
exógena y endógena tomen en la muestra.
Encontrar y recopilar datos no es siempre sencillo. En ocasiones es muy costoso coleccionar los datos
adecuados a la situación y manejarlos. Sin embargo, esta tarea se ha visto favorecida en los últimos
10
Econometrı́a
años por la mejora en la recogida de datos y el hecho de que muchos organismos permiten acceder a
sus bases de datos en la World Wide Web. Algunos organismos que publican datos macroeconómicos
son:
• Fondo Monetario Internacional (FMI): http://www.imf.org. Para obtener datos sobre un am-
plio conjunto de paı́ses también se puede consultar su publicación Estadı́sticas Financieras
Internacionales (mensual y anual).
Muchos manuales de Econometrı́a incluyen una base de datos que se analizan en el texto como ilus-
tración a la materia. En este curso utilizaremos principalmente los datos incluidos en Ramanathan
(2002) y Wooldridge (2006) que están accesibles como archivos de muestra en gretl.
gretl es un programa que permite obtener de manera sencilla mediante ventana resultados estadı́sti-
cos y econométricos. Una vez ejecutado el programa gretl en la ventana principal aparece un menú de
ventanas que nos permite diferentes posibilidades. En la pantalla principal, una vez abierto gretl
nos aparecen las siguientes pestañas:
Archivo Herramientas Datos Ver Añadir Muestra Variable Modelo Ayuda
Pero solo tres de ellas están activas, las distinguimos porque las no activas aparecen en gris mien-
tras que las activas están en negrita. Las activas son Archivo, Herramientas y Ayuda. En la primera
leemos datos. Empezaremos viendo como leer datos. Dependiendo del origen de éstos si están en
una archivo de muestra incluido en gretl , si están disponibles en papel, en la web o en un archivo
11
Econometrı́a
Mostrar valores
Editar los valores
Información del conjunto de datos
Estructura del conjunto de datos
Para obtener lo que necesitamos sólo tenemos que pinchar la etiqueta correspondiente y la variable
o variables a estudiar. Por ejemplo para ver la estructura del conjunto de datos pinchamos en
esta etiqueta y obtendremos una pantalla en la que aparecerá seleccionado el tipo de datos con el
que estamos trabajando, en este caso Serie temporal. Pinchamos adelante y veremos la frecuencia,
mensual, y el inicio y final de la muestra 1968:1 a 1998:12. La etiqueta estructura del conjunto
de datos es muy útil cuando necesitamos cambiar alguno de ellos por ejemplo si añadimos nuevas
observaciones.
En el menú inicial aparece también la etiqueta Ver con, entre otras, las siguientes opciones:
Gráficos
Gráficos múltiples
Estadı́sticos principales
Matriz de correlación
12
Econometrı́a
La ventana de output mostrará la media, moda, valor máximo y mı́nimo de la serie, desviación
tı́pica, coeficiente de variación, curtosis y asimetrı́a. Podemos obtener los estadı́sticos para una
única serie o para el conjunto de ellas seleccionándolo previamente.
Si queremos guardar el output pinchamos en el icono del diskette arriba a la izquierda y selecciona-
mos cómo queremos que lo guarde, texto plano, Word o Latex y en la ventana damos el nombre que
deseemos al fichero de resultados, por ejemplo estadVW para la serie CRSP o estadmuestra para
el conjunto y a continuación damos la dirección de la carpeta donde queremos que nos guarde el
fichero de resultados.
En el menú inicial también aparece la etiqueta Variable para trabajar con una única serie de la
muestra. Algunas de las opciones que incluye esta etiqueta son:
Buscar
Mostrar valores
Estadı́sticos principales
Contraste de Normalidad
Distribución de frecuencias
Gráfico de frecuencias (simple, contra la normal, contra la gamma)
Gráfico de series temporales
Editar atributos
etc.
• Añadir o cambiar información sobre la variable: en menú Variable → Editar atributos. En esta
ventana podremos cambiar también el nombre de la serie utilizado en los gráficos.
• Consultar las notas informativas: en menú Datos → Leer información o en Datos → Descrip-
ción
13
Econometrı́a
número de observaciones
estructura del conjunto de datos (serie temporal o sección cruzada)
frecuencia
A la pregunta ¿Desea empezar a introducir los valores de los datos usando la hoja de cálculo de
gretl ? contestar Sı́
• Introducir el nombre de la variable. El máximo de caracteres que acepta es 15, no usar acentos
ni la letra ñ. Pinchar Aceptar.
• Para guardar los datos: en menú Archivo → Guardar datos. Dar nombre al conjunto de datos,
por ejemplo Azar y se grabará automáticamente con la extensión gdt.
Si en otro momento queremos usar este conjunto de datos solo habrá que clickear en él dos
veces para que se active.
• Si queremos añadir variables en menú: Pinchar en la etiqueta Añadir tenemos las siguientes
posibilidades:
14
Econometrı́a
Establecer rango
Recuperar rango completo
Restringir, a partir de un criterio
etc.
Ejemplo 1.1
Vamos a trabajar con el archivo de datos data4 − 1.gdt ya que en los temas siguientes
va a ser uno de los ejemplos que seguiremos. Está incluido como archivo de muestra
en la pestaña Ramanathan. Una vez abierto podemos buscar información sobre sus
variables tal y como se ha indicado. Siguiendo la ruta indicada encontramos la siguiente
Información del conjunto de datos
Donde aparece una somera descripción de los datos disponibles y su fuente y/o origen.
En este caso nos dicen que son datos de hogares de la comunidad universitaria de San
Diego en 1990, de lo que deducimos que son datos de sección cruzada ya que se refieren
a un único año. También aparecen los nombres de las variables y su descripción ası́ como
el rango de cada una (la amplitud del intervalo de valores que toma la variable en la
muestra) y la fuente de los datos. Los estadı́sticos principales son los siguientes:
15
Econometrı́a
Donde se nos muestra, para cada variable, su media, mediana, valores mı́nimo y máximo, desviación
tı́pica, coeficiente de variación (C.V.), coeficiente de asimetrı́a y coeficiente de exceso de curtosis.
Los gráficos de las variables price y sqft son:
550 3000
2800
500
2600
450
2400
400
2200
price
sqft
350 2000
1800
300
1600
250
1400
200
1200
150 1000
2 4 6 8 10 12 14 2 4 6 8 10 12 14
index index
Figura 1.1: Gráficos de las observaciones para las variables price y sqf t
Volviendo a la pantalla de inicio. También estaban disponibles al iniciar el programa las etiquetas
Herramientas y Ayuda. En Herramientas disponemos de instrumentos de análisis muy útiles como:
- En Tablas estadı́sticas los valores crı́ticos de las distribuciones Normal Tipificada, t-Student
y F-Snedecor entre otras distribuciones.
- Un buscador de valores p.
16
Econometrı́a
17
Econometrı́a
18
Tema 2
En este tema nos ocuparemos de analizar las relaciones entre dos variables y nuestro objetivo
fundamental será explicar el comportamiento de una variable, que llamaremos variable a explicar,
mediante otra variable económica, que llamaremos explicativa. Modelizaremos la relación entre las
variables mediante una ecuación matemática y daremos entrada en la misma a una variable aleatoria
que nos permita recoger la aleatoriedad del fenómeno económico. Ası́, aprenderemos a especificar
el Modelo de Regresión Lineal Simple, poniendo especial cuidado en el tratamiento de las variables
explicativas cualitativas.
C1. Analizar de forma crı́tica los elementos básicos del modelo de regresión lineal con el objetivo de
comprender la lógica de la modelización econométrica y poder especificar relaciones causales
entre las variables.
C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.
1. Explicar y entender el alcance de las hipótesis básicas sobre el comportamiento del modelo de
regresión lineal general (C1).
3. Interpretar los coeficientes del modelo de regresión, incluyendo los de especificaciones no li-
neales en las variables (C1).
19
Econometrı́a
Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:
20
Econometrı́a
Supongamos que nos interesa conocer la relación que hay entre el precio de una vivienda y su super-
ficie. Se trata de cuantificar la influencia que tiene el tamaño de una vivienda en la determinación
de su precio de venta mediante un modelo de regresión lineal simple. En este capı́tulo vamos a
especificar, estimar y analizar el modelo de regresión lineal simple. La teorı́a necesaria para
este fin será ilustrada mediante el estudio simultáneo del conjunto de datos data3-1 disponible en
gretl dentro del conjunto de datos correspondiente a Ramanathan. Este fichero contiene el precio de
venta y la superficie de 14 viviendas vendidas en el área de San Diego. Vamos a comenzar realizando
un análisis gráfico.
Se abre un fichero que contiene tres variables, const, price y sqft. La Tabla 2.1 muestra los
valores disponibles para cada variable.
3. Seguidamente seleccionamos ambas variables y en Datos →Mostrar valores vemos los valores
muestrales de las variables. Estos valores han sido recogidos en la Tabla 2.1.
21
Econometrı́a
i Pi SQFT i P SQFT
Tabla 2.1: Conjunto de datos incluidos en data3.1 House prices and sqft
4. Abrimos el diagrama de dispersión entre las dos variables (ver la Figura 2.2). En él observamos
una relación lineal positiva entre P y SQF T .
Precio, P con respecto a Superficie, F2 (con ajuste mnimo-cuadrÆtico)
550
Y = 52,4 + 0,139X
500
450
400
Precio, P
350
300
250
200
150
1500 2000 2500 3000
Superficie, F2
Un modelo sencillo que recoge una relación lineal causa-efecto entre la superficie y el precio de una
vivienda es: Pi = β1 + β2 SQF Ti + ui .
Esto quiere decir que el precio de una vivienda depende únicamente de su superficie y, por lo
tanto, dos viviendas de igual tamaño deben tener exactamente el mismo precio. Esta hipótesis es
poco realista porque diferencias en otras caracterı́sticas, como la orientación de la casa o su estado
de conservación, también influyen en su precio. Este modelo que recoge una relación lineal entre
únicamente dos variables se denomina modelo de regresión lineal simple.
El Modelo de Regresión Lineal Simple (MRLS) relaciona dos variables de forma lineal,
Yi = β1 + β2 Xi + ui i = 1, . . . , N (2.1)
donde:
22
Econometrı́a
• Efectos impredecibles, originados por las caracterı́sticas de la situación económica o del con-
texto de análisis, y efectos no cuantificables derivados de las preferencias y los gustos de los
individuos o entidades económicas.
• Errores de medida producidos a la hora de obtener datos sobre las variables de interés.
• Errores de especificación ocasionados por la omisión de alguna variable explicativa o bien, por
las posibles no linealidades en la relación entre X e Y .
Modelo para la relación precio-tamaño del piso. En este caso planteamos el siguiente modelo de
regresión lineal:
Pi = β1 + β2 SQF Ti + ui i = 1, . . . , N (2.2)
donde
- Los dos coeficientes a estimar son β1 y β2 , y sospechamos que al menos β2 tiene valor positivo
ya que a mayor superficie habitable de la vivienda su precio lógicamente se esperará sea mayor.
23
Econometrı́a
Un primer objetivo del análisis econométrico es conocer β1 y β2 , que son los parámetros de la
relación entre P y SQF T . Del total de viviendas del área objeto de estudio, tenemos una muestra
con datos de N= 14 pisos. Por tanto, el objetivo del estudio es inferir, a partir de la muestra,
la relación precio-tamaño de una vivienda en la población. Para llevar a cabo esta inferencia es
necesario determinar la naturaleza aleatoria de las variables que intervienen en el estudio.
Yi = β1 + β2 Xi + ui i = 1, 2, . . . , N (2.3)
puede escribirse para todas las observaciones disponibles como el siguiente sistema de N ecuaciones:
Y1 = β1 + β2 X1 + u1 i=1
Y2 = β1 + β2 X2 + u2 i=2
.. ..
. .
Yi = β1 + β2 Xi + ui i=i
.. ..
. .
YN = β1 + β2 XN + uN i=N
Y = X β + u
(N × 1) (N × K) (K × 1) (N × 1)
donde K = 2 y
Y1 1 X1 u1
Y2 1 X2 u2
.. .. .. · ¸ ..
. . . β1 .
Y =
X =
β = u =
(N × 1) Yi (N × K) 1 Xi (K × 1) β2 (N × 1) ui
.. .. .. ..
. . . .
YN 1 XN uN
Ejemplo 2.1
Siguiendo con el modelo del precio de una vivienda y con los datos recogidos en la Tabla
2.1, tenemos:
24
Econometrı́a
199, 9 1 1065
228, 0 1 1254
235, 0 1 1300
285, 0 1 1577
239, 0 1 1600
293, 0 1 1750
285, 0 1 1800
Y =
X=
365, 0 1 1870
295, 0 1 1935
290, 0 1 1948
385, 0 1 2254
505, 0 1 2600
425, 0 1 2800
415, 0 1 3000
25
Econometrı́a
f ( u )
f ( u )
X 6
α +β α+β
X 1 X 6
X 1
X 2
X 2
X 6
X 6
E(uu0 |X) = σ 2 IN
E(u21 |X) E(u1 u02 |X)
. . . E(u1 u0N |X)
E(u2 u01 |X) E(u22 |X)
. . . E(u2 u0N |X)
0
E(uu |X) = .. .. .. .. =
. . . .
E(uN u01 |X) E(uN u02 |X) . . . E(u2N |X)
σ2 0 0 . . . 0 1 0 0 ... 0
0 σ2 0 . . . 0 0 1 0 ... 0
= .. .. .. . . . = σ2 2
.. .. .. . . .. = σ IN
. . . . .. . . . . .
0 0 0 . . . σ2 0 0 0 ... 1
u|X ∼ N ID(0N , σ 2 IN )
26
Econometrı́a
ui |X ∼ N ID(0, σu2 ) ∀i = 1, . . . , N
Yi = β1 + β2 Xi + ui , ui |X ∼ N ID(0, σ 2 ) ∀i
A E(Yi |X) se la denomina Función de Regresión Poblacional (FRP) y sus coeficientes, que
son desconocidos, pueden interpretarse como:
27
Econometrı́a
• β1 = E(Yi |Xi = 0): valor medio o esperado de la variable endógena cuando el valor que toma
la variable exógena es cero.
∆E(Yi ) ∂E(Yi )
• β2 = = : Incremento (o decremento) en el valor esperado o valor medio de Yi
∆Xi ∂Xi
cuando la variable explicativa X se incrementa en una unidad. La pendiente mide el efecto
de un aumento marginal en la variable explicativa sobre E(Yi ), un aumento unitario en la
variable explicativa conlleva un aumento medio de β2 unidades en la variable endógena.
Ejemplo 2.2
GCPt = β1 + β2 P IBt + ut
Ejemplo 2.3
Se dispone de una base de datos para 51 estados de E.E.U.U. sobre el gasto agregado
en transporte urbano (EXP T RAV ) y la renta disponible agregada (IN COM E) corres-
pondientes al año 19931 . Las variables que se consideran son:
28
Econometrı́a
Ejemplo 2.4
Wi = β1 + β2 S2i + ui i = 1, 2, . . . N
donde Wi es el salario anual del individuo i y S2i es una variable ficticia que se define:
½
1 si el individuo i es mujer
S2i =
0 en caso contrario
29
Econometrı́a
que son lineales en parámetros según lo dicho anteriormente aunque no lo sean en variables. Ahora
bien, existen otras relaciones que aunque en principio no son lineales pueden transformarse en
lineales y por tanto son perfectamente estimables en nuestros términos. Por ejemplo:
Yi = β1 + β2 LnXi + ui (2.5)
LnA
donde β2 = (LnB)−1 y β1 = ( LnB ) a esta transformación se le llama semilogarı́tmica.
2. Sea el modelo:
En este modelo en el que todas las variables están medidas en logaritmos, el parámetro de pendiente
además de recibir la interpretación habitual pueden interpretarse en términos de elasticidad:
∂E(LnYi ) ∂E(Yi ) Xi
β2 = =
∂LnXi ∂Xi Yi
Es importante notar que para la ecuación (2.5) la interpretación de los parámetros como elasticidades
no es posible ya que al no estar la variable Yi en logaritmos:
∂E(Yi ) ∂E(Yi )
β= = Xi
∂LnXi ∂Xi
En los ejemplos anteriores se han especificado mayoritariamente modelos con variables de naturaleza
cuantitativa, es decir, aquéllas que toman valores numéricos. Sin embargo, las variables también
pueden ser cualitativas, es decir, pueden tomar valores no numéricos como categorı́as, clases o
atributos. Por ejemplo, son variables cualitativas el género de las personas, el estado civil, la raza,
el pertenecer a diferentes zonas geográficas, momentos históricos, estaciones del año, etc. De esta
forma, el salario de los trabajadores puede depender del género de los mismos; la tasa de criminalidad
puede venir determinada por la zona geográfica de residencia de los individuos; el PIB de los paı́ses
puede estar influenciado por determinados acontecimientos históricos como las guerras; las ventas
de un determinado producto pueden ser significativamente distintas en función de la época del año,
etc. En esta sección, aunque seguimos manteniendo que la variable dependiente es cuantitativa,
vamos a considerar que ésta puede venir explicada por una variable cualitativa.
Dado que las categorı́as de las variables no son directamente cuantificables, las vamos a cuantificar
construyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son numéricas.
30
Econometrı́a
En este tema ya hemos trabajado con ellas, el Ejemplo 2.4 especificamos la función de salario
en función del regresor cualitativo sexo e interpretamos sus parámetros. Trabajar con variables
cualitativas o con variables cuantitativas a la hora de interpretar los coeficientes de la regresión y
estimarlos es indiferente, sin embargo, hay que tener en cuenta algunas reglas a la hora de especificar
el modelo.
En el modelo (2.2) el precio de la vivienda depende exclusivamente de su superficie. Sin embargo
hay otras caracterı́sticas que pueden influir en el precio como la existencia de piscina, de garaje,
el número de habitaciones y/o de baños. Supongamos que tenemos información sobre si la vivenda
tiene piscina o no. Podrı́amos especificar un modelo para el precio de la vivienda suponiendo que
este dependa exclusivamente de si la vivienda tiene o no piscina. Esta variable tiene dos categorı́as
o estados de la naturaleza, tener o no piscina, que podemos recoger con las siguientes variables
ficticias que dividen la muestra en dos grupos y a las que asignamos un valor arbitrario a cada
clase4 :
½
1 si la vivienda i-ésima tiene piscina
P OOLi =
0 en caso contrario
½
1 si la vivienda i-ésima no tiene piscina
N OP OOLi =
0 en caso contrario
Y especificar el modelo:
Pi = β1 + β2 P OOLi + ui i = 1, . . . , N (2.7)
Tal que si E(ui |X) = 0 ∀i la FRP del modelo es E(Pi |X) = β1 + β2 P OOLi
−→ Si la vivienda no tiene piscina: E(Pi |P OOLi = 0) = β1
−→ Si la vivienda tiene piscina: E(Pi |P OOLi = 1) = β1 + β2
Luego β1 es el precio medio de una vivienda sin piscina, β1 + β2 es el precio medio de una vivienda
con piscina y β2 es el diferencial en el precio medio de una vivienda por tener piscina relativamente
a no tenerla.
El modelo (2.7) da lugar a dos ecuaciones:
31
Econometrı́a
En el modelo (2.7) el grupo de referencia, el recogido en el término independiente son las viviendas
que no tienen piscina. Podrı́amos haber definido el modelo en base a la variable N OP OOL.
• Alternativa de especificación del modelo (2.7):
por tanto estos coeficientes recogen el precio medio de la vivienda dentro del grupo.
La relación entre los parámetros del modelo (2.7) y los del modelo (2.8) es la siguiente:
β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1
¿Cómo serı́a la matriz X en los modelos anteriores? Supongamos que disponemos de in-
formación sobre qué viviendas tiene piscina en la muestra del fichero de datos data3-1.gdt y es la
siguiente:
32
Econometrı́a
1 1 0 1
1 0 1 0
1 1 0 1
1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
X=
X=
1 1 0 1
1 0 1 0
1 0 1 0
1 1 0 1
1 1 0 1
1 0 1 0
1 0 1 0
Ejemplo 2.5
por tanto estos coeficientes recogen el salario medio dentro del grupo.
La relación entre los parámetros del modelo (5.9) y los del modelo (5.10) es la siguiente:
β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1
Ejercicio 2.1
Wi = β1 S1i + β2 + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 )
¿Qué diferencia hay entre ésta especificación y la especificación del modelo (5.9)?
34
Econometrı́a
[1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics
with applications, ed. South-Western, 5th edition, Harcourt College Publishers.
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.
35
Econometrı́a
36
Tema 3
En este tema nos ocuparemos de estimar el Modelo de Regresión Lineal Simple. El método de
estimación que desarrollaremos son los Mı́nimos Cuadrados Ordinarios, MCO, que bajo ciertas
hipótesis de comportamiento sobre los distintos elementos del modelo nos proporcionará estimadores
con buenas propiedades, lineales, insesgados y de mı́nima varianza.
Para finalizar el tema veremos como realizar análisis de regresión mediante el software gretl.
Competencias a trabajar en estas sesiones:
C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.
C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.
C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.
37
Econometrı́a
Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:
38
Econometrı́a
Una vez descrito el ámbito en el que nos vamos a mover, vamos a obtener un estimador adecuado
de los coeficientes del modelo de regresión simple: el estimador de mı́nimos cuadrados ordi-
narios. En primer lugar, obtendremos el estimador y, a continuación, justificaremos su uso en base
a sus propiedades. El modelo simple (2.1) nos indica que cada observación Yi es una realización
de una variable que tiene dos componentes: uno que depende del valor del regresor Xi , cuyo valor
observamos, y un componente residual que no observamos. El MRLS desarrolla un sistema de N
ecuaciones:
Y1 = β1 + β2 X1 + u1
.
..
Yi = β1 + β2 Xi + ui
..
.
YN = β1 + β2 XN + uN
La Figura 3.1 representa gráficamente una posible muestra. Los puntos (Yi , Xi ) se sitúan o distri-
buyen alrededor de la recta β1 + β2 Xi . La desviación de cada punto respecto a esta recta central
viene dada por el valor que tome el término de error no observable ui . Por ejemplo, en la Figura 3.1,
la perturbación es positiva para la primera observación, de modo que Y1 se encuentra por encima
de la recta central. Por otro lado, el punto (Y2 , X2 ) se encuentra por debajo de la recta central, es
decir, u2 toma un valor negativo.
Yi 6
(Y1 , X1 )
6
u1
E(Yi ) = β1 + β2 Xi + E(ui |X)
? | {z }
=0
β1 6u2
?
(Y2 ,X2 )
-
Xi
Yi = β1 + β2 Xi + ui i = 1, 2, . . . , N
Y = Xβ + u en forma matricial.
A los parámetros estimados los denotamos β̂k y la estimación del modelo es
39
Econometrı́a
Ŷ = X β̂ en forma matricial,
• La perturbación del modelo recoge todo aquello que no ha sido explicado por la parte sis-
temática del modelo y se obtiene como la diferencia entre la variable a explicar y la recta de
regresión poblacional. Es una variable aleatoria no observable:
ui = Yi − E(Yi |Xi ) i = 1, 2, . . . , N
u = Y − Xβ en forma matricial.
• El residuo mide el error cometido al estimar la variable endógena y se define como la diferencia
entre la variable a explicar y la recta de regresión muestral1 :
û = Y − Ŷ = Y − X β̂ en forma matricial.
Este error proviene de dos fuentes: la primera, por el hecho de no poder obtener los valores de
la perturbación (ui ) y la segunda se debe a que la estimación de los coeficientes desconocidos
β1 y β2 introduce un error adicional. Es importante, por tanto, diferenciar y no confundir el
residuo con la perturbación.
• Representación gráfica:
Yi 6
Ŷi = β̂1 + β̂2 Xi
(Y1 , X1 )
Y1
6 6
û
β̂1 + β̂2 X1 = Ŷ1 ? 1 E(Yi |X) = β1 + β2 Xi
?u1
6 β1 + β2 X1
β1
β2
β̂1 β̂2
? -
Xi
X1
40
Econometrı́a
En la Figura 3.2 la función de regresión poblacional está trazada en color negro ası́ como los
coeficientes poblacionales, la ordenada (β1 ) y la pendiente (β2 ). Podemos ver que el valor Yi se
obtiene como la suma del valor que toma la parte sistemática β1 + β2 Xi (situada sobre la FRP) y
del valor que toma la perturbación ui , esto es, Yi = β1 + β2 Xi + ui .
La función de regresión muestral y los coeficientes estimados (β̂1 y β̂2 ) están representados en color
rojo. La diferencia entre la FRP y la FRM se debe a los errores que se cometen en la estimación
de los coeficientes de la regresión (β̂1 6= β1 , β̂2 6= β2 ). Basándonos en la FRM podemos obtener el
valor del punto Yi como la suma del valor estimado de la parte sistemática Ŷi = β̂1 + β̂2 Xi (situado
sobre la FRM) y del valor que toma el residuo ûi , esto es, Yi = Ŷi + ûi .
Dados el modelo y una muestra, debemos decidir cómo obtener la función de regresión muestral, es
decir, cómo calcular las estimaciones β̂1 y β̂2 a partir de los datos. Un método muy utilizado por
su sencillez y buenas propiedades es el método de mı́nimos cuadrados ordinarios. El estimador de
Mı́nimos Cuadrados Ordinarios, o MCO, de los parámetros β1 y β2 se obtiene de minimizar
la suma de los residuos al cuadrado:
N
X N
X N
X
mı́n û2i = mı́n (Yi − Ŷi )2 = mı́n (Yi − β̂1 − β̂2 Xi )2 (3.1)
β̂1 ,β̂2 i=1 β̂1 ,β̂2 i=1 β̂1 ,β̂2 i=1
Las expresiones del estimador de β1 y β2 se obtienen de las condiciones de primer orden, para lo
cual igualamos las primeras derivadas a cero:
P
∂ N 2
i=1 ûi P
= −2 N i=1 (Yi − β̂1 − β̂2 Xi ) = 0
∂ β̂1
P
∂ N 2
i=1 ûi P
= −2 N i=1 (Yi − β̂1 − β̂2 Xi )Xi = 0
∂ β̂2
Ası́, obtenemos un sistema de ecuaciones, llamadas ecuaciones normales , que vienen dadas por:
N
X
(Yi − β̂1 − β̂2 Xi ) = 0 (3.2)
| {z }
i=1
u
bi
N
X
(Yi − β̂1 − β̂2 Xi )Xi = 0 (3.3)
| {z }
i=1
u
bi Xi
Las expresiones de los estimadores MCO para los coeficientes poblacionales β1 y β2 se obtienen de
resolver las ecuaciones para β̂1 y β̂2 :
PN PN
i=1 (Xi − X̄)(Yi − Ȳ ) i=1 Xi Yi − N X̄ Ȳ SXY
β̂2,M CO = PN = PN
= 2 (3.4)
i=1 (Xi − X̄)
2 2
i=1 Xi − N X̄
2 SX
41
Econometrı́a
PN 2
Estimación en forma matricial En forma matricial, i=1 ûi = û0 û donde û es un vector N × 1
(1 × 1)
y el criterio puede escribirse
X 0 Y = X 0 X β̂M CO . (3.6)
· P ¸ · P ¸ · ¸
X 0X = PN P X2i X 0Y = P Yi β̂ =
β̂1
.
(2 × 2)
Xi Xi (2 × 1)
Xi Yi (2 × 1) β̂2
El estimador MCO cumple también las condiciones de segundo orden de mı́nimo, con lo cual es,
efectivamente, la solución al problema de minimización de la suma de los residuos al cuadrado.
42
Econometrı́a
Ejemplo 3.1
Siguiendo con el modelo del precio de una vivienda y con los datos recogidos en la Tabla
2.1, tenemos:
De donde:
P14
Pi 4444,9
P̄ = N P = 14
i=1
= 317, 4928571
14
SQF Ti 26753
SQF T = i=1N = 14 = 1910, 928571
PN
i=1 SQF Ti Pi − N × SQF T × P̄ 9095985, 5 − 14 × 317, 49 × 1910, 92
β̂2,M CO = PN 2 = = 0,1388
2 55462515 − 14 × (1910, 92)2
i=1 SQF Ti − N × SQF T
En forma matricial:
· ¸ · P ¸−1 · P ¸
β̂1 P N P SQF Ti P Pi
β̂M CO = = =
β̂2 SQF Ti SQF Ti2 SQF Ti Pi
· ¸−1 · ¸
14 26753 4444,9
= =
26753 55462515 9095985,5
· ¸ · ¸ · ¸
0,9129 −4,4036e − 04 4444,9 52,3509
= =
−4,4036e − 04 2,3044e − 07 9095985,5 0,1388
43
Econometrı́a
βb1 = 52,35 miles de dólares y la estimación de la pendiente es βb2 = 0, 138750 miles $ por pie cuadrado.
Es decir, cuando la superficie de la vivienda aumenta en un pie cuadrado, el precio medio de venta
estimado aumenta en βb2 × 1000 = 138, 750 dólares. La interpretación del término independiente
estimado no tiene sentido salvo como precio de partida ya que indica que el precio medio estimado
de una vivienda sin superficie es 52.350 dólares.
Yi = β1 + β2 Xi + ui i = 1, 2, . . . , N ⇔ Y = Xβ + u
E(Yi ) = β1 + β2 Xi i = 1, 2, . . . , N ⇔ E(Y ) = Xβ
ûi = Yi − Ŷi i = 1, 2, . . . , N ⇔ û = Y − Ŷ
Ejercicio 3.1
Yt = β1 + β2 Xt + ut t = 1, . . . , T
44
Econometrı́a
Ejercicio 3.2
Yt = βXt + ut t = 1, . . . , T
Utilizando matrices escribe la expresión matricial del modelo y obtén la expresión de β̂.
Ejemplo 3.2
Supongamos que se dispone de datos para estimar la relación en Estados Unidos para
el periodo 1960-2005 entre el consumo personal, GCP, y el ingreso, PIB, propuesta en
el Ejemplo 2.3 y que la regresión estimada es la siguiente:
Ejemplo 3.3
Pi = β1 + β2 P OOLi + ui i = 1, . . . , N
45
Econometrı́a
· ¸ · P ¸−1 · P ¸
β̂1 P N P P OOL2i P Pi
β̂M CO = = =
β̂2 P OOLi P OOLi P OOLi Pi
· ¸−1 · ¸
14 5 4444,9
= =
5 5 1689, 9
· ¸ · ¸ · ¸ · ¸
0,1111 −0,1111 4444,9 306,11 P̄N P
= = =
−0,1111 0,3111 1689, 9 31,86 P̄P − P̄N P
Pi = α1 N OP OOLi + α2 P OOLi + ui i = 1, . . . , N
En este caso:
· ¸ · P 2
P ¸−1 · P ¸
α̂1 P N OP OOL i N OP
P OOL i P OOL i PN OP OOL i Pi
β̂M CO = = =
α̂2 N OP OOLi P OOLi P OOL2i P OOLi Pi
· ¸−1 · P ¸ " P N OP OOLi Pi # · ¸
NN P 0 P N OP OOL i Pi P NN P P̄N P
= = P OOLi Pi = =
0 NP P OOLi Pi P̄P
NP
· ¸−1 · ¸
9 0 2755
= =
0 5 1689,9
· ¸ · ¸ · ¸ · ¸
0,1111 0 2755 306,1111 P̄N P
= = =
0 0,2 1689,9 337,9800 P̄P
por tanto estos coeficientes recogen el precio medio de la vivienda dentro del grupo.
Y hemos obtenido que:
por tanto, estos coeficientes estimados son la media muestral de los precios de las vi-
viendas dentro del grupo.
Al ser la relación entre los parámetros del modelo (2.7) y los del modelo (2.8) la siguiente:
46
Econometrı́a
β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1
Tenemos:
β̂1 = α̂1 = P̄N P = 306, 11 y β̂2 = α̂2 − α̂1 = P̄P − P̄N P = 337,98 − 306, 11 = 31,86 luego
β̂2 es la diferencia entre las medias muestrales estimadas.
X 0 û = X 0 (Y − Ŷ ) = X 0 (Y − X β̂) = 0
2. Los residuos son ortogonales a las estimaciones de la variable endógena: Ŷ 0 û = 0 (û0 Ŷ = 0).
Ŷ 0 û = (X β̂)0 û = β̂ 0 |{z}
X 0 û = 0
=0
Por tanto los residuos están incorrelados con la variable explicativa y con la variable depen-
diente estimada.
¯
4. La media muestral de Y es igual a la media muestral de las estimaciones de Y : Ȳ = Ŷ .
47
Econometrı́a
X X
Yi = N β̂1 + β̂2
Xi
1 X 1 X
Yi = β̂1 + β̂2 Xi
N N
Ȳ = β̂1 + β̂2 X̄
Nota: Las propiedades 1 y 2 se cumplen siempre, mientras que las 3, 4 y 5 se cumplen sólo si el
modelo tiene un término independiente.
X X
SCT = (Yi − Ȳ )2 = Yi2 − N Ȳ 2 = Y 0 Y − N Ȳ 2
Cuando el modelo tenga término independiente podremos dividir la variación total en dos partes,
variación explicada y variación sin explicar o residual.
Y 0 Y − N Ȳ 2 = Ŷ 0 Ŷ − N Ȳ 2 + û0 û
¯
Si el modelo tiene término independiente, Ȳ = Ŷ de donde,
¯
Y 0 Y − N Ȳ 2 = Ŷ 0 Ŷ − N Ŷ 2 + û0 û
X X ¯ X
Yi 2 − N Ȳ 2 = Ŷi2 − N Ŷ 2 + û2i
X X ¯ X
(Yi − Ȳ )2 = (Ŷi − Ŷ )2 + û2i
| {z } | {z } | {z }
SCT SCE SCR
48
Econometrı́a
siendo:
X
SCT = (Yi − Ȳ )2 = Y 0 Y − N Ȳ 2
X ¯
SCE = (Ŷi − Ŷ )2 = Ŷ 0 Ŷ − N Ȳ 2 = β̂ 0 X 0 Y − N Ȳ 2
X
SCR = û2i = Y 0 Y − Ŷ 0 Ŷ = Y 0 Y − β̂ 0 X 0 Y
Nuestro objetivo es evaluar como se ajusta el modelo estimado a los datos, esto es, cómo explican las
variables explicativas del modelo en su conjunto conjunto, la variabilidad de la variable dependiente.
Para ello debemos utilizar un estadı́stico que recoja en un único valor el ajuste del modelo de
regresión lineal a los datos una vez que ha sido estimado por MCO. Este estadı́stico es el Coeficiente
de determinación, y mide la variabilidad observada de la variable dependiente que explica el modelo
en función de las variables explicativas.
Coeficiente de determinación, R2
SCE SCR
R2 = =1−
SCT SCT
• Si existe término independiente en el modelo el R2 estará entre los valores 0 y 1. Por la misma
razón si no existe término independiente el R2 no tiene sentido.
49
Econometrı́a
Ejemplo 3.4
Con los resultados de la regresión del modelo (2.2) y los datos del fichero data3-1.gdt
calculamos el coeficiente de determinación:
X
SCT = Y 0 Y − N Ȳ 2 =
Pi2 − N P̄ 2 = 1513039, 01 − 14 × (317, 49)2 = 101814, 9997
X · ¸
0 0 2 0 4444,9
SCR = Y Y − β̂X Y = Pi − β̂X Y = 1513039, 01 − [52,3509 0,1388] =
9095985,5
= 1513039, 01 − 1494765, 4422 = 18273,5678
SCR 18273,5678
R2 = 1 − =1− = 0, 8205
SCT 101814, 9997
Podemos decir que este ajuste es bueno, ya que la variabilidad muestral de la superficie
de la vivienda (SQF T ) ha explicado el 82 % de la variabilidad muestral de los precios
de venta de dichas viviendas (P ).
En esta sección se va a mostrar cómo utilizar gretl para estimar por MCO.
→ Como ejemplo, calcularemos las estimaciones MCO del modelo para el precio de la vivienda,
Pi = β1 + β2 SQF Ti + ui , con la muestra del fichero datos3-1.gdt. Una forma sencilla de obtener la
FRM mı́nimo-cuadrática es realizar el diagrama de dispersión en el cual la recta de regresión aparece
en la parte superior izquierda. En el ejemplo que nos ocupa tenemos que β̂1 = 52, 4 y β̂2 = 0, 139,
como se puede ver en la Figura 2.2.
Cómo podemos obtener una tabla de resultados detallados: Una vez iniciada la sesión de
Gretl y abierto el fichero datos3-1.gdt, vamos a
Modelo →Mı́nimos cuadrados ordinarios...
50
Econometrı́a
ventana aparecen todos los resultados básicos para el análisis del modelo y que se irán explicando
a lo largo del curso.
51
Econometrı́a
La primera columna muestra las variables explicativas que se han incluido en el modelo, la constante
(const) y la superficie que posee la vivienda (SQF T ). En la segunda columna tenemos los coeficientes
estimados por MCO correspondientes a cada una de las variables. Como ya vimos, la estimación de
la ordenada es igual a βb1 = 52,35 miles de dólares y la estimación de la pendiente es βb2 = 0, 138750
miles $ por pie cuadrado. Ası́ la Función de Regresión Muestral es:
Pbi = 52, 3509 + 0,138750 SQF Ti (3.8)
Es decir, cuando la superficie de la vivienda aumenta en un pie cuadrado, el precio medio de venta
estimado aumenta en βb2 × 1000 = 138, 750 dólares. Observar que esta interpretación corresponde
a la estimación del coeficiente, no al parámetro poblacional β2 .
La desviación tı́pica de los residuos es el error tı́pico σ̂ y Suma de cuadrados de los residuos
P
es SCR = i û2i .
También encontramos el valor del coeficiente de determinación, R2 = 0, 820522 Además recor-
√
dar que en el MRLS R2 = rXY 2 luego rXY = 0, 820522 = ± 0, 9058. Si buscamos la matriz de
correlación obtenemos: corr(price, sqft) = 0.90582662. Luego ambas variables están correladas, con
correlación positiva y elevada. El resto de resultados se irán interpretando según avancemos en la
asignatura.
Guardar resultados. Si en el menú de resultados del modelo vamos a Archivo →Guardar a sesión
como icono, el modelo queda guardado dentro de la carpeta USER. Ası́, podemos recuperarlo siempre
que queramos; basta con pinchar sobre el botón iconos de sesión, cuarto por la izquierda de la barra
de herramientas, y en la ventana que aparece, pinchar dos veces sobre el icono llamado Modelo 1.
Si posteriormente estimáramos otro modelo y lo guardáramos como icono, Gretl lo denominarı́a
Modelo 2.
Algunos gráficos de interés. La opción Gráficos de la ventana de resultados del modelo incluye
distintas representaciones gráficas tanto de la variable endógena de interés, como de su ajuste y de
los errores de su ajuste. Veamos algunos de los más utilizados en regresión con datos de sección
cruzada.
52
Econometrı́a
de dispersión de las observaciones reales Pi frente a la variable explicativa SQF Ti junto con
la función de regresión muestral (3.8). El resultado es la figura izquierda de la Figura 3.5.
Precio, P observada y estimada Residuos de la regresin (= P observada - estimada)
550 100
actual
estimada
500 80
450 60
400 40
Precio, P
residuo
350 20
300 0
250 -20
200 -40
150 -60
1500 2000 2500 3000 1500 2000 2500 3000
Superficie, F2 Superficie, F2
Variables asociadas a la regresión. Para ver los valores que toman los ajustes Ŷi y los residuos
ûi , debemos seleccionar Análisis →Mostrar variable observada, estimada, residuos.
El resultado que obtenemos es la tabla 3.1. Podemos guardar cualquiera de estos valores seleccio-
nando la opción Guardar del menú del modelo, tal como muestra la Figura 3.6.
Rango de estimación del modelo: 1--14
Desviación tı́pica de los residuos = 39,023
Para almacenar P̂i hay que elegir Guardar →Valores estimados. Sale una ventana en la que, por
defecto, el valor ajustado o estimado de la variable endógena se llama yhat1 y en la descripción
aparece valores estimados mediante el modelo 1. Dado que nuestra variable dependiente es el precio
de venta P , cambiamos de nombre a la variable y la renombramos como phat1. Si repetimos los
53
Econometrı́a
pasos anteriores pero escogemos Guardar →Residuos, en la ventana correspondiente se nombra a los
residuos como uhat1 y la descripción es residuos del modelo 1. Una vez guardadas estas dos series,
las encontramos en la ventana principal junto a la variable independiente P y la variable explicativa
SQF T .
54
Econometrı́a
[3] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a.
Editorial McGraw-Hill.
[4] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición.
[5] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.
55
Econometrı́a
56
Tema 4
Una vez estimado el Modelo de Regresión Lineal Simple dedicaremos este tema a hacer inferencia
sobre el mismo. Aprenderemos a realizar contrates sobre posibles valores de los parámetros pobla-
cionales comenzando con el contraste de significatividad de la variable independiente. Previamente
hemos de derivar la distribución del estimador MCO. Para finalizar el tema veremos como realizar
inferencia mediante el software gretl.
Competencias a trabajar en estas sesiones:
C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.
C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.
C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.
1. Conocer y saber demostrar las propiedades del estimador de MCO (C2 y C3).
3. Saber derivar intervalos de confianza y utilizarlos para el contraste de hipótesis (C2 y C3)
5. Utilizar un software econométrico (Gretl) para realizar contraste de hı́pótesis e interpretar sus
resultados (C2 , C3 y C4).
57
Econometrı́a
Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:
58
Econometrı́a
El método de MCO es sólo uno de los posibles métodos de estimación, la pregunta es ¿cómo
podemos elegir entre estimadores? obviamente en base a sus propiedades sobre su comportamiento
en muestras repetidas. Estas propiedades son insesgadez, varianza pequeña y error cuadrático medio.
Insesgadez Un estimador es insesgado si su valor esperado coincide con el verdadero valor del
parámetro. Sea θ̂ un estimador del parámetro θ, será insesgado si E(θ̂) = θ.
Varianza mı́nima Desearemos que la varianza de un estimador sea lo más pequeña posible ya que
cuanto menor sea la varianza muestral mayor es la precisión del estimador.
Si estamos comparando dos estimadores insesgados elegiremos aquel que tenga la menor varianza.
Pero si estamos comparando dos estimadores sesgados o un estimador sesgado y uno insesgado este
criterio no nos sirve y debemos introducir uno nuevo, el concepto de error cuadrático medio.
Error cuadrático Medio (ECM) ECM (θ̂) = E(θ̂ − θ)2 = V (θ̂) + Sesgo(θ̂)2 donde Sesgo(θ̂) =
E(θ̂) − θ. En base a este criterio elegimos el estimador con menor ECM.
Y = Xβ + u u|X ∼ N ID(0, σ 2 IN )
donde se cumplen todas las hipótesis básicas. El estimador MCO de los coeficientes
β̂ = (X 0 X)−1 X 0 Y
• Es insesgado.
Demostración:
β̂ = (X 0 X)−1 X 0 Y =
= (X 0 X)−1 X 0 (Xβ + u) =
= β + (X 0 X)−1 X 0 u
59
Econometrı́a
• Insesgadez. Dado que E(u|X) = 0 el estimador MCO es insesgado es decir, su valor esperado
es igual al vector de coeficientes del modelo.
donde akk es el elemento (k, k) de (X 0 X)−1 . Como toda matriz de varianzas y covarianzas, es
simétrica.
La matriz de varianzas y covarianzas V (β̂) = σ 2 (X 0 X)−1 es mı́nima y nos lo garantiza el Teorema
de Gauss-Markov.
Teorema de Gauss-Markov: Dados los supuestos básicos del modelo de regresión lineal, “dentro
de la clase de estimadores lineales e insesgados, β̂M CO es el estimador eficiente, es decir, β̂M CO tiene
mı́nima varianza”. Es el eficiente dentro de su clase.
Notar que para derivar la matriz de varianzas y covarianzas del estimados MCO hemos utilizado
todas las hipótesis básicas sobre la perturbación salvo la hipótesis de normalidad.
En la matriz de varianzas y covarianzas del estimador MCO aparece la varianza de las perturbacio-
nes, lo habitual es que sea desconocida y haya de ser estimada. Habitualmente se utiliza el siguiente
estimador insesgado de σ 2 :
P 2
2 û0 û SCR ûi
σ̂ = = = y E(σ̂ 2 ) = σ 2
N −K N −K N −K
60
Econometrı́a
Por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbación. Para
trabajar con él es útil escribirlo en términos de las variables observables mediante las matrices Y ,
X, ası́:
û0 û Y 0 Y − β̂ 0 X 0 Y Y 0 Y − β̂X 0 X β̂
σ̂ 2 = = =
N −K N −K N −K
Bajo las hipótesis básicas salvo la hipóteis de normalidad, un estimador insesgado de la matriz
de varianzas y covarianzas, de β̂M CO es
Vb (β̂M CO ) = σ̂ 2 (X 0 X)−1
Ejemplo 4.1
Con los datos disponibles en el fichero data3-1.gdt y los resultados de la estimación del
modelo (2.2),
Pi = β1 + β2 SQF Ti + ui i = 1, . . . , N
· ¸−1
14 26753
Vb (β̂M CO ) = 1522, 79 × =
26753 55462515
· ¸
1390,21 −0,670583
=
3,50920e − 04
Si Y = Xβ + u, donde u|X ∼ N (0, σ 2 IN ), el estimador MCO, dado que es lineal en las perturba-
ciones, también seguirá una distribución Normal Multivariante, con vector de medias E(β̂|X) = β
y matriz de varianzas y covarianzas V (β̂) = σ 2 (X 0 X)−1 . Es decir,
61
Econometrı́a
β̂k − βk
√ ∼t(N −K)
σ̂ akk
√
donde t(N −K) denota la distribución t-Student con (N − K) grados de libertad, y σ̂ akk es la des-
√ d β̂k ).
viación estimada del coeficiente estimado. (Notación σ̂ akk = σ̂β̂k = desv(
h i
P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α
Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para un coeficiente
cualquiera βk k = 1, 2 como:
³ ´
IC(βk )1−α = β̂k ± t α2 (N −K) σ̂β̂k
Este es un estimador por intervalo porque en los extremos inferior y superior del intervalo aparecen
β̂k y σ̂β̂k , que son estimadores. Este intervalo es aleatorio, porque para cada muestra se obtiene un
valor numérico distinto de β̂k y σ̂β̂k . Cuando usamos una muestra para obtener las estimaciones,
tendremos [un número ≤ βk ≤ otro número] y se denomina estimación por intervalo de βk ó inter-
valo de confianza (1 − α) para βk . Un intervalo de confianza nos dice que, con probabilidad (1 − α)
se estima que el parámetro βk estará dentro de ese rango de valores.
Las propiedades de la variable aleatoria IC(βk ) se basan en la noción del muestreo repetido: si
obtuviéramos infinitas muestras de tamaño N de una misma población, y para cada una de ellas
62
Econometrı́a
63
Econometrı́a
La hipótesis alternativa puede ser a una cola por ejemplo Ha : βk > 0 o a dos colas Ha : βk 6= c. Para
realizar el contraste hemos de derivar el estadı́stico de contraste y su distribución bajo la hipótesis
nula, evaluar el estadı́stico en la muestra y aplicar la regla de decisión. Para contrastar:
H0 : βk = c frente a Ha : βk 6= c
Bajo las hipótesis básicas y normalidad de las perturbaciones la distribución del estimador β̂k es la
siguiente:
β̂k |X ∼ N (βk , σ 2 akk )
Si σ 2 es conocida todo es conocido en la distribución de βk y el estadı́stico de contraste serı́a:
β̂k − c H0
∼ N (0, 1)
σβ̂k
En el resto de ejemplos consideramos el caso más habitual σ 2 desconocida, para el cual podemos
derivar el siguiente estadı́stico de contraste2 y distribución asociada cuando σ 2 es estimada con el
0 û
estimador insesgado σ̂ 2 = Nû−K :
β̂k − c H0
∼ t(N −K)
σ̂β̂k
β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α2 . En este caso contrario no se rechaza.
k
H0 : βk = c frente a Ha : βk > c
β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α .
k
H0 : β2 = 0
Ha : β2 6= 0
2
Si σ 2 es desconocida habrı́a de ser estimada, bajo la normalidad de las perturbaciones
(N − K)σ̂ 2
ui |X ∼ N (0, σ 2 ) −→ ∼ χ2(N −K)
σ2
y derivar el correspondiente estadı́stico de contraste, que serı́a:
β̂k −c
√
σ akk H0 β̂k − c H0
qP ∼ t(N −K) si simplificamos √ ∼ t(N −K)
û2
i /σ
2 σ̂ akk
N −K
64
Econometrı́a
β̂2 H0
∼ t(N −K)
d
des(β̂2 )
β̂2
Si el estadı́stico calculado para la muestra es mayor que el estadı́stico en tablas, c β̂2 ) > t(N −K)| α2
des(
para un α dado, se rechaza la hipótesis nula. En este caso β2 6= 0 y la variable explicativa asociada
X es significativa para explicar el comportamiento de la variable endógena. Por tanto este contraste
sirve para decidir si la variable X debe mantenerse en el modelo y es en realidad un contraste
de especificación. Si el estadı́stico calculado para la muestra es menor que el estadı́stico en tablas,
β̂2
c < t(N −K)| α2 para un α dado, no se rechaza la hipótesis nula. En este caso β2 = 0 y la variable
des(β̂2 )
explicativa asociada X no es significativa para explicar el comportamiento de la variable endógena.
β̂2 0, 13875
tc = = = 7, 4068
d
des(β̂2 ) 0, 0187329
El valor crı́tico del contraste para el nivel de significación del 5 % es t(14−2)0,05/2 = 2, 179. Como
resultado tenemos que 7, 4068 > 2, 179, por lo que tc pertenece a la región crı́tica y, en consecuen-
cia, rechazamos H0 a un nivel de significación del 5 %. Podemos concluir que la variable SQF T es
significativa o relevante para determinar el precio medio de la vivienda.
Como hay evidencia estadı́stica de que β2 es distinto de cero y, por lo tanto, la variable explicativa
X es significativa, nos puede interesar saber qué valor puede tomar. Vamos a generalizar el proce-
dimiento de contraste anterior. Veamos dos ejemplos.
βb2 − 0, 1 H0
t= ∼ t(N −K)
d βb2 )
des(
65
Econometrı́a
0, 138750 − 0, 1
tc = = 2, 068
0, 0187329
El valor crı́tico es t(14−2)0,05/2 = 2, 179. Como el valor calculado cae fuera de la región crı́tica,
2, 068 < 2, 179, no rechazamos la H0 a un nivel de significación del 5 %. Por tanto, es posible un
incremento de 100 dólares en el precio medio de la vivienda ante un aumento unitario en la superficie.
→ Ejemplo 2. Ante el mismo aumento unitario en la superficie, ¿podrı́a el precio medio de venta
de la vivienda aumentar en 150 dólares? Planteamos el contraste y, al igual que en el caso anterior,
llegamos al estadı́stico de contraste:
½
H0 : β2 = 0, 15 βb2 − 0, 15 H0
t= ∼ t(N −K)
Ha : β2 6= 0, 15 d βb2 )
des(
0, 138750 − 0, 15
tc = = −0, 6005 ⇒ | − 0, 6005| < 2, 179
0, 0187329
con 2, 179 = t(12)0,025 . Ası́, no rechazamos H0 a un nivel de significación del 5 % y también es posible
que si ∆SQF T = 1, entonces el precio medio de la vivienda aumente en 150$.
Notar que en este caso el valor muestral del estadı́stico es negativo por lo que se toma en valor
absoluto para seguir utilizando la cola derecha de la distribución t-student al tomar la regla de
decisión.
En secciones anteriores hablamos de la estimación por intervalo y se mencionó que también podı́amos
realizar inferencia utilizando intervalos de confianza. Pues bien, el intervalo de confianza asociado
a β2 :
h i
P r β̂2 k − t α2 (N −K) σ̂β̂2 < β2 < β̂2 + t α2 (N −K) σ̂β̂2 = 1 − α
³ ´
IC(β2 )1−α : β̂2 ± t α2 (N −K) σ̂β̂2
66
Econometrı́a
Para mostrar cómo hacer inferencia en gretl seguimos utilizando el ejemplo: Pi = β1 +β2 SQF Ti +ui ,
con la muestra del fichero datos3-1.gdt. Los resultados de la estimación que muestra gretl son:
El valor muestral del estadı́stico tc se incluye en los resultados de estimación, es la cuarta columna,
encabezada por Estadı́stico t. Es decir,
El valor crı́tico del contraste para el nivel de significación del 5 % es t(14−2)0,05/2 = 2, 179. Como
resultado tenemos que 7, 4068 > 2, 179, por lo que tc pertenece a la región crı́tica y, en consecuencia,
rechazamos H0 a un nivel de significación del 5 %. Podemos concluir que la variable SQF T es sig-
nificativa o relevante para determinar el precio medio de la vivienda. En el tema siguiente, veremos
cómo la columna valor p de la tabla de resultados de Gretl informa sobre la conclusión del contraste.
Hay que tener en cuenta que la columna Estadı́stico t de los resultados de estimación de Gretl,
corresponde al valor muestral del estadı́stico para H0 : β2 = 0 exclusivamente. Por tanto, para
cualquier otra nula tenemos que calcular el valor muestral del estadı́stico de contraste o utilizar el
intervalo de confianza para realizar el contraste.
Utilización del intervalo de confianza para hacer inferencia Vamos a obtener los intervalos de
confianza para los dos coeficientes de regresión. Para ello, vamos a Análisis →Intervalos de confianza
para los coeficientes. El resultado mostrado es:
67
Econometrı́a
En esta tabla de resultados, la segunda columna ofrece las estimaciones por punto, esto es, βb1 =
52, 3509 y βb2 = 0, 138750. La tercera indica los lı́mites de los intervalos a una confianza del 95 %,
esto es:
IC(β1 )0,95 = [−28, 887 ; 133, 587]
IC(β2 )0,95 = [0, 0979349 ; 0, 179566]
Por tanto, podemos afirmar con un nivel de confianza del 95 % que, ante un aumento de la superficie
de la vivienda de un pie cuadrado, el precio medio de venta de dicha vivienda aumentará entre
97,9349 y 179,566 dólares.
Para hacer inferencia utilizando el intervalo de confianza solo tenemos que ver si el valor del paráme-
tro en la hipótesis nula cae dentro o fuera del intervalo de confianza. Si cae dentro no rechazamos
la hipótesis nula y si cae fuera rechazamos, para un nivel de significatividad α = 5 %. Por ejemplo
para el último caso:
0, 15 ∈ [0, 0979349 ; 0, 179566]
no rechazamos H0 a un nivel de significación del 5 %.
En la ventana de resultados de la estimación no aparece la varianza de la perturbación estimada,
pero se puede calcular:
Los errores tı́picos de estimación y de la regresión dependen de las unidades de medida, es decir, las
podemos reducir o agrandar cuanto queramos con sólo cambiar de escala las variables dependiente
e independiente.
68
Econometrı́a
Bajo cada coeficiente estimado aparece su error tı́pico de estimación. Otra opción es incluir los
estadı́sticos tc de significatividad individual o los grados de libertad. Por ejemplo,
69
Econometrı́a
[5] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th.
edition.
70
Tema 5
En este tema nos ocuparemos de generalizar el Modelo de Regresión Lineal Simple para analizar
las relaciones entre un conjunto de variables. Nuestro objetivo fundamental será explicar el com-
portamiento de una variable, que llamamos variable a explicar, mediante un conjunto de variables
económicas, que llamamos explicativas. Especificaremos el Modelo de Regresión Lineal General,
poniendo especial cuidado en el tratamiento de las variables explicativas cualitativas.
A continuación estimaremos el modelo por Mı́nimos Cuadrados Ordinarios, MCO, que bajo ciertas
hipótesis de comportamiento sobre los distintos elementos del modelo nos proporciona estimadores
con buenas propiedades, lineales, insesgados y de mı́nima varianza. Una vez estimado el modelo
veremos como realizar contraste de restricciones lineales que recojan hipótesis relevantes desde el
punto de vista económico dentro del Modelo de Regresión Lineal General. Aprenderemos a contrastar
no sólo si las variables son relevantes individualmente sino si también lo son conjuntamente para
explicar el comportamiento de la variable objetivo y a hacer contraste de combinaciones lineales,
entre otros contrastes de interés.
Finalmente veremos que consecuencias tiene en las propiedades de los estimadores y en la inferencia
la omisión de variables relevantes y la inclusión de variables irrelevantes. También analizaremos
que problemas nos crea la existencia de combinaciones lineales exactas y/o aproximadas entre las
variables a incluir como explicativas en el modelo. Una vez el modelo esté correctamente especificado
para realizar inferencia podremos utilizarlo para predecir.
Para finalizar el tema veremos como realizar análisis de regresión y contraste de hipótesis mediante
el software gretl.
Competencias a trabajar en estas sesiones:
C1. Analizar de forma crı́tica los elementos básicos del modelo de regresión lineal con el objetivo de
comprender la lógica de la modelización econométrica y poder especificar relaciones causales
entre las variables.
C2. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en
base a la información estadı́stica disponible sobre las variables y utilizando los instrumentos
informáticos apropiados.
71
Econometrı́a
C3. Interpretar razonadamente los resultados obtenidos en la estimación y validación del modelo
econométrico con el objetivo de elaborar informes económicos.
C4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.
1. Explicar y entender el alcance de las hipótesis básicas sobre el comportamiento del modelo de
regresión lineal general (C1).
2. Interpretar los coeficientes del modelo de regresión, incluyendo los de especificaciones no li-
neales en las variables (C1).
3. Saber especificar correctamente modelos que incluyan variables cualitativas (C1).
4. Aplicar el estimador de Mı́nimos Cuadrados Ordinarios, MCO (C2).
5. Interpretar los coeficientes estimados del modelo de regresión (C2).
6. Distinguir entre la perturbación y el residuo u error de estimación. Conocer las distribuciones
respectivas (C2).
7. Conocer y saber demostrar las propiedades del estimador de MCO. Derivar la distribución del
estimador de MCO (C2 y C3).
8. Saber contrastar la significatividad individual de las variables explicativas (C2 y C3).
9. Saber contrastar la significatividad conjunta de las variables explicativas (C2 y C3).
10. Saber contrastar restricciones lineales de parámetros (C2 y C3).
11. Saber contrastar restricciones múltiples (C2 y C3).
12. Predecir por punto y por intervalo el valor de la variable endógena dados los valores de las
variables exógenas en el periodo de predicción (C2 y C3).
13. Organizar y sistematizar información estadı́stica relevante (C4).
14. Utilizar un software econométrico (Gretl) para realizar contraste de hı́pótesis relevantes para
la relación económica de las variables e interpretar sus resultados (C2 , C3 y C4).
Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:
72
Econometrı́a
• La cantidad vendida de un bien depende de su precio, del precio de la competencia y del ciclo
económico entre otras variables.
• El salario es una función del nivel de estudios, la experiencia, la edad y el puesto de trabajo.
Objetivo: Cuantificar la relación existente entre una variable dependiente a la que denotaremos
por Y , y un conjunto de K variables independientes, X1 , X2 , . . . , XK mediante la especificación de
un modelo lineal.
Yi = observación i-ésima de Y
Xki = observación i-ésima de Xk ∀k = 1, . . . , K
Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N.
73
Econometrı́a
puede escribirse para todas las observaciones disponibles como el siguiente sistema de N ecuaciones:
Y1 = β1 + β2 X21 + β3 X31 + . . . + βK XK1 + u1 i=1
Y2 = β1 + β2 X22 + β3 X32 + . . . + βK XK2 + u2 i=2
.. ..
. .
Yi = β1 + β2 X2i + β3 X3i + . . . + βK XKi + ui i=i
.. ..
. .
YN = β1 + β2 X2N + β3 X3N + . . . + βK XKN + uN i=N
donde
Y1 1 X21 X31 ··· XK1 u1
Y2 1 X22 X32 ··· XK2 β1 u2
β2
.. .. .. .. .. ..
. . . . . β3 .
Y =
X =
β = u =
(N × 1) Yi (N × K) 1 X2i X3i ··· XKi (K × 1) .. (N × 1) ui
.. .. .. .. .. . ..
. . . . . .
βK
YN 1 X2N X3N ··· XKN uN
74
Econometrı́a
E(uu0 |X) = σ 2 IN
σ2 0 0 . . . 0 1 0 0 ... 0
0 σ2 0 . . . 0 0 1 0 ... 0
2
E(uu0 |X) = .. .. .. . . . = σ 2
.. .. .. . . .. = σ IN
. . . . .. . . . . .
0 0 0 . . . σ2 0 0 0 ... 1
u|X ∼ N ID(0N , σ 2 IN )
75
Econometrı́a
ui |X ∼ N ID(0, σu2 ) ∀i = 1, . . . , N
ó en forma matricial,
u|X ∼ N ( 0N , σu2 IN )
(N × 1) (N × 1) (N × N )
76
Econometrı́a
• β1 = E(Yi |X2i = . . . = XKi = 0). Valor medio o esperado de Yi cuando las variables explica-
tivas son todas cero.
∂E(Yi ) ∆E(Y )
• βk = = ∆X i ∀k = 2, . . . , K. Incremento (o decremento) en el valor esperado de
∂Xki ki
Yi cuando la variable explicativa Xk se incrementa en una unidad, manteniéndose constantes el
resto de las variables. Un aumento unitario en la variable explicativa Xk conlleva un aumento
medio de βk unidades en la variable endógena, ceteris paribus.
Ejemplo 5.1
77
Econometrı́a
Ejemplo 5.2
El objetivo de este ejemplo es proponer un modelo económico para una cadena de comida
rápida de USA. El gerente de dicha cadena ha de tomar decisiones sobre su polı́tica
de precios y el gasto en publicidad. Para valorar el efecto en sus ventas de diferentes
estructuras de precios y diferentes niveles de gasto en publicidad la cadena fija precios y
gasto en publicidad diferentes en las distintas ciudades en que está implantada. Uno de
sus objetivos es analizar cómo cambian sus ingresos por ventas cuando cambia el nivel
de gasto en publicidad. ¿Un incremento en los gastos en publicidad se traduce en un
incremento en ventas? Si esto ocurre ası́, ¿el incremento en las ventas es suficiente para
justificar el incremento en el gasto en publicidad? Su otro objetivo fundamental es fijar
una adecuada polı́tica o estrategia de precios, ¿una reducción en el precio lleva a un
incremento o decrecimiento de los ingresos por ventas? Si la reducción en precios lleva
solo a un pequeño incremento en la cantidad vendida, los ingresos por ventas caeran
(demanda ineslástica en precio) pero si una reducción en el precio conlleva un gran
incremento en la cantidad vendida, los ingresos por ventas creceran (demanda elástica
en precio).
Para proponer un modelo económico que describa el comportamiento de las ventas de
la cadena vamos a empezar suponiendo que las ventas se relacionan linealmente con el
precio del producto y el gasto en publicidad. La ecuación que recoge al modelo económico
es:
S = β1 + β2 P + β3 A (5.3)
Donde S son las ventas mensuales en una de las ciudades en que está implantada la
cadena, P es el precio del producto en dicha ciudad y A el gasto mensual en publicidad
en la ciudad referida. Se analiza el comportamiento de ciudades con poblaciones com-
parables ya que obviamente las ventas en grandes ciudades son mayores que las ventas
en ciudades pequeñas.
Por otro lado hemos de reflexionar sobre cómo medir la variable P . Un local de comida
rápida ofrece un buen número de productos alternativos: hamburguesas, pizzas, pollo
rebozado, aritos, shakes, etc cada uno con su propio precio y no está claro cual es el
precio de referencia a elegir. Lo más adecuado es tomar un precio medio de todos los
productos. Necesitamos datos sobre ese precio medio y cómo cambia de ciudad en ciudad.
Para ello el gerente construye un ı́ndice de precios de todos los productos vendidos en el
mes, medido en dólares, para cada ciudad donde la cadena está implantada, la variable
P . Las ventas mensuales y el gasto mensual en publicidad en la ciudad se miden en miles
de dólares.
Se dispone de las observaciones de dichas variables en un mes concreto para un conjunto
de 75 ciudades. Si añadimos el término de perturbación obtenemos el siguiente modelo
econométrico:
Si = β1 + β2 Pi + β3 Ai + ui i = 1, . . . , 75 (5.4)
78
Econometrı́a
Ejemplo 5.3
Wi = β1 + β2 S2i + ui i = 1, 2, . . . N
donde Wi es el salario anual del individuo i y S2i es una variable ficticia que se define:
½
1 si el individuo i es mujer
S2i =
0 en caso contrario
Ejemplo 5.4
Wi = β1 + β2 S2i + β3 Xi + ui i = 1, 2, . . . N
donde Wi es el salario anual del individuo i, Xi son los años de experiencia del individuo
i y S2i es una variable ficticia que se define:
79
Econometrı́a
½
1 si el individuo i es mujer
S2i =
0 en caso contrario
Ejemplo 5.5
donde Vt son las ventas de la empresa en el momento t y las variables Djt son variables
ficticias que se definen:
½
1 si la observación t pertenece al trimestre j j = 2, 3, 4
Djt =
0 en caso contrario
80
Econometrı́a
Algunas consideraciones sobre la linealidad en parámetros Hay dos tipos de linealidad, linealidad
en variables y linealidad en parámetros. Nosotros estamos interesados en la linealidad en parámetros.
Existen relaciones que aunque en principio no son lineales pueden transformarse en lineales y por
tanto son perfectamente estimables en nuestros términos. Un ejemplo especı́fico de un modelo no
lineal linealizable es la función Cobb-Douglas de la teorı́a de producción. La función de producción
Cobb-Douglas, en su forma estocástica, se expresa como:
De la ecuación anterior se deduce que la relación entre la producción y los factores capital y trabajo
es claramente no lineal. Sin embargo, podemos transformar el modelo tomando logaritmos y obtener
la siguiente relación lineal en los parámetros β1 , β2 y β3 :
siendo β1 = LnA. Una ventaja de este tipo de modelos como el recogido en la ecuación (5.5), en los
que todas las variables están medidas en logaritmos, es que los parámetros de pendiente además
de recibir la interpretación habitual pueden interpretarse en términos de elasticidades:
∂E(LnQt ) ∂E(Qt ) Lt
β2 = =
∂LnLt ∂Lt Qt
∂E(LnQt ) ∂E(Qt ) Kt
β3 = =
∂LnKt ∂Kt Qt
Es decir βk k = 2, 3, miden el cambio porcentual o elasticidad (parcial) generado en la variable
endógena como consecuencia de un cambio porcentual (un 1 %) en la variable exógena correspon-
diente, ceteris paribus. En el ejemplo anterior β2 y β3 representan las elasticidades de la función de
producción con respecto a los factores de producción trabajo y capital respectivamente.
Por otro lado la suma (β2 +β3 ) da información sobre los rendimientos a escala , es decir, la respuesta
de la producción a un cambio proporcional en los factores de producción. Si la suma es 1 existen
rendimientos constantes a escala, al duplicar los factores de producción se duplica la producción.
Si la suma es menor que 1 existen rendimientos decrecientes a escala, al duplicar los factores de
producción ésta crece menos del doble. Si la suma es mayor que 1 existen rendimientos crecientes a
escala, al duplicar los factores de producción ésta crece más del doble.
La elección de la forma funcional que recoge la relación existente entre la variable dependiente y las
variables explicativas es un aspecto de la especificación de un modelo muy importante en el análisis
económico. De hecho, la teorı́a económica no siempre propone relaciones lineales entre variables de
interés. Es el caso, por ejemplo, de la función de consumo de un bien que aumenta con la renta
pero no de forma indefinida ni a ritmo constante sino, en general, a una tasa decreciente, o de las
funciones de costes marginales que suelen tener forma de U, veáse la Figura 5.1.
81
Econometrı́a
Consumo Costes
Es necesario hacer enfásis en el hecho de que el supuesto de linealidad del modelo de regresión no
implica una relación lineal entre las variables sino un modelo en el que los parámetros entran de
forma lineal. Por “lineal en los parámetros” se entiende que los parámetros no se multiplican entre
sı́, no están elevados a potencias, etc. Sin embargo tanto regresando como regresores, sı́ se pueden
transformar para obtener al final un modelo de regresión lineal que satisfaga los supuestos clásicos.
Este hecho hace que el modelo de regresión lineal sea bastante flexible y se pueda utilizar para
modelar relaciones entre variables económicas no lineales. Ası́, tanto la función de consumo como
la función de costes marginales de la Figura 5.1 se pueden modelizar utilizando formas funcionales
sencillas no lineales en las variables. En el caso de la función de consumo, el supuesto de rendimientos
decrecientes se puede representar mediante modelos logarı́tmicos o semilogarı́tmicos del tipo:
ln C = α + β ln R + u (5.6)
C = α + β ln R + u (5.7)
CM = β1 + β2 Q + β3 Q2 + u (5.8)
Los modelos (5.6), (5.7) y (5.8) cumplen el supuesto de linealidad porque son lineales en los paráme-
tros y se pueden analizar dentro del marco del MRLG. Ahora bien, como no son modelos lineales en
las variables, el efecto marginal del regresor sobre la variable dependiente no va a ser constante. Por
ejemplo, en el modelo (5.8), el efecto marginal de un incremento unitario de la producción sobre los
costes marginales viene dado por:
∂E(CT )
= β2 + 2 β3 Q
∂Q
Este resultado implica que la pendiente de la función de costes marginales no es constante sino que
es una función lineal de Q que involucra a los parámetros β2 y β3 .
Otra forma de modelar relaciones no lineales entre las variables explicativas y el regresando es incluir
términos de interacción, es decir, el producto de varios regresores del modelo. Consideremos, por
ejemplo, el siguiente modelo:
Y = β1 + β2 X2 + β3 X3 + β4 (X2 × X3 ) + u
82
Econometrı́a
Este modelo es lineal en los parámetros, por lo que cumple el supuesto de linealidad. El efecto
marginal de X2 sobre Y es:
∂E(Y )
= β2 + β4 X3
∂X2
de forma que el incremento esperado en Y ante un incremento unitario en X2 no es constante sino
que depende del valor de X3 .
Los modelos que no cumplen el supuesto de linealidad se pueden clasificar en dos grupos. En el
primer grupo se encuentran los modelos que no son lineales en los parámetros pero que se pueden
linealizar mediante alguna transformación. En este grupo entra por ejemplo la función de producción
Cobb-Douglas que no es lineal ni en las variables ni en los parámetros, pero tomando logaritmos se
obtiene una función que no es lineal en las variables pero sı́ es lineal en los parámetros. El segundo
grupo lo forman los modelos que no son lineales en los parámetros y que no se pueden linealizar
mediante ninguna transformación, por ejemplo,
Y = β1 + X1β2 β3 + X2β2 + u
A lo largo del curso se han especificado mayoritariamente modelos con variables de naturaleza
cuantitativa, es decir, aquéllas que toman valores numéricos. Sin embargo, las variables también
pueden ser cualitativas, es decir, pueden tomar valores no numéricos como categorı́as, clases o
atributos. Por ejemplo, son variables cualitativas el género de las personas, el estado civil, la raza,
el pertenecer a diferentes zonas geográficas, momentos históricos, estaciones del año, etc. De esta
forma, el salario de los trabajadores puede depender del género de los mismos; la tasa de criminalidad
puede venir determinada por la zona geográfica de residencia de los individuos; el PIB de los paı́ses
puede estar influenciado por determinados acontecimientos históricos como las guerras; las ventas
de un determinado producto pueden ser significativamente distintas en función de la época del año,
etc. En esta sección, aunque seguimos manteniendo que la variable dependiente es cuantitativa,
vamos a considerar que ésta puede venir explicada por variables cualitativas y/o cuantitativas y
veremos como trabajar con ellas incluyéndolas como regresores en el MRLG.
Dado que las categorı́as de las variables no son directamente cuantificables, las vamos a cuantificar
construyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son numéricas.
Estas variables toman arbitrariamente el valor 1 si la categorı́a está presente en el individuo y 0 en
caso contrario1 .
½
1 si la categorı́a está presente
Di =
0 en caso contrario
1
Las variables ficticias pueden tomar dos valores cualesquiera, sin embargo, la interpretación de los coeficientes es
más sencilla si se consideran los valores 0 y 1.
83
Econometrı́a
Por ejemplo si queremos estudiar la dependencia del salario (Wi ) con respecto al sexo del individuo
definiremos dos variables ficticias:
½
1 si el individuo i es hombre
S1i =
0 en caso contrario
½
1 si el individuo i es mujer
S2i =
0 en caso contrario
la variable sexo tiene dos categorı́as o estados de la naturaleza: hombre y mujer, para recogerlos
utilizamos dos variables ficticias que dividen la muestra en dos clases hombres y mujeres, y asignamos
un valor arbitrario a cada clase.
En este tema ya hemos trabajado con ellas, el Ejemplo 5.3 especificamos la función de salario en
función del regresor cualitativo sexo e interpretamos sus parámetros. En el Ejemplo 5.4 además
se añadió un regresor cuantitativo, la experiencia y se interpretaron los parámetros. Si se retoman
dichos ejercicios se puede ver que trabajar con variables cualitativas o con variables cuantitativas a
la hora de interpretar los coeficientes de la regresión y estimarlos es indiferente sin embargo hay que
tener en cuenta algunas reglas a la hora de especificar el modelo. A conocer éstas vamos a dedicar
las secciones siguientes.
Sólo un conjunto de variables ficticias. Supongamos que tenemos datos de salarios de hombres
y mujeres, Wi y creemos que, en media, existen diferencias salariales entre estos dos grupos. Para
contrastar que esto es cierto podemos recoger el efecto cualitativo sexo sobre el salario utilizando
las variables ficticias:
½ ½
1 si el individuo i es hombre 1 si el individuo i es mujer
S1i = S2i =
0 en caso contrario 0 en caso contrario
84
Econometrı́a
La relación entre los parámetros del modelo (5.9) y los del modelo (5.10) es la siguiente:
β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1
Ejercicio 5.2
85
Econometrı́a
Supongamos que pensamos que en el nivel de salarios influye además del sexo el nivel de educación.
Para recoger estos efectos podemos definir dos conjuntos de variables ficticias, sexo y educación, la
primera con dos categorı́as o estados de la naturaleza y la segunda con tres, y recoger cada categorı́a
o estado de la naturaleza con un variable ficticia. Ası́, definimos:
½ ½
1 si el individuo i es hombre 1 si i tiene hasta estudios primarios
S1i = E1i =
½ 0 en caso contrario ½ 0 en caso contrario
1 si el individuo i es mujer 1 si i tiene hasta estudios secundarios
S2i = E2i =
0 en caso contrario ½ 0 en caso contrario
1 si i tiene hasta estudios universitarios
E3i =
0 en caso contrario
donde hemos excluido una categorı́a de cada factor cualitativo. Podemos obtener el salario esperado
de los diferentes individuos de la muestra:
E(Wi /S2i = E2i = E3i = 0) = µ, salario esperado de un hombre con estudios primarios.
E(Wi /E2i = 1; S2i = E3i = 0) = µ + β2 , salario esperado de un hombre con estudios secundarios.
E(Wi /E3i = 1; S2i = E2i = 0) = µ + β3 , salario esperado de un hombre con estudios universitarios.
E(Wi /S2i = 1; E2i = E3i = 0) = µ + α2 , salario esperado de una mujer con estudios primarios
E(Wi /S2i = E2i = 1; E3i = 0) = µ + α2 + β2 , salario esperado de una mujer con estudios secundarios.
E(Wi /S2i = E3i = 1; E2i = 0) = µ + α2 + β3 , salario esperado de una mujer con estudios universitarios.
86
Econometrı́a
iN1 0 0 0
iN2 0 iN2 0
iN3 0 0 iN3
X=
iN4 iN4 0 0
iN5 iN5 iN5 0
iN6 iN6 0 iN6
donde iNj es un vector de unos de tamaño el número de individuos que cumplen las condiciones,
por ejemplo iN6 es un vector de unos de tamaño el número de mujeres con estudios universitarios.
Cuando existen dos o más conjuntos de variables ficticias lo que no debemos hacer es incluir todas
las variables ficticias y un término independiente. En el caso anterior tenemos dos conjuntos con
dos y tres estados de la naturaleza respectivamente, si proponemos la especificación:
Wi = µ∗ + α1∗ S1i + α2∗ S2i + β1∗ E1i + β2∗ E2i + β3∗ E3i + ui i = 1, . . . , NH + NM (5.12)
iN1 iN1 0 iN1 0 0
iN2 iN2 0 0 iN2 0
iN3 iN3 0 0 0 iN3
X=
⇒ rg(X) < K
iN4 0 iN4 iN4 0 0
iN5 0 iN5 0 iN5 0
iN6 0 iN6 0 0 iN6
En cualquiera de los modelos anteriores puede incluirse una-s variable-s cuantitativas, por ejemplo
si creemos que el salario depende no solo de sexo sino también del número de horas trabajadas,
variable que denotamos como Xi propondremos:
87
Econometrı́a
⇒ Y = Xβ + u
Las variables ficticias permiten recoger fácilmente comportamientos estacionales, como se hizo en
el Ejemplo 2.8. Por ejemplo, que las ventas de una empresa sean sistemáticamente superiores en
alguno de los trimestres del año y que ese comportamiento se repita sistemáticamente año tras año
es un clásico patrón de comportamiento sistemático estacional. Este comportamiento se produce en
datos de series temporales de periodo inferior al anual y puede ser estudiado fácilmente mediante
variables ficticias.
Por ejemplo para recoger el comportamiento estacional de una variable Yt muestreada trimestral-
mente podemos proponer el modelo:
donde t es el tiempo y las variables Djt son variables ficticias estacionales que se definen:
½
1 si la observación t pertenece al trimestre j j = 2, 3, 4
Djt =
0 en caso contrario
Entre factores cualitativos y cuantitativos En las ecuaciones (5.13) y (5.14) se recogen cambios
en ordenada pero no en pendiente, sin embargo podemos pensar que el número de horas trabajadas
cambia según el sexo del individuo con lo cual debemos recoger cambios en pendiente. Este efecto
podemos analizarlo asociando las variables ficticias a la variable cuantitativa. Ası́ proponemos el
siguiente modelo:
88
Econometrı́a
i = 1, . . . , NH + NM (5.16)
α1∗ + α2∗
siendo α2∗ el incremento salarial en media por el α1∗
hecho de ser mujer y β2∗ el incremento en el sala-
rio medio de una mujer con respecto a un hom-
bre ante un aumento de una hora en el número X
de horas trabajado.
Entre factores cualitativos En el modelo (5.11) se supone que el efecto de cada factor es constante
para todos los niveles de los demás factores. Sin embargo si suponemos que el efecto diferencial del
sexo variase con el nivel de educación existirı́a un efecto interacción entre las variables ficticias sexo
y educación, que podemos recoger ası́:
Wi = µ + α2 S2i + β2 E2i + β3 E3i + γ2 (S2i × E2i ) + γ3 (S2i × E3i ) + ui i = 1, . . . , NH + NM (5.17)
89
Econometrı́a
N
X
mı́n (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi )2 (5.18)
β̂1 ,...,β̂K i=1
90
Econometrı́a
∂ û0 û
= 0 ⇒ −2X 0 (Y − X β̂) = 0.
∂ β̂
X 0 Y = X 0 X β̂M CO . (5.19)
P P P
PN P X2i P X3i · · · P XKi
X X 2
P 2i P 2i P 2i X
X
2
3i · · · P X2i XKi
X 0X = X3i X3i X2i X3i ··· X3i XKi
(K × K)
.. .. .. .. ..
. . .
P P P . P. 2
XKi XKi X2i XKi X3i ··· XKi
P
β̂1
P Yi
P X2i Yi
β̂2
0
XY = X3i Yi β̂ = β̂3 .
..
(K × 1) (K × 1) ..
P . .
XKi Yi β̂K
El estimador MCO cumple también las condiciones de segundo orden de mı́nimo, con lo cual es,
efectivamente, la solución al problema de minimización de la suma de los residuos al cuadrado.
91
Econometrı́a
Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N ⇔ Y = Xβ + u
ûi = Yi − Ŷi i = 1, 2, . . . , N ⇔ û = Y − Ŷ
Ejemplo 5.6
Vamos a retomar ahora el Ejemplo 5.1 donde se analizaban los determinantes del precio
de la vivienda. Se dispone de una base de datos sobre el precio de una vivienda y distin-
tas caracterı́sticas de la misma para 14 viviendas vendidas en la comunidad universitaria
de San Diego en 1980. Son datos de sección cruzada y la descripción de las variables
disponibles es2 :
92
Econometrı́a
P −1
P P RICEi 14 26753 51 33 4444, 9 129, 062
26753 65699, 75 0, 1548
P SQF Ti P RICEi = 55462515 99193 9095985, 5 =
121, 75 −21, 5875
P BEDRM Si P RICEi 51 99193 189 16372, 7
BAT HSi P RICEi 33 65699, 75 121, 75 80, 375 10821, 075 −12, 1928
93
Econometrı́a
4 Pd
RICEi = 0, 15484 SQF Ti − 21, 5884 BEDRM Si − 12, 1924 BAT HSi =
= (0, 1548 × 500) − 21, 588 × 1 − 12, 192 × 0) = 77, 4000 − 21, 588 = 55, 812
Ejemplo 5.7
Si = β1 + β2 Pi + β3 Ai + ui i = 1, . . . , 75 (5.22)
−1
75,0000 426,5400 138,3000 5803,1000 118, 914
426,5400 2445,7074 787,3810 32847,6770 = −7, 90785
138,3000 787,3810 306,2100 10789,6000 1, 86258
94
Econometrı́a
Ŝi = 118, 91−7, 908Pi +1, 863Ai = 118, 91−7, 9079×5, 5+1, 863×1, 2 = 77, 656$
95
Econometrı́a
X 0 û = X 0 (Y − Ŷ ) = X 0 (Y − X β̂) = 0
2. Los residuos son ortogonales a las estimaciones de la variable endógena: Ŷ 0 û = 0 (û0 Ŷ = 0).
Ŷ 0 û = (X β̂)0 û = β̂ 0 |{z}
X 0 û = 0
=0
¯
4. La media muestral de Y es igual a la media muestral de las estimaciones de Y : Ȳ = Ŷ .
5. La FRM pasa por el vector de medias: Ȳ = β̂1 + β̂2 X̄2 + . . . + β̂K X̄K .
N
X X
ûi = 0 ⇔ (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi ) = 0
i=1
X X X
Yi − N β̂1 − β̂2 X2i − . . . − β̂K XKi = 0
X X X
Yi = N β̂1 + β̂2 X2i + . . . + β̂K XKi
1 X 1 X 1 X
Yi = β̂1 + β̂2 X2i + . . . + β̂K XKi
N N N
Ȳ = β̂1 + β̂2 X̄2 + . . . + β̂K X̄K
Nota: Las propiedades 1 y 2 se cumplen siempre, mientras que las 3, 4 y 5 se cumplen sólo si el
modelo tiene un término independiente.
96
Econometrı́a
X X
SCT = (Yi − Ȳ )2 = Yi2 − N Ȳ 2 = Y 0 Y − N Ȳ 2
Cuando el modelo tenga término independiente podremos dividir la variación total en dos partes,
variación explicada y variación sin explicar.
SCT = SCE + SCR
siendo:
X
SCT = (Yi − Ȳ )2 = Y 0 Y − N Ȳ 2
X ¯
SCE = (Ŷi − Ŷ )2 = Ŷ 0 Ŷ − N Ȳ 2
X
SCR = û2i = Y 0 Y − Ŷ 0 Ŷ = Y 0 Y − β̂ 0 X 0 Y
Coeficiente de determinación, R2
SCE SCR
R2 = =1−
SCT SCT
• Si existe término independiente en el modelo el R2 estará entre los valores 0 y 1. Por la misma
razón si no existe término independiente el R2 no tiene sentido.
• A mayor R2 mejor ajuste. Podemos tener la tentación de mejorar el ajuste incluyendo variables
exógenas y este proceder es un error. El problema que presenta el coeficiente de determinación
es que aumenta o se mantiene constante con la inclusión de nuevas variables explicativas en el
modelo, aunque éstas no contribuyan a explicar la variable endógena. Debido a este problema,
se define otra medida de bondad de ajuste, el coeficiente de determinación corregido, R̄2 .
97
Econometrı́a
• Cualquiera que sea el número de variables incluidas en un modelo la SCT será constante y
por tanto si incluimos una nueva variable la SCR será menor y la SCE será mayor.
• Dado que R̄2 se define como una ponderación del R2 por los grados de libertad tendrá en
cuenta estos últimos.
• Si K = 1, R2 = R̄2 .
• Si K > 1, R̄2 ≤ R2 .
El R2 y el R̄2 son sólo dos estadı́sticos y no deben ser utilizados para comparar la especificación
de modelos entre sı́, sólo los contrastes de hipótesis que se verán más adelante son la herramienta
adecuada.
Existen otros criterios de selección de modelos: el criterio de información de Akaike (AIC) o los
criterios Bayesiano de Schwarz (BIC) y de Hannan-Quinn (HQC). Estos criterios se calculan en
función de la suma de cuadrados residual y de algún factor que penalice por la pérdida de grados
de libertad. Un modelo más complejo, con más variables explicativas, reducirá la suma de cuadra-
dos residual pero aumentará el factor de penalización. Utilizando estos criterios se escogerı́a aquel
modelo con un menor valor de AIC, BIC o HQC. Normalmente no suelen dar la misma elección,
siendo el criterio AIC el que elige un modelo con mayor número de parámetros. El cálculo de estos
criterios es algo complejo sin embargo el programa gretl los muestra automáticamente en el output
de regresión. Únicamente los veremos con dicho programa.
98
Econometrı́a
denotada por R:
r11 r12 ... r1K
r21 r22 ... r2K
R= .. .. .. ..
. . . .
rK1 rK2 . . . rKK
La matriz de correlación R se define como aquella matriz cuyos elementos son el coeficiente de
correlación simple entre dos variables i y j, tal que:
• rkk = 1, los elementos de la diagonal principal son todos unos. Muestran la correlación de una
variable consigo misma.
Yi = β1 + β2 X2i + β3 X3i + ui
Ejemplo 5.8
Con los datos de la Tabla 5.1 y los resultados de la estimación del modelo (5.21) calcu-
lamos el coeficiente de determinación y el coeficiente de determinación corregido:
SCR 16700, 1
R2 = 1 − =1− = 0, 835976
SCT 101754, 7293
(N − 1) 14 − 1
R̄2 = 1− (1 − R2 ) = 1 − (1 − 0, 835976) = 0, 786769
(N − K) 14 − 4
99
Econometrı́a
También podemos calcular la matriz de correlaciones entre SQF T, BEDRM S y BAT HS:
1, 0 0, 4647 0, 7873
R= 1, 0 0, 5323
1, 0
Luego las variables exógenas están correlacionadas positivamente entre sı́. El coeficiente
más alto es el coeficiente de correlación simple entre SQF T y BAT HS.
Ejemplo 5.9
Con los resultados de la regresión del modelo (5.22) y los datos del fichero andy.gdt
calculamos el coeficiente de determinación y el coeficiente de determinación corregido:
· ¸
1, 0 0, 0263
R=
1, 0
Y = Xβ + u u ∼ N ID(0, σ 2 IN )
donde se cumplen todas las hipótesis básicas. El estimador MCO de los coeficientes
β̂ = (X 0 X)−1 X 0 Y
β̂ = β + (X 0 X)−1 X 0 u
100
Econometrı́a
• Es insesgado.
V (β̂) = σ 2 (X 0 X)−1
a11 a12 a13 ··· a1K
a21 a22 a23 ··· a2K
a31 a32 a33 ··· a3K
= σ2 = σ 2 (X 0 X)−1
.. .. .. .. ..
. . . . .
aK1 aK2 aK3 · · · aKK
donde akk es el elemento (k, k) de (X 0 X)−1 . Como toda matriz de varianzas y covarianzas, es
simétrica.
Teorema de Gauss-Markov: Dados los supuestos básicos del modelo de regresión lineal general,
“dentro de la clase de estimadores lineales e insesgados, β̂ es el estimador eficiente, es decir, β̂ tiene
mı́nima varianza”.
En la matriz de varianzas y covarianzas del estimador MCO aparece la varianza de las perturbacio-
nes, lo habitual es que sea desconocida y haya de ser estimada. Habitualmente se utiliza el siguiente
estimador insesgado de σ 2 :
P 2
û0 û SCR ûi
σ̂ 2 = = = y E(σ̂ 2 ) = σ 2
N −K N −K N −K
Por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbación. En
términos de las variables observables mediante las matrices Y , X, podemos expresarlo:
û0 û Y 0 Y − β̂ 0 X 0 Y Y 0 Y − β̂X 0 X β̂
σ̂ 2 = = =
N −K N −K N −K
101
Econometrı́a
Ejemplo 5.10
Con los datos de la Tabla 5.1 y los resultados de la estimación del modelo (5.21) se
calcula la siguiente matriz de varianzas y covarianzas estimada:
−1
14 26753 51 33
26753 55462515 99193 65699, 75
Vb (β̂M CO ) = 1670, 0069 ×
=
51 99193 189 121, 75
33 65699, 75 121, 75 80, 375
7797, 47 0, 670891 −1677, 13 −1209, 37
0, 670891 0, 00102019 −0, 0754606 −0, 995066
=
−1677, 13 −0, 0754606
730, 585 −356, 4
−1209, 37 −0, 995066 −356, 4 1870, 56
Ejemplo 5.11
Con los datos disponibles en el fichero andy.gdt y los resultados de la estimación del
modelo (5.22) se calcula la siguiente matriz de varianzas y covarianzas estimada:
−1
75,0000 426,5400 138,3000
Vb (β̂M CO ) = 23, 8742 × 426,5400 2445,7074 787,3810 =
138,3000 787,3810 306,2100
40, 34330 −6, 79506 −0, 74842
= −6, 79506 1, 20120 −0, 01974
−0, 74842 −0, 01974 0, 46675
102
Econometrı́a
Ejemplo 5.12
Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 )
Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM
· ¸ · ¸· ¸ · ¸
WH iH 0 β1 uH
= + ⇒ Y = Xβ + u
WM iM iM β2 uM
β̂M CO = (X 0 X)−1 X 0 Y
· ¸ ·· ¸· ¸¸−1 · 0 ¸· ¸
β̂1 i0H i0M iH 0 iH i0M WH
= =
β̂2 0 i0M iM iM 0 i0M WM
· ¸−1 · P P ¸ · ¸
NH + NM NM P WH + WM = W̄H
=
NM NM WM W̄M − W̄H
que serı́a el equivalente a estimar cada ecuación por separado, en las dos ecuaciones a
las que da lugar el modelo (5.9):
103
Econometrı́a
• Alternativa de especificación :
Wi = α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM
de donde suponiendo ui ∼ N ID(0, σ 2 )
por tanto estos coeficientes recogen el salario medio dentro del grupo.
Wi = α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM
· ¸ · ¸· ¸ · ¸
WH iH 0 α1 uH
= + ⇒ Y = Xβ + u
WM 0 iM α2 uM
β̂M CO = (X 0 X)−1 X 0 Y
· ¸ ·· ¸· ¸¸−1 · 0 ¸· ¸
α̂1 i0H 0 iH 0 iH 0 WH
= =
α̂2 0 i0M 0 iM 0 i0M WM
· ¸−1 · P ¸ · P ¸ · ¸
NH 0 P WH W H /NH W̄H
= = P =
0 NM WM WM /NM W̄M
Los mismos resultados se obtendrı́an si hubiésemos estimados las ecuaciones por separado
en las dos ecuaciones a que da lugar la especificación alternativa:
Wi = α1 + ui i = 1, . . . , NH y Wi = α2 + ui i = 1, . . . , NH
Si Y = Xβ + u, donde u|X ∼ N (0, σ 2 IN ), el estimador MCO, dado que es lineal en las perturba-
ciones, también seguirá una distribución Normal Multivariante
104
Econometrı́a
β̂k − βk
√ ∼t(N −K)
σ̂ akk
√
donde t(N −K) denota la distribución t-Student con (N − K) grados de libertad, y σ̂ akk es la des-
√
viación estimada del coeficiente estimado. (Notación σ̂ akk = σ̂β̂k ).
h i
P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α
Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para un coeficiente
cualquiera βk como: ³ ´
IC(βk )1−α = β̂k ± t 2 (N −K) σ̂β̂k
α
Las estimaciones por intervalo dan una información muy valiosa sobre la precisión de las estimaciones
por punto, esto es, nos dicen hasta qué punto nos podemos fiar de ellas. Si un intervalo de confianza
es ancho (debido a una Vb (β̂k ) grande) nos está diciendo que no hay mucha información en la
muestra sobre βk . Además, como veremos más adelante, los intervalos sirven para realizar contraste
de hipótesis.
Ejemplo 5.13
Para los valores estimados del modelo (5.22) obtenemos los siguientes intervalos de
estimación:
105
Econometrı́a
Estimamos que una reducción de 1$ lleva a un incremento en los ingresos por ventas
de entre 5.724$ y 10.092$.
• Para la variable gasto en publicidad, A:
h i
P r β̂3 − t α2 (N −K) σ̂β̂3 < β3 < β̂3 + t α2 (N −K) σ̂β̂3 = 1 − α
Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para
el coeficiente β3 como:
³ ´
IC(β3 )1−α = β̂3 ± 1, 993 σ̂β̂3 = (1, 8626 ± 1, 993 × 0, 6832) = [0, 501, 3, 224]
En general nosotros lo que queremos es contrastar conjuntos lineales de hipótesis. Podemos realizar
contrastes sobre los coeficientes individuales y sobre conjuntos de coeficientes, incluso sobre todos
los coeficientes a la vez. Los contrastes más importantes en Econometrı́a son los contrastes de
significatividad de los regresores individuales y el contraste de significatividad conjunta. En ellos
tratamos de analizar si cada uno de los regresores del modelo de forma individual o conjuntamente
son útiles para explicar el comportamiento de la variable endógena. Los veremos a continuación
junto con otros de interés.
106
Econometrı́a
H0 : βk = c frente a Ha : βk 6= c
Bajo las hipótesis básicas y normalidad de las perturbaciones la distribución del estimador β̂k es la
siguiente:
β̂k ∼ N (βk , σ 2 akk )
Si σ 2 es conocida todo es conocido en la distribución de βk y el estadı́stico de contraste serı́a:
β̂k − c H0
∼ N (0, 1)
σβ̂k
El caso más habitual es que σ 2 sea desconocida, en este caso podemos derivar el siguiente estadı́stico
0 û
de contraste y distribución asociada cuando σ 2 es estimada con el estimador insesgado σ̂ 2 = Nû−K :
β̂k − c H0
∼ t(N −K)
σ̂β̂k
β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α2 . En este caso contrario no se rechaza.
k
H0 : βk = c frente a Ha : βk > c
β̂k −c
La regla de decisión es rechazar H0 si σ̂β̂ > t(N −K)| α .
k
H0 : βk = 0
Ha : βk 6= 0
Podemos derivar el siguiente estadı́stico de contraste y distribución:
β̂k H0
∼ t(N −K)
σ̂β̂k
107
Econometrı́a
β̂k
Si el estadı́stico calculado para la muestra es mayor que el estadı́stico en tablas, σ̂β̂ > t(N −K)| α2
k
para un α dado, se rechaza la hipótesis nula. En este caso βk 6= 0 y la variable explicativa asociada
Xk es significativa para explicar el comportamiento de la variable endógena. Por tanto este contraste
sirve para decidir si la variable Xk debe mantenerse en el modelo. Si el estadı́stico calculado para
la muestra es menor que el estadı́stico en tablas, σ̂β̂k < t(N −K)| α2 para un α dado, no se rechaza
β̂k
la hipótesis nula. En este caso βk = 0 y la variable explicativa asociada Xk no es significativa para
explicar el comportamiento de la variable endógena.
Utilización del intervalo de confianza para hacer contraste de hipótesis En secciones anteriores
hablamos de la estimación por intervalo y se mencionó que también podı́amos realizar inferencia
utilizando intervalos de confianza. Pues bien si recordamos el intervalo de confianza asociado a βk :
h i
P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α
³ ´
IC(βk )1−α : β̂k ± t α2 (N −K) σ̂β̂k
En ocasiones interesa averiguar cuál es el efecto de la combinación de varias variables, por ejemplo
nos interesará saber si la combinación de todas las variables es un útil predictor de la variable
dependiente.
H0 : β2 = β3 = · · · = βK = 0
Ha : alguna igualdad no se da
En este caso podemos derivar el siguiente estadı́stico de contraste y distribución asociada:
R2 /K − 1 H0
∼ F(K−1,N −K)
1 − R2 /N − K
2
R /K−1
Si 1−R 2 /N −K > F(q,N −K)|α el estadı́stico calculado para la muestra es mayor que el estadı́stico en
tablas, para un α dado, se rechaza la hipótesis nula y se concluye que las variables son conjuntamente
significativas para explicar el comportamiento de la variable endógena.
108
Econometrı́a
Ejemplo 5.14
d = 129, 062 + 0, 154800 SQF T − 21, 5875 BEDRM S − 12, 1928 BAT HS
P RICE
(σ̂β̂k ) (88,30) (0,03) (27,02) (43,25)
N = 14 R2 = 0, 8359 R̄2 = 0, 7868
109
Econometrı́a
Ejemplo 5.15
Como puede apreciarse en la ecuación anterior, se indica que bajo cada coeficiente esti-
mado aparece su correspondiente desviación tı́pica estimada6 .
Contrastes de significatividad individual, contrastamos:
¾
H0 : βk = 0 β̂k H0
con el estadı́stico y distribución ∼ t(75−3)
Ha : βk 6= 0 σ̂β̂k
• ¿Es la demanda inelástica o elástica con respecto al precio? En este caso queremos
saber si:
6
Una alternativa a presentar las desviaciones tı́picas estimadas de los coeficientes es presentar el valor muestral del
estadı́stico de significatividad individual para el coeficiente de regresión correspondiente o los valores p.
110
Econometrı́a
H0 : β2 ≥ 0, la demanda es inelástica
Ha : β2 < 0, la demanda es elástica
En la práctica contrastamos:
¾
H0 : β2 = 0 β̂2 H0
con el estadı́stico y distribución ∼ t(75−3)
Ha : β2 < 0 σ̂β̂2
H0 : β3 ≤ 1 H1 : β3 > 1
Luego contrastamos:
¾
H0 : β3 = 1 β̂3 − 1 H0
con el estadı́stico y distribución ∼ t(75−3)
Ha : β3 > 1 σ̂β̂3
¯ ¯
¯ ¯
7
También podemos tomar el estadı́stico en valor absoluto ¯ −7,908
1,096 ¯
= | − 7, 215| = 7, 215 > 1, 666 = t(72) |0,05 luego
rechazamos H0 para α = 5 %.
111
Econometrı́a
Ejemplo 5.16
H0 : β2 + β3 = 1
Ha : β2 + β3 6= 1
Renombrando ŵ = β̂2 + β̂3 y c = 1 se puede expresar la hipótesis nula y alternativa ası́ como el
estadı́stico de contraste y su distribución asociada como:
H0 : w = c Ha : w 6= c
ŵ − c H0
∼ t(N −K) si H0 es cierta
σ̂ŵ
2 ) dado que:
La distribución del estadı́stico ŵ ∼ N (µw , σw
ŵ = β̂2 + β̂3
112
Econometrı́a
es
µw = E(ŵ) = E(β̂2 + β̂3 ) = β2 + β3
2 = V (ŵ) = E[ŵ − E(ŵ)]2 = E[(β̂ + β̂ ) − (β + β )]2 = V (β̂ ) + V (β̂ ) + 2Cov(β̂ , β̂ )
σw 2 3 2 3 2 3 2 3
= σ 2 (a22 + a33 + 2a23 )
Por tanto
β̂2 + β̂3 ∼ N (β2 + β3 , σ 2 (a22 + a33 + 2a23 ))
o lo que es igual:
β̂ + β̂3 − 1 H0
√ 2 ∼ t(N −K)
σ̂ a22 + a33 + 2a23
Ejemplo 5.17
Para contrastar:
H0 : β2 = β3 Ha : β2 6= β3
es equivalente a escribir:
H0 : β2 − β3 = 0 Ha : β2 − β3 6= 0
β̂2 − β̂3 H0
√ ∼ t(N −K)
σ̂ a22 + a33 − 2a23
Un aspecto básico de la inferencia estadı́stica que se lleva a cabo en Economı́a es que el investigador
sólo contrasta hipótesis en cuya validez está dispuesto a creer a priori, de modo que si su contraste
no las rechaza, entonces pasa a imponerlas en la representación estructural que está considerando.
Si la hipótesis nula no se rechaza, entonces serı́a muy interesante disponer de un procedimiento
para estimar de nuevo el modelo, pero esta vez imponiendo ese conjunto de hipótesis que hemos
113
Econometrı́a
Resultados:
1. β̂r es lineal en u.
2. Si las restricciones que hemos impuesto son ciertas el estimador β̂r es insesgado. Si
la restricción no se cumple el estimador restringido será sesgado, por lo tanto para comparar
los estimadores MCR y MCO habrá, en general, que utilizar el criterio del error cuadrático
medio.
V (β̂) − V (β̂r )
Estimar sujeto a restricciones mediante el estimador β̂r es equivalente a estimar por MCO el modelo
que cumple la restricción. A este modelo se le llama modelo restringido. Se puede demostrar que es
posible utilizar la suma de cuadrados del modelo restringido (û0r ûr ) para hacer contraste de hipótesis
mediante el estadı́stico siguiente:
donde:
114
Econometrı́a
• û0r ûr es la suma de cuadrados residual del modelo restringido estimado por MCO, siendo el
modelo restringido aquel que cumple la hipótesis nula.
• û0 û es la suma de cuadrados residual del modelo no restringido o lo que es igual el modelo de
interés estimado por MCO.
Ejemplo 5.18
donde:
• û0r ûr es la suma de cuadrados residual del modelo restringido estimado por MCO,
siendo el modelo restringido aquel que cumple la hipótesis nula. Luego el modelo
restringido es:
115
Econometrı́a
116
Econometrı́a
Ejemplo 5.20
Yi = β1 + ui
Ası́
û0r ûr − û0 û/q (SCT − SCR)/q
=
û0 û/(N − K) SCR/N − K
dividiendo el numerador y el denominador de entre SCT obtenemos.
A la hora de estimar un modelo económico, los datos disponibles sobre las variables explicativas o
regresores pueden presentar un alto grado de correlación, especialmente en un contexto de series
temporales y con series macroeconómicas.
Cuando dos o más variables explicativas de un modelo están altamente correlacionadas en la muestra,
es muy difı́cil separar el efecto parcial de cada una de estas variables sobre la variable dependiente.
La información muestral que incorpora una de estas variables es casi la misma que el resto de las
correlacionadas con ella. En este tema analizaremos las implicaciones que este fenómeno muestral
tiene en la estimación por el método de Mı́nimos Cuadrados Ordinarios.
117
Econometrı́a
• Se refiere no tanto a si existe o no relación lineal entre las variables exógenas del modelo de
regresión, que existirá, como al grado de correlación lineal entre las variables explicativas del
modelo de regresión lineal.
• En todo momento nosotros vamos a suponer que tenemos un modelo correctamente especi-
ficado y que al estimarlo detectamos los problemas en la matriz de datos X. Ası́, estamos
enfocando el problema como un problema muestral.
y supongamos que X3i = 2X2i . Las ecuaciones normales que se obtienen del criterio de estimación
MCO forman un sistema de tres ecuaciones pero solo dos son linealmente independientes:
P P P
Yi = N β̂1 + β̂2 X2i + β̂3 X3i
P P P 2
P
Yi X2i = β̂1 X2i + β̂2 X2i + β̂3 X3i X2i
P P P P 2
Yi X3i = β̂1 X3i + β̂2 X2i X3i + β̂3 X3i
ya que si sustituimos en estas ecuaciones la relación lineal exacta X3i = 2X2i y reorganizamos,
obtenemos:
P P
Yi = N β̂1 + (β̂2 + 2β̂3 ) X2i
P P P 2
Yi X2i = β̂1 X2i + (β̂2 + 2β̂3 ) X2i
P ³ P P 2´
2( Yi X2i ) = 2 β̂1 X2i + (β̂2 + 2β̂3 ) X2i
Se puede observar que la tercera ecuación es la misma que la segunda excepto por un factor de escala
igual a 2. Por lo tanto, hay tres incógnitas β̂1 , β̂2 y β̂3 pero solamente dos ecuaciones linealmente
independientes. Dado que X3i y X2i son combinación lineal exacta rg(X) = K − 1 = 3 − 1 = 2,
luego X no es de rango completo y no se cumple una de las hipótesis básicas, la hipótesis de No
Multicolinealidad. Consecuentemente, no es posible estimar de forma única todos los coeficientes del
118
Econometrı́a
modelo. Ahora bien, las dos primeras ecuaciones si podemos resolverlas para β̂1 y la combinación
lineal (β̂2 + 2β̂3 ).
Esto mismo se puede comprobar sustituyendo X3i = 2X2i en el modelo (5.24).
donde podemos estimar de forma separada y única el coeficiente β1 y la combinación lineal (β̂2 +2β̂3 )
pero no cada uno de sus parámetros de forma individual. Además no importa la solución arbitraria
de las ecuaciones normales, esta combinación lineal tiene siempre un único valor y siempre el mismo.
• Consecuencias de la multicolinealidad exacta:
• Los efectos directos de la correlación exacta entre regresores es que el valor del determinante
|X 0 X| = 0, por tanto no podemos encontrar (X 0 X)−1 y por tanto, no podemos estimar el
modelo por MCO ya que el estimador se define como β̂M CO = (X 0 X)−1 X 0 Y .
• En este caso lo que ocurre es que tenemos combinaciones lineales en las columnas de la matriz
X con lo que rg(X) 6= K por lo que (X 0 X) es una matriz singular.
En este caso el valor del |X 0 X| está muy próximo a cero, pero será distinto de cero, por tanto
∃(X 0 X)−1 y podremos calcular los estimadores MCO. Además estos estimadores serán lineales,
insesgados y de varianza mı́nima. Sin embargo la existencia de alta colinealidad entre variables
produce efectos importantes que deben ser tenidos en cuenta y que son los siguientes:
119
Econometrı́a
Cualquier otro estimador tendrá varianza mayor y por tanto el estimador MCO seguirá siendo
de varianza mı́nima. Aunque como consecuencia del tamaño de (X 0 X)−1 , las estimaciones sean
muy imprecisas8 .
• Como consecuencia de lo anterior, podremos encontrar R2 grandes, que indican que las va-
riables exógenas conjuntamente explican mucho de la variabilidad de la variable endógena,
unidos a variables explicativas que aportan poco a explicar esta variabilidad.
• Pequeños cambios en los datos producen cambios importantes en las estimaciones de los
parámetros.
• Una primera aproximación consiste en obtener los coeficientes de correlación muestral simples
para cada par de variables explicativas y ver si el grado de correlación entre estas variables es
alto.
• El valor del determinante decrece cuando aumenta la colinealidad, tendiendo a cero cuando
esta se hace exacta. Este hecho podemos interpretarlo como un aviso pero no tenemos una
medida que nos permita afirmar cuando es grave o muy grave.
• Belsley, Kuh y Welsch (1980) consideran una serie de indicadores para analizar el grado de
multicolinealidad entre los regresores de un modelo, como por ejemplo los llamados Toleran-
cia (TOL) y Factor de Inflación de la Varianza (VIF) que se definen:
1 1
V IFj = ³ ´ T OLj =
1 − Rj2 V IFj
σ2 1 σ2
var(βˆj ) = P ¡ ¢2 ³ ´ = P¡ ¢2 V IFj
Xji − X̄j 1 − Rj2 Xji − X̄j
8
Como veremos en la sección de Contraste de hipótesis el mayor tamaño de las varianzas hará que aumente
la probabilidad de no rechazar la hipótesis nula de significatividad individual, cuando en realidad la variable sea
significativa, sólo que los datos no permiten detectar esta significatividad.
9
En cada regresión se incluye el término constante como regresor pero no como variable dependiente.
120
Econometrı́a
• En ocasiones, si se incorpora información a priori sobre los coeficientes del modelo desaparece
el problema. Aún ası́, serı́a conveniente tener en cuenta dicha información antes de la detección
del problema de multicolinealidad y no posteriormente, ya que ası́ estimaremos el modelo más
eficientemente.
Dentro de las hipótesis básicas hemos supuesto que el modelo estaba correctamente especificado,
esto en ocasiones no es ası́ bien porque faltan variables (omisión de variables relevantes) o porque
hay más de las necesarias (inclusión de variables irrelevantes). Estas situaciones influyen en las
propiedades del estimador MCO y es necesario tenerlo en cuenta.
121
Econometrı́a
Y = X1 β1 + v donde v = X2 β2 + u (5.27)
El modelo (5.27) incurre en un error de especificación ya que se omiten las variables relevantes
recogidas en X2 . Esto es lo mismo que imponer la restricción vectorial β2 = 0 cuando no es cierta.
El estimador MCO de β1 es β̂1 = (X10 X1 )−1 X10 Y , y v̂ = Y − X1 β̂1 . Consecuencias:
Sesgo(β̂1 ) = (X10 X1 )−1 X10 X2 β2 y se anulara si X10 X2 = 0, es decir, si las variables omitidas
son ortogonales a las no omitidas. Notar que el sesgo se anula también para β2 = 0 pero esta
es una solución trivial dado que al ser X2 regresores relevantes necesariamente β2 6= 0.
v̂ 0 v̂ E(v̂ 0 v̂)
σ̂ 2 = −→ E(σ̂ 2 ) = 6= σ 2
N − K1 N − K1
Este caso formalmente es justo el inverso del anterior. El modelo correctamente especificado es:
Y = X1 β1 + u u ∼ N (0, σ 2 I) (5.28)
• Los estimadores de los coeficientes son insesgados. Podemos escribir el modelo correcto como:
Y = X1 β1 + X2 0 + u (5.30)
122
Econometrı́a
· ¸ ÷ ¸ · 0 ¸−1 · 0 ¸!
β̂1 β1 X1 X1 X10 X2 X1 u
E = E + 0 0 =
β̂2 0 X2 X1 X2 X2 X20 u
· ¸ · 0 ¸−1 · 0 ¸ · ¸
β1 X1 X1 X10 X2 X1 E(u) β1
= + =
0 X20 X1 X20 X2 X20 E(u) 0
| {z }
0
ya que X es fija y E(u) = 0. Por lo tanto, el estimador de (5.29) sigue siendo insesgado
aunque se incluyan variables irrelevantes.
5.10. Predicción
Yi = β1 + β2 X2i + . . . + βK XKi + ui .
se puede utilizar el modelo estimado por MCO para predecir el valor que tendrá la variable endógena
(desconocido en ese momento). Dado el modelo de regresión, la ecuación para Yp es:
Yp = β1 + β2 X2p + . . . + βK XKp + up
Yp = Xp0 β + up
123
Econometrı́a
1. El error de especificación. El modelo de regresión en que nos basamos puede ser incorrecto:
pueden faltar variables explicativas que afectan de manera clave a Y , puede que la forma
funcional propuesta no sea correcta, puede que se no se cumpla alguna hipótesis básica, etc.
2. Error en los valores de Xp . La predicción se hace para unos valores dados de Xp , pero estos
pueden ser desconocidos en el momento en que se hace la predicción.
3. El error muestral. No hay más remedio que usar β̂ en vez de los valores verdaderos β para
hacer la predicción.
Dadas todas estas fuentes de incertidumbre a la hora de predecir Y , es muy recomendable que la
predicción puntual de Y se acompañe con una medida de lo precisa que esperamos que sea esa
predicción. En esto consiste la predicción por intervalo.
ep = Yp − Yˆp
En el momento en que hacemos la predicción, tenemos cierta información sobre ep , ya que es una
variable aleatoria con una distribución conocida. En concreto,
¡ ¢−1
ep ∼ N (0, σ 2 ( 1 + Xp0 X 0 X Xp ))
Demostración:
h i
E(ep ) = E up − Xp0 (β̂ −β) = 0 − Xp0 (β − β) = 0
124
Econometrı́a
ep
q ∼ t(N −K)
σ̂ 1 + Xp0 ( X 0 X )−1 Xp
De hecho el denominador final es σ̂ep (la desviación estimada del error de predicción). Tras sustituir
ep = Yp − Ŷp , se puede utilizar dicha distribución para obtener el siguiente intervalo de predicción
para la variable endógena:
" #
Yp − Ŷp
P r − t α2 (N −K) ≤ ≤ t α2 (N −K) = 1 − α
σ̂ep
h i
P r Ŷp − t α2 (N −K) · σ̂ep ≤ Yp ≤ Ŷp + t α2 (N −K) · σ̂ep = 1 − α
³ ´
IC1−α (Yp ) = Ŷp − t α2 (N −K) σ̂ep , Ŷp + t α2 (N −K) σ̂ep
125
Econometrı́a
En esta ventana aparecerán los resultados básicos de la estimación del modelo. Los podemos guardar
como texto plano de la manera habitual o como icono con Archivo → Guardar como icono.
Los resultados que gretl nos devuelve muestran entre otros estadı́sticos la estimación de los paráme-
tros de la recta de ajuste, sus desviaciones tı́picas y estadı́sticos de significatividad individual.
Vamos a utilizar como ejemplo la estimación realizada con el fichero de datos data4-1.gdt:
Los resultados de la estimación MCO mostrados por gretl son los siguientes:
En la columna con encabezamiento Coeficiente aparece la estimación del coeficientre que acompaña
a la correspondiente variable. A continuación aparece su Desviación Tı́pica y el estadı́stico t de
significatividad individual para el contraste H0 : βk = 0 ası́ como su correspondiente valor p.
A continuación aparecen estadı́sticos de interés como pueden ser la media de la variable dependien-
te, R2 o R̄2 entre otros. La fila: F (3, 10) = 16,98894; Valor p (de F ) = 0,000299 se corresponde con
el valor muestral del estadı́stico F para el contraste de significatividad conjunto y su correspon-
diente valor-p. A continuación aparecen los estadı́sticos de Akaike, Schwarz y Hannan-Quinn para
la selección de modelos.
126
Econometrı́a
H0 : β3 = β4 versus Ha : β3 6= β4
β̂3 − β̂4
q ∼ tN −4
d β̂3 , β̂4 )
σ̂ 2 + σ̂ 2 − 2 × Cov(
β̂3 β̂4
• Podemos hacer gráficos de interés: En la opción Gráficos podemos hacer gráficos que nos
ayudan a interpretar los resultados de la estimación, por ejemplo
Gráficos → Gráfico de la variable estimada y observada
Gráficos → Gráfico de residuos → contra alguna de las variables explicativas del modelo
10
Notar que Gretl realiza todos los contrastes
√ con el estadı́stico de diferencias en las sumas residuales de cuadrados.
Además cuando q = 1 t2 = F . Luego tc = 0, 0266334
127
Econometrı́a
• En la pestaña Guardar podemos guardar variables como los residuos, los residuos al cuadrado,
la suma de cuadrados residual y el coeficiente de determinación entre otros.
• En la pestaña Análisis nos muestra las estimaciones de la variable endógena, los intervalos
de confianza de los coeficientes y la matriz de varianzas y covarianzas entre otros resultados.
Para ver y guardar los valores de Ŷ , û y otros resultados de utilidad:
- Ver los valores: Pinchar en Análisis → Mostrar variable y seleccionar observada, estimada
o residuos según nuestro interés.
- Guardar los valores: Pinchar en Guardar → seleccionar la variable de interés.
Gretl utiliza por defecto la denominación yhat, uhat para designar a la variable endógena
estimada y a los residuos, respectivamente y en la descripción de la variable indicará por
ejemplo para uhat: residuos del modelo 1, donde el valor 1 indica que corresponde con el primer
modelo estimado, esto resulta muy útil pues en general trabajaremos con varios modelos a la
vez y hay que distinguir claramente las variables de cada uno.
Gretl permite trabajar tanto con variables ficticias cuantitativas como cualitativas y su tratamiento
no difiere, solo debemos de ocuparnos de especificar correctamente el modelo. En el caso de que la
variable ficticia no esté construida gretl permite hacerlo. En la pantalla inicial en Añadir podemos
añadir Variables ficticias periódicas que se ajustarán lógicamente a la periodicidad muestral del
conjunto de datos, Variables ficticias para las variables discretas seleccionadas donde por ejemplo si
tenemos una variable que toma valores 1, 2 y 3 podremos construir tres variables ficticias tal como
128
Econometrı́a
½
1 si la variable toma valor 1
D1 =
0 en caso contrario
½
1 si la variable toma valor 2
D2 =
0 en caso contrario
½
1 si la variable toma valor 3
D3 =
0 en caso contrario
1 199,9 1
2 228,0 0
3 235,0 1
4 285,0 0
5 239,0 0
6 293,0 0
7 285,0 0
8 365,0 1
9 295,0 0
10 290,0 0
11 385,0 1
12 505,0 1
13 425,0 0
14 415,0 0
Por ejemplo, la primera vivienda de la muestra tiene un precio de 199.900 dólares y tiene piscina
(ya que la variable POOL toma el valor 1), mientras que la segunda no tiene piscina (la variable
POOL toma el valor 0) y su precio de venta es de 228.000 dólares, etc.
Con los datos anteriores podemos obtener fácilmente que el precio medio de la vivienda es 317.493
dólares:
129
Econometrı́a
Sin embargo, también es posible obtener el precio medio para las viviendas que tienen piscina, por
un lado, y para las que no la tienen, por otro. Para ello, en primer, lugar se selecciona el precio para
aquellas viviendas con piscina. Seleccionamos la variable PRICE, pinchamos en Muestra → Definir
a partir de v. ficticia..., seleccionamos la variable POOL y aceptamos.
De esta forma hemos seleccionado el precio para aquellas viviendas que tienen piscina11 . A conti-
nuación, se obtienen los estadı́sticos principales:
Para seleccionar el precio de las viviendas que no tienen piscina, pinchamos en Muestra → Restringir
a partir de criterio, introducimos la condición P OOL = 0 y aceptamos. Los estadı́sticos principales
son los siguientes:
Por tanto, el precio medio de las viviendas con piscina es de 337.980 dólares frente a los 306.111 de
las viviendas sin piscina. Dado el modelo una vivienda con piscina es en promedio 31.869 dólares más
cara que la que no tiene piscina. Notar que no se están teniendo en cuenta otros factores que pueden
afectar al precio de la vivienda (número de pies cuadrados habitables, número de habitaciones, etc.).
El sencillo análisis anterior podemos realizarlo mediante un análisis de regresión. Podemos especi-
ficar un modelo econométrico utilizando la variable ficticia POOL como regresor, estimarlo, hacer
inferencia e ir incorporando otras caracterı́sticas que pueden afectar a los precios de las viviendas.
11
Para restablecer el tamaño muestral inicial pinchar en Muestra → Recuperar el rango completo.
130
Econometrı́a
donde
• α2 : diferencia en el precio medio de una vivienda con piscina con respecto a una que no la
tiene.
Los resultados de estimar el modelo por Mı́nimos Cuadrados Ordinarios utilizando gretl obtenemos
que las estimaciones de los coeficientes son las siguientes:
Para contrastar en el modelo (5.32) si hay diferencias significativas en el precio medio de la vivienda
entre aquéllas que tienen piscina y las que no, la hipótesis de contraste es H0 : α2 = 0. Este
contraste se puede realizar utilizando el estadı́stico t habitual cuyo p-valor es 0,5405, por lo que no
se rechaza la hipótesis nula para un nivel de significación del 5 %, es decir, el precio medio de la
vivienda no es significativamente diferente por el hecho de tener piscina. Alternativamente, se puede
realizar el contraste utilizando el estadı́stico F basado en las sumas de cuadrados de los residuos
131
Econometrı́a
siendo en este caso el modelo (5.32) el modelo no restringido mientras que el modelo restringido es
P RICEi = α1 + ui i = 1, . . . , 14.
Supongamos que ampliamos el modelo (5.32) incorporando regresores que podrı́an explicar el pre-
cio de la vivienda como: el hecho de que la vivienda tenga sala de estar o no, el hecho que tenga
chimenea o no, su superficie, el número de habitaciones y el número de baños. Las dos primeras son
variables ficticias que pueden definirse ası́:
½
1 si la vivienda i-ésima tiene chimenea
F IREP Li =
½0 en caso contrario
1 si la vivienda i-ésima tiene sala de estar
F AM ROOMi =
0 en caso contrario
Mientras que la superficie, el número de baños y el número de habitaciones se definen como en los
temas anteriores:
SQF Ti tamaño de la vivienda i-ésima en pies cuadrados
BEDRM S número de habitaciones de la vivienda i-ésima
BAT HS número de cuartos de baño de la vivienda i-ésima
Con todas ellas podemos especificar el siguiente modelo para explicar el precio de la vivienda:
Donde lo primero a notar es que en el modelo (5.33), afectando a la ordenada, conviven tres conjuntos
de variables ficticias con dos categorı́as cada una, el hecho de tener o no piscina, el hecho de tener
o no chimenea y el hecho de tener o no sala de estar, de las cuales sólo se incluye una de cada
conjunto y se mantiene el término independiente. Esta forma de definir el modelo es muy cómoda
ya que sigue manteniendo los resultados de los modelos con término independiente y permite una
fácil interpretación de los coeficientes que acompañan a las variables ficticias. Ası́, γi i = 2, 3, 4
recogen el diferencial en el valor esperado de una vivienda por el hecho de poseer la caracterı́stica
correspondiente manteniéndose constante el resto de variables. El resultado de la estimación es:
132
Econometrı́a
• γ̂1 = 39, 057: el precio medio estimado de las viviendas sin piscina, baños, habitaciones, sala
de estar ni chimenea y con 0 pies cuadrados habitables es de 39.057 dólares.
• γ̂2 = 53, 1958: la diferencia estimada en el precio medio de las viviendas con piscina con
respecto a las que no la tienen, siendo iguales en el resto de caracterı́sticas (pies cuadrados
habitables, habitaciones, baños, sala de estar y chimenea) es de 53.196 dólares.
• γ̂3 = −21, 34: el precio medio estimado de una vivienda con sala de estar es 21.340 dólares
inferior al de una sin sala de estar, siendo idénticas en el resto de caracterı́sticas. Esto se
debe a que, al mantener constante el número de pies cuadrados de la vivienda y el número de
habitaciones y baños, incluir una sala de estar hará que el resto de habitaciones o baños sean
de menor tamaño.
• γ̂4 = 26, 188: el precio medio estimado de una vivienda con chimenea es 26.188 dólares más
caro que el de una sin chimenea, siendo idénticas en el resto de caracterı́sticas.
• β̂1 = 0, 147: el precio medio estimado de una vivienda se incrementa en 147.000 dólares al
aumentar en 1 pie cuadrado habitable su superficie, permaneciendo constantes el número de
baños y habitaciones.
• β̂2 = −7, 046: el precio medio estimado de una vivienda disminuye en 7.046 dólares al aumentar
en 1 el número de habitaciones, permaneciendo constantes el número de baños y los pies
cuadrados habitaciones. Esto se debe a que las habitaciones serán de menor tamaño.
• β̂3 = −0, 264: el precio medio estimado de una vivienda disminuye en 264 dólares al aumentar
en 1 el número de baños, permaneciendo constantes el número de habitaciones y los pies
cuadrados habitables. De nuevo, las habitaciones serán de menor tamaño.
Contraste de hipótesis
Para contrastar, por ejemplo, que no existen diferencias significativas en el precio medio de la
vivienda por el hecho de tener chimenea, se realiza un contraste de significatividad individual de
133
Econometrı́a
la variable FIREPL. En este caso, observando el p-valor correspondiente, 0,6416, se puede concluir
que a un nivel de significación del 5 %, no existen diferencias significativas en el precio medio de
una vivienda por el hecho de tener chimenea.
Si comparamos los modelos (5.32) y (5.33), ninguna de las variables añadidas en el último es
significativa individualmente12 . Además, el R̄2 es inferior. El contraste de significatividad conjunta
para las variables añadidas se puede realizar con el estadı́stico F basado en las sumas de cuadrados
residuales de los modelos restringido (modelo (5.32)) y no restringido (modelo (5.33)). En este caso,
el resultado es:
por lo que no se rechaza la hipótesis nula de que las variables añadidas al modelo (??) son conjun-
tamente no significativas. Al omitir dichas variables el modelo mejora en cuanto a la significación
de sus coeficientes y el R̄2 . Por tanto, manteniendo las variables POOL y SQFT, la inclusión del
resto (FIREPL, FAMROOM, BATHS, BEDRMS) no añade capacidad explicativa al modelo.
Otra forma de llevar a cabo el contraste es utilizar el valor-p. Este valor es una probabilidad e
indica cuál serı́a el menor nivel de significación que se tendrı́a que elegir para rechazar la hipótesis
nula, dada la realización muestral del estadı́stico. Si el contraste es a dos colas, el valor-p es dos veces
el área a la derecha de la realización muestral del estadı́stico en valor absoluto, en la distribución
de éste bajo la hipótesis nula, esto es
Si el contraste es a una cola, el valor-p serı́a el área a la derecha de la realización muestral del
estadı́stico en valor absoluto, en la distribución de éste bajo la hipótesis nula, esto es valor-p =
P(tj > tmj |H0 ). A mayor valor-p, mayor serı́a la probabilidad de error de tipo I si elegimos rechazar
la hipótesis nula. Luego a mayor valor-p menor evidencia contra la hipótesis nula y por el contrario
a menor valor-p mayor evidencia contra la hipótesis nula. El cálculo del valor-p es más complicado
que elegir el nivel de significatividad a priori por lo que generalmente se realiza en el ordenador.
En la práctica se compara el valor-p con el valor 0,05 y si valor-p < 0, 05 se rechaza la H0 mientras
que si valor-p > 0, 05 no se rechaza la H0 .
12
Un problema añadido es que tenemos un bajo tamaño muestral, T=14, y hemos aumentado significativamente el
número de parámetros a estimar, K=7, por lo que tenemos muy pocos grados de libertad.
134
Econometrı́a
Para hacer predicción con gretl debemos incorporar los nuevos datos (Xp ) a la base de datos me-
diante
indicando el número de observaciones que queremos añadir, en este caso 1. En la fila correspon-
diente incluimos los valores de las variables explicativas en el periodo de predicción, en este caso la
observación N + 1, incorporando cada observación en la casilla correspondiente. Si no incorporamos
el valor para la variable Yi que es la que vamos a predecir, gretl nos mostrará un aviso (Atención:
habı́a observaciones perdidas). Podemos simplemente ignorarlo y darle a aceptar.
Posteriormente, estimaremos el modelo sin considerar esta nueva observación. Para ello, tenemos
que especificar el rango muestral, es decir, en la opción
especificaremos del rango de observaciones de la muestra para estimar el modelo, en nuestro caso
de la 1 a la N y elegimos Aceptar.
Estimaremos el modelo por MCO y en la ventana de los resultados elegimos
Análisis → Predicciones
En la nueva ventana podemos determinar el dominio de predicción, es decir el Inicio y Fin que en
este caso es en ambos la observación número N + 1, y también cuantas observaciones se quieren
representar antes de la prediccion.
Utilizando los resultados obtenidos en el Ejemplo 5.10 se va a predecir la variable P RICE. Los
resultados que muestra Gretl son los siguientes:
135
Econometrı́a
650
price
predicción
600 Intervalo de confianza 95 por ciento
550
500
450
400
350
300
250
200
150
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
El gráfico que se obtiene junto a los resultados muestra la serie de precios (P) observada en color
rojo y estimada con el modelo para las 14 observaciones anteriores a la predicción y la predicción
en color azul, junto con su intervalo de confianza en color verde.
La predicción por punto del precio de una vivienda con estas caracterı́sticas es de 479, 905 miles de
euros, mientras que la predicción por intervalo con un nivel de confianza del 95 % es (356, 5; 603, 3)
en miles de euros, por lo que el precio que nos piden, que era de 500 miles de euros por la vivienda,
está dentro del intervalo. Este precio para una vivienda de esas caracterı́sticas se aceptarı́a como
razonable dado nuestro modelo y la información muestral utilizada para su estimación, con un nivel
de confianza del 95 %.
136
Econometrı́a
[2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A
modern Approach, ed. South-Western, 2nd edition.
137
Econometrı́a
138
Tema 6
Heterocedasticidad. Implicaciones
En este tema vamos a ocuparnos de validar el modelo. Una vez especificado y estimado el modelo
de regresión lineal general y realizados los contrastes de interés el modelo puede ser utilizado para
la predicción. Esta será más fiable cuanto mejor especificado y estimado esté el modelo. En el
Tema 5 nos hemos ocupado de ver las consecuencias de omitir variables relevante e incluir variables
irrelevantes y para evitarlo utilizamos los contrastes de significatividad individual y conjunto. En
este tema nos ocuparemos de analizar si los coeficientes del modelo son constantes durante todo el
periodo muestral.
Por otro lado cuando especificamos las hipótesis básicas de comportamiento, sobre la perturbación
supusimos que es homocedástica y no autocorrelada, en este tema estudiaremos como contrastar
que efectivamente la perturbación tiene varianza constante y covarianzas cero.
4. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obte-
nidas en una aplicación empı́rica.
139
Econometrı́a
Bibliografı́a Recomendada:
Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer
los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación:
140
Econometrı́a
Hasta el momento uno de los supuestos básicos del modelo de regresión lineal es que la va-
rianza de cada término de perturbación ui condicionada a los valores de las variables explicati-
vas, es constante e igual a σ 2 . Llamábamos a este supuesto homocedasticidad y lo denotábamos:
V (ui ) = σ 2 ó lo que es igual E(u2i |X) = σ 2 ∀i. La varianza σ 2 es una medida de dispersión de
ui alrededor de su media , E(ui |X) = 0, o equivalentemente, una medida de dispersión de la variable
dependiente Yi alrededor de su media β1 + β2 X2i + . . . + βk Xki . Ası́, homocedasticidad significa que
la dispersión es la misma a través de todas las observaciones.
Supongamos que disponemos de observaciones sobre consumo y renta para un conjunto de familias,
en un año determinado. Las familias con rentas bajas no tienen mucha flexibilidad en sus gastos, en
general el grueso de la misma se gastará en cosas básicas, por ello la forma de consumo entre familias
de renta baja no variará demasiado. Sin embargo, las familias de rentas altas tienen más posibilidades
de consumo, ser grandes consumidores o ahorradores o llevar un gasto equilibrado. En cualquier caso
su consumo puede ser muy distinto entre sı́ por lo que pueden tener una gran dispersión alrededor
de su consumo medio mientras que las familias con rentas bajas no. En esta situación suponer que
existe homocedasticidad no es sensato, deberı́amos suponer que existe heterocedasticidad.
f ( u )
f ( u )
X 6
α +β α+β
X 1 X 6
X 1
X 2
X 2
X 6
X 6
Llamamos heterocedasticidad al caso en que la varianza del término de error varı́a a través del tiem-
po si miramos a series temporales, V (ut ) = σt2 , o cambia de una observación a otra si miramos datos
141
Econometrı́a
de sección cruzada, (familias, paı́ses, etc.), V ar(ui ) = σi2 . Seguimos suponiendo que no existe auto-
correlación entre perturbaciones por lo que sólo consideramos la existencia de heterocedasticidad.
La matriz de varianzas y covarianzas de la perturbación será:
2
σ1 0 0 . . . 0
0 σ2 0 . . . 0 X
2
E(uu0 |X) = . =
.. .. ... . . . ...
.
0 0 2
0 . . . σN
Ejemplo 6.1 Supongamos que tenemos datos para diferentes comunidades autónomas es-
pañolas en el año 2005 sobre gasto sanitario agregado, GS, renta personal disponible, R, el
porcentaje de población que supera los 65 años, SEN y población, P OP , con los que estimar
el siguiente modelo:
GSi = β1 + β2 Ri + β3 SENi + β4 P OPi + ui i = 1, . . . , N (6.1)
Las comunidades con más población y/o mayor porcentaje de población con edad superior
a 65 años tendrán mayor gasto sanitario que aquellas con menor población o más joven.
En esta situación suponer que la dispersión de los gastos sanitarios es la misma para todas
las comunidades con distinto nivel de población y composición de la misma no es realista,
y se deberı́a proponer que la varianza de la perturbación sea heterocedástica V ar(ui ) =
σi2 , permitiendo por ejemplo que varı́e en función creciente con la población, es decir, σi2 =
σ 2 P OPi . Incluso podemos pensar que varı́e en función creciente con el porcentaje de población
mayor de 65 años, en cuyo caso propondrı́amos V ar(ui ) = σ 2 SENi o con ambas variables,
por lo que la forma funcional pudiera ser V ar(ui ) = σ 2 (a P OPi + b SENi ).
142
Econometrı́a
Ejemplo 6.3 Un fenómeno parecido ocurre con las empresas que deben decidir qué por-
centaje de sus beneficios, B, deben repartir como dividendos, D. Las empresas con mayores
beneficios tienen un margen de decisión muy superior al fijar su polı́tica de dividendos. Al
estimar el modelo:
Di = β1 + β2 Bi + ui i = 1, . . . , N (6.3)
cabrı́a esperar que la varianza de ui dependa del nivel de beneficios de la empresa i-ésima y
podrı́amos proponer que por ejemplo, E(u2i ) = σi2 = σ 2 Bi .
Ejemplo 6.4 Supongamos un investigador que desea estimar los coeficientes del siguiente
modelo:
Yj = β1 + β2 Xj + uj j = 1, . . . , N (6.4)
y la nueva perturbación ūi seguirá teniendo media cero, pero su varianza no será constante
ya que dependerá del número de observaciones dentro del grupo,
σ2
V ar(ūi ) = i = 1, . . . , m.
ni
Si el número de observaciones dentro del grupo es el mismo en todos los grupos la varianza
de la perturbación ūi es homocedástica.
• Otro caso serı́a la existencia de un cambio estructural en varianza recogido por una
variable ficticia en la varianza de la perturbación.
Ejemplo 6.5 Supongamos que se desea estudiar la relación entre producción, Y , y mano de
obra, X, para un conjunto de 20 trabajadores de los cuales 10 son mujeres y el resto hombres.
Si suponemos que la variabilidad de la producción es distinta para los hombres que para las
mujeres nuestro modelo a estimar serı́a:
Yi = β1 + β2 Xi + ui i = 1, . . . , 20 (6.6)
donde ui ∼ (0, α1 + α2 Di ) siendo Di una variable ficticia que toma valor la unidad si la
observación corresponde a una mujer y cero en el caso contrario. En este caso:
143
Econometrı́a
Suponiendo que las primeras diez observaciones corresponden a mujeres, la matriz de varianzas
y covarianzas del vector de perturbaciones serı́a la siguiente:
· ¸
(α1 + α2 )I10 0
E(uu0 ) =
0 α1 I10
• En los contrastes de hipótesis: Una forma sencilla de pensar en las consecuencias sobre
los contrastes de hipótesis es pensar que dado que el estimador no es el mejor de los posibles
la inferencia realizada con el mismo no será fiable.
Formalmente lo que está ocurriendo es que el estimador de σ 2 propuesto σ̂ 2 = NSCR
−K ahora no
es insesgado por lo que los estadı́sticos de contraste habituales no tendrán las distribuciones
t y F habituales. Por tanto, los contrastes no son válidos.
Detección de la heterocedasticidad
144
Econometrı́a
2
residuos MCO
−1
−2
−3
−4
0 5 10 15 20 25 30
POP
145
Econometrı́a
Si el gráfico es como el recogido en la Figura 6.2 pensaremos que la variabilidad de los residuos
ûM CO,i se incrementan con P OPi y que el incremento es directamente proporcional. Ası́, podrı́amos
proponer, por ejemplo:
E(u2i ) = σ 2 P OPi i = 1, 2, . . . , N
Si el gráfico de los residuos MCO frente a P OP hubiera sido como el recogido en la Figura 6.3
supondrı́amos que el aumento en la varianza de ui es inversamente proporcional a P OPi y propon-
drı́amos:
E(u2i ) = σ 2 P OPi−1 i = 1, 2, . . . , N
2
residuos MCO
-1
-2
-3
-4
0 0.5 1 1.5 2
POP
También podemos optar por dibujar la serie de los residuos al cuadrados MCO frente a la variable
que creemos causa la heterocedasticidad como se muestra en la Figura 6.4. En el gráfico de la
izquierda se muestran los pares (SENi , ûM CO,i ), en el gráfico de la derecha se muestran los pares
(SENi , û2M CO,i ). Ambos gráficos muestran la misma información, muestran que la variabilidad de los
residuos se incrementa con SEN y podrı́amos proponer, por ejemplo V ar(ui ) = E(u2i ) = σ 2 SENi .
3
Cuadrado de los Residuos MCO
14
2
12
residuos MCO
1
10
0
8
−1 6
−2 4
−3 2
−4 0
6 8 10 12 14 16 18 6 8 10 12 14 16 18
SEN SEN
146
Econometrı́a
En general a priori no se conocerá cuál de las variables exógenas genera la heterocedasticidad por
lo que resulta aconsejable estudiar los gráficos de los residuos de MCO, contraponiéndolos a cada
una de las variables exógenas del modelo, como estamos haciendo al estudiar los residuos frente a
P OPi y frente a SENi . Notar que ambas variables parecen afectar a la varianza de la perturbación,
por ello estarı́a justificado proponer V ar(ui ) = (a P OPi + b SENi ), donde a y b son desconocidos y
el factor de escala es la unidad, σ 2 = 1.
1.5
0.5
Residuos MCO
-0.5
-1
-1.5
-2
-2.5
0 5 10 15 20 25 30
POP
Si la gráfica entre ûM CO,i y P OPi hubiera resultado como la de la Figura 6.5, concluirı́amos que
la varianza de la perturbación no depende de P OPi ya que no se aprecia ningún patrón de com-
portamiento y parece que hay una distribución aleatoria de los pares (P OPi , ûi ). En esta situación
procede analizar los residuos frente al resto de regresores del modelo.
Las formas anteriores no son las únicas. Si recordamos, en el Ejemplo 3.6 se suponı́a una situación
donde hombres y mujeres en una empresa tenı́an diferente productividad y se suponı́a que V ar(ui ) =
α1 + α2 Di siendo Di una variable ficticia que toma valor uno si la observación corresponde a una
mujer y cero en caso contrario. En esta situación esperarı́amos un gráfico como el recogido en la
Figura 6.6 donde claramente la dispersión de los residuos para las mujeres es mucho mayor que para
los hombres.
Como conclusión diremos que al analizar los gráficos de la relación residuos MCO, o sus cuadra-
dos, con cada uno de los regresores lo que intentaremos detectar visualmente es un crecimiento o
decrecimiento en la variabilidad de los residuos con respecto a la variable en cuestión.
Sin embargo el estudio gráfico de los residuos no es determinativo. Para determinar si existe o no
heterocedasticidad tendremos que realizar un contraste de existencia de heterocedasticidad con un
estadı́stico adecuado. Estadı́sticos de contraste de existencia de heterocedasticidad hay muchos y
unos se adecúan más a unas situaciones que otros y en general necesitan suponer una forma funcional
para σi2 . El análisis gráfico no es una pérdida de tiempo ya que la relación entre Xki y ûM CO,i nos
147
Econometrı́a
800
600
400
200
Residuos MCO
0
-200
-400
-600
-800
0 1
D_i
indicará una posible forma funcional (de heterocedasticidad) para la varianza de la perturbación y
puede indicarnos cuál es el test de contraste más adecuado. En este tema vamos a estudiar un único
test de heterocedasticidad que tiene carácter general y no exige supuestos sobre el comportamiento
de σi2 . Además gretl lo proporciona directamente.
H0 : E(u2i |X) = σ 2 ∀i
Ha : E(u2i |X) = σi2
1. Estimamos por MCO el modelo original y calculamos los residuos de MCO, ûM CO,i .
H0 : α2 = α3 = . . . = α6 = 0
148
Econometrı́a
Observaciones:
2. A la hora de incluir los regresores de la regresión auxiliar debemos ser muy cuidadosos para
no incurrir en multicolinealidad exacta, por ejemplo en el caso de las variables ficticias con
valores 0 y 1, en este caso el cuadrado de la variable coincide con ella misma.
3. También pueden surgir problemas en modelos con un alto número de regresores que puede
conllevar que en la regresión auxiliar el número de variables sea tal que no supere al número
de observaciones y nos quedemos sin grados de libertad. Si éste es el caso podemos optar por
regresar el cuadrado de los residuos MCO sobre Ŷi y Ŷi2 ya que Ŷi es el ajuste de Yi usando
el estimador MCO con todos los regresores originales.
û0 ûM CO
Vd
ar(β̂M CO ) = σ̂ 2 (X 0 X)−1 donde σˆ2 = M CO
N −k
• Los estadı́sticos t y F habituales para hacer inferencia sobre β definidos en base a este estimador
de la matriz de varianzas y covarianzas del estimador MCO son inapropiados ya que:
- σ̂ 2 es un estimador sesgado
149
Econometrı́a
• La dificultad que entraña el conocimiento de Ω hace interesante el poder contar con una esti-
mación consistente, y robusta a la posible existencia de heterocedasticidad, de V ar(β̂M CO ) y
de esta forma derivar estadı́sticos válidos, al menos asintóticamente, para contrastar hipótesis
sobre el vector de coeficientes β.
donde S = diag(û21 , û22 , . . . , û2N ) esta matriz de varianzas y covarianzas consistente asintóti-
camente puede ser utilizada para hacer inferencia válida al menos asintóticamente utilizando
β̂M CO sin tener que especificar a priori la estructura de heterocedasticidad.
H0 : βj = c β̂j,M CO − c H0
−→ N (0, 1)
Ha : βj 6= c d
desv(β̂j,M CO )W hite
Ejemplo
El Departamento de Sanidad de E.E.U.U. quiere estudiar la relación entre el gasto sanitario agregado
en billones de dólares (exphlth), la renta personal disponible agregada también en billones de dólares
(income), el porcentaje de población que supera los 65 años en el año 2005 (seniors) y la pobla-
ción en millones (pop). Para ello encarga un estudio a dos becarios de la facultad de Económicas de
Harvard poniendo a su disposición datos de 2005 para dichas variables sobre 51 estados americanos1 .
Puedes acceder a estos datos ejecutando GRETL → En Archivo → Abrir datos → Archivo de
muestra → Elige Ramanathan, fichero data8-3.gdt.
1. Escribe el modelo que te permita analizar la influencia de las variables explicativas income,
seniors y pop sobre la variable exphlth. Estı́malo por MCO. Interpreta los resultados de la
estimación en términos de significatividad y bondad del ajuste.
1
Fuente: Ramanathan, Ramu (2002): Introductory Econometrics with Applications, fichero data8-3.gdt.
150
Econometrı́a
Los resultados de la estimación por Mı́nimos Cuadrados Ordinarios son los siguientes:
1
0
-1
-2
-3
-4
0 10 20 30 40 50
151
Econometrı́a
La Figura 6.7 muestra los residuos MCO, ûM CO,i por observación. Los residuos aparecen cen-
trados en torno al valor cero como corresponde a su media. Para las 25 primeras observaciones
la dispersión de los residuos permanece más o menos constante salvo en dos observaciones. En
adelante la observación 25 aumenta la dispersión en los residuos.
2
residuo
-1
-2
-3
-4
0 100 200 300 400 500 600 700
income
La Figura 6.8 muestra los pares (IN COM Ei , ûM CO,i ). Para valores de IN COM E en el
intervalo (0, 100) vemos una alta concentración de observaciones donde la dispersión de los
residuos permanece más o menos constante salvo en dos observaciones. En adelante al valor
100 y a medida que IN COM E toma valores mayores aumenta la dispersión en los residuos y
la concentración desaparece.
2
residuo
-1
-2
-3
-4
0 5 10 15 20 25 30
pop
152
Econometrı́a
La Figura 6.9 muestra los pares (P OPi , ûM CO,i ). Para valores de P OP en el intervalo (0, 5)
vemos una alta concentración de observaciones donde la dispersión de los residuos permanece
más o menos constante salvo en dos observaciones. En adelante al valor 5 y a medida que P OP
toma valores mayores aumenta la dispersión en los residuos y la concentración desaparece. Este
gráfico replica la forma del comentado anteriormente.
H0 : α2 = α3 = α4 = . . . = α10 = 0
153
Econometrı́a
R-cuadrado = 0.778511
Estadı́stico de contraste: T R2 = 39,704042,
con valor p= P (Chi − cuadrado(9) > 39,704042) = 0,000009
T R2 = 39,704042 > χ2(9)0,05 = 16, 919 luego rechazamos la hipótesis nula para α = 5 % y
existe heterocedasticidad
H0 : β3 = 0 β̂3,M CO 0H
−→ N (0, 1)
Ha : β3 6= 0 d β̂3,M CO )W hite
desv(
El valor muestral del estadı́stico que nos proporciona gretl es 1, 4522 < 1, 96 = N (0, 1)0,025
luego no rechazamos la hipótesis nula para un nivel de significatividad del 5 % luego la variable
Población no es significativa para explicar el gasto en sanidad.
154
Econometrı́a
155
Econometrı́a
156