Notas Econometria

Econometría Básica: Notas de clase
Juan David Prada Sarmiento

Ponticia Universidad Javeriana - 2009 I
Trabajo no original y preliminar. Por favor no citar.
4 de mayo de 2009
Índice general
1. Introducción 5
1.1. Teoría económica y econometría . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Naturaleza de los datos económicos . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1. Restricción a modelos no experimentales . . . . . . . . . . . . . . . 7
1.2.2. Estructura de los datos económicos . . . . . . . . . . . . . . . . . . 8
1.2.3. Calidad y precisión de los datos . . . . . . . . . . . . . . . . . . . . 10
1.3. Noción de ceteris paribus . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. Conceptos estadísticos/matemáticos básicos 13

2.1. Conceptos preliminares de probabilidad . . . . . . . . . . . . . . . . . . . 13
2.1.1. Experimento, espacio muestral, eventos y variables aleatorias . . . 13
2.1.2. Distribución de probabilidad, valor esperado y varianza . . . . . . 15
2.1.3. Valor esperado condicional . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.4. Distribuciones Bernoulli, uniforme y normal . . . . . . . . . . . . . 18
2.2. Inferencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1. Estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2. Insesgamiento, precisión, eciencia . . . . . . . . . . . . . . . . . . 20
2.2.3. Consistencia y propiedades asintóticas . . . . . . . . . . . . . . . . 20
2.2.4. Estimación por intervalos y pruebas de hipótesis . . . . . . . . . . 20
2.2.5. Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Álgebra lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Matrices denidas y formas cuadráticas . . . . . . . . . . . . . . . 22
2.3.2. Diferenciación en notación de vectores y matrices . . . . . . . . . . 23
3. Regresión lineal simple 25

3.1. Modelo de regresión lineal simple (mrls) . . . . . . . . . . . . . . . . . . . 25
3.2. Correlación, causalidad y regresión . . . . . . . . . . . . . . . . . . . . . . 27
3.3. Estimador de Mínimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . 28
3.3.1. Interpretación de los estimadores OLS . . . . . . . . . . . . . . . . 33
3.4. Propiedades algebraicas del estimador OLS . . . . . . . . . . . . . . . . . 34
3.5. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6. Propiedades estadísticas de la estimación OLS . . . . . . . . . . . . . . . . 37
3.6.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.6.2. Varianza de los estimadores OLS . . . . . . . . . . . . . . . . . . . 39
3.6.3. Estimación de la varianza del término de perturbación σ2 . . . . . 42
2
Índice general
3.6.4. Sencillo experimento Montecarlo para mostrar el comportamiento

muestral del estimador OLS . . . . . . . . . . . . . . . . . . . . . . 45
3.7. Regresión simple desde el punto de vista matricial . . . . . . . . . . . . . 46
4. Regresión múltiple 51
4.1. Modelo de regresión lineal múltiple (mrlm) . . . . . . . . . . . . . . . . . . 51
4.2. Estimación por Mínimos cuadrados ordinarios (OLS) . . . . . . . . . . . . 52
4.2.1. Estimación OLS con variables centradas . . . . . . . . . . . . . . . 53
4.2.2. Interpretación de los estimadores OLS . . . . . . . . . . . . . . . . 55
4.3. Computación de los estimadores OLS . . . . . . . . . . . . . . . . . . . . . 56
4.3.1. Regresión múltiple vs. Regresión simple: el efecto de una variable
adicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.2. Efectos del cambio de unidades en la estimación OLS . . . . . . . . 61
4.3.3. Regresión simple como caso particular de la regresión múltiple . . . 63
4.3.4. Regresión particionada . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4. Propiedades estadísticas de la estimación OLS . . . . . . . . . . . . . . . . 68
4.4.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2. Varianza de los estimadores OLS . . . . . . . . . . . . . . . . . . . 73
4.4.3. Estimación de la varianza del término de perturbación σ2 . . . . . 77
4.4.4. Eciencia: Teorema de Gauss-Markov (OLS es BLUE) . . . . . . . 78
4.5. Predicción y grado de explicación . . . . . . . . . . . . . . . . . . . . . . . 81
4.5.1. Coeciente de determinación . . . . . . . . . . . . . . . . . . . . . 81
4.5.2. Cambio en SSR cuando una variable es añadida a la regresión . . . 84
4.5.3. Coeciente de determinación ajustado . . . . . . . . . . . . . . . . 86
4.5.4. Error de predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5. Inferencia en el análisis de regresión múltiple 88

5.1. Normalidad en el término de perturbación . . . . . . . . . . . . . . . . . . 88
5.2. Estimación por máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . 89
5.2.1. Función de densidad conjunta del modelo lineal . . . . . . . . . . . 89
5.2.2. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.3. Cota inferior de Cramér-Rao . . . . . . . . . . . . . . . . . . . . . 93
5.3. Mínimos cuadrados restringidos . . . . . . . . . . . . . . . . . . . . . . . . 95
5.4. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.4.1. Intervalo de conanza para una restricción lineal . . . . . . . . . . 98
5.4.2. Intervalo de conanza para varias restricciones lineales . . . . . . . 100
5.4.3. Intervalo de conanza para la predicción . . . . . . . . . . . . . . . 102
5.5. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.5.1. Prueba de hipótesis: coecientes individuales . . . . . . . . . . . . 104
5.5.2. Signicancia estadística vs signicancia económica . . . . . . . . . 106
5.5.3. Prueba de hipótesis: varias combinaciones lineales . . . . . . . . . . 107
5.5.4. Prueba de razón de verosimilitud . . . . . . . . . . . . . . . . . . . 111
5.5.5. Prueba de hipótesis sobre σ2 . . . . . . . . . . . . . . . . . . . . . 112
5.6. Consistencia y normalidad asintótica . . . . . . . . . . . . . . . . . . . . . 113
3
Índice general
5.6.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

5.6.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.6.3. Inferencia basada en propiedades asintóticas . . . . . . . . . . . . . 120
6. Modelo de regresión con variables dicótomas 122

6.1. Variables dicótomas e interceptos diferenciales . . . . . . . . . . . . . . . . 123
6.2. Términos interactivos y pendientes diferenciales . . . . . . . . . . . . . . . 124
6.3. Pruebas de estabilidad estructural: probando diferencias entre grupos . . . 124
6.4. Modelo de probabilidad lineal . . . . . . . . . . . . . . . . . . . . . . . . . 126
7. Heteroscedasticidad y autocorrelación 130

7.1. Mínimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . . 130
7.1.1. Descomposición de Cholesky - Diagonalización espectral . . . . . . 130
7.1.2. Violación de homoscedasticidad y/o no autocorrelación . . . . . . . 131
7.1.3. Estimador por mínimos cuadrados generalizado . . . . . . . . . . . 132
4
1 Introducción
Estas notas de clase son una introducción a la econometría básica. La exposición de
los temas sigue de cerca a Wooldridge (2002) y a Judge, Hill, Griths, Lütkepohl y
Lee (1982). Otros textos complementarios útiles para la econometría básica son Gujarati
(2002) y Kennedy (2005). Un texto de referencia importante y algo más formal es Greene
(2007).
La econometría es la aplicación de métodos estadísticos para cuanticar los problemas
económicos, estimar relaciones, proyectar variables, evaluar políticas y probar o validar
la teoría económica. Estas notas tienen como objetivo familiarizar al estudiante con las
técnicas básicas de econometría tanto a nivel teórico como práctico. Las notas se apoyan
en ejemplos prácticos diseñados en lenguajes de programación como MATLAB y en
ese sentido combinan una presentación teórica a nivel básico y el diseño de programas
econométricos sencillos.
El tema central de las notas será la implementación y el análisis del modelo de regresión
lineal clásico multivariado, sus supuestos, extensiones e identicación de los problemas
típicos que se presentan en el trabajo empírico. Con estas herramientas los estudiantes
serán capaces de entender el trabajo empírico básico en la literatura económica y de
aplicar las técnicas de econometría estándar en proyectos de investigación, lo cual resulta
muy útil para los estudios de clases electivas avanzadas y para realizar trabajos de tesis
respectivamente. Adicionalmente se brindarán las bases necesarias para tomar cursos de
econometría avanzada donde se estudian las series de tiempo y los datos panel.
1.1. Teoría económica y econometría

Literalmente econometría signica medición económica.
Una denición de econometría, debida a Samuelson es:
. . . econometrics may be dened as the quantitative analysis of actual

economic phenomena based on the concurrent development of theory and
observation, related by appropriate methods of inference.
1
Así podemos pensar en la econometría como la aplicación de técnicas estadísticas para

la evaluación empírica de la teoría económica.
La teoría económica se preocupa por estudiar las relaciones entre variables económicas
para explicar la producción, distribución y utilización de los recursos escasos de la so-
ciedad. Por otra parte, la inferencia estadistica trata de obtener conclusiones a partir de
1
P. A. Samuelson, T. C. Koopmans, and J. R. N. Stone, Report of the Evaluative Committee for
Econometrica, Econometrica, vol. 22, no. 2, April 1954, pp. 141146.
5
1 Introducción
una cantidad limitada de datos e información, y esta cantidad limitada ha originado el

desarrollo de una teoría general para lidiar con la toma de decisiones bajo incertidumbre.
Generalmente para la toma de decisiones y para el análisis económico no es suciente
con entender las variables económicas que están relacionadas. Se requiere conocer la
dirección de la relación, y en muchos casos la magnitud. La econometría, utilizando teoría
económica, economía matemática e inferencia estadística como fundamentos analíticos,
y datos económicos como base de información, provee una base para:
Renar, modicar y tal vez refutar conclusiones obtenidas a partir de la teoría

económica.
Generar información cuantitativa (signos, magnitudes y conabilidad estadística)

sobre las relaciones económicas para facilitar los procesos de toma de decisiones
económicas.
Es importante entender que la econometría y la teoría económica deben ir de la mano.
Ejemplo: Curva de Phillips, Ley de Okun, PIB potencial. La teoría económica ha tratado
de fundamentar la existencia de estas relaciones, que están dentro del conjunto de
información de los individuos encargados de llevar a cabo la política monetaria.
Sin embargo, la ausencia de una vericación empírica, y el desconocimiento de las
magnitudes asociadas a estas relaciones, puede llevar a no tener en cuenta la teoría
económica, y en el peor de los casos, a tomar decisiones equivocadas basados en
creencias erróneas (cuanticaciones equivocadas, por ejemplo).
Ejemplo Wooldridge: La oferta de horas de trabajo (Becker, ecuación de Mincer): sala-

rios explicados por educación y experiencia. Efectos del entrenamiento en el trabajo
sobre el salario.
La teoría económica surge de un proceso de abstracción. Inicia con los fenómenos que el
cientíco busca entender, y se desarrolla un sistema matemático, una teoría que consiste
en un conjunto de armaciones a partir de las cuales ciertas consecuencias pueden deri-
varse utilizando las reglas de la lógica formal. El resultado es un modelo de la realidad
que intenta reconstruir, de manera simplicada, los mecanismos principales que parecen
explicar fundamentalmente el fenómeno estudiado. Así el modelo es el producto de un
proceso de abstracción en el cual explicaciones tentativas son formuladas. Estas expli-
caciones, formuladas como proposiciones, proveen hipótesis que pueden ser probadas o
refutadas empíricamente.
La teoría económica utiliza herramientas matemáticas con el n de
Expresar postulados y conclusiones económicas con claridad y consistencia.
Facilitar la obtención de conclusiones que de otra forma sería difícil obtener.
Postular conclusiones y proposiciones de una forma contrastable empíricamente a

través del análisis econométrico.
6
1 Introducción
Ejemplo: Demanda Marshall obtenida de fundamentos microeconómicos sobre prefe-

rencias. La teoría explica la demanda marshalliana por un bien como función del
ingreso disponible, el precio del bien y el precio de los demás bienes en la canasta de
consumo. La econometría permite evaluar la teoría, y aporta información adicional
(por ejemplo, podría comprobar o refutar la ley de la demanda, podría concluirse
qué bienes son sustitutos y complementarios entre sí etc.).
Es decir, la teoría económica especica un conjunto de variables relevantes en la expli-

cación del fenómeno estudiado e indica la dirección esperada de la relación entre estas
variables. La econometría puede, a través de la inferencia estadística, generar conclusiones
empíricas sobre la teoría económica.
En resumen, la metodología econométrica tradicional (clásica) sigue los pasos:
Formulación de la teoría o hipótesis.
Especicación matemática de la teoría.
Especicación del modelo estadístico-econométrico.
Obtención de los datos necesarios.
Estimación de los parámetros del modelo estadístico-econométrico.
Pronóstico y predicción.
Utilización del modelo para propósitos de política o control.
1.2. Naturaleza de los datos económicos

1.2.1. Restricción a modelos no experimentales
La econometría se enfoca en los problemas inherentes a la recolección y análisis de
datos económicos no experimentales.
Los datos no experimentales no se acumulan a través de experimentos controlados
sobre individuos, rmas o partes de la economía. El investigador es un observador pasivo
que recolecta los datos generados por la sociedad.
Los datos experimentales usualmente se recolectan en ambientes controlados de la-
boratorio, como en las ciencias naturales, pero son prácticamente imposibles de obtener
en las ciencias sociales. Aunque pueden diseñarse experimentos sociales (economía expe-
rimental, por ejemplo), usualemente estos experimentos son imposibles de llevar a cabo,
por sus costos prohibitivos o porque tendrían consecuencias sociales y morales indeseadas.
La teoría económica muchas veces puede proveer explicaciones alternativas aceptables
y por lo tanto modelos estadísticos que no contradicen las percepciones acerca de la
realidad estudiada. Por lo tanto, en la econometría hay incertidumbre sobre si el modelo
económico y estadístico utilizado coincide con el modelo social que de hecho generó los
datos observados.
7
1 Introducción
Cuando los modelos estadísticos son especicados adecuadamente, la teoría estadística

tiene resultados y procedimientos bien denidos acerca del comportamiento de estima-
dores puntuales y por intervalos. Sin embargo, las propiedades muestrales de estos esti-
madores pueden no son conocidas o no funcionan adecuadamente si el modelo está mal
especicado.
La econometría debe lidiar con estas dicultades, la restricción a modelos no experi-
mentales.
1.2.2. Estructura de los datos económicos

El éxito de cualquier análisis econométrico depende de los datos con que se realice.
Población y muestra
Población: Conjunto de unidades sobre las cuales se postula un modelo estadístico.
Muestra: Subconjunto de la población a partir de la cual se busca inferir conclusiones
sobre la población.
Proceso de muestreo:
Denición de la población.
Especicación del marco muestral, conjunto de eventos que son susceptibles de ser
medidos (cuanticados).
Denición de un método de muestreo para seleccionar elementos del marco mues-

tral.
Determinación del tamaño de la muestra.
Implementación del muestreo.
Estimación - inferencia a partir de la muestra obtenida.
Ejemplo: Conteo de clústers de partículas físicas (Ver Cohen (1991)).
Datos de corte transversal

Los datos de corte transversal consisten en una muestra de individuos, hogares, rmas,
ciudades, estados, países o unidades en general, tomadas en un momento dado del tiempo.
Algunas veces los datos de todas las unidades no se recolectan exactamente en el mismo
instante, pero se ignoran las diferencias menores en el tiempo de recolección de los datos.
Usualmente se supone que los datos se han obtenido a través de muestreo aleatorio
de la población. Es decir, se tiene una muestra aleatoria de la población subyacente.
En la práctica, pueden ocurrir muchas violaciones al supuesto de muestreo aleatorio:
Algunas unidades con ciertas características se niegan a reportar datos (por

ejemplo, hogares con mucha riqueza podrían negarse a revelar su nivel de riqueza
por temor a impuestos o por motivos de seguridad) lo que haría que la muestra no
sea realmente aleatoria respecto a la población.
8
1 Introducción
La muestra se toma de unidades que son muy grandes respecto a la población

(por ejemplo, unidades geográcas muy grandes). El problema puede ser que la
población no es lo sucientemente grande respecto a las unidades para suponer que
las observaciones son independientes entre sí (por ejemplo, explicar diferencias en
el ciclo económico a través de características de los estados de un país, ya que la
situación de un estado inuye la de sus vecinos al ser unidades económicas grandes,
violando el supuesto de independencia).
Computacionalmente, los datos de corte transversal pueden verse como matrices de di-
mensión N × k, N observaciones de k variables en un momento del tiempo. El ordena-
miento de las observaciones no es importante, dado que son independientes entre sí y
tomadas aleatoriamente de la población. Algunas de las k variables pueden ser tomadas
en diferentes períodos de tiempo (por ejemplo, para explicar el crecimiento actual de los
países y comprobar la hipótesis de convergencia condicionada de Solow, se incluye una
variable con el stock de capital en algún momento del pasado, digamos, 1960).
Datos de series de tiempo

Los datos de series de tiempo consisten en observaciones de algunas variables durante
un período del tiempo. Por ejemplo, PIB, precios de acciones, inación, caudales de ríos
etc.
Como los eventos del pasado pueden inuenciar los eventos del futuro (dependencia
en la historia) y el comportamiento rezagado es habitual en las ciencias sociales, la
dimensión del tiempo es muy importante, pues puede contener información valiosa.
Contrario a los datos de corte transversal, el orden cronológico es importante en los
datos de series de tiempo.
Además las observaciones de series económicas casi nunca pueden suponerse indepen-
dientes en el tiempo. El comportamiento de las variables económicas está fuertemente
relacionado con el pasado reciente.
La frecuencia de recolección de los datos también inuye sobre el comportamiento de las
series. Pueden existir comportamientos estacionales (el PIB aumenta sistemáticamente
en diciembre, la inación es sistemáticamente mayor en febrero etc.).
Computacionalmente, los datos de series de tiempo pueden verse como matrices de
dimensión T × k, T observaciones (períodos de tiempo) de k variables, y deben ordenarse
de acuerdo a la dimensión cronológica.
Combinación de cortes transversales (pooled cross sections)

Algunos datos tienen características de cortes transversales y de series de tiempo.
Si durante T períodos se obtuvieron datos de k variables para Nt unidades escogidas
aleatoriamente cada vez (es decir, se dispone de una muestra aleatoria diferente
para cada período de tiempo), los T cortes transversales pueden combinarse (pooled
cross sections) para formar una base de datos mayor. Es importante que cada vez que
se recolecta la información se toma una muestra aleatoria diferente sobre la misma
9
1 Introducción
población subyacente. Por lo tanto, no tienen que coincidir el número de observaciones

durante todos los períodos.
Computacionalmente, los datos de combinación de cortes transversales pueden verse
PT
como matrices de dimensión T t=1 Nt × k y se ordenan respetando la dimensión crono-
lógica (primero van todas las observaciones del primer momento del tiempo, luego todas
las observaciones del siguiente período y así sucesivamente).
Datos de panel
Los datos de panel (o datos longitudinales) consiste en una serie de tiempo para cada
miembro del corte transversal en el conjunto de datos. Es decir, se selecciona una muestra
aleatoria de la población subyacente y a cada miembro del corte transversal se le realiza
un seguimiento temporal, midiendo las variables de interés cada período a los mismos
miembros del corte.
Así siempre se siguen a las mismas unidades del corte transversal. Por lo tanto, a
cada miembro del panel corresponde un número que lo identica a lo largo del tiempo
(ya que al pasar el tiempo no cambian las unidades). La forma de numerar es irrelevante.
Computacionalmente, los datos de panel pueden verse como matrices de dimensión
NT × k y se ordenan respetando la dimensión cronológica y la unidad del corte (primero
van las T observaciones de la primera unidad, respetando el orden cronológico, luego las
T observaciones de la segunda unidad y así sucesivamente).
Dado que los datos de panel requieren de un seguimiento riguroso a las mismas unidades
a lo largo del tiempo, es más difícil obtener datos de este tipo, pero contienen más
información. En particular, se puede controlar por ciertas características no observables
de los individuos.
1.2.3. Calidad y precisión de los datos

A pesar de la relativa abundancia de datos para hacer estudios econométricos, en
muchas ocasiones la calidad de los datos no es muy buena. Esto se debe a que la economía
no es una ciencia experimental. Así hay múltiples factores que afectan la calidad de los
datos:
Errores observacionales, por acción y omisión.
Errores de medición, por redondeo y aproximaciones.
Sesgo de selección por construcción de los formularios o los procedimientos de re-

colección de datos. Puede no reejarse realmente las características de la población
objetivo.
Métodos de muestreo muy diferentes hace imposible comparar datos obtenidos de

diferentes muestras.
Los datos económicos usualmente están disponibles a niveles muy agregados y es

difícil obtener información desagregada que puede ser más útil para estudios sobre
microunidades.
10
1 Introducción
Debe tenerse siempre en cuenta que los resultados de cualquier investigación empírica
son tan buenos (o malos) como la calidad de los datos de los que se dispone.
1.3. Noción de ceteris paribus

Muchas veces es de interés inferir los efectos parciales entre variables económicas.
Encontrar una asociación entre muchas variables es interesante, pero encontrar una forma
de cuanticar efectos parciales puede ser muy útil para aplicaciones teóricas y prácticas.
Para el análisis de efectos parciales es importante el concepto de ceteris paribus.
Es analizar el efecto de una variable sobre otra, manteniendo todo lo demás constante.
Claramente no es posible mantener todos los demás factores relevantes en el problema
analizado constantes para poder deducir los efectos parciales. Así no es posible cuanticar
el efecto parcial que cambios en una variable, manteniendo todo lo demás constante,
tiene sobre otra. Sin embargo, al aplicar correctamente las técnicas econométricas, se
puede llegar a simular un experimento ceteris paribus. Es decir, la econometría permite
cuanticar efectos parciales.
Ejemplo Wooldridge: Al realizar un análisis de regresión podría cuanticarse adecuada-
mente, bajo el supuesto de ceteris paribus, cuál es el efecto de una semana adicional
de entrenamiento en el trabajo sobre los salarios, manteniendo la educación y la
experiencia constantes. Esto puede ser relevante para políticas públicas. Note que
esto no implica causalidad.
Lograr aislar efectos ceteris paribus no implica causalidad. Para verlo, suponga que
se tiene un excelente modelo teórico, una forma funcional adecuada y se utiliza la mejor
técnica econométrica posible para la estimación de una curva de demanda
Qd = f P Q , P Z , Y, u

donde la demanda por el bien Q depende del precio P Q, del precio de otros bienes de la
Z
canasta de consumo de los agentes P , del ingreso de la economía Y y de otros factores
u.
El efecto parcial del precio PQ sobre Qd indica cuánto cambia la demanda por el
bien Q ante un cambio en el precio del bien, manteniendo todo lo demás constante. Sin
embargo no dice que el cambio en precios cause un cambio en cantidades. La función
f puede ser invertible (así sea localmente) y puede entonces obtenerse la usual función
inversa de demanda. Al haber sido estimada la demanda, la función inversa también
está estimada, y se obtienen efectos parciales en la otra dirección. Los efectos parciales
son capturados, como su nombre lo indica, por las derivadas parciales. Bien utilizadas
∂ ∂
las técnicas econométricas, podemos llegar a cuanticar
∂P Q
f = ∂P Q
Qd por ejemplo.
Sin embargo el teorema de la función inversa asegura que bajo condiciones usuales de
regularidad podemos obtener una función inversa (al menos localmente) y que
∂
∂Qd
f −1 =
∂
∂Qd
PQ = 1/ ∂
∂P Q
Qd . En ese caso, ¾cuál sería la causalidad?, ¾cambios en precios causan
cambios en cantidades (competencia perfecta)?, ¾es posible que cambios en cantidades

causen cambios en precios (competencia imperfecta)?
11
1 Introducción
Ninguna de esas preguntas sobre causalidad puede ser respondida con análisis de efectos
parciales, aunque es muy valioso y útil contar con la cuanticación de los efectos parciales
de cambios en una variable sobre otra.
En la sección 3.2 se discute más profundamente la relación entre causalidad, correlación
y regresión lineal.
12
2 Conceptos estadísticos/matemáticos
básicos
En este capítulo suponemos que el estudiante está familiarizado con la teoría básica
de la probabilidad y la estadística. Se trata únicamente de un repaso.
2.1. Conceptos preliminares de probabilidad

En esta sección repasamos los conceptos de probabilidad básica que deben ser com-
prendidos completamente y que son útiles en la econometría.
2.1.1. Experimento, espacio muestral, eventos y variables aleatorias

Un experimento es cualquier procedimiento que, al menos en teoría, puede repetirse
innitamente y produce un conjunto bien denido de resultados. Si con anterioridad al
experimento aleatorio.
experimento no es posible predecir el resultado, es un
El conjunto de todos los posibles resultados de un experimento es llamado el espacio
muestral. Matemáticamente es un conjunto bien denido y lo notamos con Ω.
Ejemplo: Lanzar una moneda equilibrada es un experimento aleatorio (si bien el resul-
tado es inherentemente determinístico, en términos prácticos es imposible predecir
el resultado). El espacio muestral consiste en el conjunto Ω = {C, S} de cara y
sello, el conjunto de todos los posibles resultados del experimento.
Ejemplo 2: Si se dispone de una baraja de 52 cartas estándar, tomar una carta al azar es
un experimento aleatorio. Las cartas están caracterizadas totalmente por su rango
(as, dos, tres...) y por su palo (espadas, corazones...). Si denimos
R = {1, 2, . . . , 10, J, Q, K}
el conjunto de los rangos de las cartas y
P = {espadas, corazones, diamantes, picas}
entonces el espacio muestral, que es el conjunto de las posibles 52 cartas, está dado
por Ω = R × P.
Cualquier subconjunto del espacio muestral al cual una probabilidad pueda ser asignada
se llama un evento.
13
2 Conceptos estadísticos/matemáticos básicos
Ejemplo: En el experimento de tomar una carta al azar, puede ser de interés pregun-
tarnos por la probabilidad de obtener un rey. El evento obtener un rey es un
subconjunto de Ω.
No existe una denición directa de probabilidad. Sin embargo, existen al menos dos
formas diferentes de interpretarla:
Visión clásica: La probabilidad de un evento aleatorio es la frecuencia relativa de

ocurrencia del evento cuando un experimento puede repetirse innitas veces. Se
basa en el hecho que el experimento pueda repetirse bajo idénticas condiciones
innitas veces, al menos conceptualmente.
Visión bayesiana: La probabilidad es una forma de representar el grado de creencia

de un individuo en un evento, dada toda la información disponible y relevante.
Finalmente denimos variable aleatoria. Intuitivamente, una variable aleatoria es

una función del espacio muestral a los reales
X:Ω→R
tal que a cada posible resultado del experimento se le asigna un valor real. La variable
aleatoria es discreta (numerable) si Ω es discreto, y continua si Ω es continuo.
Axiomas de probabilidad
La medida de probabilidad debe satisfacer los siguientes axiomas (realmente son la
denición de una medida positiva nita):
Para cualquier evento A ⊆ Ω, 0 ≤ P (A) ≤ 1
P (Ω) = 1
P (A1 ∪ A2 ∪ . . . ) = P (A1 ) + P (A2 ) + . . . para cualquier sucesión de eventos dis-

yuntos A1 , A2 , . . . .
Y pueden ser demostradas las siguientes propiedades
P (∅) = 0
Para cualquier A ⊆ Ω, P (Ω\A) = 1 − P (A)
Si A ⊆ B , P (A) ≤ P (B)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
14
2.1.2. Distribución de probabilidad, valor esperado y varianza

Valor esperado
Si X es una variable aleatoria discreta y f (x) es su pdf (probability distribution
function), el valor esperado de X es
X
E (X) = xf (x)
x
es un promedio ponderado por la distribución.

Si X es una variable aleatoria continua y f (x) es su pdf (probability density function),
el valor esperado de X es ˆ ∞
E (X) = xf (x) dx
−∞
En muchas aplicaciones encontramos el valor esperado de alguna función de X , digamos
g (X):
X
E (g (X)) = g (x) f (x)
x
ˆ ∞
E (g (X)) = g (x) f (x) dx
−∞
El procedimiento es igual para funciones de varias variables. Sea Y = g (X1 , . . . , Xn ).

Entonces ˆ ∞ ˆ ∞
E (Y ) = ... g (x1 , . . . , xn ) f (x1 , . . . , xn ) dx1 . . . dxn
−∞ −∞
Utilizando esta denición podemos obtener varios resultados:
Sean a0 , a1 , . . . , an constantes. Entonces
E (a0 + a1 X1 + · · · + an Xn ) = a0 + a1 E (X1 ) + · · · + an E (Xn )
Si X1 , . . . , Xn son variables aleatorias independientes tal que E (Xi ) existe, entonces
E (X1 . . . Xn ) = E (X1 ) . . . E (Xn )
Momentos
Son de especial importancia algunos momentos. El r-ésimo momento no centrado es
µ∗r = E (X r )
La terminología momento se hereda de la física (el valor esperado es el centro de

gravedad, por ejemplo).
El r-ésimo momento centrado es
µr = E ((X − µ)r )
15
donde µ = E (X).
es llamado varianza de X y se nota var (X)

2
Si r = 2 el momento µ2 = E (X − µ)
o σ2. La siguiente identidad es útil

σ 2 = E (X − E (X))2 = E X 2 − (E (X))2

La varianza se interpreta como el valor promedio de la distancia euclidiana que toma la

variable aleatoria respecto a su media. Una mayor varianza representa que es hay mayor
posibilidad de obtener un valor de la variable aleatoria X que esté lejos de su media.
También denimos el producto de momentos de dos variables aleatorias X y Y:
µ∗rs = E (X r Y s )
µrs = E ((X − E (X))r (Y − E (Y ))s )
De especial interés es cov (X, Y ) = µ11 = E ((X − E (X)) (Y − E (Y ))) = E (XY ) −

E (X) E (Y ).
La covarianza es una medida de la asociación lineal entre dos variables aleatorias. Para
verlo, denimos el coeciente de correlación entre X y Y como
cov (X, Y )
ρxy = p p
var (X) var (Y )
Siempre se tiene 0 ≤ |ρxy | ≤ 1. Si cov (X, Y ) = 0 entonces ρxy = 0. Así si X y Y

son independientes, ρxy = 0. Si Y = a + bX para cualesquier constantes a y b entonces
|ρxy | = 1 y se dice que X y Y tienen correlación perfecta.
Con estas deniciones se puede mostrar que
Sean a0 , a1 , . . . , an constantes. Entonces
n
X XX
var (a0 + a1 X1 + · · · + an Xn ) = a2i var (Xi ) + 2 ai aj cov (Xi , Xj )
i=1 i<j
Valor esperado multivariado

En econometría es frecuente encontrar expectativas involucrando variables aleatorias
multivariadas. Sea X el vector de variables aleatorias
 
X1
.
X= .
 
. 
Xn
donde E (Xi ) = µi , var (Xi ) = σi2 ycov (Xi , Xj ) = σij . Entonces

   
E (X1 ) µ1
.   .. 
E (X) =  . = . =µ

.
E (Xn ) µn
16
el valor esperado de un vector aleatorio es el vector de valores esperados.

Podemos denir la matriz de varianzas-covarianzas de un vector aleatorio X como:
cov (X) = E (X − E (X)) (X − E (X))0

(X1 − µ1 )2
 
(X1 − µ1 ) (X2 − µ2 ) . . . (X1 − µ1 ) (Xn − µn )
 (X2 − µ2 ) (X1 − µ1 ) (X2 − µ2 )2 ... (X2 − µ2 ) (Xn − µn ) 
= E
 
. . .. .
. . .

 . . . . 
(Xn − µn ) (X1 − µ1 ) (Xn − µn ) (X2 − µ2 ) . . . (Xn − µn )2
 
var (X1 ) cov (X1 , X2 ) . . . cov (X1 , Xn )
 cov (X2 , X1 ) var (X2 ) . . . cov (X2 , Xn ) 
= 
 
. . .. .
. . .

 . . . . 
cov (Xn , X1 ) cov (Xn , X2 ) var (Xn )
σ12 σ12 . . . σ1n
 
 σ21 σ22 . . . σ2n 
= 
 
. . .. .
. . .

 . . . . 
σn1 σn2 σn2
La matriz de varianzas-covarianzas, usualmente notada como ΣX es semidenida posi-

tiva (por lo tanto es simétrica) con varianzas en la diagonal principal y covarianzas fuera
de la diagonal.
Ejercicio: Si a es un vector de constantes, demuestre que
E a0 X = a0 µ

var a0 X = a0 ΣX a

Si P es una matriz de constantes de dimensión (m × n) con m≤n y Z = PX un

vector aleatorio de dimensión (m × 1) entonces demuestre que
E (Z) = Pµ
cov (Z) = PΣX P0
2.1.3. Valor esperado condicional

Ley de las expectativas iteradas
Sean x y w vectores aleatorios y y = f (x). Es decir que si se conoce el valor de x
entonces se conoce el valor de y. En particular puede suponerse que y es un subconjunto
de x. Entonces
E (w|y) = E (E (w|x) |y)

E (w|y) = E (E (w|y) |x)
17
2.1.4. Distribuciones Bernoulli, uniforme y normal

2.2. Inferencia estadística
La inferencia estadística se preocupa por la obtención resultados importantes sobre
una población a partir únicamente de una muestra observada de esa población.
2.2.1. Estimador
Estimación por método de momentos
Ejemplo 1: Variables uniformes: Suponga que se tiene una sucesión de n variables alea-
torias uniformes continuas Xi ∼ U (a, b) donde a, b ∈ R son tales quea < b. Cada
variable aleatoria tiene función de densidad de probabilidad
(
1
b−a si a ≤ xi ≤ b
f (xi |a, b) =
0 en otro caso
Suponga que estas variables son independientes entre sí y que se tiene una muestra
aleatoria de tamaño n.
Se sabe que
a+b (b − a)2
E (Xi ) = var (Xi ) =
2 12
y podemos hallar los estimadores por momentos para los parámetros desconocidos
a y b. Obtenemos los correspondientes momentos muestrales
n n
1X 2 1X 2
X= (xi ) S = xi − X
n n
i=1 i=1
y al igualar con los momentos teóricos se tiene
√
2X = â + b̂ 2 3S = b̂ − â
Restando estas dos condiciones llegamos a
√
â = X − 3S
Sumando estas dos condiciones llegamos a
√
b̂ = X + 3S
y estos son los estimadores por momentos para la distribución uniforme continua.
18
Estimación por máxima verosimilitud

Ejemplo 1: Variables uniformes: Suponga que se tiene una sucesión de n variables alea-
torias uniformes continuas Xi ∼ U (a, b) donde a, b ∈ R son tales que a < b. Cada
variable aleatoria tiene función de densidad de probabilidad
(
1
b−a si a ≤ xi ≤ b
f (xi |a, b) =
0 en otro caso
Suponga que estas variables son independientes entre sí y que se tiene una muestra
aleatoria de tamaño n.
Al tener n variables aleatorias independientes idénticamente distribuidas se tiene
que la verosimilitud es
n
Y
L (a, b|x1 , . . . , xn ) = f (xi |a, b)
i=1
( n
1
b−a si a ≤ x1 , . . . , x n ≤ b
=
0 en otro caso
Esto es equivalente a
L (a, b|x1 , . . . , xn ) = 0 si b < máx {x1 , . . . , xn } y a > mı́n {x1 , . . . , xn }

n
1
L (a, b|x1 , . . . , xn ) = si a ≤ mı́n {x1 , . . . , xn } y b ≥ máx {x1 , . . . , xn }
b−a
n
1
Se tiene que
b−a es decreciente en b y creciente en a. De esta forma el máximo
en el espacio en el que a ≤ mı́n {x1 , . . . , xn } y b ≥ máx {x1 , . . . , xn } ocurre cuando
b toma el valor mínimo posible y cuando a toma el valor máximo posible. Fuera de
este espacio la verosimilitud es cero.
Así se concluye que para maximizar la verosimilitud debe escogerse
ã = mı́n {x1 , . . . , xn }
b̃ = máx {x1 , . . . , xn }
y estos son los estimadores por máxima verosimilitud de una variable aleatoria
distribuida uniforme.
Distribución muestral del estimador

La distribución muestral del estimador es la distribución de probabilidad, bajo un
muestreo repetido de tamaño jo de la población, del estimador (una cantidad numérica
calculada con una regla bien denida a partir de los datos de cada muestra).
La distribución muestral depende entonces de:
La distribución de la población y el proceso generador de datos.
La regla utilizada para obtener el estimador.
El tamaño de la muestra disponible.
19
2.2.2. Insesgamiento, precisión, eciencia

Error cuadrático medio (MSE)
Se dene el error cuadrático medio como
2
M SE = E θ̂ − θ
y se tiene la siguiente identidad:
2
M SE = E θ̂ − θ

= E θ̂2 − 2E θ̂ θ + θ2
2 2
= E θ̂2 − E θ̂ + E θ̂ − 2E θ̂ θ + θ2

= var θ̂ + bias θ̂
2.2.3. Consistencia y propiedades asintóticas

2.2.4. Estimación por intervalos y pruebas de hipótesis
2.2.5. Simulaciones
Esta subsección sigue a Hogg y Craig (1995).
Variables aleatorias continuas

Enfrentamos el siguiente problema: queremos obtener una muestra aleatoria de una
variable aleatoria X ∼ f (x, θ) de la cual se conoce la función acumulativa de probabilidad
(cdf ) F (x, θ) (que es sobreyectiva). ¾Qué procedimiento podemos seguir?
La siguiente observación será de utilidad:
Sea Y una variable aleatoria distribuida uniforme en el intervalo 0 < y < 1. Es decir,
la función de densidad acumulada de Y es

0
 si y≤0
G (y) = y si 0<y<1

1 si y≥1

Suponga que F (x) es la función de densidad acumulada continua que es creciente en

0 < F (x) < 1.
Suponga que denimos una variable aleatoria X por la relación Y = F (X). Entonces
X tiene por distribución a F (x).
20
Si 0 < F (x) < 1 entonces F (x) es creciente y X≤x es equivalente a F (X) ≤ F (x).
Entonces
P (X ≤ x) = P (F (X) ≤ F (x))
= P (Y ≤ F (x))
= G (F (x))
= F (x)
y por lo tanto la función de distribución acumulada de X es F (x).

Este resultado nos permite simular variables aleatorias de diferentes tipos. Esto se
hace determinando valores para la variable aleatoria uniforme Y. Una vez obtenidas
observaciones Y =y se debe resolver la ecuación y = F (x). Se obtiene x = F −1 (y) y
por la observación anterior se sabe que x se distribuye con función acumulada F (x).
Es interesante que el converso de este resultado también es verdadero:
Si X sigue la distribución acumulada F (x) continua, entonces Y = F (X) se distribuye
uniforme en el intervalo 0 < y < 1.
Primero note que 0 ≤ Y ≤ 1 porque esos son los posibles valores de la cdf. Además si
P (Y ≤ y) = P (F (X) ≤ y)
= P X ≤ F −1 (y)

= F F −1 (y)

= y
F F −1 (y) = y al ser F sobreyectiva. Es decir que la función de dis-

donde tenemos que
tribución acumulada de Y es G (y) = y . Como esta distribución acumulada corresponde
a una variable aleatoria uniforme tenemos
Y ∼ U (0, 1)
Variables aleatorias discretas

Podemos simular una variable aleatoria continua X con cdfF (x) a través de X =
F −1 (Y ), donde Y sigue una distribución uniforme con 0 < y < 1. Un procedimiento
similar puede seguirse para simular variables aleatorias discretas, pero debe aclararse
qué signica X = F −1 (Y ) en este caso.
Se tiene que F (x) es una función denida a trozos en la que F (x0 ) = P (X = x0 ).
Como se trata de una variable aleatoria discreta, podemos enumerar de forma creciente
los posibles valores que puede tomar: sean esos valores x0 , x1 , . . . , xn , . . . . Sea Y una
variable aleatoria uniforme y Y =y una realización.
Se tiene que necesariamente existe algún xi tal que
F (xi−1 ) < y ≤ F (xi )
(porque se puede formar el conjunto x (y) = {xi : F (xi ) ≥ y} y tomar xi = mı́n {A}).
21
En ese caso denimos

xi = F −1 (y)
y se tiene que X = F −1 (Y ) sigue la distribución con cdf F (x), siendo Y una variable
aleatoria continua uniforme en el intervalo 0 < y < 1.
Ejemplo Bernoulli: Suponga que se quiere obtener una muestra aleatoria de una variable
aleatoria que sigue una distribución Bernoulli. Se tiene que
(
1−θ si x=0
F (x) = P (X ≤ x) =
1 si x=1
y podemos obtener la inversa de esta función acumulativa como
(
1 si y >1−θ
x=
0 si y ≤1−θ
Entonces podemos muestrear de una distribución Bernoulli a partir de una muestra

de una distribución uniforme, siguiendo la regla denida para Y.
2.3. Álgebra lineal

2.3.1. Matrices denidas y formas cuadráticas
0
x ∈ Rn tal P n

Sea que x = x 1 . . . x n . Decimos que una función A : R → R
j=1 aij xi xj es una forma cuadrática en R . Note que toda

n Pn n
tal que A (x) = i=1
forma cuadrática puede re-expresarse de forma tal que se cumpla con la condición de
Pn Pn
simetría aij = aji para todo 1 ≤ i, j ≤ n: se tiene B (x) = i=1 j=1 bij xi xj = A (x)
bij +bji
simplemente haciendo que aij = 2 = aji para todo 1 ≤ i, j ≤ n.
Existe entonces una biyección entre las formas cuadráticas y las matrices simétricas
A = A0 de tamaño n × n:
  
n X
n a11 ... a1n x1
. .. . .
X 
A (x) = aij xi xj = x1 . . . xn . . .
 
 . . .  . 
i=1 j=1 an1 . . . ann xn
con aij = aji para todo 1 ≤ i, j ≤ n.

Nos interesa determinar condiciones bajo las cuales se tiene que la forma cuadrática
A : Rn → R es positiva, negativa, no negativa o no positiva para cualquier vector x ∈ Rn .
Dada la identicación entre formas cuadráticas y matrices cuadradas simétricas, estas
condiciones pueden estudiarse en las matrices en lugar de estudiarse en las funciones. Eso
motiva las siguientes deniciones:
Sea A una matriz simétrica (A = A0 ) de tamaño n × n. Entonces, si para cualquier

n
vector x ∈ R :
22
Si ∀x ∈ Rn se tiene x0 Ax ≥ 0 entonces la matriz A es semidenida positiva.
Si ∀x ∈ Rn se tiene x0 Ax ≤ 0 entonces la matriz A es semidenida negativa.
Si ∀x ∈ Rn , x 6= 0 se tiene x0 Ax > 0 entonces la matriz A es denida positiva.
Si ∀x ∈ Rn , x 6= 0 se tiene x0 Ax < 0 entonces la matriz A es denida negativa.
La matriz A es indenida si no es ni semidenida positiva ni semidenida negativa.
Se tiene una relación de orden entre matrices: se puede armar M≤N si y sólo si
M − N es semidenida negativa. Eso es equivalente a armar que las formas cuadráticas
n
asociadas satisfacen, para cualquier vector x ∈ R que M (x) − N (x) ≤ 0.
2.3.2. Diferenciación en notación de vectores y matrices

Sea f una función de valor real relacionando un conjunto de variables x1 , . . . , x n
y = f (x1 , . . . , xn ) = f (x)
donde x es un vector columna de dimensión (n × 1). Queremos tomar la derivada de y

con respecto a cada elemento de x. Denimos el vector de derivadas
 
∂y/∂x1
.
∂y/∂x = .  = ∇f
 
.
∂y/∂xn
como el gradiente de f. Esta operación puede extenderse a derivadas de y con respecto

a elementos de una matriz X de dimensión (m × n)

∂y/∂X = ∂y/∂x1 ... ∂y/∂xm
 
∂y/∂x11 ... ∂y/∂x1n
. .. .
=  . .
 
. . . 
∂y/∂xm1 ... ∂y/∂xmn

donde X = x1 . . . xn .
Sea y un vector columna de dimensión (m × 1) y x un vector columna de dimensión
(n × 1). Denimos
∂y/∂x0 = [∂yi/∂xj ]
 
∂y1/∂x1 . . . ∂y1/∂xn
. .. .
=  . .
 
. . . 
∂ym/∂x1 . . . ∂ym/∂xn
que es la matriz jacobiana de y con respecto a x0 .
23
La segunda derivada de y con respecto al vector columna x está denida por la siguiente
matriz
∂y/∂x∂x0 = ∂(∂y/∂x)/∂x0
= [∂ 2 y/∂xi ∂xj ]
que es la matriz hessiana de y.

Con estas deniciones se pueden establecer las reglas de derivación en notación matri-
cial.
Si z = c0 x donde c y x son vectores columna (n × 1) entonces

   
∂z/∂x1 c1
.   .. 
∂z/∂x =  . = . =c

.
∂z/∂xn cn
Si z = C 0x donde C es una matriz (n × n) y x es un vector (n × 1) entonces
∂z0/∂x = ∂x0 C/∂x =

c1 . . . cn = C
donde ci son las columnas de C.
Si z = x0 Ax es una forma cuadrática
= ∂x0 Ax/∂x = A0 x + Ax = A0 + A x

∂z/∂x
Pn Pn
porque z= j=1 i=1 aij xi xj y la diferenciación respecto al k -ésimo elemento de
x es
n
X n
X
∂z/∂xk = akj xj + aik xi
j=1 i=1
Así la segunda derivada es
∂(x0 Ax)/∂x∂x0 = A + A0
24
3 Regresión lineal simple
Con la regresión lineal simple se busca estudiar la relación existente entre dos variables.
Es un primer paso para comprender la mecánica y la intuición del método de regresión,
y es útil como paso preliminar al estudio de la regresión múltiple.
Sean y y x dos variables que representan características de alguna población. Se quiere
estudiar la relación entre y y x. Para ello es necesario considerar los siguientes hechos:
Nunca existe una relación exacta entre dos variables. ¾Cómo incluir otros factores,
diferentes a x, que también explican a y?
¾Qué forma funcional relaciona y con x?
¾Cómo asegurar que nuestro modelo captura relaciones ceteris paribus ?
3.1. Modelo de regresión lineal simple (mrls)

La relación más simple que permite resolver estas cuestiones es
y = β0 + β1 x + u (3.1)
Al suponer que en la población se satisface la relación (3.1) estamos en el modelo de

regresión lineal simple (mrls).
El término regresión tiene sus orígenes en un fenómeno estadístico común llamado re-
gresión hacia la media: intuitivamente se reere al hecho que aquellos valores extremos
de cualquier variable en algún momento del tiempo, por razones puramente estadísticas,
probablemente tendrán valores más cercanos al promedio (menos extremos) la próxima
vez que sean medidos. Valores muy altos respecto a la media tienden a bajar y valores
muy bajos respecto a la media tienden a subir. Por ejemplo los hijos de padres de esta-
tura alta (baja) tienden a tener menor (mayor) estatura que sus padres, acercándose a
la estatura promedio. En palabras de Francis Galton es regresión a la mediocridad.
Este fenómeno de regresión hacia la media da el nombre a la técnica estadística de
regresión, por razones que se explicarán más adelante.
En el mrls se tiene que y es la variable dependiente y x es la variable indepen-
diente. El término u es llamado término de perturbación, y representa todos aquellos
factores diferentes a x que ayudan a explicar el comportamiento de y . En términos prác-
ticos, u reúne los elementos no observados o no considerados explícitamente y que afectan
a y.
25
Algunas consideraciones sobre el término de perturbación

Podría pensarse que añadir muchas variables al modelo (algo que haremos en el capítulo
4) podría permitir eliminar el término de perturbación estocástica. Sin embargo esto no
es posible:
La teoría es vaga: no es posible conocer con exactitud todas las variables que
afectan a y. Así u es un sustituto para todas las variables excluídas y/u omitidas
del análisis.
Disponibilidad de datos: puede no tenerse información cuantitativa (datos) sobre

otras variables que se sabe afectan a y. La falta de datos obliga a excluir algunas
variables que teóricamente son relevantes.
Variables periféricas: si bien algunas variables pueden ser relevantes, su efecto com-
binado sobre y puede ser pequeño. Se debe hacer un análisis entonces entre el costo
de obtener la información cuantitativa sobre estas variables periféricas y el benecio
de introducirlas en el modelo. A veces el término de perturbación puede cumplir
el papel de estas variables periféricas sin tener que pagar el costo por obtener los
datos.
Aleatoriedad intrínseca en el comportamiento humano: a pesar de tener una teoría

muy bien fundamentada, siempre hay espacio para la aleatoriedad en el compor-
tamiento de los individuos. Los humanos pueden sorprender con sus acciones, y el
término de perturbación u puede capturar esto.
Errores de medición y proxys defectuosas: el modelo de regresión supone que las

variables en el modelo estadístico coinciden completamente con los datos que van a
alimentar ese modelo. Esto usualmente no es el caso, y usualmente los datos están
llenos de errores de medición. Además algunas variables teóricas no son observables
directamente en los datos, y los econometristas se ven obligados a utilizar variables
cuantitativas que aproximan (pero no son exactamente) las variables teóricas. El
término de perturbación u entonces captura estos errores de medición que son
inevitables.
1
"Pluralitas non est ponenda sine necessitate", William of Ockham : La cuchilla de
Ockham (a veces escrito como Occam) está en relación con que la explicación más
sencilla usualmente es la más correcta. Así los modelos (estadísticos y económicos)
deberían ser lo más simples posible, y es lo que se llamaprincipio de parsimo-
nia. ¾Por qué introducir más variables si con pocas se ha explicado lo que quería
explicarse?
Forma funcional errónea: a pesar de tener las variables teóricamente adecuadas y

toda la información necesaria, la forma funcional lineal en parámetros puede estar
mal.
1
El principio de falsación por experimentación y el principio de parsimonia son dos pilares de la ciencia
moderna. En econometría también aplican, a través de las pruebas de hipótesis (que buscan falsear
la hipótesis inicial) y la simplicidad al formular los modelos econométricos.
26
Note que (3.1) implica

∆y = β1 ∆x + ∆u
y si suponemos que ∆u = 0 (ceteris paribus ) entonces ∆y = β1 ∆x y β1 representa
el cambio en y ante un cambio unitario en x. Sin importar el valor de x, siempre y
cambia en la misma cantidad β1 (es un supuesto que podría ser irreal para la mayoría
de aplicaciones económicas, pero puede ser corregido cambiando las unidades en que se
mide x [lineales, logarítmicas etc.]). Por lo tanto β1 es el parámetro de pendiente y
β0 es el parámetro de intercepto.
Note que el modelo es lineal en los parámetros. Esta es una aclaración importante,
ya que no debe ser necesariamente lineal en las variables. Más adelante, en la subsección
3.3.1, volvemos sobre este punto.
Para hacer observaciones ceteris paribus debe imponerse una condición probabilística
sobre la relación entre x y u (ya que ambas son vistas como variables aleatorias).
Supuesto 3.1.1. Media condicional cero

E (u|x) = E (u) = 0
El supuesto es que el valor esperado de u, condicional a x es 0. El valor promedio

de u no depende del valor de x (para cualquier valor de x el promedio de u dado x
es siempre igual). En particular, u no está correlacionado con cualquier función de x:
E (u|f (x)) = E (u) = 0.
Bajo este supuesto
E (y|x) = β0 + β1 x
que es la función de regresión poblacional.
La media condicional de la variable dependiente tiene una relación lineal con la variable
dependiente. Los parámetros de este modelo poblacional son lo que se busca estimar a
través de las técnicas econométricas.
3.2. Correlación, causalidad y regresión

En la sección 1.3 se discutió la relación entre la dependencia entre variables y las
relaciones ceteris paribus. Recordamos que la obtención de relaciones ceteris paribus no
permite concluir nada sobre la causalidad.
Para probar las teorías económicas, muchas veces es de interés inferir las relacio-
nes causales entre variables económicas. Encontrar una asociación entre variables es
interesante, pero encontrar una relación de causalidad es concluyente.
Causalidad
Claramente el modelo de regresión relaciona una variable con otra. Sin embargo no
necesariamente implica causalidad.
En las palabras de Kendall y Stuart
27
A statistical relationship, however strong and however suggestive, can never

establish causal connection: our ideas of causation must come from outside
statistics, ultimately from some theory or other.
2
En el modelo de regresión lineal no hay razones estadísticas para suponer causalidad:

una relación estadística no implica lógicamente una relación de causalidad. Para hacer
armaciones acerca de la causalidad debe apelarse a la teoría económica.
Correlación
Un análisis estadístico relacionado, pero bastante diferente al de regresión lineal, es el
análisis de correlación, en el que el principal objetivo es medir el grado de asociación
lineal entre variables. En el análisis de regresión no interesa esa medida en particular.
Realmente interesa estudiar el valor promedio de una variable dados los valores de otras
variables. Se pretende con la regresión evaluar si el conocimiento de una variable aporta
información sobre el valor promedio de otra variable. En el análisis de correlación no hay
distinción entre variable dependiente e independiente o efectos ceteris paribus.
3.3. Estimador de Mínimos Cuadrados Ordinarios

Se busca estimar β0 y β1 . Para ello se necesita una muestra de la población. Sea
{xi , yi : i = 1, . . . , n} una muestra aleatoria de tamaño n de la población. Al ser infor-
mación proveniente de la población se satisface la ecuación (3.1) y
yi = β0 + β1 xi + ui
Primero vamos a estimar utilizando el método de momentos. Primero calculamos la
covarianza entre u y x:
cov (x, u) = E ((x − E (x)) (u − E (u)))
= E ((x − E (x)) (u))
= E (xu − E (x) u)
= E (xu) − E (x) E (u)
= E (xu)
Note que por el supuesto 3.1.1 se satisfacen los siguientes momentos poblacionales:
E (u) = 0
cov (x, u) = E (xu) = 0
que pueden ser escritos como
E (y − β0 − β1 x) = 0
E [x (y − β0 − β1 x)] = 0
2
M. G. Kendall and A. Stuart, The Advanced Theory of Statistics, Charles Grin Publishers, New
York, 1961, vol. 2, chap. 26, p. 279.
28
Siguiendo la estimación por el método de momentos utilizamos los momentos mues-

trales correspondientes a los momentos poblacionales:
n
1 X
yi − β̂0 − β̂1 xi = 0 (3.2)
n
i=1
n
1X
xi yi − β̂0 − β̂1 xi = 0 (3.3)
n
i=1
De (3.2) se tiene que los parámetros estimados por el método de momentos satisfacen
y = β̂0 + β̂1 x
1 Pn 1 Pn
donde y= n i=1 yi y x= n i=1 xi . Así
β̂0 = y − β̂1 x
y sustituyendo en (3.3)
n
1X
xi yi − y + β̂1 x − β̂1 xi = 0
n
i=1
n
X n
X
xi (yi − y) = β̂1 xi (xi − x)
i=1 i=1
Ahora:
n
X n
X n
X
(xi − x) (yi − y) = xi (yi − y) − x (yi − y)
i=1 i=1 i=1
Xn Xn
= xi (yi − y) − x (yi − y)
i=1 i=1
Xn Xn n
X
= xi (yi − y) − x yi + x y
i=1 i=1 i=1
Xn
= xi (yi − y) − xny + xny
i=1
Xn
= xi (yi − y)
i=1
Pn
− x)2 =
Pn
y análogamente i=1 (xi i=1 xi (xi − x).
Así, bajo el supuesto que
n
X
(xi − x)2 > 0 (3.4)
i=1
29
se tiene
Pn
i=1 (xi − x) (yi − y) cov (x, y)
β̂1 = Pn 2 =
i=1 (xi − x)
var (x)
El supuesto expresado en (3.4) se cumple para todos los casos de utilidad práctica.
La única forma en que la varianza muestral es cero es cuando la muestra aleatoria xi
es tal que todos los elementos son iguales entre sí (x es constante en la muestra) y la
probabilidad de ocurrencia de dicho evento, siendo x una variable aleatoria es en todo
caso práctico cercano a cero.
Los estimadores hallados son llamados estimadores de mínimos cuadrados ordi-
narios (OLS por su sigla en inglés). Sea
ŷi = β̂0 + β̂1 xi
el valor ajustado por la regresión cuando x = xi . Así ŷi es el valor que pronosticamos
cuando x = xi . Como en la muestra se tiene que ese valor realmente fue yi , podemos
denir el residual para la observación i como
ûi = yi − ŷi = yi − β̂0 − β̂1 xi
Planteamos el siguiente problema:
n
X n
X 2
mı́n û2i = yi − β̂0 − β̂1 xi
β̂0 , β̂1 i=1 i=1
Las condiciones de primer orden son:
n
X
−2 yi − β̂0 − β̂1 xi = 0
i=1
n
X
2 xi yi − β̂0 − β̂1 xi = 0
i=1
y son exactamente las mismas condiciones (3.2) y (3.3).

Denimos la función de regresión muestral (nuestra estimación de la función de
regresión poblacional) como
ŷ = β̂0 + β̂1 x
Cada nueva muestra generará una estimación diferente para el intercepto y para la
pendiente.
Ejemplo:
Suponga que en la economía del país cticio Patacolandia el consumo se relaciona
con el ingreso disponible de la siguiente forma
C = 20 + 0,8Y + u
30
siendo C el consumo de los habitantes, Y el ingreso disponible y u el término de pertur-

bación exógeno.
El gobierno de Patacolandia está interesado en incrementar los impuestos al ingreso, lo
cual tendrá efectos sobre el consumo del habitante promedio. Sin embargo, la autoridad
scal desconoce el valor de los parámetros que gobiernan a la relación consumo-ingreso
permanente.
Así se quiere estimar un modelo de consumo keynesiano de la forma
C = β0 + β1 Y + u
y se cuenta con la siguiente información:
Observación C Y u
1 105 100 5
2 95 100 -5
3 190 200 10
4 170 200 -10
5 275 300 15
6 245 300 -15
En realidad el investigador no observa u. En este ejemplo u es conocido porque

sabemos cómo es el proceso generador de datos, pero en la práctica esto nunca es conocido.
Fácilmente nos damos cuenta que el promedio de u, dado cualquier nivel de ingreso
disponible, es cero, por lo que podemos hallar efectos ceteris paribus al estimar por OLS.
Es decir, en nuestra muestra y en este modelo se cumple que
E (u|Y = 100) = E (u|Y = 200) = E (u|Y = 300) = E (u) = 0

El investigador utiliza los datos observables y calcula las varianzas y covarianzas
necesarias:
2
Observación C Y C −C Y −Y C −C Y −Y Y −Y
1 105 100 -75 -100 7500 10000
2 95 100 -85 -100 8500 10000
3 190 200 10 0 0 0
4 170 200 -10 0 0 0
5 275 300 95 100 9500 10000
6 245 300 65 100 6500 10000
Suma 1080 1200 0 0 32000 40000

Promedio 180 200 0 0 5333.33 6666.67
de donde se obtiene que
cov (C, Y ) 5333,33

β̂1 = = = 0,80
var (Y ) 6666,67
y
β̂0 = C − β̂1 Y = 180 − 0,80 × 200 = 20
31
Gráca 3.1: Ejemplo Consumo-Ingreso disponible
300
f(x) = 0.8x + 20
R² = 0.97
250
200
Consumption
150
100
50
0
50 100 150 200 250 300 350
Income after tax
Consumption
Linear regression for
Consumption
32
3.3.1. Interpretación de los estimadores OLS

La interpretación de los estimadores OLS depende completamente del modelo que se
estimó: es decir, de las variables y las unidades con que estén representadas.
Las relaciones económicas no son, en general, lineales. Sin embargo no es difícil incor-
porar relaciones no lineales en el mrls.
Presentamos algunos ejemplos que ilustran el punto:
Modelo log-lin: Considere el modelo
ln y = β0 + β1 x + u
En este caso se trata de un modelo lineal al cual pueden aplicarse las técnicas de
regresión econométrica. Incorpora una no linealidad en la variable dependiente.
La interpretación de los coecientes, claro está, es diferente.
En este caso β0 representa el nivel de ln y cuando x = 0 y en asuencia de perturba-
ciones exógenas. Ahora β1 = ∂
∂x ln y representa una semi-elasticidad ceteris paribus.
Es aproximadamente igual (ante cambios marginales) a la variación porcentual en
y ante cambios de una unidad en x.
Modelo lin-log: Considere el modelo
y = β0 + β1 ln x + u
En este caso hay una no linearidad en la variable independiente. β0 representa el

nivel de y ln x = 0, es decir cuando x = 1, y en ausencia de perturbaciones
cuando
∂ ln x y representa otro tipo de semi-elasticidad ceteris paribus.

∂
exógenas. Ahoraβ1 =
Es aproximadamente igual (ante cambios marginales) a la variación en el nivel de
y ante cambios porcentuales de x (cuánto cambia y ante un cambio de 1% en x).
Modelo log-log: Considere el modelo
ln y = β0 + β1 ln x + u
en el que la no linearidad está en la variable dependiente y en la variable indepen-

diente. En este caso β0 representa el nivel de ln y cuando ln x = 0 en ausencia de
∂
perturbaciones exógenas. Ahoraβ1 = ln y representa la elasticidad de y ante
∂ ln x
cambios en x, ceteris paribus. Es aproximadamente igual (ante cambios margina-
les) a la variación porcentual de y ante cambios porcentuales de x (cuánto cambia
porcentualmente y ante un cambio de 1% en x).
Otras Claramente pueden introducirse muchas no linearidades. Un ejemplo es la forma

de incorporar los retornos decrecientes de la experiencia en el salario:
w = β0 + β1 exp + β2 exp2
Los modelos no lineales estándar se resumen en la gráca 3.2.
33
Gráca 3.2: Modelos logarítmicos
Linear Model 8 Log−lin model

x 10
20
4.5
3.5
15
3
2.5
y
y
2
10
1.5
0.5
5
0 1 2 3 4 5 0 1 2 3 4 5
x x
Lin−log model Log−log model

10
18000
16000
8
14000
6 12000
10000
y
y
4
8000
2 6000
4000
0
2000
−2 0
0 1 2 3 4 5 0 1 2 3 4 5
x x
3.4. Propiedades algebraicas del estimador OLS

Note que en general no se tiene que ûi = 0. Es decir, en general los datos observados
no están sobre la linea de regresión estimada.
1 Pn
La media muestral de los residuales OLS es cero:
n i=1 ûi = 0. Eso porque
n
X n
X
ûi = yi − β̂0 − β̂1 xi
i=1 i=1
n
X n
X n
X
= yi − β̂0 − β̂1 xi
i=1 i=1 i=1

= n y − β̂0 − β̂1 x
= 0
porque y − β̂0 − β̂1 x = 0 de acuerdo con la condición (3.2). Es decir, es válido si

hay constante en la regresión.
34
La covarianza muestral entre los residuales OLS y la variable independiente es cero:
n
X n
X
ûi (xi − x) = yi − β̂0 − β̂1 xi (xi − x)
i=1 i=1
n
X n
X
= xi yi − β̂0 − β̂1 xi − x yi − β̂0 − β̂1 xi
i=1 i=1
n
X
= xi yi − β̂0 − β̂1 xi
i=1
= 0
por la condición (3.3).
El par ordenado (x, y) siempre está sobre la línea de regresión muestral. Trivial-
mente se cumple porque y = β̂0 + β̂1 x.
Una forma de interpretar la regresión está dada por
yi = ŷi + ûi
donde la observación de la variable dependiente es la observación ajustada más el residual.

Se tiene que y = ŷ .
Denimos
n
X
SST = (yi − y)2
i=1
n
X 2
SSE = ŷi − ŷ
i=1
Xn
SSR = (ûi )2
i=1
Cuando la regresión se hace con intercepto se cumple la siguiente relación:
SST = SSE + SSR
35
y para verlo considere
n
X n
X
(yi − y)2 = (yi − ŷi + ŷi − y)2
i=1 i=1
n
X
= (ûi + ŷi − y)2
i=1
n
X
2
= û2i + 2ûi (ŷi − y) + (ŷi − y)
i=1
Xn n
X n
X
2
û2i

= + (ŷi − y) + 2 ûi (ŷi − y)
i=1 i=1 i=1
Xn Xn
û2i + (ŷi − y)2

=
i=1 i=1
Pn
ya que i=1 ûi (ŷi − y) = 0. Esto porque
n
X n
X n
X
ûi ŷi − y ûi = ûi ŷi
i=1 i=1 i=1
n
X
= ûi β̂0 + β̂1 xi
i=1
n
X n
X
= β̂0 ûi + β̂1 xi ûi
i=1 i=1
= 0
3.5. Bondad de ajuste

Una primera medida de la bondad de ajuste del modelo simple de regresión lineal está
dado por el coeciente de determinación R2 . Simplemente es una medida que indica
qué tan cercanos son los datos observados a los datos ajustados por la regresión estimada.
Suponiendo SST > 0 (lo cual es cierto si existe la mínima variabilidad en la variable
dependiente)
SSE SSR
R2 = =1−
SST SST
El coeciente de determinación indica qué porcentaje de la variabilidad total observada
está explicada por los datos ajustados por la regresión. Es el porcentaje de la variación
muestral en y que es explicado por x. Note que 0 ≤ R2 ≤ 1 si hay constante en la
regresión.
36
3.6. Propiedades estadísticas de la estimación OLS

Note que los estimadores por mínimos cuadrados β̂0 y β̂1 son estimadores en sentido
estadístico, funciones de la muestra aleatoria. Por lo tanto cada muestra aleatoria genera
unos estimadores diferentes. Esta correspondencia entre muestras aleatorias y estimadores
(en este caso de mínimos cuadrados) indica que el estimador es en sí mismo una variable
aleatoria, y que podemos derivar propiedades estadísticas a partir de la información
muestral disponible. Es decir, podemos caracterizar estadísticamente al estimador (al ser
una variable aleatoria) y obtener el valor esperado, la varianza etc. que dependen de las
propiedades estadísticas de las variables y, x y u.
Para obtener ciertas propiedades estadísticas deseables del estimador por OLS deben
agregarse supuestos estadísticos al modelo de regresión lineal simple que estamos anali-
zando.
Supuesto 3.6.1. Linealidad en parámetros: En la población las variables y y x están

relacionadas por
y = β0 + β1 x + u
donde y , x y u son variables aleatorias.
Supuesto 3.6.2. Muestreo aleatorio: Es posible obtener muestras aleatorias de la po-
blación a estudiar. Así exise una muestra aleatoria de tamaño n {xi , yi : i = 1, . . . , n}
proveniente de la población.
Supuesto 3.6.3. Media condicional cero:
E (u|x) = E (u) = 0
y para la muestra se tiene que E (ui |xi ) = 0 para i = 1, . . . , n.
Adicionalmente requerimos que haya variación muestral en
Pn xi . Es decir, no todos los
xi son iguales entre sí. Es equivalente a i=1 (xi − x) > 0.
3.6.1. Insesgamiento
El estimador de pendiente de mínimos cuadrados ordinarios puede escribirse como
Pn Pn
i=1 (xi − x) (yi − y) (xi − x) yi
β̂1 = Pn 2 = Pi=1
n
i=1 (xi − x) i=1 (xi − x)2
Ejercicio:
Pn Pn
Demuestre que i=1 (xi − x) (yi − y) = i=1 (xi − x) yi .
Por lo tanto, como poblacionalmente se tiene que yi = β0 + β1 xi + ui entonces
Pn
(xi − x) yi
β̂1 = Pi=1
n
(xi − x)2
Pni=1
i=1 (xi − x) (β0 + β1 xi + ui )
= Pn 2
i=1 (xi − x)
β0 i=1 (xi − x) + β1 ni=1 (xi − x) xi + ni=1 (xi − x) ui
Pn P P
= Pn 2
i=1 (xi − x)
37
Pn Pn
Claramente i=1 (xi − x) = 0 y anteriormente mostramos que i=1 (xi − x) xi =
Pn 2
i=1 (xi − x) . Entonces se puede expresar a β̂1 como el parámetro de pendiente po-
blacional β1 más un término adicional que es combinación lineal de las perturbaciones
{u1 , . . . , un }: Pn
(xi − x) ui
β̂1 = β1 + Pi=1
n 2
i=1 (xi − x)
Condicional a los valores de xi , toda la aleatoriedad en el estimador β̂1 se debe a las

perturbaciones ui .
Teorema 3.6.4. Bajo los supuestos 3.6.1-3.6.3 se tiene que los estimadores por mínimos
cuadrados del modelo de regresión lineal simple son insesgados:

E β̂0 |x = β0 E β̂1 |x = β1
cualesquiera que sean los valores β0 y β1 .

Demostración. Tomando el valor esperado condicional a los valores muestrales de la
variable independiente
Pn !
(x i − x) u i
E β̂1 |x = E β1 + Pi=1
n 2 |x
i=1 (xi − x)
Pn !
(xi − x) u i
= β1 + E Pi=1
n 2 |x
i=1 (x i − x)
Pn
(x i − x) E (ui |x)
= β1 + i=1Pn 2
i=1 (xi − x)
= β1
dado que E (ui ) = E (ui |xi ) = 0 y al tomar valor esperado se puede tratar a las funciones
de xi como constantes.
Ahora como yi = β0 + β1 xi + ui , obteniendo el promedio en la muestra se tiene
y = β0 + β1 x + u
y como
β̂0 = y − β̂1 x

= β0 + β1 − β̂1 x + u
Ahora, condicional a los valores de los xi

E β̂0 |x = E β0 + β1 − β̂1 x + u|x

= β0 + E β1 − β̂1 x|x + E (u|x)

= β0 + E β1 − β̂1 |x x
38
porque E (u) = 0, ya que ui es una muestra aleatoria de la variable aleatoria u (supuesto

3.6.2), y se tiene que E (u) = E (u) = 0 (ley de los grandes números y por el supuesto

3.6.3). Como E β̂1 |x = β1 entonces

E β̂0 |x = β0
El insesgamiento es una propiedad muestral que nada dice sobre cada muestra en
particular. Si se pudiese obtener muchas muestras aleatorias de la población, en promedio
el valor de los estimadores se aproximaría al valor poblacional. La simulación del modelo
lineal permite ver este hecho.
Todos los supuestos 3.6.1-3.6.3 son necesarios para obtener el insesgamiento. En par-
ticular, la posibilidad que la variable independiente x esté correlacionada con el término
de perturbación u es una gran preocupación en el análisis de regresión simple. Utilizar
la regresión lineal cuando u incluye factores que afectan a y y que están correlacionados
con x puede resultar en una correlación espuria, encontrar una relación entre y y x
que realmente se debe a otros factores que afectan tanto a y como a x. En ese caso
no es posible realizar análisis ceteris paribus sobre las variables, porque la estimación
por mínimos cuadrados sobre o subestima el efecto que tienen cambios en x con y (los
estimadores son sesgados).
Este tema se tratará a fondo en la regresión múltiple.
3.6.2. Varianza de los estimadores OLS

Además de conocer que, en promedio, el estimador OLS está centrado sobre el ver-
dadero valor poblacional, también es de interés conocer la dispersión del estimador, es
decir, en promedio, qué tan cerca o lejos esperamos que el estimador esté de la media.
Esta información la proporciona la varianza del estimador.
Es posible obtener una expresión general para la varianza de los estimadores por mí-
nimos cuadrados, pero requiere de una utilización mínima de herramientas básicas de
álgebra lineal, por lo que aplazamos su derivación en el modelo de regresión lineal múl-
tiple hasta la subsección 4.4.2.
En esta subsección obtenemos una expresión para la varianza de los estimadores por
mínimos cuadrados bajo un supuesto adicional:
Supuesto 3.6.5. Homoscedasticidad:

var (u|x) = σ 2
var (u|x) = E u2 |x − [E (u|x)]2 = E u2 |x = σ 2 , por lo que σ 2 también es

Como la
varianza no condicional de u. Los supuestos 3.6.2 y 3.6.3 pueden re-expresarse como
E (y|x) = β0 + β1 x
var (y|x) = σ 2
39
porquey = β0 + β1 x + u y var (β0 + β1 x + u|x) = var (u|x) = σ 2 .

Cuando var (u|x) depende de x (en lugar de ser constante) se dice que el término de
perturbación es heteroscedástico.
Ejemplo Wooldridge: Heteroscedasticidad en la ecuación de salario-educación. A mayor
nivel de educación mayor variabilidad del salario respecto a su media (las personas
con menores niveles educativos tienen ingresos mínimos similares, cercanos al nivel
de subsistencia).
Teorema 3.6.6. La varianza condicional muestral de los estimadores por mínimos cua-
drados ordinarios, bajo los supuestos 3.6.1-3.6.5 es
σ2
var β̂1 |x = Pn 2
i=1 (xi − x)
σ 2 n−1 ni=1 x2i
P
var β̂0 |x = Pn 2
i=1 (xi − x)
condicionales a los valores {x1 , . . . , xn }.

Demostración. Se tiene que
Pn
(xi − x) ui
β̂1 = β1 + Pi=1
n
i=1 (xi − x)2
y al aplicar el operador de varianza condicional a los valores {x1 , . . . , xn }

Pn !
(xi − x) ui
var β̂1 |x = var β1 + Pi=1 n 2 |x
i=1 (xi − x)
Pn !
(x i − x) ui
= var Pi=1n 2 |x
i=1 (xi − x)
!2 n
!
1 X
= Pn 2 var (xi − x) ui |x
i=1 (xi − x) i=1
donde las funciones de xi se tratan como constantes (al estar condicionado el valor espe-
rado).
Ahora por el supuesto de muestreo aleatorio, todos los ui son independientes entre sí.
En ese caso, las covarianzas entre ui y uj son cero y la varianza de las sumas es la suma
de las varianzas, de forma tal que
!2 n
1 X
var β̂1 |x = Pn 2 var ((xi − x) ui |x)
i=1 (xi − x) i=1
!2 n
1 X
= Pn 2 (xi − x)2 var (ui |x)
i=1 (xi − x) i=1
40
Por el supuesto de homoscedasticidad var (ui |x) = σ 2 y
!2 n
1 X
var β̂1 |x = Pn 2 (xi − x)2 σ 2
i=1 (xi − x) i=1
σ2
= Pn
i=1 (xi − x)2
Como
β̂0 = y − β̂1 x

= β0 + β1 − β̂1 x + u
(al tomar promedio sobre el valor poblacional) entonces al aplicar varianza condicionada

var β̂0 |x = var β0 + β1 − β̂1 x + u|x

= var u − β̂1 x|x

= var (u|x) + x2 var β̂1 |x
n
!
X
−1
= var n ui |x + x2 var β̂1 |x
i=1
n
X σ 2 x2
= n−2 var (ui |x) + Pn 2
i=1 i=1 (xi − x)
P
n 2
n−1 σ 2 i=1 (xi − x) + nx
2
= Pn 2
i=1 (xi − x)
n−1 σ 2 ni=1 x2i
P
= Pn 2
i=1 (xi − x)

donde se hace uso del hecho que cov u, β̂1 x|x = 0, y de la independencia de las obser-
vaciones de ui .
Ejercicio: Demuestre que bajo los supuestos 3.6.1-3.6.5
−xσ 2
cov β̂0 , β̂1 |x = Pn 2
i=1 (xi − x)
condicional a los valores {x1 , . . . , xn }.

Ejercicio 2: Demuestre formalmente que cov u, β̂1 x|x = 0.
41
Estas fórmulas son válidas únicamente en el caso que hay homoscedasticidad. Obtene-
mos ciertos resultados intuitivos a partir de estas varianzas:
A mayor varianza del término de perturbación (σ ) mayor es la varianza de los

2
estimadores por mínimos cuadrados. Esto porque mayor variabilidad de y está

asociada al residual y menor variabilidad es explicada por x, lo que hace más
incierta la estimación.
Pn
A mayor variabilidad de la variable independiente ( i=1 (xi − x)2 ) menor es la
varianza del estimador β̂1 . Esto porque en ese caso una mayor parte de la variabi-
lidad de y x, lo que hace más fácil detectar la
está explicada por la variabilidad de
verdadera relación entre E (y|x) y x. En particular incrementar el tamaño muestral
incrementa la variabilidad total de x. Así a mayor tamaño de muestra menor es la
varianza del estimador β̂1 .
Estas fórmulas son útiles cuando se conoce el valor de σ2, lo cual no es común en la
práctica.
3.6.3. Estimación de la varianza del término de perturbación σ2

Podemos utilizar
datos para estimar σ2, y con esta estimación podemos estimar el
valor de var β̂0 |x y var β̂1 |x .

σ 2 = E u2 . Sin

Se tiene que embargo u es no observable (es la perturbación del
modelo poblacional que por denición no es observable), así que se debe buscar una
forma alternativa de encontrar σ 2 . Si bien las perturbaciones ui nunca son observadas,
están relacionadas con los residuales de la regresión ûi que pueden ser calculados a
partir de los datos.
Es claro diferenciar entre perturbaciones y residuales para obtener la siguiente expre-
sión de los residuales en términos de los términos de perturbación:
ûi = yi − yˆi
= β0 + β1 xi + ui − β̂0 − β̂1 xi

ûi = ui − β̂0 − β0 − β̂1 − β1 xi (3.5)
de forma tal que los residuales son el término de perturbación y un término adicional de
valor esperado cero.
Pn
σ 2 = E u2 n−1 2

Como , un estimador insesgado natural sería i=1 ui . Como ui no
es observado, podría utilizarse ûi en lugar de ui , ya que están linealmente relacionados.
En ese caso se consideraría un estimador de la forma
n
−1
X SSR
n û2i =
n
i=1
SSR
Como es una función de la muestra aleatoria, este sí es un estimador. Sin embargo
n
no es insesgado porque no tiene en cuenta las dos restricciones utilizadas en la estimación
42
de los parámetros β̂0 y β̂1

n
X n
X
ûi = 0 xi ûi = 0
i=1 i=1
que reducen los grados de libertad (la información linealmente independiente disponible
en la muestra) en dos unidades.
Una forma de verlo es la siguiente: si conocemos n−2 residuales, entonces por las
dos restricciones de la estimación por mínimos cuadrados inmediatamente se conocen
todos los residuales. Por consiguiente hay únicamente n−2 residuales independientes, y
sólamente n − 2 grados de libertad (contrario a los n grados de libertad que habría de
conocerse los n términos de perturbación no observables).
Para obtener un estimador insesgado debe realizarse un ajuste por los grados de liber-
tad que realmente estamos utilizando. Así
n
1 X 2 SSR
σ̂ 2 = ûi =
n−2 n−2
i=1
Teorema 3.6.7. Insesgamiento de σ̂2 : Bajo los supuestos 3.6.1-3.6.5 se tiene

E σ̂ 2 |x = σ 2

Demostración. Promediando (3.5) sobre todos los i, entonces 0 = û = u − β̂0 − β0 −

β̂1 − β1 x. Restando de (3.5)

ûi = ui − u − β̂1 − β1 (xi − x)
y por lo tanto
2
û2i = (ui − u)2 + β̂1 − β1 (xi − x)2 − 2 (ui − u) β̂1 − β1 (xi − x)
Sumando sobre i
n
X n
X n
2 X n
X
û2i = (ui − u)2 + β̂1 − β1 (xi − x)2 − 2 β̂1 − β1 (ui − u) (xi − x)
i=1 i=1 i=1 i=1
Debe analizarse cada término: como {u1 , . . . , un } es una muestra aleatoria (variables
aleatorias independientes e idénticamente distribuidas) satisfacen que cov (ui , uj ) = 0
σ 2 = E u2i |x − E (ui |x)2 .

para i 6= j y
Para el primer término
43
n n
! !
X 2
X
u2i 2

E (ui − u) |x = E − 2ui u + u |x
i=1 i=1
n
!
X
= E u2i − nu2 |x
i=1
 !2 
n
X n
X
= E u2i − n n−1 ui |x
i=1 i=1
 !2 
Xn n
X
= E  u2i − n−1 ui |x
i=1 i=1
n
X n
X
−1
u2i |x E u2i |x

= E −n
i=1 i=1
porque E (ui uj ) = 0 para i 6= j . Entonces
n
!
X
E (ui − u)2 |x = σ 2 (n − 1)
i=1
Pn
Note que este resultado es estándar en la teoría estadística: la función
1
n−1 i=1 (ui − u)2
genera un estimador insesgado para σ2 y se pierde un grado de libertad por tener que
utilizar u como estimador de la media muestral que es desconocida.
Para el segundo término
n n
! X
2 X 2
2
E β̂1 − β1 (xi − x) |x = E β̂1 − β1 |x (xi − x)2
i=1 i=1
n
X
= var β̂1 |x (xi − x)2
i=1
2
= σ
2
porque var β̂1 |x = Pn σ 2.
i −x)
i=1 (x
Pn P
n
Para el tercer término β̂1 − β1 − u) (xi − x) = β̂1 − β1
i=1 (ui ui (xi − x).
Pn i=1
(xi −x)ui Pn Pn 2
Además como β̂1 −β1 = Pi=1
n 2 entonces i=1 ui (xi − x) = β̂1 − β1 i=1 (xi − x)
i=1 (xi −x)
y
n n
! !
X 2 X
E β̂1 − β1 ui (xi − x) |x = E β̂1 − β1 (xi − x)2 |x
i=1 i=1
n
X
= var β̂1 |x (xi − x)2
i=1
2
= σ
44
Así se concluye que

n
!
X
E û2i |x = (n − 2) σ 2
i=1
3.6.4. Sencillo experimento Montecarlo para mostrar el comportamiento

muestral del estimador OLS
Para comprender el comportamiento muestral de los estimadores, supongamos que se
tiene una población con Npop miembros y que se tiene el siguiente modelo poblacional
ypop = β0 + β1 xpop + upop
donde ypop , xpop y upop son variables aleatorias, cuya realización se conoce para toda la
población.
Ahora procedemos a simular la metodología econométrica. El investigador usualmente
no tiene acceso a los datos poblacionales, sino que es capaz de recolectar datos sobre
muestras aleatorias tomadas de la población.
Supongamos que Nsample es el número de observaciones que pueden tomarse de la
población en cada muestra j, y que el muestreo puede hacerse un número J de veces
sobre la misma población en el mismo momento de tiempo. Es decir, vamos a suponer
que de la población total pueden obtenerse J muestras aleatorias, cada una de ellas con
Nsample observaciones.
n o
Así cada muestra j consiste en yij , xji : i = 1, . . . , Nsample y para cada muestra pue-
j
den hallarse los estimadores por mínimos cuadrados β̂0 y β̂1j .
Por lo tanto, vamos a tener una muestra de estimadores: J estimadores para el pará-
metro intercepto β0 y J estimadores para el parámetro de pendiente β1 . Los estimadores,
al ser funciones de variables aleatorias, son ellos mismos variables aleatorias.
El insesgamiento nos dice que bajo los supuestos 3.6.1-3.6.3, en promedio, los estima-
dores β̂0j y β̂1j van a estar cerca de los verdaderos valores poblacionales β0 y β1 . Como
tenemos una muestra de estimadores por mínimos cuadrados ordinarios, podemos esti-
mar su valor esperado utilizando la media aritmética. Por insesgamiento, esperaríamos
que β̂ 0 ≈ β0 y que β̂ 1 ≈ β1 .
En este ejemplo, suponemos que xpop es una variable aleatoria que sigue el siguiente
proceso
e 1
xpop = x + zx
2
donde zx ∼ U (0, 1), upop sigue el siguiente proceso
√

1
upop = σ 12 zu −
2
donde zu ∼ U (0, 1),
ypop = β0 + β1 xpop + upop
45
y suponemos que zx es independiente de zu .

De esta forma nos aseguramos que
xe 3xe
xe

xpop ∼ U 2 , 2 es una variable aleatoria uniforme con valor esperado (y xpop
no es constante)
Las variables tienen una relación lineal ypop = β0 + β1 xpop + upop por construcción
√ √
upop ∼ U − σ 12 σ 12
2 , 2 es una variable aleatoria uniforme con valor esperado 0 y
varianza σ
2
E (upop |xpop ) = E (upop ) = 0 por la independencia entre zx y zu

Puede realizarse muestreo aleatorio de esta población simulada
Por lo tanto en este ejemplo se cumplen los supuestos de la estimación por mínimos
cuadrados. Utilizamos los valores
β0 = 2 β1 = 3
e
x = 50 σ = 0,05
Npop = 100000 Nsample = 40
y computacionalmente tomamos Npop realizaciones de zx y zu de un generador de números

pseudo-aleatorios uniformes para construir los datos requeridos.
Se tomaron 5000 muestras aleatorias de esta población y para cada muestra se realizó
la estimación por mínimos cuadrados ordinarios.
La gráca 3.3 muestra la distribución muestral obtenida en esta simulación para los
estimadores β̂0 y β̂1 . El valor esperado muestral es bastante cercano al valor poblacio-
nal (no son idénticos dado que obtuvimos una distribución muestral simulada de los
estimadores).
La gráca 3.4 muestra la distribución muestral obtenida en esta simulación para el
estimador σ̂ 2 .
Note que a pesar de utilizar datos distribuidos uniformemente, los estimadores no si-
guen distribuciones uniformes. Informalmente los estimadores β̂0 y β̂1 siguen una distribu-
ción simétrica centrada en el valor poblacional (posiblemente una distribución semejante
a la normal). El estimador insesgado σ̂ 2 sigue una distribución inclinada que siempre
toma valores positivos (posiblemente una distribución semejante a la chi-cuadrado).
El hecho que los estimadores sigan distribuciones muestrales permite obtener estima-
dores por intervalos.
3.7. Regresión simple desde el punto de vista matricial

Para hallar los estimadores OLS utilizamos la información dada por una muestra alea-
toria {x1 , . . . , xn , y1 , . . . , yn } de tamaño n. Para cada observación suponemos que se sa-
tisface el modelo lineal
yi = β0 + β1 xi + ui
46
Gráca 3.3: Distribución muestral para estimadores OLS por simulación
Beta0: Population value = 2; Sampling Mean = 1.9999212 Beta1: Population value = 3; Sampling Mean = 3.0000018
400 350
350
300
300
250
250
200
200
150
150
100
100
50
50
0 0
1.96 1.97 1.98 1.99 2 2.01 2.02 2.03 2.04 2.05 2.9998 2.9998 2.9999 2.9999 3 3 3.0001 3.0001 3.0002
Gráca 3.4: Distribución muestral para estimador σ̂ 2 por simulación
Sigma**2: Population value = 0.0025; Sampling Mean = 0.0024956629

350
300
250
200
150
100
50
0
1 1.5 2 2.5 3 3.5 4 4.5 5
−3
x 10
47
y al tener n observaciones se tiene un sistema de n ecuaciones
y1 = β0 + β1 x1 + u1
. .
. .
. .
yn = β0 + β1 xn + un
Si representamos las observaciones de la muestra por los siguientes vectores (aclaramos

que u no es observable)
   
y1 u1
. .
y= . u= .
   
.  . 
yn un
 
x1
.
x= .
 
. 
xn
nuestro sistema de n ecuaciones puede representarse como
       
y1 1 x1 u1
. . . .
. = .  β0 +  .  β1 +  .
       
 . . . . 
yn 1 xn un
o de forma compacta
y = 1β0 + xβ1 + u

β0
y = 1 x +u
β1
y = Xβ + u

donde 1 es un vector de n unos y X = 1 x . Bajo esta representación compacta del
0
modelo de regresión múltiple β =
β 0 β1 es el vector de parámetros poblacionales
a ser estimado y X = 1 x es una matriz que reúne a las variables independientes
(incluida la constante). A X la llamamos matriz de diseño. Suponemos que X tiene
columnas linealmente independientes: la variable x no es constante en la muestra, por lo
Pn 2
que se tiene i=1 (xi − x) 6= 0.
Recordamos ahora las ecuaciones (3.2) y (3.3) que describen a los estimadores por
mínimos cuadrados ordinarios:
n
X
yi − β̂0 − β̂1 xi = 0
i=1
n
X
xi yi − β̂0 − β̂1 xi = 0
i=1
48
En términos matriciales estas dos ecuaciones (condiciones de primer orden en el caso

OLS) pueden escribirse como

10 y − X β̂ = 0

x0 y − X β̂ = 0
0
donde β̂ = β̂0 β̂1 es el vector de parámetros estimados por OLS. En una notación
más compacta
10

y − X β̂ = 0
x0
0
1 x y − X β̂ = 0
de donde concluimos que

X 0 y − X β̂ = 0
Ahora

0 = X 0 y − X β̂
= X 0 y − X 0 X β̂
X 0 X β̂ = X 0 y
Pn
Bajo el supuesto que i=1 (xi− x)2 6= 0 la matriz X tiene columnas linealmente
independientes, y su rango es rank (X) = 2. En ese caso X 0 X es una matriz de tamaño
2×2 de rango 2 y es invertible. Así
−1
β̂ = X 0 X X 0y
Con esta sencilla representación del estimador del modelo lineal simple podemos en-
contrar una expresión matricial para la matriz de varianzas y covarianzas condicionadas
del estimador por mínimos cuadrados ordinarios. Recuerde que
0
var β̂|X = E β̂ − β β̂ − β |X

porque E β̂|X = β bajo los supuestos 3.6.1-3.6.3. Además se tiene
−1
β̂ = X 0X X 0y
−1
= X 0X X 0 (Xβ + u)
−1 −1
= X 0X
X 0 Xβ + X 0 X X 0u
−1 0
= β + X 0X Xu
49
porque, por el supuesto 3.6.1, y = Xβ + u. Así

0
var β̂|X = E β̂ − β β̂ − β |X

0
−1 0 0 −1 0 0
= E XX Xu XX X u |X
−1 0 0 −1
= E X 0X X uu X X 0 X |X
−1 −1
X 0X X 0 E uu0 |X X X 0 X

=
y se concluye que
−1 0 −1
var β̂|X = X 0 X X E uu0 |X X X 0 X

Note que E (uu0 |X) es la matriz de varianzas y covarianzas condicionadas del tér-
mino de perturbación. En el caso que se cumple el supuesto de homoscedasticidad y no
autocorrelación (supuesto 3.6.5) se tiene
var (ui |X) = σ 2

cov (ui , uj |X) = 0
y la matriz de varianzas-covarianzas condicionadas del término de perturbación es
u21
  
u1 u2 ... u1 un
 u2 u1
  u22 ... u2 un  
E uu0 |X = E  .

|X 
 
. .. .
 .. . .

. . .  
un u1 un u2 ... un2
 2 
σ 0 ... 0
 0 σ2 . . . 0 
=  .
 
. .. .
 .. . .

. . . 
0 0 . . . σ2
= σ 2 In
En ese caso se tiene que la matriz de varianzas-covarianzas del estimador OLS, bajo el
supuesto de homoscedasticidad, es
−1
var β̂|X = σ 2 X 0 X
50
4 Regresión múltiple
El modelo de regresión lineal simple busca explicar y como función de una única
variable independiente x. Sin embargo, en la práctica es imposible obtener conclusiones
ceteris paribus sobre cómo x afecta a y. El supuesto 3.6.3 según el cual los otros factores
afectando a y no están correlacionados con x es irreal.
El análisis de regresión múltiple permite explícitamente controlar por muchos
factores que afectan simultáneamente a la variable dependiente, acercando la posibilidad
de obtener conclusiones ceteris paribus.
Naturalmente añadir variables que expliquen a y ayudan a que el modelo explique una
mayor variabilidad en y . Así puede mejorar la predicción del modelo. Además la regresión
múltiple permite incorporar más formas funcionales (más allá de lin-lin, log-lin etc.).
Ejemplo Wooldridge 1: El modelo wage = β0 + β1 educ + u puede mejorarse al incluir

la variable experiencia: wage = β0 + β1 educ + β2 exper + u. En el modelo lineal
simple, la experiencia quedaba relegada al término de perturbación, y era necesario
suponer que no estaba correlacionada con educación, algo que en realidad no parece
ser cierto. En ese caso el coeciente β1 estaría sesgado. Al incluir explícitamente
experiencia el coeciente β1 representa el efecto ceteris paribus sobre el salario de
cambios en la educación, controlando por experiencia y otros factores. Antes no
era posible mantener la experiencia ja, y no era posible realmente el análisis ceteris
paribus. Ahora el parámetro β2 reeja el efecto de la experiencia sobre el salario,
manteniendo la educación y otros factores constantes.
Ejemplo Wooldridge 2: El análisis de regresión múltiple permite además obtener formas

funcionales más elaboradas. Becker y Mincer argumentan que la relación entre
el salario y la experiencia no es lineal, así que podría plantearse que el modelo
econométrico adecuado es de la forma wage = β0 +β1 educ+β2 exper+β3 exper2 +u.
Note que el modelo sigue siendo lineal en los parámetros pero ahora cambia la
interpretación de los parámetros. En particular β2 ya NO es el cambio en el salario
ante un cambio unitario en la experiencia (no tiene sentido medir el cambio de los
salarios ante cambios en exper manteniendo jo exper2 ).
4.1. Modelo de regresión lineal múltiple (mrlm)

Podemos utilizar k−1 variables explicativas x1 , . . . , xk−1 para explicar a y. Hay k−1
variables porque en total queremos que el modelo contenga k parámetros poblacionales
desconocidos a estimar (k −1 parámetros asociados a cada variable explicativa y un
intercepto).
51
Entonces el modelo de regresión lineal múltiple (mrlm) puede ser escrito en la

población como
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
donde β0 es el intercepto, βj es el parámetro asociado con xj (j = 1, . . . , k − 1) y u es
el término de perturbación. El término de perturbación contiene factores diferentes
a x1 , . . . , xk−1 que afectan a y.
Como hay un intercepto y k−1 parámetros para k−1 variables explicativas, en total
el modelo contiene k parámetros poblacionales desconocidos.
Para hacer observaciones ceteris paribus debe imponerse una condición probabilística
sobre la relación entre las variables independientes x1 , . . . , xk−1 y u.
Supuesto 4.1.1. Media condicional cero

E (u|x1 , . . . , xk−1 ) = E (u) = 0
El supuesto es que el valor esperado de u, condicional a valores para las k−1 va-
riables explicativas x1 , . . . , xk−1 es 0. El valor promedio de u no depende de los va-
lores de x1 , . . . , xk−1 (para cualesquier valor de x1 , . . . , xk−1 el promedio de u dado
x1 , . . . , xk−1 es siempre igual). En particular, u no está correlacionado con cualquier
función de x1 , . . . , xk−1 : E (u|f (x1 , . . . , xk−1 )) = E (u) = 0. Cualquier situación que
permita a u estar correlacionado con alguna variable xj rompe con el supuesto 4.1.1.
4.2. Estimación por Mínimos cuadrados ordinarios (OLS)

Se busca estimar k parámetros poblacionales desconocidos. Para ello utilizamos la
información dada por una muestra aleatoria {xi1 , . . . , xik−1 , yi : i = 1, . . . , n} de tamaño
n tomada de la población de interés.
La ecuación OLS estimada puede escribirse como
ŷ = β̂0 + β̂1 x1 + · · · + β̂k−1 xk−1
y podemos denir los residuales como

ûi = yi − ŷi
El estimador de mínimos cuadrados ordinarios puede hallarse resolviendo el problema

de minimizar la suma del cuadrado de los residuales estimados
n
X n
X 2
mı́n û2i = yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
β̂0 , β̂1 ,..., β̂k−1 i=1 i=1
52
cuyas condiciones de primer orden son
n
X
−2 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
n
X
−2 xi1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
.
.
.
n
X
−2 xik−1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
Así se satisfacen las siguientes relaciones: si hay constante en la regresión
y = β̂0 + β̂1 x1 + · · · + β̂k−1 xk−1
y en ese caso se tiene que

ŷ = y
Para una regresión lineal múltiple se satisface además
n
X
xij ûi = 0 (4.1)
i=1
para j = 1, . . . , k − 1. Note que estas condiciones de primer orden de mínimos cuadrados

pueden ser vistas también a través del método de momentos.
Ejercicio: Hallar los estimadores de los parámetros poblacionales β0 , β1 , . . . , βk−1 utili-

zando el método de momentos. Ayuda: E (u) = 0, E (xj u) = 0.
4.2.1. Estimación OLS con variables centradas

Es útil algunas veces considerar la regresión múltiple con variables centradas, es decir,
cuyo promedio aritmético es cero en la muestra.
En particular nos interesa saber cómo cambian los coecientes estimados con variables
no centradas al centrar las variables. La intuición indica que la constante estimada puede
cambiar, pero que los efectos recogidos por los demás parámetros no debería ser diferente,
ya que las pendientes no han cambiado. Efectivamente este es el resultado que mostramos
a continuación.
Suponga que se estima el modelo estándar
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
53
de donde se obtiene que los coecientes estimados satisfacen
n
X
yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
n
X
xi1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
En particular al hacer la regresión múltiple con constante obtuvimos
β̂0 = y − β̂1 x1 − · · · − β̂k−1 xk−1
Ahora se estima el modelo con variables centradas muestralmente
y − y = β0 + β1 (x1 − x1 ) + · · · + βk−1 (xk−1 − xk−1 ) + v
Las condiciones de primer orden que satisfacen los nuevos estimadores, con variables
centradas, son
n
X
(yi − y) − β̃0 − β̃1 (xi1 − x1 ) − · · · − β̃k−1 (xik−1 − xk−1 ) = 0
i=1
n
X
(xi1 − x1 ) (yi − y) − β̃0 − β̃1 (xi1 − x1 ) − · · · − β̃k−1 (xik−1 − xk−1 ) = 0
i=1
.
.
.
n
X
(xik−1 − xk−1 ) (yi − y) − β̃0 − β̃1 (xi1 − x1 ) − · · · − β̃k−1 (xik−1 − xk−1 ) = 0
i=1
De la primera condición se obtiene
β̃0 = 0
y las demás condiciones pueden escribirse como
n
X
xi1 yi − y − β̃1 x1 − · · · − β̃k−1 xk−1 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − y − β̃1 x1 − · · · − β̃k−1 xk−1 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
54
Ahora, si denimos
b̂0 = y − β̃1 x1 − · · · − β̃k−1 xk−1
entonces tenemos que los nuevos estimadores OLS para variables centradas satisfacen
n
X
yi − b̂0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
n
X
xi1 yi − b̂0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − b̂0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
que son exactamente las mismas condiciones de primer orden que satisfacen los esti-
madores OLS para las variables no centradas (teniendo en cuenta la nueva variable de
intercepto cticia b̂0 ). Por lo tanto el único parámetro OLS que cambia al centrar to-
das las variables es el estimador para el intercepto. Los estimadores para las pendientes
siguen siendo los mismos.
Este resultado intuitivo está en correspondencia con lo que sucede en la población. Si
el modelo poblacional es
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
entonces claramente se satisface
y − E [y] = β1 (x1 − E [x1 ]) + · · · + βk−1 (xk−1 − E [xk−1 ]) + u
y los estimadores no deberían entonces cambiar, excepto para el intercepto.
4.2.2. Interpretación de los estimadores OLS

La ecuación OLS estimada puede escribirse como
ŷ = β̂0 + β̂1 x1 + · · · + β̂k−1 xk−1
y se tiene entonces que β̂0 es el valor pronosticado por el modelo para y (es el valor ŷ )
en el caso que x1 = · · · = xk−1 = 0.
Los estimadores β̂j tienen interpretación como los efectos parciales de la variable xj
sobre y , en un contexto ceteris paribus :
∆ŷ = β̂1 ∆x1 + · · · + β̂k−1 ∆xk−1
de forma que se puede obtener el cambio pronosticado en y dados los cambios en x1 , . . . , xk−1 .
Si hacemos ∆x1 = · · · = ∆xj−1 = ∆xj+1 = · · · = ∆xk−1 = 0 entonces se tiene
∆ŷ = β̂j ∆xj
55
Así el coecienteβ̂j representa el cambio pronosticado por el modelo en y dado un cambio

de una unidad en xj bajo el supuesto ceteris paribus, manteniendo todo lo demás cons-
tante. Note que explícitamente las variables diferentes a xj se mantuvieron constantes.
Es decir, se controla por las demás variables para estimar el efecto de xj en y .
Esta es una de las ventajas de la regresión múltiple: provee una interpretación ceteris
paribus para los coecientes estimados, incluso cuando los datos no fueron recolectados
de una manera ceteris paribus . Permite mantener otros factores jos.
4.3. Computación de los estimadores OLS

Para hallar los estimadores OLS utilizamos la información dada por una muestra alea-
toria {xi1 , . . . , xik−1 , yi : i = 1, . . . , n} de tamaño n. Para cada observación suponemos
que se satisface el modelo lineal
yi = β0 + β1 xi1 + · · · + βk−1 xik−1 + ui

y al tener n observaciones se tiene un sistema de n ecuaciones
y1 = β0 + β1 x11 + · · · + βk−1 x1k−1 + u1

. .
. .
. .
yn = β0 + β1 xn1 + · · · + βk−1 xnk−1 + un

Si representamos las observaciones de la muestra por los siguientes vectores (aclaramos
que u no es observable)
   
y1 u1
. .
y= . u= .
   
.  . 
yn un
   
x11 x1k−1
. .
x1 =  .  . . . xk−1 =  .
   
. . 
xn1 xnk−1
nuestro sistema de n ecuaciones puede representarse como
 
       
y1 1 x11 x1k−1 u1
 ..   ..   .  .  . 
 .  =  .  β0 +  ..  β1 + · · · +  .  βk−1 +  .. 
 
.
yn 1 xn1 xnk−1 un
o de forma compacta
y = 1β0 + x1 β1 + · · · + xk−1 βk−1 + u

 
β0
 β1 


y = 1 x1 . . . xk−1  .  + u
 .. 
βk−1
y = Xβ + u
56
donde 1 n unos. Bajo esta

es un vector de
0 representación compacta del modelo de regre-
sión múltiple β =
β0 β1 . . . βk−1 es el vector de parámetros poblacionales a ser
estimado y X = 1 x1 . . . xk−1 es una matriz que reúne a las variables indepen-
dientes (incluida la constante). A X la llamamos matriz de diseño. Suponemos que X
tiene columnas linealmente independientes: ninguna variable explicativa es combinación
lineal de las demás. Si lo fuera, no estaría aportando información adicional.
Note que X 0X es una matriz simétrica (es igual a su propia transpuesta). Además, por
álgebra lineal, se cumple la siguiente propiedad:
rank X 0 X = rank (X)

y como las columnas de X son linealmente independientes, entonces rank (X) = k =

rank (X 0 X) y por lo tanto la matriz X 0 X es de rango completo, y es invertible.
Matricialmente el problema es el siguiente
0
mı́n û0 û = y − X β̂ y − X β̂
β̂
que puede expresarse como
mı́n û0 û = y0 y − 2β̂ 0 X 0 y + β̂ 0 X 0 X β̂

β̂
0
porque β̂ 0 X 0 y = y0 X β̂ = y0 X β̂ al ser reales.
La minimización de esta forma cuadrática es un problema común en cálculo y se puede

resolver a través del cálculo diferencial (derivando). Recordemos entonces algunas reglas
de derivación para problemas cuadráticos en matrices (ver subsección 2.3.2): si A es una
matriz (k × k) simétrica y si z y w son vectores columna (k × 1) entonces
∂(z0 w)/∂z =w ∂(z0 Az)/∂z = 2Az
Entonces derivando la suma de residuales al cuadrado e igualando a cero obtenemos la

siguiente condición de primer orden:
−2X 0 y + 2X 0 X β̂ = 0
y bajo el supuesto que X 0X es una matriz de rango completo (no hay variables explicati-
vas linealmente dependientes en la muestra) se llega al estimador de mínimos cuadrados
ordinarios
−1
β̂ = X 0 X X 0y (4.2)
La condición de primer orden del estimador de mínimos cuadrados dice que
X 0 (y − ŷ) = X 0 û = 0
que es la condición que obtendríamos al utilizar el método de momentos.
57
4.3.1. Regresión múltiple vs. Regresión simple: el efecto de una variable

adicional
Es interesante preguntarse: ¾cuándo los coecientes obtenidos por regresión simple
coinciden con aquéllos obtenidos por regresión múltiple?
La misma pregunta puede responderse si consideramos cuál es el efecto de añadir una
nueva variable sobre los estimadores obtenidos antes de la nueva variable: ¾cuándo los
estimadores β̂ para un modelo lineal y = β0 + β1 x1 + · · · + βk−1 xk−1 + u coinciden con
los estimadores β̃ que se obtienen para el mismo modelo pero añadiendo una variable
adicional y = β0 + β1 x1 + · · · + βk−1 xk−1 + βk xk + u?
Hay dos maneras en que la estimación anterior y la nueva estimación pueden coincidir
para los parámetros β0 , . . . , βk−1 :
Si se estima que el efecto de la nueva variable xk sobre y es nulo (es decir, β̃k = 0).
Si la variable xk no está correlacionada muestralmente con las demás variables

independientes.
Para verlo, suponga que se estimó el siguiente modelo
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
y se obtuvieron las condiciones de primer orden
n
X
yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
n
X
xi1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
Ahora supongamos que el investigador considera que una variable adicional xk es

importante para el análisis y decide volver a estimar el modelo. Las condiciones de primer
58
orden son:
n
X
yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
n
X
xij yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
.
.
.
n
X
xik−1 yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
n
X
xik yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
y si se obtuvo en la nueva estimación que β̃k = 0, las condiciones de primer orden se

pueden simplicar a
n
X
yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
n
X
xij yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
donde la última condición (respecto a xk ) se omite al saber que β̃k = 0. Estas condiciones
son exactamente las mismas condiciones de primer orden que caracterizan a la estimación
sin considerar la variable adicional. En ese caso se obtienen los mismos coecientes que
se tenían sin incluir la variable adicional.
Para mostrar el segundo caso utilizamos el modelo matricial. El álgebra lineal en este
caso facilita la demostración.
Por facilidad suponemos que trabajamos con variables centradas muestralmente (es
decir, que su promedio en la muestra es cero). Como vimos en la subsección 4.2.1 este
supuesto se puede hacer sin ninguna pérdida de generalidad.
Suponga que inicialmente se estimó el modelo
y = Xβ + u

donde X= 1 x1 . . . xk−1 , se obtuvo el estimador por OLS
−1
β̂ = X 0 X X 0y
y se desea añadir ahora la variable xk .
59
Sea

X̃ = X xk = 1 x1 . . . xk−1 xk
la nueva matriz de diseño. Recuerde que xj es un vector columna de dimensión (n × 1).
En este caso el nuevo estimador por mínimos cuadrados ordinarios es
−1
β̃ = X̃ 0 X̃ X̃ 0 y
−1 X 0
0
X
= X xk y
xk 0 xk 0
0 −1 0
X X X 0 xk X
= y
xk 0 X xk 0 xk xk 0
Analicemos el término xk 0 X :
xk 0 X = xk 0 1 x1 . . . xk−1

xk 0 1 xk 0 x1 . . . xk 0 xk−1

=
Pn Pn Pn
= i=1 xik i=1 xi1 xik . . . i=1 xik−1 xik
Bajo el supuesto que la variable xk no está correlacionada en la muestra con ninguna de

las otras variables explicativas, y bajo el supuesto que todas las variables tienen promedio
aritmético cero (porque son variables centradas) entonces claramente
xk 0 X = 0
En ese caso
−1
X 0 X X 0 xk X0

β̃ = y
xk 0 X xk 0 xk xk 0
−1
X 0X X0

0
= y
0 xk 0 xk xk 0
(X 0 X)−1
0
0 X
= −1 y
0 0
(xk xk ) xk 0
(X 0 X)−1 X 0 y

=
(xk 0 xk )−1 xk 0 y
y podemos concluir que

β̂
β̃ =
(xk xk )−1 xk 0 y
0
Como los parámetros estimados para las pendientes no cambian si las variables son
centradas o no, se concluye que en el caso en que la variable adicional no esté muestral-
mente correlacionada con las demás variables, entonces los parámetros estimados con la
variable adicional para las pendientes de las demás variables no cambian, con respecto a
la estimación sin la variable adicional.
60
4.3.2. Efectos del cambio de unidades en la estimación OLS

Con el n de interpretar adecuadamente los coecientes del modelo de regresión lineal
es clave conocer las unidades en que están expresadas las diferentes variables del modelo.
Es necesario saber que los estimadores OLS cambian en la forma obvia que uno puede
esperar al cambiar las unidades de medida de las variables independientes y la variable
dependiente.
Para ver cómo cambios en las unidades de medida afecta la estimación OLS, suponga
que se tiene originalmente el modelo
y = Xβ + u
y de acuerdo con la ecuación (4.2) su estimador por mínimos cuadrados ordinarios es
−1
β̂ = X 0 X X 0y
Recordemos que la matriz de diseño contiene todas las variables independientes rele-
vantes en el modelo

X= 1 x1 . . . xk−1
y supongamos ahora que hay un cambio de unidades. En ese caso obtenemos una matriz
de diseño alternativa

X̃ = 1 x̃1 . . . x̃k−1
donde
x̃j = rj xj
El factor de re-escalamiento rj ∈ R es el que convierte las unidades iniciales de la varia-
ble j en las unidades nuevas que estamos interesados en analizar. En términos matriciales
se tiene

X̃ = 1 x̃1 . . . x̃k−1

= 1 r1 x1 . . . rn xk−1
 
1 0 ... 0
 0 r1 . . .
 0 
= 1 x1 . . . xk−1

 .. .. . . .
.

 . . . . 
0 0 ... rk−1
= XR

donde R = Diag 1 r1 . . . rk−1 es la matriz de cambio de unidades.
Note que R es una matriz simétrica e invertible si rj 6= 0 para 1 ≤ j ≤ k − 1.
De igual manera se pueden cambiar las unidades de la variable dependiente
ỹ = sy
con s ∈ R.
61
Con este cambio de unidades se quiere estimar el modelo
ỹ = X̃β + ũ
y al hacer la estimación por mínimos cuadrados ordinarios (note que el cambio en uni-
dades no afecta ningún supuesto necesario para la estimación) se tiene
−1
β̃ = X̃ 0 X̃ X̃ 0 ỹ
−1
= (XR)0 XR (XR)0 (sy)
−1 0 0
s R0 X 0 XR

= RXy
−1 0
−1 0 −1 0 0
= sR XX R RXy
−1
sR−1 X 0 X X 0y

=
β̃ = sR−1 β̂
y se tiene entonces que  

β̂0
 
β̃0
1
r1 β̂1
 β̃1  



 = s
 
 .. .

.
 . .
  
 
1
β̃k−1 rk−1 β̂k−1
De esta forma comprobamos que el cambio de unidades cambia las unidades de los
estimadores de la forma esperada:
Multiplicar la variable dependiente y por s en el cambio de unidades hace que todos

los parámetros estimados sean multiplicados por el mismo valor s.
Claramante, un cambio en una unidad en alguna variable independiente represen-
taba un cambio en βj unidades en y, y ese cambio es a su vez un cambio de sβj
unidades en ỹ .
∂y ∂ ỹ ∂ ỹ ∂y
Utilizando cálculo diferencial, si
∂xj = βj entonces
∂xj = ∂y ∂xj = sβj .
Multiplicar una variable independiente xj por rj en el cambio de unidades hace

que el parámetro βj rj .
esté dividido por
Claramente, un cambio en una unidad de xj ocasionaba un cambio en βj unidades
1
de y . Pero un cambio de una unidad en x̃j es un cambio de
rj unidades de xj , que
1
ocasiona un cambio de
rj βj en y.
∂y ∂y ∂y ∂xj 1
Utilizando cálculo diferencial, si
∂xj = βj entonces
∂ x̃j = ∂xj ∂ x̃j = rj βj .
Ejercicio: En la subsección 4.5.1 denimos el coeciente de determinación R2 para el

modelo de regresión múltiple. Demuestre que este coeciente no cambia al cambiar
las unidades del modelo.
62
4.3.3. Regresión simple como caso particular de la regresión múltiple

Suponga que se tiene el modelo poblacional
y = β 0 + β 1 x1 + u
con una variable explicativa. Es el caso de la regresión simple, pero vamos a abordarlo
con la maquinaria desarrollada para la regresión múltiple.
Para ello suponemos que se dispone de la información dada por una muestra aleato-
ria {xi1 , yi : i = 1, . . . , n} de tamaño n. Las observaciones de nuestra muestra cumplen
entonces
y1 = β0 + β1 x11 + u1
. .
. .
. .
yn = β0 + β1 xn1 + un
Nuestro sistema de n ecuaciones puede representarse como

       
y1 1 x11 u1
. . . .
. = .  β0 +  .  β1 +  .
       
 . . . . 
yn 1 xn1 un
El modelo de regresión simple puede representarse de forma compacta
y = 1β0 + x1 β1 + u

β0
y = 1 x1 +u
β1
y = Xβ + u
donde 1 es un vector de n unos.

Vamos a utilizar la regla (4.2) para obtener el estimador por mínimos cuadrados ordi-
narios
−1
β̂ = X 0 X X 0y
Primero analizamos la matriz simétrica (que suponemos es denida positiva) X 0X
0
X 0X =

1 x1 1 x1
0
1
= 0 1 x1
x1
0
1 1 1 0 x1

=
x01 1 x01 x1
Al estudiar cuidadosamente cada componente de esta matriz concluimos que

Pn
XX= 0 Pn n Pni=1 x2i1
i=1 xi1 i=1 xi1
63
Una vez tenemos una expresión para X 0X podemos calcular fácilmente su inversa
` 0 ´−1 1 ´˜0
cof X 0 X
ˆ `
XX =
det (X 0 X)
Pn
x2i1 − n
» P –
1 i=1 xi1
= Pi=1
n
− i=1 xi1
´2
Pn n
`Pn
n i=1 x2i1 − i=1 xi1
» Pn 2
− n
P –
1 i=1 xi1 i=1 xi1
= P n
(xi1 − x1 )2 − i=1 xi1
Pn
n n
i=1
Esta es una matriz de momentos de la variable independiente x1 .

0
Ahora analizamos la matriz X y de tamaño 2 × 1:
0
X 0y =

1 x1 y
0
1
= y
x01
0
1y
=
x01 y
Al estudiar cuidadosamente cada componente de esta matriz
Pn
Xy=0 Pn i=1 yi
i=1 xi1 yi
Este es un vector que contiene momentos de la variable dependiente y con la variable

x1 .
Con esta información podemos obtener una expresión explícita para β̂ :
` 0 ´−1 0
β̂ = XX Xy
Pn
− n
– » Pn
x2i1
» P –
1 i=1 xi1
= Pi=1
n Pn i=1 yi
− i=1 xi1
Pn 2
n (xi1 − x1 ) n i=1 xi1 yi
i=1
» Pn 2 Pn Pn Pn –
1 i=1Pxi1 i=1P yi − i=1 xP i1 i=1 xi1 yi
=
n n 2 − n i=1 xi1
n
i=1 yi + n
n
i=1 xi1 yi
P
i=1 (xi1 − x1 )
» Pn 2 P n –
1 y P i=1 xi1 − x1 P i=1 xi1 yi
= n
xi1 yi − x1 n
Pn 2
i=1 (xi1 − x 1 ) i=1 i=1 yi
» Pn
− x1 ) + nx21 − x1 n
2 P –
1 y i=1 (xi1 P i=1 xi1 yi
= Pn 2 n
i=1 (xi1 − x1 ) i=1 (xi1 − x1 ) yi
» Pn
x1 )2 − x1 n
P –
1 y i=1 (xi1 − i=1 (xi1 − x1 ) yi
= Pn 2
P n
i=1 (xi1 − x1 ) i=1 (xi1 − x1 ) yi
Ahora podemos simplicar la expresión para β̂ :

` 0 ´−1 0
β̂ = XX Xy
» Pn 2 Pn –
1 y i=1 (xi1 −
Pxn1 ) − x1 i=1 (xi1 − x1 ) yi
= Pn 2
i=1 (xi1 − x1 ) i=1 (xi1 − x1 ) yi
Se concluye de esta expresión que

 Pn
{(x −x1 )(yi −y)}

y − x1 Pn i1
i=1

β̂0 i=1 (xi1 −x1 )
2
β̂ = = Pn
{(x −x )(y −y)}

β̂1 i=1
Pn i1 1 i
2
i=1 (xi1 −x1 )
64
y por lo tanto se tiene matricialmente

Pn
i=1 {(xi1 − x1 ) (yi − y)}
β̂1 = Pn 2
i=1 (xi1 − x1 )
β̂0 = y − x1 β̂1
que son los mismos estimadores presentados en el capítulo 4.
4.3.4. Regresión particionada

Es común especicar un modelo de regresión múltiple donde el interés (para el análisis
económico) se centra en un subconjunto de todas las variables explicativas. Consideramos
entonces cómo se pueden obtener, aisladamente, los coecientes de un subconjunto de
variables de una regresión múltiple.
Suponga que se tiene un modelo lineal múltiple
y = β0 + β11 x11 + · · · + βk11 x1k1 −1 + β12 x21 + · · · + βk22 x2k2 + u

donde los regresores están particionados en dos grupos: el grupo número 1 (las variables
x11 , . . . , x1k1 −1 y la constante) y el grupo número 2 (las variables x21 , . . . , x2k1 ). Suponga
además que utilizamos la información dada por una muestra aleatoria
1
xi1 , . . . , x1ik1 −1 , x2i1 , . . . , x2ik2 , yi : i = 1, . . . , n

de tamaño n tomada de la población de interés.

En forma compacta el modelo puede escribirse como
y = Xβ + u

β1
= X1 X2 +u
β2
= X1 β1 + X2 β2 + u
donde X1 es la matriz de diseño para las variables del grupo 1, X2 es la matriz de diseño
para las variables del grupo 2, β1 es un vector de parámetros poblacionales asociado con
las variables del grupo 1 de tamaño k1 × 1 y β2 es un vector de parámetros poblacionales

asociado con las variables del grupo 2 de tamaño k2 × 1. Note que X = X1 X2 y

β1
β=
β2
El estimador OLS de este modelo es el usual
−1
β̂ = X 0 X X 0y
de donde se obtiene la relación

0 β̂1 0
X1 X2 X1 X2 = X1 X2 y
β̂2
X10
0
β̂1 X1
X1 X2 = y
X20 β̂2 X20
0
X1 X1 X10 X2
0
β̂1 X1 y
=
X20 X1 X20 X2 β̂2 X20 y
65
Se trata de un sistema de dos ecuaciones vectoriales con dos incógnitas vectoriales.

Observando la primera la
X10 X1 β̂1 + X10 X2 β̂2 = X10 y
de donde se tiene
X10 X1 β̂1 = X10 y − X2 β̂2
y bajo el supuesto que X10 X1 es invertible
−1
β̂1 = X10 X1 X10 y − X2 β̂2 (4.3)
Suponga que las variables del grupo X1 son ortogonales con las variables del grupo
X2 . En ese caso se tiene X10 X2 =0 y la ecuación se reduce a
−1
β̂1 = X10 X1 X10 y
que es el resultado que se obtendría haciendo la regresión de y sobre X1 .

Siguiendo el mismo procedimiento puede mostrarse que
−1
β̂2 = X20 X2 X20 y − X1 β̂1
y nuevamente la ortogonalidad entre X1 y X2 implica que X20 X1 = 0 y
−1
β̂2 = X20 X2 X20 y
que es el resultado que se obtendría haciendo

la regresión
de y X2 .
sobre
Ahora, utilizando β̂2 = (X20 X2 )−1 X20 y − X1 β̂1 0
y sustituyendo β̂1 = (X1 X1 )
−1 0
X1 y − X2 β̂2 :
−1
β̂2 = X20 X2 X20 y − X1 β̂1
−1 0 −1 0 −1 0
= X20 X2 X2 y − X20 X2 X2 X1 X10 X1 X1 y − X2 β̂2
−1 0 −1 0 −1 0 −1 0 −1 0
= X20 X2 X2 y − X20 X2 X2 X1 X10 X1 X1 y + X20 X2 X2 X1 X10 X1 X1 X2 β̂2
de donde
−1 −1 0 −1 0 −1 0

X20 X2 X20 In − X1 X10 X1 X1 X2 β̂2 = X20 X2 X2 In − X1 X10 X1 X1 y
−1 0 −1 0
X20 In − X1 X10 X1 X1 X2 β̂2 = X20 In − X1 X10 X1 X1 y
Denimos la matriz
−1
M1 = In − X1 X10 X1 X10
esta matriz es idempotente y simétrica:
M1 M 1 = M 1 M10 = M1
66
y satisface M1 X1 = 0, razón por la que se le llama la matriz aniquiladora (un concepto

de álgebra).
Obtenemos entonces la siguiente expresión para β̂2 :
−1
β̂2 = X20 M1 X2 X20 M1 y (4.4)
Por otra parte, considere la regresión de y sobre X1 únicamente: y = X1 b1 + e. Al

realizar la estimación OLS de esta regresión se obtiene el estimador
−1
b̂1 = X10 X1 X10 y
y se tiene que los residuales de esta regresión son
ê = y − X1 b̂1
−1 0
= y − X1 X10 X1 X1 y

−1
In − X1 X10 X1 X10 y

=
ê = M1 y
Estos residuales ê = M1 y resumen la información contenida en y que no es explicada
por las variables X1 .
Ahora consideramos las regresiones de cada columna de la matriz X2 sobre las variables
X1 . Se quiere estimar el modelo
x2j = X1 aj + v
donde x2j es la matriz j -ésima de la matriz X2 , con 1 ≤ j ≤ k2 . El estimador OLS de
este modelo es
−1
âj = X10 X1 X10 x2j
y los residuales de esta regresión están dados por
f̂j = x2j − X1 âj

= M1 x2j
Haciendo esta regresión para todas las variables del conjunto X2 se obtienen los res-
pectivos residuales, que se pueden agrupar en una matriz de diseño

f̂ = f̂1 f̂2 . . . f̂k2
M1 x21 M1 x22 . . . M1 x2k2

=
= M1 x21 x22 . . . x2k2

f̂ = M1 X2
Finalmente se hace la regresión de los residuales de una regresión de y sobre únicamente
X1 sobre el conjunto de residuales obtenidos cuando se hace la regresión de cada columna
de X2 sobre las variables X1 . Es decir, queremos estimar el modelo
ê = f̂ B + w
M1 y = M1 X2 B + w
67
y el estimador OLS de este modelo es
−1
(M1 X2 )0 (M1 X2 ) (M1 X2 )0 M1 y

B̂ =
−1 0 0
= X20 M10 M1 X2

X2 M1 M1 y
−1
= X20 M1 X2 X20 M1 y

B̂ = β̂2
4.4. Propiedades estadísticas de la estimación OLS

El estimador puntual por mínimos cuadrados ordinarios del vector de parámetros po-
blacionales β depende de una muestra particular. Para cada posible muestra de la po-
blación a estudiar se podría obtener un estimador diferente, siguiendo la regla OLS
β̂ = (X 0 X)−1 X 0 y. Por lo tanto β̂ es un vector aleatorio. Si nos imaginamos que pueden
obtenerse muestras repetidas diferentes de la población, podemos obtener propiedades
estadísticas del estimador OLS.
Para ello necesitamos algunos supuestos:
Supuesto 4.4.1. Linealidad en parámetros: En la población las variables y y x1 , . . . , xk−1

están relacionadas por
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
donde y , x1 , . . . , xk−1 y u son variables aleatorias.

Supuesto 4.4.2. Muestreo aleatorio: Es posible obtener muestras aleatorias de la pobla-
ción a estudiar. Así exise una muestra aleatoria de tamaño n {xi1 , . . . , xik−1 , yi : i = 1, . . . , n}
proveniente de la población.
Supuesto 4.4.3. Media condicional cero:
E (u|x1 , . . . , xk−1 ) = E (u) = 0
y para la muestra se tiene que E (ui |xi1 , . . . , xik−1 ) = 0 para i = 1, . . . , n.

Este supuesto puede fallar si la forma funcional especicada no corresponde al modelo
poblacional (por ejemplo no incluir algún término cuadrático, o utilizar variables en
niveles cuando en la población está en logaritmos etc).
Omitir algún factor importante que esté correlacionado con x1 , . . . , xk−1 también puede
hacer fallar este supuesto. En este caso la estimación puede tener sesgo por variable
omitida correlacionada (¾qué pasa si la variable omitida no está correlacionada con las
variables independientes que están en el modelo?).
Finalmente requerimos un supuesto adicional para asegurar que los estimadores OLS
estén bien denidos. Así como en la regresión simple se requería variabilidad en la variable
independiente, para la regresión múltiple debe imponerse un supuesto análogo:
68
Supuesto 4.4.4. No multicolinealidad perfecta: No hay relaciones lineales exactas entre

las variables explicativas. Matemáticamente esto es rank (X) = k y puede verse como:
Todas las variables explicativas son linealmente independientes entre sí.
La matriz de diseño tiene rango completo por columnas.
Note que la violación de este supuesto implicaría que X 0X no es una matriz invertible,
al tener dos o más las linealmente dependientes. La violación del supuesto impide la
estimación por mínimos cuadrados ordinarios. Sin embargo debe aclararse que las varia-
bles independientes sí pueden estar correlacionadas entre sí. Lo único que se pide es que
esa correlación no sea perfecta.
Note además que el supuesto de no multicolinealidad perfecta implica que necesaria-
mente n ≥ k, es decir, que se al menos tantos datos como parámetros haya a estimar.
Esto porque
k = rank (X) ≤ mı́n {n, k}
al ser X una matriz de tamaño n × k.
Ejemplo: Considere el caso en el que n = k, es decir, hay el mismo número de datos
y de parámetros a estimar. Suponga que se cumplen los supuestos 4.4.1-4.4.4. El
estimador por mínimos cuadrados ordinarios es
−1
β̂ = X 0 X X 0y
pero como n = k , se tiene que rank (X) = k = n y que X es una matriz cuadrada
de tamaño n × k = k × k . Toda matriz cuadrada de rango completo es invertible,
así que para el caso particular en que n = k y no hay multicolinealidad perfecta,
se tiene que existe X
−1 . En ese caso el estimador OLS puede simplicarse a
β̂ = X −1 y
El vector de residuales estimados en este caso es cero:
y − X β̂ = y − XX −1 y = 0
y el hiperplano de regresión se ajusta perfectamente a los datos disponibles.
Ejemplo: El modelo
cons = β0 + β1 inc + β2 inc2 + u
no viola el supuesto de no perfecta multicolinealidad. Si bien claramente inc y inc2
están correlacionados, la correlación no es perfecta.
Sin embargo una extensión ingenua del modelo, como por ejemplo
ln cons = β0 + β1 ln inc + β2 ln inc2 + u
genera claramente el problema de multicolinealidad perfecta. El problema aquí es

que es imposible identicar (separar) los parámetros β1 y β2 .
69
4.4.1. Insesgamiento
El estimador OLS puede expresarse como
−1
β̂ = X 0X X 0y
−1
= X 0X
X 0 (Xβ + u)
−1 0
= β + X 0X Xu
y tomando valor esperado, condicional a la muestra X

−1 0
E β̂|X = E β + X 0X X u|X
−1 0
= β + E X 0X X u|X
−1 0
= β + X 0X X E (u|X)
= β
Note que el supuesto de media condicional cero E (u|X) = E (u) = 0 es clave para
obtener este resultado.
Así, en promedio, el estimador de mínimos cuadrados ordinarios acierta en el valor
poblacional.
Efectos de sobre-especicación
Suponga que el modelo poblacional es de la forma
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
y que se satisfacen los supuestos 4.4.1-4.4.4 de forma que el estimador
−1
β̂ = X 0 X X 0y

es insesgado, donde X= 1 x1 . . . xk−1 .
Si por alguna razón se decide estimar el modelo
y = β0 + β1 x1 + · · · + βk−1 xk−1 + βk xk + v
donde se incluye la variable adicional xk , de forma tal que se siguen satisfaciendo los
supuestos, entonces el nuevo estimador por mínimos cuadrados ordinarios es
−1
β̃ = X̃ 0 X̃ X̃ 0 y

donde X̃ = X xk = 1 x1 . . . xk−1 xk . La variable adicional xk es una
variable irrelevante en la explicación de y, y en el modelo poblacional el parámetro de
pendiente de esta variable adicional es cero.
70
Si denimos  
β0
 β1 
 
β =  ...
 

 
 βk−1 
0
como el vector de parámetros poblacionales correspondientes al modelo poblacional, en-
tonces se cumple y = X̃β + u y se puede mostrar que
−1
β̃ = β + X̃ 0 X̃ X̃ 0 u
Aplicando el valor esperado condicional a todas las variables independientes utilizadas

se concluye que
 
β0
 β1 
 
E β̃ = β =  ...
 

 
 βk−1 
0
y por lo tanto tener un modelo sobre-especicado no afecta el insesgamiento del estimador
OLS.
Note que el estimador del parámetro de pendiente de la variable irrelevante no es cero
en cada estimación, aunque en promedio sí lo es, por insesgamiento.
Sin embargo estimar un modelo con más variables independientes de lo necesario,
además de romper con el principio de parsimonia, tiene implicaciones negativas sobre la
varianza de los estimadores OLS.
Efectos de variable omitida

Suponga que el modelo poblacional es de la forma
y = β0 + β1 x1 + · · · + βk−1 xk−1 + βk xk + u
y cumple con los supuestos 4.4.1-4.4.4, pero que por alguna razón (falta de datos, igno-
rancia o descuido) se omitieron en la estimación variables relevantes para explicar y. Sin
pérdida de generalidad podemos suponer que se omitió la última variable xk .
En ese caso suponemos que se estimó el modelo
y = β0 + β1 x1 + · · · + βk−1 xk−1 + v
donde v = βk xk + u.
Para que los estimadores del modelo con variables omitidas sean insesgados, deberían
cumplirse los supuestos 4.4.1-4.4.4. En particular deberíamos tener que
E (v|x1 , . . . , xk−1 ) = 0
71
Tabla 4.1: Resumen del sesgo en β̂1 cuando hay una variable omitida correlacionada
corr (x1 , x2 ) > 0 corr (x1 , x2 ) < 0

β2 > 0 Sesgo Positivo Sesgo Negativo
β2 < 0 Sesgo Negativo Sesgo Positivo
(ver Wooldridge (2002)).
Con variables omitidas se tiene que
E (v|x1 , . . . , xk−1 ) = E (βk xk + u|x1 , . . . , xk−1 )

= βk E (xk |x1 , . . . , xk−1 ) + E (u|x1 , . . . , xk−1 )
= βk E (xk |x1 , . . . , xk−1 )
Si βk = 0 obviamente los estimadores con variable omitida son insesgados, porque en

la población la variable omitida no juega ningún papel en explicar a la variable y. Así
que nos interesa el caso en que βk 6= 0.
Los estimadores por mínimos cuadrados ordinarios para un modelo con variables omi-
tidas es insesgado en el caso βk 6= 0 si y sólo si
E (xk |x1 , . . . , xk−1 ) = 0
lo cual equivale a pedir que el valor esperado de xk no depende de los valores que tomen
las demás variables independientes. En particular, si xk está correlacionado con alguna
variable independiente entonces no se cumplen los supuestos y el estimador OLS para
el modelo con variable omitida está sesgado. Esto pasa porque al tener variables omiti-
das correlacionadas con las variables independientes incluidas los residuales del modelo
incompleto están correlacionados, vía las variables omitidas, con las variables indepen-
dientes, generando sesgo en la estimación.
De igual forma si la variable omitida no está correlacionada con las demás variables
independientes entonces no hay sesgo en la estimación con variable omitida. Un resultado
relacionado se obtuvo en la subsección 4.3.1, donde añadir una variable que no está
correlacionada con las otras independientes no cambia el valor estimado de los parámetros
del modelo.
En el caso en que hay correlación, el signo del sesgo depende del signo de la correlación
entre las variables omitidas y las variables independientes incluidas, y en general no es
fácil de determinar.
Para el sencillo caso de un modelo con dos variables independientes y = β0 + β1 x1 +
β 2 x2 + u en el cual se omite una de ellas en la estimación (por facilidad se omite x2 ) se
puede establecer el signo del sesgo, que se resume en la Tabla 4.1.
72
4.4.2. Varianza de los estimadores OLS

Se tiene que β̂ = β + (X 0 X)−1 X 0 u y que E (β) = β . Podemos calcular la matriz de
varianzas-covarianzas del estimador OLS como sigue:
0

0
−1 0 0 −1 0 0
Σβ̂ = E β̂ − β β̂ − β = E XX Xu XX Xu
−1 0 0 −1
= E X 0X X u u X X 0X
−1 0 0 −1
= E X 0X X uu X X 0 X
y como estamos tomando valor esperado condicionado al valor en la muestra de las

variables independientes X, el supuesto E (u|X) = E (u) = 0 nos permite simplicar la
anterior expresión
−1 −1
X 0X X 0 E uu0 X X 0 X

Σβ̂ =
−1 0 −1
X 0X X Σu X X 0 X
ya que por la sección 2.1.2 se tiene que E (uu0 ) = Σu es la matriz de varianzas-covarianzas

del término de perturbación (Σu es de dimensión (n × n)).
Esta es la expresión general para la matriz de varianzas-covarianzas del estimador
OLS insesgado. Obtener esta expresión general sin la ayuda del álgebra lineal puede ser
bastante dispendioso y por ello lo habíamos aplazado hasta esta subsección (note que no
fue necesario utilizar el supuesto simplicador de homoscedasticidad, caso contrario al
capítulo anterior).
De ahora en adelante necesitaremos ese supuesto sobre la matriz de varianzas y cova-
rianzas de los términos de perturbación, así que lo enunciamos explícitamente:
Supuesto 4.4.5. Homoscedasticidad: La varianza condicional del término de perturba-

ción es constante
var (u|x1 , . . . , xn ) = σ 2
En particular la matriz de varianzas-covarianzas del término de perturbación para una
muestra de tamaño n es
Σu = σ 2 In
Bajo el supuesto de homoscedasticidad Σu = σ 2 In y la expresión de la varianza del

estimador OLS se simplica a
−1
Σβ̂ = σ 2 X 0 X
Valor esperado y Varianza no condicionados

A partir de los momentos condicionados del estimador OLS puede obtenerse informa-
ción no condicionada, gracias a la ley de expectativas iteradas.
73

Suponga que se cumplen los supuestos 4.4.1-4.4.5. Entonces ya se demostró que E β̂|X =

β y que var β̂|X = σ 2 (X 0 X)−1 . Se tiene que el valor esperado no condicionado

E β̂ = EX E β̂|X = EX (β) = β
Así el estimador OLS es insesgado incluso no condicionalmente.

Respecto a la varianza se tiene la siguiente propiedad (ver Greene (2007), Apéndice
B)

var β̂ = EX var β̂|X + varX E β̂|X
y entonces
−1
var β̂ = EX σ 2 X 0 X + varX (β)

−1
= σ 2 EX X 0 X

Multicolinealidad y micronumerosidad
Podemos intentar caracterizar, de manera intuitiva, la varianza de los estimadores
OLS en el caso de regresión múltiple.
Claramente un mayor valor de σ2 implica una mayor varianza en los estimadores

OLS. Esto porque en términos relativos las variables independientes explican menor
variación en y que la que explica el término de perturbación y esto diculta capturar
el efecto parcial que se pretende estimar.
Suponga por un momento que las variables independientes no tienen correlación

muestral entre sí, y sin pérdida de generalidad que se trabaja con variables centra-
das. En ese caso particular, y sólo como ejemplo,
 
1 0 ... 0
 0 var
ˆ (x 1 ) ... 0 
X 0X = n  .
 
. .. .
 .. . .

. . . 
0 0 ... var
ˆ (xk−1 )
de donde se tiene que
1 0 ... 0
 
1
2 0
−1 σ  0
2  var(x
ˆ 1)
... 0 
Σβ̂ = σ XX =

 . . .. .
n  .. . .

. . . 
1
0 0 ... var(x
ˆ k−1 )
En ese caso vemos que

σ2 1
var β̂j =
n var
ˆ (xj )
74
y la varianza del estimador disminuye con el tamaño de muestra (n) y con la varian-
za muestral de la variable xj . Estos resultados se mantienen para el caso general.
Al aumentar el tamaño de la muestra se dispone de más información para poder
realizar la estimación y esto reduce la incertidumbre acerca del valor de los paráme-
tros desconocidos. Además una mayor varianza muestral de la variable xj implica
que esta variable explica una mayor proporción de la variación de y y hace más
fácil identicar el efecto parcial, reduciendo la varianza del estimador.
El hecho de contar con una muestra pequeña (y un n pequeño) implica que se pue-
de tener una alta incertidumbre en la estimación, y es un problema que se conoce
como micronumerosidad.
Intuitivamente, entre más cercana a ser una matriz singular sea X 0X , los ele-
0 −1
mentos de la matriz (X X) son mayores en valor absoluto (puede asociarse al
caso en que se hace una división entre un número que se acerca a cero). En ese
caso claramente la varianza de los estimadores se hace cada vez más grande. En
el caso particular en que dos variables tengan una alta relación lineal, conocido
como multicolinealidad, entonces la matriz X 0 X se acerca a ser singular, y esto
genera que las varianzas de los estimadores sean grandes. Note que alta relación
lineal y acercarse a ser singular no son conceptos matemáticos bien denidos,
pero los utilizamos para diferenciar multicolinealidad del caso de multicolinealidad
perfecta, que se excluye por el supuesto 4.4.4.
El alto grado de asociación lineal aumenta la varianza de los estimadores porque
diculta la distinción entre las variables que están altamente correlacionadas. El
efecto parcial de las variable altamente correlacionadas se confunde y esto aumen-
ta la incertidumbre sobre los estimadores de la pendiente de estas variables. Sin
embargo es difícil determinar cuándo hay un alto grado de correlación lineal y
cuándo esto puede ser un problema.
Pero es claro que, manteniendo todo lo demás constante, para estimar βj es pre-
ferible que xj no tenga correlación con ninguna otra variable independiente. Note
que alta correlación entre xj y xl no hace que la varianza de los estimadores de
pendiente de otras variables independientes con baja correlación, βi , sea alta.
Para formalizar la discusión anterior, enunciamos sin demostración el siguiente teorema:
Teorema 4.4.6. Bajo los supuestos 4.4.1-4.4.5, condicional a los valores muestrales de
las variables independientes, se tiene
σ2
var β̂j |X =
SSTj 1 − Rj2
para j = 1, . . . , k − 1, donde SSTj = ni=1 (xij − xj )2 es la variabilidad total en la

P
muestra de xj y Rj2 es el coeciente de determinación de la regresión auxiliar
xj = γ0 + γ1 x1 + · · · + γj−1 xj−1 + γj+1 xj+1 + · · · + γk−1 xk−1 + v
que explica el grado de asociación lineal entre xj y las demás variables independientes.
75
Demostración. Apéndice 3A, Wooldridge (2002).
Modelos mal especicados y varianza

Suponga por facilidad que el modelo poblacional que satisface los supuestos 4.4.1-4.4.5
es
y = β0 + β1 x1 + β2 x2 + u
con dos variables independientes. Queremos entender el efecto de omitir la variable rele-
vante x2 en la varianza del estimador OLS del parámetro β1 .
Así suponemos que se tiene un estimador OLS del modelo bien especicado tal que
ŷ = β̂0 + β̂1 x1 + β̂2 x2
y un estimador para el modelo con variable omitida
ỹ = β̃0 + β̃1 x1
Si β2 6= 0 en el modelo poblacional, la regresión con variable omitida se realizó

excluyendo una variable relevante del modelo. Por la subsección 4.4.1 se sabe que si
corr (x1 , x2 ) 6= 0 entonces el estimador β̃1 es sesgado. Por otra parte el estimador β̂1 es
insesgado. Si sólo se mira el sesgo, se preere el estimador β̂1 sobre el estimador β̃1 .
Si β2 = 0 ambos estimadores son insesgados, y debe recurrirse a la varianza para poder
escoger entre ellos.
En términos de varianzas muestrales del estimador se tiene, por el Teorema 4.4.6
σ2
var β̂1 =
SST1 1 − R12

donde
2
RP x1 = γ0 + γ1 x2 + v
1 es el coeciente de determinación de una regresión y
SST1 = ni=1 (xi1 − x1 )2 . Pero por el mismo teorema se tiene
σ2
var β̃1 =
SST1
y siempre se cumple
var β̂1 > var β̃1
Este resultado es válido en general: incluir variables en el modelo a estimar aumenta

la varianza de los estimadores OLS.
Y omitir variables relevantes puede generar estimadores sesgados pero con menor va-
rianza muestral.
76
4.4.3. Estimación de la varianza del término de perturbación σ2

Vamos a calcularE (û0 û)
0
0

E û û = E y − X β̂ y − X β̂

0
−1 0 0 0
−1 0
= E y−X X X Xy y−X X X Xy

0
−1 0 0 0
−1 0
= E In − X X X X y In − X X X X y

0 0
−1 0 0 0
−1 0
= E y In − X X X X In − X X X X y
Denimos M = In − X (X 0 X)−1 X 0 . M es una matriz simétrica porque
−1 0 0
M0 = In − X X 0 X X
−1
= In0 − X X 0 X X0

= M
y M es una matriz idempotente porque
−1 0 −1 0
MM = In − X X 0 X X In − X X 0 X X
−1 0 −1 0 −1 0 −1 0
= In − X X 0 X X − X X 0X X + X X 0X X X X 0X X
−1 −1
= In − 2X X 0 X X 0 + X X 0X X0

= M
Note además que M X = 0, por lo que la matriz X es llamada matriz aniquiladora

(un concepto proveniente del álgebra abstracta).
Como y = Xβ + u entonces

0
0 0
−1 0 0 0
−1 0
E û û = E y In − X X X X In − X X X X y
= E y0 M 0 M y

= E y0 M y

= E (Xβ + u)0 M (Xβ + u)

= E β 0 X 0 M Xβ + u0 M Xβ + β 0 X 0 M u + u0 M u

= E u0 M u

Ahora u0 M u es un escalar, y por lo tanto u0 M u = tr (u0 M u).

Una propiedad de la traza es que para el producto de matrices AB y BA (si son
conformables) entonces se tiene tr (AB) = tr (BA). Además para tres matrices A, B y
77
C se cumple tr (ABC) = tr (CAB) = tr (BCA). Por esta propiedad
E û0 û = E u0 M u

= E tr u0 M u

= E tr M uu0

y como tr (·) y E (·) son operadores lineales
E û0 û = E tr M uu0

= tr M E uu0

= tr (M In )
= σ 2 tr (M )
−1 0
= σ 2 tr In − X X 0 X X
−1 0
= σ 2 tr (In ) + σ 2 tr X X 0 X X
−1 0
= σ 2 tr (In ) + σ 2 tr X 0 X XX
= σ 2 tr (In ) + σ 2 tr (Ik )
= σ 2 (n − k)
Por consiguiente, si denimos
1 SSR
σ̂ 2 = û0 û =
n−k n−k
entonces
1
E σ̂ 2 = E û0 û = σ 2

n−k
y σ̂ 2 es un estimador insesgado de σ2.
Además
1
σ̂ 2 = û0 û
n−k
1
= y0 M y
n−k
1 −1 0
= y0 In − X X 0 X X y
n−k
1
y0 y − β 0 X 0 y

=
n−k
y σ̂ 2 es un estimador que es una forma cuadrática en y.
4.4.4. Eciencia: Teorema de Gauss-Markov (OLS es BLUE)

Hasta este momento conocemos las siguientes propiedades sobre el estimador β̂ =
(X 0 X)−1 X 0 y para el modelo lineal y = Xβ + u:
78
β̂ es una función lineal del vector aleatorio observable y.
β̂ es un vector aleatorio que tiene asociada una distribución muestral.
β̂ es insesgado, y en promedio se acerca al verdadero valor poblacional.
β̂ tiene una matriz de varianzas-covarianzas igual a σ 2 (X 0 X)−1 .

Por lo tanto se puede armar que β̂ es unvector aleatorio
con valor esperado β y matriz
−1
2 0
de varianza-covarianza σ (X X) (β̂ ∼ β, σ 2 (X 0 X)−1 ).
Es interesante comparar el estimador por mínimos cuadrados con todos los estimadores
alternativos que compiten con él. Para hacer la comparación nos restringimos a la clase
de estimadores lineales en y e insesgados (condicional a X ). Cualquier estimador de esta
clase puede ser escrito de la forma
β = Ay
donde A es una matriz de dimensión (k × n) que no depende de y o de los parámetros
poblacionales desconocidos. En particular el estimador de mínimos cuadrados ordinarios
está caracterizado por A = (X 0 X)−1 X 0 . Nos interesa hallar el mejor estimador lineal
insesgado (MELI o BLUE) para β . Nuestro criterio de mejor se remite al concepto
de eciencia estadística, que repasamos en la subsección (2.2.2).
Al comparar dos estimadores insesgados para un sólo parámetro, preferimos el esti-
mador con menor varianza porque en promedio la estimación va a estar más cerca
del verdadero valor poblacional. Cuando hay un vector de parámetros debemos anali-
zar la matriz de varianzas-covarianzas de los estimadores. En particular, el criterio de
eciencia nuevamente es que preferimos el estimador que tenga una matriz de varianzas-
covarianzas menor que el de los otros estimadores. En matrices el orden está dado al
ser semidenidas las matrices y lo repasamos en la subsección (2.3.1).
Mejor estimador: Sea a un vector columna de dimensión (k × 1) de constantes arbitra-

rias. Decimos que un estimador insesgado β̃ para un vector de parámetros β es
mejor que otro estimador insesgado β si y sólo si

var a0 β̃ ≤ var a0 β

Si Σβ̃ es la matriz de varianzas-covarianzas de β̃ y Σβ es la matriz de varianzas-
covarianzas de β esta condición es equivalente a

a0 Σβ − Σβ̃ a ≥ 0

o equivalentemente la matriz Σβ − Σβ̃ es semidenida positiva.
Ahora enunciamos el teorema de Gauss-Markov.
Teorema 4.4.7. Teorema de Gauss-Markov: Bajo los supuestos 4.4.1-4.4.5 se tiene que
el estimador por mínimos cuadrados ordinarios β̂ = (X 0 X)−1 X 0 y es el mejor estimador
lineal insesgado (best linear unbiased estimator BLUE).
79
Demostración. Sea β cualquier estimador lineal insesgado y sea β̂ = (X 0 X)−1 X 0 y. De-

bemos probar que para cualquier vector a de constantes de dimensión (k × 1) se tiene

a0 Σβ − Σβ̂ a ≥ 0.
Como β = Ay (al ser estimador lineal), podemos denir la matriz C de dimensión
(k × n)
−1
C = A − X 0X X0
de forma tal que
β = Ay
−1 0
= C + X 0X X (Xβ + u)
−1 0
= β + CXβ + X 0 X X u + Cu

Como β es insesgado condicional a los valores de X , debe cumplirse que E β − β|X =
0. Es decir
−1 0
= E CXβ + X 0 X

E β − β|X X u + Cu|X
−1 0
= CXβ + X 0 X X + C E (u|X)
= CXβ = 0
y para que CXβ = 0 para cualquier valor de β debe ser cierto entonces que CX = 0.
Así CX = 0 si β es un estimador lineal insesgado. Entonces
−1 0
β − β = X 0X X u + Cu
y la matriz de varianzas-covarianzas de β es
0
0 0
−1 0

0
−1 0
Σβ = E β−β β−β = E XX X u + Cu XX |X X u + Cu
0
0
−1 0 0 0
−1 0
= E XX X + C uu X X X + C |X
−1 0 −1
= E X 0X X + C uu0 X X 0 X + C 0 |X
−1 0 −1 −1
X 0X X E uu0 |X X X 0 X + CE uu0 |X X X 0 X

−1 0
+ X 0X X E uu0 |X C 0 + CE uu0 |X C 0

Utilizando el supuesto de homoscedasticidad E (uu0 |X) = σ 2 In entonces
−1 −1 −1

Σβ = σ 2 X 0 X + σ 2 CX X 0 X + σ2 X 0X X 0 C 0 + σ 2 CC 0
y por el insesgamiento de β se tiene que CX = 0, entonces

−1
Σβ = σ 2 X 0X + σ 2 CC 0
80
de donde se concluye que

Σβ − Σβ̂ = σ 2 CC 0
porque Σβ̂ = σ 2 (X 0 X)−1 .

Es
2 0
claro que σ CC es semidenida positiva. Sea a un vector de dimensión (k × 1)
arbitrario. Entonces
a0 σ 2 CC 0 a = σ 2 a0 CC 0 a
0
= σ2 C 0a C 0a

0
σ 2 C 0 a In C 0 a

y se tiene que b = C 0a es un vector columna de dimensión (n × 1). Como la matriz

identidad es trivialmente semidenida positiva, entonces b0 In b ≥ 0 y como σ2 ≥ 0
2 0 0 0
entonces σ (C a) In (C a) ≥ 0. Así Σβ − Σβ̂ es semidenida positiva y β̂ es mejor que
β.
Note que las dos matrices de varianzas-covarianzas son iguales si y sólo si C = 0, que
por denición implica que A = (X 0 X)−1 X 0 , es decir, si y sólo si β = β̂ .
Concluimos entonces que el estimador por mínimos cuadrados ordinarios es BLUE: el

mejor estimador lineal insesgado.
4.5. Predicción y grado de explicación

4.5.1. Coeciente de determinación
Las mismas propiedades algebraicas que se obtenían en el modelo de regresión lineal
simple pueden extenderse en general al modelo de regresión lineal múltiple.
Note que en general no se tiene que ûi = 0. Es decir, en general los datos observados
no están sobre la linea de regresión estimada.
Si hay constante en la regresión, la media muestral de los residuales OLS es cero:

1 Pn
n i=1 ûi = 0.
La covarianza muestral entre los residuales OLS y las variables independientes es
81
cero:
n
X n
X
ûi (xij − xj ) = yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 (xij − xj )
i=1 i=1
n
X
= xij yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
i=1
n
X
−xj yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
i=1
n
X
= xij yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
i=1
= 0
por la condición (4.1) o equivalentemente porque X 0 û = 0.
El punto (x1 , . . . , xk−1 , y) siempre está sobre la línea de regresión muestral si hay
constante en la regresión.
Una forma de interpretar la regresión está dada por
yi = ŷi + ûi
donde la observación de la variable dependiente es la observación ajustada más el residual.

Se tiene que y = ŷ .
Cuando la regresión se hace con intercepto se cumple la siguiente relación:
SST = SSE + SSR
donde
SST = y0 y − ny 2
SSE = ŷ0 ŷ − ny 2
SSR = û0 û
y para verlo considere
(y − y)0 (y − y) = (y − ŷ + ŷ − y)0 (y − ŷ + ŷ − y)
= (û + ŷ − y)0 (û + ŷ − y)
= û0 + (ŷ − y)0 (û + ŷ − y)

= û0 û + û0 (ŷ − y) + (ŷ − y)0 û + (ŷ − y)0 (ŷ − y)

= û0 û + (ŷ − y)0 (ŷ − y) + 2û0 (ŷ − y)
= û0 û + (ŷ − y)0 (ŷ − y)
ya que û0 (ŷ − y) = 0. Esto porque, si hay constante en la regresión,
82
û0 (ŷ − y) = û0 ŷ − û0 y = û0 ŷ

= û0 (Xβ)
= û0 X β

= 0
porque X 0 û = 0.
Suponiendo SST > 0 (lo cual es cierto si existe la mínima variabilidad en la variable
dependiente) podemos volver a denir el coeciente de determinación
SSE SSR
R2 = =1−
SST SST
El coeciente de determinación indica qué porcentaje de la variabilidad total observada
está explicada por los datos ajustados por la regresión. Es el porcentaje de la variación
muestral en y que es explicado por las variables independientes en X . Note que 0 ≤ R2 ≤
1 si hay constante en la regresión.
Hay formas alternativas pero algebraicamente equivalentes para expresar el coeciente
de determinación R2 . Están basadas en formas alternativas para expresar SSE .
SSE = ŷ0 ŷ − ny 2 = β̂ 0 X 0 X β̂ − ny 2
= β̂ 0 X 0 ŷ − ny 2
= β̂ 0 X 0 (y + û) − ny 2
= β̂ 0 X 0 y − ny 2 + β̂ 0 X 0 û
= β̂ 0 X 0 y − ny 2
porque por la condición de primer orden de los mínimos cuadrados X 0 û = 0. En ese caso
ŷ0 ŷ − ny 2 β̂ 0 X 0 y − ny 2
R2 = 2 =
y0 y − ny y0 y − ny 2
Una forma útil para interpretar el coeciente de determinación R2 es que puede ex-
presarse como el cuadrado del coeciente de correlación lineal entre y y ŷ:
Pn 2
2 − y) ŷi − ŷ
i=1 (yi
R =P 2
n 2 Pn
i=1 (y i − y) i=1 ŷ i − ŷ
y puede pensarse como una medida del grado de asociación lineal entre y y ŷ.
El coeciente R2 no está restringido a tomar valores 0 ≤ R2 ≤ 1 si se utiliza en un
modelo diferente al modelo de regresión lineal múltiple con constante. Esto pasa porque,
por ejemplo, si no hay constante en la regresión, no se tiene necesariamente y = ŷ y
tampoco se tiene necesariamente que X 0 û = 0.
83
Ejemplo: Suponga que se quiere estimar el modelo
y = β1 x1 + u
sin constante, y se tienen las observaciones {(0, 1 − ) , (2, 1 + )} con > 0. La
suma de residuales al cuadrado es
2
X 2
SSR = yi − β̂1 x1
i=1
2
= (1 − )2 + 1 + − 2β̂1
y es minimizada si y sólo si
1 + − 2β̂1 = 0
1+
β̂1 =
2
Se tiene que ŷ1 = 0 y ŷ2 = 1 +
SST = 22
1+ 2

SSE = 2
2
SSR = (1 − )2
Se tiene que
1 2

2 SSE 1
R = = +
SST 2 2

2 SSR 1 1 1
Ralt = 1− = + 1−
SST 2 2
y que SSE + SSR 6= SST . Note que para sucientemente pequeño entonces
2 2
eventualmente R > 1 y Ralt < 0.
4.5.2. Cambio en SSR cuando una variable es añadida a la regresión

Se quiere analizar el efecto sobre la suma de residuales al cuadrado SSR al añadir una
variable adicional a la regresión. Suponga que se tiene el modelo
y = WB + u

donde W = X z , siendo z la variable adicional. El modelo puede expresarse como
y = Xβ + zb + u
84

β
donde B= . Se tiene que los residuales estimados en este modelo son
b
û = y − X d̂ − zb̂

d̂
donde B̂ = es el estimador OLS de la regresión con variable adicional. Es decir,
b̂
−1
B̂ = W 0 W W 0y
En la subsección 4.3.4 se obtuvo la expresión para d̂ en el contexto de regresión par-

ticionada (ecuación (4.3))
−1 −1 0
d̂ = X 0 X X 0 y − zb̂ = β̂ − X 0 X X zb̂
y sustituyendo en los residuales
û = y − X d̂ − zb̂
−1 0
= y − X β̂ + X X 0 X X zb̂ + −zb̂

−1
= ê − In − X X 0 X X 0 zb̂

= ê − M zb̂
donde ê = y − X β̂ es el residual de la regresión sin la variable adicional z. Ahora
0
û0 û = ê − M zb̂ ê − M zb̂

= ê0 − b̂0 z0 M ê − M zb̂
= ê0 ê − b̂0 z0 Mê − ê0 M zb̂ + b̂0 z0 M M zb̂
= ê0 ê + b̂2 z0 M z − 2b̂0 z0 Mê
Se tiene que ê = M y por propiedades de la matriz aniquiladora M. Y por la ecuación

(4.4)
z0 M zb̂ = z0 M y
Entonces
û0 û = ê0 ê + b̂2 z0 M z − 2b̂0 z0 Mê

= ê0 ê + b̂2 z0 M z − 2b̂0 z0 M y
= ê0 ê − b̂2 z0 M z
Como b̂2 z0 M z ≥ 0 porque b̂2 z0 M 0 M z ≥ 0 entonces siempre se cumple que
û0 û ≤ ê0 ê
85
4.5.3. Coeciente de determinación ajustado

La medida R2 tiene una importante debilidad cuando se utiliza para comparar la
bondad de ajuste entre varios modelos alternativos: un mayor número de variables ex-
plicativas necesariamente no disminuye el valor del coeciente R2 . De hecho, el valor R2
puede incrementarse añadiendo variables en la regresión. Una medida de la capacidad
explicativa del modelo que trata de corregir esta denciencia es una que incorpora los
grados de libertad adecuados
1 0
2 n−k (û û)
R = 1− 1 0 2

n−1 y y − ny

n−1
1 − R2

1−
n−k
1 0
donde
n−k (û û) es un estimador insesgado para la varianza del término de perturbación
1 0
y y − ny 2 es un estimador insesgado para la varianza de y.

y
n−1
4.5.4. Error de predicción

Uno de los objetivos de realizar estimaciones sobre los parámetros desconocidos β es
que se abre la posibilidad de realizar predicciones informadas acerca de las realizaciones
de la variable aleatoria y , dados valores para X .
Para una observación y0 y dado x0 (note que x0 es el vector la de la observación en
el momento 0 de las k variables explicativas) se tiene que el error de predicción es
ŷ0 − y0 = x0 β̂ − y0
El predictor ŷ0 es insesgado si E (ŷ0 − y0 ) = 0. Note que el predictor es insesgado

condicional al valor de la muestra si y sólo si los estimadores son insesgados condicional
al valor de la muestra:

E (ŷ0 − y0 |X) = E x0 β̂ − x0 β − u0 |X

= E x0 β̂ − β |X

= x0 E β̂ − β|X
El valor del predictor ŷ0 diere del verdadero valor y0 porque los estimadores son
diferentes al verdadero valor poblacional y porque el verdadero término de perturbación
diere del valor que predecimos para él (cero).
86
La varianza del error de predicción está dada por
0
0
E (ŷ0 − y0 ) (ŷ0 − y0 ) |X = E x0 β̂ − β − u0 x0 β̂ − β − u0 |X
0
0 0
= E x0 β̂ − β − u0 β̂ − β x0 − u0 |X
0 0
0 0 0
= E x0 β̂ − β β̂ − β x0 − 2 β̂ − β x0 u0 + u0 u0 |X
0
β̂ − β β̂ − β |X x0 0 + E u00 u0 |X

= x0 E
x0 Σβ̂ x0 0 + E u00 u0 |X

=
que se resume en
x0 Σβ̂ x0 0 + var (u0 |X)
y bajo el supuesto de homoscedasticidad se llega a
−1 0
var (ŷ0 − y0 |X) = σ 2 x0 X 0 X x0 + 1
Ejercicio: Demuestre que para el modelo simple y = β0 + β1 x + u se tiene que la varianza

del error de predicción es

var β̂0 |X + 2x0 cov β̂0 , β̂1 |X + x20 var β̂1 |X + var (u0 |X)
y bajo el supuesto de homoscedasticidad
!

2

2 1 (x0 − x)2
E (ŷ0 − y0 ) |X = σ 1 + + Pn 2
n i=1 (xi − x)
Del ejercicio anterior se deduce que si x0 está muy lejos de la media x entonces mayor es
la varianza del error de predicción en el modelo lineal simple. Predicción fuera del rango
de xi utilizado en la estimación genera una mayor varianza del error de predicción.
87
5 Inferencia en el análisis de regresión
múltiple
El proceso de inferencia estadística se divide principalmente en dos ramas: estimación
y pruebas de hipótesis. A lo largo de estas notas se ha cubierto el tema de estimación.
En estadística es de interés realizar pruebas de hipótesis sobre los parámetros poblacio-
nales, para poder deducir resultados teóricamente relevantes a partir de la información
muestral disponible. Para ello es necesario conocer la distribución de probabilidad de los
estimadores. Con los supuestos utilizados hasta ahora en la estimación OLS no es posible
realizar esto, así que un supuesto probabilístico adicional es necesario para poder realizar
pruebas de hipótesis.
5.1. Normalidad en el término de perturbación

Los supuestos 4.4.1-4.4.5 permiten obtener el valor esperado y la varianza muestral de
los estimadores OLS, además de permitir concluir que el estimador OLS es BLUE. Sin
embargo para hacer pruebas de hipótesis no es suciente con tener dos momentos, sino
que se necesita la distribución de probabilidad del estimador.
Al condicionar por los valores de las variables independientes en la muestra, es claro
que la distribución del estimador debe depender de la distribución del término de pertur-
bación. Claramente podría suponerse que los términos de perturbación siguen cualquier
distribución. Pero por facilidad y por características propias de los datos con que usual-
mente se trata, se escoge la distribución normal.
Supuesto 5.1.1. Normalidad:

El término de perturbación u del modelo poblacional es independiente de las variables
explicativas x1 , . . . , xk−1 y se distribuye normalmente con media cero y varianza constante
σ2:
u ∼ N 0, σ 2

Este es un supuesto mucho más fuerte que todos los supuestos anteriores. En particular
la independencia de u respecto a las variables explicativas implica matemáticamente que
E (u|x1 , . . . , xk−1 ) = E (u) = 0 y var (u|x1 , . . . , xk−1 ) = var (u) = σ 2 .
Es claro entonces que al aceptar el supuesto 5.1.1, entonces necesariamente se está
suponiendo 4.4.3 y 4.4.5.
Note que
u|x ∼ N 0, σ 2 ↔ y|x ∼ N β0 + β1 x1 + · · · + βk−1 xk−1 , σ 2

¾Por qué suponer normalidad en el término de perturbación?
88
5 Inferencia en el análisis de regresión múltiple
1. El término de perturbación ui representa el efecto combinado de múltiples varia-

bles independientes que explican a y. Por el Teorema del Límite Central (TLC) se
sabe que la suma de variables aleatorias estandarizadas, independientes e idénti-
camente distribuidas tiende a distribuirse normalmente. Este teorema provee una
justicación teórica del supuesto de normalidad. Incluso si el número de variables
no es grande y si no son estrictamente independientes puede todavía mostrarse,
bajo algunas condiciones, normalidad en la distribución de la suma de variables
aleatorias.
2. Con el supuesto de normalidad la distribución muestral del estimador OLS es muy

fácil de derivar, al ser función lineal de los términos de perturbación.
3. La distribución normal es sencilla y múltiples propiedades matemáticas son am-

pliamente conocidas.
Claramente el argumento de normalidad por TLC es débil: no es claro por qué las varia-
bles que afectan a y lo hacen de forma aditiva.
El supuesto de normalidad debe conrmarse empíricamente, ya que es clave para la
inferencia estadística. Siempre en la aplicación debe buscarse evidencia de normalidad.
Afortunadamente la no normalidad de los términos de perturbación no es tan problemá-
tico para muestras grandes.
5.2. Estimación por máxima verosimilitud

Hemos supuesto que el término de perturbación en el modelo lineal sigue una distri-
bución normal, condicional a los valores tomados por la variable independiente. Esto
nos permite utilizar uno de los criterios más sencillos para hallar estimadores de los
parámetros poblacionales: máxima verosimilitud.
5.2.1. Función de densidad conjunta del modelo lineal

Si se tiene una muestra de tamaño n de la población de forma tal que
y = Xβ + u
entonces se cumple, por el supuesto 5.1.1 que
u ∼ N 0, σ 2 In

Ahora para cada observación i se tiene
yi = x0i β + ui ∼ N x0i β, σ 2

y su función de densidad de probabilidad, condicional al valor de x0i es

!
1 (yi − x0i β)2
r
1
yi |x0i , β, σ 2

f = exp −
2πσ ² 2 σ2
89
Como las observaciones provienen de variables aleatorias independientes, la función de

densidad conjunta puede expresarse como
f y1 , . . . , yn |x01 , . . . , x0n , β, σ 2 = f yn |x0n , β, σ 2 . . . f yn |x0n , β, σ 2

s !
1 ni=1 (yi − x0i β)2
n P
1
= exp −
2πσ ² 2 σ2
1 (y − Xβ)0 (y − Xβ)

−n
= (2πσ ²) 2 exp −
2 σ2
La función de densidad conjunta describe completamente la probabilidad de obtener
una muestra para la variable y condicionada a los valores poblacionales β, σ 2 y a la
muestra de variables independientes X.
5.2.2. Máxima verosimilitud

Para poder obtener información útil acerca de los parámetros poblacionales que ge-
neraron los datos muestrales de los que se dispone se debe establecer un criterio de
estimación.
Uno de los criterios, propuesto por Sir R. A. Fisher entre 1912 y 1922, es que los valores
de los parámetros deconocidos (en este caso β y σ2) deberían aproximarse escogiendo
estimadores tales que se maximice la probabilidad de obtener la muestra disponible.
Recordando un poco la estadística básica, se tiene que la función de verosimilitud
representa la probabilidad de obtener ciertos parámetros dada la información muestral.
Es decir
L β, σ 2 |y1 , . . . , yn , x01 , . . . , x0n = f y1 , . . . , yn |x01 , . . . , x0n , β, σ 2

Los estimadores por máxima verosimilitud resuelven el problema
L β, σ 2 |y1 , . . . , yn , x01 , . . . , x0n

máx
β,σ ²
Como ln x es una función monótona creciente, hallar los maximizadores de la función

de verosimilitud L (·) es lo mismo que hallar los maximizadores de la función ln L (·).
Así el problema de máxima verosimilitud es equivalente, en nuestro caso particular, a
n n 1 (y − Xβ)0 (y − Xβ)
máx − ln (2π) − ln σ ² −
β,σ ² 2 2 2 σ2
n n 1 y0 y − 2β̂ 0 X 0 y + β̂ 0 X 0 X β̂
= − ln (2π) − ln σ ² −
2 2 2 σ2
Estimador por máxima verosimilitud de β

El estimador por máxima verosimilitud (ml) de β puede hallarse fácilmente notando
0
1 (y−Xβ) (y−Xβ)
que para maximizar L debe maximizarse, respecto a β , el último término − ,
2 σ2
90
que es equivalente a minimizar su negativo (y − Xβ)0 (y − Xβ). Es decir, hallar el esti-

mador por máxima verosimilitud de β es equivalente a minimizar la suma de residuales
al cuadrado.
Por lo tanto la regla para obtener el estimador por máxima verosimilitud bajo el
supuesto de normalidad es −1
β̃ = X 0 X X 0y
Como la regla para obtener el estimador es la misma, las propiedades muestrales del
estimador por máxima verosimilitud son las mismas que las propiedades del estimador
OLS. En ese caso
0 −1
E β̃ = β E β̃ − β β̃ − β = σ2 X 0X
y se trata de un estimador BLUE.

Además, como se verá adelante, el estimador por máxima verosimilitud es BUE (Best
Unibiased Estimator).
y ∼ N Xβ, σ 2

Como β̃ es una función lineal de y y condicional a las variables
independientes, entonces −1
β̃ ∼ N β, σ 2 X 0 X
Finalmente, obtenemos las condiciones de primer orden respecto a β, que permiten

comprobar que la regla que utilizamos es la adecuada, y obtenemos las segundas derivadas
que serán de utilidad más adelante
∂ 1 −2X 0 y + 2X 0 Xβ
L = −
∂β 2 σ2
0

∂ ∂ XX
L = − 2
∂β ∂β σ
1 −2X 0 y + 2X 0 Xβ

∂ ∂
L =
∂σ 2 ∂β 2 (σ 2 )2
Estimador por máxima verosimilitud de σ2

Para maximizar la función de verosimilitud escogiendo σ2 es necesario utilizar cálculo
diferencial
∂ n 1 (y − Xβ)0 (y − Xβ)
L = − +
∂σ 2 2σ ² 2 (σ 2 )2
(y − Xβ)0 (y − Xβ)

∂ ∂ n
L = −
∂σ 2 ∂σ 2 2 (σ ²)2 (σ 2 )3
1 −2X 0 y + 2X 0 Xβ

∂ ∂
L =
∂β ∂σ 2 2 (σ 2 )2
91
Para obtener el maximizador hacemos la primera derivada igual a cero, y teniendo en

cuenta que σ 6= 0
0
n 1 y − X β̃ y − X β̃
− + = 0
2σ̃ ² 2 (σ̃ 2 )2
0
nσ̃ 2 = y − X β̃ y − X β̃ = 0
0
y − X β̃ y − X β̃ ũ0 ũ
σ̃ 2 = =
n n

donde ũ0 = y − X β̃ .
El estimador por máxima verosimilitud para σ2 es una variable aleatoria (porque y es

variable aleatoria) y varía de muestra a muestra. Por lo tanto sus propiedades muestrales
son de interés.
La regla de máxima verosimilitud genera un estimador para σ2 que es una función
cuadrática de y. Como la regla para encontrar β̃ es la misma regla para encontrar β̂
entonces los residuales estimados son los mismos para ambos criterios y por la subsección
4.4.3 se tiene
E ũ0 ũ = σ 2 (n − k)

Entonces
2
2 n−k
E σ̃ =σ
n
y claramente el estimador por máxima verosimilitud σ̃ 2 es sesgado. Es por esta razón
que se preere el estimador insesgado
ũ0 ũ
σ̂ 2 =
n−k
Para las pruebas de hipótesis es de importancia conocer la distribución de σ̂ 2 . Primero
estudiamos la distribución de
0
y − X β̃ y − X β̃ ũ0 ũ
=
σ2 σ2
0
In − X (X 0 X)−1 X 0 y In − X (X 0 X)−1 X 0 y
=
σ2
0
In − X (X 0 X)−1 X 0 X u In − X (X 0 X)−1 X 0 u
=
σ2
−1
u0 In − X (X 0 X) X0 u
=
σ2
u0 M u
=
σ2
92
El numerador es una forma cuadrática que involucra al vector u, que es normal, y M

que es una matriz idempotente.
Por un teorema de estadística (consultar Judge y otros (1982), capítulo 2), si u ∼
u0 M u
N 0, σ 2 In χ2

y M es una matriz idempotente, entonces
σ2
se distribuye con grados
de libertad igual al rango de la matriz M. Para una matriz idempotente se tiene que el
rango es igual a la traza, y
−1 0 −1 0
tr In − X X 0 X X = tr (In ) − tr X X 0 X X
−1 0
= tr (In ) − tr X 0 X XX
= tr (In ) − tr (Ik )
= n−k
de forma que el rango de M es n − k.

Entonces
n − k 2 ũ0 ũ u0 M u
σ̂ = = ∼ χ2(n−k)
σ2 σ2 σ2
ũ0 ũ
y como σ̂ 2 = n−k
σ2

2
σ̂ ∼ χ2
n − k (n−k)
el estimador es una constante multiplicada por una variable chi-cuadrado.
El valor esperado de una variable chi-cuadrado es igual a sus grados de libertad. En
este caso

n−k 2
E σ̂ = (n − k)
σ2
E σ̂ 2 = σ2

y la varianza de una variable chi-cuadrado es igual a dos veces sus grados de libertad.
En este caso

n−k 2
var σ̂ = 2 (n − k)
σ2
n−k 2

var σ̂ 2 = 2 (n − k)

σ 2
2σ 4
var σ̂ 2 =

n−k
El supuesto de normalidad aporta información adicional sobre la varianza del estimador
σ̂ 2 , que de otra forma no hubiera podido obtenerse.
5.2.3. Cota inferior de Cramér-Rao

Independencia entre σ̂ 2 y β̃
Teorema 5.2.1. El vector aleatorio β̃ es independiente de la variable aleatoria σ̂2 .
93
ũ0 ũ
Demostración. Como σ̂ 2 = n−k se tiene que si ũ y β̃ son independientes, entonces β̃ es
2
independiente de σ̂ . Al ser ũ y β̃ normales, es suciente mostrar que la covarianza es
cero. La matriz de varianzas-covarianzas es
0 0
E ũ β̃ − β = E y − X β̃ β̃ − β
0
0
−1 0
= E In − X X X X u β̃ − β
−1 0 0 −1 0
= E In − X X 0 X X uu X X 0 X X
−1 0 −1 0
In − X X 0 X X E uu0 X X 0 X

= X

−1 −1
= σ 2 In − X X 0 X X 0 X X 0X X0

−1 0 −1 0 −1 0
= σ2 X X 0X X − X X 0X X X X 0X X
= 0
Cota inferior de Cramér-Rao

Si suponemos que la función de verosimilitud es doblemente diferenciable, entonces la
matriz de información de Fisher es
∂ 2 ln L (γ|y, X)

I (γ) = −E
∂γ∂γ 0
y su inversa provee una cota inferior para la precisión de estimadores insesgados para γ.
Para el modelo lineal normal se tiene que la matriz de información es
1 −2X 0 y+2X 0 Xβ
 0

− Xσ2X 2 (σ 2 )2
I (γ) = −E  1 −2X 0 y+2X 0 Xβ n (y−Xβ)0 (y−Xβ)

2 (σ 2 )2 2(σ ²)4
− (σ 2 )3
X0X
" #
σ2
0
= n
0 2(σ ²)4
donde E (−2X 0 y + 2X 0 Xβ) = 0 por

la denición del modelo poblacional y porque
E (u) = 0 y E (y − Xβ)0 (y − Xβ) = nσ 2 .
Al invertir la matriz de información se tiene la cota inferior de Cramér-Rao
" #
σ 2 (X 0 X)−1 0
2σ 4
0 n
94
5.3. Mínimos cuadrados restringidos

Considere el modelo lineal
y = Xβ + u
bajo la hipótesis H0 : Cβ = c donde C es una matriz de (J × k) y c un vector de J × 1.
La matriz C c resumen J restricciones lineales del tipo
y el vector
C11 β0 + C12 β1 + · · · + C1k βk−1 = c1

C21 β0 + C22 β1 + · · · + C2k βk−1 = c2
. .
. .
. .
Cq1 β0 + Cq2 β1 + · · · + Cqk βk−1 = cq
Suponemos que la matriz C es de rango completo: ninguna restricción puede expresarse

como combinación lineal de las demás.
Se quiere hallar el estimador por mínimos cuadrados restringidos β̂C que minimiza la
suma de residuales al cuadrado (y − Xβ)0 (y − Xβ) bajo la restricción Cβ = c.
El problema de maximización restringida puede resolverse con el método de Lagrange:
L = (y − Xβ)0 (y − Xβ) + 2λ0 (Cβ − c) = y0 y − 2β 0 X 0 y + β 0 X 0 Xβ + 2 (Cβ − c)0 λ
donde λ ∈ RJ es el vector de multiplicadores de Lagrange asociado a las J restricciones.

Derivando:
d
L = −2X 0 y + 2X 0 Xβ + 2C 0 λ
dβ 0
Igualando esta condición a cero se tiene
C 0 λ = X 0 y − X 0 X β̂C
de donde
−1 −1
β̂C = X 0X X 0y − X 0X C 0λ
−1 0
= β̂ − X 0 X Cλ

Entonces β̂ − β̂C = (X 0 X)−1 C 0 λ, de forma que C (X 0 X)−1 C 0 λ = C β̂ − β̂C =

C β̂ − c porque por denición se tiene que β̂C cumple con la restricción impuesta,
de forma tal que C β̂C = c.

Así
−1
C X 0X C 0λ = C β̂ − c
−1 −1
λ = C X 0X C0 C β̂ − c
95
y sustituyendo en β̂C se llega a la expresión para el estimador por mínimos cuadrados

ordinarios restringidos:
−1 −1 0 −1

β̂C = β̂ − X 0 X C 0 C X 0X C C β̂ − c
Valor esperado y matriz de varianzas y covarianzas de los estimadores restringidos

Suponga que se cumplen los supuestos clásicos 4.4.1-4.4.4. En ese caso
se
tiene inses-
gamiento del estimador por mínimos cuadrados ordinarios, es decir E β̂|X = β . Ahora
queremos estudiar el valor esperado condicional del estimador restringido:
−1
0
−1 0 0
−1 0
E β̂C |X = E β̂ − X X C C XX C C β̂ − c |X
−1
0
−1 0 0
−1 0
= E β̂|X − E XX C C XX C C β̂ − c |X
−1−1 0 −1
= β − X 0X C 0 C X 0X C CE β̂|X − c
−1 0 −1 0 −1
= β − X 0X C C X 0X C (Cβ − c)
El estimador restringido es insesgado, bajo los supuestos clásicos 4.4.1-4.4.4, si y sólo

si
Cβ − c = 0
es decir, si y sólo si las restricciones impuestas en la estimación son verdaderas en la
población.
Para obtener la matriz de varianzas-covarianzas condicional calculamos

−1 0 −1 0 −1
β̂C − E β̂C |X = Ik − X 0 X C C X 0X C C β̂ − β
Denimos
−1 −1 0 −1
MC = Ik − X 0 X C 0 C X 0X C C
Note que la matriz MC es idempotente y depende de constantes y valores de X

−1 −1
−1 −1 −1 −1
MC MC = Ik − (X 0 X) C 0 C (X 0 X) C 0 C Ik − (X 0 X) C 0 C (X 0 X) C 0 C
−1
−1 −1
= Ik − 2 (X 0 X) C 0 C (X 0 X) C 0 C
−1 −1
−1 −1 −1 −1
+ (X 0 X) C 0 C (X 0 X) C 0 C (X 0 X) C 0 C (X 0 X) C 0 C
−1
−1 −1
= Ik − (X 0 X) C 0 C (X 0 X) C 0 C
= MC
96
Así se tiene que

0 0
E β̂C − E β̂C β̂C − E β̂C = E MC β̂ − β MC β̂ − β
0
0
= E MC β̂ − β β̂ − β MC
0
= MC E β̂ − β β̂ − β MC0
= MC Σβ̂ MC0
donde Σβ̂ es la matriz de varianzas y covarianzas del estimador OLS estándar.
Supongamos ahora homoscedasticidad (ver supuesto 4.4.5). En ese caso Σβ̂ = σ 2 (X 0 X)−1
y
´−1 0
σ 2 MC X 0 X
`
Σβ̂C = MC
„ « „ «0
2 ` 0 ´−1 0 “ ` 0 ´−1 0 ”−1 ` 0 ´−1 ` 0 ´−1 0 “ ` 0 ´−1 0 ”−1
= σ Ik − X X C C XX C C XX Ik − X X C C XX C C
„ «„ «
´−1 ` 0 ´−1 0 “ ´−1 0 −1 ` 0 ´−1
” “ ´−1 0 −1 ` 0 ´−1
”
σ2 X 0 X C C X 0X Ik − C 0 C X 0 X
` ` `
= − XX C C XX C C XX
´−1 ´−1 0 “ ` 0 ´−1 0 ”−1 ` 0 ´−1
σ2 X 0 X − 2σ 2 X 0 X
` `
= C C XX C C XX ...
´−1 0 “ ´−1 0 ” −1 ´−1 0 “ ´−1 0 ”−1 ` 0 ´−1
+σ 2 X 0 X C C X 0X C X 0X C C X 0X
` ` ` `
C C C XX
´−1 ´−1 0 “ ´−1 0 −1 ` 0 ´−1
”
= σ2 X 0 X − σ2 X 0 X C C X 0X
` ` `
C C XX
2 ` 0 ´−1
= σ MC X X
Es fácil darse cuenta que
−1 −1 0 −1 −1
Σβ̂ − Σβ̂C = σ 2 X 0 X C 0 C X 0X C C X 0X =A
donde A es una matriz semidenida positiva. De esta forma la matriz de varianzas-
covarianzas del estimador OLS restringido Σβ̂C cumple que todos los elementos en su
diagonal son menores o iguales que los elementos de la diagonal de la matriz de varianzas-
covarianzas del estimador OLS estándar. El estimador restringido β̂C es el mejor esti-
mador en la clase de estimadores lineales insesgados siempre y cuando las restricciones
Cβ = c sean verdaderas.
Residuales Restringidos
−1
Sea û = y−X β̂ y ûC = y−X β̂C . Como β̂C = β̂−(X 0 X)−1 C 0 C (X 0 X)−1 C 0 C β̂ − c
entonces
ûC = y − X β̂C

−1 −1 0 −1
= y − X β̂ + X X 0 X C 0 C X 0X C C β̂ − c
−1 0 −1 0 −1
ûC = û + X X 0 X C C X 0X C C β̂ − c
97
Así:
0
−1 0 −1 −1 0 −1

−1 −1 0
û0C ûC = 0
û + C β̂ − c 0
C (X X) C 0
C (X X) X 0 0 0
û + X (X X) C C (X X) C C β̂ − c
h i−1 0 h i−1
−1 −1 −1
= û0 û + 2û0 X (X 0 X) C 0 C (X 0 X) C 0 C β̂ − c + C β̂ − c C (X 0 X) C 0 ...
h i−1
−1 −1 −1
. . . C (X 0 X) X 0 X (X 0 X) C 0 C (X 0 X) C 0 C β̂ − c
h i−1 0 h i−1
−1 −1 −1
= û0 û + 2û0 X (X 0 X) C 0 C (X 0 X) C 0 C β̂ − c + C β̂ − c C (X 0 X) C 0 C β̂ − c
h i−1
La matriz 2û0 X (X 0 X)−1 C 0 C (X 0 X)−1 C 0 C β̂ − c vale cero. La razón es que
û0 X = 0:
0
û0 X = y − X β̂ X
= y0 X − β̂ 0 X 0 X
−1 0 0 0
= y0 X − X 0 X Xy XX
−1 0
= y0 X − y0 X X 0 X XX
= 0
Así:
0 h −1 0 i−1
û0C ûC = û0 û + C β̂ − c C X 0 X C C β̂ − c
Esta fórmula será de utilidad cuando estudiemos la prueba F.
5.4. Estimación por intervalos

El estimador por máxima verosimilitud β̃ se distribuye normal multivariado con media
β y matriz de varianzas-covarianzas σ 2 (X 0 X)−1 . Ahora es de interés obtener intervalos
de conanza individuales y conjuntos.
Esta es otra manera de interpretar la estimación de un modelo: obtener armaciones
acerca de la probabilidad de encontrar el valor poblacional verdadero en cierto intervalo
que depende de la muestra aleatoria. Es la estimación por intervalos.
5.4.1. Intervalo de conanza para una restricción lineal

Sea C una matriz de restricciones de dimensión J ×k y sea C1 una matriz que representa
una única restricción (C1 es de dimensión 1 × k ).
Se tiene que −1
β̃ ∼ N β, σ 2 X 0 X
98
y al ser C1 una matriz de restricción constante

−1 0
C1 β̃ ∼ N C1 β, σ 2 C1 X 0 X C1
de donde −1 0
C1 β̃ − C1 β ∼ N 0, σ 2 C1 X 0 X C1
Note que al tener una única restricción entonces C1 β̃ − C1 β es un número real, y la

distribución normal considerada en este caso es la univariada.
Como σ 2 C1 (X 0 X)−1 C10 es un real (es una matriz de 1 × 1) se puede entonces estan-
darizar la variable normal de forma tal que

C1 β̃ − β
z= q ∼ N (0, 1)
σ C1 (X 0 X)−1 C10
Si conociéramos el verdadero valor de σ entonces podrían construirse intervalos de

conanza utilizando la distribución normal.

Se escoge un intervalo −zα/2 , zα/2 de forma tal que P −zα/2 ≤ z ≤ zα/2 = 1 − α.
´ zα/2
Es decir −zα f (z) dz = 1 − α donde f es la función de densidad de probabilidad (en
/2
este caso de una normal estándar). Entonces los valores −zα/2 y zα/2 son valores críticos
asociados al nivel de signicancia α. Se tiene entonces que

P −zα/2 ≤ z ≤ zα/2 = 1 − α
 
C1 β̃ − β
P −zα/2 ≤ q ≤ zα/2  = 1 − α
0 −1 0
σ C1 (X X) C1
q q
P C1 β̃ − zα/2 σ C1 (X 0 X)−1 C10 ≤ C1 β ≤ C1 β̃ + zα/2 σ C1 (X 0 X)−1 C10 = 1−α

En un contexto de muestreo repetido, en promedio el intervalo −zα/2 , zα/2 contiene α
C1 (β̃−β )
por ciento veces el estadístico z= √ .
σ C1 (X 0 X)−1 C10
El problema de utilizar este intervalo de conanza es que σ no es conocido. Entonces
2
es necesario utilizar un estimador insesgado de σ y buscar la distribución de la variable
aleatoria
C1 β̃ − β
q
σ̂ C1 (X 0 X)−1 C10
Recordamos ahora que una variable aleatoria t igual a la razón entre una variable
aleatoria normal estándar z y la raíz cuadrada de una variable aleatoria x que se dis-
tribuye χ2s dividida entre sus grados de libertad, sigue una distribución ts si z y x son
independientes:
N (0, 1)
t = p 2 ∼ ts
χs/s
99
Dado que β̃ y σ̂ 2 son independientes y que además sabemos que
n−k 2
σ̂ ∼ χ2n−k
σ2
entonces
C1 (β̃−β )
√ C1 β̃ − β
σ C1 (X 0 X)−1 C10
t= q = q ∼ tn−k
1 2 0 −1 0
σ2
σ̂ σ̂ C1 (X X) C1
y el intervalo de conanza puede reescribirse utilizando la distribución t como
q q
P C1 β̃ − tα/2,n−k σ̂ C1 (X 0 X)−1 C10 0 −1 0
≤ C1 β ≤ C1 β̃ + tα/2,n−k σ̂ C1 (X X) C1 = 1−α
Como caso particular, y de suma importancia, considere
C1 = e0j

= 0 ... 0 1 0 ... 0
el vector la de tamaño 1×k con un uno en la posición j y ceros en las demás posiciones.
En ese caso
q q
0 −1 0 −1
P β̃j − tα/2,n−k σ̂ (X X)jj ≤ βj ≤ β̃j + tα/2,n−k σ̂ (X X)jj = 1 − α
donde (X 0 X)−1
jj es el j -ésimo elemento de la diagonal de la matriz (X 0 X)−1 .
Los intervalos son aleatorios porque los extremos son funciones de variables aleatorias.
5.4.2. Intervalo de conanza para varias restricciones lineales

Primero recordemos algo de estadística. Si Z es un vector aleatorio de tamaño n×1
tal que
Z ∼ N (0, In )
entonces por denición de la distribución chi-cuadrado se tiene
Z0 Z ∼ χ2n
al ser la suma de n variables aleatorias independientes normal estándar al cuadrado.

Ahora considere el vector aleatorio normal multivariado X de tamaño n × 1:
X ∼ N (µ, Σ)
Por el teorema de descomposición espectral se sabe que existe una matriz A de tamaño
n×n tal que
AΣA0 = In
100
(ver Sección A.11, Judge y otros (1982)). Entonces
AX ∼ N Aµ, AΣA0

AX − Aµ ∼ N (0, In )
Denimos entonces Z = A (X − µ) y se tiene
Z0 Z = (A (X − µ))0 A (X − µ)
= (X − µ)0 A0 A (X − µ)
= (X − µ)0 Σ−1 (X − µ)
de donde concluimos que

(X − µ)0 Σ−1 (X − µ) ∼ χ2n
Volviendo a la econometría, sea C una matriz de restricciones de dimensión J × k. Es
decir, tenemos J restricciones lineales.
Se tiene que −1
β̃ ∼ N β, σ 2 X 0 X
y al ser C una matriz de restricciones constante
−1 0
C β̃ ∼ N Cβ, σ 2 C X 0 X C
Utilizando el resultado anterior sobre distribuciones normales y chi-cuadrado se tiene
0 h −1 0 i−1

C β̃ − β σ2C X 0X C C β̃ − β ∼ χ2J
de donde 0 h i−1
β̃ − β C 0 C (X 0 X)−1 C 0 C β̃ − β
∼ χ2J
σ2
Este resultado nos permitiría obtener intervalos de conanza conjuntos para J combi-
2
naciones lineales de parámetros si σ fuera conocido. Sin embargo, usualmente no es así.
Afortunadamente sabemos que
n−k 2
σ̂ ∼ χ2n−k
σ2
y sabemos que la razón de dos variables aleatorias independientes distribuidas chi-
cuadrado, cada una dividida entre sus grados de libertad, se distribuye F:
x2/s
F = ∼ Fs,r
y 2/r
si x2 ∼ χ2s y y 2 ∼ χ2r y son independientes.
101
Como β̃ y σ̂ 2 son variables aleatorias independientes, y la matriz C está compuesta de

0 −1
(β̃−β ) C 0 [C(X 0 X)−1 C 0 ] C (β̃−β ) n−k 2
constantes, puede demostrarse que
σ2
y
σ2
σ̂ son variables
aleatorias independientes. En ese caso podemos construir la siguiente razón:
0 −1
(β̃−β ) C 0 [C(X 0 X)−1 C 0 ] C (β̃−β ) 1
σ2 J
λ = n−k 2 1
σ2
σ̂ n−k
0 h i−1
β̃ − β C 0 C (X 0 X)−1 C 0 C β̃ − β
=
J σ̂ 2
y por denición se tiene que
λ ∼ FJ,n−k
Ahora podemos escoger un valor crítico Fα,J,n−k de forma tal que
P (λ < Fα,J,n−k ) = 1 − α
y entonces
 0 h i−1 
 β̃ − β C0 C (X 0 X)−1 C 0 C β̃ − β
P < Fα,J,n−k  = 1 − α

J σ̂ 2
5.4.3. Intervalo de conanza para la predicción

Para una observación y0 y dado x0 (note que x0 es el vector la de la observación en
el momento 0 de las k variables explicativas) se tiene que el error de predicción es
ŷ0 − y0 = x0 β̂ − y0
En la subsección 4.5.4 se mostró que, bajo los supuestos clásicos de Gauss-Markov, se

tiene que
E (ŷ0 − y0 |X) = 0
y
−1 0
var (ŷ0 − y0 |X) = σ 2 x0 X 0 X x0 + 1
Al añadir el supuesto de normalidad en el término de perturbación se tiene que
−1 0
ŷ0 |X = x0 β̂|X ∼ N x0 β, σ 2 x0 X 0 X x0
y por hipótesis
u0 |X ∼ N 0, σ 2

Como cualquier combinación lineal de variables aleatorias normales se distribuye nor-

mal, se concluye que
−1 0
x0 β̂ − x0 β − u0 ∼ N 0, σ 2 x0 X 0 X x0 + 1
102
Estandarizando esta variable aleatoria normal se tiene que
x0 β̂ − y0
r ∼ N (0, 1)
σ x0 (X 0 X)−1 x0 0 +1
lo que permitiría construir intervalos de conanza. Sin embargo, esta variable aleatoria
depende del parámetro desconocido σ.
Ejercicio: Demuestre que y0 está en el intervalo de conanza a dos colas
„ q` q` «
x0 (X 0 X)−1 x0 0 + 1 < y0 < x0 β̂ + tn−k,α/2 σ̂ x0 (X 0 X)−1 x0 0 + 1
´ ´
P x0 β̂ − tn−k,α/2 σ̂ = 1−α
donde tn−k,α/2 es el valor crítico de la distribución t con n − k grados de libertad

(es decir, P t ≤ tn−k,α/2 = 1 − α2 ) y 1 − α es el nivel de signicancia deseado.
5.5. Pruebas de hipótesis

Algunas veces la teoría, además de predecir relaciones entre variables, también predice
valores para algunos coecientes del modelo lineal. Es de interés entonces comparar los
valores obtenidos por la estimación del modelo econométrico con los valores predichos por
la teoría económica. Una forma de formalizar esta comparación es utilizando las pruebas
de hipótesis.
Supongamos el modelo lineal
y = β0 + β1 x1 + · · · + βj xj + · · · + βk−1 xk−1 + u
para el cual la teoría económica predice un valor
Cβ = cecon
donde C es una matriz de coecientes de tamaño 1×k y cecon ∈ R.
Claramente por la naturaleza aleatoria del modelo, cuando realicemos la estimación
de este modelo se va a tener
C β̃j 6= cecon
Sin embargo esta información obtenida de una sola muestra aleatoria no es evidencia
suciente para decir que el valor estimado es estadísticamente diferente al predicho por
la teoría. Para poder decidir debemos construir, a partir de la única muestra de la que
disponemos, un estadístico con distribución conocida para poder realizar una prueba de
hipótesis.
La hipótesis nula es una restricción adicional a los supuestos del modelo, y queremos
construir un estadístico de forma tal que, si la hipótesis es correcta y los supuestos del
modelo se cumplen, tenga una distribución conocida. En ese caso la interpretación de las
pruebas de hipótesis es válida si y sólo si el modelo está correctamente especicado, y
únicamente bajo el supuesto que la hipótesis nula es verdadera.
Por ejemplo, se puede construir un estadístico del cual se sabe que tiene un valor muy
alto, por lo que tiende a rechazarse la hipótesis nula. Sin embargo, esta interpretación es
válida únicamente si el modelo es el adecuado.
103
5.5.1. Prueba de hipótesis: coecientes individuales

Para realizar pruebas de hipótesis sobre coecientes individuales necesitamos contras-
tar las siguientes hipótesis:
H0 : βj = βjecon
Ha : βj 6= βjecon
para algún j. Nuestra hipótesis nula es que el verdadero parámetro poblacional toma
el valor predicho por la teoría económica (y que es conocido), mientras que la hipótesis
alternativa es el caso contrario.
Denimos la matriz

Cj = ej = 0 ... 0 1 0 ... 0
con ceros en todas partes y un uno en la posición j -ésima. Tenemos
Cj β = βj
y si la hipótesis nula se supone verdadera entonces
Cj β = βjecon
Ahora utilizamos el estadístico t construido en la sección 5.4

Cj β̃ − β
tj = q
σ̂ Cj (X 0 X)−1 Cj0
y tenemos que si el modelo está bien especicado y bajo el supuesto que la hipótesis nula
es verdadera
β̃j − βjecon
tj = q ∼ tn−k
σ̂ (X 0 X)−1 jj
q
donde σ̂ (X 0 X)−1
jj es la desviación estándar estimada del parámetro estimado β̃j . Así
la prueba t puede verse como indicador de cuántas desviaciones estándar estimadas se
aleja β̃j del valor que toma según la hipótesis nula.
Note que nuestro estadístico tj satisface tres propiedades útiles:
El valor tj se puede calcular a partir de la muestra aleatoria que tenemos.
La distribución condicional del estadístico tj no depende de X. Es decir, la distri-

bución condicional es independiente del valor de la muestra aleatoria. No se debe
confundir esto con el hecho de que efectivamente el valor (mas no la distribución)
del parámetro tj depende de X.
La distribución de este estadístico es conocida cuando H0 es verdadera.
104
Teniendo a la mano este estadístico de distribución conocida podemos hacer pruebas de

hipótesis sobre el valor poblacional de los parámetros desconocidos.
Note que todo lo anterior es válido para cualquier matriz de coecientes C de tamaño
1 × k. Es decir que podemos hacer pruebas de hipótesis sobre una combinación lineal de
los parámetros utilizando la prueba t:
C β̃ − cecon
tC = q ∼ tn−k
σ̂ C (X 0 X)−1 C 0
donde cecon es el valor que la teoría económica predice para la combinación lineal de
parámetros.
Regla de decisión para la prueba t

Tenemos la siguiente regla de decisión utilizando el valor del estadístico tC , para la
hipótesis nula
H0 : Cβ = cecon
y la hipótesis alternativa
Ha : Cβ 6= cecon
que indica una prueba a dos colas.
econ
Dado el valor hipotético cecon se puede construir la razón tC = √C β̃−c0 . Entre
σ̂ C(X X)−1 C 0
más lejos esté el valor tC de cero, entonces es más posible que falle la hipótesis
nula.
Para saber qué tan lejos es lejos se debe buscar el valor crítico para una variable
aleatoria t con n−k grados de libertad. Este es el valor tα/2,n−k . Como la distribución
t es simétrica, este valor crítico satisface

P −tα/2,n−k < t < tα/2,n−k = 1 − α
donde 1−α es el nivel de signicancia deseado.
No hay evidencia para rechazar H0 si
−tα/2,n−k < tC < tα/2,n−k
y se rechaza H0 en caso contrario.
Como tC ∼ tn−k bajo H0 , la probabilidad de rechazar H0 dado que H0 es verdadera es

α. Entonces el error de tipo I es α y el nivel de signicancia estadística es 1 − α.
Esta regla es equivalente a no rechazar H0 si
q q
econ 0 −1 0 0 −1 0
c ∈ C β̃j − tα/2,n−k σ̂ C (X X) C , C β̃j + tα/2,n−k σ̂ C (X X) C
105
y rechazar H0 en caso contrario.

Otra forma alternativa de decidir si rechazar o no la hipótesis nula es la siguiente.
Denimos el p-value como el valor p tal que
P (− |tC | < t < |tC |) = 1 − p
Se dice que no hay evidencia para rechazar H0 si
p>α

Note que la regla de decisión para la prueba tC cambia si la hipótesis alternativa es de
un solo lado (una prueba a una sola cola). Considere el caso
Ha : Cβ > cecon
Esto signica que no nos interesan las alternativas a H0 de la forma Ha: Cβ < cecon por
alguna razón, usualmente sustentada en la teoría económica (por ejemplo, las elastici-
dades de una función de producción respecto a los insumos son teóricamente positivas).
Para hacer la prueba de hipótesis, primero se escoge un nivel de signicancia α. Bajo
la hipótesis alternativa se esperaría que la prueba tC tenga un valor signicativamen-
te positivo, de forma que exista evidencia para rechazar la hipótesis nula. Si la prueba
tC es negativa, no tenemos ninguna evidencia para rechazar la hipótesis nula. Entonces
estamos interesados en una prueba a una sola cola.
Se rechaza la hipótesis nula si el estadístico tC es mayor que el valor crítico a una sola
cola:
tC > tα,n−k
y no existe evidencia para rechazar la hipótesis nula en caso contrario. Esta es la prueba
a una sola cola, y la hipótesis alternativa Ha: Cβ < cecon puede estudiarse de forma
análoga.
5.5.2. Signicancia estadística vs signicancia económica

En la práctica de la econometría es necesario, además de prestar atención al valor
de los estadísticos t de prueba de signicancia, tener en cuenta también la magnitud
del coeciente. La signicancia económica, es decir, en términos prácticos qué tan
relevante es una variable xj para explicar a la variable y , depende del tamaño y del signo
del coeciente βj . La signicancia estadística en cambio depende únicamente de la
prueba t.
La prueba tj para la signicancia estadística del parámetro βj es
β̃j
tj = q
σ̂ (X 0 X)−1
jj
106
q
donde σ̂ (X 0 X)−1
jj es la desviación estándar estimada para el estimador β̃j . Este esta-
q
dístico depende del tamaño de β̃j y del tamaño de σ̂ (X 0 X)−1
jj .
Muchas veces una variable puede ser signicativa
q estadísticamente no porque el
tamaño de β̃j sea grande, sino porque σ̂ (X 0 X)−1

jj es muy pequeño. Esto podría dar
la falsa impresión de que la variable es signicativa económicamente y explica a la
variable y , aunque su efecto es muy pequeño. Cuando se dispone de una muestra grande la
desviación estándar tiende a disminuir, y esto hace que sea más posible que el estadístico
tj sea grande y rechaze la hipótesis nula de βj = 0 . Por eso también hay que ver la
magnitud del coeciente estimado.
q
Por otra parte, σ̂ (X 0 X)−1
jj puede ser grande si hay alta relación lineal entre variables
independientes (multicolinealidad). De acuerdo con el Teorema 4.4.6 se sabe que
σ2
var β̂j =
SSTj 1 − Rj2
y un alto grado de relación lineal entre las variables independientes aumenta la varianza
(y por lo tanto la desviación estándar estimada) de los estimadores OLS. En ese caso
siempre la prueba tj tiende a ser muy pequeña, y variables que podrían ser realmente
signicativas económicamente (porque el parámetro de pendiente es realmente grande)
tienden a no ser signicativas estadísticamente.
5.5.3. Prueba de hipótesis: varias combinaciones lineales

Sea C una matriz de tamaño J ×k y c un vector de tamaño J × 1. Representamos
restricciones lineales sobre los parámetros poblacionales como
Cβ = c
y planteamos nuestra hipótesis nula en términos del valor de verdad de estas restricciones
lineales:
H0 : Cβ = c
Ha : Cβ 6= c
Se tiene que
2 0
−1
β̃ ∼ N β, σ XX
y al ser C una matriz de restricciones constante
−1 0
C β̃ ∼ N Cβ, σ 2 C X 0 X C
Entonces sabemos por propiedades de la distribución normal que
0 h −1 i−1
C β̃ − Cβ σ2C X 0X C0 C β̃ − Cβ ∼ χ2J
107
y si suponemos como verdadera la hipótesis nula tenemos Cβ = c, de donde
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ − c
∼ χ2J
σ2
Este resultado nos permitiría obtener un estadístico para la prueba de hipótesis de J
combinaciones lineales de parámetros si σ2 fuera conocido. Sin embargo, usualmente no
es así. Afortunadamente sabemos que
n−k 2
σ̂ ∼ χ2n−k
σ2
y puede construirse la razón λ:
0 −1
(C β̃−c) [C(X 0 X)−1 C 0 ] (C β̃−c) 1
σ2 J
λ = n−k 2 1
σ2
σ̂ n−k
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ −c
=
J σ̂ 2
Por denición de una variable aleatoria F se tiene que
λ ∼ FJ,n−k
Note que nuestro estadístico λ satisface tres propiedades útiles:
El valor λ se puede calcular a partir de la muestra aleatoria que tenemos.
La distribución condicional del estadístico λ no depende de X.
La distribución de este estadístico es conocida cuando H0 es verdadera.
Teniendo a la mano este estadístico de distribución conocida podemos hacer pruebas

de hipótesis sobre el valor poblacional de las combinaciones lineales de los parámetros
desconocidos.
Regla de decisión para la prueba F

Tenemos la siguiente regla de decisión utilizando el valor del estadístico λ, para la
hipótesis nula
H0 : Cβ = c
0 −1
(C β̃−c) [C(X 0 X)−1 C 0 ] (C β̃−c)
Dado el vector hipotético c se puede construir la razón λ = J σ̂ 2
.
Entre más lejos esté el valor λ de cero, entonces es más posible que falle la hipó-
tesis nula.
108
Para saber qué tan lejos es lejos se debe buscar el valor crítico para una variable
aleatoria F con (J, n − k) grados de libertad. Este es el valor Fα,J,n−k . Este valor
crítico satisface
P (F < Fα,J,n−k ) = 1 − α
donde 1−α es el nivel de signicancia deseado.
No hay evidencia para rechazar H0 si
λ < Fα,J,n−k
Como λ ∼ FJ,n−k bajo H0 , la probabilidad de rechazar H0 dado que H0 es verdadera es

α. Entonces el error de tipo I es α y el nivel de signicancia estadística es 1 − α.
Otra forma alternativa de decidir si rechazar o no la hipótesis nula es la siguiente.
Denimos el p-value como el valor p tal que
P (F < λ) = 1 − p
Se dice que no hay evidencia para rechazar H0 si
p>α
Prueba de signicancia conjunta

Queremos probar si un grupo de variables no tiene efecto sobre la variable dependiente.
La hipótesis nula entonces sería que un conjunto de variables no tiene efecto sobre y , dado
que se controla por otras variables. La prueba de signicancia conjunta que se utiliza
comunmente tiene por hipótesis nula
H0 : β1 = β2 = · · · = βk = 0
donde se busca probar si todos los parámetros excepto el intercepto son nulos (es decir,
si el modelo no tiene poder explicativo sobre y ). La hipótesis alternativa es simplemente
que la nula sea falsa: que algún parámetro de pendiente sea diferente de cero.
Este prueba de signicancia conjunta es importante porque es una señal estadística de
la utilidad real del modelo. Se puede realizar utilizando la prueba F.
Ejemplo: No hay una relación clara entre las pruebas de signicancia individuales t y la
prueba de signicancia conjunta F. Si dos variables explicativas están altamente
linealmente asociadas, las pruebas t tienden a indicar que no son signicativas
individualmente, porque la desviación estándar de los estimadores de pendiente
para esas variables es relativamente grande (por la alta relación lineal). Sin embargo
la prueba F puede indicar que, en conjunto, estas variables son signicativas para
explicar la variable y. Eso porque la alta relación lineal no es determinante en la
prueba F.
109
Relación entre la prueba t y la prueba F

Considere una sola restricción lineal (J = 1). En ese caso la prueba F es
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ − c
λ=
J σ̂ 2
Ahora como la matriz C es de tamaño 1 × k entonces C (X 0 X)−1 C 0 es de tamaño 1×1
y C β̃ − c es de tamaño 1 × 1 y se tiene que
0
C β̃ − c C β̃ − c
λ =
σ̂ 2 C (X 0 X)−1 C 0
2
C β̃ − c
=
σ̂ 2 C (X 0 X)−1 C 0
= t2C
Así la prueba t es un caso particular de la prueba F.
Prueba F: Forma II
0 −1
(C β̂−c) [C(X 0 X)−1 C 0 ] (C β̂−c)
La prueba F está dada por λ = 2 . Además se tiene que
0 h i−1 J σ̂
−1
û0C ûC = û0 û + C β̂ − c C (X 0 X) C 0 C β̂ − c . Así
û0C ûC − û0 û SSRC − SSR

λ= 2
=
J σ̂ J σ̂ 2
y esta es una forma alternativa de expresar la prueba F : entre más lejana esté la suma de
residuales al cuadrado restringidos de la suma de residuales al cuadrado no restringida
es más posible que falle la hipótesis nula.
Pn
Como SST = i=1 (yi − y)2 y esta es la suma de totales al cuadrado sin importar si
el modelo es restringido o no, entonces se tiene, en el caso en que el modelo restringido
y no restringido se estimen con intercepto, que:
SSRC
SST − SSR
SST
λ = SST
J σ̂ 2
SSR SSRC
1− SST − 1− SST
= SST
J σ̂ 2
SST
R2 − RC2

= 2
J σ̂
n − k SST
R2 − RC 2

=
J SSR
n − k R2 − RC2
=
J 1 − R2
110
Ejercicio: Demuestre que para la prueba de signicancia conjunta el estadístico de prueba

es
n − k R2
λ=
k − 1 1 − R2
Prueba F: Forma III

A partir del estimador por mínimos cuadrados restringidos
−1 −1 0 −1

β̂C = β̂ − X 0 X C 0 C X 0X C C β̂ − c
se tiene que
−1 0 −1 0 −1

X β̂C − β̂ = X X 0 X C C X 0X C c − C β̂
y se puede calcular
“ ”0 “ ” “ ”0 “ ` ´−1 0 ”−1 ` 0 ´−1 0 ` 0 ´−1 0 “ ` 0 ´−1 0 ”−1 “ ”

β̂C − β̂ X 0 X β̂C − β̂ = c − C β̂ C X0X C C X X X X X X C C X X C c − C β̂
“ ”0 “ ` ´−1 0 ”−1 “ ”
= c − C β̂ C X0X C c − C β̂
y se tiene entonces que la prueba F puede expresarse como
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ − c
λ =
J σ̂ 2
0
β̂C − β̂ X 0 X β̂C − β̂
=
J σ̂ 2
Intuitivamente entre más alejado esté el estimador restringido del estimador no res-
tringido, más probable es rechazar la hipótesis nula.
5.5.4. Prueba de razón de verosimilitud

La prueba de razón de verosimilitud compara LU , el máximo valor de la verosimilitud
alcanzado al estimar el modelo sin restricciones, con LC , el máximo valor de la verosi-
militud alcanzado suponiendo además la restricción impuesta por la hipótesis nula. Es
decir, denimos
LU = máx L
β̃,σ̃ 2
LC = máx L
β̃,σ̃ 2
s.a
Cβ = c
111
y la prueba de razón de verosimilitud es
LU
λL =
LC
Intuitivamente si la razón λL es muy alta entonces el modelo restringido tiene poca
verosimilitud y es más probable que se rechace la hipótesis nula.
La prueba F presentada anteriormente es una prueba de razón de verosimilitud porque
es una transformación monótona de la razón λ.
La verosimilitud en nuestro caso está dada por
1 (y − Xβ)0 (y − Xβ)

−n
(2πσ ²) 2 exp −
2 σ2
SSR SSRC
con σ̃ 2 = n en el caso sin restricción y σ̃ 2 = n en el caso restringido. Así
− n
SSR n 2
LU = 2π exp −
n 2
− n
SSRC 2 n
LC = 2π exp −
n 2
y por lo tanto
− n
SSR 2
λL =
SSRC
Ahora como la prueba F está dada por

SSRC − SSR n−k SSRC
λ= = −1
J σ̂ 2 J SSR
entonces la prueba F y la razón de verosimilitud están relacionadas por
n−k 2

λ= (λL ) n − 1
J
de forma tal que ambos tests son estadísticamente el mismo.
5.5.5. Prueba de hipótesis sobre σ2

Considere la hipótesis nula
H0 : σ 2 = σ02
donde σ02 es un valor conocido, y la hipótesis alternativa
Ha : σ 2 6= σ02
Se demostró en la subsección 5.2.2 que
n−k 2
σ̂ ∼ χ2(n−k)
σ2
112
y bajo el supuesto que la hipótesis nula es verdadera se tendría que
n−k 2
σ̂ ∼ χ2(n−k)
σ02
y con esta razón, que puede ser calculada a partir de la muestra de la que disponemos,
se puede hacer pruebas de hipótesis sobre la varianza del término de perturbación.
Se escogen los valores críticos χ2α ,n−k y χ21− α ,n−k de forma tal que se cumpla
2 2

P χ2α ,n−k < χ2 < χ21− α ,n−k = 1 − α
2 2
y no existe evidencia para rechazar la hipótesis nula si
n−k 2
χ2α ,n−k < σ̂ < χ21− α ,n−k
2 σ02 2
También puede construirse el intervalo de conanza

2 n−k 2 2
P χ α ,n−k < σ̂ < χ1− α ,n−k = 1 − α
2 σ2 2
de donde !
(n − k) σ̂ 2 2 (n − k) σ̂ 2
P < σ < =1−α
χ21− α ,n−k χ2α ,n−k
2 2
5.6. Consistencia y normalidad asintótica

Por el momento se tienen resultados importantes acerca del estimador por mínimos
cuadrados ordinarios (o por máxima verosimilitud):
Insesgamiento bajo los Supuestos 4.4.1-4.4.4.
Mejor estimador lineal insesgado bajo los supuestos 4.4.1-4.4.5.
Normalidad (distribución exacta del estimador OLS), si se toma como cierto el

Supuesto 5.1.1.
Pruebas t, F , intervalos de conanza e inferencia estadística, bajo el Supuesto 5.1.1.

Todos estos resultados son válidos sin importar el tamaño de muestra. Es decir, para
cualquier n dado que satisfaga el supuesto trivial de n > k (hay positivos grados de
libertad) se tienen estos resultados. Estas son las llamadas propiedades de muestra
nita.
Sin embargo a veces interesa conocer las propiedades asintóticas o de muestra
grande del estimador OLS. Estas propiedades no están denidas para un tamaño de
muestra en particular. De hecho están denidas cuando el tamaño de la muestra crece
indenidamente. Un resultado importante es que, incluso si se viola el Supuesto 5.1.1,
los estadísticos t y F tienen aproximadamente la distribución t y F, cuando la muestra
es sucientemente grande.
113
5.6.1. Consistencia
La consistencia es una propiedad deseable de los estimadores. Si un estimador no es
consistente, no hay esperanzas que al aumentar el tamaño de la muestra (obtener más
información) mejore en algún sentido la estimación. Por lo tanto no es bueno tener un
estimador inconsistente.
Recordamos que un estimador es una función de la muestra aleatoria. Como tal depende
del tamaño de la muestra aleatoria n. Así indexamos nuestro estimador del parámetro
θ al tamaño de la muestra, de forma que el estimador obtenido para una muestra de
tamaño n es θ̂n .
Decimos que un estimador θ̂n es consistente sii

lı́m P θ̂n − θ > = 0

n→∞
para cualquier > 0.

Intuitivamente, θ̂n tiene una distribución de probabilidad asociada (al ser una variable
aleatoria, que representa los valores posibles del estimador para distintas muestras de
tamaño n), y esta distribución cambia cuando cambiamos el tamaño de la muestra. Si
un estimador es consistente, esta distribución muestral del estimador se vuelve cada vez
más concentrada alrededor del verdadero valor del parámetro poblacional θ a medida
que el tamaño de la muestra aumenta. Cuando n tiende a innito la distribución colapsa
en un solo punto θ. En términos prácticos esto signica que se puede hacer el estimador
arbitrariamente cercano al verdadero valor θ aumentando el número de datos utilizados
en la estimación (incrementando el tamaño de la muestra).
Consistencia de β̂
Para mostrar la consistencia introducimos el siguiente supuesto:
Supuesto 5.6.1. Se tiene que

X 0X

p lı́m =Q
n
donde Q es una matriz nita denida positiva de tamaño k × k. Pedimos además que
exista la matriz Q−1 .
114
X0X
Analicemos el término
n :
10
 
0
X 0X 1 x1 

=  ..  1 x1 . . . xk−1
n n . 
x0k−1
10 1 1 0 x1 10 xk−1
 
...
0 0 x01 xk−1
1  x1 1
 x 1 x1 . . . 
=

. . .. .
n . . .
 
. . . . 
0 0
xk−1 1 xk−1 x1 . . . xk−1 xk−1 0
 Pn Pn 
Pn n Pn i=1 xi1 ... Pn i=1 xik−1
1 i=1 xi1 i=1 xi1 xi1 ... i=1 xi1 xik−1
 
=

. . .. .
n . . .
 
.
Pn . Pn . . 
Pn
i=1 xik−1 i=1 xi1 xik−1 . . . i=1 xik−1 xik−1
 
1 x1 ... xk−1
 x1 ˆ (x1 , x1 ) − x1
cov 2 ... ˆ (x1 , xk−1 ) − x1 xk−1 
cov
=
 
 .. .
. .. .
.

 . . . . 
xk−1 cov ˆ (x1 , xk−1 ) − x1 xk−1 . . . 2
ˆ (xk−1 , xk−1 ) − xk−1
cov
donde
n
1X
cov
ˆ (xj , xl ) = {(xij − xj ) (xil − xl )}
n
i=1
y
n
1X
xj = xij
n
i=1
Entonces estamos pidiendo que los estimadores de los momentos de las variables aleatorias
contenidas en X converjan en probabilidad a algún valor nito.
Este supuesto signica que las sumas contenidas en X 0X crecen a una tasa menor a
la que crece n, y pedir la existencia de Q
−1 nos indica que las variables explicativas no
son linealmente dependientes en el límite en probabilidad (es extender el supuesto de no

multicolinealidad perfecta en el límite).
El estimador por mínimos cuadrados ordinarios puede escribirse como
X 0 X −1 X 0 y

β̂ =
n n
0 −1 0
XX Xu
= β+
n n
A continuación seguimos a Greene (2007). Aplicando el operador de límite en proba-
115
bilidad a ambos lados

( −1 )
X 0u X 0X
p lı́m β̂ = p lı́m β + p lı́m
n n
0 −1 0
XX Xu
= β + p lı́m p lı́m
n n
0
−1 0
XX Xu
= β + p lı́m p lı́m
n n
0
X u
β + Q−1 p lı́m
n
donde se hace uso del hecho que el operador límite de una función continua es la función
evaluada en el límite (Teorema de Slutsky), y suma, producto e inversión de matrices son
funciones continuas.
X0u
Ahora necesitamos analizar p lı́m n .
Denimos el vector de observación i como

xiobs = 1 xi1 xi2 . . . xik−1
Este vector reúne la i-ésima observación de todas las variables independientes. En una
muestra aleatoria de tamaño n se tienen n vectores de observación.
Cada observación de la muestra satisface la relación lineal
yi = β0 + β1 xi1 + β2 xi2 + · · · + βk−1 xik−1 + ui

 
β0
 β1 
 
1 xi1 xi2 . . . xik−1  β2  + ui

yi =
 
 .. 
 . 
βk−1
yi = xiobs β + ui
Sea
n n
1 0 1X 0 1X
Xu= xiobs ui = wi = w
n n n
i=1 i=1
En ese caso
p lı́m β̂ = β + Q−1 p lı́m w
Por el Supuesto 4.4.3 se tiene que
E (wi ) = EX (E (wi |X))

= EX E x0iobs u|X

= EX x0iobs E (u|X)

= 0
116
de forma tal que el valor esperado exacto (y sin condicionar) es
E (w) = 0
Ahora consideramos la varianza. Por un Teorema del Apéndice B de Greene (2007) se

tiene que
var (w) = EX (var (w|X)) + varX (E (w|X))
Como E (w|X) = 0 entonces varX (E (w|X)) = 0. Así
var (w) = EX (var (w|X))

= EX E ww0 |X

1 0 0
= EX E X uu X|X
n2

1 0 0

= EX X E uu |X X
n2
0
σ2 XX
= EX
n n
La varianza colapsa a cero si el valor esperado entre paréntesis es (o converge a) una

matriz constante, de forma tal que el escalar domina el producto al incrementar n. El
Supuesto 5.6.1 debería ser suciente para que esto suceda (teóricamente puede suceder
que el valor esperado diverja aunque el límite en probabilidad no, pero este caso no es
relevante para propósitos prácticos). En ese caso seguiría que
lı́m var (w) = 0Q = 0

n→∞
Como el valor esperado de w es idénticamente cero y su varianza converge a cero,

entonces se sigue que w 1
converge en media a cero . Por un corolario de la desigualdad
2
de Chebychev generalizada sigue que p lı́m w = 0.
Entonces
X 0u
p lı́m =0
n
de forma que
p lı́m β̂ = β + Q−1 0 = β
Así bajo los supuestos 4.4.1-4.4.4 y añadiendo 5.6.1 se tiene que β̂ es un estimador
consistente de β en el modelo de regresión clásico.
Note que si se tiene
cov (xj , u) 6= 0
entonces se viola la consistencia del estimador OLS.
1
Si xn es una sucesión de variables aleatorias tales que E (|xn |r ) < ∞ y lı́mn→∞ E (|xn − c|r ) = 0
decimos que xn converge en r-ésima media ac.
2
Si xn es una sucesión de variables aleatorias y c es una constante tal que E (|xn − c|r ) < ∞ y es una
r
constante positiva, entonces P (|xn − c| > ) ≤ E(|xnr−c| ) .
117
Consistencia de σ̂ 2
u21 , . . . , u2n

Por el supuesto 4.4.2 se tiene que es una muestra aleatoria de variables
E u2i = σ 2 . Por el teorema de

independientes e idénticamente distribuidas (iid), tal que
Khinchine, que dice que la media muestral de variables iid es un estimador consistente
de la media poblacional, se tiene que
Pn 2
i=1 ui u0 u
p lı́m = p lı́m = σ2
n n
Se tiene que el estimador OLS de la varianza es
û0 û u0 M u
σ̂ 2 = =
n−k n−k
siendo M = In − X (X 0 X)−1 X 0 la matriz aniquiladora generadora de residuales. Así

0 I − X (X 0 X)−1 X 0 u

u n
p lı́m σ̂ 2 = p lı́m 


n−k
!
u0 u u0 X (X 0 X)−1 X 0 u

= p lı́m − p lı́m
n−k n−k
" !#
u0 X X 0 X −1 X 0 u
0
n uu
= p lı́m p lı́m − p lı́m
n−k n n n n
" 0 0 0 −1 ! 0 #
n uu uX XX Xu
= p lı́m p lı́m − p lı́m p lı́m p lı́m
n−k n n n n
1 σ − 0Q−1 0 = σ 2
2
=
por Khinchine y el teorema de Slutsky.

Así σ̂ 2 es un estimador consistente.
5.6.2. Normalidad asintótica

Tenemos que
√ X 0 X −1 1
n β̂ − β = √ X 0u
n n
0 −1 −1
X X X0X
Como la inversión de matrices es una función continua, p lı́m = p lı́m =
n n
√
Q−1 . Por lo tanto si una distribución límite del vector aleatorio n β̂ − β existe, en-
tonces esa distribución límite debe ser la misma distribución de
" −1 #
X 0X

1 0 −1 1
p lı́m √ Xu =Q √ X 0u
n n n
118
y por lo tanto debemos establecer la distribución límite de
√

1
√ X 0u = n (w − E [w])
n
donde E [w] = 0. Se puede ahora utilizar la versión multivariada del teorema de límite
3 para obtener la distribución límite de √
central de Lindberg-Feller nw. Se tiene que w
es el promedio de n vectores aleatorios independientes wi = x0iobs ui con media cero y
varianza
varX x0iobs ui = σ 2 EX x0iobs xiobs = σ 2 Qi

√
y la varianza de nw es

2 1 2
σ Qn = σ (Q1 + Q2 + · · · + Qn )
n
En el caso que esta suma no esté dominada por algún término en particular y que
los regresores estén bien comportados (en términos prácticos que se cumpla el supuesto
5.6.1) entonces
lı́m σ 2 Qn = σ 2 Q
n→∞
√
y podemos aplicar el teorema de límite central de Lindenberg-Feller al vector nw. Más
formalmente:
Teorema 5.6.2. Teorema de Normalidad Asintótica:

Bajo los supuestos 4.4.1-4.4.5, si {ui }son independientes con media cero y varianza
0
nita σ 2 y además se cumple p lı́m XnX = Q, entonces
σ 2 −1

d
β̂ → N β, Q
n
3
Suponga que x1 , . . . , xn es una muestra de vectores aleatorios tal que E (xi ) = µi , var (xi ) = Qi y
todos los terceros momentos mezclados de la distribución multivariada son nitos. Sea
n
1X
µn = µi
n i=1
n
1X
Qn = Qi
n i=1
Suponga que
lı́m Qn = Q
n→∞
donde Q es nita, denida positiva y para cada i
n
!−1
` ´−1 X
lı́m nQn Qi = lı́m Qi Qi = 0
n→∞ n→∞
i=1
Note que implícito está el supuesto que la suma de estas matrices no es singular. Con estos supuestos
se tiene que
√ d
n (xn − µn ) → N (0, Q)
119
Demostración. x0iobs ui son

Si
vectores
independientes distribuidos con media cero y va-
X 0X
rianza σ 2 Qi < ∞ y si p lı́m n = Q entonces

1 d
X 0 u → N 0, σ 2 Q

√
n
por el teorema de límite central de Lindenberg-Fuller.

Se sigue entonces que

−1 1 d
X 0 u → N 0, Q−1 σ 2 Q Q−1

Q √
n
y combinando términos se tiene
√
d
n β̂ − β → N 0, σ 2 Q−1

Entonces
σ 2 −1

d
β̂ → N β, Q
n
û0 û
En la práctica se hace necesario estimar
1 −1
nQ con (X 0 X)−1 y σ2 con
n−k . Note que si
hay heteroscedasticidad, sin importar el tamaño de la muestra, las pruebas estadísticas
usuales no son válidas.
Deben tenerse en cuenta las siguientes observaciones:
u se distribuye normal, entonces la distribución exacta de β̂ es β̂ ∼ N β, σ 2 (X 0 X)−1

Si
para cualquier tamaño de muestra. Así que también es normal asintóticamente.
Si los regresores están bien comportados y las observaciones son independientes, en-
tonces la normalidad asintótica del estimador OLS no depende de la normalidad
de las perturbaciones; es una consecuencia del teorema central del límite.
5.6.3. Inferencia basada en propiedades asintóticas

Incluso si el supuesto 5.1.1 de normalidad en el término de perturbación no se cumple,
aun es posible tener un fundamento teórico para la realización de pruebas de hipótesis.
Del teorema de normalidad asintótica se tiene que
√
d
n β̂ − β → N 0, σ 2 Q−1

y se sabe que los teoremas sobre las distribuciones asociadas a la normal se mantienen
en el caso límite. Así, si C es una matriz constante conocida de tamaño J ×k y de rango
J, se tiene que
√
d
n C β̂ − Cβ → N 0, σ 2 CQ−1 C 0

120
y
0 −1
n C β̂ − Cβ CQ−1 C 0 C β̂ − Cβ d
→ χ2J
σ2
En estas expresiones, por tratarse de funciones límite, puede reemplazarse
X 0X
→ Q
n
σ̂ 2 → σ 2
sin alterar la distribución límite. En ese caso

0 h i−1
C β̂ − Cβ C (X 0 X)−1 C 0 C β̂ − Cβ d
λas = → χ2J
σ̂ 2
y
C β̂ − Cβ d
tC = q → N (0, 1)
σ̂ C (X 0 X)−1 C 0
y estas razones pueden utilizarse para construir intervalos de conanza, basados en la
teoría asintótica.
Note que estos resultados dieren un poco de los obtenidos en la subsección 5.4.
1. Cuando el término de perturbación se distribuye normal, se tiene que tC sigue

una distribución t con n−k grados de libertad. Cuando la distribución de los
términos de perturbación es desconocida, tC converge a una normal estándar. Para
muestras grandes no hace diferencia cuál de las dos distribuciones utilizar, ya que
d
tn−k → N (0, 1).
2. El estadístico F construido antes era la base para varias pruebas de hipótesis li-
neales, bajo el supuesto de normalidad. Se tiene que
λas
λ=
J
Cuando u no se distribuye normal, la distribución de λ es desconocida y es preferible
utilizar λas que tiende a una chi cuadrado. Para muestras grandes no hace diferencia
d 2
cuál de las dos distribuciones utilizar, ya que JFJ,n−k → χJ .
Estos resultados indican entonces que si E (u) = 0, los términos de perturbación son
independientes entre sí y el proceso generador de X es independiente del proceso gene-
rador de u, entonces los resultados sobre inferencia estadística, pruebas de hipótesis y
estimación por intervalos son aproximadamente válidos en el caso límite.
121
6 Modelo de regresión con variables
dicótomas
Este capítulo sigue totalmente a Gujarati (2002) y Wooldridge (2002).
En general las variables de interés económico pueden clasicarse en cuatro categorías:
Escala de proporción: Al tomar dos valores de la variable X , x1 y x2 , la proporción

x1
x2 y la distancia d (x1 , x2 ) son cantidades que tienen sentido. Además existe un
ordenamiento natural de los valores a lo largo de la escala. Ejemplo: PIB.
Escala de intervalo: la distancia d (x1 , x2 ) es una cantidad que tiene sentido (mas
no la proporción) y tienen un orden natural. Ejemplo: Tiempo (años).
Escala ordinal: Únicamente satisface la propiedad de poseer un orden natural. Ejem-

plo: Sistemas de clasicaciones, estratos. Existe el orden pero la distancia entre
categorías no puede cuanticarse.
Escala nominal: No tienen ninguna de las características de las variables de pro-

porción. Ejemplo: Género, estado civil.
Las técnicas econométricas que pueden ser adecuadas para las variables de escala de
proporción pueden no ser adecuadas para otros tipos de variables. Los modelos de re-
gresión pueden trabajar con variables de escala nominal, variables categóricas, variables
cualitativas o variables dicotómicas (dos categorías).
En el análisis de regresión, la variable dependiente está inuida no sólo por variables de
razón de escala (por ejemplo, ingreso, producción, precios, costos, estatura, temperatura)
sino también por variables que son esencialmente cualitativas por naturaleza (per ejemplo
sexo, raza, religión, nacionalidad, región geográca, aliación a un partido político). Las
variables cualitativas sí inuyen sobre la variable dependiente y deben ser incluidas dentro
de las variables explicativas.
Usualmente las variables cualitativas indican la presencia o ausencia de alguna cualidad
o atributo. Se pueden cuanticar con la generación de una variable binaria, la variable
indicador
(
1 si la característica está presente en la observación i
xi =
0 en caso contrario
Por ejemplo, el uno (1) puede indicar que el individuo es de sexo masculino y cero (0)
el caso contrario; o 1 puede indicar que una persona se ha graduado en la universidad y
0 que no lo ha hecho.
122
6 Modelo de regresión con variables dicótomas
6.1. Variables dicótomas e interceptos diferenciales

Las variables dicótomas pueden utilizarse para categorizar a las observaciones, es decir,
agruparlas en categorías predenidas. Al tener dividida la muestra en varios grupos,
puede analizarse las diferencias que se presenta entre los grupos. La forma más sencilla
de analizar estas diferencias entre grupos es teniendo interceptos diferenciales.
Ejemplo: Efecto diploma (sheepskin eect): evaluar el impacto de la consecución de un

título académico en el salario esperado de los individuos. Esto puede modelarse con
la regresión
ln w = β0 + β1 educ + β2 exper + α1 d + u
siendo d una variable dicótoma que indica si la persona obtuvo un título universita-
rio o no. El coeciente β3 indica, para dos personas con idénticas características, el
efecto adicional sobre el salario que genera el hecho de tener un título universitario.
Representa una forma de diferenciar el intercepto entre dos grupos de individuos.
Note que
E (ln w|educ, exper, d = 0) = β0 + β1 educ + β2 exper

E (ln w|educ, exper, d = 1) = (β0 + α1 ) + β1 educ + β2 exper
Es fácil hacer pruebas de hipótesis acerca de diferencias en medias entre grupos diferentes
de observaciones. Al realizar la estimación OLS, suponiendo que se cumplen todos los
supuestos necesarios, pueden realizarse pruebas de signicancia sobre los parámetros que
acompañan a las variables dicótomas. Si estos coecientes son signicativos, entonces
estadísticamente es signicativa la diferencia en la variable dependiente entre grupos
distintos.
En general se tiene que el modelo con variables dicótomas es
yi = β0 + β1 xi1 + · · · + βk−1 xik−1 + α1 di1 + · · · + αq diq + ui
siendo dq una variable dicótoma, para i = 1, . . . , n.

Las variables dicótomas se deben utilizar con cuidado:
Deben utilizarse m−1 variables dicótomas para una variable que tiene m categorías.
De lo contrario el modelo presenta multicolinealidad perfecta con parámetro de
intercepto.
La categoría a la cual no se asigna una variable dicótoma se conoce como catego-

ría de control. La elección de esta categoría queda a criterio del investigador, y
depende del problema a tratar.
El valor del intercepto representa el valor medio de la categoría de control.
Los coecientes anexos a las variables dicótomas se conocen como coecientes de

la intersección diferencial.
123
6.2. Términos interactivos y pendientes diferenciales

Las variables dicótomas también permiten introducir cambios en los parámetros de
pendiente entre agrupaciones diferentes de la muestra disponible. Es decir, debe reco-
nocerse que el efecto marginal de una variable explicativa puede cambiar entre grupos
diferentes.
La forma de incorporar este efecto es a través de la introducción de términos interacti-
vos en la regresión: el producto de las variables dicótomas por la variable independiente
de interés, en la cual se cree que puede existir un cambio del parámetro de pendiente.
Ejemplo: Efecto diploma (sheepskin eect): podría pensarse que tener o no el título
universitario modica el efecto de la experiencia sobre el salario. Una forma de
modelar esto es:
ln w = β0 + β1 educ + β2 exper + α1 exper × d + u
En ese caso se tiene
E (ln w|educ, exper, d = 0) = β0 + β1 educ + β2 exper

E (ln w|educ, exper, d = 1) = β0 + β1 educ + (β2 + α1 ) exper
La multiplicación de la variable dicótoma por la variable explicativa permite diferenciar

entre los coecientes de las pendientes entre los dos grupos, de la misma forma que la
introducción aditiva de la variable dicótoma permite distinguir entre las intersecciones
de los dos grupos.
En general
k−1
X q
X q
k−1 X
X
yi = β 0 + βj xi1 + αl dil + γjl xij dil + ui
j=1 l=1 j=1 l=1
Note que si se utiliza el supuesto de homoscedasticidad, siempre se está suponiendo

que la varianza del término de perturbación entre los diferentes grupos es igual.
6.3. Pruebas de estabilidad estructural: probando

diferencias entre grupos
Esta sección sigue a Wooldridge (2002).
La regresión estándar implica que la estructura del modelo no cambia entre los períodos
de estudio, o entre las observaciones disponibles. Pero esto puede no ser siempre el caso.
Cuando se utiliza un modelo de regresión que involucra series de tiempo, tal vez suceda
que haya un cambio estructural en la relación entre la variable dependiente y y las
variables independientes. Por cambio estructural se quiere decir que los valores de los
parámetros del modelo no permanecen constantes a lo largo de todo el período de estudio.
Esto puede deberse a factores exógenos o a cambios de política.
124
Esta situación también podría pasar en cortes transversales (ej: comisiones de ventas
diferenciadas por el volumen de ventas: hay mayores comisiones si el volumen de ventas
supera cierto umbral). También puede suceder que el modelo de regresión es diferente
entre diferentes grupos.
En las secciones anteriores se vio cómo probar estadísticamente diferencias en medias
y pendientes entre grupos. Ahora nos concentramos en una prueba de hipótesis global
que responda a la pregunta: ¾existe diferencia (de cualquier tipo) en el modelo que siguen
dos grupos diferentes?
Suponga que se tiene una muestra de n observaciones y que existen dos grupos ex-
cluyentes en nuestra muestra. Cada grupo se denota por g = 1 y g = 2, y podrían ser
hombres y mujeres, graduados y no graduados, hispanos y no hispanos etc. Se quiere
probar si el intercepto y los parámetros de pendiente son iguales entre los dos grupos.
El modelo es
y = βg,0 + βg,1 x1 + · · · + βg,k−1 xk−1 + u
para g=1 y g=2 y la hipótesis nula a probar es
H0 : β1,j = β2,j
para j = 0, 1 . . . , k − 1.
Se puede generar la variable dicótoma d1 tal que
(
1 si la observación i pertenece al grupo 1
di1 =
0 en caso contrario
El modelo no restringido (en el cual la hipótesis nula es falsa) es:
y = β0 + α0 d1 + (β1 + α1 d1 ) x1 + · · · + (βk−1 + αk−1 d1 ) xk−1 + u
Note que en este modelo se permite que todos los parámetros del modelo sean diferentes
entre los dos grupos (determinados por la variable dicótoma d1 ).
El modelo restringido sería
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
en el cual se tiene α0 = α1 = · · · = αk−1 = 0. Es decir, si hacemos que todos los

parámetros que acompañan a la variable dicótoma sean iguales a cero, se tendría que el
modelo de regresión lineal es igual para ambos grupos.
Así se puede expresar la hipótesis nula como
H0 = α j = 0
con j = 0, 1 . . . , k − 1.
Note que se tiene un modelo no restringido y un modelo restringido, y se puede utilizar,
bajo los supuestos 4.4.1-4.4.5, la prueba F (en caso de normalidad) o su equivalente
asintótico (bajo los supuestos que acompañan al teorema de normalidad asintótica del
estimador OLS).
125
Bajo el supuesto de normalidad se tiene
SSRnd − SSRd
λ =
J σ̂ 2
n − 2k SSRnd − SSRd
=
k SSR
tiene una distribución conocida, siendo SSRnd la suma de residuales al cuadrado del
modelo restringido (sin variables dicótomas) y SSRd la suma de residuales al cuadrado
del modelo sin restringir (con variables dicótomas)
En nuestro caso se tiene que en el modelo sin restringir se están estimando 2k pará-
metros (los βj y los αj ) y hay k restricciones (que los αj sean cero).
Por el momento no hay nada novedoso al utilizar la prueba F. Sin embargo, hay una
forma alternativa de llevar a cabo este test. Suponga que se realizan dos regresiones
separadas, una para cada grupo
y = βg,0 + βg,1 x1 + · · · + βg,k−1 xk−1 + u
con g = 1, 2. n1 observaciones pertenecen al grupo 1, n2 observaciones

Se tiene que
pertenecen al grupo 2 y n = n1 + n2 . Al tener dos regresiones se tienen dos sumas
de residuales al cuadrado, una para cada regresión: SSR1 es la suma de residuales al
cuadrado para la regresión asociada al grupo 1 y SSR2 es la correspondiente al grupo 2.
Chow demostró que, bajo los supuestos 4.4.1-4.4.5 se tiene
SSRd = SSR1 + SSR2
y utilizando esta propiedad la prueba F puede expresarse como
n − 2k SSRnd − (SSR1 + SSR2 )

λ=
k SSR1 + SSR2
El estadístico λ así construido se conoce como test de Chow. Se tiene que, bajo el
supuesto de normalidad en los términos de perturbación,
λ ∼ Fk,n−2k
Ejercicio: Demuestre que al correr dos regresiones separadas entre dos grupos se tiene
que
SSRd = SSR1 + SSR2
siendo SSRd la suma de residuales al cuadrado del modelo que incluye todas las
variables dicótomas.
6.4. Modelo de probabilidad lineal

En todos los ejemplos presentados hasta esta sección se ha utilizado una variable de
escala proporcional, con signicado cuantitativo, como variable dependiente. Surge enton-
ces la pregunta: ¾qué pasa si la variable dependiente es dicótoma, o si puede pertenecer a
126
múltiples categorías? ¾Cómo utilizar el modelo de regresión lineal para explicar un evento
cualitativo?
En el caso más sencillo, la variable dependiente y puede tomar dos valores: cero o
uno. Por ejemplo, y puede indicar si un adulto completó la educación básica o no, si un
integrante de la PEA está participando en el mercado laboral o no o si una persona entre
15 y 45 años utiliza drogas alucinógenas.
En este caso el modelo de regresión lineal es el usual
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
pero la interpretación de los parámetros βj es diferente: βj no indica cuánto cambia y

al cambiar marginalmente la variable xj , ya que ahora y sólo puede tomar dos valores
(cero o uno). Sin embargo, bajo el supuesto 4.4.3, los parámetros tienen interpretaciones
útiles. En ese caso E (u|X) = 0 y
E (y|X) = β0 + β1 x1 + · · · + βk−1 xk−1
Ahora, por ser y una variable dicótoma que toma valores de cero o uno, se tiene siempre
que
E (y|X) = 1 × P (y = 1|X) + 0 × P (y = 0|X)

= P (y = 1|X)
y al sustituir se tiene que
P (y = 1|X) = β0 + β1 x1 + · · · + βk−1 xk−1
que indica que la probabilidad de éxito (P(y = 1|X)) es una función lineal en parámetros
de las variables explicativas. Así el parámetro βj puede interpretarse como el cambio
marginal en la probabilidad de éxito al cambiar marginalmente la variable xj :
∆P (y = 1|X) = βj ∆xj
Note que la variable y distribución de probabilidad de Bernoulli.

sigue la
Este es un ejemplo de los modelos de respuesta binaria, y se llama modelo de
probabilidad lineal, por la linealidad de la forma funcional.
Teniendo en cuenta estas consideraciones, la mecánica de la estimación por mínimos
cuadrados ordinarios puede utilizarse para estimar los parámetros desconocidos de este
modelo. En ese caso
ŷ = β̂0 + β̂1 x1 + · · · + β̂k−1 xk−1
es la predicción OLS de la probabilidad de éxito.
Para que la interpretación del modelo sea clara, es importante denir adecuadamente
qué constituye un éxito.
127
Ejemplo: Participación en el mercado laboral. No todas las personas que están en la

PEA deciden participar en el mercado laboral. Para explicar esta situación puede
desarrollarse un modelo de probabilidad lineal. Para determinar, por ejemplo, la
probabilidad que una mujer casada participe en el mercado laboral, se tiene que
labour = β0 + β1 nwif einc + β2 educ + β3 exper

+β4 exper2 + β5 age + β6 kidslt6 + β7 kidsge6 + u
Deben tenerse en cuenta ciertas dicultades inherentes al modelo de probabilidad lineal:
No cumplimiento de 0 ≤ P (y = 1|X) ≤ 1: Es claro que pueden obtenerse predic-

ciones que no estén contenidas en el intervalo [0, 1]. Es decir, con mucha facilidad
se tiene que ŷ ∈
/ [0, 1], lo cual no tiene sentido al estar prediciendo una probabilidad
de éxito.
No cumplimiento de 0 ≤ ∆P (y = 1|X) ≤ 1: Es claro que cambios fuertes en las

variables independientes (|∆xj | 0) pueden generar cambios mayores a uno (1)
en la variable dependiente. Esto tampoco es posible.
El coeciente R2 es una medida cuestionable de bondad del ajuste: Para cualquier

valor que tomen las variables independientes, y es cero o uno. Etonces y siempre
se encuentra sobre la recta y =0 o sobre la recta y =1 y es difícil ajustar otra
recta diferente. En general el coeciente de determinación es muy bajo. Así, el
uso del coeciente de determinación como un estadístico de resumen debe evitarse
en modelos con variable dependiente cualitativa (Aldrick y Nelson, citado por
Gujarati (2002), capítulo 15).
No normalidad en las perturbaciones ui : El supuesto de normalidad no se puede

cumplir en el modelo de probabilidad lineal porque, al igual que yi , el término de
perturbación ui sólo toma dos valores. Es decir, el término de perturbación también
se distribuye Bernoulli. Para verlo, considere
ui = yi − β0 − β1 xi1 − · · · − βk−1 xik−1
(
−β0 − β1 xi1 − · · · − βk−1 xik−1 si yi = 0, con probabilidad P (yi = 1|X)
ui |X =
1 − β0 − β1 xi1 − · · · − βk−1 xik−1 si yi = 1, con probabilidad 1 − P (yi = 1|X)
Sin el supuesto de normalidad deben sustentarse las pruebas de hipótesis por pro-
piedades asintóticas.
Heteroscedasticidad por denición: Incluso bajo el supuesto de media condicional

cero y no correlación entre los términos de perturbación, el modelo de probabi-
lidad lineal presenta heteroscedasticidad por construcción. Para una distribución
Bernoulli con probabilidad de éxito p, la media y la varianza son p y p (1 − p), de
128
donde se deduce que la varianza es una función de la media. Para la distribución

del término de perturbación se tiene que
var (ui |X) = P (yi = 1|X) (1 − P (yi = 1|X))
y por lo tanto la varianza del término de perturbación es función de las variables

independientes. Por denición esto es heteroscedasticidad.
La falla del supuesto de normalidad y homoscedasticidad no generan sesgo en la esti-

mación OLS del modelo de probabilidad lineal, pero sí afectan la inferencia estadística,
tanto en muestras nitas (por la falla del supuesto de normalidad) como asintóticamente
(por la presencia de heteroscedasticidad).
Debe entonces buscarse una solución para modelos de regresión que presenten heteros-
cedasticidad. Este es uno de los temas tratados en el siguiente capítulo.
129
7 Heteroscedasticidad y autocorrelación
Hasta este momento se ha utilizado el supuesto simplicador de homoscedasticidad
y no autocorrelación de los términos de perturbación (supuesto 4.4.5). Es decir, se ha
supuesto que
E u0 u|X = σ 2 In

Este supuesto puede ser poco apropiado en muchos casos.
1. La varianza del término de perturbación puede depender del tamaño de hogares,

rmas o unidades encuestadas.
2. La varianza puede depender de las variables independientes consideradas (por ejem-

plo, hogares con más riqueza tienden a ocultar sus ingresos, aumentando la varianza
del término de perturbación).
3. Los datos de series de tiempo pueden presentar autocorrelación en el término de

perturbación: el impacto de ut sobre la variable dependiente no siempre se transmite
de una forma completa e inmediata.
4. Otra forma de correlación en los términos de perturbación puede presentarse por

cercanía geográca: los choques que afectan a regiones o ciudades cercanas suelen
estar altamente correlacionados.
5. Otro caso de violación del supuesto es por la propia construcción del modelo, como
en el caso del modelo de probabilidad lineal.
Todas estas situaciones implican que el supuesto 4.4.5 puede fallar. Cuando la varianza
de los términos de perturbación no es constante y depende de las variables explicativas,
se tieneheteroscedasticidad. Cuando la correlación entre los términos de perturbación
no son cero se habla de autocorrelación.
La pregunta es: ¾cómo estimar adecuadamente el modelo de regresión lineal cuando
hay autocorrelación y/o heteroscedasticidad?
7.1. Mínimos cuadrados generalizados

7.1.1. Descomposición de Cholesky - Diagonalización espectral
Sea A una matriz con entradas reales, simétrica y denida positiva. Entonces A puede
descomponerse como
A = LL0
130
donde L es una matriz triangular inferior con elementos en la diagonal diferentes de cero.
Esta es la descomposición de Cholesky y L es invertible.
La descomposición espectral indica que para toda matriz cuadrada A cuyos eigenvec-
tores son linealmente independientes es diagonalizable (es similar a una matriz diagonal):
A = EΛE −1

donde E= e1 . . . en es la matriz de rango completo que contiene a los vectores
 
λ1 . . . 0
 .. . . .
.
propios y Λ =  . es la matriz diagonal que contiene los eigenvalores

. . 
0 ... λn
correspondientes. Si los eigenvectores se normalizan, entonces la descomposición es única
(por unicidad de los eigenvalores).
Si además la matriz A es simétrica entonces
A = A0
0
EΛE −1 = E −1 ΛE 0
y por unicidad de la descomposición debe tenerse
E −1 = E 0
En ese caso
A = EΛE 0
1 1
= EΛ 2 Λ 2 E 0
A = LL0
1
y L = EΛ 2 es invertible si todos los valores propios de A son diferentes de cero.
7.1.2. Violación de homoscedasticidad y/o no autocorrelación

Suponga que para el modelo lineal
y = Xβ + u
se dispone de una muestra aleatoria de tamaño n. Suponga que los Supuestos 4.4.1-4.4.4
se cumplen, pero que en lugar del supuesto de homoscedasticidad y no autocorrelación
se tiene que la matriz de varianzas y covarianzas del término de perturbación, en nuestra
muestra de tamaño n, satisface
E uu0 = σ 2 Ψ

donde P es una matriz de tamaño n × n.
Ejercicio: Muestre que la matriz Ψ debe ser simétrica y semidenida positiva.
131
El modelo lineal en este caso puede ser estimado utilizando la regla de mínimos cuadra-
dos ordinarios obtenida en el capítulo 4. En ese caso nos interesa analizar las propiedades
que satisface el estimador
−1
β̂ = X 0 X X 0y
dado que ahora se viola el supuesto de homoscedasticidad y no autocorrelación.
Se tiene que
−1 0
E β̂|X = β + X 0X X E (u|X)
= β
porque el supuesto 3.6.3 (E (u|X) = 0) sigue siendo válido. Así el estimador OLS aún es
insesgado.
La varianza condicionada del estimador OLS ahora va a ser diferente:
0
var β̂|X = E β̂ − β β̂ − β |X
0
0
−1 0 0
−1 0
= E XX Xu Xu XX |X
−1 0 0 −1
= E X 0X X uu X X 0 X |X
−1 0 −1
= X 0X X E uu0 |X X X 0 X

−1 0 −1
= σ2 X 0X X ΨX X 0 X
y esta expresión es por lo general diferente a σ 2 (X 0 X)−1 : sólo son iguales si Ψ = In , es

decir, en el caso de homoscedasticidad y no autocorrelación.
Así, la violación del supuesto 4.4.5 hace que el estimador por OLS siga siendo insesgado,
pero con una matriz de varianzas-covarianzas diferente. Note que esto pone en duda el
resultado de Gauss-Markov y el uso de las pruebas de inferencia estadística desarrolladas
anteriormente.
7.1.3. Estimador por mínimos cuadrados generalizado

Como la matriz P es semidenida positiva y simétrica, aplicando el teorema de des-
composición de Cholesky (o la diagonalización espectral), se tiene que existe una des-
composición
Ψ = LL0
y L es invertible.
Por la descomposición de Cholesky se tiene que
Ψ−1 = Q0 Q
donde Q = L−1 .
132
Considere las siguientes variables auxiliares:
y∗ = Qy
X ∗ = QX
u∗ = Qu
Vamos a mostrar que el modelo modicado
y ∗ = X ∗ β + u∗
satisface los Supuestos 4.4.1-4.4.5 (incluido el de homoscedasticidad y no autocorrelación,

que no satisface el modelo original).
Supuesto 1: Linealidad en los parámetros.

Por el Supuesto 4.4.1 que satisface el modelo original se tiene
y = Xβ + u
y al multiplicar por la matriz constante Q se tiene
Qy = QXβ + Qu
y ∗ = X ∗ β + u∗
así que el modelo modicado es lineal.
Supuesto 2: Muestreo aleatorio.

Por el Supuesto 4.4.2 que satisface el modelo original se dispone de una muestra
aleatoria
{xi1 , . . . , xik−1 , yi : i = 1, . . . , n}
proveniente de la población. Al multiplicar por la matriz constante Q entonces se
tiene
x∗i1 , . . . , x∗ik−1 , yi∗ : i = 1, . . . , n

y esta es una muestra aleatoria del modelo modicado dado que por el momento
suponemos que Q es una matriz conocida, y es constante.
Supuesto 3: Media condicional cero.

Se tiene que
E (u∗ |X ∗ ) = E (Qu|X ∗ )
= E (Qu|QX)
= E (Qu|X)
= QE (u|X)
= 0
porque Q es una matriz constante.
133
Supuesto 4: No multicolinealidad perfecta.

Se tiene que por una propiedad de álgebra lineal, si C es una matriz l × m de rango
m entonces
rank (CA) = rank (A)
En nuestro caso la matriz Q tiene rango completo n y
rank (QX) = rank (X)

= n
porque el modelo original cumple el Supuesto 4.4.4.
Supuesto 5: Homoscedasticidad
Se debe calcular la matriz de varianzas-covarianzas del término de perturbación del
modelo modicado:
0

E u∗ u∗ |X = E Quu0 Q0 |X

= QE uu0 |X Q0

= σ 2 QΨQ0
−1 0
= σ 2 Q Q0 Q Q
2 −1 0 −1 0

= σ QQ Q Q
= σ 2 In
donde se usó que Ψ−1 = Q0 Q y que por lo tanto Ψ = (Q0 Q)−1 .
Puede obtenerse el estimador OLS del modelo modicado:

0
−1 0
β̂ ∗ = X∗ X∗ X ∗ y∗
−1
= X 0 Q0 QX X 0 Q0 Qy
−1
= X 0 Ψ−1 X X 0 Ψ−1 y
Este es el estimador por mínimos cuadrados generalizados:

−1
β̂GLS = X 0 Ψ−1 X X 0 Ψ−1 y
Este modelo modicado satisface los Supuestos 4.4.1-4.4.5, y por lo tanto el estimador
por mínimos cuadrados ordinarios para el modelo modicado es insesgado y BLUE (ver
subsección 4.4.4):

E β̂ ∗ |X = β
0 −1
var β̂ ∗ |X = σ2 X ∗ X ∗ ≤ var β̂|X
134
Ahora debemos obtener la matriz de varianzas y covarianzas condicionales al valor de

la muestra X para el estimador OLS generalizado del modelo modicado (β̂ ) y para el
∗
estimador OLS estándar (β̂ ):
0 −1
var β̂ ∗ |X = σ2 X ∗ X ∗
−1
= σ 2 X 0 Q0 QX
−1
= σ 2 X 0 Ψ−1 X
−1 0 −1
var β̂|X = σ2 X 0X X ΨX X 0 X
Si P 6= In entonces nada asegura queestas

dos matrices
de varianzas y covarianzas
sean iguales. Es decir, en general, var β̂ ∗ 6= var β̂ . Entonces βˆ∗ es BLUE (por
Gauss-Markov) y β̂ no lo es.
Ejercicio: Una forma directa de ver que β̂ ya no es el mejor estimador lineal insesgado
es simplemente hacer
−1 0 −1 −1

var β̂|X − var β̂ ∗ |X = σ 2 X 0 X X ΨX X 0 X − σ 2 X 0 Ψ−1 X =D
y demostrar que D es una matriz semidenida positiva. −1 0 −1

Muestre que D = σ 2 AΨA0 siendo A = (X 0 X)−1 X 0 − X 0 Ψ−1 X XΨ .
Concluimos entonces que la violación del supuesto de homoscedasticidad y no autoco-

rrelación ocasiona que el estimador por mínimos cuadrados ordinarios estándar no sea el
mejor estimador lineal insesgado. Y por Gauss-Markov, el estimador por mínimos cua-
drados generalizados es el mejor estimador lineal insesgado del modelo y = Xβ + u
cuando E (uu0 |X) = σ 2 Ψ.
Ejercicio: Demuestre que

−1
β̂GLS = X 0 Ψ−1 X X 0 Ψ−1 y
se obtiene de minimizar la suma generalizada de residuales al cuadrado
S = (y − Xβ)0 Ψ−1 (y − Xβ)
Por esta razón se tiene que β̂GLS es el llamado estimador por mínimos cuadrados
generalizados.
135
Bibliografía
Cohen, Ruben D.: Why do Random Samples Represent Populations so Accurately?
Journal of Chemical Education , 1991, 68(11), pp. 902903.
Greene, William H.: Econometric Analysis. Prentice Hall, 6ª edición, 2007. ISBN
0135132452.
Gujarati, Damodar N.: Basic Econometrics. Mcgraw-Hill, 4ª edición, 2002.
Hogg, Robert V. y Craig, Allen T.: Introduction to Mathematical Statistics. Pren-

tice Hall, Upper Saddle River, New Jersey 07458, 5ª edición, 1995.
Judge, George G.; Hill, R. C.; Griffiths, W. E.; Lütkepohl, H. y Lee, T.:
Introduction to the Theory and Practice of Econometrics. John Wiley, New York,
1982. ISBN 0471624144.
Kennedy, Peter: A Guide to Econometrics. MIT Press, 5ª edición, 2005.
Wooldridge, Jeffrey M.: Introductory Econometrics: A Modern Approach. South

Western College Publishing, 2ª edición, 2002. ISBN 0324113641.
136

Notas Econometria

Cargado por

Copyright:

Formatos disponibles

Notas Econometria

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas Econometria

Cargado por

Copyright:

Formatos disponibles

Econometría Básica: Notas de clase

Juan David Prada Sarmiento

2. Conceptos estadísticos/matemáticos básicos 13

3. Regresión lineal simple 25

3.6.4. Sencillo experimento Montecarlo para mostrar el comportamiento

5. Inferencia en el análisis de regresión múltiple 88

5.6.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6. Modelo de regresión con variables dicótomas 122

7. Heteroscedasticidad y autocorrelación 130

1.1. Teoría económica y econometría

. . . econometrics may be dened as the quantitative analysis of actual

Así podemos pensar en la econometría como la aplicación de técnicas estadísticas para

una cantidad limitada de datos e información, y esta cantidad limitada ha originado el

Renar, modicar y tal vez refutar conclusiones obtenidas a partir de la teoría

Generar información cuantitativa (signos, magnitudes y conabilidad estadística)

Es importante entender que la econometría y la teoría económica deben ir de la mano.

Ejemplo Wooldridge: La oferta de horas de trabajo (Becker, ecuación de Mincer): sala-

Expresar postulados y conclusiones económicas con claridad y consistencia.

Facilitar la obtención de conclusiones que de otra forma sería difícil obtener.

Postular conclusiones y proposiciones de una forma contrastable empíricamente a

Ejemplo: Demanda Marshall obtenida de fundamentos microeconómicos sobre prefe-

Es decir, la teoría económica especica un conjunto de variables relevantes en la expli-

Formulación de la teoría o hipótesis.

Especicación matemática de la teoría.

Especicación del modelo estadístico-econométrico.

Obtención de los datos necesarios.

Estimación de los parámetros del modelo estadístico-econométrico.

Utilización del modelo para propósitos de política o control.

1.2. Naturaleza de los datos económicos

Cuando los modelos estadísticos son especicados adecuadamente, la teoría estadística

1.2.2. Estructura de los datos económicos

Denición de un método de muestreo para seleccionar elementos del marco mues-

Determinación del tamaño de la muestra.

Implementación del muestreo.

Estimación - inferencia a partir de la muestra obtenida.

Ejemplo: Conteo de clústers de partículas físicas (Ver Cohen (1991)).

Datos de corte transversal

Algunas unidades con ciertas características se niegan a reportar datos (por

La muestra se toma de unidades que son muy grandes respecto a la población

Datos de series de tiempo

Combinación de cortes transversales (pooled cross sections)

población subyacente. Por lo tanto, no tienen que coincidir el número de observaciones

1.2.3. Calidad y precisión de los datos

Errores observacionales, por acción y omisión.

Errores de medición, por redondeo y aproximaciones.

Sesgo de selección por construcción de los formularios o los procedimientos de re-

Métodos de muestreo muy diferentes hace imposible comparar datos obtenidos de

Los datos económicos usualmente están disponibles a niveles muy agregados y es

1.3. Noción de ceteris paribus

cambios en cantidades (competencia perfecta)?, ¾es posible que cambios en cantidades

2.1. Conceptos preliminares de probabilidad

2.1.1. Experimento, espacio muestral, eventos y variables aleatorias

el conjunto de los rangos de las cartas y

P = {espadas, corazones, diamantes, picas}

Visión clásica: La probabilidad de un evento aleatorio es la frecuencia relativa de

Visión bayesiana: La probabilidad es una forma de representar el grado de creencia

Finalmente denimos variable aleatoria. Intuitivamente, una variable aleatoria es

Para cualquier evento A ⊆ Ω, 0 ≤ P (A) ≤ 1

P (A1 ∪ A2 ∪ . . . ) = P (A1 ) + P (A2 ) + . . . para cualquier sucesión de eventos dis-

. . . econometrics may be dened as the quantitative analysis of actual

Renar, modicar y tal vez refutar conclusiones obtenidas a partir de la teoría

Generar información cuantitativa (signos, magnitudes y conabilidad estadística)

Es decir, la teoría económica especica un conjunto de variables relevantes en la expli-

Especicación matemática de la teoría.

Especicación del modelo estadístico-econométrico.

Cuando los modelos estadísticos son especicados adecuadamente, la teoría estadística

Denición de un método de muestreo para seleccionar elementos del marco mues-

Finalmente denimos variable aleatoria. Intuitivamente, una variable aleatoria es

La terminología momento se hereda de la física (el valor esperado es el centro de

La matriz de varianzas-covarianzas, usualmente notada como ΣX es semidenida posi-

2.2.2. Insesgamiento, precisión, eciencia

En ese caso denimos

Si ∀x ∈ Rn se tiene x0 Ax ≥ 0 entonces la matriz A es semidenida positiva.

Si ∀x ∈ Rn se tiene x0 Ax ≤ 0 entonces la matriz A es semidenida negativa.

Si ∀x ∈ Rn , x 6= 0 se tiene x0 Ax > 0 entonces la matriz A es denida positiva.

Si ∀x ∈ Rn , x 6= 0 se tiene x0 Ax < 0 entonces la matriz A es denida negativa.

La matriz A es indenida si no es ni semidenida positiva ni semidenida negativa.