Notas Econometria
Notas Econometria
Notas Econometria
4 de mayo de 2009
Índice general
1. Introducción 5
1.1. Teoría económica y econometría . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Naturaleza de los datos económicos . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1. Restricción a modelos no experimentales . . . . . . . . . . . . . . . 7
1.2.2. Estructura de los datos económicos . . . . . . . . . . . . . . . . . . 8
1.2.3. Calidad y precisión de los datos . . . . . . . . . . . . . . . . . . . . 10
1.3. Noción de ceteris paribus . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2
Índice general
4. Regresión múltiple 51
4.1. Modelo de regresión lineal múltiple (mrlm) . . . . . . . . . . . . . . . . . . 51
4.2. Estimación por Mínimos cuadrados ordinarios (OLS) . . . . . . . . . . . . 52
4.2.1. Estimación OLS con variables centradas . . . . . . . . . . . . . . . 53
4.2.2. Interpretación de los estimadores OLS . . . . . . . . . . . . . . . . 55
4.3. Computación de los estimadores OLS . . . . . . . . . . . . . . . . . . . . . 56
4.3.1. Regresión múltiple vs. Regresión simple: el efecto de una variable
adicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.2. Efectos del cambio de unidades en la estimación OLS . . . . . . . . 61
4.3.3. Regresión simple como caso particular de la regresión múltiple . . . 63
4.3.4. Regresión particionada . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4. Propiedades estadísticas de la estimación OLS . . . . . . . . . . . . . . . . 68
4.4.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2. Varianza de los estimadores OLS . . . . . . . . . . . . . . . . . . . 73
4.4.3. Estimación de la varianza del término de perturbación σ2 . . . . . 77
4.4.4. Eciencia: Teorema de Gauss-Markov (OLS es BLUE) . . . . . . . 78
4.5. Predicción y grado de explicación . . . . . . . . . . . . . . . . . . . . . . . 81
4.5.1. Coeciente de determinación . . . . . . . . . . . . . . . . . . . . . 81
4.5.2. Cambio en SSR cuando una variable es añadida a la regresión . . . 84
4.5.3. Coeciente de determinación ajustado . . . . . . . . . . . . . . . . 86
4.5.4. Error de predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3
Índice general
4
1 Introducción
Estas notas de clase son una introducción a la econometría básica. La exposición de
los temas sigue de cerca a Wooldridge (2002) y a Judge, Hill, Griths, Lütkepohl y
Lee (1982). Otros textos complementarios útiles para la econometría básica son Gujarati
(2002) y Kennedy (2005). Un texto de referencia importante y algo más formal es Greene
(2007).
La econometría es la aplicación de métodos estadísticos para cuanticar los problemas
económicos, estimar relaciones, proyectar variables, evaluar políticas y probar o validar
la teoría económica. Estas notas tienen como objetivo familiarizar al estudiante con las
técnicas básicas de econometría tanto a nivel teórico como práctico. Las notas se apoyan
en ejemplos prácticos diseñados en lenguajes de programación como MATLAB y en
ese sentido combinan una presentación teórica a nivel básico y el diseño de programas
econométricos sencillos.
El tema central de las notas será la implementación y el análisis del modelo de regresión
lineal clásico multivariado, sus supuestos, extensiones e identicación de los problemas
típicos que se presentan en el trabajo empírico. Con estas herramientas los estudiantes
serán capaces de entender el trabajo empírico básico en la literatura económica y de
aplicar las técnicas de econometría estándar en proyectos de investigación, lo cual resulta
muy útil para los estudios de clases electivas avanzadas y para realizar trabajos de tesis
respectivamente. Adicionalmente se brindarán las bases necesarias para tomar cursos de
econometría avanzada donde se estudian las series de tiempo y los datos panel.
1
P. A. Samuelson, T. C. Koopmans, and J. R. N. Stone, Report of the Evaluative Committee for
Econometrica, Econometrica, vol. 22, no. 2, April 1954, pp. 141146.
5
1 Introducción
Ejemplo: Curva de Phillips, Ley de Okun, PIB potencial. La teoría económica ha tratado
de fundamentar la existencia de estas relaciones, que están dentro del conjunto de
información de los individuos encargados de llevar a cabo la política monetaria.
Sin embargo, la ausencia de una vericación empírica, y el desconocimiento de las
magnitudes asociadas a estas relaciones, puede llevar a no tener en cuenta la teoría
económica, y en el peor de los casos, a tomar decisiones equivocadas basados en
creencias erróneas (cuanticaciones equivocadas, por ejemplo).
La teoría económica surge de un proceso de abstracción. Inicia con los fenómenos que el
cientíco busca entender, y se desarrolla un sistema matemático, una teoría que consiste
en un conjunto de armaciones a partir de las cuales ciertas consecuencias pueden deri-
varse utilizando las reglas de la lógica formal. El resultado es un modelo de la realidad
que intenta reconstruir, de manera simplicada, los mecanismos principales que parecen
explicar fundamentalmente el fenómeno estudiado. Así el modelo es el producto de un
proceso de abstracción en el cual explicaciones tentativas son formuladas. Estas expli-
caciones, formuladas como proposiciones, proveen hipótesis que pueden ser probadas o
refutadas empíricamente.
La teoría económica utiliza herramientas matemáticas con el n de
6
1 Introducción
Pronóstico y predicción.
7
1 Introducción
Población y muestra
Población: Conjunto de unidades sobre las cuales se postula un modelo estadístico.
Muestra: Subconjunto de la población a partir de la cual se busca inferir conclusiones
sobre la población.
Proceso de muestreo:
Denición de la población.
Especicación del marco muestral, conjunto de eventos que son susceptibles de ser
medidos (cuanticados).
8
1 Introducción
Computacionalmente, los datos de corte transversal pueden verse como matrices de di-
mensión N × k, N observaciones de k variables en un momento del tiempo. El ordena-
miento de las observaciones no es importante, dado que son independientes entre sí y
tomadas aleatoriamente de la población. Algunas de las k variables pueden ser tomadas
en diferentes períodos de tiempo (por ejemplo, para explicar el crecimiento actual de los
países y comprobar la hipótesis de convergencia condicionada de Solow, se incluye una
variable con el stock de capital en algún momento del pasado, digamos, 1960).
9
1 Introducción
Datos de panel
Los datos de panel (o datos longitudinales) consiste en una serie de tiempo para cada
miembro del corte transversal en el conjunto de datos. Es decir, se selecciona una muestra
aleatoria de la población subyacente y a cada miembro del corte transversal se le realiza
un seguimiento temporal, midiendo las variables de interés cada período a los mismos
miembros del corte.
Así siempre se siguen a las mismas unidades del corte transversal. Por lo tanto, a
cada miembro del panel corresponde un número que lo identica a lo largo del tiempo
(ya que al pasar el tiempo no cambian las unidades). La forma de numerar es irrelevante.
Computacionalmente, los datos de panel pueden verse como matrices de dimensión
NT × k y se ordenan respetando la dimensión cronológica y la unidad del corte (primero
van las T observaciones de la primera unidad, respetando el orden cronológico, luego las
T observaciones de la segunda unidad y así sucesivamente).
Dado que los datos de panel requieren de un seguimiento riguroso a las mismas unidades
a lo largo del tiempo, es más difícil obtener datos de este tipo, pero contienen más
información. En particular, se puede controlar por ciertas características no observables
de los individuos.
10
1 Introducción
Debe tenerse siempre en cuenta que los resultados de cualquier investigación empírica
son tan buenos (o malos) como la calidad de los datos de los que se dispone.
Qd = f P Q , P Z , Y, u
donde la demanda por el bien Q depende del precio P Q, del precio de otros bienes de la
Z
canasta de consumo de los agentes P , del ingreso de la economía Y y de otros factores
u.
El efecto parcial del precio PQ sobre Qd indica cuánto cambia la demanda por el
bien Q ante un cambio en el precio del bien, manteniendo todo lo demás constante. Sin
embargo no dice que el cambio en precios cause un cambio en cantidades. La función
f puede ser invertible (así sea localmente) y puede entonces obtenerse la usual función
inversa de demanda. Al haber sido estimada la demanda, la función inversa también
está estimada, y se obtienen efectos parciales en la otra dirección. Los efectos parciales
son capturados, como su nombre lo indica, por las derivadas parciales. Bien utilizadas
∂ ∂
las técnicas econométricas, podemos llegar a cuanticar
∂P Q
f = ∂P Q
Qd por ejemplo.
Sin embargo el teorema de la función inversa asegura que bajo condiciones usuales de
regularidad podemos obtener una función inversa (al menos localmente) y que
∂
∂Qd
f −1 =
∂
∂Qd
PQ = 1/ ∂
∂P Q
Qd . En ese caso, ¾cuál sería la causalidad?, ¾cambios en precios causan
11
1 Introducción
Ninguna de esas preguntas sobre causalidad puede ser respondida con análisis de efectos
parciales, aunque es muy valioso y útil contar con la cuanticación de los efectos parciales
de cambios en una variable sobre otra.
En la sección 3.2 se discute más profundamente la relación entre causalidad, correlación
y regresión lineal.
12
2 Conceptos estadísticos/matemáticos
básicos
En este capítulo suponemos que el estudiante está familiarizado con la teoría básica
de la probabilidad y la estadística. Se trata únicamente de un repaso.
Ejemplo 2: Si se dispone de una baraja de 52 cartas estándar, tomar una carta al azar es
un experimento aleatorio. Las cartas están caracterizadas totalmente por su rango
(as, dos, tres...) y por su palo (espadas, corazones...). Si denimos
R = {1, 2, . . . , 10, J, Q, K}
entonces el espacio muestral, que es el conjunto de las posibles 52 cartas, está dado
por Ω = R × P.
Cualquier subconjunto del espacio muestral al cual una probabilidad pueda ser asignada
se llama un evento.
13
2 Conceptos estadísticos/matemáticos básicos
Ejemplo: En el experimento de tomar una carta al azar, puede ser de interés pregun-
tarnos por la probabilidad de obtener un rey. El evento obtener un rey es un
subconjunto de Ω.
No existe una denición directa de probabilidad. Sin embargo, existen al menos dos
formas diferentes de interpretarla:
X:Ω→R
tal que a cada posible resultado del experimento se le asigna un valor real. La variable
aleatoria es discreta (numerable) si Ω es discreto, y continua si Ω es continuo.
Axiomas de probabilidad
La medida de probabilidad debe satisfacer los siguientes axiomas (realmente son la
denición de una medida positiva nita):
P (Ω) = 1
P (∅) = 0
Si A ⊆ B , P (A) ≤ P (B)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
14
2 Conceptos estadísticos/matemáticos básicos
X
E (X) = xf (x)
x
Momentos
Son de especial importancia algunos momentos. El r-ésimo momento no centrado es
µ∗r = E (X r )
µr = E ((X − µ)r )
15
2 Conceptos estadísticos/matemáticos básicos
donde µ = E (X).
es llamado varianza de X y se nota var (X)
2
Si r = 2 el momento µ2 = E (X − µ)
µ∗rs = E (X r Y s )
µrs = E ((X − E (X))r (Y − E (Y ))s )
cov (X, Y )
ρxy = p p
var (X) var (Y )
n
X XX
var (a0 + a1 X1 + · · · + an Xn ) = a2i var (Xi ) + 2 ai aj cov (Xi , Xj )
i=1 i<j
16
2 Conceptos estadísticos/matemáticos básicos
(X1 − µ1 )2
(X1 − µ1 ) (X2 − µ2 ) . . . (X1 − µ1 ) (Xn − µn )
(X2 − µ2 ) (X1 − µ1 ) (X2 − µ2 )2 ... (X2 − µ2 ) (Xn − µn )
= E
. . .. .
. . .
. . . .
(Xn − µn ) (X1 − µ1 ) (Xn − µn ) (X2 − µ2 ) . . . (Xn − µn )2
var (X1 ) cov (X1 , X2 ) . . . cov (X1 , Xn )
cov (X2 , X1 ) var (X2 ) . . . cov (X2 , Xn )
=
. . .. .
. . .
. . . .
cov (Xn , X1 ) cov (Xn , X2 ) var (Xn )
σ12 σ12 . . . σ1n
σ21 σ22 . . . σ2n
=
. . .. .
. . .
. . . .
σn1 σn2 σn2
E a0 X = a0 µ
var a0 X = a0 ΣX a
E (Z) = Pµ
cov (Z) = PΣX P0
17
2 Conceptos estadísticos/matemáticos básicos
2.2.1. Estimador
Estimación por método de momentos
Ejemplo 1: Variables uniformes: Suponga que se tiene una sucesión de n variables alea-
torias uniformes continuas Xi ∼ U (a, b) donde a, b ∈ R son tales quea < b. Cada
variable aleatoria tiene función de densidad de probabilidad
(
1
b−a si a ≤ xi ≤ b
f (xi |a, b) =
0 en otro caso
Suponga que estas variables son independientes entre sí y que se tiene una muestra
aleatoria de tamaño n.
Se sabe que
a+b (b − a)2
E (Xi ) = var (Xi ) =
2 12
y podemos hallar los estimadores por momentos para los parámetros desconocidos
a y b. Obtenemos los correspondientes momentos muestrales
n n
1X 2 1X 2
X= (xi ) S = xi − X
n n
i=1 i=1
√
2X = â + b̂ 2 3S = b̂ − â
√
â = X − 3S
√
b̂ = X + 3S
y estos son los estimadores por momentos para la distribución uniforme continua.
18
2 Conceptos estadísticos/matemáticos básicos
Suponga que estas variables son independientes entre sí y que se tiene una muestra
aleatoria de tamaño n.
Al tener n variables aleatorias independientes idénticamente distribuidas se tiene
que la verosimilitud es
n
Y
L (a, b|x1 , . . . , xn ) = f (xi |a, b)
i=1
( n
1
b−a si a ≤ x1 , . . . , x n ≤ b
=
0 en otro caso
Esto es equivalente a
ã = mı́n {x1 , . . . , xn }
b̃ = máx {x1 , . . . , xn }
y estos son los estimadores por máxima verosimilitud de una variable aleatoria
distribuida uniforme.
19
2 Conceptos estadísticos/matemáticos básicos
2
M SE = E θ̂ − θ
= E θ̂2 − 2E θ̂ θ + θ2
2 2
= E θ̂2 − E θ̂ + E θ̂ − 2E θ̂ θ + θ2
= var θ̂ + bias θ̂
20
2 Conceptos estadísticos/matemáticos básicos
Si 0 < F (x) < 1 entonces F (x) es creciente y X≤x es equivalente a F (X) ≤ F (x).
Entonces
P (X ≤ x) = P (F (X) ≤ F (x))
= P (Y ≤ F (x))
= G (F (x))
= F (x)
P (Y ≤ y) = P (F (X) ≤ y)
= P X ≤ F −1 (y)
= F F −1 (y)
= y
Y ∼ U (0, 1)
(porque se puede formar el conjunto x (y) = {xi : F (xi ) ≥ y} y tomar xi = mı́n {A}).
21
2 Conceptos estadísticos/matemáticos básicos
Ejemplo Bernoulli: Suponga que se quiere obtener una muestra aleatoria de una variable
aleatoria que sigue una distribución Bernoulli. Se tiene que
(
1−θ si x=0
F (x) = P (X ≤ x) =
1 si x=1
(
1 si y >1−θ
x=
0 si y ≤1−θ
22
2 Conceptos estadísticos/matemáticos básicos
Se tiene una relación de orden entre matrices: se puede armar M≤N si y sólo si
M − N es semidenida negativa. Eso es equivalente a armar que las formas cuadráticas
n
asociadas satisfacen, para cualquier vector x ∈ R que M (x) − N (x) ≤ 0.
y = f (x1 , . . . , xn ) = f (x)
∂y/∂x1
.
∂y/∂x = . = ∇f
.
∂y/∂xn
donde X = x1 . . . xn .
Sea y un vector columna de dimensión (m × 1) y x un vector columna de dimensión
(n × 1). Denimos
∂y/∂x0 = [∂yi/∂xj ]
∂y1/∂x1 . . . ∂y1/∂xn
. .. .
= . .
. . .
∂ym/∂x1 . . . ∂ym/∂xn
23
2 Conceptos estadísticos/matemáticos básicos
La segunda derivada de y con respecto al vector columna x está denida por la siguiente
matriz
∂y/∂x∂x0 = ∂(∂y/∂x)/∂x0
= [∂ 2 y/∂xi ∂xj ]
= ∂x0 Ax/∂x = A0 x + Ax = A0 + A x
∂z/∂x
Pn Pn
porque z= j=1 i=1 aij xi xj y la diferenciación respecto al k -ésimo elemento de
x es
n
X n
X
∂z/∂xk = akj xj + aik xi
j=1 i=1
∂(x0 Ax)/∂x∂x0 = A + A0
24
3 Regresión lineal simple
Con la regresión lineal simple se busca estudiar la relación existente entre dos variables.
Es un primer paso para comprender la mecánica y la intuición del método de regresión,
y es útil como paso preliminar al estudio de la regresión múltiple.
Sean y y x dos variables que representan características de alguna población. Se quiere
estudiar la relación entre y y x. Para ello es necesario considerar los siguientes hechos:
Nunca existe una relación exacta entre dos variables. ¾Cómo incluir otros factores,
diferentes a x, que también explican a y?
y = β0 + β1 x + u (3.1)
25
3 Regresión lineal simple
La teoría es vaga: no es posible conocer con exactitud todas las variables que
afectan a y. Así u es un sustituto para todas las variables excluídas y/u omitidas
del análisis.
Variables periféricas: si bien algunas variables pueden ser relevantes, su efecto com-
binado sobre y puede ser pequeño. Se debe hacer un análisis entonces entre el costo
de obtener la información cuantitativa sobre estas variables periféricas y el benecio
de introducirlas en el modelo. A veces el término de perturbación puede cumplir
el papel de estas variables periféricas sin tener que pagar el costo por obtener los
datos.
1
"Pluralitas non est ponenda sine necessitate", William of Ockham : La cuchilla de
Ockham (a veces escrito como Occam) está en relación con que la explicación más
sencilla usualmente es la más correcta. Así los modelos (estadísticos y económicos)
deberían ser lo más simples posible, y es lo que se llamaprincipio de parsimo-
nia. ¾Por qué introducir más variables si con pocas se ha explicado lo que quería
explicarse?
26
3 Regresión lineal simple
Causalidad
Claramente el modelo de regresión relaciona una variable con otra. Sin embargo no
necesariamente implica causalidad.
En las palabras de Kendall y Stuart
27
3 Regresión lineal simple
Correlación
Un análisis estadístico relacionado, pero bastante diferente al de regresión lineal, es el
análisis de correlación, en el que el principal objetivo es medir el grado de asociación
lineal entre variables. En el análisis de regresión no interesa esa medida en particular.
Realmente interesa estudiar el valor promedio de una variable dados los valores de otras
variables. Se pretende con la regresión evaluar si el conocimiento de una variable aporta
información sobre el valor promedio de otra variable. En el análisis de correlación no hay
distinción entre variable dependiente e independiente o efectos ceteris paribus.
yi = β0 + β1 xi + ui
Primero vamos a estimar utilizando el método de momentos. Primero calculamos la
covarianza entre u y x:
cov (x, u) = E ((x − E (x)) (u − E (u)))
= E ((x − E (x)) (u))
= E (xu − E (x) u)
= E (xu) − E (x) E (u)
= E (xu)
Note que por el supuesto 3.1.1 se satisfacen los siguientes momentos poblacionales:
E (u) = 0
cov (x, u) = E (xu) = 0
que pueden ser escritos como
E (y − β0 − β1 x) = 0
E [x (y − β0 − β1 x)] = 0
2
M. G. Kendall and A. Stuart, The Advanced Theory of Statistics, Charles Grin Publishers, New
York, 1961, vol. 2, chap. 26, p. 279.
28
3 Regresión lineal simple
n
1 X
yi − β̂0 − β̂1 xi = 0 (3.2)
n
i=1
n
1X
xi yi − β̂0 − β̂1 xi = 0 (3.3)
n
i=1
De (3.2) se tiene que los parámetros estimados por el método de momentos satisfacen
y = β̂0 + β̂1 x
1 Pn 1 Pn
donde y= n i=1 yi y x= n i=1 xi . Así
β̂0 = y − β̂1 x
y sustituyendo en (3.3)
n
1X
xi yi − y + β̂1 x − β̂1 xi = 0
n
i=1
n
X n
X
xi (yi − y) = β̂1 xi (xi − x)
i=1 i=1
Ahora:
n
X n
X n
X
(xi − x) (yi − y) = xi (yi − y) − x (yi − y)
i=1 i=1 i=1
Xn Xn
= xi (yi − y) − x (yi − y)
i=1 i=1
Xn Xn n
X
= xi (yi − y) − x yi + x y
i=1 i=1 i=1
Xn
= xi (yi − y) − xny + xny
i=1
Xn
= xi (yi − y)
i=1
Pn
− x)2 =
Pn
y análogamente i=1 (xi i=1 xi (xi − x).
Así, bajo el supuesto que
n
X
(xi − x)2 > 0 (3.4)
i=1
29
3 Regresión lineal simple
se tiene
Pn
i=1 (xi − x) (yi − y) cov (x, y)
β̂1 = Pn 2 =
i=1 (xi − x)
var (x)
El supuesto expresado en (3.4) se cumple para todos los casos de utilidad práctica.
La única forma en que la varianza muestral es cero es cuando la muestra aleatoria xi
es tal que todos los elementos son iguales entre sí (x es constante en la muestra) y la
probabilidad de ocurrencia de dicho evento, siendo x una variable aleatoria es en todo
caso práctico cercano a cero.
Los estimadores hallados son llamados estimadores de mínimos cuadrados ordi-
narios (OLS por su sigla en inglés). Sea
ŷi = β̂0 + β̂1 xi
el valor ajustado por la regresión cuando x = xi . Así ŷi es el valor que pronosticamos
cuando x = xi . Como en la muestra se tiene que ese valor realmente fue yi , podemos
denir el residual para la observación i como
ûi = yi − ŷi = yi − β̂0 − β̂1 xi
n
X n
X 2
mı́n û2i = yi − β̂0 − β̂1 xi
β̂0 , β̂1 i=1 i=1
n
X
−2 yi − β̂0 − β̂1 xi = 0
i=1
n
X
2 xi yi − β̂0 − β̂1 xi = 0
i=1
Ejemplo:
Suponga que en la economía del país cticio Patacolandia el consumo se relaciona
con el ingreso disponible de la siguiente forma
C = 20 + 0,8Y + u
30
3 Regresión lineal simple
C = β0 + β1 Y + u
y se cuenta con la siguiente información:
Observación C Y u
1 105 100 5
2 95 100 -5
3 190 200 10
4 170 200 -10
5 275 300 15
6 245 300 -15
31
3 Regresión lineal simple
300
f(x) = 0.8x + 20
R² = 0.97
250
200
Consumption
150
100
50
0
50 100 150 200 250 300 350
Income after tax
Consumption
Linear regression for
Consumption
32
3 Regresión lineal simple
ln y = β0 + β1 x + u
En este caso se trata de un modelo lineal al cual pueden aplicarse las técnicas de
regresión econométrica. Incorpora una no linealidad en la variable dependiente.
La interpretación de los coecientes, claro está, es diferente.
En este caso β0 representa el nivel de ln y cuando x = 0 y en asuencia de perturba-
ciones exógenas. Ahora β1 = ∂
∂x ln y representa una semi-elasticidad ceteris paribus.
Es aproximadamente igual (ante cambios marginales) a la variación porcentual en
y ante cambios de una unidad en x.
y = β0 + β1 ln x + u
ln y = β0 + β1 ln x + u
w = β0 + β1 exp + β2 exp2
33
3 Regresión lineal simple
3.5
15
3
2.5
y
y
2
10
1.5
0.5
5
0 1 2 3 4 5 0 1 2 3 4 5
x x
16000
8
14000
6 12000
10000
y
y
4
8000
2 6000
4000
0
2000
−2 0
0 1 2 3 4 5 0 1 2 3 4 5
x x
1 Pn
La media muestral de los residuales OLS es cero:
n i=1 ûi = 0. Eso porque
n
X n
X
ûi = yi − β̂0 − β̂1 xi
i=1 i=1
n
X n
X n
X
= yi − β̂0 − β̂1 xi
i=1 i=1 i=1
= n y − β̂0 − β̂1 x
= 0
34
3 Regresión lineal simple
n
X n
X
ûi (xi − x) = yi − β̂0 − β̂1 xi (xi − x)
i=1 i=1
n
X n
X
= xi yi − β̂0 − β̂1 xi − x yi − β̂0 − β̂1 xi
i=1 i=1
n
X
= xi yi − β̂0 − β̂1 xi
i=1
= 0
El par ordenado (x, y) siempre está sobre la línea de regresión muestral. Trivial-
mente se cumple porque y = β̂0 + β̂1 x.
yi = ŷi + ûi
n
X
SST = (yi − y)2
i=1
n
X 2
SSE = ŷi − ŷ
i=1
Xn
SSR = (ûi )2
i=1
35
3 Regresión lineal simple
n
X n
X
(yi − y)2 = (yi − ŷi + ŷi − y)2
i=1 i=1
n
X
= (ûi + ŷi − y)2
i=1
n
X
2
= û2i + 2ûi (ŷi − y) + (ŷi − y)
i=1
Xn n
X n
X
2
û2i
= + (ŷi − y) + 2 ûi (ŷi − y)
i=1 i=1 i=1
Xn Xn
û2i + (ŷi − y)2
=
i=1 i=1
Pn
ya que i=1 ûi (ŷi − y) = 0. Esto porque
n
X n
X n
X
ûi ŷi − y ûi = ûi ŷi
i=1 i=1 i=1
n
X
= ûi β̂0 + β̂1 xi
i=1
n
X n
X
= β̂0 ûi + β̂1 xi ûi
i=1 i=1
= 0
36
3 Regresión lineal simple
3.6.1. Insesgamiento
El estimador de pendiente de mínimos cuadrados ordinarios puede escribirse como
Pn Pn
i=1 (xi − x) (yi − y) (xi − x) yi
β̂1 = Pn 2 = Pi=1
n
i=1 (xi − x) i=1 (xi − x)2
Ejercicio:
Pn Pn
Demuestre que i=1 (xi − x) (yi − y) = i=1 (xi − x) yi .
Por lo tanto, como poblacionalmente se tiene que yi = β0 + β1 xi + ui entonces
Pn
(xi − x) yi
β̂1 = Pi=1
n
(xi − x)2
Pni=1
i=1 (xi − x) (β0 + β1 xi + ui )
= Pn 2
i=1 (xi − x)
β0 i=1 (xi − x) + β1 ni=1 (xi − x) xi + ni=1 (xi − x) ui
Pn P P
= Pn 2
i=1 (xi − x)
37
3 Regresión lineal simple
Pn Pn
Claramente i=1 (xi − x) = 0 y anteriormente mostramos que i=1 (xi − x) xi =
Pn 2
i=1 (xi − x) . Entonces se puede expresar a β̂1 como el parámetro de pendiente po-
blacional β1 más un término adicional que es combinación lineal de las perturbaciones
{u1 , . . . , un }: Pn
(xi − x) ui
β̂1 = β1 + Pi=1
n 2
i=1 (xi − x)
Pn !
(x i − x) u i
E β̂1 |x = E β1 + Pi=1
n 2 |x
i=1 (xi − x)
Pn !
(xi − x) u i
= β1 + E Pi=1
n 2 |x
i=1 (x i − x)
Pn
(x i − x) E (ui |x)
= β1 + i=1Pn 2
i=1 (xi − x)
= β1
dado que E (ui ) = E (ui |xi ) = 0 y al tomar valor esperado se puede tratar a las funciones
de xi como constantes.
Ahora como yi = β0 + β1 xi + ui , obteniendo el promedio en la muestra se tiene
y = β0 + β1 x + u
y como
β̂0 = y − β̂1 x
= β0 + β1 − β̂1 x + u
38
3 Regresión lineal simple
E β̂0 |x = β0
El insesgamiento es una propiedad muestral que nada dice sobre cada muestra en
particular. Si se pudiese obtener muchas muestras aleatorias de la población, en promedio
el valor de los estimadores se aproximaría al valor poblacional. La simulación del modelo
lineal permite ver este hecho.
Todos los supuestos 3.6.1-3.6.3 son necesarios para obtener el insesgamiento. En par-
ticular, la posibilidad que la variable independiente x esté correlacionada con el término
de perturbación u es una gran preocupación en el análisis de regresión simple. Utilizar
la regresión lineal cuando u incluye factores que afectan a y y que están correlacionados
con x puede resultar en una correlación espuria, encontrar una relación entre y y x
que realmente se debe a otros factores que afectan tanto a y como a x. En ese caso
no es posible realizar análisis ceteris paribus sobre las variables, porque la estimación
por mínimos cuadrados sobre o subestima el efecto que tienen cambios en x con y (los
estimadores son sesgados).
Este tema se tratará a fondo en la regresión múltiple.
E (y|x) = β0 + β1 x
var (y|x) = σ 2
39
3 Regresión lineal simple
Teorema 3.6.6. La varianza condicional muestral de los estimadores por mínimos cua-
drados ordinarios, bajo los supuestos 3.6.1-3.6.5 es
σ2
var β̂1 |x = Pn 2
i=1 (xi − x)
σ 2 n−1 ni=1 x2i
P
var β̂0 |x = Pn 2
i=1 (xi − x)
donde las funciones de xi se tratan como constantes (al estar condicionado el valor espe-
rado).
Ahora por el supuesto de muestreo aleatorio, todos los ui son independientes entre sí.
En ese caso, las covarianzas entre ui y uj son cero y la varianza de las sumas es la suma
de las varianzas, de forma tal que
!2 n
1 X
var β̂1 |x = Pn 2 var ((xi − x) ui |x)
i=1 (xi − x) i=1
!2 n
1 X
= Pn 2 (xi − x)2 var (ui |x)
i=1 (xi − x) i=1
40
3 Regresión lineal simple
!2 n
1 X
var β̂1 |x = Pn 2 (xi − x)2 σ 2
i=1 (xi − x) i=1
σ2
= Pn
i=1 (xi − x)2
Como
β̂0 = y − β̂1 x
= β0 + β1 − β̂1 x + u
(al tomar promedio sobre el valor poblacional) entonces al aplicar varianza condicionada
var β̂0 |x = var β0 + β1 − β̂1 x + u|x
= var u − β̂1 x|x
= var (u|x) + x2 var β̂1 |x
n
!
X
−1
= var n ui |x + x2 var β̂1 |x
i=1
n
X σ 2 x2
= n−2 var (ui |x) + Pn 2
i=1 i=1 (xi − x)
P
n 2
n−1 σ 2 i=1 (xi − x) + nx
2
= Pn 2
i=1 (xi − x)
n−1 σ 2 ni=1 x2i
P
= Pn 2
i=1 (xi − x)
donde se hace uso del hecho que cov u, β̂1 x|x = 0, y de la independencia de las obser-
vaciones de ui .
−xσ 2
cov β̂0 , β̂1 |x = Pn 2
i=1 (xi − x)
41
3 Regresión lineal simple
Estas fórmulas son válidas únicamente en el caso que hay homoscedasticidad. Obtene-
mos ciertos resultados intuitivos a partir de estas varianzas:
varianza del estimador β̂1 . Esto porque en ese caso una mayor parte de la variabi-
lidad de y x, lo que hace más fácil detectar la
está explicada por la variabilidad de
verdadera relación entre E (y|x) y x. En particular incrementar el tamaño muestral
incrementa la variabilidad total de x. Así a mayor tamaño de muestra menor es la
varianza del estimador β̂1 .
Estas fórmulas son útiles cuando se conoce el valor de σ2, lo cual no es común en la
práctica.
ûi = yi − yˆi
= β0 + β1 xi + ui − β̂0 − β̂1 xi
ûi = ui − β̂0 − β0 − β̂1 − β1 xi (3.5)
de forma tal que los residuales son el término de perturbación y un término adicional de
valor esperado cero.
Pn
σ 2 = E u2 n−1 2
Como , un estimador insesgado natural sería i=1 ui . Como ui no
es observado, podría utilizarse ûi en lugar de ui , ya que están linealmente relacionados.
En ese caso se consideraría un estimador de la forma
n
−1
X SSR
n û2i =
n
i=1
SSR
Como es una función de la muestra aleatoria, este sí es un estimador. Sin embargo
n
no es insesgado porque no tiene en cuenta las dos restricciones utilizadas en la estimación
42
3 Regresión lineal simple
que reducen los grados de libertad (la información linealmente independiente disponible
en la muestra) en dos unidades.
Una forma de verlo es la siguiente: si conocemos n−2 residuales, entonces por las
dos restricciones de la estimación por mínimos cuadrados inmediatamente se conocen
todos los residuales. Por consiguiente hay únicamente n−2 residuales independientes, y
sólamente n − 2 grados de libertad (contrario a los n grados de libertad que habría de
conocerse los n términos de perturbación no observables).
Para obtener un estimador insesgado debe realizarse un ajuste por los grados de liber-
tad que realmente estamos utilizando. Así
n
1 X 2 SSR
σ̂ 2 = ûi =
n−2 n−2
i=1
Demostración. Promediando (3.5) sobre todos los i, entonces 0 = û = u − β̂0 − β0 −
β̂1 − β1 x. Restando de (3.5)
ûi = ui − u − β̂1 − β1 (xi − x)
y por lo tanto
2
û2i = (ui − u)2 + β̂1 − β1 (xi − x)2 − 2 (ui − u) β̂1 − β1 (xi − x)
Sumando sobre i
n
X n
X n
2 X n
X
û2i = (ui − u)2 + β̂1 − β1 (xi − x)2 − 2 β̂1 − β1 (ui − u) (xi − x)
i=1 i=1 i=1 i=1
Debe analizarse cada término: como {u1 , . . . , un } es una muestra aleatoria (variables
aleatorias independientes e idénticamente distribuidas) satisfacen que cov (ui , uj ) = 0
σ 2 = E u2i |x − E (ui |x)2 .
para i 6= j y
Para el primer término
43
3 Regresión lineal simple
n n
! !
X 2
X
u2i 2
E (ui − u) |x = E − 2ui u + u |x
i=1 i=1
n
!
X
= E u2i − nu2 |x
i=1
!2
n
X n
X
= E u2i − n n−1 ui |x
i=1 i=1
!2
Xn n
X
= E u2i − n−1 ui |x
i=1 i=1
n
X n
X
−1
u2i |x E u2i |x
= E −n
i=1 i=1
porque E (ui uj ) = 0 para i 6= j . Entonces
n
!
X
E (ui − u)2 |x = σ 2 (n − 1)
i=1
Pn
Note que este resultado es estándar en la teoría estadística: la función
1
n−1 i=1 (ui − u)2
genera un estimador insesgado para σ2 y se pierde un grado de libertad por tener que
utilizar u como estimador de la media muestral que es desconocida.
Para el segundo término
n n
! X
2 X 2
2
E β̂1 − β1 (xi − x) |x = E β̂1 − β1 |x (xi − x)2
i=1 i=1
n
X
= var β̂1 |x (xi − x)2
i=1
2
= σ
2
porque var β̂1 |x = Pn σ 2.
i −x)
i=1 (x
Pn P
n
Para el tercer término β̂1 − β1 − u) (xi − x) = β̂1 − β1
i=1 (ui ui (xi − x).
Pn i=1
(xi −x)ui Pn Pn 2
Además como β̂1 −β1 = Pi=1
n 2 entonces i=1 ui (xi − x) = β̂1 − β1 i=1 (xi − x)
i=1 (xi −x)
y
n n
! !
X 2 X
E β̂1 − β1 ui (xi − x) |x = E β̂1 − β1 (xi − x)2 |x
i=1 i=1
n
X
= var β̂1 |x (xi − x)2
i=1
2
= σ
44
3 Regresión lineal simple
donde ypop , xpop y upop son variables aleatorias, cuya realización se conoce para toda la
población.
Ahora procedemos a simular la metodología econométrica. El investigador usualmente
no tiene acceso a los datos poblacionales, sino que es capaz de recolectar datos sobre
muestras aleatorias tomadas de la población.
Supongamos que Nsample es el número de observaciones que pueden tomarse de la
población en cada muestra j, y que el muestreo puede hacerse un número J de veces
sobre la misma población en el mismo momento de tiempo. Es decir, vamos a suponer
que de la población total pueden obtenerse J muestras aleatorias, cada una de ellas con
Nsample observaciones.
n o
Así cada muestra j consiste en yij , xji : i = 1, . . . , Nsample y para cada muestra pue-
j
den hallarse los estimadores por mínimos cuadrados β̂0 y β̂1j .
Por lo tanto, vamos a tener una muestra de estimadores: J estimadores para el pará-
metro intercepto β0 y J estimadores para el parámetro de pendiente β1 . Los estimadores,
al ser funciones de variables aleatorias, son ellos mismos variables aleatorias.
El insesgamiento nos dice que bajo los supuestos 3.6.1-3.6.3, en promedio, los estima-
dores β̂0j y β̂1j van a estar cerca de los verdaderos valores poblacionales β0 y β1 . Como
tenemos una muestra de estimadores por mínimos cuadrados ordinarios, podemos esti-
mar su valor esperado utilizando la media aritmética. Por insesgamiento, esperaríamos
que β̂ 0 ≈ β0 y que β̂ 1 ≈ β1 .
En este ejemplo, suponemos que xpop es una variable aleatoria que sigue el siguiente
proceso
e 1
xpop = x + zx
2
donde zx ∼ U (0, 1), upop sigue el siguiente proceso
√
1
upop = σ 12 zu −
2
donde zu ∼ U (0, 1),
ypop = β0 + β1 xpop + upop
45
3 Regresión lineal simple
xe 3xe
xe
xpop ∼ U 2 , 2 es una variable aleatoria uniforme con valor esperado (y xpop
no es constante)
Las variables tienen una relación lineal ypop = β0 + β1 xpop + upop por construcción
√ √
upop ∼ U − σ 12 σ 12
2 , 2 es una variable aleatoria uniforme con valor esperado 0 y
varianza σ
2
Por lo tanto en este ejemplo se cumplen los supuestos de la estimación por mínimos
cuadrados. Utilizamos los valores
β0 = 2 β1 = 3
e
x = 50 σ = 0,05
Npop = 100000 Nsample = 40
46
3 Regresión lineal simple
Beta0: Population value = 2; Sampling Mean = 1.9999212 Beta1: Population value = 3; Sampling Mean = 3.0000018
400 350
350
300
300
250
250
200
200
150
150
100
100
50
50
0 0
1.96 1.97 1.98 1.99 2 2.01 2.02 2.03 2.04 2.05 2.9998 2.9998 2.9999 2.9999 3 3 3.0001 3.0001 3.0002
300
250
200
150
100
50
0
1 1.5 2 2.5 3 3.5 4 4.5 5
−3
x 10
47
3 Regresión lineal simple
y1 = β0 + β1 x1 + u1
. .
. .
. .
yn = β0 + β1 xn + un
y1 u1
. .
y= . u= .
. .
yn un
x1
.
x= .
.
xn
y1 1 x1 u1
. . . .
. = . β0 + . β1 + .
. . . .
yn 1 xn un
o de forma compacta
y = 1β0 + xβ1 + u
β0
y = 1 x +u
β1
y = Xβ + u
donde 1 es un vector de n unos y X = 1 x . Bajo esta representación compacta del
0
modelo de regresión múltiple β =
β 0 β1 es el vector de parámetros poblacionales
a ser estimado y X = 1 x es una matriz que reúne a las variables independientes
(incluida la constante). A X la llamamos matriz de diseño. Suponemos que X tiene
columnas linealmente independientes: la variable x no es constante en la muestra, por lo
Pn 2
que se tiene i=1 (xi − x) 6= 0.
Recordamos ahora las ecuaciones (3.2) y (3.3) que describen a los estimadores por
mínimos cuadrados ordinarios:
n
X
yi − β̂0 − β̂1 xi = 0
i=1
n
X
xi yi − β̂0 − β̂1 xi = 0
i=1
48
3 Regresión lineal simple
10 y − X β̂ = 0
x0 y − X β̂ = 0
0
donde β̂ = β̂0 β̂1 es el vector de parámetros estimados por OLS. En una notación
más compacta
10
y − X β̂ = 0
x0
0
1 x y − X β̂ = 0
Ahora
0 = X 0 y − X β̂
= X 0 y − X 0 X β̂
X 0 X β̂ = X 0 y
Pn
Bajo el supuesto que i=1 (xi− x)2 6= 0 la matriz X tiene columnas linealmente
independientes, y su rango es rank (X) = 2. En ese caso X 0 X es una matriz de tamaño
2×2 de rango 2 y es invertible. Así
−1
β̂ = X 0 X X 0y
Con esta sencilla representación del estimador del modelo lineal simple podemos en-
contrar una expresión matricial para la matriz de varianzas y covarianzas condicionadas
del estimador por mínimos cuadrados ordinarios. Recuerde que
0
var β̂|X = E β̂ − β β̂ − β |X
porque E β̂|X = β bajo los supuestos 3.6.1-3.6.3. Además se tiene
−1
β̂ = X 0X X 0y
−1
= X 0X X 0 (Xβ + u)
−1 −1
= X 0X
X 0 Xβ + X 0 X X 0u
−1 0
= β + X 0X Xu
49
3 Regresión lineal simple
y se concluye que
−1 0 −1
var β̂|X = X 0 X X E uu0 |X X X 0 X
Note que E (uu0 |X) es la matriz de varianzas y covarianzas condicionadas del tér-
mino de perturbación. En el caso que se cumple el supuesto de homoscedasticidad y no
autocorrelación (supuesto 3.6.5) se tiene
u21
u1 u2 ... u1 un
u2 u1
u22 ... u2 un
E uu0 |X = E .
|X
. .. .
.. . .
. . .
un u1 un u2 ... un2
2
σ 0 ... 0
0 σ2 . . . 0
= .
. .. .
.. . .
. . .
0 0 . . . σ2
= σ 2 In
En ese caso se tiene que la matriz de varianzas-covarianzas del estimador OLS, bajo el
supuesto de homoscedasticidad, es
−1
var β̂|X = σ 2 X 0 X
50
4 Regresión múltiple
El modelo de regresión lineal simple busca explicar y como función de una única
variable independiente x. Sin embargo, en la práctica es imposible obtener conclusiones
ceteris paribus sobre cómo x afecta a y. El supuesto 3.6.3 según el cual los otros factores
afectando a y no están correlacionados con x es irreal.
El análisis de regresión múltiple permite explícitamente controlar por muchos
factores que afectan simultáneamente a la variable dependiente, acercando la posibilidad
de obtener conclusiones ceteris paribus.
Naturalmente añadir variables que expliquen a y ayudan a que el modelo explique una
mayor variabilidad en y . Así puede mejorar la predicción del modelo. Además la regresión
múltiple permite incorporar más formas funcionales (más allá de lin-lin, log-lin etc.).
51
4 Regresión múltiple
El supuesto es que el valor esperado de u, condicional a valores para las k−1 va-
riables explicativas x1 , . . . , xk−1 es 0. El valor promedio de u no depende de los va-
lores de x1 , . . . , xk−1 (para cualesquier valor de x1 , . . . , xk−1 el promedio de u dado
x1 , . . . , xk−1 es siempre igual). En particular, u no está correlacionado con cualquier
función de x1 , . . . , xk−1 : E (u|f (x1 , . . . , xk−1 )) = E (u) = 0. Cualquier situación que
permita a u estar correlacionado con alguna variable xj rompe con el supuesto 4.1.1.
n
X n
X 2
mı́n û2i = yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
β̂0 , β̂1 ,..., β̂k−1 i=1 i=1
52
4 Regresión múltiple
n
X
−2 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
n
X
−2 xi1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
.
.
.
n
X
−2 xik−1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
n
X
xij ûi = 0 (4.1)
i=1
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
53
4 Regresión múltiple
n
X
yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
n
X
xi1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
Las condiciones de primer orden que satisfacen los nuevos estimadores, con variables
centradas, son
n
X
(yi − y) − β̃0 − β̃1 (xi1 − x1 ) − · · · − β̃k−1 (xik−1 − xk−1 ) = 0
i=1
n
X
(xi1 − x1 ) (yi − y) − β̃0 − β̃1 (xi1 − x1 ) − · · · − β̃k−1 (xik−1 − xk−1 ) = 0
i=1
.
.
.
n
X
(xik−1 − xk−1 ) (yi − y) − β̃0 − β̃1 (xi1 − x1 ) − · · · − β̃k−1 (xik−1 − xk−1 ) = 0
i=1
β̃0 = 0
n
X
xi1 yi − y − β̃1 x1 − · · · − β̃k−1 xk−1 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − y − β̃1 x1 − · · · − β̃k−1 xk−1 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
54
4 Regresión múltiple
Ahora, si denimos
b̂0 = y − β̃1 x1 − · · · − β̃k−1 xk−1
entonces tenemos que los nuevos estimadores OLS para variables centradas satisfacen
n
X
yi − b̂0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
n
X
xi1 yi − b̂0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − b̂0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
que son exactamente las mismas condiciones de primer orden que satisfacen los esti-
madores OLS para las variables no centradas (teniendo en cuenta la nueva variable de
intercepto cticia b̂0 ). Por lo tanto el único parámetro OLS que cambia al centrar to-
das las variables es el estimador para el intercepto. Los estimadores para las pendientes
siguen siendo los mismos.
Este resultado intuitivo está en correspondencia con lo que sucede en la población. Si
el modelo poblacional es
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
y se tiene entonces que β̂0 es el valor pronosticado por el modelo para y (es el valor ŷ )
en el caso que x1 = · · · = xk−1 = 0.
Los estimadores β̂j tienen interpretación como los efectos parciales de la variable xj
sobre y , en un contexto ceteris paribus :
de forma que se puede obtener el cambio pronosticado en y dados los cambios en x1 , . . . , xk−1 .
Si hacemos ∆x1 = · · · = ∆xj−1 = ∆xj+1 = · · · = ∆xk−1 = 0 entonces se tiene
55
4 Regresión múltiple
56
4 Regresión múltiple
0
mı́n û0 û = y − X β̂ y − X β̂
β̂
0
porque β̂ 0 X 0 y = y0 X β̂ = y0 X β̂ al ser reales.
−2X 0 y + 2X 0 X β̂ = 0
y bajo el supuesto que X 0X es una matriz de rango completo (no hay variables explicati-
vas linealmente dependientes en la muestra) se llega al estimador de mínimos cuadrados
ordinarios
−1
β̂ = X 0 X X 0y (4.2)
X 0 (y − ŷ) = X 0 û = 0
57
4 Regresión múltiple
Si se estima que el efecto de la nueva variable xk sobre y es nulo (es decir, β̃k = 0).
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
n
X
yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
n
X
xi1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 = 0
i=1
58
4 Regresión múltiple
orden son:
n
X
yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
n
X
xij yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
.
.
.
n
X
xik−1 yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
n
X
xik yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 − β̃k xik = 0
i=1
n
X
yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
n
X
xij yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
.
.
.
n
X
xik−1 yi − β̃0 − β̃1 xi1 − · · · − β̃k−1 xik−1 = 0
i=1
donde la última condición (respecto a xk ) se omite al saber que β̃k = 0. Estas condiciones
son exactamente las mismas condiciones de primer orden que caracterizan a la estimación
sin considerar la variable adicional. En ese caso se obtienen los mismos coecientes que
se tenían sin incluir la variable adicional.
Para mostrar el segundo caso utilizamos el modelo matricial. El álgebra lineal en este
caso facilita la demostración.
Por facilidad suponemos que trabajamos con variables centradas muestralmente (es
decir, que su promedio en la muestra es cero). Como vimos en la subsección 4.2.1 este
supuesto se puede hacer sin ninguna pérdida de generalidad.
Suponga que inicialmente se estimó el modelo
y = Xβ + u
donde X= 1 x1 . . . xk−1 , se obtuvo el estimador por OLS
−1
β̂ = X 0 X X 0y
59
4 Regresión múltiple
Sea
X̃ = X xk = 1 x1 . . . xk−1 xk
la nueva matriz de diseño. Recuerde que xj es un vector columna de dimensión (n × 1).
En este caso el nuevo estimador por mínimos cuadrados ordinarios es
−1
β̃ = X̃ 0 X̃ X̃ 0 y
−1 X 0
0
X
= X xk y
xk 0 xk 0
0 −1 0
X X X 0 xk X
= y
xk 0 X xk 0 xk xk 0
Analicemos el término xk 0 X :
xk 0 X = xk 0 1 x1 . . . xk−1
xk 0 1 xk 0 x1 . . . xk 0 xk−1
=
Pn Pn Pn
= i=1 xik i=1 xi1 xik . . . i=1 xik−1 xik
xk 0 X = 0
En ese caso
−1
X 0 X X 0 xk X0
β̃ = y
xk 0 X xk 0 xk xk 0
−1
X 0X X0
0
= y
0 xk 0 xk xk 0
(X 0 X)−1
0
0 X
= −1 y
0 0
(xk xk ) xk 0
(X 0 X)−1 X 0 y
=
(xk 0 xk )−1 xk 0 y
Como los parámetros estimados para las pendientes no cambian si las variables son
centradas o no, se concluye que en el caso en que la variable adicional no esté muestral-
mente correlacionada con las demás variables, entonces los parámetros estimados con la
variable adicional para las pendientes de las demás variables no cambian, con respecto a
la estimación sin la variable adicional.
60
4 Regresión múltiple
y = Xβ + u
−1
β̂ = X 0 X X 0y
Recordemos que la matriz de diseño contiene todas las variables independientes rele-
vantes en el modelo
X= 1 x1 . . . xk−1
y supongamos ahora que hay un cambio de unidades. En ese caso obtenemos una matriz
de diseño alternativa
X̃ = 1 x̃1 . . . x̃k−1
donde
x̃j = rj xj
El factor de re-escalamiento rj ∈ R es el que convierte las unidades iniciales de la varia-
ble j en las unidades nuevas que estamos interesados en analizar. En términos matriciales
se tiene
X̃ = 1 x̃1 . . . x̃k−1
= 1 r1 x1 . . . rn xk−1
1 0 ... 0
0 r1 . . .
0
= 1 x1 . . . xk−1
.. .. . . .
.
. . . .
0 0 ... rk−1
= XR
donde R = Diag 1 r1 . . . rk−1 es la matriz de cambio de unidades.
Note que R es una matriz simétrica e invertible si rj 6= 0 para 1 ≤ j ≤ k − 1.
De igual manera se pueden cambiar las unidades de la variable dependiente
ỹ = sy
con s ∈ R.
61
4 Regresión múltiple
ỹ = X̃β + ũ
y al hacer la estimación por mínimos cuadrados ordinarios (note que el cambio en uni-
dades no afecta ningún supuesto necesario para la estimación) se tiene
−1
β̃ = X̃ 0 X̃ X̃ 0 ỹ
−1
= (XR)0 XR (XR)0 (sy)
−1 0 0
s R0 X 0 XR
= RXy
−1 0
−1 0 −1 0 0
= sR XX R RXy
−1
sR−1 X 0 X X 0y
=
β̃ = sR−1 β̂
De esta forma comprobamos que el cambio de unidades cambia las unidades de los
estimadores de la forma esperada:
62
4 Regresión múltiple
y = β 0 + β 1 x1 + u
con una variable explicativa. Es el caso de la regresión simple, pero vamos a abordarlo
con la maquinaria desarrollada para la regresión múltiple.
Para ello suponemos que se dispone de la información dada por una muestra aleato-
ria {xi1 , yi : i = 1, . . . , n} de tamaño n. Las observaciones de nuestra muestra cumplen
entonces
y1 = β0 + β1 x11 + u1
. .
. .
. .
yn = β0 + β1 xn1 + un
y = 1β0 + x1 β1 + u
β0
y = 1 x1 +u
β1
y = Xβ + u
63
4 Regresión múltiple
Una vez tenemos una expresión para X 0X podemos calcular fácilmente su inversa
` 0 ´−1 1 ´˜0
cof X 0 X
ˆ `
XX =
det (X 0 X)
Pn
x2i1 − n
» P –
1 i=1 xi1
= Pi=1
n
− i=1 xi1
´2
Pn n
`Pn
n i=1 x2i1 − i=1 xi1
» Pn 2
− n
P –
1 i=1 xi1 i=1 xi1
= P n
(xi1 − x1 )2 − i=1 xi1
Pn
n n
i=1
64
4 Regresión múltiple
y = Xβ + u
β1
= X1 X2 +u
β2
= X1 β1 + X2 β2 + u
donde X1 es la matriz de diseño para las variables del grupo 1, X2 es la matriz de diseño
para las variables del grupo 2, β1 es un vector de parámetros poblacionales asociado con
las variables del grupo 1 de tamaño k1 × 1 y β2 es un vector de parámetros poblacionales
asociado con las variables del grupo 2 de tamaño k2 × 1. Note que X = X1 X2 y
β1
β=
β2
El estimador OLS de este modelo es el usual
−1
β̂ = X 0 X X 0y
de donde se obtiene la relación
0 β̂1 0
X1 X2 X1 X2 = X1 X2 y
β̂2
X10
0
β̂1 X1
X1 X2 = y
X20 β̂2 X20
0
X1 X1 X10 X2
0
β̂1 X1 y
=
X20 X1 X20 X2 β̂2 X20 y
65
4 Regresión múltiple
de donde se tiene
X10 X1 β̂1 = X10 y − X2 β̂2
−1
β̂1 = X10 X1 X10 y − X2 β̂2 (4.3)
Suponga que las variables del grupo X1 son ortogonales con las variables del grupo
X2 . En ese caso se tiene X10 X2 =0 y la ecuación se reduce a
−1
β̂1 = X10 X1 X10 y
−1
β̂2 = X20 X2 X20 y − X1 β̂1
−1
β̂2 = X20 X2 X20 y
−1
β̂2 = X20 X2 X20 y − X1 β̂1
−1 0 −1 0 −1 0
= X20 X2 X2 y − X20 X2 X2 X1 X10 X1 X1 y − X2 β̂2
−1 0 −1 0 −1 0 −1 0 −1 0
= X20 X2 X2 y − X20 X2 X2 X1 X10 X1 X1 y + X20 X2 X2 X1 X10 X1 X1 X2 β̂2
de donde
Denimos la matriz
−1
M1 = In − X1 X10 X1 X10
esta matriz es idempotente y simétrica:
M1 M 1 = M 1 M10 = M1
66
4 Regresión múltiple
ê = y − X1 b̂1
−1 0
= y − X1 X10 X1 X1 y
−1
In − X1 X10 X1 X10 y
=
ê = M1 y
Estos residuales ê = M1 y resumen la información contenida en y que no es explicada
por las variables X1 .
Ahora consideramos las regresiones de cada columna de la matriz X2 sobre las variables
X1 . Se quiere estimar el modelo
x2j = X1 aj + v
donde x2j es la matriz j -ésima de la matriz X2 , con 1 ≤ j ≤ k2 . El estimador OLS de
este modelo es
−1
âj = X10 X1 X10 x2j
y los residuales de esta regresión están dados por
f̂ = M1 X2
Finalmente se hace la regresión de los residuales de una regresión de y sobre únicamente
X1 sobre el conjunto de residuales obtenidos cuando se hace la regresión de cada columna
de X2 sobre las variables X1 . Es decir, queremos estimar el modelo
ê = f̂ B + w
M1 y = M1 X2 B + w
67
4 Regresión múltiple
−1
(M1 X2 )0 (M1 X2 ) (M1 X2 )0 M1 y
B̂ =
−1 0 0
= X20 M10 M1 X2
X2 M1 M1 y
−1
= X20 M1 X2 X20 M1 y
B̂ = β̂2
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
68
4 Regresión múltiple
−1
β̂ = X 0 X X 0y
pero como n = k , se tiene que rank (X) = k = n y que X es una matriz cuadrada
de tamaño n × k = k × k . Toda matriz cuadrada de rango completo es invertible,
así que para el caso particular en que n = k y no hay multicolinealidad perfecta,
se tiene que existe X
−1 . En ese caso el estimador OLS puede simplicarse a
β̂ = X −1 y
y − X β̂ = y − XX −1 y = 0
Ejemplo: El modelo
cons = β0 + β1 inc + β2 inc2 + u
no viola el supuesto de no perfecta multicolinealidad. Si bien claramente inc y inc2
están correlacionados, la correlación no es perfecta.
Sin embargo una extensión ingenua del modelo, como por ejemplo
69
4 Regresión múltiple
4.4.1. Insesgamiento
El estimador OLS puede expresarse como
−1
β̂ = X 0X X 0y
−1
= X 0X
X 0 (Xβ + u)
−1 0
= β + X 0X Xu
Note que el supuesto de media condicional cero E (u|X) = E (u) = 0 es clave para
obtener este resultado.
Así, en promedio, el estimador de mínimos cuadrados ordinarios acierta en el valor
poblacional.
Efectos de sobre-especicación
Suponga que el modelo poblacional es de la forma
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
−1
β̂ = X 0 X X 0y
es insesgado, donde X= 1 x1 . . . xk−1 .
Si por alguna razón se decide estimar el modelo
y = β0 + β1 x1 + · · · + βk−1 xk−1 + βk xk + v
donde se incluye la variable adicional xk , de forma tal que se siguen satisfaciendo los
supuestos, entonces el nuevo estimador por mínimos cuadrados ordinarios es
−1
β̃ = X̃ 0 X̃ X̃ 0 y
donde X̃ = X xk = 1 x1 . . . xk−1 xk . La variable adicional xk es una
variable irrelevante en la explicación de y, y en el modelo poblacional el parámetro de
pendiente de esta variable adicional es cero.
70
4 Regresión múltiple
Si denimos
β0
β1
β = ...
βk−1
0
como el vector de parámetros poblacionales correspondientes al modelo poblacional, en-
tonces se cumple y = X̃β + u y se puede mostrar que
−1
β̃ = β + X̃ 0 X̃ X̃ 0 u
y = β0 + β1 x1 + · · · + βk−1 xk−1 + βk xk + u
y cumple con los supuestos 4.4.1-4.4.4, pero que por alguna razón (falta de datos, igno-
rancia o descuido) se omitieron en la estimación variables relevantes para explicar y. Sin
pérdida de generalidad podemos suponer que se omitió la última variable xk .
En ese caso suponemos que se estimó el modelo
y = β0 + β1 x1 + · · · + βk−1 xk−1 + v
donde v = βk xk + u.
Para que los estimadores del modelo con variables omitidas sean insesgados, deberían
cumplirse los supuestos 4.4.1-4.4.4. En particular deberíamos tener que
E (v|x1 , . . . , xk−1 ) = 0
71
4 Regresión múltiple
Tabla 4.1: Resumen del sesgo en β̂1 cuando hay una variable omitida correlacionada
lo cual equivale a pedir que el valor esperado de xk no depende de los valores que tomen
las demás variables independientes. En particular, si xk está correlacionado con alguna
variable independiente entonces no se cumplen los supuestos y el estimador OLS para
el modelo con variable omitida está sesgado. Esto pasa porque al tener variables omiti-
das correlacionadas con las variables independientes incluidas los residuales del modelo
incompleto están correlacionados, vía las variables omitidas, con las variables indepen-
dientes, generando sesgo en la estimación.
De igual forma si la variable omitida no está correlacionada con las demás variables
independientes entonces no hay sesgo en la estimación con variable omitida. Un resultado
relacionado se obtuvo en la subsección 4.3.1, donde añadir una variable que no está
correlacionada con las otras independientes no cambia el valor estimado de los parámetros
del modelo.
En el caso en que hay correlación, el signo del sesgo depende del signo de la correlación
entre las variables omitidas y las variables independientes incluidas, y en general no es
fácil de determinar.
Para el sencillo caso de un modelo con dos variables independientes y = β0 + β1 x1 +
β 2 x2 + u en el cual se omite una de ellas en la estimación (por facilidad se omite x2 ) se
puede establecer el signo del sesgo, que se resume en la Tabla 4.1.
72
4 Regresión múltiple
0
0
−1 0 0 −1 0 0
Σβ̂ = E β̂ − β β̂ − β = E XX Xu XX Xu
−1 0 0 −1
= E X 0X X u u X X 0X
−1 0 0 −1
= E X 0X X uu X X 0 X
−1 −1
X 0X X 0 E uu0 X X 0 X
Σβ̂ =
−1 0 −1
X 0X X Σu X X 0 X
73
4 Regresión múltiple
Suponga que se cumplen los supuestos 4.4.1-4.4.5. Entonces ya se demostró que E β̂|X =
β y que var β̂|X = σ 2 (X 0 X)−1 . Se tiene que el valor esperado no condicionado
E β̂ = EX E β̂|X = EX (β) = β
Multicolinealidad y micronumerosidad
Podemos intentar caracterizar, de manera intuitiva, la varianza de los estimadores
OLS en el caso de regresión múltiple.
1 0 ... 0
1
2 0
−1 σ 0
2 var(x
ˆ 1)
... 0
Σβ̂ = σ XX =
. . .. .
n .. . .
. . .
1
0 0 ... var(x
ˆ k−1 )
74
4 Regresión múltiple
y la varianza del estimador disminuye con el tamaño de muestra (n) y con la varian-
za muestral de la variable xj . Estos resultados se mantienen para el caso general.
Al aumentar el tamaño de la muestra se dispone de más información para poder
realizar la estimación y esto reduce la incertidumbre acerca del valor de los paráme-
tros desconocidos. Además una mayor varianza muestral de la variable xj implica
que esta variable explica una mayor proporción de la variación de y y hace más
fácil identicar el efecto parcial, reduciendo la varianza del estimador.
El hecho de contar con una muestra pequeña (y un n pequeño) implica que se pue-
de tener una alta incertidumbre en la estimación, y es un problema que se conoce
como micronumerosidad.
Intuitivamente, entre más cercana a ser una matriz singular sea X 0X , los ele-
0 −1
mentos de la matriz (X X) son mayores en valor absoluto (puede asociarse al
caso en que se hace una división entre un número que se acerca a cero). En ese
caso claramente la varianza de los estimadores se hace cada vez más grande. En
el caso particular en que dos variables tengan una alta relación lineal, conocido
como multicolinealidad, entonces la matriz X 0 X se acerca a ser singular, y esto
genera que las varianzas de los estimadores sean grandes. Note que alta relación
lineal y acercarse a ser singular no son conceptos matemáticos bien denidos,
pero los utilizamos para diferenciar multicolinealidad del caso de multicolinealidad
perfecta, que se excluye por el supuesto 4.4.4.
El alto grado de asociación lineal aumenta la varianza de los estimadores porque
diculta la distinción entre las variables que están altamente correlacionadas. El
efecto parcial de las variable altamente correlacionadas se confunde y esto aumen-
ta la incertidumbre sobre los estimadores de la pendiente de estas variables. Sin
embargo es difícil determinar cuándo hay un alto grado de correlación lineal y
cuándo esto puede ser un problema.
Pero es claro que, manteniendo todo lo demás constante, para estimar βj es pre-
ferible que xj no tenga correlación con ninguna otra variable independiente. Note
que alta correlación entre xj y xl no hace que la varianza de los estimadores de
pendiente de otras variables independientes con baja correlación, βi , sea alta.
Teorema 4.4.6. Bajo los supuestos 4.4.1-4.4.5, condicional a los valores muestrales de
las variables independientes, se tiene
σ2
var β̂j |X =
SSTj 1 − Rj2
que explica el grado de asociación lineal entre xj y las demás variables independientes.
75
4 Regresión múltiple
ỹ = β̃0 + β̃1 x1
σ2
var β̂1 =
SST1 1 − R12
donde
2
RP x1 = γ0 + γ1 x2 + v
1 es el coeciente de determinación de una regresión y
SST1 = ni=1 (xi1 − x1 )2 . Pero por el mismo teorema se tiene
σ2
var β̃1 =
SST1
y siempre se cumple
var β̂1 > var β̃1
76
4 Regresión múltiple
−1 0 0
M0 = In − X X 0 X X
−1
= In0 − X X 0 X X0
= M
−1 0 −1 0
MM = In − X X 0 X X In − X X 0 X X
−1 0 −1 0 −1 0 −1 0
= In − X X 0 X X − X X 0X X + X X 0X X X X 0X X
−1 −1
= In − 2X X 0 X X 0 + X X 0X X0
= M
0
0 0
−1 0 0 0
−1 0
E û û = E y In − X X X X In − X X X X y
= E y0 M 0 M y
= E y0 M y
= E β 0 X 0 M Xβ + u0 M Xβ + β 0 X 0 M u + u0 M u
= E u0 M u
77
4 Regresión múltiple
E û0 û = E u0 M u
= E tr u0 M u
= E tr M uu0
E û0 û = E tr M uu0
= tr M E uu0
= tr (M In )
= σ 2 tr (M )
−1 0
= σ 2 tr In − X X 0 X X
−1 0
= σ 2 tr (In ) + σ 2 tr X X 0 X X
−1 0
= σ 2 tr (In ) + σ 2 tr X 0 X XX
= σ 2 tr (In ) + σ 2 tr (Ik )
= σ 2 (n − k)
1 SSR
σ̂ 2 = û0 û =
n−k n−k
entonces
1
E σ̂ 2 = E û0 û = σ 2
n−k
y σ̂ 2 es un estimador insesgado de σ2.
Además
1
σ̂ 2 = û0 û
n−k
1
= y0 M y
n−k
1 −1 0
= y0 In − X X 0 X X y
n−k
1
y0 y − β 0 X 0 y
=
n−k
y σ̂ 2 es un estimador que es una forma cuadrática en y.
78
4 Regresión múltiple
Teorema 4.4.7. Teorema de Gauss-Markov: Bajo los supuestos 4.4.1-4.4.5 se tiene que
el estimador por mínimos cuadrados ordinarios β̂ = (X 0 X)−1 X 0 y es el mejor estimador
lineal insesgado (best linear unbiased estimator BLUE).
79
4 Regresión múltiple
β = Ay
−1 0
= C + X 0X X (Xβ + u)
−1 0
= β + CXβ + X 0 X X u + Cu
Como β es insesgado condicional a los valores de X , debe cumplirse que E β − β|X =
0. Es decir
−1 0
= E CXβ + X 0 X
E β − β|X X u + Cu|X
−1 0
= CXβ + X 0 X X + C E (u|X)
= CXβ = 0
y para que CXβ = 0 para cualquier valor de β debe ser cierto entonces que CX = 0.
Así CX = 0 si β es un estimador lineal insesgado. Entonces
−1 0
β − β = X 0X X u + Cu
y la matriz de varianzas-covarianzas de β es
0
0 0
−1 0
0
−1 0
Σβ = E β−β β−β = E XX X u + Cu XX |X X u + Cu
0
0
−1 0 0 0
−1 0
= E XX X + C uu X X X + C |X
−1 0 −1
= E X 0X X + C uu0 X X 0 X + C 0 |X
−1 0 −1 −1
X 0X X E uu0 |X X X 0 X + CE uu0 |X X X 0 X
−1 0
+ X 0X X E uu0 |X C 0 + CE uu0 |X C 0
80
4 Regresión múltiple
a0 σ 2 CC 0 a = σ 2 a0 CC 0 a
0
= σ2 C 0a C 0a
0
σ 2 C 0 a In C 0 a
β.
Note que las dos matrices de varianzas-covarianzas son iguales si y sólo si C = 0, que
por denición implica que A = (X 0 X)−1 X 0 , es decir, si y sólo si β = β̂ .
81
4 Regresión múltiple
cero:
n
X n
X
ûi (xij − xj ) = yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1 (xij − xj )
i=1 i=1
n
X
= xij yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
i=1
n
X
−xj yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
i=1
n
X
= xij yi − β̂0 − β̂1 xi1 − · · · − β̂k−1 xik−1
i=1
= 0
El punto (x1 , . . . , xk−1 , y) siempre está sobre la línea de regresión muestral si hay
constante en la regresión.
yi = ŷi + ûi
donde
SST = y0 y − ny 2
SSE = ŷ0 ŷ − ny 2
SSR = û0 û
(y − y)0 (y − y) = (y − ŷ + ŷ − y)0 (y − ŷ + ŷ − y)
= (û + ŷ − y)0 (û + ŷ − y)
= û0 + (ŷ − y)0 (û + ŷ − y)
82
4 Regresión múltiple
= 0
porque X 0 û = 0.
Suponiendo SST > 0 (lo cual es cierto si existe la mínima variabilidad en la variable
dependiente) podemos volver a denir el coeciente de determinación
SSE SSR
R2 = =1−
SST SST
El coeciente de determinación indica qué porcentaje de la variabilidad total observada
está explicada por los datos ajustados por la regresión. Es el porcentaje de la variación
muestral en y que es explicado por las variables independientes en X . Note que 0 ≤ R2 ≤
1 si hay constante en la regresión.
Hay formas alternativas pero algebraicamente equivalentes para expresar el coeciente
de determinación R2 . Están basadas en formas alternativas para expresar SSE .
SSE = ŷ0 ŷ − ny 2 = β̂ 0 X 0 X β̂ − ny 2
= β̂ 0 X 0 ŷ − ny 2
= β̂ 0 X 0 (y + û) − ny 2
= β̂ 0 X 0 y − ny 2 + β̂ 0 X 0 û
= β̂ 0 X 0 y − ny 2
porque por la condición de primer orden de los mínimos cuadrados X 0 û = 0. En ese caso
ŷ0 ŷ − ny 2 β̂ 0 X 0 y − ny 2
R2 = 2 =
y0 y − ny y0 y − ny 2
Una forma útil para interpretar el coeciente de determinación R2 es que puede ex-
presarse como el cuadrado del coeciente de correlación lineal entre y y ŷ:
Pn 2
2 − y) ŷi − ŷ
i=1 (yi
R =P 2
n 2 Pn
i=1 (y i − y) i=1 ŷ i − ŷ
y puede pensarse como una medida del grado de asociación lineal entre y y ŷ.
El coeciente R2 no está restringido a tomar valores 0 ≤ R2 ≤ 1 si se utiliza en un
modelo diferente al modelo de regresión lineal múltiple con constante. Esto pasa porque,
por ejemplo, si no hay constante en la regresión, no se tiene necesariamente y = ŷ y
tampoco se tiene necesariamente que X 0 û = 0.
83
4 Regresión múltiple
y = β1 x1 + u
sin constante, y se tienen las observaciones {(0, 1 − ) , (2, 1 + )} con > 0. La
suma de residuales al cuadrado es
2
X 2
SSR = yi − β̂1 x1
i=1
2
= (1 − )2 + 1 + − 2β̂1
y es minimizada si y sólo si
1 + − 2β̂1 = 0
1+
β̂1 =
2
SST = 22
1+ 2
SSE = 2
2
SSR = (1 − )2
Se tiene que
1 2
2 SSE 1
R = = +
SST 2 2
2 SSR 1 1 1
Ralt = 1− = + 1−
SST 2 2
y que SSE + SSR 6= SST . Note que para sucientemente pequeño entonces
2 2
eventualmente R > 1 y Ralt < 0.
y = WB + u
donde W = X z , siendo z la variable adicional. El modelo puede expresarse como
y = Xβ + zb + u
84
4 Regresión múltiple
β
donde B= . Se tiene que los residuales estimados en este modelo son
b
û = y − X d̂ − zb̂
d̂
donde B̂ = es el estimador OLS de la regresión con variable adicional. Es decir,
b̂
−1
B̂ = W 0 W W 0y
−1 −1 0
d̂ = X 0 X X 0 y − zb̂ = β̂ − X 0 X X zb̂
û = y − X d̂ − zb̂
−1 0
= y − X β̂ + X X 0 X X zb̂ + −zb̂
−1
= ê − In − X X 0 X X 0 zb̂
= ê − M zb̂
0
û0 û = ê − M zb̂ ê − M zb̂
= ê0 − b̂0 z0 M ê − M zb̂
= ê0 ê − b̂0 z0 Mê − ê0 M zb̂ + b̂0 z0 M M zb̂
= ê0 ê + b̂2 z0 M z − 2b̂0 z0 Mê
û0 û ≤ ê0 ê
85
4 Regresión múltiple
1 0
2 n−k (û û)
R = 1− 1 0 2
n−1 y y − ny
n−1
1 − R2
1−
n−k
1 0
donde
n−k (û û) es un estimador insesgado para la varianza del término de perturbación
1 0
y y − ny 2 es un estimador insesgado para la varianza de y.
y
n−1
ŷ0 − y0 = x0 β̂ − y0
El valor del predictor ŷ0 diere del verdadero valor y0 porque los estimadores son
diferentes al verdadero valor poblacional y porque el verdadero término de perturbación
diere del valor que predecimos para él (cero).
86
4 Regresión múltiple
0
0
E (ŷ0 − y0 ) (ŷ0 − y0 ) |X = E x0 β̂ − β − u0 x0 β̂ − β − u0 |X
0
0 0
= E x0 β̂ − β − u0 β̂ − β x0 − u0 |X
0 0
0 0 0
= E x0 β̂ − β β̂ − β x0 − 2 β̂ − β x0 u0 + u0 u0 |X
0
β̂ − β β̂ − β |X x0 0 + E u00 u0 |X
= x0 E
x0 Σβ̂ x0 0 + E u00 u0 |X
=
que se resume en
x0 Σβ̂ x0 0 + var (u0 |X)
y bajo el supuesto de homoscedasticidad se llega a
−1 0
var (ŷ0 − y0 |X) = σ 2 x0 X 0 X x0 + 1
var β̂0 |X + 2x0 cov β̂0 , β̂1 |X + x20 var β̂1 |X + var (u0 |X)
!
2
2 1 (x0 − x)2
E (ŷ0 − y0 ) |X = σ 1 + + Pn 2
n i=1 (xi − x)
Del ejercicio anterior se deduce que si x0 está muy lejos de la media x entonces mayor es
la varianza del error de predicción en el modelo lineal simple. Predicción fuera del rango
de xi utilizado en la estimación genera una mayor varianza del error de predicción.
87
5 Inferencia en el análisis de regresión
múltiple
El proceso de inferencia estadística se divide principalmente en dos ramas: estimación
y pruebas de hipótesis. A lo largo de estas notas se ha cubierto el tema de estimación.
En estadística es de interés realizar pruebas de hipótesis sobre los parámetros poblacio-
nales, para poder deducir resultados teóricamente relevantes a partir de la información
muestral disponible. Para ello es necesario conocer la distribución de probabilidad de los
estimadores. Con los supuestos utilizados hasta ahora en la estimación OLS no es posible
realizar esto, así que un supuesto probabilístico adicional es necesario para poder realizar
pruebas de hipótesis.
Este es un supuesto mucho más fuerte que todos los supuestos anteriores. En particular
la independencia de u respecto a las variables explicativas implica matemáticamente que
E (u|x1 , . . . , xk−1 ) = E (u) = 0 y var (u|x1 , . . . , xk−1 ) = var (u) = σ 2 .
Es claro entonces que al aceptar el supuesto 5.1.1, entonces necesariamente se está
suponiendo 4.4.3 y 4.4.5.
Note que
88
5 Inferencia en el análisis de regresión múltiple
Claramente el argumento de normalidad por TLC es débil: no es claro por qué las varia-
bles que afectan a y lo hacen de forma aditiva.
El supuesto de normalidad debe conrmarse empíricamente, ya que es clave para la
inferencia estadística. Siempre en la aplicación debe buscarse evidencia de normalidad.
Afortunadamente la no normalidad de los términos de perturbación no es tan problemá-
tico para muestras grandes.
y = Xβ + u
u ∼ N 0, σ 2 In
yi = x0i β + ui ∼ N x0i β, σ 2
89
5 Inferencia en el análisis de regresión múltiple
n n 1 (y − Xβ)0 (y − Xβ)
máx − ln (2π) − ln σ ² −
β,σ ² 2 2 2 σ2
n n 1 y0 y − 2β̂ 0 X 0 y + β̂ 0 X 0 X β̂
= − ln (2π) − ln σ ² −
2 2 2 σ2
90
5 Inferencia en el análisis de regresión múltiple
0 −1
E β̃ = β E β̃ − β β̃ − β = σ2 X 0X
∂ 1 −2X 0 y + 2X 0 Xβ
L = −
∂β 2 σ2
0
∂ ∂ XX
L = − 2
∂β ∂β σ
1 −2X 0 y + 2X 0 Xβ
∂ ∂
L =
∂σ 2 ∂β 2 (σ 2 )2
∂ n 1 (y − Xβ)0 (y − Xβ)
L = − +
∂σ 2 2σ ² 2 (σ 2 )2
(y − Xβ)0 (y − Xβ)
∂ ∂ n
L = −
∂σ 2 ∂σ 2 2 (σ ²)2 (σ 2 )3
1 −2X 0 y + 2X 0 Xβ
∂ ∂
L =
∂β ∂σ 2 2 (σ 2 )2
91
5 Inferencia en el análisis de regresión múltiple
Entonces
2
2 n−k
E σ̃ =σ
n
y claramente el estimador por máxima verosimilitud σ̃ 2 es sesgado. Es por esta razón
que se preere el estimador insesgado
ũ0 ũ
σ̂ 2 =
n−k
Para las pruebas de hipótesis es de importancia conocer la distribución de σ̂ 2 . Primero
estudiamos la distribución de
0
y − X β̃ y − X β̃ ũ0 ũ
=
σ2 σ2
0
In − X (X 0 X)−1 X 0 y In − X (X 0 X)−1 X 0 y
=
σ2
0
In − X (X 0 X)−1 X 0 X u In − X (X 0 X)−1 X 0 u
=
σ2
−1
u0 In − X (X 0 X) X0 u
=
σ2
u0 M u
=
σ2
92
5 Inferencia en el análisis de regresión múltiple
y la varianza de una variable chi-cuadrado es igual a dos veces sus grados de libertad.
En este caso
n−k 2
var σ̂ = 2 (n − k)
σ2
n−k 2
var σ̂ 2 = 2 (n − k)
σ 2
2σ 4
var σ̂ 2 =
n−k
El supuesto de normalidad aporta información adicional sobre la varianza del estimador
σ̂ 2 , que de otra forma no hubiera podido obtenerse.
93
5 Inferencia en el análisis de regresión múltiple
ũ0 ũ
Demostración. Como σ̂ 2 = n−k se tiene que si ũ y β̃ son independientes, entonces β̃ es
2
independiente de σ̂ . Al ser ũ y β̃ normales, es suciente mostrar que la covarianza es
cero. La matriz de varianzas-covarianzas es
0 0
E ũ β̃ − β = E y − X β̃ β̃ − β
0
0
−1 0
= E In − X X X X u β̃ − β
−1 0 0 −1 0
= E In − X X 0 X X uu X X 0 X X
−1 0 −1 0
In − X X 0 X X E uu0 X X 0 X
= X
−1 −1
= σ 2 In − X X 0 X X 0 X X 0X X0
−1 0 −1 0 −1 0
= σ2 X X 0X X − X X 0X X X X 0X X
= 0
∂ 2 ln L (γ|y, X)
I (γ) = −E
∂γ∂γ 0
y su inversa provee una cota inferior para la precisión de estimadores insesgados para γ.
Para el modelo lineal normal se tiene que la matriz de información es
1 −2X 0 y+2X 0 Xβ
0
− Xσ2X 2 (σ 2 )2
I (γ) = −E 1 −2X 0 y+2X 0 Xβ n (y−Xβ)0 (y−Xβ)
2 (σ 2 )2 2(σ ²)4
− (σ 2 )3
X0X
" #
σ2
0
= n
0 2(σ ²)4
94
5 Inferencia en el análisis de regresión múltiple
d
L = −2X 0 y + 2X 0 Xβ + 2C 0 λ
dβ 0
Igualando esta condición a cero se tiene
C 0 λ = X 0 y − X 0 X β̂C
de donde
−1 −1
β̂C = X 0X X 0y − X 0X C 0λ
−1 0
= β̂ − X 0 X Cλ
Entonces β̂ − β̂C = (X 0 X)−1 C 0 λ, de forma que C (X 0 X)−1 C 0 λ = C β̂ − β̂C =
C β̂ − c porque por denición se tiene que β̂C cumple con la restricción impuesta,
95
5 Inferencia en el análisis de regresión múltiple
−1
0
−1 0 0
−1 0
E β̂C |X = E β̂ − X X C C XX C C β̂ − c |X
−1
0
−1 0 0
−1 0
= E β̂|X − E XX C C XX C C β̂ − c |X
−1−1 0 −1
= β − X 0X C 0 C X 0X C CE β̂|X − c
−1 0 −1 0 −1
= β − X 0X C C X 0X C (Cβ − c)
Denimos
−1 −1 0 −1
MC = Ik − X 0 X C 0 C X 0X C C
96
5 Inferencia en el análisis de regresión múltiple
= MC Σβ̂ MC0
donde Σβ̂ es la matriz de varianzas y covarianzas del estimador OLS estándar.
Supongamos ahora homoscedasticidad (ver supuesto 4.4.5). En ese caso Σβ̂ = σ 2 (X 0 X)−1
y
´−1 0
σ 2 MC X 0 X
`
Σβ̂C = MC
„ « „ «0
2 ` 0 ´−1 0 “ ` 0 ´−1 0 ”−1 ` 0 ´−1 ` 0 ´−1 0 “ ` 0 ´−1 0 ”−1
= σ Ik − X X C C XX C C XX Ik − X X C C XX C C
„ «„ «
´−1 ` 0 ´−1 0 “ ´−1 0 −1 ` 0 ´−1
” “ ´−1 0 −1 ` 0 ´−1
”
σ2 X 0 X C C X 0X Ik − C 0 C X 0 X
` ` `
= − XX C C XX C C XX
´−1 ´−1 0 “ ` 0 ´−1 0 ”−1 ` 0 ´−1
σ2 X 0 X − 2σ 2 X 0 X
` `
= C C XX C C XX ...
´−1 0 “ ´−1 0 ” −1 ´−1 0 “ ´−1 0 ”−1 ` 0 ´−1
+σ 2 X 0 X C C X 0X C X 0X C C X 0X
` ` ` `
C C C XX
´−1 ´−1 0 “ ´−1 0 −1 ` 0 ´−1
”
= σ2 X 0 X − σ2 X 0 X C C X 0X
` ` `
C C XX
2 ` 0 ´−1
= σ MC X X
Es fácil darse cuenta que
−1 −1 0 −1 −1
Σβ̂ − Σβ̂C = σ 2 X 0 X C 0 C X 0X C C X 0X =A
donde A es una matriz semidenida positiva. De esta forma la matriz de varianzas-
covarianzas del estimador OLS restringido Σβ̂C cumple que todos los elementos en su
diagonal son menores o iguales que los elementos de la diagonal de la matriz de varianzas-
covarianzas del estimador OLS estándar. El estimador restringido β̂C es el mejor esti-
mador en la clase de estimadores lineales insesgados siempre y cuando las restricciones
Cβ = c sean verdaderas.
Residuales Restringidos
−1
Sea û = y−X β̂ y ûC = y−X β̂C . Como β̂C = β̂−(X 0 X)−1 C 0 C (X 0 X)−1 C 0 C β̂ − c
entonces
ûC = y − X β̂C
−1 −1 0 −1
= y − X β̂ + X X 0 X C 0 C X 0X C C β̂ − c
−1 0 −1 0 −1
ûC = û + X X 0 X C C X 0X C C β̂ − c
97
5 Inferencia en el análisis de regresión múltiple
Así:
0
−1 0 −1 −1 0 −1
−1 −1 0
û0C ûC = 0
û + C β̂ − c 0
C (X X) C 0
C (X X) X 0 0 0
û + X (X X) C C (X X) C C β̂ − c
h i−1 0 h i−1
−1 −1 −1
= û0 û + 2û0 X (X 0 X) C 0 C (X 0 X) C 0 C β̂ − c + C β̂ − c C (X 0 X) C 0 ...
h i−1
−1 −1 −1
. . . C (X 0 X) X 0 X (X 0 X) C 0 C (X 0 X) C 0 C β̂ − c
h i−1 0 h i−1
−1 −1 −1
= û0 û + 2û0 X (X 0 X) C 0 C (X 0 X) C 0 C β̂ − c + C β̂ − c C (X 0 X) C 0 C β̂ − c
h i−1
La matriz 2û0 X (X 0 X)−1 C 0 C (X 0 X)−1 C 0 C β̂ − c vale cero. La razón es que
û0 X = 0:
0
û0 X = y − X β̂ X
= y0 X − β̂ 0 X 0 X
−1 0 0 0
= y0 X − X 0 X Xy XX
−1 0
= y0 X − y0 X X 0 X XX
= 0
Así:
0 h −1 0 i−1
û0C ûC = û0 û + C β̂ − c C X 0 X C C β̂ − c
98
5 Inferencia en el análisis de regresión múltiple
de donde −1 0
C1 β̃ − C1 β ∼ N 0, σ 2 C1 X 0 X C1
99
5 Inferencia en el análisis de regresión múltiple
n−k 2
σ̂ ∼ χ2n−k
σ2
entonces
C1 (β̃−β )
√ C1 β̃ − β
σ C1 (X 0 X)−1 C10
t= q = q ∼ tn−k
1 2 0 −1 0
σ2
σ̂ σ̂ C1 (X X) C1
y el intervalo de conanza puede reescribirse utilizando la distribución t como
q q
P C1 β̃ − tα/2,n−k σ̂ C1 (X 0 X)−1 C10 0 −1 0
≤ C1 β ≤ C1 β̃ + tα/2,n−k σ̂ C1 (X X) C1 = 1−α
C1 = e0j
= 0 ... 0 1 0 ... 0
el vector la de tamaño 1×k con un uno en la posición j y ceros en las demás posiciones.
En ese caso
q q
0 −1 0 −1
P β̃j − tα/2,n−k σ̂ (X X)jj ≤ βj ≤ β̃j + tα/2,n−k σ̂ (X X)jj = 1 − α
donde (X 0 X)−1
jj es el j -ésimo elemento de la diagonal de la matriz (X 0 X)−1 .
Los intervalos son aleatorios porque los extremos son funciones de variables aleatorias.
Z0 Z ∼ χ2n
X ∼ N (µ, Σ)
Por el teorema de descomposición espectral se sabe que existe una matriz A de tamaño
n×n tal que
AΣA0 = In
100
5 Inferencia en el análisis de regresión múltiple
AX ∼ N Aµ, AΣA0
AX − Aµ ∼ N (0, In )
Z0 Z = (A (X − µ))0 A (X − µ)
= (X − µ)0 A0 A (X − µ)
= (X − µ)0 Σ−1 (X − µ)
−1 0
C β̃ ∼ N Cβ, σ 2 C X 0 X C
de donde 0 h i−1
β̃ − β C 0 C (X 0 X)−1 C 0 C β̃ − β
∼ χ2J
σ2
Este resultado nos permitiría obtener intervalos de conanza conjuntos para J combi-
2
naciones lineales de parámetros si σ fuera conocido. Sin embargo, usualmente no es así.
Afortunadamente sabemos que
n−k 2
σ̂ ∼ χ2n−k
σ2
y sabemos que la razón de dos variables aleatorias independientes distribuidas chi-
cuadrado, cada una dividida entre sus grados de libertad, se distribuye F:
x2/s
F = ∼ Fs,r
y 2/r
101
5 Inferencia en el análisis de regresión múltiple
0 −1
(β̃−β ) C 0 [C(X 0 X)−1 C 0 ] C (β̃−β ) 1
σ2 J
λ = n−k 2 1
σ2
σ̂ n−k
0 h i−1
β̃ − β C 0 C (X 0 X)−1 C 0 C β̃ − β
=
J σ̂ 2
y por denición se tiene que
λ ∼ FJ,n−k
Ahora podemos escoger un valor crítico Fα,J,n−k de forma tal que
P (λ < Fα,J,n−k ) = 1 − α
y entonces
0 h i−1
β̃ − β C0 C (X 0 X)−1 C 0 C β̃ − β
P < Fα,J,n−k = 1 − α
J σ̂ 2
ŷ0 − y0 = x0 β̂ − y0
y por hipótesis
u0 |X ∼ N 0, σ 2
102
5 Inferencia en el análisis de regresión múltiple
x0 β̂ − y0
r ∼ N (0, 1)
σ x0 (X 0 X)−1 x0 0 +1
lo que permitiría construir intervalos de conanza. Sin embargo, esta variable aleatoria
depende del parámetro desconocido σ.
Ejercicio: Demuestre que y0 está en el intervalo de conanza a dos colas
„ q` q` «
x0 (X 0 X)−1 x0 0 + 1 < y0 < x0 β̂ + tn−k,α/2 σ̂ x0 (X 0 X)−1 x0 0 + 1
´ ´
P x0 β̂ − tn−k,α/2 σ̂ = 1−α
y = β0 + β1 x1 + · · · + βj xj + · · · + βk−1 xk−1 + u
para el cual la teoría económica predice un valor
Cβ = cecon
donde C es una matriz de coecientes de tamaño 1×k y cecon ∈ R.
Claramente por la naturaleza aleatoria del modelo, cuando realicemos la estimación
de este modelo se va a tener
C β̃j 6= cecon
Sin embargo esta información obtenida de una sola muestra aleatoria no es evidencia
suciente para decir que el valor estimado es estadísticamente diferente al predicho por
la teoría. Para poder decidir debemos construir, a partir de la única muestra de la que
disponemos, un estadístico con distribución conocida para poder realizar una prueba de
hipótesis.
La hipótesis nula es una restricción adicional a los supuestos del modelo, y queremos
construir un estadístico de forma tal que, si la hipótesis es correcta y los supuestos del
modelo se cumplen, tenga una distribución conocida. En ese caso la interpretación de las
pruebas de hipótesis es válida si y sólo si el modelo está correctamente especicado, y
únicamente bajo el supuesto que la hipótesis nula es verdadera.
Por ejemplo, se puede construir un estadístico del cual se sabe que tiene un valor muy
alto, por lo que tiende a rechazarse la hipótesis nula. Sin embargo, esta interpretación es
válida únicamente si el modelo es el adecuado.
103
5 Inferencia en el análisis de regresión múltiple
H0 : βj = βjecon
Ha : βj 6= βjecon
para algún j. Nuestra hipótesis nula es que el verdadero parámetro poblacional toma
el valor predicho por la teoría económica (y que es conocido), mientras que la hipótesis
alternativa es el caso contrario.
Denimos la matriz
Cj = ej = 0 ... 0 1 0 ... 0
Cj β = βj
Cj β = βjecon
y tenemos que si el modelo está bien especicado y bajo el supuesto que la hipótesis nula
es verdadera
β̃j − βjecon
tj = q ∼ tn−k
σ̂ (X 0 X)−1 jj
q
donde σ̂ (X 0 X)−1
jj es la desviación estándar estimada del parámetro estimado β̃j . Así
la prueba t puede verse como indicador de cuántas desviaciones estándar estimadas se
aleja β̃j del valor que toma según la hipótesis nula.
Note que nuestro estadístico tj satisface tres propiedades útiles:
104
5 Inferencia en el análisis de regresión múltiple
C β̃ − cecon
tC = q ∼ tn−k
σ̂ C (X 0 X)−1 C 0
donde cecon es el valor que la teoría económica predice para la combinación lineal de
parámetros.
econ
Dado el valor hipotético cecon se puede construir la razón tC = √C β̃−c0 . Entre
σ̂ C(X X)−1 C 0
más lejos esté el valor tC de cero, entonces es más posible que falle la hipótesis
nula.
Para saber qué tan lejos es lejos se debe buscar el valor crítico para una variable
aleatoria t con n−k grados de libertad. Este es el valor tα/2,n−k . Como la distribución
t es simétrica, este valor crítico satisface
P −tα/2,n−k < t < tα/2,n−k = 1 − α
q q
econ 0 −1 0 0 −1 0
c ∈ C β̃j − tα/2,n−k σ̂ C (X X) C , C β̃j + tα/2,n−k σ̂ C (X X) C
105
5 Inferencia en el análisis de regresión múltiple
p>α
Ha : Cβ > cecon
Esto signica que no nos interesan las alternativas a H0 de la forma Ha: Cβ < cecon por
alguna razón, usualmente sustentada en la teoría económica (por ejemplo, las elastici-
dades de una función de producción respecto a los insumos son teóricamente positivas).
Para hacer la prueba de hipótesis, primero se escoge un nivel de signicancia α. Bajo
la hipótesis alternativa se esperaría que la prueba tC tenga un valor signicativamen-
te positivo, de forma que exista evidencia para rechazar la hipótesis nula. Si la prueba
tC es negativa, no tenemos ninguna evidencia para rechazar la hipótesis nula. Entonces
estamos interesados en una prueba a una sola cola.
Se rechaza la hipótesis nula si el estadístico tC es mayor que el valor crítico a una sola
cola:
tC > tα,n−k
y no existe evidencia para rechazar la hipótesis nula en caso contrario. Esta es la prueba
a una sola cola, y la hipótesis alternativa Ha: Cβ < cecon puede estudiarse de forma
análoga.
β̃j
tj = q
σ̂ (X 0 X)−1
jj
106
5 Inferencia en el análisis de regresión múltiple
q
donde σ̂ (X 0 X)−1
jj es la desviación estándar estimada para el estimador β̃j . Este esta-
q
dístico depende del tamaño de β̃j y del tamaño de σ̂ (X 0 X)−1
jj .
Muchas veces una variable puede ser signicativa
q estadísticamente no porque el
σ2
var β̂j =
SSTj 1 − Rj2
y un alto grado de relación lineal entre las variables independientes aumenta la varianza
(y por lo tanto la desviación estándar estimada) de los estimadores OLS. En ese caso
siempre la prueba tj tiende a ser muy pequeña, y variables que podrían ser realmente
signicativas económicamente (porque el parámetro de pendiente es realmente grande)
tienden a no ser signicativas estadísticamente.
Cβ = c
y planteamos nuestra hipótesis nula en términos del valor de verdad de estas restricciones
lineales:
H0 : Cβ = c
Ha : Cβ 6= c
Se tiene que
2 0
−1
β̃ ∼ N β, σ XX
y al ser C una matriz de restricciones constante
−1 0
C β̃ ∼ N Cβ, σ 2 C X 0 X C
0 h −1 i−1
C β̃ − Cβ σ2C X 0X C0 C β̃ − Cβ ∼ χ2J
107
5 Inferencia en el análisis de regresión múltiple
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ − c
∼ χ2J
σ2
Este resultado nos permitiría obtener un estadístico para la prueba de hipótesis de J
combinaciones lineales de parámetros si σ2 fuera conocido. Sin embargo, usualmente no
es así. Afortunadamente sabemos que
n−k 2
σ̂ ∼ χ2n−k
σ2
y puede construirse la razón λ:
0 −1
(C β̃−c) [C(X 0 X)−1 C 0 ] (C β̃−c) 1
σ2 J
λ = n−k 2 1
σ2
σ̂ n−k
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ −c
=
J σ̂ 2
Por denición de una variable aleatoria F se tiene que
λ ∼ FJ,n−k
108
5 Inferencia en el análisis de regresión múltiple
Para saber qué tan lejos es lejos se debe buscar el valor crítico para una variable
aleatoria F con (J, n − k) grados de libertad. Este es el valor Fα,J,n−k . Este valor
crítico satisface
P (F < Fα,J,n−k ) = 1 − α
donde 1−α es el nivel de signicancia deseado.
λ < Fα,J,n−k
P (F < λ) = 1 − p
p>α
H0 : β1 = β2 = · · · = βk = 0
donde se busca probar si todos los parámetros excepto el intercepto son nulos (es decir,
si el modelo no tiene poder explicativo sobre y ). La hipótesis alternativa es simplemente
que la nula sea falsa: que algún parámetro de pendiente sea diferente de cero.
Este prueba de signicancia conjunta es importante porque es una señal estadística de
la utilidad real del modelo. Se puede realizar utilizando la prueba F.
Ejemplo: No hay una relación clara entre las pruebas de signicancia individuales t y la
prueba de signicancia conjunta F. Si dos variables explicativas están altamente
linealmente asociadas, las pruebas t tienden a indicar que no son signicativas
individualmente, porque la desviación estándar de los estimadores de pendiente
para esas variables es relativamente grande (por la alta relación lineal). Sin embargo
la prueba F puede indicar que, en conjunto, estas variables son signicativas para
explicar la variable y. Eso porque la alta relación lineal no es determinante en la
prueba F.
109
5 Inferencia en el análisis de regresión múltiple
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ − c
λ=
J σ̂ 2
Ahora como la matriz C es de tamaño 1 × k entonces C (X 0 X)−1 C 0 es de tamaño 1×1
y C β̃ − c es de tamaño 1 × 1 y se tiene que
0
C β̃ − c C β̃ − c
λ =
σ̂ 2 C (X 0 X)−1 C 0
2
C β̃ − c
=
σ̂ 2 C (X 0 X)−1 C 0
= t2C
Prueba F: Forma II
0 −1
(C β̂−c) [C(X 0 X)−1 C 0 ] (C β̂−c)
La prueba F está dada por λ = 2 . Además se tiene que
0 h i−1 J σ̂
−1
û0C ûC = û0 û + C β̂ − c C (X 0 X) C 0 C β̂ − c . Así
SSRC
SST − SSR
SST
λ = SST
J σ̂ 2
SSR SSRC
1− SST − 1− SST
= SST
J σ̂ 2
SST
R2 − RC2
= 2
J σ̂
n − k SST
R2 − RC 2
=
J SSR
n − k R2 − RC2
=
J 1 − R2
110
5 Inferencia en el análisis de regresión múltiple
se tiene que
y se puede calcular
0 h i−1
C β̃ − c C (X 0 X)−1 C 0 C β̃ − c
λ =
J σ̂ 2
0
β̂C − β̂ X 0 X β̂C − β̂
=
J σ̂ 2
Intuitivamente entre más alejado esté el estimador restringido del estimador no res-
tringido, más probable es rechazar la hipótesis nula.
LU = máx L
β̃,σ̃ 2
LC = máx L
β̃,σ̃ 2
s.a
Cβ = c
111
5 Inferencia en el análisis de regresión múltiple
LU
λL =
LC
Intuitivamente si la razón λL es muy alta entonces el modelo restringido tiene poca
verosimilitud y es más probable que se rechace la hipótesis nula.
La prueba F presentada anteriormente es una prueba de razón de verosimilitud porque
es una transformación monótona de la razón λ.
La verosimilitud en nuestro caso está dada por
1 (y − Xβ)0 (y − Xβ)
−n
(2πσ ²) 2 exp −
2 σ2
SSR SSRC
con σ̃ 2 = n en el caso sin restricción y σ̃ 2 = n en el caso restringido. Así
− n
SSR n 2
LU = 2π exp −
n 2
− n
SSRC 2 n
LC = 2π exp −
n 2
y por lo tanto
− n
SSR 2
λL =
SSRC
Ahora como la prueba F está dada por
SSRC − SSR n−k SSRC
λ= = −1
J σ̂ 2 J SSR
entonces la prueba F y la razón de verosimilitud están relacionadas por
n−k 2
λ= (λL ) n − 1
J
de forma tal que ambos tests son estadísticamente el mismo.
Ha : σ 2 6= σ02
n−k 2
σ̂ ∼ χ2(n−k)
σ2
112
5 Inferencia en el análisis de regresión múltiple
n−k 2
σ̂ ∼ χ2(n−k)
σ02
y con esta razón, que puede ser calculada a partir de la muestra de la que disponemos,
se puede hacer pruebas de hipótesis sobre la varianza del término de perturbación.
Se escogen los valores críticos χ2α ,n−k y χ21− α ,n−k de forma tal que se cumpla
2 2
P χ2α ,n−k < χ2 < χ21− α ,n−k = 1 − α
2 2
n−k 2
χ2α ,n−k < σ̂ < χ21− α ,n−k
2 σ02 2
de donde !
(n − k) σ̂ 2 2 (n − k) σ̂ 2
P < σ < =1−α
χ21− α ,n−k χ2α ,n−k
2 2
113
5 Inferencia en el análisis de regresión múltiple
5.6.1. Consistencia
La consistencia es una propiedad deseable de los estimadores. Si un estimador no es
consistente, no hay esperanzas que al aumentar el tamaño de la muestra (obtener más
información) mejore en algún sentido la estimación. Por lo tanto no es bueno tener un
estimador inconsistente.
Recordamos que un estimador es una función de la muestra aleatoria. Como tal depende
del tamaño de la muestra aleatoria n. Así indexamos nuestro estimador del parámetro
θ al tamaño de la muestra, de forma que el estimador obtenido para una muestra de
tamaño n es θ̂n .
Decimos que un estimador θ̂n es consistente sii
lı́m P θ̂n − θ > = 0
n→∞
Consistencia de β̂
Para mostrar la consistencia introducimos el siguiente supuesto:
donde Q es una matriz nita denida positiva de tamaño k × k. Pedimos además que
exista la matriz Q−1 .
114
5 Inferencia en el análisis de regresión múltiple
X0X
Analicemos el término
n :
10
0
X 0X 1 x1
= .. 1 x1 . . . xk−1
n n .
x0k−1
10 1 1 0 x1 10 xk−1
...
0 0 x01 xk−1
1 x1 1
x 1 x1 . . .
=
. . .. .
n . . .
. . . .
0 0
xk−1 1 xk−1 x1 . . . xk−1 xk−1 0
Pn Pn
Pn n Pn i=1 xi1 ... Pn i=1 xik−1
1 i=1 xi1 i=1 xi1 xi1 ... i=1 xi1 xik−1
=
. . .. .
n . . .
.
Pn . Pn . .
Pn
i=1 xik−1 i=1 xi1 xik−1 . . . i=1 xik−1 xik−1
1 x1 ... xk−1
x1 ˆ (x1 , x1 ) − x1
cov 2 ... ˆ (x1 , xk−1 ) − x1 xk−1
cov
=
.. .
. .. .
.
. . . .
xk−1 cov ˆ (x1 , xk−1 ) − x1 xk−1 . . . 2
ˆ (xk−1 , xk−1 ) − xk−1
cov
donde
n
1X
cov
ˆ (xj , xl ) = {(xij − xj ) (xil − xl )}
n
i=1
y
n
1X
xj = xij
n
i=1
Entonces estamos pidiendo que los estimadores de los momentos de las variables aleatorias
contenidas en X converjan en probabilidad a algún valor nito.
Este supuesto signica que las sumas contenidas en X 0X crecen a una tasa menor a
la que crece n, y pedir la existencia de Q
−1 nos indica que las variables explicativas no
X 0 X −1 X 0 y
β̂ =
n n
0 −1 0
XX Xu
= β+
n n
115
5 Inferencia en el análisis de regresión múltiple
xiobs = 1 xi1 xi2 . . . xik−1
Este vector reúne la i-ésima observación de todas las variables independientes. En una
muestra aleatoria de tamaño n se tienen n vectores de observación.
Cada observación de la muestra satisface la relación lineal
Sea
n n
1 0 1X 0 1X
Xu= xiobs ui = wi = w
n n n
i=1 i=1
En ese caso
p lı́m β̂ = β + Q−1 p lı́m w
Por el Supuesto 4.4.3 se tiene que
= EX x0iobs E (u|X)
= 0
116
5 Inferencia en el análisis de regresión múltiple
E (w) = 0
117
5 Inferencia en el análisis de regresión múltiple
Consistencia de σ̂ 2
u21 , . . . , u2n
Por el supuesto 4.4.2 se tiene que es una muestra aleatoria de variables
E u2i = σ 2 . Por el teorema de
independientes e idénticamente distribuidas (iid), tal que
Khinchine, que dice que la media muestral de variables iid es un estimador consistente
de la media poblacional, se tiene que
Pn 2
i=1 ui u0 u
p lı́m = p lı́m = σ2
n n
Se tiene que el estimador OLS de la varianza es
û0 û u0 M u
σ̂ 2 = =
n−k n−k
0 I − X (X 0 X)−1 X 0 u
u n
p lı́m σ̂ 2 = p lı́m
n−k
!
u0 u u0 X (X 0 X)−1 X 0 u
= p lı́m − p lı́m
n−k n−k
" !#
u0 X X 0 X −1 X 0 u
0
n uu
= p lı́m p lı́m − p lı́m
n−k n n n n
" 0 0 0 −1 ! 0 #
n uu uX XX Xu
= p lı́m p lı́m − p lı́m p lı́m p lı́m
n−k n n n n
1 σ − 0Q−1 0 = σ 2
2
=
118
5 Inferencia en el análisis de regresión múltiple
√
1
√ X 0u = n (w − E [w])
n
donde E [w] = 0. Se puede ahora utilizar la versión multivariada del teorema de límite
3 para obtener la distribución límite de √
central de Lindberg-Feller nw. Se tiene que w
es el promedio de n vectores aleatorios independientes wi = x0iobs ui con media cero y
varianza
varX x0iobs ui = σ 2 EX x0iobs xiobs = σ 2 Qi
√
y la varianza de nw es
2 1 2
σ Qn = σ (Q1 + Q2 + · · · + Qn )
n
En el caso que esta suma no esté dominada por algún término en particular y que
los regresores estén bien comportados (en términos prácticos que se cumpla el supuesto
5.6.1) entonces
lı́m σ 2 Qn = σ 2 Q
n→∞
√
y podemos aplicar el teorema de límite central de Lindenberg-Feller al vector nw. Más
formalmente:
σ 2 −1
d
β̂ → N β, Q
n
3
Suponga que x1 , . . . , xn es una muestra de vectores aleatorios tal que E (xi ) = µi , var (xi ) = Qi y
todos los terceros momentos mezclados de la distribución multivariada son nitos. Sea
n
1X
µn = µi
n i=1
n
1X
Qn = Qi
n i=1
Suponga que
lı́m Qn = Q
n→∞
donde Q es nita, denida positiva y para cada i
n
!−1
` ´−1 X
lı́m nQn Qi = lı́m Qi Qi = 0
n→∞ n→∞
i=1
Note que implícito está el supuesto que la suma de estas matrices no es singular. Con estos supuestos
se tiene que
√ d
n (xn − µn ) → N (0, Q)
119
5 Inferencia en el análisis de regresión múltiple
−1 1 d
X 0 u → N 0, Q−1 σ 2 Q Q−1
Q √
n
√
d
n β̂ − β → N 0, σ 2 Q−1
Entonces
σ 2 −1
d
β̂ → N β, Q
n
û0 û
En la práctica se hace necesario estimar
1 −1
nQ con (X 0 X)−1 y σ2 con
n−k . Note que si
hay heteroscedasticidad, sin importar el tamaño de la muestra, las pruebas estadísticas
usuales no son válidas.
Deben tenerse en cuenta las siguientes observaciones:
Si los regresores están bien comportados y las observaciones son independientes, en-
tonces la normalidad asintótica del estimador OLS no depende de la normalidad
de las perturbaciones; es una consecuencia del teorema central del límite.
√
d
n β̂ − β → N 0, σ 2 Q−1
y se sabe que los teoremas sobre las distribuciones asociadas a la normal se mantienen
en el caso límite. Así, si C es una matriz constante conocida de tamaño J ×k y de rango
J, se tiene que
√
d
n C β̂ − Cβ → N 0, σ 2 CQ−1 C 0
120
5 Inferencia en el análisis de regresión múltiple
y
0 −1
n C β̂ − Cβ CQ−1 C 0 C β̂ − Cβ d
→ χ2J
σ2
En estas expresiones, por tratarse de funciones límite, puede reemplazarse
X 0X
→ Q
n
σ̂ 2 → σ 2
2. El estadístico F construido antes era la base para varias pruebas de hipótesis li-
neales, bajo el supuesto de normalidad. Se tiene que
λas
λ=
J
Cuando u no se distribuye normal, la distribución de λ es desconocida y es preferible
utilizar λas que tiende a una chi cuadrado. Para muestras grandes no hace diferencia
d 2
cuál de las dos distribuciones utilizar, ya que JFJ,n−k → χJ .
Estos resultados indican entonces que si E (u) = 0, los términos de perturbación son
independientes entre sí y el proceso generador de X es independiente del proceso gene-
rador de u, entonces los resultados sobre inferencia estadística, pruebas de hipótesis y
estimación por intervalos son aproximadamente válidos en el caso límite.
121
6 Modelo de regresión con variables
dicótomas
Este capítulo sigue totalmente a Gujarati (2002) y Wooldridge (2002).
En general las variables de interés económico pueden clasicarse en cuatro categorías:
Escala de intervalo: la distancia d (x1 , x2 ) es una cantidad que tiene sentido (mas
no la proporción) y tienen un orden natural. Ejemplo: Tiempo (años).
Las técnicas econométricas que pueden ser adecuadas para las variables de escala de
proporción pueden no ser adecuadas para otros tipos de variables. Los modelos de re-
gresión pueden trabajar con variables de escala nominal, variables categóricas, variables
cualitativas o variables dicotómicas (dos categorías).
En el análisis de regresión, la variable dependiente está inuida no sólo por variables de
razón de escala (por ejemplo, ingreso, producción, precios, costos, estatura, temperatura)
sino también por variables que son esencialmente cualitativas por naturaleza (per ejemplo
sexo, raza, religión, nacionalidad, región geográca, aliación a un partido político). Las
variables cualitativas sí inuyen sobre la variable dependiente y deben ser incluidas dentro
de las variables explicativas.
Usualmente las variables cualitativas indican la presencia o ausencia de alguna cualidad
o atributo. Se pueden cuanticar con la generación de una variable binaria, la variable
indicador
(
1 si la característica está presente en la observación i
xi =
0 en caso contrario
Por ejemplo, el uno (1) puede indicar que el individuo es de sexo masculino y cero (0)
el caso contrario; o 1 puede indicar que una persona se ha graduado en la universidad y
0 que no lo ha hecho.
122
6 Modelo de regresión con variables dicótomas
Es fácil hacer pruebas de hipótesis acerca de diferencias en medias entre grupos diferentes
de observaciones. Al realizar la estimación OLS, suponiendo que se cumplen todos los
supuestos necesarios, pueden realizarse pruebas de signicancia sobre los parámetros que
acompañan a las variables dicótomas. Si estos coecientes son signicativos, entonces
estadísticamente es signicativa la diferencia en la variable dependiente entre grupos
distintos.
En general se tiene que el modelo con variables dicótomas es
Deben utilizarse m−1 variables dicótomas para una variable que tiene m categorías.
De lo contrario el modelo presenta multicolinealidad perfecta con parámetro de
intercepto.
123
6 Modelo de regresión con variables dicótomas
Ejemplo: Efecto diploma (sheepskin eect): podría pensarse que tener o no el título
universitario modica el efecto de la experiencia sobre el salario. Una forma de
modelar esto es:
k−1
X q
X q
k−1 X
X
yi = β 0 + βj xi1 + αl dil + γjl xij dil + ui
j=1 l=1 j=1 l=1
124
6 Modelo de regresión con variables dicótomas
Esta situación también podría pasar en cortes transversales (ej: comisiones de ventas
diferenciadas por el volumen de ventas: hay mayores comisiones si el volumen de ventas
supera cierto umbral). También puede suceder que el modelo de regresión es diferente
entre diferentes grupos.
En las secciones anteriores se vio cómo probar estadísticamente diferencias en medias
y pendientes entre grupos. Ahora nos concentramos en una prueba de hipótesis global
que responda a la pregunta: ¾existe diferencia (de cualquier tipo) en el modelo que siguen
dos grupos diferentes?
Suponga que se tiene una muestra de n observaciones y que existen dos grupos ex-
cluyentes en nuestra muestra. Cada grupo se denota por g = 1 y g = 2, y podrían ser
hombres y mujeres, graduados y no graduados, hispanos y no hispanos etc. Se quiere
probar si el intercepto y los parámetros de pendiente son iguales entre los dos grupos.
El modelo es
y = βg,0 + βg,1 x1 + · · · + βg,k−1 xk−1 + u
para g=1 y g=2 y la hipótesis nula a probar es
H0 : β1,j = β2,j
para j = 0, 1 . . . , k − 1.
Se puede generar la variable dicótoma d1 tal que
(
1 si la observación i pertenece al grupo 1
di1 =
0 en caso contrario
Note que en este modelo se permite que todos los parámetros del modelo sean diferentes
entre los dos grupos (determinados por la variable dicótoma d1 ).
El modelo restringido sería
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
H0 = α j = 0
con j = 0, 1 . . . , k − 1.
Note que se tiene un modelo no restringido y un modelo restringido, y se puede utilizar,
bajo los supuestos 4.4.1-4.4.5, la prueba F (en caso de normalidad) o su equivalente
asintótico (bajo los supuestos que acompañan al teorema de normalidad asintótica del
estimador OLS).
125
6 Modelo de regresión con variables dicótomas
SSRnd − SSRd
λ =
J σ̂ 2
n − 2k SSRnd − SSRd
=
k SSR
tiene una distribución conocida, siendo SSRnd la suma de residuales al cuadrado del
modelo restringido (sin variables dicótomas) y SSRd la suma de residuales al cuadrado
del modelo sin restringir (con variables dicótomas)
En nuestro caso se tiene que en el modelo sin restringir se están estimando 2k pará-
metros (los βj y los αj ) y hay k restricciones (que los αj sean cero).
Por el momento no hay nada novedoso al utilizar la prueba F. Sin embargo, hay una
forma alternativa de llevar a cabo este test. Suponga que se realizan dos regresiones
separadas, una para cada grupo
λ ∼ Fk,n−2k
Ejercicio: Demuestre que al correr dos regresiones separadas entre dos grupos se tiene
que
SSRd = SSR1 + SSR2
siendo SSRd la suma de residuales al cuadrado del modelo que incluye todas las
variables dicótomas.
126
6 Modelo de regresión con variables dicótomas
múltiples categorías? ¾Cómo utilizar el modelo de regresión lineal para explicar un evento
cualitativo?
En el caso más sencillo, la variable dependiente y puede tomar dos valores: cero o
uno. Por ejemplo, y puede indicar si un adulto completó la educación básica o no, si un
integrante de la PEA está participando en el mercado laboral o no o si una persona entre
15 y 45 años utiliza drogas alucinógenas.
En este caso el modelo de regresión lineal es el usual
y = β0 + β1 x1 + · · · + βk−1 xk−1 + u
Ahora, por ser y una variable dicótoma que toma valores de cero o uno, se tiene siempre
que
que indica que la probabilidad de éxito (P(y = 1|X)) es una función lineal en parámetros
de las variables explicativas. Así el parámetro βj puede interpretarse como el cambio
marginal en la probabilidad de éxito al cambiar marginalmente la variable xj :
∆P (y = 1|X) = βj ∆xj
127
6 Modelo de regresión con variables dicótomas
(
−β0 − β1 xi1 − · · · − βk−1 xik−1 si yi = 0, con probabilidad P (yi = 1|X)
ui |X =
1 − β0 − β1 xi1 − · · · − βk−1 xik−1 si yi = 1, con probabilidad 1 − P (yi = 1|X)
Sin el supuesto de normalidad deben sustentarse las pruebas de hipótesis por pro-
piedades asintóticas.
128
6 Modelo de regresión con variables dicótomas
129
7 Heteroscedasticidad y autocorrelación
Hasta este momento se ha utilizado el supuesto simplicador de homoscedasticidad
y no autocorrelación de los términos de perturbación (supuesto 4.4.5). Es decir, se ha
supuesto que
E u0 u|X = σ 2 In
5. Otro caso de violación del supuesto es por la propia construcción del modelo, como
en el caso del modelo de probabilidad lineal.
Todas estas situaciones implican que el supuesto 4.4.5 puede fallar. Cuando la varianza
de los términos de perturbación no es constante y depende de las variables explicativas,
se tieneheteroscedasticidad. Cuando la correlación entre los términos de perturbación
no son cero se habla de autocorrelación.
La pregunta es: ¾cómo estimar adecuadamente el modelo de regresión lineal cuando
hay autocorrelación y/o heteroscedasticidad?
130
7 Heteroscedasticidad y autocorrelación
donde L es una matriz triangular inferior con elementos en la diagonal diferentes de cero.
Esta es la descomposición de Cholesky y L es invertible.
La descomposición espectral indica que para toda matriz cuadrada A cuyos eigenvec-
tores son linealmente independientes es diagonalizable (es similar a una matriz diagonal):
A = EΛE −1
donde E= e1 . . . en es la matriz de rango completo que contiene a los vectores
λ1 . . . 0
.. . . .
.
propios y Λ = . es la matriz diagonal que contiene los eigenvalores
. .
0 ... λn
correspondientes. Si los eigenvectores se normalizan, entonces la descomposición es única
(por unicidad de los eigenvalores).
Si además la matriz A es simétrica entonces
A = A0
0
EΛE −1 = E −1 ΛE 0
E −1 = E 0
En ese caso
A = EΛE 0
1 1
= EΛ 2 Λ 2 E 0
A = LL0
1
y L = EΛ 2 es invertible si todos los valores propios de A son diferentes de cero.
y = Xβ + u
se dispone de una muestra aleatoria de tamaño n. Suponga que los Supuestos 4.4.1-4.4.4
se cumplen, pero que en lugar del supuesto de homoscedasticidad y no autocorrelación
se tiene que la matriz de varianzas y covarianzas del término de perturbación, en nuestra
muestra de tamaño n, satisface
E uu0 = σ 2 Ψ
131
7 Heteroscedasticidad y autocorrelación
El modelo lineal en este caso puede ser estimado utilizando la regla de mínimos cuadra-
dos ordinarios obtenida en el capítulo 4. En ese caso nos interesa analizar las propiedades
que satisface el estimador
−1
β̂ = X 0 X X 0y
dado que ahora se viola el supuesto de homoscedasticidad y no autocorrelación.
Se tiene que
−1 0
E β̂|X = β + X 0X X E (u|X)
= β
porque el supuesto 3.6.3 (E (u|X) = 0) sigue siendo válido. Así el estimador OLS aún es
insesgado.
La varianza condicionada del estimador OLS ahora va a ser diferente:
0
var β̂|X = E β̂ − β β̂ − β |X
0
0
−1 0 0
−1 0
= E XX Xu Xu XX |X
−1 0 0 −1
= E X 0X X uu X X 0 X |X
−1 0 −1
= X 0X X E uu0 |X X X 0 X
−1 0 −1
= σ2 X 0X X ΨX X 0 X
Ψ−1 = Q0 Q
donde Q = L−1 .
132
7 Heteroscedasticidad y autocorrelación
y∗ = Qy
X ∗ = QX
u∗ = Qu
y ∗ = X ∗ β + u∗
y = Xβ + u
Qy = QXβ + Qu
y ∗ = X ∗ β + u∗
y esta es una muestra aleatoria del modelo modicado dado que por el momento
suponemos que Q es una matriz conocida, y es constante.
E (u∗ |X ∗ ) = E (Qu|X ∗ )
= E (Qu|QX)
= E (Qu|X)
= QE (u|X)
= 0
133
7 Heteroscedasticidad y autocorrelación
Supuesto 5: Homoscedasticidad
Se debe calcular la matriz de varianzas-covarianzas del término de perturbación del
modelo modicado:
0
E u∗ u∗ |X = E Quu0 Q0 |X
= QE uu0 |X Q0
= σ 2 QΨQ0
−1 0
= σ 2 Q Q0 Q Q
2 −1 0 −1 0
= σ QQ Q Q
= σ 2 In
Este modelo modicado satisface los Supuestos 4.4.1-4.4.5, y por lo tanto el estimador
por mínimos cuadrados ordinarios para el modelo modicado es insesgado y BLUE (ver
subsección 4.4.4):
E β̂ ∗ |X = β
0 −1
var β̂ ∗ |X = σ2 X ∗ X ∗ ≤ var β̂|X
134
7 Heteroscedasticidad y autocorrelación
0 −1
var β̂ ∗ |X = σ2 X ∗ X ∗
−1
= σ 2 X 0 Q0 QX
−1
= σ 2 X 0 Ψ−1 X
−1 0 −1
var β̂|X = σ2 X 0X X ΨX X 0 X
Gauss-Markov) y β̂ no lo es.
Ejercicio: Una forma directa de ver que β̂ ya no es el mejor estimador lineal insesgado
es simplemente hacer
Por esta razón se tiene que β̂GLS es el llamado estimador por mínimos cuadrados
generalizados.
135
Bibliografía
Cohen, Ruben D.: Why do Random Samples Represent Populations so Accurately?
Journal of Chemical Education , 1991, 68(11), pp. 902903.
Greene, William H.: Econometric Analysis. Prentice Hall, 6ª edición, 2007. ISBN
0135132452.
Judge, George G.; Hill, R. C.; Griffiths, W. E.; Lütkepohl, H. y Lee, T.:
Introduction to the Theory and Practice of Econometrics. John Wiley, New York,
1982. ISBN 0471624144.
136