Regresion Multiple-Estimación 2022 1

|
Regresión Lineal Múltiple
Formulación y estimación del modelo de

regresión
Introducción
El proceso de investigación científica está constituido por fases a través de las

cuales el investigador maneja tres elementos y sus relaciones:
a. El problema a resolver
b. El objeto a investigar y
c. Su representación
Modelo:
Representación de la realidad que reproduce o aproxima los aspectos más
saltantes de la realidad y que por lo general se construye para ayudar a
resolver un modelo.
CLASIFICACION:
Modelos cuantitativos
Modelos cualitativos…
Ejemplos de situaciones donde se aplica el modelo de regresión múltiple:
 Predecir el costo de una vivienda en función de sus características

físicas y su ubicación.
 Explicar el rendimiento universitario, mediante variables sociales,
familiares, económicas, enseñanza y motivación del profesor,
materiales de estudio, tiempo que dedica para estudiar sus cursos.
 Rendimiento de gasolina, en % del crudo, en base a la gravedad
específica del crudo, presión de vapor del crudo, temperatura de
destilación al 10% del crudo (ºF), temperatura de final de destilación de
gasolina (ºF)
 Se quiere explicar la presión arterial sanguínea media, en función de la
edad, peso, área de la superficie corporal, duración de la hipertensión,
pulso básico, medición del estrés.
Usos de la regresión:
 Descripción de datos
 Estimac ión de pará metros
 Predicc ión y est imac ión
 Control
1.2. Modelo Lineal General
El modelo lineal general surge de la necesidad de expresar en forma

cuantitativa las relaciones entre un conjunto de variables, en la que una de
ellas es denominada variable dependiente o de respuesta y las otras
denominadas covariables, explicativas (regresoras) o independientes.
Y es una variable aleatoria cuya función de distribución de probabilidad
pertenece a una familia de distribuciones de probabilidades, y es explicada por
el conjunto “k” de variables regresoras las cuales son fijadas antes de conocer
Y.
E (Y / X1 , X 2 ,.........., X K )  0  1 X1  ........   K X K  
Si se extrae una muestra aleatoria de tamaño “n” de una población donde Y y

X1, X2,….., Xk , se relacionan linealmente, entonces cada observación de la
muestra puede expresarse como:
yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1,2 ,………,n (1)
Donde: E( i )  0 Var ( i )   2  ( i j )  0
Este modelo (1) puede representarse matricialmente como:
Y = Xβ  ε (2)
Ynx1 vector de variable dependiente (variable respuesta)

X nxp matriz de variables independientes ( variables regresoras)
px1 vector de parámetros desconocidos.
Xβ componente sistemática
ε nx1 componente aleatoria del error (perturbaciones).
Una característica distintiva del modelo lineal general, es que la variable
respuesta esta medida en escala métrica, mientras que las variables
regresoras pueden estar medidas en escala métrica o no métrica (numéricas
o categóricas); además de ser independientes entre sí.
1.2 MODELO DE REGRESIÓN LINEAL GENERAL

(Modelo de Regresión Lineal Múltiple)
Sabemos que los Modelos de Regresión estudian la relación estocástica

cuantitativa entre una variable de interés y un conjunto de variables
explicativas.
Sea Y la variable de interés, variable respuesta o dependiente y sean
x1,x2,...,xk las variables explicativas o regresoras.
Este es un modelo similar al modelo lineal general teniendo como diferencia
que en el modelo lineal general las variables independientes no son aleatorias
y en el modelo de regresión lineal general las variables son aleatorias.
Cuando todas las variables regresoras son continuas el modelo (1)
yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1,2 ,………,n
se denomina modelo de regresión lineal múltiple.
Modelo s in intercepto
Modelo con intercepto

Formulación del Modelo de Regresión Lineal Múltiple
yi  f ( x1 , x2 , ......., xk )  g ( xk 1 , xk  2 , ......., xn )
yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1 ,2,………,n (1)
Con E( i )  0 Var ( i )   2  ( i j )  0

Donde:
Yi: v. respuesta
X1,X2, ….,XKj : v. independiente s
εij : v.a. error
Es decir, tenemos un sistema de ecuaciones donde cada una establece la

relación entre la endógena y las exógenas en un momento del tiempo.
Matricialmente se escribe:
1.
2.
La expresión matricial del modelo de regresión múltiple es la siguiente:
Y = Xβ  ε
El modelo estimado puede expresarse en forma matricial:

ˆ ˆ
Y =Xβ
y
ˆ
Y− Y = e residuales
SUPUESTOS BÁSICOS
La siguiente tabla presenta los supuestos del MRLM.
HIPÓT ESIS del Modelo de Regresión Lineal Gene ral

En base a la va r.
En base a la va r. resp uesta Y
erro r ε i
E =
E = 0
0+ 1 x i 1 + 2 x i 2 + ... + k x ik
Ho mocedasticidad Ho mocedasticidad
2 2
V ar = V ar =
Independencia,
Cov = 0 los Independencia las observaciones,
errores, i, son y i , son independientes
independientes
Nor malidad Nor malidad
2
i N(0, ) Y/ x i 1 , x i 2 ,..., x i k ~ N 2
)
n > k + 1 n > k + 1
Las variables
regresoras son Las variables regresoras
linealmente son linealmente independientes
independientes
Los errores tienen los siguientes supuestos:
1)
E ( i )  0 i  1, 2,...., n
Var ( i )   2 i  1, 2,......, n
2)
 ( i j )  0  i j
3)
4)
i N (0,  2 )
Matricialmente se tiene que:
ε N n (0,  2I)
5) n>k+1
6) Ninguna de las variables regresoras es una combinación lineal exacta de

las demás, es decir son linealmente independientes.
La siguiente tabla presenta los supuestos del MRLM.
1.3. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
Estimación de β.
Sabemos que:
ei = yi −ŷi
ei = yi − (β̂0 + β̂1 x1i + β̂2 x2i +. . .β̂k xki )
Son los parám etros estim ados del m odelo
1.3.1. MÉTODO MÍNIMOS CUADRADOS
El estimador de mínimos cuadrados de β, denotado por βˆ, es el valor de β

que minimiza
Por lo tanto, lo que se debe hacer es derivar la expresión anterior y buscar el

valor de β que la hace igual a cero. Se puede escribir como
Derivando e igualando a cero

S
0
β βˆ
se obtiene
Estas son las ecuaciones normales de mínimos cuadrados
Por lo tanto el estimador de β por mínimos cuadrados es:

Interpretación de los coeficientes de regresión:
En este caso representa el cambio esperado en la variable de respuesta, por

cada unidad de cambio en la variable regresora Xi cuando las demás
variables regresoras Xij (i≠j) permanecen constantes.
βˆj j=1…k son llamados Coeficientes de Regresión parcial
1.3.2 METODO MAXIMA VEROSIMILITUD
En el modelo RLM:
El error se distribuye como una normal p variante
Y se distribuye normalmente….
Entonces
Si es una matriz no singular entonces la distribución puede describirse por
la siguiente función de densidad
L=
donde es el determinante de . Nótese como la ecuación de arriba se

reduce a la distribución normal si es un escalar (es decir, una matriz 1x1).
El vector μ en estas circunstancias es la esperanza de X y la
matriz es la matriz de covarianza de las componentes Xi.
Para encontrar los estimadores MV de los parámetros del modelo tenemos:
Las perturbaciones aleatorias o errores tiene n distribución:

1
1  2  i2
i N (0,  )  f ( i ) 
2
e 2
 2
La función de verosimilitud conjun ta es :
n
i2
1
n 
1
 f ( )    2 
n
2 2
 como ε'ε  (y - xβ)' (y - xβ)    i2

i 1
i n n/2
e
i 1 i 1
Se tiene que :
1
 y-xβ '  y-xβ 
L  y, x, β,     f ( i ) 
n 
2 1 2 2
e
 n  2 
n/2
i 1
Se requiere obtener estimadores que minimic en la suma de cuadrados de los residuos, lo
que significa encontrar estimadores que maximicen el logaritmo de la función de
verosimilitud :
ln  L  y, x, β,  2     ln(2 )  n ln( ) 
n 1
2 
y - xβ   y - xβ 
'
2 2
𝜕𝐿
Derivando parcialmente con respecto a  0 , 1 ,...........,  k ,  2 ,esto es | =𝟎
𝜕𝜷 𝜷
̂
y definiendo 0 , 1 ,..........., k ,  2 como los estimadores máximo verosímil es se obtiene:

ln  L  y, x,β,  2   0   yi  n0  1  x j1   2  x j 2  ...................   k  x jk
n n n n
0 i 1 j 1 j 1 j 1

ln  L  y, x,β,  2   0   yi x j1  0  x j1  1  x 2j1  ...................   k  x j1 x jk
n n n n
1 i 1 j 1 j 1 j 1
.
.

ln  L  y, x,β,  2   0   yi x jk  0  x jk  1  x j1 x jk  ...................  k  x 2jk
n n n n
k i 1 j 1 j 1 j 1
Encontrando:
̂ = 𝑿’𝒚 ⇒
𝑿’𝑿𝜷 ecuaciones normales
El es timador para el vector beta de los parámetros beta es:
β   X'X  X'y
-1

1.3.3 ESTIMACIÓN DE LA VARIANZA RESIDUAL
Se sabe que algunas formas de expresión de la suma de cuadrados del error

son:
1. SCE = Y’Y - β̂ X’X β̂

2. SCE = Y’(I-H) Y
Se tiene que e = (I - H)Y

1 '
SCE  e'e = Y (I - H)Y
n
Se sabe que SCE tiene (n-p) grados de libertad entonces:
SCE
CME 
n p
También se sabe que E(CME )  
2
Un estimador insesgado de 2 es:

n
SCE i 1 e 2
i
ˆ 2  CME  
n p n p
Tarea:
Revisar distribución de la varianza residual : Ver demostración detallada en: Introducción

al Aná lisis de Regresión lineal – Mon tgomery -Peck-Vining. Apéndice C.3 pág 535.
También mediante la función de verosimilitud e l estimador para la varianza es:
 (y - Xβ)'(y - Xβ)
ln  L  y, x,β,  2    0   2 
 2
n
2 𝑆𝐶𝑅𝑒𝑠
𝜎
̃ =
𝑛−𝑝
1.3.4 MINIMOS CUADRADOS GENERALIZADOS
Se considera la situación más general cuando:

La matriz de covarianzas del vector ε es V y no σ2I.
Supongamos que: Cov(ε ) = V donde V es una matriz simétrica y definida
positiva.
Lo que buscamos es minimizar ε´V ε , es decir:
S = SCE = (Y-Xβ)´ V-1 (Y-Xβ)

SCE = Y´V-1Y - Y´V-1 β - β´X´V-1Y + β´X´V-1Xβ
SCE = Y´V-1Y - 2β´X´V-1Y + β´X´V-1Xβ

S
0
β βˆ
- 2X´V-1Y + 2X´V-1Xβ = 0
- X´V-1Y + X´V-1Xβ = 0
X´V-1Xβ = X´V-1Y
^β = (X´V-1X)-1 X´V-1Y
1.3.5 TEOREMA GAUSS-MARKOV
TEOREMA: El Mejor Estimador Lineal Insesgado de varianza mínima para β

en el modelo lineal Y = Xβ  ε es
βˆ  ( X'X) 1 X'y es el MELI
Demostración: Tarea
1.3.1.2.Interpretación Geométrica
Espacio de X
Ŷ
MMC:
Encontrar un Y^ que pertenezca a un subespacio definido y que esté lo más

cercano posible a Y; es decir, tomar un Y^ como proyección ortogonal de Y
sobre dicho subespacio.
Se tiene: Y = Yˆ +e
Pero como Ŷ = HY con H idempotente y simétrica
Además e = (I - H)Y es decir los residuos son una proyección de Y sobre
un espacio ortogonal definido por H.
Propiedades estadísticas de los estimadores M.C.O.

1. E (Y) = Xβ
2. V(Y) = V(Xβ+ε) = σ2 I
3. E (β^) = β es insesgado
4. Cov (β^) = V(β^) = σ2 (X´X)-1
5. V(β^j) = σ2 Cjj
6. Sea Y^ = Xβ^ entonces E (Y^) = XE(β^) = Xβ
7. V(Y^) = σ2 X(X´X)-1X´ = σ2 H
8. H matriz hat, sombrero, proyección de rango p y además idempotente.
9. Sea Y^ = Xβ^ = X(X´X)-1X´ Y = HY
Y^ = HY vector proyección
Propiedades algebraicas de los estimadores M.C.O.
1. La suma de los residuales en todo modelo de regresión que contiene el
intercepto es siempre 0
2. ∑ (Yi - Y^i ) = ∑℮i = 0
3. e'e = 0 para cualquier modelo de regresión que contenga una ordenada

en el origen.
n n
 yi   yˆi
i 1 i 1
4. La suma de valores observados
5. El producto cruzado muestral entre cada uno de los regresores y los
'
residuos mco es X e = 0
6. ˆ 'e  0
Y
Tarea: Pruebe es tas propiedades

Regresion Multiple-Estimación 2022 1

Cargado por

Copyright:

Formatos disponibles

Regresion Multiple-Estimación 2022 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Multiple-Estimación 2022 1

Cargado por

Copyright:

Formatos disponibles

|

Regresión Lineal Múltiple

Formulación y estimación del modelo de

El proceso de investigación científica está constituido por fases a través de las

Ejemplos de situaciones donde se aplica el modelo de regresión múltiple:

 Predecir el costo de una vivienda en función de sus características

1.2. Modelo Lineal General

El modelo lineal general surge de la necesidad de expresar en forma

Si se extrae una muestra aleatoria de tamaño “n” de una población donde Y y

yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1,2 ,………,n (1)

Donde: E( i )  0 Var ( i )   2  ( i j )  0

Este modelo (1) puede representarse matricialmente como:

Ynx1 vector de variable dependiente (variable respuesta)

1.2 MODELO DE REGRESIÓN LINEAL GENERAL

Sabemos que los Modelos de Regresión estudian la relación estocástica

yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1,2 ,………,n

se denomina modelo de regresión lineal múltiple.

Modelo con intercepto

yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1 ,2,………,n (1)

Con E( i )  0 Var ( i )   2  ( i j )  0

Es decir, tenemos un sistema de ecuaciones donde cada una establece la

El modelo estimado puede expresarse en forma matricial:

La siguiente tabla presenta los supuestos del MRLM.

HIPÓT ESIS del Modelo de Regresión Lineal Gene ral

6) Ninguna de las variables regresoras es una combinación lineal exacta de

La siguiente tabla presenta los supuestos del MRLM.

1.3. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO

Son los parám etros estim ados del m odelo

1.3.1. MÉTODO MÍNIMOS CUADRADOS

El estimador de mínimos cuadrados de β, denotado por βˆ, es el valor de β

Por lo tanto, lo que se debe hacer es derivar la expresión anterior y buscar el

Derivando e igualando a cero

Estas son las ecuaciones normales de mínimos cuadrados

Por lo tanto el estimador de β por mínimos cuadrados es:

En este caso representa el cambio esperado en la variable de respuesta, por

1.3.2 METODO MAXIMA VEROSIMILITUD

donde es el determinante de . Nótese como la ecuación de arriba se

Para encontrar los estimadores MV de los parámetros del modelo tenemos:

Las perturbaciones aleatorias o errores tiene n distribución:

 como ε'ε  (y - xβ)' (y - xβ)    i2

y definiendo 0 , 1 ,..........., k ,  2 como los estimadores máximo verosímil es se obtiene:

El es timador para el vector beta de los parámetros beta es:

1.3.3 ESTIMACIÓN DE LA VARIANZA RESIDUAL

Se sabe que algunas formas de expresión de la suma de cuadrados del error

1. SCE = Y’Y - β̂ X’X β̂

Se tiene que e = (I - H)Y

Un estimador insesgado de 2 es:

Revisar distribución de la varianza residual : Ver demostración detallada en: Introducción

También mediante la función de verosimilitud e l estimador para la varianza es:

1.3.4 MINIMOS CUADRADOS GENERALIZADOS

Se considera la situación más general cuando:

S = SCE = (Y-Xβ)´ V-1 (Y-Xβ)

SCE = Y´V-1Y - 2β´X´V-1Y + β´X´V-1Xβ

1.3.5 TEOREMA GAUSS-MARKOV

TEOREMA: El Mejor Estimador Lineal Insesgado de varianza mínima para β

βˆ  ( X'X) 1 X'y es el MELI

Encontrar un Y^ que pertenezca a un subespacio definido y que esté lo más

Propiedades estadísticas de los estimadores M.C.O.

3. e'e = 0 para cualquier modelo de regresión que contenga una ordenada