Regresion Multiple-Estimación 2022 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

|

Regresión Lineal Múltiple

Formulación y estimación del modelo de


regresión
Introducción

El proceso de investigación científica está constituido por fases a través de las


cuales el investigador maneja tres elementos y sus relaciones:
a. El problema a resolver
b. El objeto a investigar y
c. Su representación

Modelo:
Representación de la realidad que reproduce o aproxima los aspectos más
saltantes de la realidad y que por lo general se construye para ayudar a
resolver un modelo.

CLASIFICACION:
Modelos cuantitativos
Modelos cualitativos…

Ejemplos de situaciones donde se aplica el modelo de regresión múltiple:

 Predecir el costo de una vivienda en función de sus características


físicas y su ubicación.
 Explicar el rendimiento universitario, mediante variables sociales,
familiares, económicas, enseñanza y motivación del profesor,
materiales de estudio, tiempo que dedica para estudiar sus cursos.
 Rendimiento de gasolina, en % del crudo, en base a la gravedad
específica del crudo, presión de vapor del crudo, temperatura de
destilación al 10% del crudo (ºF), temperatura de final de destilación de
gasolina (ºF)
 Se quiere explicar la presión arterial sanguínea media, en función de la
edad, peso, área de la superficie corporal, duración de la hipertensión,
pulso básico, medición del estrés.

Usos de la regresión:
 Descripción de datos
 Estimac ión de pará metros
 Predicc ión y est imac ión
 Control

1.2. Modelo Lineal General

El modelo lineal general surge de la necesidad de expresar en forma


cuantitativa las relaciones entre un conjunto de variables, en la que una de
ellas es denominada variable dependiente o de respuesta y las otras
denominadas covariables, explicativas (regresoras) o independientes.
Y es una variable aleatoria cuya función de distribución de probabilidad
pertenece a una familia de distribuciones de probabilidades, y es explicada por
el conjunto “k” de variables regresoras las cuales son fijadas antes de conocer
Y.

E (Y / X1 , X 2 ,.........., X K )  0  1 X1  ........   K X K  

Si se extrae una muestra aleatoria de tamaño “n” de una población donde Y y


X1, X2,….., Xk , se relacionan linealmente, entonces cada observación de la
muestra puede expresarse como:

yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1,2 ,………,n (1)

Donde: E( i )  0 Var ( i )   2  ( i j )  0

Este modelo (1) puede representarse matricialmente como:

Y = Xβ  ε (2)

Ynx1 vector de variable dependiente (variable respuesta)


X nxp matriz de variables independientes ( variables regresoras)
px1 vector de parámetros desconocidos.
Xβ componente sistemática
ε nx1 componente aleatoria del error (perturbaciones).
Una característica distintiva del modelo lineal general, es que la variable
respuesta esta medida en escala métrica, mientras que las variables
regresoras pueden estar medidas en escala métrica o no métrica (numéricas
o categóricas); además de ser independientes entre sí.

1.2 MODELO DE REGRESIÓN LINEAL GENERAL


(Modelo de Regresión Lineal Múltiple)

Sabemos que los Modelos de Regresión estudian la relación estocástica


cuantitativa entre una variable de interés y un conjunto de variables
explicativas.
Sea Y la variable de interés, variable respuesta o dependiente y sean
x1,x2,...,xk las variables explicativas o regresoras.
Este es un modelo similar al modelo lineal general teniendo como diferencia
que en el modelo lineal general las variables independientes no son aleatorias
y en el modelo de regresión lineal general las variables son aleatorias.
Cuando todas las variables regresoras son continuas el modelo (1)

yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1,2 ,………,n

se denomina modelo de regresión lineal múltiple.

Modelo s in intercepto

Modelo con intercepto


Formulación del Modelo de Regresión Lineal Múltiple

yi  f ( x1 , x2 , ......., xk )  g ( xk 1 , xk  2 , ......., xn )

yi  0 + 1 x1 + 2 x2 +.......+ k xk   i i=1 ,2,………,n (1)

Con E( i )  0 Var ( i )   2  ( i j )  0


Donde:

Yi: v. respuesta
X1,X2, ….,XKj : v. independiente s
εij : v.a. error

Es decir, tenemos un sistema de ecuaciones donde cada una establece la


relación entre la endógena y las exógenas en un momento del tiempo.
Matricialmente se escribe:

1.

2.
La expresión matricial del modelo de regresión múltiple es la siguiente:

Y = Xβ  ε

El modelo estimado puede expresarse en forma matricial:


ˆ ˆ
Y =Xβ
y
ˆ
Y− Y = e residuales

SUPUESTOS BÁSICOS

La siguiente tabla presenta los supuestos del MRLM.

HIPÓT ESIS del Modelo de Regresión Lineal Gene ral


En base a la va r.
En base a la va r. resp uesta Y
erro r ε i
E =
E = 0
0+ 1 x i 1 + 2 x i 2 + ... + k x ik

Ho mocedasticidad Ho mocedasticidad

2 2
V ar = V ar =
Independencia,
Cov = 0 los Independencia las observaciones,
errores, i, son y i , son independientes
independientes
Nor malidad Nor malidad

2
i N(0, ) Y/ x i 1 , x i 2 ,..., x i k ~ N 2
)
n > k + 1 n > k + 1
Las variables
regresoras son Las variables regresoras
linealmente son linealmente independientes
independientes
Los errores tienen los siguientes supuestos:

1)
E ( i )  0 i  1, 2,...., n

Var ( i )   2 i  1, 2,......, n
2)

 ( i j )  0  i j
3)
4)
i N (0,  2 )
Matricialmente se tiene que:
ε N n (0,  2I)

5) n>k+1

6) Ninguna de las variables regresoras es una combinación lineal exacta de


las demás, es decir son linealmente independientes.

La siguiente tabla presenta los supuestos del MRLM.

1.3. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO

Estimación de β.

Sabemos que:

ei = yi −ŷi
ei = yi − (β̂0 + β̂1 x1i + β̂2 x2i +. . .β̂k xki )

Son los parám etros estim ados del m odelo

1.3.1. MÉTODO MÍNIMOS CUADRADOS

El estimador de mínimos cuadrados de β, denotado por βˆ, es el valor de β


que minimiza

Por lo tanto, lo que se debe hacer es derivar la expresión anterior y buscar el


valor de β que la hace igual a cero. Se puede escribir como

Derivando e igualando a cero


S
0
β βˆ

se obtiene

Estas son las ecuaciones normales de mínimos cuadrados

Por lo tanto el estimador de β por mínimos cuadrados es:


Interpretación de los coeficientes de regresión:

En este caso representa el cambio esperado en la variable de respuesta, por


cada unidad de cambio en la variable regresora Xi cuando las demás
variables regresoras Xij (i≠j) permanecen constantes.
βˆj j=1…k son llamados Coeficientes de Regresión parcial

1.3.2 METODO MAXIMA VEROSIMILITUD

En el modelo RLM:
El error se distribuye como una normal p variante
Y se distribuye normalmente….
Entonces
Si es una matriz no singular entonces la distribución puede describirse por
la siguiente función de densidad

L=

donde es el determinante de . Nótese como la ecuación de arriba se


reduce a la distribución normal si es un escalar (es decir, una matriz 1x1).
El vector μ en estas circunstancias es la esperanza de X y la
matriz es la matriz de covarianza de las componentes Xi.

Para encontrar los estimadores MV de los parámetros del modelo tenemos:

Las perturbaciones aleatorias o errores tiene n distribución:


1
1  2  i2
i N (0,  )  f ( i ) 
2
e 2
 2
La función de verosimilitud conjun ta es :
n
i2
1
n 
1
 f ( )    2 
n
2 2

 como ε'ε  (y - xβ)' (y - xβ)    i2


i 1
i n n/2
e
i 1 i 1

Se tiene que :
1
 y-xβ '  y-xβ 
L  y, x, β,     f ( i ) 
n 
2 1 2 2
e
 n  2 
n/2
i 1
Se requiere obtener estimadores que minimic en la suma de cuadrados de los residuos, lo
que significa encontrar estimadores que maximicen el logaritmo de la función de
verosimilitud :
ln  L  y, x, β,  2     ln(2 )  n ln( ) 
n 1
2 
y - xβ   y - xβ 
'

2 2
𝜕𝐿
Derivando parcialmente con respecto a  0 , 1 ,...........,  k ,  2 ,esto es | =𝟎
𝜕𝜷 𝜷
̂

y definiendo 0 , 1 ,..........., k ,  2 como los estimadores máximo verosímil es se obtiene:


ln  L  y, x,β,  2   0   yi  n0  1  x j1   2  x j 2  ...................   k  x jk
n n n n

0 i 1 j 1 j 1 j 1


ln  L  y, x,β,  2   0   yi x j1  0  x j1  1  x 2j1  ...................   k  x j1 x jk
n n n n

1 i 1 j 1 j 1 j 1
.
.


ln  L  y, x,β,  2   0   yi x jk  0  x jk  1  x j1 x jk  ...................  k  x 2jk
n n n n

k i 1 j 1 j 1 j 1

Encontrando:
̂ = 𝑿’𝒚 ⇒
𝑿’𝑿𝜷 ecuaciones normales

El es timador para el vector beta de los parámetros beta es:

β   X'X  X'y
-1

1.3.3 ESTIMACIÓN DE LA VARIANZA RESIDUAL

Se sabe que algunas formas de expresión de la suma de cuadrados del error


son:

1. SCE = Y’Y - β̂ X’X β̂


2. SCE = Y’(I-H) Y

Se tiene que e = (I - H)Y


1 '
SCE  e'e = Y (I - H)Y
n
Se sabe que SCE tiene (n-p) grados de libertad entonces:

SCE
CME 
n p
También se sabe que E(CME )  
2

Un estimador insesgado de 2 es:


n

SCE i 1 e 2
i
ˆ 2  CME  
n p n p
Tarea:

Revisar distribución de la varianza residual : Ver demostración detallada en: Introducción


al Aná lisis de Regresión lineal – Mon tgomery -Peck-Vining. Apéndice C.3 pág 535.

También mediante la función de verosimilitud e l estimador para la varianza es:

 (y - Xβ)'(y - Xβ)
ln  L  y, x,β,  2    0   2 
 2
n

2 𝑆𝐶𝑅𝑒𝑠
𝜎
̃ =
𝑛−𝑝

1.3.4 MINIMOS CUADRADOS GENERALIZADOS

Se considera la situación más general cuando:


La matriz de covarianzas del vector ε es V y no σ2I.
Supongamos que: Cov(ε ) = V donde V es una matriz simétrica y definida
positiva.
Lo que buscamos es minimizar ε´V ε , es decir:

S = SCE = (Y-Xβ)´ V-1 (Y-Xβ)


SCE = Y´V-1Y - Y´V-1 β - β´X´V-1Y + β´X´V-1Xβ

SCE = Y´V-1Y - 2β´X´V-1Y + β´X´V-1Xβ


S
0
β βˆ

- 2X´V-1Y + 2X´V-1Xβ = 0
- X´V-1Y + X´V-1Xβ = 0
X´V-1Xβ = X´V-1Y
^β = (X´V-1X)-1 X´V-1Y

1.3.5 TEOREMA GAUSS-MARKOV

TEOREMA: El Mejor Estimador Lineal Insesgado de varianza mínima para β


en el modelo lineal Y = Xβ  ε es

βˆ  ( X'X) 1 X'y es el MELI

Demostración: Tarea

1.3.1.2.Interpretación Geométrica

Espacio de X

MMC:

Encontrar un Y^ que pertenezca a un subespacio definido y que esté lo más


cercano posible a Y; es decir, tomar un Y^ como proyección ortogonal de Y
sobre dicho subespacio.
Se tiene: Y = Yˆ +e
Pero como Ŷ = HY con H idempotente y simétrica
Además e = (I - H)Y es decir los residuos son una proyección de Y sobre
un espacio ortogonal definido por H.

Propiedades estadísticas de los estimadores M.C.O.


1. E (Y) = Xβ

2. V(Y) = V(Xβ+ε) = σ2 I
3. E (β^) = β es insesgado
4. Cov (β^) = V(β^) = σ2 (X´X)-1

5. V(β^j) = σ2 Cjj
6. Sea Y^ = Xβ^ entonces E (Y^) = XE(β^) = Xβ

7. V(Y^) = σ2 X(X´X)-1X´ = σ2 H
8. H matriz hat, sombrero, proyección de rango p y además idempotente.
9. Sea Y^ = Xβ^ = X(X´X)-1X´ Y = HY
Y^ = HY vector proyección
Propiedades algebraicas de los estimadores M.C.O.
1. La suma de los residuales en todo modelo de regresión que contiene el
intercepto es siempre 0
2. ∑ (Yi - Y^i ) = ∑℮i = 0

3. e'e = 0 para cualquier modelo de regresión que contenga una ordenada


en el origen.
n n

 yi   yˆi
i 1 i 1
4. La suma de valores observados
5. El producto cruzado muestral entre cada uno de los regresores y los
'
residuos mco es X e = 0

6. ˆ 'e  0
Y

Tarea: Pruebe es tas propiedades

También podría gustarte