Tema 5

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 33

Tema 5

REGRESIÓN CON DOS


VARIABLES:
INTERVALOS DE
CONFIANZA Y
PRUEBAS DE
HIPÓTESIS
MARÍA EUGENIA APARICIO TORRICO
MODELO CLÁSICO DE
REGRESIÓN LINEAL NORMAL
DISTRIBUCIÓN DE PROBABILIDAD DE LAS PERTURBACIONES i
Para hallar las distribuciones de probabilidad de los estimadores MCO,
sabemos que:
  x i Yi
2    k i Yi   k i (1   2 X i   i )
 xi
2

Debido a que la betas y X son fijas, los coeficientes ̂1 y ̂ 2 serán una
función lineal de i que es aleatoria. Por lo tanto, la distribución de
probabilidad de los coeficientes estimados dependerá de la suposición que
se haga respecto a la distribución de probabilidad de i.

Como el método de MCO no hace ningún supuesto sobre la distribución de


probabilidad de i este vacío se llena suponiendo que:

LAS  TIENEN UNA DISTRIBUCIÓN NORMAL.


SUPUESTO DE NORMALIDAD

La regresión lineal normal clásica supone que cada i está normalmente


distribuida con:
Media: E(ˆ  )  0
Varianza: V i / X i    2
Covarianza: Covi ,  j   0

Estos supuestos se resumen como: i~N (0, 2) (1)


Se puede observar que para dos variables normalmente distribuidas,
una covarianza de 0 significa independencia entre las dos variables.
Luego, bajo el supuesto de normalidad (1) significa que i no solo no
está correlacionada, sino que están independientemente distribuidas.
RAZONES QUE JUSTIFICAN EL
SUPUESTO DE NORMALIDAD
1. Gracias al TLC , se sabe que si existe un gran número de variables
aleatorias independientes e igualmente distribuidas, entonces la
distribución de su suma tiende a ser normal a medida que el
número de tales variables se incremente indefinidamente.

2. Una variante del TLC dice que aunque el número de variables no


sea muy grande, o si estas no son independientes, su suma puede
aún distribuirse normalmente.

3. Con el supuesto de normalidad, la distribución de probabilidad de


los estimadores MCO se deduce a partir de una propiedad de la
distribución normal que establece que cualquier función de
variables normalmente distribuidas se distribuirá también
normalmente.
RAZONES QUE JUSTIFICAN EL
SUPUESTO DE NORMALIDAD
4. La distribución normal es una distribución sencilla que involucra
dos parámetros (la media y la varianza) , es muy conocida y sus
propiedades teóricas han sido ampliamente estudiadas por la
estadística.

5. Por último, si se trabaja con muestras finitas, digamos de 100 o


menos datos, el supuesto de normalidad juega un papel crítico
puesto que no solo ayuda a derivar la distribución de probabilidad
de los estimadores de MCO, sino también permite usar pruebas
estadísticas t, F y 2 para los modelos de regresión
Propiedades de los estimadores
MCO bajo el supuesto de
normalidad
1. Son insesgados.

2. Son consistentes.

3. Son eficientes.

4. ̂1 ~ N 1,2 (̂1)

5. ̂ 2 ~ N 2,2 (̂ )
2
Propiedades de los
estimadores MCO bajo el
supuesto de normalidad
6. (n-2)(̂ 2 /2 ) está distribuida como una 2 con
(n-2) grados de libertad.

7. ( ̂1 , ̂ 2 ) se distribuyen de manera independiente


de ̂ .
2

8. ̂1 y ̂ 2 tienen varianza mínima entre todas las


clases de estimadores insesgados, sean estos
lineales o no lineales. Son MEI.
ESTIMACIÓN DE
INTERVALOS: IDEAS BÁSICAS
Recordemos que en lugar de depender de un estimador
puntual, se puede construir un intervalo alrededor del
estimador puntual con 1- probabilidad. Esta es la idea
básica de la estimación por intervalos.
Se desea saber qué tan cerca está un estimador ̂ de . Con
este fin tratamos de encontrar 2 números positivos  y ,
el último entre 0 y 1; tal que:

Pr ( ̂ -     ̂ +  ) = 1- (2)
ESTIMACIÓN DE
INTERVALOS: IDEAS BÁSICAS
Se debe tomar en cuenta los siguientes aspectos en la
estimación de intervalos:

 La ecuación (2) indica que la probabilidad de construir un


intervalo que contenga  es de 1-.

 La ecuación (2) es un intervalo aleatorio, es decir que


variará de una muestra a otra debido a que está basado en
̂, el cual es aleatorio.
ESTIMACIÓN DE
INTERVALOS: IDEAS BÁSICAS
 Al ser aleatorio el intervalo de confianza, estos deben
ser entendidos en un sentido de LP. Su interpretación
será que: en el LP, en promedio tales intervalos
contendrán en 1- de los casos el verdadero
valor del parámetro.

 El intervalo de la ecuación (2) es aleatorio siempre y


cuando ̂ sea desconocido. Una vez que se tenga el
valor de ̂ a través de una muestra específica, el
intervalo deja de ser aleatorio y toma un valor fijo
Intervalos de confianza para
los coeficientes 1 y 2
Intervalo de confianza para 1
Partimos de : ̂1 ~ N 1,2 (̂1)
ˆ 1  1 ˆ 1  1
Luego, la variable: t  s(ˆ ) 
1  X 2
i 
/ n  x i2 

Como  es desconocida, en la práctica se utiliza ̂


ˆ 1  1 ˆ 1  1
Entonces: t  Luego:
s(ˆ 1 )

 X 2
i / n  x i2 
ˆ
ˆ  t s(ˆ )
Intervalo de confianza de 1- para 1= 1 /2 1
Intervalos de confianza para
los coeficientes 1 y 2
Intervalo de confianza para 2
Partimos de : ̂ 2 ~ N 2,2( ̂2)
ˆ2   2 ˆ2   2
t 
Luego, la variable: ˆ
S (  2 )  /  xi2

Como  es desconocida, en la práctica se utiliza


Entonces: t  ˆ 2   2  ˆ 2   2 Luego:
s(ˆ 2 ) ˆ / x 2
i

Intervalo de confianza de 1- para 2= ˆ 2  t  / 2s(ˆ 2 )


INTERVALO DE CONFIANZA
PARA 2
Bajo el supuesto de normalidad:
(n  2)ˆ 2 ~ 2 con (n-2)gl
2
Así se deriva que un intervalo de confianza de 1- para 2 es:

 ˆ 2 ˆ 2

P n  2  2    n  2 2   1  
2

  / 2 1 / 2 

Interpretación: Se acertará a LP el 1- % de las


veces que entre los dos límites caerá el verdadero 2.
PRUEBA DE HIPÓTESIS
Enfoque del intervalo de confianza
En la prueba de hipótesis se puede asumir 2 enfoques:
 Enfoque del intervalo de confianza
Las hipótesis pueden ser:
1) Ho :i = c vs HA :  i  c NS=

El intervalo equivalente será: ˆ  t


i /2 s (ˆ )
i 
t (n-2.)
-t72 0 t72
PRUEBA DE HIPÓTESIS
Enfoque del intervalo de confianza
2) Ho :i  c vs HA : i  c NS=

El intervalo equivalente será: (ˆ i  t s(ˆ i ); )

0 t
PRUEBA DE HIPÓTESIS
Enfoque del intervalo de confianza
3) Ho :i  c vs HA : i  c NS=

El intervalo equivalente será: ( ; ˆi  t s ( ˆi ))

-t 0
PRUEBA DE HIPÓTESIS
Enfoque de prueba clásica
Una prueba de significancia es un procedimiento
mediante el cual se utilizan los resultados
muestrales para verificar la verdad o falsedad de
una hipótesis nula.
Ho :i = c vs HA : i  c NS=
La prueba a utilizar es la prueba:

ˆ i  c
t con (n-2) g.l.
s(ˆ i )
PRUEBA DE HIPÓTESIS
Enfoque de prueba clásica
Para probar una hipótesis respecto a 2:
Ho : 2 = c vs HA : 2  c NS=

ˆ 2
 2  n  2 2 con (n-2)g.l.

2 ( g.l. )
2
/2  2
1-/2
PRUEBA DE HIPÓTESIS
Significancia de los coeficientes
Es un procedimiento mediante el cual se determina si un
coeficiente es o no estadísticamente significativo, es decir
se probará si los coeficientes 1 y 2 merecen o no ser
incluidos dentro del modelo. Las hipótesis a probar son:

Ho :i = 0 vs HA : i  0 NS=
ˆ i
t con (n-2) g.l.
s(ˆ i )
La prueba de hipótesis referida al coeficiente 2 nos
permite evaluar la significancia de la variable explicatoria.
NIVEL EXACTO DE
SIGNIFICANCIA: “p VALUE”
Una desventaja del método clásico de la prueba de hipótesis
es la selección arbitraria de . Una vez obtenido el
estadístico de prueba, la idea es consultar la tabla
estadística apropiada y encontrar la probabilidad real de
obtener un estadístico de prueba tan grande o mayor que
el obtenido en el ejemplo.
Esta probabilidad de denomina valor p ó nivel exacto de
significancia. Este valor nos da la probabilidad por
encima la cual se rechaza la hipótesis nula y por
debajo la cual se acepta.
Así es mejor no fijar de forma arbitraria  , sino, escoger el
valor p del estadístico de prueba.
ANÁLISIS DE REGRESIÓN Y
PREDICCIÓN
Se trata de predecir el valor futuro de la variable
dependiente correspondiente a un nivel dado de
la variable explicatoria.

Hay dos clases de predicciones:

1) Predicción media
2) Predicción individual
ANÁLISIS DE REGRESIÓN Y
PREDICCIÓN
1) Predicción media
Sabemos que: E(Y Xi) = 1 + 2Xi un estimador de este será:

Ŷi  ˆ 1  ˆ 2 X i
Ahora: : E(Y Xo) = 1 + 2Xo = Yo Un estimador de este será:

Ŷo  ˆ 1  ˆ 2 X o

 1 X o  X 2 
Se puede demostrar que: Ŷo ~ N(ˆ 1  ˆ 2 X o ,     )
2

 n  i 
x 2
ANÁLISIS DE REGRESIÓN Y
PREDICCIÓN
Intervalo de confianza para el valor medio

1 x o  x 
2

Intervalo de 1- para Yo= Ŷo  t  / 2 ˆ 


n  i x 2

Verificación de hipótesis para el valor medio


Ho: Yo= c vs HA: Yo  c NS=
Ŷo  c
tc  Con (n-2)gl
s( Ŷo )
ANÁLISIS DE REGRESIÓN Y
PREDICCIÓN
2) Predicción individual
Sabemos que: E(Y Xi) = 1 + 2Xi un estimador de este será:

Ŷi  ˆ 1  ˆ 2 X i
Ahora: E(Y Xoind)= 1 + 2Xoind = Yoind Un estimador de este será:

Ŷoind  ˆ 1  ˆ 2 X oind

Se puede demostrar que: Ŷoind ~ N( ˆ 1  ˆ 2 X oind ,


 1
 1  
2 X o  X 2

)

 n  i 
x 2
ANÁLISIS DE REGRESIÓN Y
PREDICCIÓN
Intervalo de confianza para el valor individual

1 x oind  x 
2

Intervalo de 1- para Yoind 


= oind  / 2
Ŷ t 
ˆ 1  
n  i x 2

Verificación de hipótesis para el valor individual


Ho: Yoind= c vs HA: Yoind  c NS=

Ŷoind  c
tc  Con (n-2)gl
s( Ŷoind )
INFORME DE RESULTADOS
DEL ANÁLISIS
En base a los datos de la tabla 3.2, el informe de resultados
es el siguiente:

Yˆi  24.4545  0.5091X i


ee  (6.4138) (0.0357) r  0.96212

t  (3.81) (14.26) g.l.  8


p  (0.00257) (0.00000029)
EVALUACIÓN DE RESULTADOS
DE LA REGRESIÓN
Una vez presentados los resultados queremos evaluar qué
tan bueno es el modelo ajustado. Para este objetivo se
tomará en cuenta los siguientes criterios:
1. Están los signos de los coeficientes de acuerdo con la
teoría?, es decir si hay consistencia teórica.
2. Si los coeficientes de regresión estimados son
estadísticamente significativos.
3. Qué tan bien explica el modelo de regresión la variación
en el gasto de consumo?
Luego también hay que verificar si se cumple el supuesto de
normalidad de la perturbación estocástica.
PRUEBAS DE NORMALIDAD
Se considerarán 3 pruebas:
1. Histograma de residuos
2. Gráfica de probabilidad normal.
3. Prueba de normalidad de Jarque-Bera (JB)

Ho: Existe normalidad vs HA: No existe normalidad

 A2 ( K  3) 2 
JB  n  
 6 24 

JB ~Χ 2(2)

Donde: n= tamaño de muestra, A=coeficiente de asimetría y


K= coeficiente de curtósis.
PRÁCTICO
La siguiente tabla presenta información del PNB y 3
definiciones de oferta monetaria de USA, durante el periodo
1970 1983. Donde:
PNB=Producto Nal. Bruto (miles de millones $us)
M1= Circulante + depósitos a la vista + cheques viajeros y
otros depósitos a CP.
M2= M1 + transacciones de recompra entre bancos y
eurodólares a CP + saldos fondos mutuos mercado
monetario+ ctas. De ahorro del mercado monetario +
ahorros y pequeños depósitos.
M3= M2 + depósitos a LP + transacciones de recompra a LP
+ saldos fondos mutuos institucional.
PRÁCTICO
Se pide:
a) Estimar los 3 modelos del PNB en función de la oferta
monetaria.
b) Interpretar los coeficientes de regresión estimados del
primer modelo.
c) Cuál definición de oferta monetaria parece estar
estrechamente relacionada con el PNB?
d) Determinar si los coeficientes estimados son significativos
al NS=5%.
e) Si el Banco de la Reserva desea controlar la oferta
monetaria, cuál de estas medidas de dinero es una mejor
meta para este propósito? Usar los resultados de la
regresión.
PRÁCTICO
AÑO PNB M1 M2 M3
1970 992,7 216,6 628,2 677,5
1971 1077,6 230,8 712,8 776,2
1972 1185,9 252 805,2 886
1973 1326,4 265,9 861 985
1974 1434,2 277,6 908,5 1070,5
1975 1549,2 291,2 1023,3 1174,2
1976 1718 310,4 1163,6 1311,9
1977 1918,3 335,4 1286,7 1472,9
1978 2163,9 363,1 1389,1 1647,1
1979 2417,8 389,1 1498,5 1804,8
1980 2631,7 414,9 1632,6 1990
1981 2957,8 441,9 1796,6 2238,2
1982 3069,3 480,5 1965,4 2462,5
1983 3304,8 525,4 2196,3 2710,4
EJEMPLO ILUSTRATIVO
Con los datos de la tabla 2.8, que se refieren a una muestra
de 55 flias rurales de la India. Donde la variable gasto en
alimentos (dependiente) y la variable gasto total (explicatoria)
están medidas en rupias.
Se pide:
a) Estimar el modelo que explique el gasto en alimentos en
función del gasto total. Interpretar los coeficientes
estimados.
b) Con un NS=5% determinar si los coeficiente son
significativos
c) Probar la hipótesis de que la pendiente es 0.52 con
NS=1%
EJEMPLO ILUSTRATIVO
d) Escribir el modelo tomado en cuenta el formato de
resultados.
e) Para las familias que tienen un gasto total de 920
rupias, calcular un intervalo de confianza del 97%
para el gasto medio en alimentos.
f) Con un NS=3% determinar si se cumple el
supuesto de normalidad en los residuos.
g) Para la familia Jope que tiene un gasto total de
528 rupias, se afirma que su gasto en alimentos es
de 400 rupias. Probar esta afirmación con un
NC=90%.

También podría gustarte