Guia 2 - Diapositivas (Parte II)

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 37

Guía 2: Análisis de regresión múltiple

(Parte II)
Elard Amaya

eamayachunga@udesa.edu.ar
Repaso
Test de significatividad individual

𝐻!: 𝛽 = 0
𝐻": 𝛽 ≠ 0

Tres formas de ver si rechazamos 𝐻!:


1. p – valor
2. Estadístico t
3. Intervalo de confianza

1
Repaso
Test de restricciones lineales
1. Igualdad de coeficientes
2. Suma de coeficiente igual a determinado valor
3. Restricciones de nulidad
La idea es esCmar 2 modelos: un modelo irrestricto (modelo original) y un modelo
restricto (modelo bajo la hipótesis nula). Comparamos la bondad de ajuste de
ambos modelos y vemos si el modelo irrestricto aporta algo con respecto al modelo
restricto.
Para testear hipótesis conjuntas sobre nuestros coeficientes vamos a usar el
estadísCco F.
2
Ejercicio en R
1. Este ejercicio usa la base de datos condenados.xlsx, que contiene datos de
personas que fueron condenadas a un crimen en Argentina y que en mayo del
2021 se encontraban cumpliendo su sentencia.
a. Analice las características de la base de datos, y obtenga los principales
estadísticos descriptivos.

3
Ejercicio en R
a. Analice las características de la base de datos, y obtenga los principales
estadísticos descriptivos.

4
Ejercicio en R
c. Obtenga los estadísCcos descripCvos para mujeres y hombres.

5
Ejercicio en R
d. Grafique la distribución de la duración de las condenas.

Distribución
asimétrica.

6
Ejercicio en R
e. Grafique la relación entre la duración de la condena en días y la edad del
condenado usando un gráfico de dispersión y una recta de regresión

7
Ejercicio en R
f. Estime una regresión simple donde la variable dependiente es la duración de la
condena y las variables independientes son la edad y el género del condenado.
Cree una variable que predice la variable dependiente y los residuos. Interprete
los coeficientes, analice su significatividad y la bondad de ajuste del modelo

'
𝐷𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑐𝑜𝑛𝑑𝑒𝑛𝑎 = 𝛽3! + 𝛽3" 𝑒𝑑𝑎𝑑 + 𝛽3# 𝑔𝑒𝑛𝑒𝑟𝑜

Queremos estimar 𝛽3!, 𝛽3" y 𝛽3# para eso vamos a utilizar MCO. ¿Qué signo
esperamos que tenga 𝛽3"?

Según lo visto en el gráfico, positivo!

8
Ejercicio en R
• Todos los coeficientes son
significativos al 1%.
• Interpretación 𝛽!! : cuando las
variables ind. son cero, la
condena esperada es de 820.2
días (Poco intuitivo)
• Interpretación 𝛽!" : manteniendo
constante el género, un año más
de edad implica una condena
mayor en 35.7 días.
• Interpretación 𝛽!# : manteniendo
constante la edad, las mujeres
reciben 352.1 menos días de
condena que los varones.

9
Ejercicio en R
Calculemos la predicción de la variable dependiente y del residuo para la primera
observación.
La predicción de la duración de la condena:

'
𝐷𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑐𝑜𝑛𝑑𝑒𝑛𝑎 = 𝛽3! + 𝛽3" 𝑒𝑑𝑎𝑑 + 𝛽3# 𝑔𝑒𝑛𝑒𝑟𝑜
'
𝐷𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑐𝑜𝑛𝑑𝑒𝑛𝑎 = 820.208 + 35.665 𝑒𝑑𝑎𝑑 − 352.130 𝑔𝑒𝑛𝑒𝑟𝑜
'
𝐷𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑐𝑜𝑛𝑑𝑒𝑛𝑎 = 820.208 + 35.665 ∗ 39 − 352.130 ∗ 0 = 2211.142
El error:
𝑢A = 𝑦 − 𝑦A = 6205 − 2211.142 = −3993.858

10
Ejercicio en R
h. Agreguen al modelo estimado en f) dummies por el tipo de delito, dejando
como categoría omitida a los crímenes contra la administración pública.
• La interpretación para los
coeficientes de edad y género
son similares, agregando que
ahora se mantiene constante el
tipo de delito.
• Interpretación 𝛽$! : manteniendo
constante la edad y el género, las
personas condenadas por delitos
a la propiedad reciben 148.8
menos días respecto a las
personas condenadas por delitos
contra la administración pública,
aunque el coeficiente no es
estadísticamente significativo
(lectura similar para los otros
tipos de delito).
11
Ejercicio en R
i. ¿Por qué cambió el coeficiente de edad con respecto a la esCmación de f)?

El coeficiente de edad cambio de 35.67 a 24.84 cuando se incluyen la dummies de


9po de crimen. Esto sucede porque había sesgo por variables omi9das en la
primera regresión. En par9cular, el 9po de crimen (un determinante de la duración
de la condena) está correlacionado con la edad. Las personas de mayor edad suelen
cometer crímenes más severos.

12
Ejercicio en R
j. ¿Usando los resultados de la regresión estimada en h), cuál sería la
condena predicha para una mujer de 44 años que cometió un delito contra
la administración pública?
Condena predicha:
𝑦A = 𝛽3! + 𝛽3" 𝑒𝑑𝑎𝑑 + 𝛽3# 𝑔𝑒𝑛𝑒𝑟𝑜
𝑦A = 1265.046 + 24.842 ∗ 44
− 222.024 ∗ 1
𝑦A = 2136.074
En R:

13
Ejercicio en R
Repasamos:
• La constante (𝛽3!) es el efecto autónomo. Siempre es el valor promedio de la
variable dependiente 𝑦& cuando todos los regresores son iguales a 0. Si tenemos
un modelo sin ningún regresor (solo con la constante), la constante de ese modelo
va a ser el valor promedio de la variable dependiente 𝑦& .
• El resto de los coeficientes se interpretan como efectos parciales. Si 𝑋 aumenta en
una unidad 𝑦 aumenta en 𝛽 unidades, manteniendo constante el resto de las
variables explicativas.
• Si tenemos una dummy como regresor, 𝛽' nos da el efecto diferencial en el valor
esperado de 𝑦 cuando 𝑋' = 1 con respecto a 𝑋' = 0, manteniendo constante el
resto de las variables explicativas.

14
Ejercicio en R
k. Testee la significa/vidad conjunta de los coeficientes de h).
¿Cómo planteamos la hipotesis nula y alterna/va?
𝐻! : 𝛽"#$# = 𝛽%"&"'( = 𝛽#")*+(, = 𝛽#")*+(- = 𝛽#")*+(. = 0 𝑉𝑠. 𝐻, : Alguno dis/nto de 0

¿Qué concluimos?
Rechazamos la H0 y por lo tanto concluimos que al menos alguno de los coeficientes es
dis/nto de 0.

15
Ejercicio en R
¿Y si lo queremos hacer a mano?
Con el test F tenemos dos formas para calcularlo:
1. Utilizando la suma de los residuos al cuadrado:
𝑆𝑅𝐶( − 𝑆𝑅𝐶)
𝑞 -
𝐹= ~𝐹*+,+"
𝑆𝑅𝐶)
𝑛−𝑘−1
2. Utilizando el R2:
𝑅#
𝐹= 𝑘 ~𝐹 ,
*+,+"
1 − 𝑅#
𝑛−𝑘−1
16
Ejercicio en R
Repasamos:
4 casos posibles de interacciones entre variable continua y binaria.

1. Regresiones coincidentes: no se incluye D


en forma aditiva ni multiplicava, es decir,
regresiones como las que venimos viendo sin
variables dummy.

𝑦& = 𝛽! + 𝛽"𝑋" + 𝑢&

17
Ejercicio en R
Repasamos:
4 casos posibles de interacciones entre variable continua y binaria.

2. Regresiones paralelas: se incluye


D en forma aditiva, pero no mutliplicativa.
Lo interpretamos como el efecto diferen-
cial en el valor esperado de 𝑦 cuando
𝑋' = 1 con respecto a 𝑋' = 0, cp.

𝑦& = 𝛽! + 𝛽"𝑋" + 𝛽#𝐷& + 𝑢&


18
Ejercicio en R
Repasamos:
4 casos posibles de interacciones entre variable continua y binaria.

3. Regresiones concurrentes: se incluye D


en forma multiplicativa, pero no aditiva.
Tenemos la dummy incluida en la interacción
nada mas.

𝑦& = 𝛽! + 𝛽"𝑋" + 𝛽#𝐷& 𝑋& + 𝑢&

19
Ejercicio en R
Repasamos:
4 casos posibles de interacciones entre variable conCnua y binaria.

4. Regresiones disímiles: se incluye D


en forma adiCva y mulCplicaCva.
Tenemos la dummy incluida tanto en la
interacción como sola.

𝑦& = 𝛽! + 𝛽"𝑋" + 𝛽#𝐷& + 𝛽.𝐷& 𝑋& + 𝑢&

20
Ejercicio en R
l. Incluyan en el modelo de h) un término de interacción entre edad y género.
Con significatividad del 5%, testeen la Ho de que el efecto de un año extra de
edad sobre la duración de la condena no depende del género del condenado.
𝐻!: 𝛽/010∗3/*/(4 = 0
𝐻": 𝛽/010∗3/*/(4 ≠ 0
• 𝛽!"#"∗%!&!'( no es estadísticamente
significativo al 5%, por lo que el efecto de la
edad sobre la duración de la condena no
depende del género. Este coeficiente de
interacción es negativo, lo que implica que el
efecto de un año más de edad sobre la
duración de la condena sería menor para
mujeres que para hombres.

21
Ejercicio en R
n. Reporten en una tabla (usando el paquete stargazer) los resultados de cada
una de las regresiones.
Los modelos 2 y 3 cuentan con el mayor
R2 ajustado, estos modelos son los que
tienen mayor poder explicativo. Notar
igual que el R2 es bastante bajo (sólo el
13% de la duración de la condena está
explicada por el género, tipo de crimen y
edad). Esto es razonable, dado que hay
una serie de factores que influyen sobre
la duración de la condena, tal como el
tipo de juez que le tocó, si la persona
cometió crímenes anteriormente, y otras
características del tipo de crimen que
cometió que no están capturadas en el
modelo.

22
Multiple Choice
9. Se busca analizar si las calificaciones que reciben los restaurantes en Google dependen
de su ubicación y del tipo de comida que venden. Usando datos de 44 restaurantes de
Buenos Aires, se estimó la siguiente regresión:
' = 2.3 − 0.529𝑝𝑎𝑟𝑟𝑖𝑙𝑙𝑎 + 0.786𝑝𝑎𝑙𝑒𝑟𝑚𝑜
𝑝𝑢𝑛𝑡𝑎𝑗𝑒
donde 𝑝𝑢𝑛𝑡𝑎𝑗𝑒 es la calificación promedio que obtuvo el restaurante, y 𝑝𝑎𝑟𝑟𝑖𝑙𝑙𝑎
y 𝑝𝑎𝑙𝑒𝑟𝑚𝑜 son dummies que toman valor 1 si el restaurante es una parrilla y queda en
Palermo, respectivamente. Si el R2 de esta regresión es de 0.123, y el valor crítico de una
-
distribución 𝐹/, es de 3.23 (para un nivel de significatividad del 5%), ¿cuál de las siguientes
afirmaciones es correcta?
a. Las variables parrilla y palermo son conjuntamente significativas al 5%
b. Las variables parrilla y palermo no son conjuntamente significativas al 5%
c. Se necesita más información para determinar si parrilla y palermo son conjuntamente
significativas al 5%.
23
Multiple Choice
El estadístico de contraste en un test de significatividad conjunta de todas las variables del
modelo puede expresarse como:
𝑅- /𝑘 1
𝐹= ~𝐹
(1 − 𝑅- )/(𝑛 − 𝑘 − 1) &010,
Aplicando la fórmula para este caso, donde 𝑛 = 44 y 𝑘 = 2, vemos que:
0.123/2 0.0615
𝐹= = = 2.875
(1 − 0.123)/(44 − 2 − 1) 0.02139
Como en cualquier test, rechazamos la hipótesis nula si el estadístico de contraste es mayor
al valor crítico.
El valor crítico en este caso es 3.23 (al 5% de significancia), por lo que no rechazamos la
hipótesis nula (i.e., que las variables son conjuntamente insignificativas). Por ende,
concluimos que parilla y palermo no son conjuntamente significativas.

24
Multiple Choice
9. Se busca analizar si las calificaciones que reciben los restaurantes en Google dependen
de su ubicación y del /po de comida que venden. Usando datos de 44 restaurantes de
Buenos Aires, se es/mó la siguiente regresión:
' = 2.3 − 0.529𝑝𝑎𝑟𝑟𝑖𝑙𝑙𝑎 + 0.786𝑝𝑎𝑙𝑒𝑟𝑚𝑜
𝑝𝑢𝑛𝑡𝑎𝑗𝑒
donde 𝑝𝑢𝑛𝑡𝑎𝑗𝑒 es la calificación promedio que obtuvo el restaurante, y 𝑝𝑎𝑟𝑟𝑖𝑙𝑙𝑎
y 𝑝𝑎𝑙𝑒𝑟𝑚𝑜 son dummies que toman valor 1 si el restaurante es una parrilla y queda en
Palermo, respec/vamente. Si el R2 de esta regresión es de 0.123, y el valor crí/co de una
-
distribución 𝐹/, es de 3.23 (para un nivel de significa/vidad del 5%), ¿cuál de las siguientes
afirmaciones es correcta?
a. Las variables parrilla y palermo son conjuntamente significa/vas al 5%
b. Las variables parrilla y palermo no son conjuntamente significa6vas al 5%
c. Se necesita más información para determinar si parrilla y palermo son conjuntamente
significa/vas al 5%.
25
Verdadero o Falso
10. Un regresor que es variable categórica, como por ejemplo la provincia donde se
encuentra la empresa, debería ser tratado como un conjunto de dummies.

Verdadero. Se deben incluir la cantidad de categorías menos 1 como dummies. La


variable que no se incluye es similar a una “base” que está incluida en el intercepto.

26
Mul7ple Choice
11. Supongan que queremos testear si los retornos del índice Russel 2000 difieren
entre un mes y otro. Para ello corremos una regresión con variables dummy
obteniendo los siguientes resultados:

27
Multiple Choice
i. El retorno estimado para el mes de marzo es:

a. -0,0211.
b. 0,0301.
c. 0,009.
d. 0,0164.

28
Multiple Choice
¿Qué es cada uno de los coeficientes que acompañan a los meses?
El diferencial entre ese mes y diciembre (mes base).

Por lo tanto, si yo quiero el retorno estimado de un mes en particular (en este caso
marzo), tengo que sumar el retorno del mes base que es diciembre (la constante),
mas el diferencial de marzo.
Reemplazando los valores correspondientes a marzo (dummy marzo =1 y resto =0) el
valor estimado del retorno es igual a la constante más el coeficiente de marzo. Por lo
cual:
'𝑚𝑎𝑟𝑧𝑜 = 𝛽3&*5/(6/75 − 𝛽381(69
𝑅𝑒𝑡𝑜𝑟𝑛𝑜
'𝑚𝑎𝑟𝑧𝑜 = 0,0301 − 0,0211 = 0,009
𝑅𝑒𝑡𝑜𝑟𝑛𝑜
29
Mul7ple Choice
i. El retorno esCmado para el mes de marzo es:

a. -0,0211.
b. 0,0301.
c. 0,009.
d. 0,0164.

30
Multiple Choice
ii. El retorno del índice en diciembre no es:

a. distinto del retorno del índice en julio al 5% de significatividad.


b. distinto del retorno del índice en septiembre al 5% de significatividad.
c. distinto del retorno del índice en octubre al 5% de significatividad.
d. Ninguna de las anteriores.

31
Multiple Choice
Recordando lo que acabamos de ver, cada uno de los coeficientes que acompañana
a los meses es el diferencial con diciembre.
Por lo tanto, si queremos ver si la diferencia entre un determinado mes y diciembre
es significativa. ¿Qué es lo que queremos testear?
Si el coeficiente es distinto de cero.
Es decir, queremos realizar tests de significatividad individual de los coeficientes.
Recordemos las hipótesis:
𝐻!: 𝛽& = 0 𝑣𝑠 𝐻": 𝛽& ≠ 0
Estadístico t:
𝛽3& − 0
𝑡=
𝑆𝐸(𝛽3& )
32
Multiple Choice

𝛽$"#$% − 0 −0.0405 − 0
𝑡"#$% = = = −2.4686
𝑆𝐸(𝛽$"#$% ) 0.0164

𝛽$*'() − 0 −0.0375 − 0
𝑡&'() = = = −2.2864
𝑆𝐸(𝛽$*'() ) 0.0164

𝛽$-,) − 0 −0.0393 − 0
𝑡+,) = = = −2.3966
$
𝑆𝐸(𝛽-,) ) 0.0164

Como tenemos 288 observaciones, el valor crítico


correspondiente a un 𝛼 = 0.05 lo obtenemos de
la tabla t-student (recordando el valor crítico con
grados de libertad muy grandes):
𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 → 𝑧$/# = 𝑧!,!#' = 1,96

33
Mul7ple Choice
Al ser un test a dos colas, comparamos el valor absoluto de los estadísCcos 𝑡 con el
valor críCco.
Si el valor absoluto del estadísCco 𝑡 supera al valor criCco, rechazamos 𝐻!.
Como todos los 𝑡 superan en valor absoluto a 1,96 entonces para todos los casos se
rechaza 𝐻!, lo cual quiere decir que los retornos de julio, sepCembre y octubre son
significaCvamente disCntos del de diciembre.

𝑡L)MN = −2.4686 > 1.96


𝑡O/75 = −2.2864 > 1.96
𝑡P65 = | − 2.3966| > 1.96
34
Multiple Choice
ii. El retorno del índice en diciembre no es:

a. distinto del retorno del índice en julio al 5% de significatividad.


b. distinto del retorno del índice en septiembre al 5% de significatividad.
c. distinto del retorno del índice en octubre al 5% de significatividad.
d. Ninguna de las anteriores.

35
Consultas?
eamayachunga@udesa.edu.ar

También podría gustarte