Tarea 2 - Econometría
Tarea 2 - Econometría
Tarea 2 - Econometría
Tarea 2
Integrantes:
Pamela Naomi Marín Palma - ID: 172205
Ximena Arteaga Aviña - ID: 171122
Fátima Juárez Luyando - ID: 170117
Descripción
En este caso, se realizará un estudio en el que se demostrará la importancia de las variables categóricas a
la hora de predecir una variable de respuesta Y. Para esto, se utilizarán las variables ficticias, de esta
manera, podremos darle un valor numérico (0 ó 1) a cada una de las variables categóricas, para así poder
modelar las diferencias entre las categorías en términos de su efecto sobre una variable de interés.
Utilizaremos una base de datos sobre dispositivos que suministran antiinflamatorios a personas con cierto
padecimiento, se construirán dos modelos de regresión lineal para modelar las problemáticas pedidas (Y:
cantidad de antiinflamatorio en dispositivo ~ X1: horas de uso, Y en términos de X1 más las variables
ficticias), se interpretarán los resultados y, finalmente, se graficarán ambos modelos. Así, podremos ver
el efecto de incluir variables ficticias en nuestros modelos.
Procedimiento
Inciso C
Luego de la codificación y creación del data.frame con las variables ficticias, desarrollamos dos modelos
de regresión ( Y ∼ X1 (modelo 1) y Y ~ X1 + variables ficticias (modelo 2)). Comparando los modelos,
notemos que el modelo 2 (Figura 2) tiene un error estándar residual menor que el del modelo 1 (Figura
1), lo que indica que el modelo 2 tiene una cantidad de variabilidad en la variable dependiente que no es
explicada por el modelo menor, que es lo preferible. Además, la R-cuadrada ajustada es mayor en el
modelo 2, lo que indica que explica una mayor proporción de la variabilidad en la variable dependiente,
lo que sugiere que es un mejor ajuste para los datos y que tiene una mayor capacidad de predicción que
el modelo 1. Por otro lado, notemos que el F-statistic del modelo 1 es mayor que del modelo 2, lo que
indica que el modelo 1 explica una mayor proporción de la variabilidad total en la variable dependiente
que el modelo 2. Sin embargo, tanto el RSS como la R-cuadrada ajustada de los dos modelos son bajos, y
su F-statistic es alto, por lo que cualquier modelo es bueno prediciendo los datos.
En el modelo 2, notemos que cuando el dispositivo proviene del lote B, en vez del lote A, incrementa
3.9735 unidades el log(odds). De manera similar, si el dispositivo proviene del lote C incrementa el
log(odds) a 3.4657 aproximadamente con respecto a provenir del lote A.
Figura 1. Resumen del modelo 1
Inciso D
Veamos que el modelo 1 (línea roja de la Figura 3) representa bastante bien a nuestro conjunto de datos.
Con un intercepto de 34.1675 y una pendiente de -0.05745, se puede observar que hay una relación
negativa entre el número de horas y la cantidad de hormona. Es decir, a medida que las horas aumentan,
la cantidad de hormona disminuye, y viceversa.
Ahora, veamos que el modelo 2 (línea azul de la Figura 3) también representa bien a nuestro conjunto de
datos. Con un intercepto de 32.131595 y una pendiente de -0.060136, también se muestra una relación
negativa entre el número de horas y la cantidad de hormona. Sin embargo, la línea del modelo 2 se
encuentra más abajo que la del modelo 1.
Graficando los dos modelos, se puede notar que tanto el modelo 1 como el modelo 2 representan
bastante bien a nuestro conjunto de datos. Aunque el modelo 2 contiene variables ficticias, sigue
mostrando un modelo adecuado para explicar la distribución de los datos, muy parecido al del modelo 1
que no contiene variables ficticias. Por tanto, podemos concluir que las variables ficticias también ayudan
a la predicción de los datos.
Caso 2
Descripción
En este caso, utilizaremos la regresión logística para predecir si una persona incumplirá el pago de su
tarjeta de crédito en función de variables como el ingreso anual, saldo mensual de la tarjeta de crédito y
ser estudiante. Para ello, se utilizará una base de datos llamada Default, se realizará un análisis descriptivo
de los datos y se utilizarán diversos métodos gráficos para ilustrar las variables Income y Balance.
Posteriormente, se construirá un modelo de regresión logística para predecir Default en términos de
Balance, Default en términos de Student, la probabilidad de incumplimiento en términos de Balance,
Student e Income, y la probabilidad de incumplimiento en términos de Balance y Student. Finalmente, se
evluará el perfomance del modelo con Balance y Student.
Procedimiento
Inciso A
En la Figura 4, se puede observar que los puntos en rojo, los cuales indican incumplimiento de pago de los
clientes, se concentran en los valores más altos de Balance, lo que sugiere que aquellos clientes con un
Balance más altos son más propensos a incumplir sus pagos, y viceversa. Por otra parte, no podemos
observar esa misma separación cuando visualizamos la variable income ya que cualquier valor de esta, no
hay diferencia entre los que cumplen y no cumplen.
Analizando los boxplots de Income (Figura 5), notemos que la diferencia entre medianas para cada boxplot
es mínima. Por tanto, los boxplots de Income no aportan suficiente información para la predicción del
modelo.
Por tanto, se puede concluir que la variable Balance sí influye en las posibilidades de que una persona
incurra en incumplimiento de pago. Con base en los resultados, podemos decir que aquellos clientes que
incumplen el pago tienen un mayor Balance, y viceversa.
Inciso B
En la Figura 6, podemos observar que la predictora es significativa para el modelo y el coeficiente tiene
un valor aproximado de 0.0055, esto nos trata de decir que por cada unidad que se aumente en la variable
balance, la probabilidad de incumplimiento de pago incrementa 0.0055. Para verificar que la probabilidad
depende de la variable realizamos pruebas de hipótesis con la finalidad de tener un p-valor significativo
para el modelo.
Luego calculamos las probabilidades de incumplimiento para los siguientes valores de Balance ($950,
$1,550, $1,990). Los resultados fueron 0.44%,10.64% y 57.24%, podemos observar que entre más
incremente el valor de la predictora incrementa el porcentaje, debido a que el coeficiente es positivo.
Inciso C
Para este inciso, se construyó un modelo de regresión logístico para predecir default en términos de la
variable student (ob4).
Inciso C1
En la Figura 7, notemos que el coeficiente asociado a X1Yes es 0.40489, lo que indica que incrementa esas
unidades cuando el individuo cae en la clasificación de ser estudiante en vez de no ser estudiante. El p-
valor es muy bajo (0.000431), lo que indica que la asociación entre ser estudiante y la probabilidad de
incumplimiento de pago es estadísticamente significativa. Por tanto, el análisis del modelo de regresión
logística sugiere que el ser estudiante sí afecta significativamente la probabilidad de incumplimiento de
pago. Esto se puede verificar formalmente calculando las probabilidades de incumplimiento de pago
siendo y no siendo estudiante:
• La probabilidad de incumplimiento de pago siendo estudiante es de: 4.31%.
• La probabilidad de incumplimiento de pago no siendo estudiante es de: 2.92%.
Con base en las probabilidades, podemos concluir que, en efecto, ser estudiante está asociado con un
aumento en la probabilidad de incumplimiento de pago.
Inciso D
Podemos decir que, en este nuevo modelo, las predictoras Student y Balance son significativas para
explicar el modelo, aunque la predictora Income añadida a este modelo, parece estar lejos de serlo.
Inciso E
Según la Figura 10 podemos observar que, la línea azul representa a los estudiantes y la verde a los no
estudiantes, además, bajo una diferencia mínima, las posibilidades de incumplimiento, dado la predictora
Balance, las personas que son estudiantes tienden a caer en el incumplimiento poco más que aquellos
que son no estudiantes, en el rango de 1000 a 1500.
Inciso F
Dados los modelos aplicados anteriormente, podemos observar que en el primero, donde la única variable
de predicción es Student, hemos concluido que aquellos que son estudiantes tienden a caer más
frecuentemente que quienes no son estudiantes; para el segundo modelo, donde las variables de
predicción son Balance y Student y ambas son significativas en la predicción de la respuesta, hemos
observado de igual manera que aquellos que son estudiantes, según la variable Balance, tienen más
posibilidades de caer en el incumplimiento que aquellos que no lo son.
Inciso G
Observaciones
Utilizando la regresión logística para predecir si una persona incumplirá el pago de su tarjeta de crédito
en función de distintas variables, se pudo concluir lo siguiente: aquellos clientes que incumplen el pago,
tienen un mayor Balance, y viceversa, i.e., por cada unidad que se aumenta en la variable Balance, la
probabilidad de incumplimiento de pago incrementa; ser estudiante está asociado con un aumento en
probabilidad de incumplimiento de pago; Balance y Student son predictoras significativas para explicar el
modelo para predecir la probabilidad de incumplimiento de pago.