Modelos Lineales Generalizados Sesión Dos Uis
Modelos Lineales Generalizados Sesión Dos Uis
Modelos Lineales Generalizados Sesión Dos Uis
MÚLTIPLE
logit PY 1 β0 β1X1i β2X2i βk Xki
β 0 β1X1 i β 2 X 2 i β k X k i
PY 1 / X i
e
β 0 β1X1 i β 2 X 2 i β k X k i
1 e
PY 1 / X i
1
1 e-β 0 β1X1 i β 2X 2 i β k X k i
P(Y/X1,X2)
1
0.75
0.5 20
0.25 15
0
0 10
10
5
X1 20
X2
0
30
• No es necesario que las variables independientes sean
normales, y ni siquiera cuantitativas.
• El modelo debe estar especificado correctamente, con las VI
relevantes
• La relación entre cada VI y el Logaritmo de las ODD debe ser
lineal
• Que no exista multicolinealidad
3. Regla de decisión
0,30
0,25
Acepto H0 si:
t n / k2
0,20
0,15
0,05
0,00
t n/ k2 t n/ k2
1
11
13
15
17
19
CONJUNTA
log L(completo)
1. Pseudo R2 = 1
log L(reducido)
3. Razón de Verosimilitud = X2 = 2 log L(reducido) 2 log L(completo)
2. Porcentaje de aciertos: a través de un punto de corte
verosim ilitud del m odeloreducido
Deviance 2 ln
verosim ilitud del m odelocom pleto
(O n p ) 2
Estadístico de prueba: X2= i i i ~ X2 g-1
ni pi (1 pi )
Ejemplo con R
• Como ocurre con las tarjetas de crédito, en la actualidad es muy
común que los consumidores usen las de débito. Los
comerciantes las prefieren porque cuando se usa una tarjeta de
débito, la cantidad que uno compra se deduce automáticamente
de la cuenta de cheques u otra cuenta designada por el usuario.
Para averiguar qué factores determinan el uso de la tarjeta de
débito, obtuvimos datos sobre 60 clientes y consideramos las
variables X4 (1 para quien posee una tarjeta de débito, 0 en otro
caso), X1 saldo de la cuenta en dólares; X2 número de
transacciones en cajeros automáticos en el mes; X5 (1 si la
cuenta devenga intereses, 0 en caso contrario) Plantear el
modelo. Datos tarjeta.txt
1.0 0 ¿Cómo?
2.0 2
H 4.0 6 2) NATURALEZA DE LOS
8.0 10 FACTORES
16.0 12
32.0 16
Entre los ejemplos de datos de recuento en el contexto de la educación
se incluye estadísticas basadas en el recuento del número de ausencias
en distritos escolares o en colegios por día, semana, mes o año
académico, el recuento de casos de acoso escolar, actos violentos u
otros acontecimientos de interés que se produzcan en los colegios de
todo un distrito, el número de errores ortográficos que comete un
estudiante cuando realiza un examen escrito y el número de profesores
o administradores en colegios de varios tamaños.
REGRESIÓN POISSON
• exp (α) = efecto en la media de Y , es decir, cuando X = 0
• exp (β) = con cada incremento unitario en X , la variable predictor tiene
un efecto multiplicativo de exp (β) en la media de Y , es decir, μ
• Si β = 0, entonces exp (β) = 1, y el conteo esperado, μ = E ( y ) = exp
(α), y Y y X no están relacionados.
• Si β> 0, entonces exp (β)> 1, y el conteo esperado μ = E ( y ) es exp (β)
veces mayor que cuando X = 0
• Si β <0, entonces exp (β) <1, y el conteo esperado μ = E ( y ) es exp (β)
veces más pequeño que cuando X = 0
Inferencia
Pruebas de diagnóstico
• Como mencionamos anteriormente, una suposición
importante del modelo de Poisson es
E[ yi | xi ] i e 'x i
Var[ yi | xi ]
•
• El conjunto de datos premios_estudiantes.txt muestra la
cantidad de premios obtenidos por los estudiantes en un
colegio de secundaria.
• Los predictores de la cantidad de premios obtenidos incluyen
el tipo de bachillerato que cursó el estudiante 1: académico, 2:
ciencias 3: técnico_industrial y la calificación en su examen
final de matemáticas.
Ejemplos
La mayoría de los modelos de recuento son modelos paramétricos.
Eso es, están basados en una distribución de probabilidad subyacente
que, en principio, genera los datos que se están evaluando.
Características Binomial
negativa
y k
k y
k
Mass Function: P Y y | X 1 , X 2 , X 3 , k y 0,1, 2,...
k y 1 k k
2
E Y V Y
k
g X 1 X 1 2 X 2 3 X 3 x ' x ' 1 X 1 X 2 X 3
X e 1 X1 2 X 2 3 X 3 e x '
REGRESIÓN BINOMIAL
NEGATIVA
ESTIMACIÓN DE LOS PARÁMETROS
k está restringido a ser positivo, por lo que estimamos k * = log (k) que puede
tomar cualquier valor.
Función de verosimilitud:
k yi k yi
( yi k ) k i ( yi k 1) (k )(k ) k i
Li
(k )( yi 1) k i k i (k )( yi 1) k i k i
k yi e k* yi
( y k 1) (k ) k i ( yi e 1)
k*
e e
k*
i
k*
i k* k*
yi ! k i k i yi ! e i e i
Función de log-verosimilitud:
yi 1
li ln Li ln(e k * j ) ln yi ! e k * ln(e k * ) yi ln( i ) (e k * yi ) ln( i e k * )
j 0
ESTIMACIÓN DE LOS PARÁMETROS
Derivando respesto a k* y :
k*
yi 1
li 1 ek * yi
e k * 1 ln(e ) k *
k*
ln(ek * i )
k * j 0 e j e i
yi 1
2li k* 1 e k * yi yi 1
1 i yi ek *
e k * 1 ln(e ) k *
k*
ln(e i ) e k *
k* k*
1 e k*
k*
i
(k *) 2 j 0 e j e i j 0 ( e j ) 2
e k* 2 i e
2li y
xi e i
k* i i
k * ek * 2
i
li y
xi ek * i ki*
i e
k*
2li e yi
xi xi ' e i
k*
' e k * 2
i
60
40
count
20
0 5 10 15
satelites
Ejemplo satélites
• Los modelos binomiales negativos suponen que las medias
condicionales no son iguales a las varianzas condicionales.
• Esta desigualdad se captura al estimar un parámetro de dispersión
(no mostrado en la salida de R) que se mantiene constante en un
modelo de Poisson.
• Por lo tanto, el modelo de Poisson en realidad está anidado en el
modelo binomial negativo. Luego podemos usar una prueba de
razón de verosimilitud para comparar estos dos y probar este
supuesto del modelo
Ejemplo con R
600
500
400
300
200
100
0
0 4 8 12 17 22 27 32 37 42 49 56 66
Ejemplo con R