0% encontró este documento útil (0 votos)
40 vistas53 páginas

Modelos Lineales Generalizados Sesión Dos Uis

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 53

REGRESIÓN LOGÍSTICA

MÚLTIPLE
 
logit PY  1  β0  β1X1i  β2X2i   βk Xki

β 0 β1X1 i β 2 X 2 i β k X k i
PY  1 / X i  
e
β 0 β1X1 i β 2 X 2 i β k X k i
1 e
PY  1 / X i  
1
1  e-β 0 β1X1 i β 2X 2 i β k X k i 

Modelo de regresión logística Múltiple


P(Y/X) en términos de dos variables explicativas

P(Y/X1,X2)
1

0.75
0.5 20

0.25 15
0
0 10

10
5
X1 20
X2
0
30
• No es necesario que las variables independientes sean
normales, y ni siquiera cuantitativas.
• El modelo debe estar especificado correctamente, con las VI
relevantes
• La relación entre cada VI y el Logaritmo de las ODD debe ser
lineal
• Que no exista multicolinealidad

SUPUESTOS DEL MODELO


• Frecuentemente será de interés investigar si un cierto
subconjunto de las variables explicativas en el modelo aportan
información sustantiva.
• Para ello deberán implementarse contrastes de hipótesis que
permitan determinar si los coeficientes de regresión asociados a
tales variables son significativamente diferentes de cero o no.
• El procedimiento empleado para ello es el que generalmente se
utiliza en la estimación máximo verosímil, que se conoce como
test de razón de verosimilitud.

Contrastes de hipótesis para la nulidad de


un subconjunto de los coeficientes
• El principio sobre el cual descansan estos contrastes es
esencialmente el mismo que se utiliza en el modelo de regresión
lineal, que se basa en una comparación de la suma de cuadrados
residual en el modelo completo, con la correspondiente suma en el
modelo reducido obtenido al imponer las restricciones establecidas
por la hipótesis nula.
• En el modelo de regresión logística el contraste de hipótesis que
permite tomar decisiones respecto de la selección del modelo
completo o del reducido, utiliza una función del estadístico de
razón de verosimilitud (referido como deviance), que es función
del logaritmo de la función de verosimilitud en los dos modelos
comparados

Contrastes de hipótesis para la nulidad de


un subconjunto de los coeficientes
SIGNIFICACIÓN CONJUNTA A TRAVÉS DE LA RAZÓN DE
VEROSIMILITUD (EQUIVALENTE A LA PRUEBA F):

Hipótesis planteada: Ho: 2 = 3 = … = k = 0


H1: al menos uno es distinto de cero

Estadístico de prueba: RV =  = -2 ln(L) = -2 ln (ˆ1 / L̂mv ) ~ X 2 k-1

Contrastes de hipótesis para la nulidad de


un subconjunto de los coeficientes
CONTRASTES PARA LA BONDAD DEL MODELO
INDIVIDUAL: Contraste de hipótesis
1. H 0 :  k  0
2. Estadístico de contraste Wald

3. Regla de decisión
0,30

0,25
Acepto H0 si:
t n / k2
0,20

0,15

 /2 Valor de estadístico Wald <


Niv. sig. > 
0,10

0,05

0,00

 t n/ k2  t n/ k2
1

11

13

15

17

19

CONJUNTA
log L(completo)
1. Pseudo R2 = 1
log L(reducido)
3. Razón de Verosimilitud = X2 =  2 log L(reducido)   2 log L(completo)
2. Porcentaje de aciertos: a través de un punto de corte
verosim ilitud del m odeloreducido
Deviance 2 ln
verosim ilitud del m odelocom pleto

H 0: 1  0 No hay relaciónentre VI y la VD RL Simple


H 1: 1  0

H 0: 1   2  ... k  0 No hay relaciónentre las VI y la VD RL Múltiple


H 1: i  0 para al m enosun i

Contrastes de hipótesis para la nulidad de


un subconjunto de los coeficientes
COMPARA FRECUENCIAS MUESTRALES OBSERVADAS
CON LAS PREVISTAS POR EL MODELO.
Hipótesis planteada: Ho: el modelo ajusta bien
H1: mal ajuste del modelo

(O  n p ) 2
Estadístico de prueba: X2= i i i ~ X2 g-1
ni pi (1  pi )

donde Oi es el número de eventos observados en el grupo i; ni el


tamaño del grupo i; pi es la probabilidad estimada de un evento en
el grupo i y g es el número de grupos.

TEST DE HOSMER Y LEMESHOW


• El conjunto de datos coronaria2.txt es del Banco de Datos de
Enfermedades Cardiovasculares de la Universidad de Duke y
consta de 2260 pacientes y 6 variables. Los pacientes fueron
remitidos al Centro Médico de la Universidad de Duke por el
dolor de pecho. Se desea hallar la predicción de la
probabilidad de enfermedad coronaria grave (enf) dado el resto
de variables. sexo = 0 para los varones, 1 para las mujeres.

Ejemplo con R
• Como ocurre con las tarjetas de crédito, en la actualidad es muy
común que los consumidores usen las de débito. Los
comerciantes las prefieren porque cuando se usa una tarjeta de
débito, la cantidad que uno compra se deduce automáticamente
de la cuenta de cheques u otra cuenta designada por el usuario.
Para averiguar qué factores determinan el uso de la tarjeta de
débito, obtuvimos datos sobre 60 clientes y consideramos las
variables X4 (1 para quien posee una tarjeta de débito, 0 en otro
caso), X1 saldo de la cuenta en dólares; X2 número de
transacciones en cajeros automáticos en el mes; X5 (1 si la
cuenta devenga intereses, 0 en caso contrario) Plantear el
modelo. Datos tarjeta.txt

¿Quién tiene tarjeta de débito?


• Siempre que se construye un modelo de regresión debemos
corroborar que el modelo calculado se ajusta efectivamente a los
datos usados para estimarlo. En regresión logística se calculan
coeficientes de determinación, parecidos al coeficiente R2 que se
obtenía en regresión lineal, que expresan la proporción (en tanto
por uno) de la variación explicada por el modelo
• La evaluación global del modelo se puede efectuar mediante los
coeficientes de determinación R2 de Cox y Snell, y el de
Nagelkerke.

BONDAD DE AJUSTE DEL


MODELO
1. El modelo debe estar correctamente especificado y ser relevante
sustantivamente.
2. No se omiten variables independientes relevantes.
3. Las observaciones son independientes entre sí.
4. Ausencia de colinealidad entre las variables independientes.
5. Linealidad de las variables cuantitativas.
6. En relación al tamaño de la muestra. Hosmer y Lemeshow
recomiendan muestras mayores de 400 casos. De Maris (1992)
sugiere 15 casos por variable.
7. El tanto por ciento de casos que corresponden al 0 o al 1 de la
variable dependiente debe ser del 10% al menos

Condiciones para el modelo


• Evaluar residuales
• Revisar multicolinealidad
• Revisar datos anómalos

ADEMÁS EN LA VALIDACIÓN DEL


MODELO
MODELOS PARA DATOS
RECUENTO: REGRESIÓN
POISSON Y REGRESIÓN
BNOMIAL NEGATIVA
Fue en la década de 1970 cuando el modelado estadístico de los datos
de recuento empezó a generar un auténtico interés, especialmente
entre los analistas que trabajaban en los campos de los seguros y el
transporte, los cuales en aquellos momentos mostraban un especial
interés en modelar tanto la cantidad de reclamaciones de seguros como
de muertes y accidentes de automóvil.

Los datos de recuento consisten en recuentos discretos no negativos


que van de cero a infinito.

Los datos de recuento también suelen mostrar una asimetría a la


derecha con una varianza definida en términos de la media de la
distribución.
SEXO DOSIS N°Afect.
1.0 1 Factorial : F1: SEXO (2)
2.0 4 2x6 F2: DOSIS(6)
M 4.0 9
8.0 13
16.0 18 1) VARIABLE RESPUESTA
32.0 20

1.0 0 ¿Cómo?
2.0 2
H 4.0 6 2) NATURALEZA DE LOS
8.0 10 FACTORES
16.0 12
32.0 16
Entre los ejemplos de datos de recuento en el contexto de la educación
se incluye estadísticas basadas en el recuento del número de ausencias
en distritos escolares o en colegios por día, semana, mes o año
académico, el recuento de casos de acoso escolar, actos violentos u
otros acontecimientos de interés que se produzcan en los colegios de
todo un distrito, el número de errores ortográficos que comete un
estudiante cuando realiza un examen escrito y el número de profesores
o administradores en colegios de varios tamaños.

De hecho, el recuento de los acontecimientos que se producen a lo


largo de diferentes períodos de tiempo, o en áreas geográficas
distintas, es una práctica común cuando se analizan datos de recuento.

Los modelos de recuento deberían usarse cuando los acontecimientos,


temas u observaciones que deban modelarse sean discretos y no
negativos.
Modelo de datos de recuento

 Aquel que tiene como variable dependiente una


variable discreta de conteo que toma valores no
negativos.

 Modelos de regresión Poisson.

 Modelos de regresión binomial negativa.

 Modelos de regresión exponencial.


Características del Modelo Poisson
• La distribución es discreta con un único parámetro, la media,
usualmente denotada por µ. La media también se entiende
como un parámetro de velocidad, es decir, el número
esperado de veces que un suceso o evento ocurre por unidad de
tiempo, área o volumen
• Los valores de la variable objetivo Y son enteros no negativos
• Las observaciones son independientes entre sí
• No hay conjuntos grandes de datos que estén muy por encima
o muy por debajo de la media de la distribución muestral.
• La media y la varianza son idénticas, es decir,
distribución de Poisson con una media alta tiene una gran
variabilidad
Variables en el modelo Poisson
• En la regresión de Poisson, la respuesta Y es un recuento. Pero
también podemos tener Y / t , la tasa (o incidencia) como variable de
respuesta, donde t es un intervalo que representa el tiempo, el espacio
o alguna otra agrupación.
• Variables explicativas:
• Las variables explicativas, X = ( X 1 , X 2 ,… X k ), pueden ser
continuas o una combinación de variables continuas y categóricas. La
convención es llamar a tal modelo "Regresión de Poisson".
• Las variables explicativas, X = ( X 1 , X 2 ,… X k ), pueden ser
TODAS categóricas. Luego, los conteos a modelar son los conteos en
una tabla de contingencia, y la convención es llamar a ese modelo
modelo log-lineal.
• Si Y / t es la variable de interés, incluso con todos los predictores
categóricos, el modelo de regresión se conocerá como regresión de
Poisson, no un modelo log-lineal.
 X 
   X  
y
e
Mass Function: P Y  y | X 1 , X 2 , X 3  
y!
g    X      1 X 1   2 X 2  3 X 3  x '  x '  1 X 1 X 2 X 3 
   X   e  1 X1  2 X 2  3 X 3  e x ' 

REGRESIÓN POISSON
• exp (α) = efecto en la media de Y , es decir, cuando X = 0
• exp (β) = con cada incremento unitario en X , la variable predictor tiene
un efecto multiplicativo de exp (β) en la media de Y , es decir, μ
• Si β = 0, entonces exp (β) = 1, y el conteo esperado, μ = E ( y ) = exp
(α), y Y y X no están relacionados.
• Si β> 0, entonces exp (β)> 1, y el conteo esperado μ = E ( y ) es exp (β)
veces mayor que cuando X = 0
• Si β <0, entonces exp (β) <1, y el conteo esperado μ = E ( y ) es exp (β)
veces más pequeño que cuando X = 0

Interpretación de los coeficientes


Las herramientas usuales de la inferencia estadística básica y
GLM son válidas.
• Intervalos de confianza y pruebas de hipótesis para
parámetros.
• Estadística de Wald y error estándar asintótico (SDE)
• Pruebas de razón de verosimilitud

Inferencia
Pruebas de diagnóstico
• Como mencionamos anteriormente, una suposición
importante del modelo de Poisson es

E[ yi | xi ]  i  e  'x i
 Var[ yi | xi ]

las pruebas de diagnóstico se refieren a la verificación


de este supuesto
Pruebas para sobredispersión


• El conjunto de datos premios_estudiantes.txt muestra la
cantidad de premios obtenidos por los estudiantes en un
colegio de secundaria.
• Los predictores de la cantidad de premios obtenidos incluyen
el tipo de bachillerato que cursó el estudiante 1: académico, 2:
ciencias 3: técnico_industrial y la calificación en su examen
final de matemáticas.

Ejemplos
La mayoría de los modelos de recuento son modelos paramétricos.
Eso es, están basados en una distribución de probabilidad subyacente
que, en principio, genera los datos que se están evaluando.

La distribución se caracteriza mediante parámetros que especifican la


forma que toman los datos. El modelo intenta estimar estos parámetros
de la manera menos sesgada posible.
El modelo de recuento estándar recibe el nombre de regresión de
Poisson. La regresión de Poisson está basada en la distribución de
probabilidad de Poisson, la cual asume que las observaciones que son
objeto del recuento en el modelo son independientes y en ningún caso
están correlacionadas.
Uno de los criterios centrales de la distribución de Poisson es que la
media y la varianza de los recuentos que son objeto de la
modelación son idénticas. Cuando este es el caso, se dice que el
modelo es equidisperso.
Hasta la mitad de la década de 1990, la mayoría de los investigadores
utilizaba la regresión de Poisson para modelar datos de recuento, salvo
en aquellos casos en que, de manera incorrecta, se utilizaba algún tipo
de modelo normal.
No obstante, muchos analistas se dieron cuenta de que los datos que
estaban modelando no eran equidispersos; eso es, que la varianza de
los datos de recuento que eran modelados excedía su media.
El resultado de usar un modelo de Poisson en dichos datos es que los
errores típicos del modelo están sesgados. Aunque pueda parecer que
los predictores explicativos del modelo contribuyen de manera
significativa a la comprensión de los recuentos, de hecho no es así.

Esto ha generado varios tipos diferentes de modelos de recuento que


pretenden gestionar de manera eficiente los datos de recuento
sobredispersos. En particular vamos a estudiar la modelación mediante
la distribución binomial negativa.
Durante la temporada de desove, las hembras de esta especie migran a
la costa para realizar la puesta, con un macho enganchado en su cola.
Cavan en la arena, donde depositan los huevos que son fertilizados
externamente, tanto por el macho enganchado a la hembra como por
otros machos que se reúnen alrededor de la pareja. Estos otros machos
reciben el nombre de satélites.
• El archivo cangrejos_satelites.txt contiene datos de un estudio
realizado sobre esta especie en el golfo de Mexico. Las
variables contenidas en el archivo son:
• Satelite: Número de machos satélite.
• Peso
• Ancho: Anchura del caparazón
• Color: El color se relaciona con la edad, siendo el color más
claro, correspondiente a ejemplares más jóvenes y el color
más oscuro para las hembras mayores
• espina: Estado de las espinas laterales del cangrejo: buen
estado en ambos lados, Solo un lado en buen estado, ambos
lados dañados.
• Los datos que hemos modelado sobre los cangrejos herradura
mediante el modelo de Poisson son altamente sobredispersos.
• Por norma general, los estadísticos se inclinan por la regresión
binomial negativa cuando se enfrentan a una modelación de
datos de Poisson sobredispersos.
• La binomial negativa es una combinación de las distribuciones
Gamma y de Poisson, con un parámetro auxiliar que recibe el
nombre de parámetro de dispersión, cuya finalidad es ajustar la
sobredispersión. La binomial negativa solo puede utilizarse en
datos de recuento sobredispersos. No obstante, la mayoría de
datos reales de recuento son de hecho sobredispersos. Esto
significa que el modelo binomial negativo se ha convertido en un
modelo central en la evaluación de datos de recuento.
• La variable de respuesta es discreta y toma valores enteros no
negativos.
• A medida que la media aumenta, la probabilidad de un conteo 0
decrece.
• El valor 0 se encuentra en el recorrido de Y .
• La V (Y ) es mayor que la E(Y ).

Características Binomial
negativa
 y  k
k y
 k    
Mass Function: P Y  y | X 1 , X 2 , X 3 , k       y  0,1, 2,...
  k    y  1  k     k   
2
E Y    V Y    
k
g    X      1 X 1   2 X 2  3 X 3  x '  x '  1 X 1 X 2 X 3 
   X   e  1 X1  2 X 2  3 X 3  e x ' 

REGRESIÓN BINOMIAL
NEGATIVA
ESTIMACIÓN DE LOS PARÁMETROS
k está restringido a ser positivo, por lo que estimamos k * = log (k) que puede
tomar cualquier valor.

Función de verosimilitud:
k yi k yi
( yi  k )  k   i  ( yi  k  1) (k )(k )  k   i 
Li          
(k )( yi  1)  k  i   k  i  (k )( yi  1)  k   i   k   i 
k yi e k* yi
( y  k  1) (k )  k   i  ( yi  e  1)
k*
e  e
k*
  i 
k*
 i       k*   k* 
yi !  k  i   k  i  yi !  e  i   e   i 

Función de log-verosimilitud:

yi 1
li  ln  Li    ln(e k *  j )  ln  yi !  e k * ln(e k * )  yi ln( i )  (e k *  yi ) ln( i  e k * )
j 0
ESTIMACIÓN DE LOS PARÁMETROS
Derivando respesto a k* y :
k*  
yi 1
li 1 ek *  yi
 e  k *  1  ln(e )  k *
k*
 ln(ek *  i ) 
k *  j 0 e  j e  i 

 yi 1  
 2li k*  1 e k *  yi yi 1
1 i  yi  ek * 
 e  k *  1  ln(e )  k *
k*
 ln(e  i )  e  k *
k* k*
1 e k* 
 k* 

 i 
 (k *) 2  j 0 e  j e   i j 0 ( e  j ) 2
   e k* 2   i  e 

 
 2li y  
 xi e i 
k* i i 
k *      ek * 2 
 i 

li  y  
 xi ek *  i ki* 
  i  e 

 k* 
 2li  e  yi 
  xi xi ' e i
k*

 '     e k * 2 
 i 
60

40
count

20

0 5 10 15
satelites

Ejemplo satélites
• Los modelos binomiales negativos suponen que las medias
condicionales no son iguales a las varianzas condicionales.
• Esta desigualdad se captura al estimar un parámetro de dispersión
(no mostrado en la salida de R) que se mantiene constante en un
modelo de Poisson.
• Por lo tanto, el modelo de Poisson en realidad está anidado en el
modelo binomial negativo. Luego podemos usar una prueba de
razón de verosimilitud para comparar estos dos y probar este
supuesto del modelo

Diagnóstico del Modelo


No se recomienda aplicar modelos binomiales negativos a muestras
pequeñas.
La variable de resultado en una regresión binomial negativa no puede tener
números negativos
Una causa común de la dispersión excesiva es el exceso de ceros. En esta
situación, debe considerarse el modelo de inflado o con exceso de ceros.
Si el proceso de generación de datos no permite ningún valor de 0 (como el
número de días de permanencia en el hospital), un modelo de ceros
truncados puede ser más apropiado.

Para tener en cuenta


• Muchos modelos de recuento tienen un recuento de ceros
excesivo. Las distribuciones binomial negativa y de Poisson
subyacentes a los modelos bien ajustados asumen que el
número observado de recuentos en el modelo se acerca a lo
anticipado en base a la media distribucional

Los modelos de exceso de ceros


• En ecología, por ejemplo, es común encontrar en datos de
conteos valores 0. Sin embargo, sí que es mucho más usual
encontrar datos de conteos en los que hay un numero de ceros
mayor que el que cabría esperar de acuerdo a una distribución
de Poisson o una binomial negativa.
• Esto puede causar problemas en nuestros modelos ya que, de
no tener en cuenta el exceso de ceros:
• Las estimaciones de los coeficientes pueden ser poco
confiables.
• Puede haber sobredispersión.

Los modelos de exceso de ceros


• Hay varios motivos por los cuales se da la presencia ceros. Por
ejemplo, en el contexto de especies de plagas en un área forestal:
• Hay errores estructurales. Es decir, que una plaga no está
presente en un parche porque el hábitat no es adecuado.
• Hay errores de diseño, debidos a un diseño experimental o
muestral incorrecto. Por ejemplo, si buscamos a una especie en
una época en la que los individuos se encuentran en otro sitio
(e.g. espécies de plagas que atacan viveros florestales), es muy
probable que nuestros conteos contengan una gran proporción de
ceros.
• Hay errores de observador. Esto ocurre cuando dos especies son
similares y el observador no sabe distinguirlas, o cuando son
difíciles de detectar.

Los modelos de exceso de ceros


Poisson inflada por ceros
Poisson alterada por ceros
• En los modelos inflados por ceros, se cree que hay subdeclaración
en los registros, por eso abundan los ceros (falsos ceros)
• En los modelos de Hurdle la interpretación es diferente en el
sentido que el modelo Bernoulli modela presencia/ausencia y el
Poisson (o binomial negativa) modela abundancia, condicionada a
la presencia

Los modelos de exceso de ceros


• Poisson
• Binomial negativa
• Poisson inflada en cero (ZIP) / Poisson alterada por ceros (ZAP)
• Binomial negativa inflada en cero (ZINB) / Binomial negativa
alterada por ceros (ZANB)
• Las herramientas para la elección del mejor modelo son las
usuales: La elección entre modelos ZIP y ZAP puede basarse en
conocimiento experto del investigador o puede ser empírica, en
función de AIC. Explorar gráficos de dispersión de RP vs PRED,
observados vs PRED, comparar AIC

Opciones para modelar datos


con sobredispersión
• AIC
• LRT: solo para modelos anidados
• Test de Vuong: compara las probabilidades predichas por modelos
no anidados (i.e. ZIP Poisson vs Poisson; ZIP-BN vs BN, etc)
• library(pscl)
• vuong(glm1, zip)

Comparaciones entre los


modelos
• Realizar un modelo de la demanda de atención médica (definida como el número de
Visitas a consultorios médicos) en términos de algunas covariables como el sexo, si
se tiene o no seguro médico, el número de hospitalizaciones, el estado general de
salud (subjetivo), número de condiciones crónicas…datos en visitas_médico.txt

Ejemplo con R
600
500
400
300
200
100
0

0 4 8 12 17 22 27 32 37 42 49 56 66

Número de visitas al médico

Ejemplo con R

También podría gustarte