Apunte - Introduccion - A - MLG Cordoba Margarita Diaz
Apunte - Introduccion - A - MLG Cordoba Margarita Diaz
Apunte - Introduccion - A - MLG Cordoba Margarita Diaz
MATERIAL DE APOYO
Notas sobre Modelos Lineales Generalizados:
Una Introducción
PRESENTACIÓN:
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
los modelos lineales generalizados (MLG). La idea básica consiste en abrir
el abanico de posibilidades u opciones para la distribución de la variable
respuesta (esto es, “relajar” el supuesto de distribución normal), siempre
y cuando pertenezca a una familia más amplia de distribuciones: la familia
exponencial, así como permitir que la relación entre el valor esperado
(media) de la variable y la combinación lineal de los parámetros (parte
sistemática del modelo) no sea siempre la identidad, sino cualquier función
monótona.
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
ajuste del modelo y en las etapas de diagnóstico. Como en rigor el método
de estimación se basa en el principio de máxima verosimilitud, los
estimadores que se obtienen tienen buenas propiedades estadísticas.
Por otro lado, Hastie y Tibshirani (1990) presentam los modelos aditivos
generalizados (GAM), que suponen un predictor lineal que puede ser
formado por funciones semiparamétricas, adecuadas para descripciones
de patrones no lineales que requieren de suavizados. Breslow y Clayton
(1993) fueron los primeros en constriur el marco teórico para los modelos
lineales generalizados mixtos (GLMM), en el sentido de admitir la inclusión
de efectos aleatórios (normales) en el predictor lineal. Muchos de esos
resultados se discuten en McCulloch y Searle (2001). Actualmente las
1
(http://www.nag.co.uk/stats/gdge_soft.asp),
2
(http://www.insightful.com)
3
(http://www.r-project.org)
4
(http://www.sas.com),
5
(http://www.stata.com),
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
aplicaciones de los MLG pueden encontrarse en casi todas las disciplinas
científicas, siendo un libro óptimo de referencia el McCullagh y Nelder
(1989), que será abordado en este curso.
ALGUNAS IDEAS...1.
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
que la aditividad se postula como propiedad de una cierta función de la
esperanza de la variable respuesta.
Algunos ejemplos de modelos lineales generalizados pueden ser:
a. Yi (α + β1 x1i + β 2 x2i , σ 2 ) ;
recordando que denotamos Y N(mu, signma2), observamos que el valor
esperado es exactamente una función lineal en los parámetros;
b. Yi Poisson( µi ); log( µi ) = α + τ i ,
obsérvese que el valor esperado no es, como sucede en el caso a), una
función monótona de una función lineal en los parámetros.
π
c. Yi Bin(π i , ); log i = β 0 + β1 xi ,
1−πi
similar al caso b), una función no lineal del valor esperado es igual a una
función lineal de los parámetros.
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
¿Cómo interpretamos el coeficiente de regresión β ?
• tasa de incremento: a medida que | β | crece, π ( xi ) cambia más
rápidamente a medida que x se incrementa,
Ecuación logística
1.0
0.9
0.8
0.7
0.6
pi(x)
0.5
0.4
0.3
0.2
0.1
0.0
0 5 10 15 20
Fig.1
• la pendiente de la curva en cualquier punto es βπ (1 − π ) , y la
pendiente es máxima cuando π = 0.5 .
• el valor de x cuando la pendiente es máxima (también el punto de
inflexión) es x = − α
β (también se llama valor efectivo mediano o
dosis letal 50%, denotado comunmente por LD50),
• el valor exp( β ) representa el cociente de chances (odds-ratio)
cuando las x aumentan en una unidad.
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
obtienen usando el algoritmo de Newton-Raphson (o algún refinamiento de
este algoritmo).
2.2 Inferencia
Para ver la diferencia entre los tres métodos, vamos a considerar el caso
más simple posible: probar β = 0 en un GLM que tiene ese único parámetro
(es decir, la función de verosimilitud es función sólo de β ). Para estimar
el parámetro, maximizamos la función de verosimilitud, o su logaritmo,
L( β ) . El estimador será denotado como β̂ , y el valor máximo de la log-
verosimilitud es L( βˆ ) . Veamos cómo se formulan las tres pruebas:
2
βˆ
• La prueba de Wald es basada en el estadístico χ = 2
, es decir
Wald
s.e.βˆ
el valor estimado dividido por su error estándar (asintótico). Este
error estándar asintótico se calcula a partir de la curvatura de la
función de log-verosimilitud en su máximo. Así, intuitivamente, si la
curva es muy “amplia” o “abierta”, el error estándar es grande (la
estimación no es muy precisa), si la curva es muy “cerrada”, el error
estándar es pequeño (la estimación es precisa). Esta prueba trata de
comprobar si la diferencia (en el eje horizontal) entre el valor
estimado y el valor hipotetizado en la nula es suficientemente pequeña.
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
2
L '(0)
• El estadístico para la prueba del escore es χ = 2
Score . Esto es,
s.e.L '(0)
evalúa si la derivada en el valor postulado es lo suficientemente
cercana a 0. Debemos recordar que para la mayoría de los modelos
estudiados, la función de verosimilitud es cóncava (al menos cerca del
máximo), y que por lo tanto a medida que la derivada se acerca más a 0,
significa que la log-verosimilitud, bajo la hipótesis nula, está más cerca
del máximo.
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
verosimilitud para la situación de ajuste de muchos modelos con distinto
número de parámetros, decidiendo hasta cuándo se puede excluir o no
términos. Un valor bajo de AICp es considerado representativo de un
mejor ajuste y los modelos son seleccionados procurando obtener un
mínimo de AICp. Considerando dos modelos encajadas Mq y Mp, con p>q, se
tiene que AIC p AIC q = S p − S q − 2( p − q ) , así, suponiendo verdadero a Mq, se
prueba que E ( AIC p − AIC q ) = p − q + O(n −1 ).
µ ( x + 1) = eα ( e β ) e β .
x
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
común y la expresión nominal, la excepción. Este fenómeno se llama
sobredispersión (superdispersión) y entre las causas más comunes
tenemos la heterogeneidad entre unidades de medición, o en el tiempo
como factor que indexa las respuestas. Cuando esto se presenta, hay dos
enfoques para la modelación de los datos:
1
Basada en la bibliografía sugerida en la planificación del curso. 2009
por φˆ . Por analogía al modelo clásico normal y el análisis de la varianza de
Fisher, se ha propuesto usar la distribución F en vez de la χ 2 , ya que φ es
estimado.
P( y) =
(
Γ y+ 1
k ) (kµ )
k
1
Basada en la bibliografía sugerida en la planificación del curso. 2009