Modelos Lineales Generalizados

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

Modelos Lineales Generalizados

En aos recientes los modelos lineales generalizados han ganado gran


popularidad como herramienta de modelaje estadsticos. Esta popularidad es en parte a
la flexibilidad de estos modelos para tratar diferentes problemas estadsticos y la
disponibilidad de programas de computo para ajustar los modelos.
Los modelos lineales generalizados (GLIMs) fueron definidos por Nelder y
Wedderburn (Nelder, J.A., and Wedderburn, R.W.M. 1972. Generalized Linear Models.
Journal. Of the Royal Statistical Society A, 135, 370-384). Estos modelos son una
extensin de los modelos lineales tradicionales que permiten que la media de la
poblacin dependa en un predictor lineal a travs de una funcin de ligue no lineal, y
permite que la distribucin de probabilidad de la respuesta sea cualquier miembro de
una familia exponencial de distribuciones. Muchos de los modelos estadsticos
ampliamente usados son modelos lineales generalizados. Estos incluyen modelos
lineales clsicos con errores normales, modelos Logit y Probit para datos binarios y
modelos log lineales para datos multinomiales. Muchos otros modelos estadsticos
pueden ser formulados como un GLIM seleccionando una funcin de ligue y una
distribucin probabilstica de la respuesta apropiada.
Para una descripcin detallada del modelaje estadstico con estos modelos
consulte a McCullagh y Nelder (McCullagh, P., and Nelder, J.A. 1989. Generalized Linear
Models. London: Chapman and Hall). El libro de Dobson (Dobson, A. 1990. An
introduction to Generalized Linear Models) es tambin una referencia excelente con
muchos ejemplos y aplicaciones de estos modelos.
Que es un Modelos Lineal Generalizado?
Un modelo lineal tradicional tiene la forma:
i i i
e x y + = |
'

Donde
i
y es la variable de respuesta para la
i
-sima observacin,
i
x es un vector
columna de covariables, o variables explicatorias para la observacin
i
, que son
conocidos por el diseo experimental y son considerados como fijos o no aleatorios. El
vector de coeficientes desconocidos | es estimado por cuadrados mnimos para ajustar
los datos y . Los
i
e se asume que son variables aleatorias, independientes con
distribucin normal, con media cero y varianza constante. El valor esperado de
i
y ,
denotado como
i
u , es:
| u
'
i i
x =
Mientras los modelos lineales tradicionales son usados extensivamente en el
anlisis de datos estadsticos, existen algunos problemas para los cuales no son
apropiados.
- Puede no ser razonable asumir que los datos son normalmente distribuidos. Por
ejemplo, la distribucin normal (la cual es continua) quizs no sea adecuada para
modelar conteos o medidas de proporcin que son consideradas como discretas.
- Si la media de los datos esta restringida naturalmente a un rango de valores, el
modelo lineal tradicional puede no ser apropiado dado que el predictor lineal
|
'
i
x puede tomar cualquier valor. Por ejemplo, la media de una medida de
proporcin esta entre 0 y 1, pero el predictor lineal de esta media en un modelo
lineal tradicional no esta restringido a este rango.
- Puede no ser realista asumir que la varianza de los datos es constante para todas
las observaciones. Por ejemplo, no es usual observar datos donde la varianza se
incrementa con la media de los datos.
Un modelo lineal generalizado extiende el modelo lineal tradicional y por lo tanto es
aplicable a un amplio rango de problemas de anlisis de datos. Un modelo lineal
generalizado consiste de los siguientes componentes.
- Los componentes lineales estn definidos de manera similar a los modelos
lineales tradicionales
| n
'
i i
x =
- g es una funcin de ligue montonicamente diferenciable que describe como el
valor esperado de
i
y se relaciona con el predictor lineal
i
n :
( ) | u
'
i i
x g =
- Las variables de respuesta
i
y son independientes para
i
=1,2, , n y tienen una
distribucin que pertenece a la familia exponencial. Esto implica que la varianza
de la respuesta depende de la media u a travs de la funcin de varianza V :
( ) ( )
i i i
w V y / var u v =
- Donde v es una constante y
i
w es un ponderador conocido para cada
observacin. El parmetro de dispersin v es conocido, por ejemplo para la
distribucin Binomial, o tiene que ser estimado.
De manera similar a los modelos tradicionales clsicos, el ajuste de un modelo lineal
generalizado puede resumirse a travs de estadsticos tales como los estimadores de los
parmetros y sus errores estndar. Tambin es posible hacer inferencia estadstica
sobre los parmetros usando intervalos de confianza y pruebas de hiptesis. Sin
embargo, los procedimientos de inferencia especficos estn basados en
consideraciones asintticas, dado que la teora no esta disponible o no es prctica para
todos los modelos lineales generalizados.
Ejemplos de Modelos lineales Generalizados:
Para construir un GLIM, primero se deciden las variables explicativas y de respuesta
para los datos, posteriormente seleccionar adecuadamente la funcin de ligue y la
distribucin de probabilidad de la variable de respuesta. A continuacin se presentan
algunos ejemplos de modelos lineales generalizados. Las variables explicatorias pueden
ser cualquier combinacin de variables continuas, variables de clasificacin e
interacciones entre ellas.
Modelo lineal tradicional
- Variable de respuesta: variable continua
- Distribucin: normal
- Funcin de ligue: identidad u n =
Regresin logstica
- Variable de respuesta: una proporcin
- Distribucin: Binomial
- Funcin de ligue: Logit
|
|
.
|

\
|

=
u
u
n
1
log
Regresin Poisson en un modelo Log lineal
- Variable de respuesta: un conteo
- Distribucin: Poisson
- Funcin de ligue: log ( ) u n log =
Regresin Poisson en un modelo Log lineal
- Variable de respuesta: una variable continua positiva
- Distribucin: Poisson
- Funcin de ligue: log ( ) u n log =
Funciones de ligue ms comunes
Identidad: u n =
Logit:
|
|
.
|

\
|

=
u
u
n
1
log
Probit: = n ( ) u v , donde v es la funcin de distribucin acumulativa de la normal
estndar.
Potencia:
( ) 0
0
log =
=

u
u
n

si
si

Log: ( ) u n log =
Log-Log complementario: ( ) ( ) u n = 1 log log
Distribuciones y varianzas asociadas ms comunes:
Normal: ( ) 1 = u V
Binomial: ( ) ( ) u u u = 1 V
Poisson: ( ) u u = V
Gamma: ( )
2
u u = V
Gaussiana inversa: ( )
3
u u = V
Miembros de la familia exponencial:
Normal:
( ) ( ) | | > < = y y y f
2 2
2
1
exp
2
1
u o
to

o
( )

=
2
2
1
2
2
2 2
2
2 ln
2 2
exp to
o
u
o
u
o
y y

Binomial:
( ) ( ) N y P P
y
N
y f
y N y
, , 1 , 0 1 =
|
|
.
|

\
|
=


( )

|
|
.
|

\
|
+ +
|
.
|

\
|

=
y
N
P N
P
P
y ln 1 ln
1
ln exp
Poisson:
( ) N y
y
e
y f
y
, , 1 , 0
!
= =


( ) ( ) | | ! ln ln exp y y =
Forma general:
( ) ( )

( ) ( )

+ y d c b y a
eres de natural Parametro
u u
int
exp
Cuando a(y) = y, entonces decimos que la distribucin esta en su forma cannica.
Distribucin ( ) u b
u
Normal
2
o
u

Binomial |
.
|

\
|
P
P
1
ln
P
Poisson ( ) ln
Componentes de los GLIMs:
1. Componentes aleatorios: y
1
, y
2
, y
N
vienen de una distribucin que pertenece a
la familia exponencial
2. Componente sistemtico:
i i
x n | =
3. La funcin de ligue relaciona a los y
is
con |
i
x
( ) ( ) ( )
i i i i i
g x g x g n | u | u
1 1
= = =
Los modelos lineales clsicos utilizan, que es la funcin de ligue de identidad.
Para el caso de la proporcin Binomial: ( )
i i i
n P Bin P , ~

.
( ) Logit
P
P
P g
i
i
i
=
|
|
.
|

\
|

=
1
ln
Para el caso de la Poisson: ( )
i i
P y ~
( ) ( )
i i
e e g
x
i i i
n |
= = = ln
Las funciones de ligue de identidad, Logit y Log, son funciones de ligue a partir de
la distribucin Normal, Binomial y Poisson en forma cannica. ( )
i
g u puede tener
cualquier forma si es que tiene una inversa y es diferenciable.
Ejemplos:
1) Binomial: Respuesta a la dosis de un frmaco
X
1
X
2
X
3
X
t

Muertos n
11
n
12
n
13
n
1t
n
1.

Vivos n
21
n
22
n
23
n
2t
n
2.

n
.1
n
.2
n
.3
n
.t
n
..

i
i
i
n
n
P
.
1

=
Dado que son proporciones podemos usar un Logit.
Logit =
( )
( )
( )

.
| n
| | | | |
'
2 3
2
1 2 1 1 0
1
ln
i i
i
x
t p
P g
i
i
X X X X
P
P
=
+ + + + =


2) Poisson: conteo del numero de pstulas en hojas de frjol expuestas a dos cepas
de una enfermedad despus de 10 das. En este caso, dado que cada mitad de hoja
fue expuesta a una de las dos cepas, la hoja acta como bloque.
Hoja Cepa 1 Cepa 2
1 y
11
y
12

2 y
21
y
22

. . .
N y
N1
y
N2

y
ij
= numero de pstulas en la hoja i para la cepa j.
Asumimos:
y
ij
~ P( )
ij
| |
ij ij
y E =
( )

|
u
t u
'
i
i
x
ij j i
g
ij
e h + + + =
Estimacin:
Usualmente usamos mxima verisimilitud para obtener estimadores de |
donde

=
= =
p
j
i j ij i
x x
1
n | |
Asumiendo que la funcin de ligue esta en su forma cannica, el logaritmo de
mxima verisimilitud para la i-sima observacin es ( ) ( ) ( )
i i i i
y d c b y + + u u , de tal
manera que:
( ) ( ) ( ) ( )

+ + = = =
i i i i i i i
n
y d C B y l y f l u u u t | log
Para obtener estimadores de mxima verisimilitud: =
c
c
=
=
P j
N i
j
i
l
, , 1
, , 1
0

|
y
obtenga soluciones para
i
| .
Mtodos para obtener soluciones de
i
| :
1. Newton Raphson
( ) ( )

Hessian Matriz
m m
H H b b
1
1
2
1
=
( ) 1
1

=
c
c
=
m
b
l
H
|
|

( ) 1
'
2
2

=
c c
c
=
m
b
l
H
|
| |

2. Scoring: Reemplace H
2
con E(H
2
) = I(b) = matriz de informacin evaluada a
b = | .1
( ) ( )
( ) | |
1
1
1 1
H b I b b
m m m


+ =
Esto se reduce a un tipo de cuadrados mnimos ponderados iterativos; tomando
el j, k elemento de I(b):
( )
( )
( )
( )
|
|
.
|

\
|
|
|
.
|

\
|
c
c
-
|
|
.
|

\
|
c
c

=
|
|
.
|

\
|
c
c c
=
|
|
.
|

\
|
c c
c


= = i
i
N
i i
ik i i
i
i
N
i i
ij i i
k j k j
n y V
x y
n y V
x y
E
l l
E
l
E
u u u
u
| | | |
1 1
2
2

Despus de algo de lgebra obtenemos la ecuaciones iterativas:
( )
( )
( ) ( )
( )
( )
1
1 1 1
H b b I b b I
m m m m
+ = =


( )
( ) ( )
1
1 ' '
H WXb X b WX X
m m
+ =


Donde:
( )
( )
( )
( )

|
|
.
|

\
|
c
c
|
|
.
|

\
|
c
c
=
n
n
n
n n
i
i
i
i i
n y V
y E
n y V
y E
W
u u
u u
2
2
0
0

. .


( )
( )

|
|
|
|
.
|

\
|
c
c
|
|
|
|
.
|

\
|
c
c
=
n
n
n
i
i
i
y V
n
y V
n
u
u

. .

0
0

El j-simo elemento de H
1
=
( )
( )
( )

=
=
|
|
.
|

\
|
c
c

=
c
c

N
i i
i
i
ij i i
b
j
n y V
x y
l
m 1 1
u
u
|
|

( )
( )

|
|
.
|

\
|
c
c

|
|
.
|

\
|
c
c

=
n
n
n n
i
i
i i
j
n
y
n
y
W x
u
u
u
u
.
'
de tal manera que H
1
= XW
As que
( )
( )
( )
.
.
Z
n
y
n
y
Xb W X H WXb X
n
n
n n
i
i
i i
m
|
|
|
|
|
|
.
|

\
|

|
|
.
|

\
|
c
c

|
|
.
|

\
|
c
c

+ = +

u
u
u
u
'
1
1 '

Entonces:
( )
( ) ( )
1
1 '
'
H Wb X b WX X
m m
= =


( )
( ) ( )
( ) WZ X WX X b WZ X b WX X
m m '
1
' '
'

= =
Para usarlo necesitamos:
i) obtener W, usando
( ) 1 m
b
ii) obtener solucin para
( ) m
b
iii) parar las iteraciones si
( ) ( )
( ) 1
1

m
m m
l
l l
< a psilon, donde Epsilon es un valor
determinado por el investigador (usualmente 1*10
-6
).

Para obtener errores estndar de |
~
( )
1
'

WX X (la inversa de la matriz de
informacin).
Inferencia:
Parmetros a estimarse: ( )
p
| | | ,
1
'

Estimadores finales: ( )
p
| | |

,

1
'

Supuestos:
( )
|
|
|
|
.
|

\
|

=

.
1
, ~

1
'
I
WX X NMV | |
( ) k I k NMV k
1 ' '
,


| |
Para probar la hiptesis Ho: m k |
'

( )| | ( )
( )
2 '
1
'
'
'
~

k r
X m k Ik k m k

| |
Cuando Ho: es cierta
Usualmente queremos estimar los parmetros en trminos de la escala de
i
u ,
recuerde que ( ) ( ) | u | u
'
'
1
x g x g
i i i

= = .
En el caso de Poisson:
( ) | u
i i
x g = ( )
i i i
t u u n + = = ln ( ) | u
n '
'
1
x g e
i
i

= =
En el caso de la Binomial con funcin de ligue Logit:
( ) |
i i
x P g =
i
i
i
i
P
P
t u n + =
|
|
.
|

\
|

=
1
ln
i
i
e
e
P
i n
n

+
=

También podría gustarte