Regressão Ordinal
Regressão Ordinal
Regressão Ordinal
761
ANLISE ESTATSTICA
Onde k representa o parmetro de localizao para as k = 1, ..., K 1 classes da varivel dependente (equivalente ordenada na origem na regresso linear), o vector dos coeficientes de regresso (declives) e X* a matriz das variveis independentes (sem a coluna de 1s como na regresso linear, caso con762
trrio o modelo indeterminado, pois essa coluna redundante com os k). No caso de uma nica varivel independente, o modelo simplifica-se a: P(Y j k | x) Logit [ P ( Y j k | x )] = Ln = P(Y j > k | x)
= k + X j ( j = 1, ..., n; k = 1, ..., K 1)
Note que o coeficiente de regresso () no apresenta ndice k, obrigando o modelo a pressupor que o efeito da varivel independente sobre o Logit [ P ( Y j k | x )] igual para todas as classes (veremos adiante como testar este pressuposto conhecido por pressuposto da homogeneidade dos declives). Os k so parmetros de posio de cada uma das classes, reflectindo a caracterstica qualitativa da varivel dependente enquanto que o declive nico permite obter um modelo parcimonioso para dados ordinais. Assim, o modelo assume que o efeito das variveis independentes sobre o Logit idntico para todas as classes da varivel dependente, e que a resposta observada em cada classe apenas se encontra deslocalizada para a direita ou para a esquerda, em funo de k. O modelo ordinal atrs definido permite estimar o logaritmo da probabilidade de a varivel dependente tomar os valores de classes inferiores ou iguais a k, comparativamente com a probabilidade de tomar os valores das classes superiores a k. Se > 0, quando X aumenta, aumenta a probabilidade de a varivel dependente tomar valores de ordem inferiores ou iguais a k, i.e. quando X aumenta, Y diminui. Se < 0, ento quando X aumenta, Y aumenta. Esta relao entre o sinal de e a variao de Y contrria interpretao generalizada do sinal de em regresso. Assim, sendo > 0, para que quando X aumenta, aumente a probabilidade de Y tomar valores de ordem superiores, necessrio re-escrever o modelo como: P(Y j k | x) Logit [ P ( Y j k | x )] = Ln = k X j P(Y > k | x) j E esta a forma como a regresso ordinal modelada pela maioria dos softwares de anlise estatstica (nomeadamente o SPSS, Stata, e o Statistica, entre outros) pelo que ser, tambm, a forma adoptada neste livro. As duas formas alternativas do modelo ilustram-se na figura seguinte para uma varivel dependente com 3 classes, e uma nica varivel independente:
763
ANLISE ESTATSTICA
1.0
P (Y 1)
0.8 0.6 0.4 0.2 0.0
X
P (Y 2)
P (Y 3)
1.0
P (Y 3)
0.8 0.6 0.4 0.2 0.0
X
P (Y 2)
P (Y 1)
Note que nas figuras acima, cada uma das curvas equivalente curva da regresso logstica em que as classes, dicotmicas, so Yj k e Yj > k. As curvas tem exactamente a mesma forma, i.e. a variao da probabilidade em funo de X igual para todas as classes, estando apenas deslocalizadas horizontalmente por um factor constante (k k+d ) / . O rcio das chances acumuladas, igual para todas as classes, dado por: OR k = P(Y k | x = x + d ) / P(Y > k | x = x + d ) = P(Y k | x = x) / P(Y > k | x = x)
= e d = = e 1
d
764
Neste modelo, o rcio das chances -proporcional distncia d entre os dois pontos da varivel independente, para todas as classes da varivel dependente e por isso o modelo tambm designado por modelo de chances proporcionais (Agresti, 2002). Em particular, se d = 1, as chances de observar uma classe inferior ou igual a k, comparativamente com as chances de se observar uma classe superior a k, variam e por cada unidade de X (mantendo constantes as restantes variveis independentes). O ajustamento do modelo ordinal feito iterativamente com o mtodo da mxima verosimilhana. Uma vez que o modelo pressupe que as curvas de probabilidade das K 1 classes da varivel dependente so iguais para todas as classes e so calculadas de forma cumulativa, a funo de verosimilhana (Agresti, 2002): L =
(P(Y
j = 1 k =1
k | x j ) P(Y k 1 | x j )
( k 1 x j ) ( k 1 x j )
Y kj
) =
= j =1
n
( x ) e k j (k x j ) k =1 1 + e
Y kj
1+ e
Onde Ykj regista a classe dicotmica ( k vs. > k) da varivel Y para o sujeito j. No MODELO DE VARIVEL LATENTE, assume-se que existe uma varivel latente continua () que no possvel medir directamente, e que a varivel manifesta (Y) resulta do corte da varivel latente em K-classes, ordinais e mutuamente exclusivas. O modelo estrutural que relaciona a varivel latente com as variveis independentes : j = x j + j ( j = 1, ..., n)
isto , a varivel ordinal toma a classe k, quando a varivel latente est entre os pontos de corte, ou thresholds, k1 e k ( = 0 < 1 < ... < K = +)
765
ANLISE ESTATSTICA
como ilustra a figura seguinte para uma varivel dependente Y com 4 classes e uma varivel independente X:
P (Y = 4 | x3) P (Y = 4 | x2)
a1 classe 4
P (Y = 4 | x1)
x1
x2
x3
Na representao grfica acima, o modelo latente j = 0 + X j + j e basta definir 3 pontos-de-corte, ou thresholds, para delimitar as 4 classes da varivel manifesta Y. Naturalmente, 0 = e 4 = +. As curvas em sino em torno de cada um dos pontos (xj, j) so as curvas de densidade de probabilidade dos erros do modelo tal como na regresso linear (rever cap. 14.1). Assim, a probabilidade de se observar uma determinada classe para um determinado valor de X dada pela rea da curva entre dois thresholds, como ilustra a figura para y = 4 (rea a cinzento nas curvas em sino). A probabilidade de se observar uma determinada classe de Y ento P (Yj = k |xj) = P (k 1 k | xj ). Designando por F a funo de distribuio dos erros do modelo estrutural, substituindo j por 0 + X j + j e rearranjando os termos, podemos ento escrever P (Yj = k | xj ) = F (k X j ) F(k 1 X j ) (eliminando a constante 0 que redundante com )1 (Long & Freese, 2006). Note que para a classe k = 1, 0 = pelo que F ( X i ) = 0 e P (Yj = 1|xj) = F (1 X j ). De
(1)
Para alm de fixar a ordenada na origem em 0, tambm necessrio definir a escala de o que geralmente se faz fixando a sua varincia em 1 (i.e. estandardizando a varivel latente).
766
modo anlogo, para k = 4, 4 = + pelo que F (+ X i ) = 1 e P (Yj = 4|xj) = 1 F (3 X j ). O inverso da funo F, i.e. F -1, designa-se por funo de ligao (link function) por fazer a ligao linear entre a parte aleatria do modelo (P [ Y k ]) e a parte sistemtica (X* ). Por exemplo, se F for a funo logstica definida anteriormente na regresso logstica (rever cap. 15.1.1), F 1 define a funo Logit, e o modelo designa-se por modelo logit ordinal; Se F for a distribuio normal, F 1 define a funo Probit, e o modelo diz-se probit ordinal. De uma forma linear generalizada, recorrendo funo Link, o modelo pode escrever-se como: Link (P [ Y k ]) = k X* No SPSS esto disponveis 5 funes Link cuja utilizao no modelo ordinal, recomendvel de acordo com o tipo de distribuio de probabilidades que as classes da varivel dependente apresentam. As principais recomendaes resumem-se na tabela seguinte (Adaptado de Agresti, 2002; Noruis, 2006; Long & Freese, 2006):
Funo Link (F 1)
Usar quando As classes de Y apresentam distribuio uniforme As classes de Y de maior ordem so as mais frequentes As classes de Y de menor ordem so as mais frequentes As classes de Y de menores e maiores ordens so as mais frequentes A varivel latente de tipo normal (assumpo)
Logit
P [Y k ] Ln P [Y > k ]
Ln ( Ln (1 P [Y k ])
Ln ( Ln ( P [Y k ] )
Cauchit
Tan ( ( P [Y k ] 0.5)
Probit
A escolha da funo Link no ajustamento do modelo, deve pois considerar o tipo de distribuio das classes da varivel dependente. A escolha de uma funo Link inapropriada pode comprometer a significncia do modelo e a sua capacidade preditiva.
767
ANLISE ESTATSTICA
O Modelo de escala
O SPSS permite ainda definir um modelo ordinal, mais flexvel e realista, que permite controlar diferenas de distribuio de probabilidades das classes da varivel dependente em funo das variveis independentes. Por exemplo, num estudo sobre opinio acerca da despenalizao do aborto, possvel que as respostas apresentem maior variabilidade nas mulheres do que nos homens; num estudo sobre crditos de risco, possvel que as empresas de novas tecnologias vs. tecnologias tradicionais apresentem maior variabilidade na liquidao dos crditos; a probabilidade de detectar uma situao anmala mais varivel se o instrumento de medida apresentar rudo, do que se no apresentar (situao muito frequente em Biomedicina), etc. Assim, o modelo de escala que incorpora o efeito da disperso das respostas (Agresti, 2002): Link ( P [ Y k ]) = k X * e X
Neste modelo, o denominador contem o vector dos parmetros de escala () que descreve o padro de disperso observado em X. Note que se = 0, obtemos o modelo ordinal original. Quando as frequncias das classes extremas so as mais elevadas, X > 0, e o modelo tende a aproximar as probabilidades cumulativas. Por outro lado, se X < 0 as probabilidades cumulativas tendem a afastar-se.
coeficientes da regresso ordinal so apenas uma aproximao dos coeficientes da regresso logstica. Ainda assim, se o pressuposto da homogeneidade dos declives for vlido, a anlise de resduos ordinais com os mtodos da regresso logstica produz resultados fiveis (Long & Freese, 2006). Interessa agora, descrever o pressuposto da homogeneidade dos declives que especfico da regresso ordinal
H 0 : 1 = 2 = ... = K 1
vs.
H1: k, l : k l
( k l ; k, l = 1, ..., K 1)
A estatstica de teste o rcio de verosimilhanas de dois modelos ordinais, o primeiro assumindo que os declives so iguais (i.e. que H0 vlida) e o segundo assumindo que os declives possam ser diferentes (i.e. que H1 vlida e que Link (P [ Yj k ]) = k xj k). Os 2LL dos dois modelos so usados para averiguar se o ganho de 2LLH1 (com declives livres) relativamente ao 2LLH0 (com declives homogneos) significativo. A estatstica de teste ento: L H1 2 X LP = 2 LL H1 ( 2 LL H 0 ) = 2 Ln L H0 a 2 ( k 2) p
Se o p-value = P (2 X2LP) do teste for muito pequeno, rejeita-se H0 e conclui-se que os declives no so homogneos. Note que se pretende, geralmente, no rejeitar a H0. ainda de referir que a escolha da funo Link afecta a significncia deste teste, e que a rejeio de H0 pode estar simplesmente associada escolha de uma funo Link inapropriada para a distribuio de probabilidades observadas nas classes da varivel dependente. Por outro lado, se este pressuposto
769
ANLISE ESTATSTICA
no for validado, poder ser aconselhvel recorrer regresso multinomial como alternativa de anlise.
1 1 + e(k X
*
Note que estas funes do as probabilidades acumuladas de se observar uma classe inferior ou igual a k, e que para determinar a probabilidade de se observar a classe k, e necessrio subtrair a probabilidade de se observar uma classe inferior ou igual a k 1. De uma forma generalizada, podemos ento escrever, para cada um dos j = 1, ..., n sujeitos a sua probabilidade de ocorrncia para cada uma das K classes:
P [Yj = 1] = F (1 xj ) P [Yj = 2] = F (2 xj ) F (1 xj ) ...
770
P [Yj = k] = F (k xj ) F (k1 xj )
...
P [Yj = K] = 1 F (K1 xj )
Finalmente, o sujeito j classificado na classe k da varivel dependente onde a sua probabilidade de ocorrncia for maior. A comparao das classificaes observadas e das classificaes previstas pode tambm ser usada na avaliao da qualidade do modelo global. Vejamos agora um exemplo de aplicao da regresso ordinal com o SPSS. Num estudo sobre a despenalizao do aborto, um investigador perguntou a 25 pessoas que passavam na Rua Augusta (amostra de convenincia) qual o seu grau de concordncia com a despenalizao do aborto at s 10 semanas, usando para tal uma escala de tipo Likert com 5 pontos (1 Discordo completamente; 2 Discordo; 3 Nem concordo nem discordo; 4 Concordo; e 5 Concordo completamente). Em simultneo registou o gnero dos participantes e a sua idade. A matriz dos resultados a seguinte:
Grau de Concordncia 5 Concordo completamente 1 Discordo completamente 3 Nem concordo nem discordo 1 Discordo completamente 4 Concordo 2 Discordo 1 Discordo completamente 2 Discordo 4 Concordo 2 Discordo 1 Discordo completamente 4 Concordo 1 Discordo completamente 3 Nem concordo nem discordo 1 Discordo completamente 3 Nem concordo nem discordo 1 Discordo completamente 5 Concordo completamente 2 Discordo Sexo F M F F F F M F M F M F F M M F M F F Idade 45 38 30 55 23 29 41 42 35 29 30 25 40 35 47 33 49 25 21
771
ANLISE ESTATSTICA
Grau de Concordncia 4 Concordo 1 Discordo completamente 2 Discordo 3 Nem concordo nem discordo 2 Discordo 4 Concordo
Sexo F M M F M F
Idade 28 25 21 35 45 24
Ser que a opinio sobre a despenalizao do aborto idntica entre homens e mulheres? E qual o efeito da idade? Depois de codificar a varivel gnero em 0 Feminino e 1 Masculino, e de introduzir a base de dados no SPSS, proceda para o menu Analyze Regression Ordinal:
Seleccione a varivel Despenalizao para a caixa Dependent, a varivel Sexo para a caixa Factor (as variveis independentes qualitativas so adicionadas como factores) e a varivel Idade para a caixa Covariate(s) (as variveis independentes quantitativas so adicionadas como covariveis):
772
para definir o tipo de modelo ordinal a De seguida clique no boto ajustar, o nmero de iteraes, etc. As opes do SPSS por default so, de um modo geral, apropriadas para a maioria das anlises, e neste menu, necessrio apenas seleccionar o tipo de funo Link. Seleccione, a opo Logit (ainda que, como veremos adiante, esta possa no ser a funo Link mais apropriada):
Clique no boto e, de seguida, no boto para definir as opes de anlise e os resultados a produzir. Na rea Display, seleccione a opo Test of parallel lines e na rea Saved variables, seleccione as opes Estimated response probabilities (para obter a probabilidade de cada sujeito responder a cada uma das
773
ANLISE ESTATSTICA
classes da varivel dependente), e a opo Predicted category (para obter a classe da varivel dependente em que cada sujeito classificado). Pode ainda seleccionar a opo Predicted category probability para gravar na base de dados a probabilidade da classe de resposta onde o sujeito foi classificado:
Clique no boto , e no boto pode definir o tipo de modelo a ajustar: um modelo de efeitos principais (Main effects), um modelo com interaco (interaction), etc. Seleccione a opo Main effects uma vez que no estamos interessados em testar a interaco entre os factores.
774
Clique em para voltar ao menu da regresso ordinal. O boto permite definir um modelo de escala onde se assume que podem existir diferenas no padro de resposta/variabilidade nas classes resultantes dos cruzamentos das variveis independentes. Por exemplo, poder ser necessrio assumir que as frequncias de resposta s 5 classes da varivel dependente, so diferentes entre homens e mulheres. Assim, interessava definir um parmetro de escala para a varivel Sexo (para as variveis quantitativas esta assumpo menos comum, a menos que a varivel seja discreta). Um histograma de frequncias permite avaliar a plausibilidade de um modelo de escala para os dados observados. Este tipo de modelos pouco frequente nas cincias sociais e humanas pelo que ser, por para obter o output da regresagora, ignorado. Clique finalmente no boto so ordinal Logit (PoLytomous Universal Model Ordinal regression):
Case Processing Summary N Despenalizao 1 - Discordo completamente 2 - Discordo 3 - Nem concordo nem discordo 4 - Concordo 5 - Concordo completamente F M 8 6 4 5 2 15 10 25 0 25 Marginal Percentage 32.0% 24.0% 16.0% 20.0% 8.0% 60.0% 40.0% 100.0%
775
ANLISE ESTATSTICA
Os dois primeiros quadros indicam a percentagem de clulas, resultantes do cruzamento das variveis independentes, que no apresentam qualquer observao. Recorde que a existncia de muitas clulas vazias impede a utilizao do teste do Qui-quadrado do ajustamento. No nosso exemplo, existem 78.2% de clulas vazias, pelo que a aplicao deste teste no aconselhada. Felizmente, esta condio no afecta a distribuio do rcio de verosimilhanas, e a sua aproximao distribuio do Qui-quadrado, que avaliada no quadro seguinte:
Model Fitting Information Model Intercept Only Final -2 Log Likelihood 73.442 63.371 Chi-Square 10.070 df 2 Sig. .007
Pseudo R-Square Cox and Snell Nagelkerke McFadden Link function: Logit. .332 .348 .132
O quadro do Model Fiting Information revela que o modelo ajustado (Final) significativamente melhor do que o modelo nulo (intercept only) (G2 (2) = 10.070; p = 0.007), i.e. que pelo menos uma das variveis independentes do modelo afecta significativamente as probabilidades de ocorrncia das classes da varivel dependente. O quadro do Goodness-of-fit apresenta os testes qualidade do ajustamento do Qui-quadrado de Pearson e da Deviance. Relembre que, nestes testes, para que o modelo se ajuste aos dados (H0) necessrio no rejeitar a hiptese nula. Assim, em ambos os testes o p-value maior que os nveis de significncia habituais pelo que no se rejeita a H0 de que o modelo se ajusta aos dados, ainda que a utilizao destes testes seja desaconselhada face ao elevado
776
2 nmero de clulas com frequncias nulas ( X P (82) = 86.683; p = 0.342; D (82) = 60.599; p = 0.963). O quadro dos Pseudo R-square apresenta as estimativas dos pseudo-R2 mais comuns na regresso categorial. Todas as estatsticas calculadas so moderadas a baixas, em particular o pseudo-R2 de McFadden.
O quadro dos Parameters Estimates apresenta as estimativas dos Treshold e dos coeficientes de regresso associados s variveis independentes, os seus erros-padro, a estatstica de Wald, o p-value do teste, e o respectivo intervalo de confiana:
Parameter Estimates 95% Confidence Interval Lower Bound Upper Bound -5.933 .745 -4.390 2.028 -3.466 2.885 -1.912 4.733 -.168 .005 .162 3.512 . .
Threshold
Location
[Despenalizao = 1.00] [Despenalizao = 2.00] [Despenalizao = 3.00] [Despenalizao = 4.00] Idade [Sexo=.00] [Sexo=1.00]
df 1 1 1 1 1 1 0
Uma vez que a varivel dependente apresenta 5 classes, o modelo apresenta 4 thresholds (k). De um modo geral, estes thresholds so usados apenas para o clculo de probabilidades, e para alm desta utilizao, o seu interesse diminuto. As estimativas dos declives (coeficientes de regresso) so utilizadas para inferir da significncia das variveis independentes sobre as probabilidades das classes da varivel dependente (em rigor sobre o Link das probabilidades acumuladas). No nosso exemplo, porque foi usado a funo Logit, o modelo pode escrever-se como:
P [ Y k] Ln P [ Y > k ] = k ( 0.082 Idade + 1.837 Sexo [0])
777
ANLISE ESTATSTICA
Assim, quando a idade aumenta 1 ano, o Ln da probabilidade de se observar uma classe de ordem inferior, relativamente a uma classe de ordem superior aumenta 0.082, i.e. medida que a idade aumenta, diminui a probabilidade de se observarem as classes de maior ordem (concordncia), relativamente s classes de menor ordem (discordncia). Dito de outra forma podemos afirmar que medida que a idade aumenta, diminui a concordncia com a despenalizao do aborto, ainda que este efeito seja apenas marginalmente significativo (b = 0.082; 2 X Wald (1) = 3.427; p = .064). Uma vez que estamos a usar a funo Logit, podemos calcular o rcio das chances usando a expresso e .1 Substituindo pela sua estimativa, obtemos e ( 0.082) = 1.085, ou seja por ano de idade o rcio da probabilidade de se observarem classes de menor ordem comparativamente probabilidade de se observarem classes de maior ordem aumenta 8.5%, revelando que com o aumento da idade maior a probabilidade de os inquiridos serem menos favorveis despenalizao do aborto. Relativamente varivel Sexo, podemos afirmar, de acordo com o modelo, que para a classe F relativamente classe omitida de referncia (M), o Ln da probabilidades de se observar uma classe de ordem inferior, relativamente a uma classe de ordem superior diminui 1.837. Na classe F, comparativamente com a classe M, as classes de menor ordem da varivel dependente (discordncia) so menos provveis do que as classes de maior ordem (concordncia) revelando que as mulheres so mais concordantes com a despenalizao do aborto do que os homens. O rcio de chances de se observar uma classe de menor ordem relativamente a uma classe de maior ordem pode ser facilmente calculado por e (1.837) = 0.338. O rcio das chances das classes de menor ordem (discordncia), relativamente s classes de maior ordem (concordncia), diminui 66.2% quando o sexo passa de Masculino (classe de referncia) para Feminino, revelando que as mulheres so mais favorveis despenalizao do aborto do que os homens. Note que os rcios das chances calculados para a Idade e para o Sexo, so constantes para todas as classes se os declives do modelo forem homogneos. O quadro seguinte Test of Paralell Lines permite testar este pressuposto:
(1)
O clculo do rcio das chances s vlido se a funo Link for a Logit, para as outras funes Link no faz sentido calcular este rcio.
778
Test of Parallel Lines c Model Null Hypothesis General -2 Log Likelihood 63.371 52.673a Chi-Square 10.699b df 6 Sig. .098
The null hypothesis states that the location parameters (slope coefficients) are the same across response categories. a. The log-likelihood value cannot be further increased after maximum number of step-halving. b. The Chi-Square statistic is computed based on the log-likelihood value of the last iteration of the general model. Validity of the test is uncertain. c. Link function: Logit.
O modelo sob H0 (Null Hypothesis) assume que todos os declives so iguais (i.e. que as linhas das funes Link so paralelas) enquanto que o modelo General assume que a H1: Existe pelo menos um declive diferente dos restantes, vlida. A diferena dos 2LL permite calcular uma estatstica com distribuio Qui-quadrado, e se esta estatstica no for significativa, i.e. se p-value > , podemos afirmar que o ajustamento do modelo no melhora libertando os coeficientes de regresso ou que, dito de outra forma, os declives so homogneos. Contudo, antes de analisar a significncia da diferena entre os dois modelos, de notar as notas de rodap a e b do quadro. Estas notas indicam que o programa foi incapaz de alcanar uma soluo com o nmero mximo de passos do algoritmo (maximum step-halving) previamente definido e que desta forma a validade do teste no garantida. Assim, antes de mais, necessrio refazer a anlise, e no menu Options, aumentar o Maximum step-halving para, por exemplo, 50:
779
ANLISE ESTATSTICA
Test of Parallel Lines Model Null Hypothesis General -2 Log Likelihood 63.371 52.161 Chi-Square 11.210
df 6
Sig. .082
The null hypothesis states that the location parameters (slope coefficients) are the same across response categories. a. Link function: Logit.
2 Sendo X LP (6) = 11.210 e p = 0.082, no rejeitamos a H0 de que os declives so homogneos, validando assim o pressuposto da homogeneidade dos declives. No deve, porm, passar despercebido o facto de a significncia do teste ser marginal, i.e. se considerssemos uma probabilidade de erro de tipo I () maior, por exemplo = 0.10, j no era possvel assumir a veracidade do pressuposto de homogeneidade dos declives. Como referido anteriormente, a no rejeio de H0 pode dever-se escolha errada da funo Link, e nesta fase da anlise o leitor deveria considerar outros tipos de funes Link atendendo s recomendaes feitas atrs (cap. 15.3.1.) (voltaremos adiante a este tpico).
O passo final da regresso ordinal a avaliao da qualidade de classificao/previso do modelo. De acordo com as seleces efectuadas no menu Output foram adicionadas novas variveis base de dados que registam a probabilidade de ocorrncia de cada um dos sujeitos em cada uma das 5 classes da varivel dependente (EST1_1; EST2_1; EST3_1; EST4_1; EST5_1); a classe da varivel dependente prevista para cada sujeito (PRE_1) e a probabilidade de classificao estimada para a classe prevista (PCP_1):
780
Uma vez que usamos a funo Logit, a probabilidade acumulada de cada uma das classes dada por
P [ Y k | x *] =
1 1+ e
( k ' x *)
Assim, para o primeiro sujeito da base de dados no nosso exemplo (Idade = 45; Sexo = F) a probabilidade da resposta ser na classe 1 da varivel dependente :
1 1+ e
( k ' x *)
=
=
= 0.322
781
ANLISE ESTATSTICA
1 1+ e
[ 1.181 ( 0.082 45 + 1.837 )]
0.332 =
0.662 =
1 1+ e
[ 0.141 ( 0.082 45 + 1.837 )]
0.827 =
P [ Y = 5 | [45 F ] '] = P [ Y 5] P [ Y 4] =
= 1 0.963 = 0.037
Estes so os valores (arredondados a 2 casas decimais) que se encontram na base de dados para o primeiro sujeito. Assim, a classe prevista para o primeiro individuo a classe 2 Discordo, j que nesta que se observa a maior probabilidade de resposta. De modo semelhante, para o 2 sujeito (Idade = 38; Sexo = M), as probabilidades de resposta em cada uma das classes so:
1 1+ e 1+ e
( k ' x *)
= =
1
[ 2.594 ( 0.082 38 )]
= 0.628
782
P [ Y = 2 | [38 M ] '] = P [ Y 2] P [ Y 1] = =
1 1+ e
[ 2.594 ( 0.082 38 )]
0.628 =
O sujeito 2 ento classificado na classe 1 Discordo completamente uma vez que nesta que se observa a maior probabilidade de resposta. Uma outra forma de avaliar a qualidade do modelo comparando a percentagem de classificaes correctas obtidas pelo modelo, com a percentagem de classificaes correctas proporcional por acaso. Relembre que se o modelo no classificar correctamente pelo menos 25% dos casos mais do que a classificao correcta proporcional por acaso, a capacidade predictiva do modelo reduzida (reveja o cap. 15.1.7). O SPSS (at v. 15 inclusive) no apresenta estes clculos, mas estes so fceis de realizar cruzando as classes da varivel dependente, com as classes previstas para a varivel dependente (usando a nova varivel PRE_1 da base de dados). Recorra ento ao menu Analyze Descriptive Statistics Crosstabs:
783
ANLISE ESTATSTICA
Despenalizao
PRE_1
para as
Rows
Columns
De seguida clique no boto e seleccione a opo Row na rea Percentapara obter a percentagem de classificaes correctas para cada uma das classes da varivel dependente:
ges,
784
Clique em e em para obter o output. Eis a tabela de contingncia que relaciona as classes observadas e as classes previstas na resposta questo Concorda com a despenalizao do aborto:
Despenalizao * Predicted Response Category Crosstabulation Predicted Response Category Discordo completa mente Discordo Concordo 7 1 0 87.5% 12.5% .0% 1 2 3 16.7% 33.3% 50.0% 1 2 1 25.0% 50.0% 25.0% 1 0 4 20.0% .0% 80.0% 0 1 1 .0% 50.0% 50.0% 10 6 9 40.0% 24.0% 36.0%
Despenalizao
Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente
Total
Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao
Note em primeiro lugar, que das 5 classes originais, apenas 3 so previstas pelo modelo. O modelo prediz correctamente 87.5% da classe Discordo completamente. A percentagem de previses correctas de 33% para a classe Discordo, 80% para a classe Concordo, e 0% para as classes Nem concordo nem discordo e Concordo completamente. O modelo classifica correctamente 7 + 2 + 4 = = 13 sujeitos e a percentagem sujeitos classificados correctamente pelo modelo 13 / 25 100 = 52%. Pelo contrrio a percentagem de classificao correcta proporcional por acaso (0.322 + 0.242 + 0.162 + 0.202 + 0.082) 100 = = 23.2%. O modelo classifica assim razoavelmente melhor do que a classificao por acaso. O leitor ter j reparado, ao longo da descrio dos resultados do modelo ordinal Logit, que existem vrios problemas com este modelo. Na verdade, o passo inicial do processo de ajustamento de um modelo ordinal deve ser sempre o da escolha da funo Link apropriada de acordo com a descrio feita anteriormente (reveja a tabela das funes Link no cap. 15.3.1). Fazendo um histograma de frequncias (Graphs Histogram) para a varivel Despenalizao, possvel observar que as classes de maior frequncia so as classes de menor ordem como se ilustra na figura seguinte:
785
ANLISE ESTATSTICA
6
Frequencia
0 0 1 2 3 4 5 6 Despenalizao
Assim, a funo Link mais apropriada ser, provavelmente, a funo Log-log negativa. A diferena de qualidade entre os dois modelos pode ser avaliada heuristicamente comparando os 2LL dos dois modelos. Naturalmente, o melhor modelo aquele que apresentar menor 2LL. Adicionalmente, a significncia dos coeficientes, e do teste de homogeneidade dos declives, bem como a capacidade predictiva dos modelos podem ser tambm tidos em conta no processo de deciso da funo Link a usar. Refaamos ento o nosso exemplo, mas agora com a funo Link Log-log negativa (mantendo todas as outras opes de anlise):
786
Eis os novos outputs do SPSS para a regresso ordinal com a funo Log-log negativa:
Warnings There are 86 (78.2%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.
Case Processing Summary N Despenalizao Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente F M 8 6 4 5 2 15 10 25 0 25 Marginal Percentage 32.0% 24.0% 16.0% 20.0% 8.0% 60.0% 40.0% 100.0%
Model Fitting Information Model Intercept Only Final -2 Log Likelihood 73.442 61.561 Chi-Square 11.881 df 2 Sig. .003
Pseudo R-Square Cox and Snell Nagelkerke McFadden .378 .397 .156
787
ANLISE ESTATSTICA
Parameter Estimates 95% Confidence Interval Lower Bound Upper Bound -3.761 .766 -2.722 1.685 -2.086 2.364 -.898 4.106 -.123 -.002 .212 2.595 . .
Threshold
Location
[Despenalizao = 1.00] [Despenalizao = 2.00] [Despenalizao = 3.00] [Despenalizao = 4.00] Idade [Sexo=.00] [Sexo=1.00]
Estimate Std. Error -1.498 1.155 -.518 1.124 .139 1.135 1.604 1.276 -.062 .031 1.403 .608 0a .
df 1 1 1 1 1 1 0
Link function: Negative Log-log. a. This parameter is set to zero because it is redundant.
Test of Parallel Linesa Model Null Hypothesis General -2 Log Likelihood 61.561 51.670 Chi-Square 9.891 df 6 Sig. .129
The null hypothesis states that the location parameters (slope coefficients) are the same across response categories. a. Link function: Negative Log-log.
Comparativamente ao modelo ordinal Logit, o novo modelo Log-log negativo, apresenta menor 2LL (61.561 vs. 63.371), sendo o p-value do modelo ordinal Log-log negativo cerca de 2 menor do que o p-value do modelo ordinal Logit. Adicionalmente, a varivel idade que no modelo ordinal Logit era apenas marginalmente significativa (p = 0.064) passou a ser estatisticamente significativa no novo modelo (p = 0.044). Tambm, no teste da homogeneidade dos declives o p-value do modelo Log-log negativo maior do que no modelo ordinal Logit (0.129 vs. 0.098), suportando a ideia de que a funo Log-log negativa mais apropriada para a distribuio de frequncias observada nas classes da varivel dependente. Finalmente, a percentagem de classes correctamente classificada dada na tabela de contingncia seguinte:
788
Despenalizao * Predicted Response Category Crosstabulation Predicted Response Category Discordo completa mente Discordo Concordo 7 1 0 87.5% 12.5% .0% 1 2 3 16.7% 33.3% 50.0% 1 2 1 25.0% 50.0% 25.0% 1 0 4 20.0% .0% 80.0% 1 0 1 50.0% .0% 50.0% 11 5 9 44.0% 20.0% 36.0%
Total
Count % within Despenalizao Discordo Count % within Despenalizao Nem concordo nem Count discordo % within Despenalizao Concordo Count % within Despenalizao Concordo Count completamente % within Despenalizao Count % within Despenalizao
Assim, a taxa de classificaes correctas de 13/25 100 = 52% valor que, contudo, no melhor do que o obtido com o modelo ordinal Logit. Interessa agora avaliar a plausibilidade de um modelo ordinal de escala. Comecemos por fazer o histograma de frequncias para as classes da varivel dependente cruzadas com o sexo. Seleccione a opo Graphs Histogram e no menu do Histogram seleccione a varivel Despenalizao para a caixa Variable e a varivel Sexo para a caixa Columns:
789
ANLISE ESTATSTICA
Clique no boto
Sexo F 6 5 4 3 2 1 0 1 2 3 4 5 1 2 3 4 5 Despenalizao M
Como ilustra a figura anterior, a distribuio das frequncias de resposta entre os dois sexos so algo diferentes. Nos homens a classe mais frequente a classe 1 Discordo completamente enquanto que nas mulheres as classes mais frequentes so as classes 2 Discordo e 4 Concordo. Observadas as diferenas das frequncias de resposta, entre as classes da varivel sexo, podemos agora averiguar se a introduo de um parmetro de escala para a varivel Sexo, resultar num melhor modelo predictivo. Voltemos ao menu da regresso ordinal no SPSS: Analyze Regression Ordinal e no menu Scale seleccionemos a varivel Sexo para a caixa Scale model:
790
Frequencia absoluta
e no boto
Case Processing Summary N Despenalizao Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente F M 8 6 4 5 2 15 10 25 0 25 Marginal Percentage 32.0% 24.0% 16.0% 20.0% 8.0% 60.0% 40.0% 100.0%
Model Fitting Information Model Intercept Only Final -2 Log Likelihood 73.442 61.542 Chi-Square 11.900 df 3 Sig. .008
791
ANLISE ESTATSTICA
Pseudo R-Square Cox and Snell Nagelkerke McFadden .379 .398 .156
Parameter Estimates 95% Confidence Interval Sig. Lower Bound Upper Bound .295 -4.074 1.236 .678 -2.759 1.796 .902 -2.020 2.292 .253 -1.076 4.082 .099 -.132 .011 .039 .071 2.656 . . . .889 -1.125 .975 . . .
Estimate Std. Error Threshold [Despenalizao = 1.0 -1.419 1.355 [Despenalizao = 2.0 -.482 1.162 [Despenalizao = 3.0 .136 1.100 [Despenalizao = 4.0 1.503 1.316 Location Idade -.060 .037 [Sexo=.00] 1.363 .659 [Sexo=1.00] 0a . Scale [Sexo=.00] -.075 .536 [Sexo=1.00] 0a .
df 1 1 1 1 1 1 0 1 0
Link function: Negative Log-log. a. This parameter is set to zero because it is redundant.
Note em primeiro lugar, que no caso dos modelos de escala o SPSS no produz o teste homogeneidade dos declives. Para comparar o novo modelo de escala, com o modelo anterior interessa comparar os 2LL dos dois modelos. O 2LL do modelo de escala 61.542, valor idntico ao 2LL do modelo anterior (61.561). Por outro lado, o coeficiente associado varivel Sexo reduzido
2 e no significativo ( (F ) = 0.075; X Wald (1) = 0.020; p = 0.889). O modelo
de escala no apresenta melhores qualidades estatsticas do que o modelo sem escala. Por questes de parcimnia, o melhor modelo o modelo mais simples, e no nosso exemplo, o modelo Log-log negativo , assim, o mais apropriado para descrever as probabilidades cumulativas observadas neste estudo.
792
Resultados
Os coeficientes e a significncia do modelo ordinal ajustado Ln ( ln (P (Y k) = k ( 0.062 Idade + 1.403 Sexo [F ]) so apresentados na tabela 1. O modelo estatisticamente significativo ( G 2 (2) = 11.881; p = 0.003), ainda que a dimen2 2 2 so do efeito seja algo reduzida ( RMF = 0.156; RN = 0.397; RCS = 0.378). Tabela 1. Estimativas e significncia do modelo Log-log negativo ajustado
Intervalo de confiana a 95%
]3.761;0.766[
Parmetros [Despenalizao = 1.00] Threshold [Despenalizao = 2.00] [Despenalizao = 3.00] [Despenalizao = 4.00] Localizao Idade
Estimativa
Erro-padro
1.155
2 X Wald
g.l.
p-value
1.498
1.682
.195
.518
1.124
.212
.645
]2.722; 1.685[
.139
1.135
.015
.903
]2.086; 2.364[
1.604
1.276
1.580
.209
].898; 4.106[
.062
.031
4.054
.044
].123; .002[
[Sexo = .00]
1.403
.608
5.328
.021
]0.212; 2.595[
793
ANLISE ESTATSTICA
De acordo com o modelo, medida que a idade aumenta, diminui a probabilidade de se observarem classes de maior ordem (concordncia) ( bIdade = 0.062; p = 0.044). Relativamente ao sexo, observa-se maior probabilidade das classes de maior ordem (concordncia) nas mulheres, comparativamente com os homens (bF = 1.403; p = 0.021). A evoluo das probabilidades de cada uma das classes em funo da Idade e por sexo so ilustradas na figura 1. de referir que nos homens a classe mais provvel a classe 1 Discordo completamente e que a probabilidade de observar esta resposta aumenta com a Idade de forma marcada. Nas mulheres a probabilidade de observar classes de menor ordem tambm aumenta com a idade e, a partir dos 45 anos, a classe 1 a classe de maior probabilidade. Para as mulheres at aos 30 anos, a classe de resposta mais provvel a classe 4 Concordo, entre os 30 e os 45 anos a classe mais provvel a classe 2 Discordo (Fig. 1).
Sexo F 1,0
Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente
0,8
0,6
P[Y=k]
0,4 0,2 0,0 20 30 40 50 Idade 20 30 40 50
Figura 1. Evoluo das probabilidades de resposta em cada uma das 5 classes da varivel Concorda com a despenalizao do aborto ( Discordo completamente; Discordo; Nem concordo nem discordo; Concordo; 2 2 Concordo completamente) ( G 2 (2) = 11.881; p = 0.003; RMF = 0.156; RN = 0.397; 2 RCS = 0.378)
794