Grayci-Mary Gonçalves Leal - Dissertação Ppgmat CCT 2006
Grayci-Mary Gonçalves Leal - Dissertação Ppgmat CCT 2006
Grayci-Mary Gonçalves Leal - Dissertação Ppgmat CCT 2006
Dados envolvendo medidas angulares estão presentes nas mais diversas áreas do
conhecimento. Para analisá-los é necessário utilizar uma teoria estatística específica e
apropriada, diferente da que utilizamos para dados lineares. Particularmente, quando
o interesse for formular, ajustar e fazer diagnósticos em modelos de regressão, uma
vez que, neste contexto, a natureza da variável deve ser considerada. Neste traba-
lho, utilizamos os modelos de regressão von Mises para investigar a associação tipo
circular-linear e apresentamos dois resíduos padronizados que foram obtidos a partir
da componente da função desvio e cujas distribuições de probabilidades podem ser
aproximadas pela distribuição normal padrão, definida para dados lineares.
Abstract
Data involving angular are present in the most diverse areas of science. To analyze
them is necessary to introduce an appropriate theory and to study specific and appro-
priate statistics as well, different from that we use for linear data. When the interest
is to formulate, to adjust and to make diagnostics on regression models, the nature of
the variables must be considered. In this work, we use the von Mises regression models
to investigate the circular-linear association and discuss two standardized residuals de-
fined from the component of the deviance function whose probability distributions can
be approximated by the normal standard distribution defined for linear data.
Universidade Federal de Campina Grande
Centro de Ciências e Teconologia
Programa de Pós-Graduação em Matemática
Curso de Mestrado em Matemática
Análise de Resíduos em
Modelos de Regressão von Mises
por
sob orientação do
Campina Grande - PB
Abril/2006
Análise de Resíduos em Modelos de
Regressão von Mises
por
Aprovada por:
Abril/2006
ii
Agradecimentos
Primeiramente, ao meu Senhor e Salvador Jesus Cristo que me concede mais esta
vitória, pois sem Ele nada posso fazer;
Ao meu esposo Janilson por seu amor, incentivo e compreensão sempre dispensado
e ao meu primeiro filho Carlos Alberto, por está presente neste momento tornando-o
mais especial;
Aos meus pais, Afonso e Fátima, por todo amor, confiança e apoio em todas as
áreas, não só agora, mas sempre. Aos meus irmãos Kelly e Affonso por sempre acredi-
tarem e confiarem em mim, enfim agradeço a toda minha família;
Aos professores André Gustavo Campos Pereira e Antonio José da Silva, por gen-
tilmente aceitarem ao convite de avaliar este trabalho;
Aos meu colegas Lya, Jaqueline, Areli, Tatiana, Ana Cristina, Rosângela, Marta,
Jesualdo, Lino, Aluízio, Cícero, Luciano, Moisés, Orlando e Lauriclécio, pela amizade
e companherismo de todos;
iii
Dedicatória
iv
Conteúdo
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1 Dados Direcionais 6
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Representação Gráfica de Dados Direcionais . . . . . . . . . . . . . . . 7
1.3 Medidas Descritivas no Círculo . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Medidas de Locação . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Medidas de Concentração . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.4 Outras Medidas de Dispersão . . . . . . . . . . . . . . . . . . . 12
1.4 Momentos Trigonométricos . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Conceitos Teóricos Básicos para Dados Direcionais . . . . . . . . . . . . 15
5 Aplicação 55
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 Descrição e Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . 56
Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
E Programas Computacionais 70
E.1 Comandos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Bibliografia 78
Introdução
• circular-linear que pode ser usada para predizer valores de uma variável dire-
cional a partir de valores de variáveis lineares;
• linear-circular que pode ser usada para predizer valores de uma variável linear
dado o valor de uma variável direcional.
Neste trabalho, consideramos a associação do tipo circular-linear, por isso foi conve-
niente considerar os modelos de regressão von Mises, por eles gozarem de boas pro-
priedades. Apresentamos dois resíduos padronizados que foram obtidos a partir da
componente da função desvio e cujas distribuições de probabilidades podem ser com-
paradas com a distribuição normal padrão.
Dados Direcionais
1.1 Introdução
Em diversas áreas de conhecimento há o interesse por medidas angulares. Po-
demos citar como exemplo a Geologia, Biologia, Meteorologia, Medicina, Física, En-
genharia, Meio Ambiente, entre outras. Alguns exemplos típicos de dados direcionais
nestas áreas são:
observados tenham sido y1 = 10 e y2 = 3590 que são “próximos entre si” e eqüidistastes
da direção 00 . Neste caso, a média aritmética amostral é y = (10 + 3590 )/2 = 1800
que corresponde ao ponto no círculo diametralmente oposto ao resultado intuitivo. Em
contra partida, o desvio padrão amostral fica dado por: Sn−1 = 2530 , ou seja, um valor
que não descreve o fato de y1 e y2 estarem “próximos entre si”.
Como as medidas resumo usadas para variáveis lineares não fazem sentido para
as variáveis circulares, pelo que vimos no exemplo anterior, precisamos estabelecer
algumas medidas descritivas relacionadas com o conceito de posição, dispersão e con-
centração que façam sentido para as variáveis circulares.
S = Rsenµ (1.3)
11
onde
S C
S= e C= . (1.4)
n n
Das expressões (1.2), (1.3) e (1.4), podemos mostrar (vide Apêndice A) que
n
1X
cos(yi − µ) = R e (1.5)
n i=1
n
1X
sen(yi − µ) = 0. (1.6)
n i=1
Para n ímpar, a mediana é um único ângulo e, quando n for par a mediana é a média
aritmética entre os dois ângulos centrais.
−→ −→ −→ −→ −→
0 ≤k OP 1 + OP 2 + · · · + OP n k≤k OP 1 k + · · · + k OP n k= 1 + · · · + 1 = n.
Portanto,
0 ≤ R ≤ n ⇒ 0 ≤ R/n ≤ 1 ⇒ 0 ≤ R̄ ≤ 1.
V = 1 − R. (1.7)
Então,
π − (π − |α − β|), se π − |α − β| ≥ 0
min((α − β), 2π − (α − β)) =
π − [−(π − |α − β|)], se π − |α − β| < 0
Portanto,
min((α − β), 2π − (α − β)) = π − |π − |α − β||.
Com isto, uma medida de dispersão dos ângulos y1 , . . . , yn em torno de um dado ângulo
αé
n n
1X 1X
d0 (α) = {π − |π − |yi − α||} = π − |π − |yi − α||
n i=1 n i=1
A mediana amostral ye é o ponto que minimiza d0 (Mardia e Jupp, 1999), logo, o desvio
médio circular é definido por
n
1X
d0 (e
y) = {π − |π − |yi − ye||}. (1.9)
n i=1
A diferença circular média é a distância média entre observações circulares é dada por
n
1 1X
D0 = [d0 (y1 ) + d0 (y2 ) + · · · + d0 (yn )] = d0 (yj ).
n n j=1
Portanto,
n n
1 XX
D0 = 2 {π − |π − |yi − yj ||}, (1.10)
n i=1 j=1
w = 2π − max(T1 , . . . , Tn ) (1.11)
em que
n n
1X 1X
ap = cos(pyi ) e bp = sen(pyi ).
n i=1 n i=1
Portanto,
′
mp = Rp eiµp , (1.14)
onde
n n
1X 1X
ap = cos[p(yj − µ)] e bp = sen[p(yj − µ)].
n j=1 n j=1
Em particular, temos
n n
1X 1X
m1 = a1 + ib1 = cos[p(yj − µ)] + i sen[p(yj − µ)].
n j=1 n j=1
m1 = R + i.0 = R.
Entendemos por uma variável aleatória circular como sendo uma variável aleatória já
convertida em ângulos e assumindo valores no intervalo [0, 2π).
Definição: Definimos a função de distribuição de uma variável aleatória circular como
sendo uma função F tal que
P (Y ≤ y2 ) = P (Y ≤ y1 ) + P (y1 < Y ≤ y2 )
⇒ P (y1 < Y ≤ y2 ) = P (Y ≤ y2 ) − P (Y ≤ y1 ).
16
Logo,
P (y1 < Y ≤ y2 ) = F (y2 ) − F (y1 ).
φY (p) = αp + iβp ,
(i) φY (0) = 1
(iv) É suficiente considerarmos a função φY (p) apenas para valores inteiros e positivos
de p.
Vamos considerar as versões populacionais das medidas resumo e dos momentos trigo-
nométricos que foram apresentadas nas seções (1.3) e (1.4).
φY (p) = αp + iβ p , (1.24)
De fato,
∗
φ∗Y (p) = E(eipY ) = E(eip(Y −ψ) ) = e−ipψ E(eipY ) = e−ipψ φY (p).
Mas,
φ∗Y (1) = E[cos(Y − µ)] + iE[sen(Y − µ)].
Logo,
E[cos(Y − µ)] + iE[sen(Y − µ)] = ρ + i0.
Portanto,
ν = 1 − ρ. (1.28)
De (1.26) temos,
ν = 1 − E[cos(Y − µ)].
Esta definição é motivada pelo fato de que a distribuição normal ao redor do círculo
gera a distribuição normal arqueada, como veremos posteriormente.
20
1 − ρ2
δ= , (1.30)
2ρ22
p
onde ρ2 = α22 + β22 , com α2 = E[cos(2Y )] e β2 = E[sen(2Y )].
1 1
P (Y ∈ (e e + π]) ≥
µ, µ e P (Y ∈ (e
µ − π, µ
e)) ≥ .
2 2
Várias desigualdades para distribuições são observadas no círculo, muitas delas foram
estudadas por Marshal & Olkin (1961). Usando a desigualdade de Tchebyshev na
variável aleatória sen( Y −µ
2
), temos:
Y −µ ν
P (|sen( )| ≥ ε) ≤ 2 , 0 < ε ≤ 1. (1.31)
2 2ε
Neste capítulo, nosso objetivo é fazer um estudo das duas principais famílias de
modelos probabilísticos para dados direcionais. Os chamados modelos exponenciais e
os modelos de transformação. Além disso, apresentar algumas das mais importantes
distribuições sobre o círculo, dando um destaque à distribuição von Mises.
2.1 Introdução
Em inferência estatística, a análise de modelos probabilísticos adequados é de
grande relevância, tanto para dados lineares quanto para dados direcionais. A maio-
ria dos modelos para dados direcionais pertence a uma das duas classes de modelos
paramétricos, ou os modelos exponenciais ou os modelos de transformação (Mardia e
Jupp, 1999). Assim sendo, faremos um estudo das principais propriedades dessas duas
classes de modelos. Dentre as famílias de distribuições no círculo, temos a distribuição
uniforme circular como a mais simples e a distribuição von Mises como a mais impor-
tante, pois desempenha um papel em inferência no círculo semelhante à distribuição
normal na reta. Apresentaremos também, outras distribuições circulares importantes
que são as distribuições arqueada.
22
′
f (x; ω) = b(x) exp{φ(ω) t(x) − ψ(ω)}, x ∈ χ e ω ∈ Ω, (2.1)
(i) Se (2.1) for minimal, então o modelo é chamado um modelo exponencial (m, d);
′
f (x; θ) = b(x)exp{θ t(x) − ψ(θ)}, (2.2)
∂ψ ∂ 2ψ
Eθ (t) = e V arθ (t) = ′
∂θ ∂θ∂θ
(2) A matriz inversa de Informação de Fisher é V arθ (t).
(3) Se X1 , . . . , Xn forem independentes e identicamente distribuídas com função de
densidade de probabilidade dada por (2.2), então a distribuição amostral de t (média
amostral da estatística t ) tem função densidade de probabilidade proporcional a
′
exp{n[θ t(x) − ψ(θ)]},
23
e t é suficiente para θ.
(4) O estimador de máxima verossimilhança θb de θ é único e é dado pela solução da
equação
Eθb (t) = t.
ω
b (gx1 , . . . , gxn ) = gb
ω (x1 , . . . , xn ).
Logo,
1 β β−α
Pr (α < Y ≤ β) = y|α = ,
2π 2π
ou seja, essa probabilidade é proporcional ao comprimento de arco.
A função característica da distribuição uniforme é dada por
0, se p = ±1, ±2, . . .
φY (p) =
1, se p = 0.
1 1 ipy 2π e2ipπ − 1
φY (p) = e |0 = = 0.
2π ip 2ipπ
Portanto,
0, se p = ±1, ±2, . . .
φY (p) =
1, se p=0
Xw = X{mod(2π)}. (2.6)
25
X 7→ e2πiX .
Propriedades:
(i) (X + Z)ω = Xω + Zω
1 (x − µ)2
f (x) = √ exp{− }.
σ 2π 2σ 2
26
Portanto,
φ(p) = αp + iβp , (2.10)
onde
α = ρp2 cos(µp)
p
(2.11)
β = ρp2 sen(µp)·
p
Para verificarmos isso, basta ver que, da propriedade (iii) da seção 2.5, temos que
∞
X X∞
1
fω (y) = f (y + 2kπ) = [1 + 2 (αp cos(py) + βp sen(py))].
k=−∞
2π p=1
Logo,
X∞
1 2
fw (y; µ, ρ) = {1 + 2 ρp cos[p(y − µ)]}.
2π p=1
Conclusões:
27
• Quando σ 2 ≥ 2π, fω pode ser aproximada pelos três primeiros termos de (2.12).
Observações:
A redução módulo 2π “transforma” a reta num círculo. Da mesma forma, temos que se
m ∈ Z∗+ a redução módulo 2πm “transforma” os inteiros no grupo das m-ésimas raízes
de 1, visto como um subgrupo do círculo (Mardia e Jupp, 1999). Em particular, se X
é uma variável aleatória sobre os inteiros, então Xw , definida por
Xw = 2πX{mod(2π)}, (2.13)
Desta forma, se X ∼ Poisson (λ), Xω tem distribuição Poisson Arqueada com função
de probabilidade dada por
X∞
2πr −λ λr+km
Pr (Xω = )=e , r = 0, 1, . . . , m − 1, (2.15)
m k=0
(r + km)!
Portanto, Y1 + Y2 ∼ WP (λ1 + λ2 ).
1 a
f (x; µ, a) = , a > 0, −∞ < µ < ∞, x ∈ R.
π a2 + (x − µ)2
φ(p) = e−a|p|+ipµ
= e−a|p| eipµ
Logo,
φ(p) = e−a|p| (cos pµ) + e−a|p| (senpµ) = αp + iβp .
onde,
αp = e−a|p| cos(pµ) e
(2.17)
βp = e−a|p| sen(pµ).
29
Propriedades:
(vi) Tal como a Distribuição Poisson Arqueada, o conjunto das funções densidade de
probabilidades das distribuições de Cauchy Arqueadas é fechado com relação à
soma.
onde, I0 (λ) é a função de Bessel modificada de primeiro tipo e ordem zero, que é dada
pela série
X∞
1 1 2r
I0 (λ) = ( λ) ·
r=0
r!2 2
que não admite uma forma fechada. Algumas características da distribuição von Mises
Ip (λ)
envolvem a função Ap (λ) = I0 (λ)
, onde Ip (λ) é a função de Bessel modificada do primeiro
tipo e ordem p, que é definida pela série
∞
X 1 1
Ip (λ) = ( λ)2r+p , p = 0, 1, . . .
r=0
(p + r)!r! 2
(iv) Segundo Stephens (1963), para valores não muito pequenos de λ, a distribui-
ção von Mises VM(µ, λ) é próxima de uma distribuição normal arqueada WN
(µ, 1/λ).
(v) A razão entre a densidade na moda e a densidade na antimoda é e2λ . Isto implica
que, quanto maior for o valor de λ maior será o agrupamento em torno da moda.
31
n{R cos(µ − µ
b) − A1 (λ)} = 0 ⇒ R cos(µ − µ
b) − A1 (λ) = 0 ⇒ A1 (λ) = R.
b = R ou seja, λ
A1 (λ) b = A−1 (R)
1
b é viciado e uma aproximação para o vício foi obtida por Best e Fisher
O estimador λ
(1981). Eles concluem que, para amostras pequenas e valores pequenos de λ, a distribui-
b tem uma grande assimetria, com uma longa cauda à direita, conseqüentemente,
ção de λ
32
Distribuições Assintóticas
√
b − λ) ∼ N2 (0, I −1 ),
µ − µ, λ
n (b (2.22)
√ ³ 1 ´
µ − µ) ∼ N 0,
n(b e
λA(λ)
à !
√ 1
b − λ) ∼ N 0,
n(λ .
2 A(λ)
1 − A (λ) − λ
3.1 Introdução
Os modelos de regressão têm como objetivo fornecer um mecanismo capaz de
fazer previsões dos valores de uma variável, denominada resposta, utilizando informa-
ções sobre outras variáveis, que chamamos explicativas. Quando a variável resposta
é angular, a teoria dos modelos de regressão apropriada tem sido pouco considerada.
Em geral, a variável é tratada como sendo linear, embora problemas desse tipo não são
raros e estão presentes nas mais diversas áreas. Por exemplo, a partir de informações
sobre velocidades de ventos, fazer previsões com respeito a direções, ou ainda, a partir
de dados de distâncias percorridas por determinados animais, prever direções a serem
seguidas, entre outras aplicações. Seguindo esta abordagem, podemos destacar alguns
estudos como pioneiros.
35
Segundo Fisher e Lee (1992), quando a resposta é uma variável circular, os modelos de
regressão apresentam algumas características peculiares, dentre elas podemos destacar
a possibilidade de se modelar a dispersão circular tão bem quanto se modela a média,
uma vez que conjuntos de dados encontrados na prática exibem características de au-
mento de variabilidade de Y para pequenos valores de X, e outra razão é o fato de
existir distribuições, tais como a uniforme, em que a média direcional não está definida.
Vale salientar que modelar a dispersão não é uma tarefa simples, apresenta certas di-
ficuldades, porque para as distribuições circulares não existe uma medida natural de
escala. Por isso, é conveniente trabalhar com a família de distribuição von Mises,
que apresentam uma medida de dispersão intrínseca (λ) e, como foi dito no capítulo
anterior, esta distribuição compartilha de propriedades inferênciais semelhantes à dis-
tribuição normal nos dados lineares.
36
Fazendo uma analogia à teoria de regressão normal linear, Gould (1969) propõe um
modelo para média direcional que apresenta a estrutura
p
X
µ = µ0 + βj xj , (3.1)
j=1
µi = µ + g(β T xi ), (3.2)
Inicialmente definimos:
ui = sen(yi − µ − g(β T xi ))
u = (u1 , . . . , un )T
X = (x1 , . . . , xn )T
G = diag(g ′ (β T x1 ), . . . , g ′ (β T xn ))
Xn
S = sen(yi − g(β T xi ))/n (3.4)
i=1
Xn
C = cos(yi − g(β T xi ))/n (3.5)
i=1
R = (S + C 2 )1/2 .
2
(3.6)
Então,
∂l
= 0 ⇒ S cos µ
b − Csenb
µ = 0 ⇒ S cos µ
b = Csenb
µ.
∂µ
Desta forma, o estimador de máxima verossimilhança µ
b deve satisfazer
S 2 cos2 µ
b = C 2 sen2 µ
b.
Sabemos que cos2 θ + sen2 θ = 1, substituindo este resultado na expressão acima temos,
S 2 cos2 µ
b = C 2 (1 − cos2 µ
b) ⇒ S 2 cos2 µ
b + C 2 cos2 µ
b = C 2.
Assim,
R2 cos2 µ
b = C 2 ⇒ R| cos µ
b| = |C| ⇒ R cos µ
b = C.
39
De forma análoga,
S 2 cos2 µ
b = C 2 sen2 µ
b ⇒ S 2 (1 − sen2 µ
b) = C 2 sen2 µ
b
⇒ R2 sen2 µ
b = S2
⇒ Rsenb
µ = S.
Logo, o estimador µ
b deve satisfazer o sistema de equações
R cos µ b = C
(3.7)
Rsenb µ = S.
Então,
X n
∂l
=0⇒ xi g ′ (β T xi )sen(yi − µ − g(β T xi )) = 0.
∂β i=1
40
Logo,
n
X
xi g ′ (β T xi )ui = 0 ⇒ xT Gu = 0.
i=1
Agora, com relação ao parâmetro de concentração λ, temos
X n
∂l
= −nA1 (λ) + cos[(yi − g(β T xi )) − µ]
∂λ i=1
n
X n
X
T
= −nA1 (λ) + cos µ cos(yi − g(β xi )) + senµ sen(yi − g(β T xi ))
i=1 i=1
= −nA1 (λ) + nC cos µ + nSsenµ
Portanto,
∂l b
= 0 ⇒ C cos µ
b + Ssenb
µ = A1 (λ).
∂λ
Utilizando a expressão (3.7) temos,
b ⇒ A1 (λ)
C 2 /R + S 2 /R = A1 (λ) b = R.
X T Gu = 0 (3.8)
Rsenb
µ = S (3.9)
R cos µ
b = C (3.10)
b = R.
A1 (λ) (3.11)
Este sistema não possui uma solução explícita e deve ser resolvido por um processo
iterativo. Podemos obter uma solução através do algoritmo dos mínimos quadrados
iterativamente reponderados (IRLS), Green (1984). O vetor βb é atualizado pela equa-
ção
(m+1) (m)
X T G2 X(βb − βb ) = X T G2 y*, (3.12)
µ
bi
onde y* = (y1∗ , . . . , yn∗ )T e yi∗ = b ′ (β
[A1 (λ)g bT xi )] ·
Processo iterativo
b, βb e λ,
A obtenção das estimativas de máxima verossimilhança µ b é feita através do
λi = h(γ T z i ), (3.13)
Inicialmente definimos:
n
X
S = λi sen(yi ), (3.15)
i=1
n
X
C = λi cos(yi ) e (3.16)
i=1
R = (S + C 2 )1/2 .
2
(3.17)
Então,
∂l
= 0 ⇒ S cos µ µ ⇒ S 2 cos2 µ
b = Csenb b = C 2 sen2 µ
b.
∂µ
Sabemos que cos2 θ + sen2 θ = 1. Substituindo este resultado na expressão acima temos,
S 2 cos2 µ
b = C 2 (1 − cos2 µ
b) ⇒ S 2 cos2 µ
b + C 2 cos2 µ
b = C 2.
Assim,
R2 cos2 µ
b = C 2 ⇒ R| cos µ
b| = |C| ⇒ R cos µ
b = C.
De forma análoga,
S 2 cos2 µ
b = C 2 sen2 µ
b ⇒ S 2 (1 − sen2 µ
b) = C 2 sen2 µ
b ⇒ R2 sen2 µ
b = S 2 ⇒ Rsenb
µ = S.
Portanto, o estimador µ
b deve satisfazer
R cos µ
b = C
Rsenbµ = S.
43
d Ip (t)
Por outro lado, considerando que I (t)
dt 0
= I1 (t) e Ap (t) = I0 (t)
, conforme Apêndice D,
tem-se que
n
X I1 (λi ) ∂λi X n
∂l ∂λi
= − + cos(yi − µ)
∂γ0 I (λ ) ∂γ0 i=1
i=1 0 i
∂γ0
n
X ∂
= − A1 (λi )h′ (γ T z i ) (γ0 + γ1 z i1 + · · · + γq z iq ) +
i=1
∂γ0
n
X ∂
cos(yi − µ)h′ (γ T z i ) (γ0 + γ1 z i1 + · · · + γq z iq )
i=1
∂γ0
n
X
= h′ (γ T z i ){−A1 (λi ) + cos(yi − µ)}.
i=1
Agora, para j = 1, . . . , q,
n
X n
X
∂l I1 (λi )
= − h′ (γ T zi )zij + cos(yi − µ)h′ (γ T z i )zij
∂γj i=1
I0 (λi ) i=1
Xn Xn
= − A1 (λi )h′ (γ T z i )zij + cos(yi − µ)h′ (γ T z i )zij
i=1 i=1
n
X
= h′ (γ T z i ){−A1 (λi ) + cos(yi − µ)}zij .
i=1
Rsenb
µ = S. (3.21)
Como no modelo de médias, este sistema não admite solução explícita, logo a mesma
deve ser obtida através de algum método iterativo. A solução através do algoritmo do
44
γ (m+1) − γ
Z T WZ(b b (m) ) = Z T Wy*, (3.22)
bi )
γ T z i )}2 A1 (λ
onde Z = (z 1 , . . . , z n )T , W é uma matriz diagonal com elementos wi = {h′ (b
cos(yi −b
µ)−A1 (λ bi )
e y* = (y1∗ , . . . , yn∗ )T , com yi∗ = bi ) .
γT zi )A1 (λ
h′ (b
Processo iterativo
(iii) Determinar µ
b por (3.20)-(3.21);
(iv) Atualizar γ
b pela equação (3.22);
(i) A matriz G2 da equação de atualização para β, (3.12), deve ser substituída por
bi A1 (λ
GΛG, onde Λ é uma matriz diagonal com elementos λ bi );
b por A1 (λ
(ii) Na definição do vetor y∗ em (3.12), deve-se substituir A1 (λ) bi );
45
b , a i-ésima coordenada de y∗
(iii) Na equação (3.22), equação de atualização para γ
fica dada por
T
b − g(βb z i )) − A1 (λ
cos(yi − µ bi )
yi∗ = .
bi )
γ T z i )A1 (λ
h′ (b
Processo iterativo
b, βb e γ
Para obtermos as estimativas de máxima verossimilhança µ b , devemos seguir o
seguinte processo iterativo:
(v) Determinar µ
b por (3.20)-(3.21);
4.1 Introdução
Podemos destacar a análise de diagnóstico como uma etapa de grande relevância
no ajuste de um modelo de regressão, uma vez que nela é possível verificar possíveis
afastamentos das suposições feitas para o modelo, bem como detectar a presença de
observações extremas, nos resultados do ajuste. A análise de diagnóstico foi iniciada
com a análise de resíduos, com a finalidade de detectar a presença de pontos extremos e
avaliar a adequação da distribuição proposta para a variável resposta, vide Paula (2004,
p.29). Quando a variável de interesse é direcional, como enfatizado anteriormente, já
podemos esperar que a metodologia utilizada para variáveis lineares não faça sentido.
Logo, faz-se necessário o desenvolvimento de uma teoria apropriada para dados dire-
cionais.
47
Logo,
1 1
cos(yi − µbi ) = cos[ (yi − µbi ) + (yi − µbi )],
2 2
de onde se obtém
1 1
cos(yi − µbi ) = cos2 [ (yi − µbi )] − sen2 [ (yi − µbi )].
2 2
Assim,
1 1 1
1 − cos(yi − µbi ) = 1 − {cos2 [ (yi − µbi )] − sen2 [ (yi − µbi )]} = 2sen2 (yi − µbi ).
2 2 2
4.3 Resíduos
De uma maneira geral, o resíduo para a i-ésima observação pode ser definido
como uma função ri = r(yi , µ
bi ), que tem como objetivo medir a discrepância entre
o valor observado e o valor ajustado para a i-ésima observação (Cox e Snell, 1968).
No modelo de regressão normal linear, em que Yi ∼ N (xTi β, σ 2 ), o resíduo ordinário
b Todavia há outras formas de definir resíduos. Nesse
é definido por ri = yi − xTi β.
modelo, a estimativa do vetor de médias é µ b onde βb = (XT X)−1 XT y. Logo
b = Xβ,
b = Hy, com H = X(XT X)−1 XT . A matriz H é a matriz de
podemos escrever µ
projeção ortogonal dos vetores de Rn no subespaço gerado pelas colunas da matriz
modelo X, conhecida como matriz hat. Portanto, considerando o vetor de resíduos
ordinários definido por r = (r1 , . . . , rn )T , segue que
r=y−µ
b = y − Hy = (I − H)y.
49
Para este modelo, segue que E(r) = 0 e V ar(r) = σ 2 (I−H), ou seja, ri tem distribuição
′
normal com média zero e variância V ar(ri ) = σ 2 (1 − hii ). Como os ri s possuem
variâncias distintas , é conveniente que eles sejam expressos de uma forma padronizada
para que seja possível fazer comparações entre os mesmos. Uma forma natural é obter
o resíduo studentizado, dividindo ri pelo respectivo desvio padrão, logo
ri
ti = , i = 1, . . . , n, (4.4)
s(1 − hii )1/2
Pn ri2
onde, s2 = i=1 (n−p) e p é o número das covariáveis. No entanto, ti não segue
uma distribuição t-student, já que ri não é independente de s2 . Para contornar este
problema, substituímos s2 por s2(i) , que é o erro quadrático médio correspondente ao
modelo sem a i-ésima observação. Assim o novo resíduo studentizado é dado por
ri
t∗i = , (4.5)
s(i) (1 − hii )1/2
que segue uma distribuição tn−p−1 central.
Para os modelos lineares generalizados, a definição de um resíduo studentizado pode
ser feita de forma análoga à regressão normal linear. Todavia algumas propriedades
não continuam valendo, por isso faz-se necessária a definição de outros resíduos cujas
propriedades sejam conhecidas ou se aproximam das propriedades de t∗i . Nos MLGs os
resíduos mais utilizados são definidos a partir das componentes da função desvio, cuja
versão padronizada (vide McCullagh, 1987; Davison e Gigli, 1989) é dada por
d(yi ; µi )
tDi = q . (4.6)
1−b hii
Williams(1984) verificou, por meio de simulações, que a distribuição de tDi tende a
estar mais próxima da normalidade do que as distribuições de outros resíduos citados
na literatura.
Podemos encontrar muitas informações sobre resíduos em Cox e Snell (1968), McCul-
lagh e Nelder (1989), entre outros.
é aproximadamente N (0, 1), em que ρ3i e ρ4i são os coeficientes de assimetria e cur-
∂L(ηi )
tose de ∂ηi
, respectivamente, e d∗ (yi ; µi ) é a i-ésima componente da função des-
vio D∗ (y; µ).
b Usando os resultados de Cox e Snell (1986) é possível mostrar que
E(d∗ (yi ; µi )) = 0 e V ar(d∗ (yi ; µi )) = 1 − hii , em que os termos negligenciados são
o(n−1 ). Para este caso, a matriz hat é dada por H = W1/2 X(XT WX)−1 XT W1/2 onde
W é uma matriz diagonal de pesos wi = E(−∂ 2 li /∂ηi2 ), calculado na convergência do
processo iterativo do MLG. Baseado nesta característica da matriz hat, Souza e Paula
(2002) consideraram uma correção para a componente da função desvio, equação (4.3),
obtendo o resíduo padronizado d∗i dado por
∗
√ sen 1 (yi − µbi )
2
di = ±2 λ , (4.7)
(1 − b ∗
hii )1/2
onde a matriz hat é H∗ = ĠX(X G˙ 2 X)−1 X Ġ com Ġ = diag(g ′ (βxi )) e b
′ ′ ′
h∗ii é o ele-
mento da diagonal principal de H∗ , avaliada na estimativa de máxima verossimilhança.
Utilizando procedimentos análogos a Williams (1984), para os modelos lineares genera-
lizados, Souza e Paula (2002) investigaram a distribuição de probabilidade do resíduo
(4.7), por meio de estudo de simulação, e verificaram que a distribuição deste resíduo
apresenta concordância com a distribuição normal padrão.
4.3.2 Resíduo ri
densidade de probabilidade da distribuição von Mises, dada por (2.19), e usando o fato
de que cos t = 1 − 21 t2 + o(t2 ), quando t → 0, verificamos que, como a função densidade
de probabilidade da von Mises é da forma
1
fY (y; µ, λ) = eλ cos(y−µ) ,
2πI0 (λ)
tem-se
z
exp{λ cos(y − µ)} = exp{λ cos( √ )}
λ
2
z z2
= exp{λ − + o( )}.
2 λ
51
z 1 z2
f ( √ ; µ, λ) = exp{λ − + 1 + o(z 2 )}
λ 2πI0 (λ) 2
−z 2 /2 λ
e e
= √ √ {1 + o(z 2 )} (4.8)
2π 2πI0 (λ)
−1
T (0; ν, λ) = d(FW (Φ(0)); ν, λ) = d(wn ; ν, λ)
£ ¤′ −1
−1 d[FW (Φ(z))] d[Φ(z)]
(2π)1/2 f (wn ) = f ′ (FW (Φ(z)))
d[Φ(z)] dz
2 /2
f ′ (wn )e−z
= .
f (wn )
53
n)
T ′′ (z; ν, λ) = 2
.
2πf (wn )
Portanto, quando z → 0 temos,
µ ¶
′′ 1 ′′ f ′ (wn )d′ (wn ; ν, λ)
T (0; ν, λ) = 2
d (wn ; ν, λ) − .
2πf (wn ) f (wn )
Para W ∼ VM(ν, λ), vimos que a componente da função desvio pode ser determinado
pela equação (4.3) ficando, neste caso, da forma
· ¸
√ 1
d(w; ν, λ) = 2 λsen (w − ν) . (4.15)
2
Derivando a expressão (4.15) duas vezes temos que,
· ¸
′
√ 1
d (w; ν, λ) = λ cos (w − ν)
2
· ¸
′′ −1 √ 1
d (w; ν, λ) = λsen (w − ν) .
2 2
Como W ∼ VM(ν, λ), sua função de densidade de probabilidade é dada por
1
f (w) = eλ cos(w)
2πI0 (λ)
e a primeira derivada por
−λsen(w) λ cos(w)
f ′ (w) = e .
2πI0 (λ)
Substituindo estas expressões em (4.11) e usando (4.8) segue-se que
que foi tratado como o resíduo d∗i e comprovado que sua distribuição de probabilidade
é equivalente à distribuição normal padrão N (0, 1).
Capítulo 5
Aplicação
5.1 Introdução
Desde os anos 90, o mundo tem se voltado para as questões ambientais, dentre
elas, a poluição, os problemas na camada de ozônio, o efeito estufa entre outros. Re-
centemente, o aumento da temperatura global da Terra, tem preocupado, não apenas
os ambientalistas, como também a comunidade científica em todo o mundo. O efeito
estufa, bem como o buraco na camada de ozônio, tem aumentado a temperatura no
planeta e este aumento tem causado uma série de fenômenos catastróficos marcados
pelas mudanças de tempo em vários lugares, intensificação de ventos, chuvas e tem-
pestades. Por isso, nosso objetivo, neste trabalho, é investigar a associação entre a
direção dos ventos e a concentração de ozônio, de forma a verificar se as direções dos
ventos são influenciadas pela concentração de ozônio da atmosfera. É bem verdade que
vale a recíproca, a concentração de ozônio é influenciada pela direção dos ventos, tal
abordagem pode ser vista em Fisher (1995).
56
Como estamos considerando a variável resposta como sendo a direção dos ven-
tos (circular) e a concentração de ozônio como variável explicativa (linear), então a
associação entre as variáveis é do tipo circular-linear com o modelo de regressão von
Mises.
Para termos melhor visão das componentes sistemáticas nas observações circula-
res, na Figura 5.1 apresentamos um gráfico sugerido por Fisher (1995), onde o eixo das
abscissas corresponde à concentração de ozônio e no eixo das ordenadas consideramos
yi como sendo a i-ésima observação de direção de ventos e yi + 2π.
57
Nas Figuras 5.2 e 5.3, apresentamos os gráficos normal de probabilidade para os re-
síduos padronizados ri e d∗i , respectivamente. Em cada gráfico apresentamos bandas
de confiança construídas através da técnica de envelopes, cujos limites foram obtidos
a partir de 19 simulações, segundo Atkison (1985). Desta forma, a probabilidade do
resíduo observado ri ou (d∗i ) exceder o limite superior do envelope é aproximadamente
1/20. Ao analisarmos esses gráficos não verificamos afastamentos das suposições feitas
inicialmente para o ajuste, indicando assim que o modelo de médias foi ajustado de
forma satisfatória.
Reforçando o que já foi dito neste trabalho, a análise de dados direcionais não
precisa, nem deve, ser feita utilizando a teoria desenvolvida para dados lineares, pois
dispomos de ferramentas eficientes e mais apropriadas para análises de dados direcio-
nais, quer sejam análises descritivas exploratórias ou mesmo quando se deseja ajustar
modelos de regressão, dentre outras. Os resíduos considerados neste trabalho, são ca-
pazes de indicar a presença de informações discrepantes, como também apresentam
propriedades que nos permitem fazer inferências baseadas na aproximação pela distri-
buição normal padrão, tão importante e conhecida da estatística linear.
Apêndice A
A.1 Demonstração
Aplicando a propriedade do cosseno de uma diferença na expressão (1.5), obser-
vamos que
n n
1X 1X
cos(yi − µ) = (cos yi cos µ + senyi senµ)
n i=1 n i=1
" n n
#
1 X X
= cos µ cos yi + senµ senyi
n i=1 i=1
= R.
62
Portanto,
n
1X
cos(yi − µ) = R.
n i=1
Por outro lado, de maneira análoga temos
n n
1X 1X
sen(yi − µ) = (senyi cos µ − senµ cos yi )
n i=1 n i=1
" n n
#
1 X X
= cos µ senyi − senµ cos yi .
n i=1 i=1
Logo,
n
1X
sen(yi − µ) = 0.
n i=1
Apêndice B
(i) φY (0) = 1;
(iv) É suficiente considerarmos a função φY (p) apenas para valores inteiros e positivos
de p.
= E[cos(pY )] − iE[sen(pY )]
= αp − iβp
= φY (p).
(iv) Usando a teoria de séries de Fourier, verifica-se que é suficiente considerar a função
φY (p) apenas para valores inteiros positivos de p. Sejam os números complexos φY (p)
são os coeficientes de Fourier de F (Feller, 1996, p.595 ou Zygmund, 1959, p.11).
Quando os φY (p) são dados por (1.21), temos que a expansão da série de Fourier da F
é
∞
1 X
dF (y) ∼ φY (p)e−ipY .
2π p=−∞
Pelas propriedades das funções trigonométricas e dos momentos circulares, temos que
X ∞
1
f (y) = {1 + (αp cos py + βp senpy)}. (B.2)
2π p=1
Logo, · ¸
Y −µ
2 1−ρ ν
E sen ( ) = = .
2 2 2
Assim, · ¸ Z π
Y −µ2 y−µ
ν = 2E sen ( ) =2 sen2 ( )dF (y)·
2 −π 2
Agora, dado 0 < ε ≤ 1, considere Aε = {y : |sen( y−µ
2
)| ≥ ε}. Assim,
·Z Z ¸ Z
2 y−µ 2 y−µ y−µ
ν=2 sen ( )dF (y) + sen ( )dF (y) ≥ 2 sen2 ( )dF (y).
Aε 2 Acε 2 Aε 2
Então, Z Z
2 2
ν≥2 ε dF (y) = 2ε dF (y) = 2ε2 P (Y ∈ Aε ).
Aε Aε
Portanto, µ ¶
Y −µ ν
P |sen( )| ≥ ε ≤ 2 .
2 2ε
Apêndice C
FW (W ) = U1 e Φ(Z) = U2
−1
W = FW (Φ(Z)).
67
Portanto,
−1
∀ W tal que FW (W ; ν, λ) > 0 ∃! z ∈ R tal que W = FW (Φ(Z))
Logo,
−1
d(W ; ν, λ) = d(FW (Φ(Z)); ν, λ) = T (Z; ν, λ).
Apêndice D
D.1 Derivadas
A função de Bessel modificada do primeiro tipo e ordem p, é definida pela série
∞
X 1 1
Ip (λ) = ( λ)2r+p , p = 0, 1, . . .
r=0
(p + r)!r! 2
As derivadas de maior interesse no nosso caso, de funções envolvendo I0 (t) e I1 (t) são:
d
(i) I (t)
dt 0
= I1 (t);
d I1 (t)
(ii) I (t)
dt 1
= I0 (t) − t
= 12 {I0 (t) + I2 (t)};
d
(iii) dt
{tI1 (t)} = tI0 (t);
d A1 (t)
(iv) A (t)
dt 1
=1− t
− A21 (t);
d2 A1 (t)
© ª
(v) A (t)
dt2 1
= t2
− 2A1 (t) + 1t dtd A1 (t).
69
2(p−1)
(i) Ip (t) = Ip−2 (t) − t
Ip−1 (t)
2(p−1)
(ii) Ap (t) = Ap−2 (t) − t
Ap−1 (t).
Apêndice E
Programas Computacionais
E.1 Comandos
###Este programa contém os comandos para ajustar o modelo de médias,
usando a função "lm.circular" # do pacote CIRCULAR ###
for(j in 1:19)
{
#USANDO O ALGORITMO DE BEST & FISHER PARA GERAR ’y’
for (i in 1:namos)
{
y[i] <- rvm(1,mu.fit[i],lambda) #BestFisher.FUN(mu.fit[i], lambda.fit)
# if (y[i] < -pi) {y[i] <- y[i] + 2*pi}
# if (y[i] > pi) {y[i] <- y[i] - 2*pi}
}
y<-matrix(c(y),nrow=namos)
X <- x
beta.ini <- solve(t(X)%*%X) %*% t(X) %*% tan((y-mu)/2)
ajuste.amostra.simulada <-
lm.circular.cl(y , X, init=beta.ini, verbose=FALSE)#, tol=1e-10)
beta<-ajuste.amostra.simulada$coeff
{
yhat[i] <- mod.ab(yhat[i], 2*pi)
# if (yhat[i] > pi) yhat[i] <- yhat[i] - 2*pi
}
yhat<-matrix(c(yhat),nrow=namos,ncol=1)
k<-19 alfa<-0.05
linf.r<-numeric(namos) lsup.r<-numeric(namos)
linf.d<-numeric(namos)
lsup.d<-numeric(namos)
75
xb.r<-apply(residuos.r,1,mean)
xb.d<-apply(residuos.d,1,mean)
#qqnorm(d.estrela,xlab="Percentis da N(0,1)",ylab="Residuo
d*",ylim=faixa) #title("Grafico dos envelopes para o modelo von
Mises") #
par(new=T)#
oldpar<-par(pch=15,cex=0.1,csi=0.1) # set new values, remember old
oldpar<-par(pch=16,mkh=0.1) # set new values, remember old
qqnorm(r,axes=F,xlab="",ylab="",ylim=faixa)
par(oldpar) # set parameters back to remembered values #
title("(2a)")#
qqnorm(r,xlab="Percentis da N(0,1)",ylab="Residuo r",ylim=faixa)
title("Grafico dos envelopes para o modelo von Mises") #
#SEGUNDO:’d.estrela’
faixa<-range(d.estrela,linf.d,lsup.d) par(pty="s")
qqnorm(linf.d,axes=F,xlab="",ylab="",ylim=faixa,type="l",lty=1,lwd=1)
par(new=T)
qqnorm(lsup.d,axes=F,xlab="",ylab="",ylim=faixa,type="l",lty=1,lwd=1)
par(new=T)
qqnorm(xb.d,xlab="Quantiles of Standard
Normal",ylab="Deviance Residual",ylim=faixa,type="l",lty=2,lwd=1)
text(-1.2,1.2,"Residual d*") par(new=T)
oldpar<-par(pch=15,cex=0.1,csi=0.1) # set new values, remember old
oldpar<-par(pch=16,mkh=0.1) # set new values, remember old
qqnorm(d.estrela,axes=F,xlab="",ylab="",ylim=faixa)
par(oldpar) #set parameters back to remembered values #
title("(b)")
qqnorm(d.estrela,xlab="Percentis da N(0,1)",ylab="Residuo
d*",ylim=faixa)
77
##1◦ Gráfico##
plot(ozonio.dat$concentracao, ozonio.dat$direcao,
xlim=c(0,120), ylim=c(0,720), xlab="Concentração de Ozônio",
ylab="Direção do Vento",axes=F, pch=1) par(new=TRUE)
plot(ozonio.dat$concentracao, ozonio.dat$direcao+360, xlim=c(0,120),
ylim=c(-10,720), xlab="", ylab="",axes=F, pch=16)
axis(side=1,c(0,20,40,60,80,100,120))
axis(side=2,c(0,90,180,270,360,450,540,630,720)) box()
title(main = "Gráfico . . .")
# Cálculos auxiliares
namos <-length(ozonio.dat$direcao)
direcao <-matrix(c(ozonio.dat$direcao),nrow=namos,ncol=1)
abcissa<-ozonio.dat$concentracao*cos(teta)
ordenada<-ozonio.dat$concentracao*sin(teta)
win.graph()
##2◦ Gráfico##
plot(abcissa,ordenada,xlim=c(-50,90),ylim=c(-50,110),xlab="",
ylab="", axes=F) axis(side=1,c(0)) axis(side=2,c(0)) par(new=T)
plot.circular(as.circular(teta), stack=TRUE, bins=150, shrink=0.025,
type="n", axes=F,xlim=c(-50,90),ylim=c(-50,110))
[3] Best, D. J. e Fisher, N. I. (1981). The bias of the maximum likelood estimators of
the von Mises-Fisher concentration parameters. Communications in Statistics
- Simulation and Computations 10, 493-502.
[6] Davison, A. C. e Gigli, A. (1989). Deviance residuals and normal scores plots.
Biometrika 76, 211-221.
[10] Gould, A. L. (1969). A regresion technique for angular variates. Biometrics 25,
683-700.
79
[11] Green, P. J. (1984). Iteratively reweighted least squares for maximum likelihood
estimation, and some robust and resistant alternatives. Journal of the Royal
Statistical Society B 46, 2, 149-192.
[13] Laycock, P. J. (1975). Optimal desing: Regression models for directions. Biome-
trika 62, 305-311.
[16] Marshal,A. W. e Olkin, I. (1961). Game theoretic proof that Chebyshev inequali-
ties are sharp. Pacific J. Math., 11, 1421-1429. (31).
[17] McCullagh, P. (1987). Tensor Methods in Statistics. New York: Chapman and
Hall.
[18] McCullagh,P. e Nelder, J. A. (1989). Generalized Linear Models. 2nd edition. Lon-
don: Chapman and Hall.