Boletim Spe Outono 09

Breve Contributo para a Histria do Ensino de Econometria em Portugal por J. A. F. Machado e J. M. C. Santos Silva .
10
Sries Temporais: Evoluo e Tpicos Recentes por Lus Catela Nunes e Paulo M. M. Rodrigues ....................................... 14
Econometria Financeira por Joo Nicolau ........................................................................................................................... 23
O Bootstrap para Estatsticas HAC e os seus Competidores por Slvia Gonalves .......................................................... 33
O Mtodo Generalizado dos Momentos por Joaquim J. S. Ramalho ................................................................................... 39
Dados de Painel por Paulo Guimares ................................................................................................................................. 46
Loxodromia da vida humana: Uma introduo anlise estatstica da durao por Carlota Louro e Pedro Portugal ... 50
Editorial ............................................................... 1
Mensagem do Presidente ..................................... 2
Notcias ................................................................ 3
SPE e a Comunidade ......................................... 55
Cincia Estatstica
Artigos Cientfcos Publicados .............. 95
Teses de Mestrado ................................. 95
Livros ..................................................... 96
Teses de Doutoramento ......................... 96
Prmios Estatstico Jnior ............................... 102
Informao Editorial
Endereo: Sociedade Portuguesa de Estatstica.
Campo Grande. Bloco C6. Piso 4.
1749-016 Lisboa. Portugal.
Telefone: +351.217500120
e-mail: spe@fc.ul.pt
URL: http://www.spestatistica.pt
ISSN: 1646-5903
Depsito Legal: 249102/06
Tiragem: 1000 exemplares
Execuo Grfca e Impresso: Grfca Sobreirense
Editor: Fernando Rosado, fernando.rosado@fc.ul.pt
Este Boletim tem o apoio da
Modelos Economtricos
B
o
l
e
t
i
m

S

P

E

O
u
t
o
n
o

d
e

2
0
0
9

Editorial
consolidado

1. O Boletim SPE Outono de 2009 contm uma extensa seco SPE e a Comunidade desenvolvida
em torno da utilizao do software R com livre direito de utilizao e que pode ser obtido atravs de
http://www.r-project.org. Neste contexto se inserem os artigos de divulgao publicados neste Boletim
onde os diversos autores convidados assumem esta informao conhecida pelo leitor. Assim, os textos
especializados que se publicam - de nvel mdio / avanado - esto dirigidos a utilizadores habituais de
R. Para uma introduo aprofundada ao tema pode ser, por exemplo, utilizado o livro de Lus Torgo
que anunciamos na seco Livros Publicados. Os vrios assuntos R abordados, obviamente, formam
uma perspectiva criada pelo editor. Dada a extenso do campo de utilizadores, so bem vindas novas
contribuies que sero includas em edies futuras daquela seco do Boletim.
2. Quando, em 2006, terminei os seis anos de direco na SPE, tinha uma certeza: o objectivo
Boletim sempre to desejado no contedo programtico, por diversas vicissitudes, no tinha sido
completamente atingido. Reflecti sobre este assunto e, como bvio, conclu sobre a extrema
importncia desta publicao. Uma feliz (co)incidncia em conversa com a direco seguinte, em
particular com o seu presidente, fez avanar e consolidar a iniciativa que se foi concretizando, com a
preciosa ajuda dos scios, dos leitores e, principalmente, dos autores que, generosamente, tm
colaborado em cada edio. O editor (apenas) aquele que estabelece as condies que levam a uma
continuidade desta importante publicao da SPE. o produtor. Como editor, pouco mais fao do que
assegurar a publicao desta edio SPE que se pode inserir num projecto didctico e de divulgao
cientfica. De facto, o valor de cada Boletim criado pelos seus autores! Como editor, responsabilizo-
me por cumprir aquela funo no mbito desse projecto: aquele por conta de quem corre a actividade
de produo, (tambm) do dinamismo e da fora e vigor da SPE
Desde h 3 anos temos evoludo. Graas generosidade e ao empenho de um grande nmero de
colaboradores, esta publicao pode-se considerar consolidada.
3. Sabemos que o Boletim SPE publica artigos cientficos de divulgao. Porque no tem um painel de
avaliadores, o Boletim SPE insere-se apenas no seu mbito, isto , uma publicao peridica sobre
o estado da arte na Estatstica.
, alm disso, como se sabe, uma publicao onde a actualidade e unidade nos temas um
objectivo. Passo a passo fomos percorrendo o caminho que nos trouxe at aqui, consolidando as vrias
seces e criando outras o que faremos a partir do prximo Boletim Primavera de 2010 onde
incluiremos uma nova seco; com novos doutores a escreverem artigos de divulgao alguns anos
aps o doutoramento. Este novo projecto, chamemos-lhe Seco Ps - doc, alm de consolidao
cientfica tambm divulga eventuais novos caminhos no ps-doutoramento.
4. Na ltima Assembleia Geral ordinria da SPE, realizada em 17 de Maro, vrias intervenes dos
scios (uma vez mais!) salientaram a importncia e a necessidade de um amplo debate de temas e
questes fulcrais em qualquer das vertentes da actividade estatstica e, em particular, sobre o Boletim.
As propostas de trabalho incidem fundamentalmente sobre dois campos. Por um lado pode (deve!)
fazer-se o uso dos meios electrnicos que permitem um debate em tempo real e, por outro,
obviamente, reflectir no Boletim. So propostas que devem merecer o maior apoio da comunidade.
E, talvez desde logo, pela anlise e crtica dessas propostas de interveno. O Boletim est - e sempre
esteve, como tem sido dito - aberto e desejoso dessa participao.

O Boletim tem bases para suportar novos desafios!
Consolidado est!

O tema central do prximo Boletim ser Data mining - Prospeco (Estatstica) de Dados?.

2 B o l e t i m S P E
Mensagem do Presidente
Caros Colegas:

Realizou-se em Sesimbra, de 30 de Setembro a 3 de Outubro de 2009, o nosso XVII Congresso Anual.
A Comisso Organizadora do XVII Congresso, presidida pelo nosso Colega Joo Tiago Mexia, cujo
jubileu celebrmos recentemente, e vice-presidida pelo nosso Colega Manuel Esquvel, credora do
nosso reconhecimento pelo excelente trabalho desenvolvido e pelo sucesso do Congresso, que bateu o
record (186) de comunicaes apresentadas, sinal do crescimento do trabalho produzido pela
comunidade estatstica portuguesa. Agradecemos tambm Faculdade de Cincias e Tecnologia da
Universidade Nova de Lisboa, nossa anfitri, aos membros da Comisso Executiva e Cientfica, aos
presidentes das sesses de trabalho, aos oradores convidados, aos autores das comunicaes e a todos
os 273 participantes. Esta reunio deve o seu sucesso unio de esforos de todos estes protagonistas.

As Actas do XVI Congresso, realizado em Vila Real em 2008, foram distribudas em Sesimbra,
sendo esta uma boa ocasio para felicitar a Comisso Organizadora, da UTAD, presidida pela Colega
Irene Oliveira, que assim concluiu a sua bem sucedida misso. Aos autores, aos avaliadores e aos
editores, os nossos agradecimentos pelo seu contributo para este relevante marco da actividade
cientfica desenvolvida em Portugal na rea da Estatstica.

O Prmio SPE 2009 desta vez premiou um trabalho cientfico da autoria de dois jovens
investigadores, Miguel de Carvalho e Paulo Canas Rodrigues, o qual foi apresentado no XVII
Congresso. Tivemos de novo os Prmios Estatstico Jnior, a que se candidataram um nmero record
de trabalhos escolares dos ensinos bsico e secundrio, com a coordenao do Colega Russell Alpzar-
Jara e da Comisso Especializada de Educao e o apoio da Porto Editora. Aos candidatos e aos jris
de ambos os prmios, o nosso agradecimento. No Congresso foi tambm lanada uma obra
comemorativa dos 10 anos do ALEA, comemorao a que a SPE assim se associou com grande jbilo.

E, no tarda muito, teremos o XVIII Congresso. A Faculdade de Cincias e Tecnologia da
Universidade de Coimbra e o Instituto Politcnico de Viseu so os anfitries, sendo a Comisso
Organizadora presidida pelo Colega Paulo Eduardo Oliveira, com a Colega Carla Henriques como
brao direito. com grande satisfao que vemos, pela primeira vez na histria dos nossos
Congressos, uma instituio do ensino superior politcnico como co-organizadora. Esto desde j
convidados para S. Pedro do Sul, local onde se realiza o Congresso.

Atravs de e-mails e da nossa pgina web, estais certamente a par do que se vai passando na SPE e
na comunidade estatstica. Limito-me, assim, a dar-vos apenas informao sobre o progresso de dois
temas pendentes. Um o do pagamento das quotas por dbito em conta, introduzido pela primeira vez
este ano como modalidade alternativa, mais cmoda, de pagamento. Esta modalidade est disponvel
para todos os interessados e j houve um nmero razovel de aderentes, aos quais pedimos
compreenso por algum atraso no dbito em conta relativamente data prevista (tratando-se do ano de
arranque, houve que desenvolver e validar procedimentos informticos complexos que demoraram
mais que o previsto). Outro tema o acordo de vrias sociedades estatsticas europeias, entre as quais
a SPE, com a Springer para uma nova srie internacional de publicaes, que incluem as Actas dos
Congressos. J h um acordo de princpio sobre as questes principais, faltando a Springer apresentar
o texto do contrato, o que se espera suceda muito em breve.

E altura de me despedir at ao prximo Boletim, o da Primavera de 2010, com uma saudao
muito cordial.

3 O u t o n o d e 2 0 0 9
Notcias
XVII Congresso SPE
Sesimbra: pesca de estatsticos e dos riscos que eles estudam
No dia XXX do ms IX do ano MMIX teve incio o 17 Congresso da Sociedade Portuguesa de
Estatstica na bela cidade de Cempsibriga (burgo da tribo de Sesim), actualmente conhecida por
Sesimbra. uma vila que viveu ao longo dos anos da pesca, mas que est cada vez mais dependente
economicamente do turismo, em que primam os bons restaurantes
com dieta base de peixe (o sonho de qualquer criana e de muitos
adultos!). Do tempo dos mouros e mouras pouco resta para alm de
alguns calhaus no castelo, pois D. Afonso Henriques com a ajuda
dos cruzados francos em 1165 achou por bem trazer para a Coroa
Portuguesa todos os vinhedos de Palmela e das Terras do Sado! Bom
gosto nunca fez mal a ningum e fica sempre bem na Realeza!
A responsabilidade da organizao do Congresso esteve a cargo da FCT / UNL, designadamente da
Comisso Organizadora Local, presidida pelos colegas Joo Tiago Mexia e Manuel Esquvel e
composta ainda pelos colegas Frederico Caeiro, Isabel Natrio e Joo Lita da Silva. De entre as
mltiplas escolhas em Sesimbra, a organizao do Congresso brindou-nos com a melhor: Sesimbra
Hotel & SPA. Um local nico, uma vista nica, e na verdade um tempo nico.
Os trabalhos comearam com o mini-curso sobre Anlise de Sobrevivncia
leccionado pelas colegas Cristina Rocha e Ana Lusa Papoila, contando
com mais de 70 participantes. O excelente livro do mini-curso bem como
a exposio permitiu melhor lidar com os efeitos competitivos entre o
Congresso e a praia em frente! Passou a doer menos deixar o terrao para
assistir a mais uma sequncia de apresentaes. Sim, quem sobreviveu ao
mini-curso em que a cada 4 palavras uma era morte, morreu,
sobreviveu, sobrevivncia, exposto ficou preparado para tudo:
curado ou mesmo imune!

Deu-se em seguida a Abertura Oficial dos trabalhos do Congresso, tendo como oradores principais os
Presidentes do Congresso e da Comisso Organizadora. Houve ainda a apresentao do livro Um
mundo para conhecer os nmeros que comemora o 10 aniversrio do projecto ALEA (www.alea.pt).
Seguiu-se a primeira Sesso Plenria intitulada The comparison of maximum likelihood and PLS
estimators for structural equation modeling. A simulation with
customer satisfaction data da responsabilidade do colega Manuel
Vilares da UNL, que deu o mote para o arranque dos trabalhos.
Seguidamente teve lugar a
atribuio do Prmio SPE
2009, tendo este ano sido
contemplado o trabalho dos
colegas Miguel de Carvalho
e Paulo Canas Rodrigues
com o ttulo Mtodos de
Imputao Recorrente: Anlise Espectral Singular com Valores
Omissos. Este foi apresentado pelo colega Miguel de Carvalho.
Na Fortaleza de Santiago em Sesimbra, a Organizao brindou-nos com
uma prova de Moscatel! O Moscatel era um verdadeiro nctar dos deuses,
mas os doces eram igualmente magnficos!
Passado este primeiro dia ainda de aquecimento, os trabalhos do
Congresso comearam na manh seguinte a todo o vapor! Leia-se s 9:00,
quando o sol que entra pelo terrao dos quartos convida a mais um belo
dia de praia .
O nmero record de congressistas inscritos ascendeu aos 273, estando o seu contributo cientfico
consubstanciado em 118 comunicaes orais e 69 comunicaes em formato poster. Isto para alm dos
5 Conferencistas Convidados: um colega Russo, um colega Polaco, um colega do Reino Unido e dois

dia de praia .

dia de praia .

dia de praia .
colegas Portugueses. A Figura abaixo representa a diversidade de palavras-chave encontradas nos
resumos das comunicaes orais e em formato poster. Uma imagem neste caso contm (quase) mil
palavras e fala de per si.

Palavras-chave nas comunicaes orais e em poster - Um tesauro visual por Olga Bessa Mendes,
Livro de Programa e Resumos do XVII Congresso SPE, p. 229.

Morte, vida, sobrevivncia e exposio voltaram frequncia usual neste tipo de eventos.
verdade que a primeira apresentao da primeira sesso paralela do primeiro dia, prometia a cura
(condicional a ter sobrevivido ao mini-curso)!
Seleccionar entre as estimulantes cinco sesses paralelas exigiu algum planeamento de modo a evitar-
se que o momento da deciso no fosse posterior ao trmino das mesmas. Felizmente, as salas eram
prximas e os moderadores foram frreos na boa sincronizao das sesses paralelas. Apesar da oferta
em geral suplantar a procura, houve casos em que a sala falhou o critrio de suficincia. Foi o caso da
apresentao do colega Joo Branco Suficincia: tanto barulho para qu?, pois se o colega tivesse que
assistir de p apresentao tambm faria barulho, no???
A sesso de posters foi localizada de forma estratgica e
central (entre as salas das comunicaes orais e as doses
dirias de cafena/tena) o que permitiu uma excelente
exposio aos mesmos.

No final da manh do segundo dia de trabalhos teve lugar a
segunda Sesso Plenria, apresentada pelo colega Stalislaw
Mejza, da Poznan University of Life Sciences, Polnia,
intitulada Younden square with split units.
Na componente ldica, a organizao da SPE2009, brindou-nos com duas opes igualmente
estimulantes: um passeio pelas Rotas dos Galees do Sal ou em
alternativa, para aqueles mais dados a actividades radicais, um
4x4 na Arrbida. Apesar de inicialmente previstos 42
congressistas, os radicais reduziram-se a 7 magnficos! Dos 6
jeeps previstos achmos que seria importante fazermos o trajecto
em grupo: 3+4. Para alm do conhecimento profundo e da
simpatia dos guias, a paisagem natural da Arrbida era
arrebatadora! Vimos os famosos golfinhos no esturio do Sado,
as salgas de peixe romanas da pennsula de Tria, rarssimos
exemplares de olea silvestre que tenta sobreviver no espao
deixado pela sua verso comercial, olea europaea, a azeiteira! Visitmos as caves do Moscatel da J.M.
Fonseca (felizmente nenhum dos sete tinha ao seu cuidado um jeep). Visitmos ainda a Olaria de S.
Simo em Azeito onde se produzem azulejos manualmente. Um dos sete aventurou-se na produo
de um azulejo tal como eram produzidos no sculo XVII e cujo acabamento posterior seria majlica
italiana. Para alm das vistas deslumbrantes, a proximidade aos conventos de El Carmen, e dos
Franciscanos da Arrbida, vistas de cortar a respirao sobre o Portinho da rrabida, a parte, sem
dvida, mais radical foi a caa raposa (estava igualmente prevista a caa ao javali, mas tal no se
proporcionou, para grande decepo do grupo). Vimos ainda uma rampa de lanamento de vnis na
Arrbida, muito utilizada tambm por praticantes de parapente! A visita terminou com uma ida ao
Castelo de Sesimbra. S faltou mesmo o javali para o programa ser completo e satisfazer as elevadas
expectativas do grupo. Quem sabe numa prxima edio do Congresso nas proximidades da Capital
teremos direito ao programa completo!
5 O u t o n o d e 2 0 0 9
Aparentemente, o passeio de barco foi mais apelativo aos congressistas, uma vez que contmos com a
presena de 92 participantes, repartidos por trs barcos, dois dos quais vela para os mais destemidos.
Felizmente as condies atmosfricas
foram as ideais, uma ligeira brisa tpica
de alto mar e um sol brilhante no cu
infinito que se confunde com o prprio
mar. Ao longo de 4 horas fomos
brindados com paisagens magnficas,
possibilitando uma outra perspectiva de
Sesimbra, da costa de Setbal at ao
Cabo Espichel (ou pelo menos era essa a
inteno...), da pennsula de Tria e do rio Sado. As pequenas praias escondidas entre escarpas, s
acessveis por barco, que guardam mil histrias de mar, de pescadores, de baleeiros e de piratas,
transportaram os participantes para um cenrio paradisaco e de fantasia. Alguns ainda levaram fato de
banho, mas o prometido mergulho inesquecvel ficou adiado para a SPE 2034!!!
E ao 3 dia, j todos nos acomodmos ao deslumbramento da vista dos terraos! Neste dia tivemos
duas Sesses Plenrias. A terceira Sesso Plenria On the probabilistic and algorithmic approaches to
the concept of RANDOMNESS, a cargo do colega Albert Shiryaev, do Steklov Mathematical Institute,
Rssia. Aluno de doutoramento de A. N. Kolmogorov, Shiryaev comeou a sua apresentao com um
vdeo de tributo a um dos marcos da Matemtica do sculo XX. No final da tarde teve lugar a quarta
Sesso Plenria sobre Stochastic multi-population mortality models, cuja apresentao esteve a cargo
do colega Andrew Cairns, da Heriot-Watt University Edimburgo.

Um magnfico pr de sol esperava os congressistas para um aperitivo no terrao oeste do Castelo de
Palmela. Houve algum que confundiu os fotgrafos penetras com
o fotgrafo oficial. Depois de algumas
tentativas l se conseguiu tirar a
fotografia de grupo. Seguiu-se o jantar
no Claustro da Pousada, tendo a
anTUNia (uma das Tunas da FCT/UNL)
abrilhantado o sero. De destacar na foto
as duas aniversariantes da noite, a quem se cantaram os parabns.

O 4 e ltimo dia comeou psicologicamente mais cedo, em particular para os colegas com
apresentaes logo s 9:00! Mas houve solidariedade de todos,
pois no nos pareceu que as salas estivessem mais vazias. A
encerrar a apresentao de trabalhos teve lugar a quinta Sesso
Plenria intitulada Um modelo para problemas de estimao,
apresentada pelo colega Paulo Oliveira, da Universidade de
Coimbra. Na Figura apresenta-se o slide at onde a classe modal da
assistncia conseguiu acompanhar a sua apresentao (no slide l-
se Introduo)!
A Direco da SPE, semelhana das campanhas de marketing juvenil (seja abrir uma conta bancria
ao primeiro aniversrio ou tornar o filho scio do maior clube de futebol
do mundo), decidiu instituir os Prmios Estatstico Jnior, o que
naturalmente uma excelente ideia. Para alm de criar um certo
coleccionismo (neste caso de trofus), permite ainda dar um ar jovem ao
ltimo dia do Congresso e mostrar que a Estatstica tem futuro! Houve,
assim, mais uma sesso de entrega de prmios.

colegas Portugueses. A Figura abaixo representa a diversidade de palavras-chave encontradas nos
resumos das comunicaes orais e em formato poster. Uma imagem neste caso contm (quase) mil
palavras e fala de per si.

Palavras-chave nas comunicaes orais e em poster - Um tesauro visual por Olga Bessa Mendes,
Livro de Programa e Resumos do XVII Congresso SPE, p. 229.

Morte, vida, sobrevivncia e exposio voltaram frequncia usual neste tipo de eventos.
verdade que a primeira apresentao da primeira sesso paralela do primeiro dia, prometia a cura
(condicional a ter sobrevivido ao mini-curso)!
Seleccionar entre as estimulantes cinco sesses paralelas exigiu algum planeamento de modo a evitar-
se que o momento da deciso no fosse posterior ao trmino das mesmas. Felizmente, as salas eram
prximas e os moderadores foram frreos na boa sincronizao das sesses paralelas. Apesar da oferta
em geral suplantar a procura, houve casos em que a sala falhou o critrio de suficincia. Foi o caso da
apresentao do colega Joo Branco Suficincia: tanto barulho para qu?, pois se o colega tivesse que
assistir de p apresentao tambm faria barulho, no???
A sesso de posters foi localizada de forma estratgica e
central (entre as salas das comunicaes orais e as doses
dirias de cafena/tena) o que permitiu uma excelente
exposio aos mesmos.

No final da manh do segundo dia de trabalhos teve lugar a
segunda Sesso Plenria, apresentada pelo colega Stalislaw
Mejza, da Poznan University of Life Sciences, Polnia,
intitulada Younden square with split units.
Na componente ldica, a organizao da SPE2009, brindou-nos com duas opes igualmente
estimulantes: um passeio pelas Rotas dos Galees do Sal ou em
alternativa, para aqueles mais dados a actividades radicais, um
4x4 na Arrbida. Apesar de inicialmente previstos 42
congressistas, os radicais reduziram-se a 7 magnficos! Dos 6
jeeps previstos achmos que seria importante fazermos o trajecto
em grupo: 3+4. Para alm do conhecimento profundo e da
simpatia dos guias, a paisagem natural da Arrbida era
arrebatadora! Vimos os famosos golfinhos no esturio do Sado,
as salgas de peixe romanas da pennsula de Tria, rarssimos
exemplares de olea silvestre que tenta sobreviver no espao
deixado pela sua verso comercial, olea europaea, a azeiteira! Visitmos as caves do Moscatel da J.M.
Fonseca (felizmente nenhum dos sete tinha ao seu cuidado um jeep). Visitmos ainda a Olaria de S.
Simo em Azeito onde se produzem azulejos manualmente. Um dos sete aventurou-se na produo
de um azulejo tal como eram produzidos no sculo XVII e cujo acabamento posterior seria majlica
italiana. Para alm das vistas deslumbrantes, a proximidade aos conventos de El Carmen, e dos
Franciscanos da Arrbida, vistas de cortar a respirao sobre o Portinho da rrabida, a parte, sem
dvida, mais radical foi a caa raposa (estava igualmente prevista a caa ao javali, mas tal no se
proporcionou, para grande decepo do grupo). Vimos ainda uma rampa de lanamento de vnis na
Arrbida, muito utilizada tambm por praticantes de parapente! A visita terminou com uma ida ao
Castelo de Sesimbra. S faltou mesmo o javali para o programa ser completo e satisfazer as elevadas
expectativas do grupo. Quem sabe numa prxima edio do Congresso nas proximidades da Capital
teremos direito ao programa completo!

Por fim, houve a Sesso de Encerramento do Congresso. Agradeceu-se
Comisso Presente o excelente trabalho realizado. Os colegas Joo
Tiago Mexia e Manuel Esquvel fizeram chegar as flores recebidas aos
membros femininos da organizao. Agradeceu-se ainda anterior
Comisso Editorial das Actas do XVI Congresso a entrega das mesmas
durante o XVII Congresso.
Finalmente, passou-se o testemunho aos colegas Paulo Oliveira e Carmo Henriques, organizadores do
XVIII Congresso SPE, no Hotel do Parque, nas Termas de So Pedro do Sul, uma organizao
conjunta do Departamento de Matemtica da Universidade de Coimbra e do Instituto Politcnico de
Viseu. Certamente este prximo ano o colega Paulo Oliveira estar mais ocupado com outro tipo de
convergncias que resultem numa comisso organizadora uniformemente distribuda em esforo e que
em limite tenha um Congresso pelo menos to bom como o deste ano!
So os nossos votos que os prximos relatores se divirtam tanto quanto ns, na sua misso cliente-
mistrio
Ftima Salgueiro e Jos Gonalves Dias
(ISCTE IUL)

Aparentemente, o passeio de barco foi mais apelativo aos congressistas, uma vez que contmos com a
presena de 92 participantes, repartidos por trs barcos, dois dos quais vela para os mais destemidos.
Felizmente as condies atmosfricas
foram as ideais, uma ligeira brisa tpica
de alto mar e um sol brilhante no cu
infinito que se confunde com o prprio
mar. Ao longo de 4 horas fomos
brindados com paisagens magnficas,
possibilitando uma outra perspectiva de
Sesimbra, da costa de Setbal at ao
Cabo Espichel (ou pelo menos era essa a
inteno...), da pennsula de Tria e do rio Sado. As pequenas praias escondidas entre escarpas, s
acessveis por barco, que guardam mil histrias de mar, de pescadores, de baleeiros e de piratas,
transportaram os participantes para um cenrio paradisaco e de fantasia. Alguns ainda levaram fato de
banho, mas o prometido mergulho inesquecvel ficou adiado para a SPE 2034!!!
E ao 3 dia, j todos nos acomodmos ao deslumbramento da vista dos terraos! Neste dia tivemos
duas Sesses Plenrias. A terceira Sesso Plenria On the probabilistic and algorithmic approaches to
the concept of RANDOMNESS, a cargo do colega Albert Shiryaev, do Steklov Mathematical Institute,
Rssia. Aluno de doutoramento de A. N. Kolmogorov, Shiryaev comeou a sua apresentao com um
vdeo de tributo a um dos marcos da Matemtica do sculo XX. No final da tarde teve lugar a quarta
Sesso Plenria sobre Stochastic multi-population mortality models, cuja apresentao esteve a cargo
do colega Andrew Cairns, da Heriot-Watt University Edimburgo.

Um magnfico pr de sol esperava os congressistas para um aperitivo no terrao oeste do Castelo de
Palmela. Houve algum que confundiu os fotgrafos penetras com
o fotgrafo oficial. Depois de algumas
tentativas l se conseguiu tirar a
fotografia de grupo. Seguiu-se o jantar
no Claustro da Pousada, tendo a
anTUNia (uma das Tunas da FCT/UNL)
abrilhantado o sero. De destacar na foto
as duas aniversariantes da noite, a quem se cantaram os parabns.

O 4 e ltimo dia comeou psicologicamente mais cedo, em particular para os colegas com
apresentaes logo s 9:00! Mas houve solidariedade de todos,
pois no nos pareceu que as salas estivessem mais vazias. A
encerrar a apresentao de trabalhos teve lugar a quinta Sesso
Plenria intitulada Um modelo para problemas de estimao,
apresentada pelo colega Paulo Oliveira, da Universidade de
Coimbra. Na Figura apresenta-se o slide at onde a classe modal da
assistncia conseguiu acompanhar a sua apresentao (no slide l-
se Introduo)!
A Direco da SPE, semelhana das campanhas de marketing juvenil (seja abrir uma conta bancria
ao primeiro aniversrio ou tornar o filho scio do maior clube de futebol
do mundo), decidiu instituir os Prmios Estatstico Jnior, o que
naturalmente uma excelente ideia. Para alm de criar um certo
coleccionismo (neste caso de trofus), permite ainda dar um ar jovem ao
ltimo dia do Congresso e mostrar que a Estatstica tem futuro! Houve,
assim, mais uma sesso de entrega de prmios.

Finalmente, passou-se o testemunho aos colegas Paulo Oliveira e Carla Henriques, organizadores do
mistrio
(ISCTE IUL)

7 O u t o n o d e 2 0 0 9
Jubilao do Professor Tiago Mexia

Jubilao do Professor Tiago Mexia

No passado ms de Junho, jubilou-se o Professor Joo Tiago Mexia,
que escolheu o tema "Modelos e Inferncia - Caso Normal" como
ltima lio.
Celebrando a jubilao do Professor Joo Tiago Mexia, Professor
Catedrtico do Departamento de Matemtica da Faculdade de
Cincias e Tecnologia da Universidade Nova de Lisboa, realizou-se
um Workshop em Estatstica.
Este evento contou com a participao de vrios convidados nacionais e estrangeiros nomeadamente
pessoas que no decurso da sua vida profissional se relacionaram mais de perto com o Prof. Mexia.

FR
Prmios Estatstico Jnior 2009

A atribuio de prmios Estatstico Jnior 2009 promovida pela Sociedade Portuguesa de
Estatstica, com o apoio da Porto Editora, e tem como objectivo estimular e desenvolver o interesse dos
alunos do ensino bsico e secundrio pelas reas da Probabilidade e Estatstica. Ao apelo para
submisso de trabalhos correspondeu uma adeso bastante mais elevada do que em 2008, tendo sido
recebidos 41 trabalhos na categoria Ensino Bsico, envolvendo um total de 104 alunos, e 29 na
categoria Ensino Secundrio, envolvendo um total de 71 alunos.
A cerimnia de entrega dos Prmios
Estatstico Jnior 2009, conforme
estipulado no Regulamento, decorreu na
Sesso de Encerramento do XVII
Congresso Anual da Sociedade Portuguesa
de Estatstica, no dia 3 de Outubro de 2009,
s 13 horas, nas instalaes do Sesimbra
Hotel & SPA, Sesimbra.
Excepcionalmente, este ano foi atribuda
uma meno honrosa ao trabalho Futuro
3
-
Ser que os jovens de hoje tero amanh
um futuro brilhante? autoria do aluno
Carlos Moura Pereira Lucas Teixeira da
Escola Bsica D. Manuel I em Tavira, e
orientado pela professora Maria Augusta
Carvalho de Azevedo.

O Jri foi constitudo pelos professores: Doutora Maria Eugnia Graa Martins (Presidente) e Doutora
Lusa Canto e Castro de Loura do Departamento de Estatstica e Investigao Operacional da
Faculdade de Cincias da Universidade de Lisboa e Doutor Russell Alpizar-Jara do Departamento de
Matemtica da Universidade de vora.
No final deste Boletim so apresentados os premiados.
A Direco

Finalmente, passou-se o testemunho aos colegas Paulo Oliveira e Carla Henriques, organizadores do
mistrio
(ISCTE IUL)

Prmio SPE 2009
Foram apresentados os seguintes trabalhos concorrentes ao Prmio SPE 2009:

- Sries temporais de memria longa com aplicaes ao controlo motor - estudo de tarefas de tapping
repetido, da autoria de Ana Maria Fit Alves Diniz.
- Mtodo de imputao recorrente: anlise espectral singular com valores omissos, da autoria de
Miguel de Carvalho e Paulo Canas Rodrigues.

O jri, constitudo por Maria Nazar Mendes Lopes (Presidente), Paulo Rodrigues e Maria Eduarda
Silva, atribuiu o prmio ao trabalho de Miguel de Carvalho e Paulo Canas Rodrigues.
O trabalho vencedor foi apresentado no primeiro dia do XVII Congresso da SPE. O respectivo
Resumo publicado na contra capa deste Boletim SPE.

FR

Seminrios patrocinados pela SPE
Seminrios Patrocinados pela SPE

A Sociedade Portuguesa de Estatstica prope-se patrocinar a organizao de seminrios e de palestras
apresentados por convidados de outras instituies nacionais e por convidados de instituies
estrangeiras que estejam de passagem pelo pas.
No primeiro caso, a ideia a de contribuir para um maior contacto e colaborao entre investigadores
das vrias instituies nacionais.
No segundo caso, pretende-se que cientistas de instituies estrangeiras que estejam de visita a uma
instituio nacional possam, durante a sua estadia, ir dar um seminrio a outra instituio, deste modo
permitindo um melhor conhecimento de diferentes equipas e possibilitando uma mais ampla
colaborao. Solicitamos assim que os colegas que prevem a visita de cientistas o faam saber a
potenciais interessados; a SPE poder naturalmente ajudar nesta divulgao.
O patrocnio da SPE inclui o anncio de divulgao pelos scios e um apoio financeiro s instituies
interessadas em acolher um seminrio, atravs de um subsdio mximo de 150 euros.
Os scios interessados em usufruir desta iniciativa devero contactar a SPE, candidatando-se a este
tipo de apoio.

No ano de 2009, foi apoiado por este programa um Seminrio do Departamento de Mtodos
Quantitativos do ISCTE, intitulado Captura-Recaptura: Aplicaes nas Cincias Sociais e proferido
pelo Prof. Doutor Russell Alpizar-Jara (Cima/Departamento de Matemtica/Universidade de vora),
realizado no dia 24 de Abril.

A Direco da SPE

Caro(a) colega,
De 25 a 27 de Maro de 2010, o ISCTE Instituto Universitrio de Lisboa recebe as XVII Jornadas de
Classificao e Anlise de Dados (JOCLAD 2010). O prazo limite para submeter propostas de
trabalhos 11 de Fevereiro de 2010. Mais informaes estaro brevemente disponveis em
www.joclad2010.dmq.ibs.iscte.pt. Contamos com a sua presena nas Jornadas!!
Pela Comisso Organizadora,
Jos Gonalves Dias (ISCTE-IUL)

JOCLAD 2010
9 O u t o n o d e 2 0 0 9
A SPE no Encontro Cientfco da Sociedade Italiana de Estatstica

Participao da SPE no Encontro Cientfico da Sociedade Italiana de Estatstica

Por ocasio do septuagsimo aniversrio da
Sociedade Italiana de Estatstica (SIS), realizou-se o
congresso Statistical Methods for the analysis of
large data-sets, em Pescara Itlia, entre 23 e 25 de
Setembro de 2009. Vrias Sociedades de Estatstica
europeias, entre as quais a SPE, responderam ao
convite do presidente da SIS para integrarem o
programa cientfico com trs comunicaes na
temtica da conferncia.

A SPE foi representada por:
Antnia Amaral Turkman (Universidade de Lisboa), organizadora da sesso;
Joaquim Pinto da Costa (Universidade do Porto), com a comunicao intitulada A weighted
principal component analysis and its applications to microarray data. Na sua comunicao
descreveu um novo mtodo de seleco de genes com expresso diferencial em microarrays,
baseado em componentes principais ponderadas;
Lisete Sousa (Universidade de Lisboa), com a comunicao Proteomics: Predicting proteins
structure, na qual reviu vrios mtodos de predio da topologia de protenas transmembranares
disponveis na Internet, chamando a ateno para a importncia da interaco entre a Estatstica e
reas como a Biologia Molecular, Gentica, Bioqumica e Bioinformtica;
Giovanni Silva (Universidade Tcnica de Lisboa), com a comunicao Modelling and analysis of
forest fire data in Portugal, abordou o tema dos fogos em Portugal usando modelos lineares
generalizados para modelar a proporo de rea florestal ardida.
Embora no representando a SPE, esteve tambm presente na conferncia Filipe Sousa, aluno finalista
da licenciatura em Bioqumica da Universidade do Porto, que sente uma forte atraco pelas reas de
Estatstica e suas aplicaes Bioqumica e Biologia Molecular. Como era de esperar, dado o tema da
conferncia, houve um nmero significativo de sesses dedicadas quela temtica.
A lngua oficial do encontro foi o Ingls. Os conferencistas convidados foram Jerome H. Friedman
(Stanford University), com o tema Fast sparce regression and classification e Marco Riani
(University of Parma) com a comunicao Problems and challenges in the analysis of complex data:
static and dynamic approaches.
Para trs, alm de uma interessante conferncia, ficou um alegre convvio, e uma simptica cidade,
Pescara, banhada pelo Mar Adritico.

Antnia Turkman e Lisete Sousa
Workshop: Statistical Modelling: Challenges in Health (9-12 / Maio / 2010)
Workshop: Statistical Modelling: Challenges in Health (9-12 de Maio de 2010)

O workshop StaM2010 tem como objectivo promover o encontro de investigadores interessados em
estatstica avanada aplicada a problemas desafiantes na rea da Sade. Pretende-se que o workshop
sirva tambm para promover a partilha de conhecimento e experincia, bem como encorajar a
cooperao entre participantes. Os principais temas do workshop so:
- Estatstica Espacial em Sade
- Anlise de Sobrevivncia
- Estatstica em Gentica
- Estatstica em Biologia Molecular
- Bioinformtica
- Modelos de classes latentes em Sade.
Alm de oradores convidados de renome, o workshop contar tambm com uma sesso de
comunicaes poster. Os participantes so convidados a expor os seus trabalhos em desenvolvimento
e discuti-los com os convidados numa sesso intitulada Statistical Clinics.
Pgina Web: http://stam2010.fc.ul.pt

Lisete Sousa
Workshop: Statistical Modelling: Challenges in Health (9-12 de Maio de 2010)

O workshop StaM2010 tem como objectivo promover o encontro de investigadores interessados em
estatstica avanada aplicada a problemas desafiantes na rea da Sade. Pretende-se que o workshop
sirva tambm para promover a partilha de conhecimento e experincia, bem como encorajar a
cooperao entre participantes. Os principais temas do workshop so:
- Estatstica Espacial em Sade
- Anlise de Sobrevivncia
- Estatstica em Gentica
- Estatstica em Biologia Molecular
- Bioinformtica
- Modelos de classes latentes em Sade.
Alm de oradores convidados de renome, o workshop contar tambm com uma sesso de
comunicaes poster. Os participantes so convidados a expor os seus trabalhos em desenvolvimento
e discuti-los com os convidados numa sesso intitulada Statistical Clinics.
Pgina Web: http://stam2010.fc.ul.pt

Lisete Sousa
Modelos Economtricos
Breve Contributo para a Histria do Ensino de Econometria em Portugal
1
Breve Contributo para a Histria do Ensino de Econometria em
Portugal
1

Jos A. F. Machado, jafm@fe.unl.pt
Faculdade de Economia, Universidade Nova de Lisboa

J. M. C. Santos Silva, jmcss@essex.ac.uk
University of Essex e CEMAPRE

A econometria um ramo relativamente novo da economia, podendo o seu nascimento como rea
autnoma ser associado fundao da Econometric Society em 1930. A evoluo da econometria tem
sido enorme nas ltimas dcadas. Vrios factores tm contribudo para esta evoluo, mas no h
dvida de que os avanos tcnicos tm sido um dos principais motores deste desenvolvimento. Em
particular, os avanos da informtica permitem hoje a existncia de bases de dados impensveis nos
anos 30, bem como os meios de clculo necessrios ao seu tratamento adequado e rpido. As
caractersticas especficas dos dados econmicos, tipicamente no experimentais, levaram a que a
econometria desenvolvesse muitas tcnicas estatsticas novas, contribuindo assim para a sua crescente
autonomizao em relao a outras reas da cincia em que o recurso estatstica matemtica
igualmente intenso, como a biometria. A forma como a econometria tem sido ensinada reflecte tanto a
juventude da rea como os rpidos desenvolvimentos tcnicos da segunda metade do Sculo XX.
Neste trabalho faz-se um breve resumo da forma como o ensino da econometria evoluiu em Portugal.
A disciplina de econometria foi introduzida pela primeira vez no plano de estudos de um curso de
economia de uma universidade portuguesa na sequncia da reforma em 1949 do plano de estudos do
ento Instituto Superior de Cincias Econmicas e Financeiras (ISCEF), tendo sido leccionada pela
primeira vez no ano lectivo de 1952/53. Nesta reforma, tornaram-se obrigatrias para todos os
estudantes da licenciatura em economia do ISCEF duas disciplinas de matemtica. Esta alterao levou
a que a disciplina de estatstica pudesse pela primeira vez tratar a estatstica matemtica, abrindo assim
caminho nova disciplina semestral de econometria. Na nota em que Armando Gonalves Pereira
(1949) apresenta a reviso do plano de estudos pode ler-se: "No nos podemos deixar de regozijar com
a criao de um Curso de Econometria, matria que se presta a estudos da maior relevncia".

1
Este trabalho uma verso resumida do artigo 50 Anos de Ensino de Econometria em Portugal, publicado pelos autores
na revista Economia em 2002. Os autores agradecem aos colegas Nuno Crato, Jos Antnio Giro, Bento Murteira e Carlos
Bastien Raposo a disponibilidade para discutir a histria do ensino da econometria em Portugal e as muitas informaes
prestadas. Este trabalho no teria sido possvel sem a colaborao de Ana Amaral da Biblioteca do ISEG. Naturalmente, os
autores so os nicos responsveis pelas opinies aqui expressas e por eventuais incorreces.
Breve Contributo para a Histria do Ensino de Econometria em
Portugal
1



A econometria um ramo relativamente novo da economia, podendo o seu nascimento como rea
autnoma ser associado fundao da Econometric Society em 1930. A evoluo da econometria tem
sido enorme nas ltimas dcadas. Vrios factores tm contribudo para esta evoluo, mas no h
dvida de que os avanos tcnicos tm sido um dos principais motores deste desenvolvimento. Em
particular, os avanos da informtica permitem hoje a existncia de bases de dados impensveis nos
anos 30, bem como os meios de clculo necessrios ao seu tratamento adequado e rpido. As
caractersticas especficas dos dados econmicos, tipicamente no experimentais, levaram a que a
econometria desenvolvesse muitas tcnicas estatsticas novas, contribuindo assim para a sua crescente
autonomizao em relao a outras reas da cincia em que o recurso estatstica matemtica
igualmente intenso, como a biometria. A forma como a econometria tem sido ensinada reflecte tanto a
juventude da rea como os rpidos desenvolvimentos tcnicos da segunda metade do Sculo XX.
Neste trabalho faz-se um breve resumo da forma como o ensino da econometria evoluiu em Portugal.
A disciplina de econometria foi introduzida pela primeira vez no plano de estudos de um curso de
economia de uma universidade portuguesa na sequncia da reforma em 1949 do plano de estudos do
ento Instituto Superior de Cincias Econmicas e Financeiras (ISCEF), tendo sido leccionada pela
primeira vez no ano lectivo de 1952/53. Nesta reforma, tornaram-se obrigatrias para todos os
estudantes da licenciatura em economia do ISCEF duas disciplinas de matemtica. Esta alterao levou
a que a disciplina de estatstica pudesse pela primeira vez tratar a estatstica matemtica, abrindo assim
caminho nova disciplina semestral de econometria. Na nota em que Armando Gonalves Pereira
(1949) apresenta a reviso do plano de estudos pode ler-se: "No nos podemos deixar de regozijar com
a criao de um Curso de Econometria, matria que se presta a estudos da maior relevncia".

1
Este trabalho uma verso resumida do artigo 50 Anos de Ensino de Econometria em Portugal, publicado pelos autores
na revista Economia em 2002. Os autores agradecem aos colegas Nuno Crato, Jos Antnio Giro, Bento Murteira e Carlos
Bastien Raposo a disponibilidade para discutir a histria do ensino da econometria em Portugal e as muitas informaes
prestadas. Este trabalho no teria sido possvel sem a colaborao de Ana Amaral da Biblioteca do ISEG. Naturalmente, os
autores so os nicos responsveis pelas opinies aqui expressas e por eventuais incorreces.
Pode ter-se uma ideia do contedo da disciplina de econometria ento leccionada consultando o
programa da disciplina que apresentado por Manuel Jacinto Nunes (1953). Infelizmente, esse
programa no apresenta nenhuma lista de bibliografia usada, pelo que difcil conhecer com algum
detalhe a forma como o curso foi leccionado.
2
Para se conhecer melhor o contedo dos cursos da poca
pode recorrer-se sebenta de econometria editada pela Associao Acadmica do ISCEF, com base
nas lies de Bento Murteira no ano lectivo de 1955/56 (Murteira, 1956). Esta obra est dividida em
cinco captulos, com os seguintes temas: 1) O conceito e objectivos da econometria, 2) Elementos da
teoria da procura, 3) Teoria clssica da produo, 4) Funo consumo, e finalmente 5) Modelos
macroeconmicos. Nos dias de hoje, a estrutura desta sebenta parece ser mais apropriada a uma
disciplina de economia aplicada do que a um curso introdutrio de econometria, reflectindo afinal
aquela que a gnese da econometria como hoje a conhecemos. Alis, a importncia que se d nestas
lies teoria econmica est de acordo com o que era feito em livros de econometria da poca, como
sejam os de Gerhard Tinter (1952) e Lawrence Klein (1953).
3

Outro aspecto que notrio nestes apontamentos o facto de a calculatria necessria,
nomeadamente estimao do modelo de regresso linear mltipla pelo mtodo dos mnimos
quadrados, ter uma importncia relativa muito pequena. No entanto, tal no de estranhar se se
recordar que as primeiras calculadoras electrnicas (de secretria!) foram introduzidas uma dcada
mais tarde. Portanto, natural que numa disciplina de licenciatura no houvesse lugar a esse tipo de
preocupaes, uma vez que os meios de clculo ao dispor dos alunos no eram de todo adequados,
nem sequer estimao de modelos relativamente simples. Esta carncia colmatada com a
apresentao dos resultados de inmeros estudos empricos, que so cuidadosamente discutidos e
interpretados.
Numa anlise mais pormenorizada das lies de Bento Murteira verifica-se que cerca de metade da
disciplina era dedicada ao estudo de problemas de microeconometria, nomeadamente a estimao de
curvas de Engel e de curvas de custos. Numa segunda parte, estudavam-se modelos para dados
agregados (aquilo que hoje genericamente se designa por macroeconometria), dando-se especial
ateno funo consumo, que merece um captulo prprio, e aos modelos de equaes simultneas.
Curiosamente, este ltimo captulo, que segue de perto o manual de Lawrence Klein (1953), o que
mais se aproxima de captulos correspondentes em manuais de econometria actuais, incluindo a
habitual discusso do problema da identificao e dos mtodos de estimao com informao limitada
e completa.
Cerca de dez anos depois de se ter iniciado o ensino da econometria em Portugal, foi publicada a
primeira edio do livro Econometric Methods de Jack Johnston (1963), que marcou profundamente o
ensino da econometria em todo o mundo, e que com a sua quarta edio (Johnston e DiNardo, 1997)
continua a ser uma obra de referncia em muitas universidades portuguesas e estrangeiras. Uma vez
que no essencial a evoluo do ensino da econometria foi marcada pelo estilo e substncia das
sucessivas edies deste livro, vale a pena analisar com um pouco de ateno esta obra.
O que distingue o livro de Jack Johnston da maioria dos seus antecessores o facto de, como o seu
nome indica, se centrar claramente nos mtodos economtricos e no nas aplicaes. De facto, este
livro apresenta de uma forma sistemtica o modelo de regresso linear mltipla, bem como uma srie
de tpicos que ainda hoje fazem parte da maioria dos cursos de econometria, como sejam os erros nas
variveis, autocorrelao, heterocedasticidade, multicolinearidade, variveis artificiais e variveis

2
interessante notar que o curso foi leccionado pelos professores Francisco de Paula Leite Pinto, Henri Guitton
(Universidade de Dijon) e Jos de Castaeda (Universidade de Madrid), bem como pelo ento assistente Manuel Jacinto
Nunes.
3
Note-se no entanto que nestes manuais era possvel encontrar tratados outros tpicos, como sejam a anlise multivariada,
a anlise espectral, o clculo numrico, e modelos de input-output, que no so de todo tratados nas lies de Bento
Murteira, mas que tambm tipicamente no fazem parte dos manuais de econometria modernos.
2
3

interpretados.
e completa.

2
Nunes.
3
11 O u t o n o d e 2 0 0 9
2
3

interpretados.
e completa.

2
Nunes.
3
2
3

interpretados.
e completa.

2
Nunes.
3
desfasadas. Naturalmente, tal como em manuais anteriores, continua a ser dada grande importncia aos
sistemas de equaes simultneas.
Contrariamente aos livros da dcada anterior, o livro de Jack Johnston foi escrito com o propsito de
ser usado como manual em disciplinas de econometria das licenciaturas. O facto de se concentrar nos
mtodos economtricos permitia que numa disciplina anual de econometria fossem cobertos
praticamente todos os tpicos tratados no livro, e que representavam grande parte dos mtodos usados
na altura. Sob este ponto de vista, este livro constituiu um grande progresso em relao ao que se
passava anteriormente, no sendo de espantar que tenha ganho tanta popularidade. Naturalmente, esta
alterao na forma de ensinar econometria teve custos.
Na sua edio de 1963, e contrariamente ao que era habitual, o livro Econometric Methods
praticamente no apresenta exemplos realistas de aplicao da econometria. Como consequncia, ainda
que o assunto seja mencionado de passagem algumas vezes, este livro nunca discute a natureza dos
dados usados pela econometria nem a forma como estes so recolhidos, quase no distinguindo entre
dados seccionais e temporais (os dados de painel no ganharam importncia seno alguns anos mais
tarde). De facto, quase todo o livro apresenta os mtodos economtricos com base na hiptese de
regressores fixos, que praticamente insustentvel em econometria aplicada. claro que do ponto de
vista da leccionao dos mtodos economtricos, esta hiptese relativamente incua uma vez que
uma parte importante dos mtodos pode ser aplicada tanto no caso de regressores fixos como no de
regressores estocsticos.
A tendncia para valorizar essencialmente a mecnica dos mtodos economtricos em detrimento da
interpretao dos procedimentos ganhou peso nos anos 70 com a publicao da segunda edio do
livro de Jack Johnston e com o surgimento das calculadoras electrnicas portteis. De facto, o manual
de Johnston (1972)
4
j no inclui o captulo sobre erros nas variveis, sendo o tema remetido para uma
modesta seco no captulo sobre regressores estocsticos. Este era um tpico que tinha tido algum
destaque nos primeiros cursos de econometria (veja-se Murteira, 1956) e era uma das poucas
oportunidades que ainda restava para alertar os estudantes para os problemas que resultam da
especificidade dos dados usados em econometria. Paralelamente, o surgimento de calculadoras
electrnicas portteis veio tornar possvel que os estudantes pudessem estimar pequenos modelos. No
entanto, do ponto de vista prtico, esta possibilidade de estimar pequenos modelos economtricos no
era muito importante uma vez que por essa altura teve incio a comercializao dos primeiros
programas informticos dedicados econometria, significando que qualquer estudo srio de
econometria aplicada seria j feito com o recurso a meios de clculo mais sofisticados.
Apesar das suas insuficincias, esta forma de ver o ensino da econometria perdurou, sendo reforada
pelo surgimento de outros manuais que mantinham esta separao entre, por um lado, os mtodos e as
tcnicas da econometria, e, por outro, os dados dos quais dependem todos os resultados obtidos. Desta
forma, pelo menos at aos finais dos anos 80, era enorme o peso da calculatria quer nos cursos quer
nas provas de avaliao de econometria da maioria das universidades portuguesas, sendo dado
relativamente pouco peso aos exemplos de aplicaes reais.
Nos anos 90, com o rapidssimo crescimento da capacidade de clculo posta disposio dos
estudantes, a situao alterou-se qualitativamente. De facto, desde o final da dcada de 80 foi-se
vulgarizando a utilizao de programas informticos de econometria nos cursos de licenciatura,
proporcionando-se assim aos estudantes o contacto com ferramentas de trabalho poderosas e
sofisticadas. Este avano, que acompanhou o que se passava noutros pases da Europa, permitiu dar
uma formao muito mais adequada s necessidades dos futuros economistas, libertando a disciplina
de econometria de uma parte substancial da calcularia at ento indispensvel.

4
Este um livro ao qual ambos os autores muito devem, e do qual guardam uma muito grata recordao, pois foi por ele
que estudaram econometria durante as suas licenciaturas.
2
3

interpretados.
e completa.

2
Nunes.
3
de Johnston (1972)
4

4
de Johnston (1972)
4

4
Paralelamente aos avanos na capacidade de clculo, a econometria teve um rpido
desenvolvimento desde o final dos anos 70, o qual se tem acelerado progressivamente desde ento. A
ttulo de exemplo, podem destacar-se o surgimento de temas novos como estimao semi e no
paramtrica, o bootstrap, a cointegrao, e mesmo a maior ateno dada aos testes de especificao,
temas que tipicamente estavam ausentes dos manuais de econometria dos anos 80. O crescimento
exponencial da variedade de tcnicas usadas em econometria torna praticamente impossvel que este
desenvolvimento possa ser acompanhado por uma disciplina de licenciatura, especialmente numa
poca em que h tendncia para a reduo da durao dos cursos. Apesar das dificuldades, foi feito
algum esforo neste sentido, tendo a maioria das disciplinas de econometria passado a integrar durante
os anos 90 o tratamento de temas novos como a anlise da estacionaridade de sries econmicas e a
cointegrao.
5

As disciplinas de Econometria leccionadas hoje nas licenciaturas aproximam-se da filosofia
primordial patente nas lices de Bento Murteira. A grande acessibilidade de programas informticos
de fcil utilizao, o surgimento de manuais modernos como o de Jeff Wooldridge (2000), e o
nascimento de uma activa comunidade de investigao na rea, possibilitaram um enfoque maior nas
aplicaes, na formalizao de modelos e na interpretao dos resultados das estimaes.
Curiosamente, em 50 ou 60 anos fechou-se um crculo.

Referncias
Gonalves Pereira, A. (1949). "O Instituto Superior de Cincias Econmicas e Financeiras. A Recente
Reforma de Estudo", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Financeiras, 17, 445-447.
Johnston, J. (1963). Econometric Methods, Nova Iorque: McGraw-Hill.
Johnston, J. (1972). Econometric Methods, 2ed., Nova Iorque: McGraw-Hill.
Johnston, J. e DiNardo, J. (1997). Econometric Methods, 4ed., Nova Iorque: McGraw-Hill.
Klein, L.R. (1953). A Textbook of Econometrics, Evanston: Row, Peterson and Company.
Machado, J.A.F. e Santos Silva, J.M.C. (2002). "50 Anos de Ensino de Econometria em Portugal",
Economia, 26, 95-112.
Murteira, B.F. (1956). Econometria, 1 Curso, Associao Acadmica do ISCEF, Lisboa.
Jacinto Nunes, M. (1953). "Lies de Econometria no Instituto Superior de Cincias Econmicas e
Financeiras", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Tinter, G. (1952). Econometrics, Nova Iorque: John Wiley & Sons.
Wooldridge, J.M. (2000). Introductory Econometrics, A Modern Approach, Cincinnati: South-Western
College Publishing.

5
No entanto, apesar de se ter tornado ainda mais necessrio, continuou a ser dada relativamente pouca importncia ao
contexto estocstico em que se desenvolve o estudo dos modelos de regresso e natureza dos dados econmicos. (Veja-se
Machado e Santos Silva, 2002, para uma discusso mais detalhada.)
cointegrao.
5


Referncias
Economia, 26, 95-112.
College Publishing.

5
13 O u t o n o d e 2 0 0 9
cointegrao.
5


Referncias
Economia, 26, 95-112.
College Publishing.

5

Sries Temporais: Evoluo e Tpicos Recentes
Lus Catela Nunes
a)
e Paulo M. M. Rodrigues
b) a)
a) Universidade Nova de Lisboa, Faculdade de Economia
b) Banco de Portugal
1. Introduo
Historicamente pode dizer-se que a anlise estatstica de sries temporais se iniciou no incio do sculo
XX (Yule, 1927) e que atingiu a maturidade nos anos setenta aquando da publicao do famoso livro
de G.E.P. Box e G.M. Jenkins, Time Series Analysis: Forecasting and Control, San Francisco, 1970.
Esta publicao foi importante, no sentido em que contribuiu com uma abordagem sistemtica
permitindo a aplicao de mtodos de sries temporais para a previso. Box e Jenkins (1970)
popularizaram os modelos autoregressivos integrados de mdias mveis, os famosos ARIMA(p,d,q),
(1-
1
L-
2
L
2
- -
p
L
p
)(1-L)
d
z
t
= c + (1-
1
L-
2
L
2
- -
q
L
q
)e
t

onde p, d e q assumem valores no negativos, c uma constante e L o operador de desfasamento
temporal tal que Lz
t
= z
t-1
. Os dois polinmios em L, (1-
1
L-
2
L
2
- -
p
L
p
) e (1-
1
L-
2
L
2
- -
q
L
q
)
no tm factores comuns e assume-se que as suas razes caiem fora do circulo unitrio. frequente
adicionalmente assumir-se que e
t
segue uma distribuio Gaussiana. Esta abordagem assume que z
t

estacionrio se d=0 e que z
t
contm razes unitrias quando d0. O sucesso deste modelo originou
investigao substancial na rea das sries temporais.
Inicialmente a anlise das sries temporais dividia-se (e divide-se) em duas abordagens: a anlise no
domnio da frequncia (veja Brillinger, 1975 e Priestley, 1981) e a anlise no domnio temporal. A
abordagem no domnio temporal utiliza a funo de autocorrelao dos dados e modelos paramtricos
(e.g. os ARIMA) para descrever a dependncia dinmica das sries enquanto que a abordagem no
domnio da frequncia se centra na anlise espectral para a anlise das sries temporais. Actualmente, a
opo pela utilizao de uma abordagem ou outra prende-se mais com aspectos de ordem pratica do
que de ordem filosfica ( semelhana do que acontece com as abordagens Bayesiana e no
Bayesiana).
Os avanos ao nvel dos mtodos e meios computacionais tiveram um impacto profundo sobre a
anlise de sries temporais. No contexto do que designado por anlise tradicional (c.f. Tsay, 2000)
deram-se muitos desenvolvimentos importantes. Entre outros, a anlise de outliers e a deteco de
quebras estruturais passaram a fazer parte integrante do kit de diagnstico do modelo, e foram
desenvolvidos vrios critrios de seleco para ajudar na escolha dos modelos; veja, entre outros,
Akaike (1974) e Hannan (1980).
Em Economia, de acordo com Tsay (2000) a anlise de series temporais utilizada entre outros
propsitos para, (a) estudar a estrutura dinmica de um processo, (b) para investigar as relaes
dinmicas entre variveis, (c) para proceder ao ajustamento sazonal de dados econmicos, (d) para
melhorar a anlise de regresso quando os erros se encontram correlacionados e (e) para produzir
previses pontuais ou intervalos de previso.
Sries Temporais: Evoluo e Tpicos Recentes
Lus Catela Nunes, lcnunes@fe.unl.pt
Paulo M. M. Rodrigues, pmrodrigues@bportugal.pt
Banco de Portugal
15 O u t o n o d e 2 0 0 9
.
As caractersticas das sries econmicas e financeiras (assim como outras) tm originado
desenvolvimentos importantes dos quais destacamos alguns nas seces seguintes.
2. Tpicos Recentes
2.1 Quebras Estruturais
Ao se considerarem modelos de sries temporais pode-se colocar sempre a questo da estabilidade dos
parmetros ao longo da amostra considerada. A existncia de pelo menos uma alterao estrutural
poder resultar em erros de inferncia e de previso se tais quebras no forem devidamente tidas em
conta. Nos ltimos 50 anos a literatura sobre a estimao e teste de modelos com quebras estruturais
teve uma grande expanso. Como ilustrao do problema, considere-se o caso mais simples de uma
srie temporal que de acordo com a hiptese nula tem mdia e varincia constantes ao longo do tempo,
mas de acordo com a hiptese alternativa a sua mdia altera-se numa certa data no conhecida. Este
um problema no standard j que um dos parmetros, a data da quebra, s identificado sob a
hiptese alternativa. Quandt (1958, 1960) prope a utilizao do teste sup F, ou sup Wald, que
corresponde ao teste de rcio de verosimilhana avaliado na data de quebra que maximiza a funo de
verosimilhana (assumindo uma distribuio Gaussiana). Esta soluo foi mais tarde utilizada em
contextos mais gerais por Davies (1977).
Andrews (1993) considera tambm testes baseados no valor mximo dos testes de Wald e do
multiplicador de Lagrange (LM) e mostra que estes so assimptoticamente equivalentes. Andrews
(1993) tambm apresenta verses dos testes robustas presena de autocorrelao e
heterocedasticidade. Andrews e Ploberger (1994) desenvolvem testes ptimos, como o exp Wald, no
sentido em que a potncia mdia ponderada maximizada.
Muitos outros testes alternativos foram apresentados por diversos autores como sejam os baseados em
somas parciais dos resduos (teste LM de Gardner, 1969) ou no mximo de somas parciais de resduos
recursivos (teste CUSUM de Brown, Durbin e Evans, 1975).
Inicialmente, a caracterizao da distribuio assimpttica de muitos dos testes propostos no era feita.
Por exemplo, Quandt (1960) nota que a distribuio do teste sup Wald sob a hiptese nula no
correspondia a uma distribuio de qui-quadrado (que se obteria caso a data de quebra fosse
conhecida). Tal como no caso dos testes de razes unitrias, a utilizao do teorema do limite central
funcional permite caracterizar de forma simples a distribuio assimpttica de todas as variantes destes
testes como funcionais de movimentos Brownianos. Por exemplo em MacNeill (1974) a distribuio
assimpttica do teste LM proposto por Gardner caracterizada como o integral do quadrado de uma
ponte Browniana no intervalo [0,1]. Outro exemplo o teste CUSUM cuja distribuio assimpttica se
pode representar como o supremo de um movimento Browniano devidamente normalizado.
O problema bsico acima considerado foi generalizado ao modelo de regresso linear mltipla com
vrias quebras estruturais. Bai (1997) e Bai e Perron (2003) estudam as propriedades do estimador de
mnimos quadrados e dos testes de quebras mltiplas, e ainda a inferncia acerca das datas de quebras.
O caso em que se pretende estimar o nmero de quebras foi tambm estudado por vrios autores. Liu
et al (1997) e Yao (1988) propem a utilizao de critrios de seleco de modelos enquanto Bai e
Perron (2003) consideram a utilizao sequencial de testes de m quebras contra m+1 quebras, partindo
do caso m = 0 at ocorrer uma rejeio.
A maioria dos testes de quebras estruturais so vlidos apenas quando as sries temporais so
estacionrias, excluindo como tal o caso de razes unitrias. Considere-se o seguinte problema acerca
do comportamento da tendncia de uma srie temporal: y
t
= a + b t + e
t
em que os erros e
t
podem ser
auto-correlacionados, estacionrios, I(0), ou no-estacionrios com uma raz unitria, I(1). Neste
exemplo, os testes habituais sobre uma quebra estrutural do declive da componente de tendncia
determinstica b tm taxas de convergncia diferentes sob a hiptese nula de no existirem quebras nos
casos I(0) e I(1). S muito recentemente foram encontradas solues para este problema. Perron e
Yabu (2005) e Harvey, Leybourne e Taylor (2009) propem testes de quebras estruturais que so
vlidos e no requerem conhecimento prvio acerca da estacionariedade ou no dos erros.
O problema oposto, de testar uma raiz unitria, na eventual presena de uma quebra estrutural tambm
levanta problemas. Perron (1989) mostra que a anlise da funo de autocorrelao ou a utilizao de
testes de raz unitria tendem a concluir pela existncia de raiz unitria mesmo quando as sries so
estacionrias na presena de uma quebra na componente de mdia ou tendncia determinstica. Como
soluo, o autor prope uma modificao aos testes de razes unitrias do tipo Dickey-Fuller. Estes
testes foram generalizados ao caso em que a data da quebra no conhecida por Zivot e Andrews
(1992) e a vrias quebras por Ohara (1999). Mais recentemente, Kim e Perron (2009) apresentam uma
soluo para o caso em que se pretende testar uma raiz unitria sem necessidade de se saber se existe
ou no uma quebra tanto sob a hiptese nula como alternativa.
A reviso apresentada acima, considera apenas modelos em que o nmero de quebras embora possa ser
desconhecido determinado a priori. Como tal, nestes modelos as quebras ocorrem de forma exgena
e independente. Em alternativa poder considerar-se que as alteraes estruturais seguem elas prprias
um processo estocstico gerado a partir de um determinado modelo, passando a ser possvel por
exemplo inferir sobre a possibilidade de ocorrncia de quebras no futuro a partir da observao dos
dados e eventuais quebras ocorridas no passado. Uma das abordagens mais populares consiste na
modelizao de vrios regimes, no observados, como sendo gerados a partir de uma cadeia de
Markov. Este modelo tornou-se popular na anlise de ciclos econmicos (Hamilton, 1989) uma vez
que permite por exemplo definir partida a existncia de dois estados, um de recesso e outro de
expanso, em que a srie temporal da actividade econmica gerada a partir de modelos auto-
regressivos com parmetros diferentes e em que a durao de cada regime determinada por uma
matriz de transio. Este modelo tem tido tambm bastante popularidade na caracterizao da evoluo
da varincia condicional de sries financeiras por exemplo em diferentes perodos de crise (Turner,
Startz e Nelson, 1989).
De facto, existe uma classe geral de modelos com variveis no observadas denominados de modelos
de espao de estados que tm tido uma grande aplicao em economia e finanas (ver por exemplo
Harvey, 1990; e Hamilton, 1994). A principal ferramenta utilizada na estimao destes modelos o
filtro de Kalman, um procedimento recursivo que permite estimar as variveis no observadas a partir
da informao disponvel em cada momento do tempo, e que permite construir a funo de
verosimilhana tendo em vista a estimao do parmetros do modelo. Em Kim e Nelson (1999) so
apresentados vrios modelos de espao de estados com mudanas de regime tanto numa perspectiva
clssica como Bayesiana.
Outra abordagem que tambm permite gerar diferentes regimes so os modelos TAR (threshold auto-
regression) popularizados por Tong (1990). Neste caso, os estados ou regimes so determinados por
intervalos de valores que uma srie temporal pode ir tomando ao longo do tempo.
Tal como no caso dos modelos com quebras estruturais, nestes dois modelos alternativos existe um
problema de no identificao de parmetros sob a hiptese nula (por exemplo os valores da matriz de
transio no caso do modelo com mudanas de regime Markovianas) e que causa dificuldades na
determinao do nmero de estados ou regimes. Uma reviso recente destes e outros modelos no
lineares aparece em Tersvirta (2006).
do comportamento da tendncia de uma srie temporal: y
t
= a + b t + e
t
em que os erros e
t
podem ser
auto-correlacionados, estacionrios, I(0), ou no-estacionrios com uma raz unitria, I(1). Neste
exemplo, os testes habituais sobre uma quebra estrutural do declive da componente de tendncia
determinstica b tm taxas de convergncia diferentes sob a hiptese nula de no existirem quebras nos
casos I(0) e I(1). S muito recentemente foram encontradas solues para este problema. Perron e
Yabu (2005) e Harvey, Leybourne e Taylor (2009) propem testes de quebras estruturais que so
vlidos e no requerem conhecimento prvio acerca da estacionariedade ou no dos erros.
O problema oposto, de testar uma raiz unitria, na eventual presena de uma quebra estrutural tambm
levanta problemas. Perron (1989) mostra que a anlise da funo de autocorrelao ou a utilizao de
testes de raz unitria tendem a concluir pela existncia de raiz unitria mesmo quando as sries so
estacionrias na presena de uma quebra na componente de mdia ou tendncia determinstica. Como
soluo, o autor prope uma modificao aos testes de razes unitrias do tipo Dickey-Fuller. Estes
testes foram generalizados ao caso em que a data da quebra no conhecida por Zivot e Andrews
(1992) e a vrias quebras por Ohara (1999). Mais recentemente, Kim e Perron (2009) apresentam uma
soluo para o caso em que se pretende testar uma raiz unitria sem necessidade de se saber se existe
ou no uma quebra tanto sob a hiptese nula como alternativa.
A reviso apresentada acima, considera apenas modelos em que o nmero de quebras embora possa ser
desconhecido determinado a priori. Como tal, nestes modelos as quebras ocorrem de forma exgena
e independente. Em alternativa poder considerar-se que as alteraes estruturais seguem elas prprias
um processo estocstico gerado a partir de um determinado modelo, passando a ser possvel por
exemplo inferir sobre a possibilidade de ocorrncia de quebras no futuro a partir da observao dos
dados e eventuais quebras ocorridas no passado. Uma das abordagens mais populares consiste na
modelizao de vrios regimes, no observados, como sendo gerados a partir de uma cadeia de
Markov. Este modelo tornou-se popular na anlise de ciclos econmicos (Hamilton, 1989) uma vez
que permite por exemplo definir partida a existncia de dois estados, um de recesso e outro de
expanso, em que a srie temporal da actividade econmica gerada a partir de modelos auto-
regressivos com parmetros diferentes e em que a durao de cada regime determinada por uma
matriz de transio. Este modelo tem tido tambm bastante popularidade na caracterizao da evoluo
da varincia condicional de sries financeiras por exemplo em diferentes perodos de crise (Turner,
Startz e Nelson, 1989).
De facto, existe uma classe geral de modelos com variveis no observadas denominados de modelos
de espao de estados que tm tido uma grande aplicao em economia e finanas (ver por exemplo
Harvey, 1990; e Hamilton, 1994). A principal ferramenta utilizada na estimao destes modelos o
filtro de Kalman, um procedimento recursivo que permite estimar as variveis no observadas a partir
da informao disponvel em cada momento do tempo, e que permite construir a funo de
verosimilhana tendo em vista a estimao do parmetros do modelo. Em Kim e Nelson (1999) so
apresentados vrios modelos de espao de estados com mudanas de regime tanto numa perspectiva
clssica como Bayesiana.
Outra abordagem que tambm permite gerar diferentes regimes so os modelos TAR (threshold auto-
regression) popularizados por Tong (1990). Neste caso, os estados ou regimes so determinados por
intervalos de valores que uma srie temporal pode ir tomando ao longo do tempo.
Tal como no caso dos modelos com quebras estruturais, nestes dois modelos alternativos existe um
problema de no identificao de parmetros sob a hiptese nula (por exemplo os valores da matriz de
transio no caso do modelo com mudanas de regime Markovianas) e que causa dificuldades na
determinao do nmero de estados ou regimes. Uma reviso recente destes e outros modelos no
lineares aparece em Tersvirta (2006).
2.2 Razes unitrias
No final da dcada de 70, economistas e econometristas reconheceram que estava a ser dada pouca
ateno aos mecanismos de tendncia dos dados. Esta avaliao gerou um conjunto substancial de
desenvolvimentos resultando na modificao de como os estudos de sries temporais eram feitos. A
investigao em no estacionaridade avanou significativamente com os contributos de Granger e
Newbold (1974), Davidson et al. (1978), Hendry e Mizon (1978) e Phillips (1986), entre outros.
Para ilustrar o problema que as razes unitrias originam, considere-se o seguinte processo
autoregressivo de ordem 1,
x
t
= x
t-1
+ e
t
(1)
onde e
t
rudo branco. Assumimos para simplificao da exposio que o valor inicial da srie zero,
i.e., x
0
= 0. Este processo designa-se por passeio aleatrio. Frequentemente tambm se utiliza a
designao de srie integrada de ordem 1 (I(1)), indicando a necessidade de considerar as primeiras
diferenas para a obteno de uma srie estacionria (I(0)).
Uma caracterstica interessante deste processo o facto de contrariamente a um processo estacionrio
o impacto dos choques passados no diminuir com o passar do tempo. Em particular, reescrevendo x
t
em funo dos choques verifica-se que a importncia dos choques passados exactamente a mesma da
de choques recentes. Este fenmeno resulta em implicaes interessantes, particularmente sobre as
propriedades dos estimadores assim como em contextos de modelao.
Para se analisarem as propriedades dos estimadores necessrio recorrer a um novo conceito
designado de Teorema do Limite Central Funcional (Phillips, 1987) que permite estabelecer que, T
-1/2
x
t
=>
2
W(r), com Too onde T o tamanho da amostra e W(r) um processo Browniano. Phillips
(1987) tambm demonstra que o estimador de ,
T
, e correspondente teste t, obtidos pelo mtodo dos
mnimos quadrados ordinrios tendo por base o modelo x
t
= x
t-1
+ e
t
assumindo que os dados so
gerados por (1) convergem para distribuies no convencionais, funes de processos Brownianos.
Este novo resultado interessante por vrias razes. Em primeiro lugar a taxa de convergncia de
T

T e no a habitual T
1/2
. Em segundo lugar a teoria associada no estacionaridade veio abrir uma rea
de investigao muito importante, em particular relacionada com problemas de testes na qual muitos
economistas, econometristas e estatsticos esto interessados.
Em particular o teste de razes unitrias considera a hiptese nula H
0
: = 1 (de raz unitria) contra a
alternativa H
a
: || < 1 (de estacionaridade); veja Dickey e Fuller (1979). O problema de testar a raz
unitria tem atrado muito interesse por vrias razes: i) providencia um teste formal determinao da
ordem de integrao de um ARIMA; ii) abre uma rea em que os testes que so desenvolvidos
dependem a) das variveis deterministicas a incluir na regresso teste; b) da multiplicidade de razes
unitrias; e c) da presena de outros parmetros AR e MA, parmetros esses assimptoticamente
negligenciveis, mas que podem ter efeitos nefastos em amostras finitas.
O problema da anlise e determinao de razes unitrias foi tambm alargado aos processos MA (veja
Davis e Dunsmuir, 1996), aos processos sazonais (Hylleberg et al., 1990, Osborn et al. (1988),
Rodrigues e Taylor, 2004), a dados em Painel (Breitung e Pesaran, 2008) e a modelos no lineares do
tipo SETAR (Caner e Hansen, 2001) e STAR (Smooth Transition Autoregressive), resultando num
avultado nmero de desenvolvimentos tericos e aplicados.
17 O u t o n o d e 2 0 0 9
2.2 Razes unitrias
No final da dcada de 70, economistas e econometristas reconheceram que estava a ser dada pouca
ateno aos mecanismos de tendncia dos dados. Esta avaliao gerou um conjunto substancial de
desenvolvimentos resultando na modificao de como os estudos de sries temporais eram feitos. A
investigao em no estacionaridade avanou significativamente com os contributos de Granger e
Newbold (1974), Davidson et al. (1978), Hendry e Mizon (1978) e Phillips (1986), entre outros.
Para ilustrar o problema que as razes unitrias originam, considere-se o seguinte processo
autoregressivo de ordem 1,
x
t
= x
t-1
+ e
t
(1)
onde e
t
rudo branco. Assumimos para simplificao da exposio que o valor inicial da srie zero,
i.e., x
0
= 0. Este processo designa-se por passeio aleatrio. Frequentemente tambm se utiliza a
designao de srie integrada de ordem 1 (I(1)), indicando a necessidade de considerar as primeiras
diferenas para a obteno de uma srie estacionria (I(0)).
Uma caracterstica interessante deste processo o facto de contrariamente a um processo estacionrio
o impacto dos choques passados no diminuir com o passar do tempo. Em particular, reescrevendo x
t
em funo dos choques verifica-se que a importncia dos choques passados exactamente a mesma da
de choques recentes. Este fenmeno resulta em implicaes interessantes, particularmente sobre as
propriedades dos estimadores assim como em contextos de modelao.
Para se analisarem as propriedades dos estimadores necessrio recorrer a um novo conceito
designado de Teorema do Limite Central Funcional (Phillips, 1987) que permite estabelecer que, T
-1/2
x
t
=>
2
W(r), com Too onde T o tamanho da amostra e W(r) um processo Browniano. Phillips
(1987) tambm demonstra que o estimador de ,
T
, e correspondente teste t, obtidos pelo mtodo dos
mnimos quadrados ordinrios tendo por base o modelo x
t
= x
t-1
+ e
t
assumindo que os dados so
gerados por (1) convergem para distribuies no convencionais, funes de processos Brownianos.
Este novo resultado interessante por vrias razes. Em primeiro lugar a taxa de convergncia de
T

T e no a habitual T
1/2
. Em segundo lugar a teoria associada no estacionaridade veio abrir uma rea
de investigao muito importante, em particular relacionada com problemas de testes na qual muitos
economistas, econometristas e estatsticos esto interessados.
Em particular o teste de razes unitrias considera a hiptese nula H
0
: = 1 (de raz unitria) contra a
alternativa H
a
: || < 1 (de estacionaridade); veja Dickey e Fuller (1979). O problema de testar a raz
unitria tem atrado muito interesse por vrias razes: i) providencia um teste formal determinao da
ordem de integrao de um ARIMA; ii) abre uma rea em que os testes que so desenvolvidos
dependem a) das variveis deterministicas a incluir na regresso teste; b) da multiplicidade de razes
unitrias; e c) da presena de outros parmetros AR e MA, parmetros esses assimptoticamente
negligenciveis, mas que podem ter efeitos nefastos em amostras finitas.
O problema da anlise e determinao de razes unitrias foi tambm alargado aos processos MA (veja
Davis e Dunsmuir, 1996), aos processos sazonais (Hylleberg et al., 1990, Osborn et al. (1988),
Rodrigues e Taylor, 2004), a dados em Painel (Breitung e Pesaran, 2008) e a modelos no lineares do
tipo SETAR (Caner e Hansen, 2001) e STAR (Smooth Transition Autoregressive), resultando num
avultado nmero de desenvolvimentos tericos e aplicados.
Outra rea relacionada com a no estacionaridade que tambm viu grandes desenvolvimentos ao longo
das ltimas duas dcadas foi a rea dos processos fraccionrios; veja Granger e Joyeux (1980), Crato e
de Lima (1994), Robinson (1994), Breitung e Hassler (2002) e Hassler, Rodrigues e Rubia (2009).
2.3 Regresses Esprias
Um fenmeno relacionado com as razes unitrias o fenmeno das relaes (regresses) esprias,
conhecido dos estatsticos e econometristas desde Yule (1897) e Pearson (1897). Existem muitos
exemplos de regresses esprias na literatura. Por exemplo, Phillips (1986) ilustra este fenmeno
recorrendo relao implausvel entre the number of ordained ministers and the rate of alcoholism in
Great Britain in the nineteenth century; o prprio Yule (1926) apresenta a curiosa relao entre a
proportion of Church of England marriages to all marriages and the mortality rate over the period
18661911; outro caso curioso a relao entre o nvel de preos e a quantidade cumulativa de
precipitao no Reino Unido avanada por Hendry (1980).
O grande interesse neste fenmeno em econometria s surgiu no entanto com o famoso artigo de
Granger e Newbold (1974) no qual com base em anlise Monte Carlo, apresentada evidncia,
regredindo variveis perfeitamente independentes entre si, da significncia aparente das vrias
relaes.
A questo que sob as condies de regularidade convencionais o mtodo dos mnimos quadrados
ordinrios no apresenta evidncia de relao entre duas variveis independentes. No entanto, no
estudo de Granger e Newbold (1974), as sries foram geradas como passeios aleatrios e era a no
estacionaridade (resultante de razes unitrias) das variveis que originou estimativas de parmetros
estatisticamente diferentes de zero. Foi Phillips (1986) que veio enquadrar teoricamente o problema
explicando analiticamente as causas do fenmeno das regresses esprias.
Note-se que o problema simtrico, denominado de quebras esprias (Nunes et al., 1996), tambm se
pode colocar. Quando uma srie I(1), os mtodos habituais de inferncia vlidos para sries I(0)
tendem a concluir sobre a existncia de uma ou mais quebras mesmo quando o processo gerador de
dados no apresenta quebras.
2.4 Cointegrao
O conceito de cointegrao que valeu a Clive Granger em 2003 o prmio Nobel da Economia traduz
um fenmeno importante para a modelao de longo prazo das sries cronolgicas. De acordo com
Engle e Granger (1987), um vector X
t
de n variveis (X
it
, i=1, 2,.,n) diz-se cointegrado se todos os
elementos de X
t
forem integrados da mesma ordem e exista um vector = (
1
,
2
, ....,
n
), tal que a
combinao linear Z
t
= X
t
de ordem de integrao inferior de X
t
e 0. conhecido como vector
de cointegrao. Se existir um sistema de r
i
(i = 1,...,r) vectores, ento a matriz (nr) de vectores
designa-se por matriz de cointegrao. O nmero de vectores de cointegrao definido como a ordem
de cointegrao de X
t
, i.e., se X
t
for constitudo por n variveis ento podero existir at n-1 vectores
de cointegrao.
O conceito de cointegrao est relacionado com a noo de equilbrio de longo prazo. Uma definio
de equilbrio entre um conjunto de variveis X
t
uma relao do tipo X
t
= 0. Esta relao designada
por relao de cointegrao ou de longo prazo entre as variveis. No entanto, dado que difcil de
ocorrer, Z
t
= X
t
mede o grau de desequilbrio do sistema, i.e., a distncia do sistema situao de
equilbrio, representando desta forma o erro de equilbrio.
Outra rea relacionada com a no estacionaridade que tambm viu grandes desenvolvimentos ao longo
das ltimas duas dcadas foi a rea dos processos fraccionrios; veja Granger e Joyeux (1980), Crato e
de Lima (1994), Robinson (1994), Breitung e Hassler (2002) e Hassler, Rodrigues e Rubia (2009).
2.3 Regresses Esprias
Um fenmeno relacionado com as razes unitrias o fenmeno das relaes (regresses) esprias,
conhecido dos estatsticos e econometristas desde Yule (1897) e Pearson (1897). Existem muitos
exemplos de regresses esprias na literatura. Por exemplo, Phillips (1986) ilustra este fenmeno
recorrendo relao implausvel entre the number of ordained ministers and the rate of alcoholism in
Great Britain in the nineteenth century; o prprio Yule (1926) apresenta a curiosa relao entre a
proportion of Church of England marriages to all marriages and the mortality rate over the period
18661911; outro caso curioso a relao entre o nvel de preos e a quantidade cumulativa de
precipitao no Reino Unido avanada por Hendry (1980).
O grande interesse neste fenmeno em econometria s surgiu no entanto com o famoso artigo de
Granger e Newbold (1974) no qual com base em anlise Monte Carlo, apresentada evidncia,
regredindo variveis perfeitamente independentes entre si, da significncia aparente das vrias
relaes.
A questo que sob as condies de regularidade convencionais o mtodo dos mnimos quadrados
ordinrios no apresenta evidncia de relao entre duas variveis independentes. No entanto, no
estudo de Granger e Newbold (1974), as sries foram geradas como passeios aleatrios e era a no
estacionaridade (resultante de razes unitrias) das variveis que originou estimativas de parmetros
estatisticamente diferentes de zero. Foi Phillips (1986) que veio enquadrar teoricamente o problema
explicando analiticamente as causas do fenmeno das regresses esprias.
Note-se que o problema simtrico, denominado de quebras esprias (Nunes et al., 1996), tambm se
pode colocar. Quando uma srie I(1), os mtodos habituais de inferncia vlidos para sries I(0)
tendem a concluir sobre a existncia de uma ou mais quebras mesmo quando o processo gerador de
dados no apresenta quebras.
2.4 Cointegrao
O conceito de cointegrao que valeu a Clive Granger em 2003 o prmio Nobel da Economia traduz
um fenmeno importante para a modelao de longo prazo das sries cronolgicas. De acordo com
Engle e Granger (1987), um vector X
t
de n variveis (X
it
, i=1, 2,.,n) diz-se cointegrado se todos os
elementos de X
t
forem integrados da mesma ordem e exista um vector = (
1
,
2
, ....,
n
), tal que a
combinao linear Z
t
= X
t
de ordem de integrao inferior de X
t
e 0. conhecido como vector
de cointegrao. Se existir um sistema de r
i
(i = 1,...,r) vectores, ento a matriz (nr) de vectores
designa-se por matriz de cointegrao. O nmero de vectores de cointegrao definido como a ordem
de cointegrao de X
t
, i.e., se X
t
for constitudo por n variveis ento podero existir at n-1 vectores
de cointegrao.
O conceito de cointegrao est relacionado com a noo de equilbrio de longo prazo. Uma definio
de equilbrio entre um conjunto de variveis X
t
uma relao do tipo X
t
= 0. Esta relao designada
por relao de cointegrao ou de longo prazo entre as variveis. No entanto, dado que difcil de
ocorrer, Z
t
= X
t
mede o grau de desequilbrio do sistema, i.e., a distncia do sistema situao de
equilbrio, representando desta forma o erro de equilbrio.
Se duas ou mais variveis forem cointegradas, elas podem ter uma representao de curto e longo
prazo atravs de um mecanismo corrector do erro (MCE). O equilbrio anteriormente descrito
introduzido neste modelo como uma varivel adicional sobre a forma de um termo corrector do erro.
Apesar de j existirem na literatura (na literatura estatstica a ideia de combinao linear de sries com
razes unitrias ser estacionria foi analisada por Box e Tiao, 1977), foi s com Engle e Granger
(1987) que o conceito de cointegrao ganhou expresso. Em particular, o Teorema de Representao
de Granger teve importante destaque. De acordo com este Teorema, considerando X
t
um vector (n1)
de n variveis cointegradas, com r vectores cointegrantes (0 < r n-1), a seguinte representao de
correco de erro pode ser obtida,
A(L)(1 - L)X
t
= -Z
t-1
+ u
t
(2)
onde Z
t
= X
t
, u
t
um vector de resduos estacionrios, A(L) uma matriz de polinmios em L, L o
operador de desfasamento temporal convencional e so os coeficientes do termo corrector do erro ou
coeficientes de ajustamento.
O termo Z
t-1
= X
t-1
conhecido como termo corrector do erro, dado que representa o desequilbrio
entre as variveis X
it
(elementos de X
t
) no perodo t-1. Quanto maiores forem estes coeficientes, maior
a resposta de X
it
a desvios do perodo anterior em relao ao equilbrio de longo prazo. O sinal
negativo indica que a prxima alterao em X
it
vai ser de sinal oposto de Z
t-1
. O MCE pode ser
interpretado como o mecanismo que conduz a economia para um estado de equilbrio. Isto significa
que no perodo t os agentes econmicos corrigem parte do desequilbrio detectado no perodo t-1.
Johansen e Juselius (1990) e Johansen (1988) introduziram duas estatsticas para determinar o nmero
de vectores cointegrantes: i) o teste do trao da matriz e ii) o teste do valor prprio mximo.
2.5 Modelos Multivariados
Os modelos VAR (vector autoregressive) continuam a estar entre os mais populares na anlise das
interrelaes dinmicas entre vrias variveis. Estes modelos permitem responder a questes como
qual o impacto de um aumento da taxa de juro em variveis macroeconmicas como o desemprego ou
a inflao ao longo de vrios perodos atravs das chamadas funes de resposta a impulsos. A razo
da sua popularidade tem a ver com o facto de serem modelos lineares relativamente fceis de estimar.
Alm disso, no necessitam partida da imposio de restries sobre as relaes entre as variveis,
ou seja, no necessrio impor uma estrutura ou modelo macroeconmico. No entanto este ltimo
ponto tambm um dos maiores desafios destes modelos j que a identificao e estimao das
funes de resposta a impulsos e de outros resultados destes modelos (como a decomposio da
varincia do erro de previso) requerem a imposio de restries que permitam identificar o modelo
estrutural subjacente ao modelo VAR. Por exemplo considere-se o seguinte modelo VAR com apenas
duas variveis:
Y
1t
= a
12
Y
2t
+ b
12
Y
2,t-1
+ b
11
Y
1,t-1
+ e
1t
Y
2t
= a
21
Y
1t
+ b
21
Y
1,t-1
+ b
22
Y
2,t-1
+ e
2t
Em que os e
1t
e e
2t
so choques estruturais ortogonais com E(e
t
| Y
t-1
,Y
t-2
,)=0. fcil concluir que os
coeficientes do modelo no so identificados. Os vrios desenvolvimentos dos modelos VAR
consistem precisamente em diversas formas de utilizar restries vindas da teoria econmica que
permitam identificar os parmetros do modelo. As restries de curto prazo so as mais
frequentemente utilizadas (por exemplo impor que a
12
= 0, ou seja, que a varivel Y
1
no reage
19 O u t o n o d e 2 0 0 9
Se duas ou mais variveis forem cointegradas, elas podem ter uma representao de curto e longo
prazo atravs de um mecanismo corrector do erro (MCE). O equilbrio anteriormente descrito
introduzido neste modelo como uma varivel adicional sobre a forma de um termo corrector do erro.
Apesar de j existirem na literatura (na literatura estatstica a ideia de combinao linear de sries com
razes unitrias ser estacionria foi analisada por Box e Tiao, 1977), foi s com Engle e Granger
(1987) que o conceito de cointegrao ganhou expresso. Em particular, o Teorema de Representao
de Granger teve importante destaque. De acordo com este Teorema, considerando X
t
um vector (n1)
de n variveis cointegradas, com r vectores cointegrantes (0 < r n-1), a seguinte representao de
correco de erro pode ser obtida,
A(L)(1 - L)X
t
= -Z
t-1
+ u
t
(2)
onde Z
t
= X
t
, u
t
um vector de resduos estacionrios, A(L) uma matriz de polinmios em L, L o
operador de desfasamento temporal convencional e so os coeficientes do termo corrector do erro ou
coeficientes de ajustamento.
O termo Z
t-1
= X
t-1
conhecido como termo corrector do erro, dado que representa o desequilbrio
entre as variveis X
it
(elementos de X
t
) no perodo t-1. Quanto maiores forem estes coeficientes, maior
a resposta de X
it
a desvios do perodo anterior em relao ao equilbrio de longo prazo. O sinal
negativo indica que a prxima alterao em X
it
vai ser de sinal oposto de Z
t-1
. O MCE pode ser
interpretado como o mecanismo que conduz a economia para um estado de equilbrio. Isto significa
que no perodo t os agentes econmicos corrigem parte do desequilbrio detectado no perodo t-1.
Johansen e Juselius (1990) e Johansen (1988) introduziram duas estatsticas para determinar o nmero
de vectores cointegrantes: i) o teste do trao da matriz e ii) o teste do valor prprio mximo.
2.5 Modelos Multivariados
Os modelos VAR (vector autoregressive) continuam a estar entre os mais populares na anlise das
interrelaes dinmicas entre vrias variveis. Estes modelos permitem responder a questes como
qual o impacto de um aumento da taxa de juro em variveis macroeconmicas como o desemprego ou
a inflao ao longo de vrios perodos atravs das chamadas funes de resposta a impulsos. A razo
da sua popularidade tem a ver com o facto de serem modelos lineares relativamente fceis de estimar.
Alm disso, no necessitam partida da imposio de restries sobre as relaes entre as variveis,
ou seja, no necessrio impor uma estrutura ou modelo macroeconmico. No entanto este ltimo
ponto tambm um dos maiores desafios destes modelos j que a identificao e estimao das
funes de resposta a impulsos e de outros resultados destes modelos (como a decomposio da
varincia do erro de previso) requerem a imposio de restries que permitam identificar o modelo
estrutural subjacente ao modelo VAR. Por exemplo considere-se o seguinte modelo VAR com apenas
duas variveis:
Y
1t
= a
12
Y
2t
+ b
12
Y
2,t-1
+ b
11
Y
1,t-1
+ e
1t
Y
2t
= a
21
Y
1t
+ b
21
Y
1,t-1
+ b
22
Y
2,t-1
+ e
2t
Em que os e
1t
e e
2t
so choques estruturais ortogonais com E(e
t
| Y
t-1
,Y
t-2
,)=0. fcil concluir que os
coeficientes do modelo no so identificados. Os vrios desenvolvimentos dos modelos VAR
consistem precisamente em diversas formas de utilizar restries vindas da teoria econmica que
permitam identificar os parmetros do modelo. As restries de curto prazo so as mais
frequentemente utilizadas (por exemplo impor que a
12
= 0, ou seja, que a varivel Y
1
no reage
contemporaneamente aos choques e
2
). Uma reviso destes mtodos aparece por exemplo em Hamilton
(1994). No entanto possvel utilizar tambm restries de longo prazo (Blanchard e Quah, 1989; ou
King, Plosser, Stock e Watson, 1991), restries de sinal da funo de resposta a impulsos em
determinados horizontes temporais (Uhlig, 2005), atravs da identificao de regimes em que os
choques tm varincias diferentes (Rigobon, 2003), ou atravs de mtodos Bayesianos em que as
distribuies a priori dos parmetros do modelo so sugeridas por modelos estruturais
macroeconmicos (DelNegro and Schorfheide, 2004).
3. Concluso
Este artigo apresenta uma breve resenha da evoluo da anlise economtrica de sries cronolgicas e
de alguns tpicos recentes que marcaram a rea devido sua importncia e impacto em termos de
anlise, modelao e previso.
As diferentes caractersticas das sries cronolgicas tm motivado a necessidade de desenvolvimento
de mtodos e tcnicas de anlise adequados, levando a uma dinmica recente de investigao
importante em tpicos como o Bootstrap, a no-linearidade e no-estacionaridade, a anlise no
paramtrica, quebras na varincia, etc. A anlise economtrica de sries cronolgicas uma rea de
investigao muito activa e que tem despertado muito interesse quer em termos aplicados como
tericos.
4. Referncias
Akaike, H. (1974). A new look at the statistical model identification, IEEE Transactions on Automatic
Control, 19(6), 716723.
Andrews, D.W.K., (1993) Tests for parameter instability and structural change with unknown change
point. Econometrica 61, 821-856 (Corrigendum, 71, 395-397).
Andrews, D.W.K., Ploberger, W., (1994) Optimal tests when a nuisance parameter is present only
under the alternative. Econometrica 62, 1383-1414.
Bai, J., (1997) Estimation of a change point in multiple regression models. Review of Economic and
Statistics 79, 551-563.
Bai, J., Perron, P., (2003) Computation and analysis of multiple structural change models. Journal of
Applied Econometrics 18, 1-22.
Blanchard, O.J., e Quah, D. (1989) The Dynamic Effects of Aggregate Demand and Supply
Disturbances, American Economic Review, 79(4), 655-73.
Box, G.E.P., e Jenkins, G.M., (1970) Time Series Analysis: Forecasting and Control.
Box, E.E.P., e Tiao, G.C., (1977) A canonical analysis of multiple time series, Biometrika, 64, 355
365.
Breitung, J. e Hassler, U. (2002) Inference on the cointegration rank in fractionally integrated
processes, Journal of Econometrics, 110(2), 167-185.
Breitung, J. and Pesaran, M.H., (2008) Unit roots and cointegration in panels, Ed. Matyas, L. and
Sevestre, P. The Econometrics of Panel Data (Third Edition), Kluwer Academic Publishers, no prelo.
contemporaneamente aos choques e
2
). Uma reviso destes mtodos aparece por exemplo em Hamilton
(1994). No entanto possvel utilizar tambm restries de longo prazo (Blanchard e Quah, 1989; ou
King, Plosser, Stock e Watson, 1991), restries de sinal da funo de resposta a impulsos em
determinados horizontes temporais (Uhlig, 2005), atravs da identificao de regimes em que os
choques tm varincias diferentes (Rigobon, 2003), ou atravs de mtodos Bayesianos em que as
distribuies a priori dos parmetros do modelo so sugeridas por modelos estruturais
macroeconmicos (DelNegro and Schorfheide, 2004).
3. Concluso
Este artigo apresenta uma breve resenha da evoluo da anlise economtrica de sries cronolgicas e
de alguns tpicos recentes que marcaram a rea devido sua importncia e impacto em termos de
anlise, modelao e previso.
As diferentes caractersticas das sries cronolgicas tm motivado a necessidade de desenvolvimento
de mtodos e tcnicas de anlise adequados, levando a uma dinmica recente de investigao
importante em tpicos como o Bootstrap, a no-linearidade e no-estacionaridade, a anlise no
paramtrica, quebras na varincia, etc. A anlise economtrica de sries cronolgicas uma rea de
investigao muito activa e que tem despertado muito interesse quer em termos aplicados como
tericos.
4. Referncias
Akaike, H. (1974). A new look at the statistical model identification, IEEE Transactions on Automatic
Control, 19(6), 716723.
Andrews, D.W.K., (1993) Tests for parameter instability and structural change with unknown change
point. Econometrica 61, 821-856 (Corrigendum, 71, 395-397).
Andrews, D.W.K., Ploberger, W., (1994) Optimal tests when a nuisance parameter is present only
under the alternative. Econometrica 62, 1383-1414.
Bai, J., (1997) Estimation of a change point in multiple regression models. Review of Economic and
Statistics 79, 551-563.
Bai, J., Perron, P., (2003) Computation and analysis of multiple structural change models. Journal of
Applied Econometrics 18, 1-22.
Blanchard, O.J., e Quah, D. (1989) The Dynamic Effects of Aggregate Demand and Supply
Disturbances, American Economic Review, 79(4), 655-73.
Box, G.E.P., e Jenkins, G.M., (1970) Time Series Analysis: Forecasting and Control.
Box, E.E.P., e Tiao, G.C., (1977) A canonical analysis of multiple time series, Biometrika, 64, 355
365.
Breitung, J. e Hassler, U. (2002) Inference on the cointegration rank in fractionally integrated
processes, Journal of Econometrics, 110(2), 167-185.
Breitung, J. and Pesaran, M.H., (2008) Unit roots and cointegration in panels, Ed. Matyas, L. and
Sevestre, P. The Econometrics of Panel Data (Third Edition), Kluwer Academic Publishers, no prelo.
Brillinger, D.R. (1975) Time Series: Data Analysis and Theory. New York: Holt, Rinchart and
Winston.
Brown, R.L., Durbin, J., Evans, J.M., (1975) Techniques for testing the constancy of regression
relationships over time. Journal of the Royal Statistical Society B 37, 149-163.
Caner, M., e Hansen, B.E., (2001) Threshold Autoregression with a Unit Root, Econometrica, 69(6),
1555-1596.
Crato, N. e P. J. F. de Lima, (1994) Long-range dependence in the conditional variance of stock
returns, Economics Letters, vol. 45, no. 3, pp. 281285.
Davidson, J., D. Hendry, F. Srba, e S. Yeo, (1978) Econometric modelling of the aggregate time-series
relationship between consumers' expenditure and income in the United Kingdom, Economic Journal,
vol. 88, pp. 661692.
Davies, R.B. (1977) Hypothesis testing when a nuisance parameter is present only under the
alternative. Biometrika 64, 247-254.
Davis, R.A., and Dunsmuir, W.T.M., (1996) Maximum-likelihood estimation for MA(1) processes
with a unit root on or near the unit circle, Econometric Theory, 12, 129.
Del Negro, M. e Schorfeide, F. (2004) Priors from General Equilibrium Models for VARs,
International Economic Review, 45, 643-673.
Dickey, D. A. e W. A. Fuller, (1979) Distribution of the estimators for autoregressive time series with
a unit root, Journal of the American Statistical Association, vol. 74, no. 366, part 1, pp. 427431.
Engle, R. F. e C. W. J. Granger, (1987) Co-integration and error correction: representation, estimation,
and testing, Econometrica, vol. 55, no. 2, pp. 251276.
Gardner, L.A., (1969) On detecting changes in the mean of normal variates. The Annals of
Mathematical Statistics 40, 116-126.
Granger, C. W. J. e R. Joyeux, (1980) An introduction to long-memory time series models and
fractional differencing, Journal of Time Series Analysis, vol. 1, no. 1, pp. 1529.
Granger, C. W. J. e P. Newbold, (1974) Spurious regressions in econometrics, Journal of
Econometrics, vol. 2, no. 2, pp. 111120.
Hamilton, James D, (1989) A New Approach to the Economic Analysis of Nonstationary Time Series
and the Business Cycle. Econometrica, 57(2), 357-84.
Hamilton, J.D., (1994) Time Series Analysis, Princeton, NJ: Princeton University Press.
Hannan, E.J., (1980) The estimation of the order of an ARMA process, Annals of Statistics, 8, 1071
1081.
Harvey, A C, (1990) Forecasting, Structural Time Series Models and the Kalman Filter, Cambridge
University Press, Cambridge.
Harvey, D. I., Leybourne, S.J. and Taylor, A.M.R., (2009) Simple, Robust, And Powerful Tests Of
The Breaking Trend Hypothesis. Econometric Theory 25(4), 995-1029.
Hassler, U., Rodrigues, P.M.M. e A. Rubia, (2009) Testing for the General Fractional Integration
Hypothesis in the Time Domain. Econometric Theory, no prelo.
Hylleberg, S., R.F. Engle, C.W.J. Granger and B.S. Yoo (1990), Seasonal Integration and
Cointegration, Journal of Econometrics, 44: 215-38.
Hendry, D. (1980) Econometrics-alchemy or science? Economica, vol. 47, no. 188, pp. 387406.
21 O u t o n o d e 2 0 0 9
Brillinger, D.R. (1975) Time Series: Data Analysis and Theory. New York: Holt, Rinchart and
Winston.
Brown, R.L., Durbin, J., Evans, J.M., (1975) Techniques for testing the constancy of regression
relationships over time. Journal of the Royal Statistical Society B 37, 149-163.
Caner, M., e Hansen, B.E., (2001) Threshold Autoregression with a Unit Root, Econometrica, 69(6),
1555-1596.
Crato, N. e P. J. F. de Lima, (1994) Long-range dependence in the conditional variance of stock
returns, Economics Letters, vol. 45, no. 3, pp. 281285.
Davidson, J., D. Hendry, F. Srba, e S. Yeo, (1978) Econometric modelling of the aggregate time-series
relationship between consumers' expenditure and income in the United Kingdom, Economic Journal,
vol. 88, pp. 661692.
Davies, R.B. (1977) Hypothesis testing when a nuisance parameter is present only under the
alternative. Biometrika 64, 247-254.
Davis, R.A., and Dunsmuir, W.T.M., (1996) Maximum-likelihood estimation for MA(1) processes
with a unit root on or near the unit circle, Econometric Theory, 12, 129.
Del Negro, M. e Schorfeide, F. (2004) Priors from General Equilibrium Models for VARs,
International Economic Review, 45, 643-673.
Dickey, D. A. e W. A. Fuller, (1979) Distribution of the estimators for autoregressive time series with
a unit root, Journal of the American Statistical Association, vol. 74, no. 366, part 1, pp. 427431.
Engle, R. F. e C. W. J. Granger, (1987) Co-integration and error correction: representation, estimation,
and testing, Econometrica, vol. 55, no. 2, pp. 251276.
Gardner, L.A., (1969) On detecting changes in the mean of normal variates. The Annals of
Mathematical Statistics 40, 116-126.
Granger, C. W. J. e R. Joyeux, (1980) An introduction to long-memory time series models and
fractional differencing, Journal of Time Series Analysis, vol. 1, no. 1, pp. 1529.
Granger, C. W. J. e P. Newbold, (1974) Spurious regressions in econometrics, Journal of
Econometrics, vol. 2, no. 2, pp. 111120.
Hamilton, James D, (1989) A New Approach to the Economic Analysis of Nonstationary Time Series
and the Business Cycle. Econometrica, 57(2), 357-84.
Hamilton, J.D., (1994) Time Series Analysis, Princeton, NJ: Princeton University Press.
Hannan, E.J., (1980) The estimation of the order of an ARMA process, Annals of Statistics, 8, 1071
1081.
Harvey, A C, (1990) Forecasting, Structural Time Series Models and the Kalman Filter, Cambridge
University Press, Cambridge.
Harvey, D. I., Leybourne, S.J. and Taylor, A.M.R., (2009) Simple, Robust, And Powerful Tests Of
The Breaking Trend Hypothesis. Econometric Theory 25(4), 995-1029.
Hassler, U., Rodrigues, P.M.M. e A. Rubia, (2009) Testing for the General Fractional Integration
Hypothesis in the Time Domain. Econometric Theory, no prelo.
Hylleberg, S., R.F. Engle, C.W.J. Granger and B.S. Yoo (1990), Seasonal Integration and
Cointegration, Journal of Econometrics, 44: 215-38.
Hendry, D. (1980) Econometrics-alchemy or science? Economica, vol. 47, no. 188, pp. 387406.
Hendry, D. e G. Mizon, (1978) Serial correlation as convenience simplification, not a nuisance: a
comment on a study of the demand for money by the bank of England, Economic Journal, vol. 88, pp.
549563.
Johansen, S. (1988), Statistical Analysis of Cointegrating Vectors, Journal of Economic Dynamics and
Control, 12, 231-54.
Johansen, S., e Juselius, K., (1990) Maximum Likelihood Estimation and Inference on Cointegration
With Applications to the Demand for Money, Oxford Bulletin of Economics and Statistics, 52(2), 169-
210.
King, R. , C. Plosser, J. Stock, and M. Watson, (1991) Stochastic trends and economic fluctuations,
The American Economic Review, vol. 81, no. 4, pp. 819840.
Kim, C.J., and Nelson, C.R., (1999) State-Space Models with Regime Switching, Cambridge,
Massachusetts, MIT Press.
Kim, D., Perron, P., (2009), Unit root tests allowing for a break in the trend function at an unknown
time under both the null and alternative hypotheses. Journal of Econometrics, 148(1), 1-13.
Liu, J., Wu, S., Zidek, J.V., (1997) On segmented multivariate regressions. Statistica Sinica 7, 497-
525.
MacNeill, I.B., (1974) Tests for change of parameter at unknown time and distributions on some
related functionals of Brownian motion. Annals of Statistics 2, 950-962.
Nunes, L.C., Newbold, P., and Kuan,C.-K., (1996) Spurious number of breaks, Economics Letters,
50(2), 175-178.
Ohara, H.I., (1999) A unit root test with multiple trend breaks: a theory and application to US and
Japanese macroeconomic time-series. The Japanese Economic Review 50, 266-290.
Osborn, D.R., Chui, A.P.L., Smith, J.P. and Birchenhall, C.R. (1988), Seasonality and the Order of
Integration for Consumption, Oxford Bulletin of Economics and Statistics, 50, pp.361-377.
Pearson, K. (1897) On a form of spurious correlation which may arise when indices are used in the
measurement of organs, Proceedings of the Royal Society of London, vol. 60, pp. 489498.
Perron, P. (1989) The great crash, the oil price shock and the unit root hypothesis, Econometrica, vol.
57, pp. 13611401.
Perron, P., Yabu, T., (2005) Testing for shifts in trend with an integrated or stationary noise
component. Manuscript in preparation, Department of Economics, Boston University.
Phillips, P. C. B. (1986) Understanding spurious regressions in econometrics, Journal of Econometrics
33(3), pp.311340.
Phillips, P. C. B. (1987) Towards a Unified Asymptotic Theory for Autoregression," Biometrika, Vol.
74(3), 535547.
Priestley, M.B. (1981) Spectral Analysis and Time Series (Vols. 1 & 2), London: Academic Press.
Quandt, R. E., (1958) The estimation of the parameters of a linear regression system obeying two
separate regimes. Journal of the American Statistical Association 53, 873-880.
Quandt, R.E., (1960) Tests of the hypothesis that a linear regression system obeys two separate
regimes. Journal of the American Statistical Association 55, 324-330.
Rigobon, R., (2003) Identification Through Heteroskedasticity, The Review of Economics and
Statistics, 85(4), 777-792.
Robinson, P. M. (1994) Efficient tests of nonstationary hypotheses, Journal of the American Statistical
Association, vol. 89, no. 428, pp. 14201437.
Rodrigues, P.M.M. e A.M.R. Taylor (2004) Alternative Estimators and Unit Root Tests for Seasonal
Autoregressive Processes. Journal of Econometrics 120, 35-73.
Tersvirta, T. (2006), 'Univariate nonlinear time series models' in Patterson, Kerry and Terence C.
Mills (eds.) Palgrave Handbook of Econometrics, Volume 1: Econometrics, Captulo 10, pp. 396-424,
Palgrave Macmillan.
Tong, H., (1990) Non-linear time series: a dynamical system approach, Oxford University Press,
Oxford.
Tsay, R.S. (2000) Time Series and Forecasting: Brief History and Future Research, Journal of the
American Statistical Association 95 (450), pp. 638-643.
Turner, C.M., Startz, R. and Nelson, C.R., (1989) A Markov model of heteroskedasticity, risk, and
learning in the stock market. Journal of Financial Economics 25(1), 3-22.
Uhlig, H. (2005) What are the effects of monetary policy on output? Results from an agnostic
identification procedure, Journal of Monetary Economics, 52(2), 381-419.
Yao, Y-C., (1988) Estimating the number of change-points via Schwarz criterion. Statistics and
Probability Letters 6, 181-189.
Yule, G.U., (1897) On the theory of correlation, Journal of the Royal Statistical Society 60(4), pp.
812854.
Yule, G.U., (1926) Why do we sometimes get nonsense-correlations between time-series? A study in
sampling and the nature of time-series, Journal of the Royal Statistical Society 89(1), pp. 163.
Yule, G.U., (1927) On a Method of Investigating Periodicities in Disturbed Series, with Special
Reference to Wolfer's Sunspot Numbers. Philosophical Transactions of the Royal Society of London,
Ser. A, 226, 267-298.
Zivot, E. e D. W. K. Andrews, (1992) Further evidence on the great crash, the oil-price shock, and the
unit-root hypothesis, Journal of Business and Economic Statistics 10, pp. 251270.
Hendry, D. e G. Mizon, (1978) Serial correlation as convenience simplification, not a nuisance: a
comment on a study of the demand for money by the bank of England, Economic Journal, vol. 88, pp.
549563.
Johansen, S. (1988), Statistical Analysis of Cointegrating Vectors, Journal of Economic Dynamics and
Control, 12, 231-54.
Johansen, S., e Juselius, K., (1990) Maximum Likelihood Estimation and Inference on Cointegration
With Applications to the Demand for Money, Oxford Bulletin of Economics and Statistics, 52(2), 169-
210.
King, R. , C. Plosser, J. Stock, and M. Watson, (1991) Stochastic trends and economic fluctuations,
The American Economic Review, vol. 81, no. 4, pp. 819840.
Kim, C.J., and Nelson, C.R., (1999) State-Space Models with Regime Switching, Cambridge,
Massachusetts, MIT Press.
Kim, D., Perron, P., (2009), Unit root tests allowing for a break in the trend function at an unknown
time under both the null and alternative hypotheses. Journal of Econometrics, 148(1), 1-13.
Liu, J., Wu, S., Zidek, J.V., (1997) On segmented multivariate regressions. Statistica Sinica 7, 497-
525.
MacNeill, I.B., (1974) Tests for change of parameter at unknown time and distributions on some
related functionals of Brownian motion. Annals of Statistics 2, 950-962.
Nunes, L.C., Newbold, P., and Kuan,C.-K., (1996) Spurious number of breaks, Economics Letters,
50(2), 175-178.
Ohara, H.I., (1999) A unit root test with multiple trend breaks: a theory and application to US and
Japanese macroeconomic time-series. The Japanese Economic Review 50, 266-290.
Osborn, D.R., Chui, A.P.L., Smith, J.P. and Birchenhall, C.R. (1988), Seasonality and the Order of
Integration for Consumption, Oxford Bulletin of Economics and Statistics, 50, pp.361-377.
Pearson, K. (1897) On a form of spurious correlation which may arise when indices are used in the
measurement of organs, Proceedings of the Royal Society of London, vol. 60, pp. 489498.
Perron, P. (1989) The great crash, the oil price shock and the unit root hypothesis, Econometrica, vol.
57, pp. 13611401.
Perron, P., Yabu, T., (2005) Testing for shifts in trend with an integrated or stationary noise
component. Manuscript in preparation, Department of Economics, Boston University.
Phillips, P. C. B. (1986) Understanding spurious regressions in econometrics, Journal of Econometrics
33(3), pp.311340.
Phillips, P. C. B. (1987) Towards a Unified Asymptotic Theory for Autoregression," Biometrika, Vol.
74(3), 535547.
Priestley, M.B. (1981) Spectral Analysis and Time Series (Vols. 1 & 2), London: Academic Press.
Quandt, R. E., (1958) The estimation of the parameters of a linear regression system obeying two
separate regimes. Journal of the American Statistical Association 53, 873-880.
Quandt, R.E., (1960) Tests of the hypothesis that a linear regression system obeys two separate
regimes. Journal of the American Statistical Association 55, 324-330.
Rigobon, R., (2003) Identification Through Heteroskedasticity, The Review of Economics and
Statistics, 85(4), 777-792.
Robinson, P. M. (1994) Efficient tests of nonstationary hypotheses, Journal of the American Statistical
Association, vol. 89, no. 428, pp. 14201437.
23 O u t o n o d e 2 0 0 9
Econometria Financeira
Joo Nicolau, nicolau@iseg.utl.pt
Instituto Superior de Economia e Gesto / Universidade Tcnica de Lisboa e CEMAPRE

Econometria Financeira

Joo Nicolau
Instituto Superior de Economia e Gesto/Universidade Tcnica de Lisboa e CEMAPRE

1. Introduo
A investigao em econometria financeira realiza-se em duas grandes reas: uma que se preocupa
fundamentalmente com o desenvolvimento de mtodos economtricos adequados a dados financeiros;
a outra, mais emprica, que aplica os mtodos para testar hipteses e teorias da economia financeira.
Qualquer que seja a abordagem entende-se que Financial econometrics is simply the application of
econometric tools to financial data (Robert Engle). A econometria financeira , portanto, uma
disciplina economtrica (baseada em mtodos estatsticos e matemticos) vocacionada para analisar
dados financeiros. Alguns dos temas genricos de interesse na rea do desenvolvimento dos mtodos
economtricos so a estimao, a construo de modelos economtricos e a previso. O escopo das
aplicaes economtricas economia financeira muito vasto. Citem-se alguns exemplos:
Avaliao do risco (por exemplo, atravs do Value at Risk);
Avaliao de obrigaes, opes e outros activos financeiros;
Previso da volatilidade;
Gesto de portfolios;
Anlise da previsibilidade e eficincia dos mercados.
Sendo a econometria financeira a aplicao de mtodos economtricos adequados a dados financeiros,
todos os mtodos estatsticos que de uma forma ou outra se apliquem a dados financeiros, interessam
econometria financeira. De todo o modo, a rea proeminente em econometria financeira a das sries
temporais. Estuda-se, por exemplo, a evoluo temporal das cotaes, taxas de cmbio, taxas de juro,
etc. Por esta razo, este documento analisa essencialmente mtodos economtricos para sries
temporais, sobretudo os mtodos que de alguma forma se adequam s caractersticas prprias das
sries financeiras, como sejam, a no linearidade e a no normalidade.
conveniente distinguir sries temporais de natureza macroeconmica e as de natureza financeira.
Dados de natureza macroeconmica (consumo, produto, taxa de desemprego) podem ser observados
com periodicidade mensal, trimestral ou anual; dados financeiros, como por exemplo, retornos de
aces ou taxas de cmbio podem ser observados com uma frequncia muito superior; nalguns casos,
com intervalos de minutos ou segundos entre duas observaes consecutivas. Assim, o nmero de
observaes disponveis de dados financeiros pode situar-se na ordem das centenas de milhares, ou
ainda mais. Normalmente, prefere-se trabalhar com dados dirios (evitando-se os problemas de
microestrutura de mercado). Com as sries macroeconmicas raramente se passam das poucas
centenas de observaes (quando, na melhor das hipteses, se tm observaes mensais). Os dados
macroeconmicos so menos fiveis, i.e., esto mais sujeitos a erros de medio. Com efeito, os
valores apurados no resultam de valores efectivamente observados no mercado, como sucede com a
generalidade das sries financeiras, mas antes de valores apurados de acordo com certa metodologia e
decorrentes de inquritos. Outra diferena assinalvel decorre das propriedades estatsticas dos dois

tipos de sries. Ao contrrio das sries macroeconmicas, as sries financeiras tendem a exibir
habitualmente fortes efeitos no lineares e distribuies no normais.
O ponto de partida para a anlise estatstica normalmente uma srie de preos (por exemplo, a srie
das cotaes de fecho do BCP num certo intervalo de tempo). De uma forma geral, o preo pode ser,
por exemplo, o valor a que um intermedirio financeiro informa estar disposto a pagar pela compra de
um determinado activo, opo ou futuro (bid price), o valor a que um intermedirio financeiro informa
estar disposto a receber pela venda de um determinado activo, opo ou futuro (ask price), o valor final
da transaco, o valor definido num mercado de futuros, entre outros.
2. Factos Empricos Estilizados de Sries Temporais Financeiras
Antes de se propor um modelo estocstico para uma srie financeira, importante discutirem-se as
principais regularidades empricas da srie. Em geral, h um conjunto de regularidades empricas que
so partilhadas por um grande leque de sries temporais financeiras observadas com frequncia
elevada (diria ou semanal). Chamam-se a essas regularidades factos empricos estilizados, por serem
comuns a muitas sries. Os principais so os seguintes:
1. Prmio de risco positivo. O valor esperado do retorno de um investimento no mercado de
capitais deve exceder o retorno do investimento sem risco. A essa diferena designa-se prmio
de risco. Este prmio deve ser positivo pois, caso contrrio, no haveria motivao para aceitar
um investimento com retornos incertos, quando a alternativa um retorno garantido.
2. Desvios padro diferentes consoante os activos. Os activos com maior variabilidade e,
portanto, com maior risco associado, so os ttulos de empresas, seguidos dos ndices bolsistas
e taxas de cmbio. Os bilhetes do tesouro apresentam a menor variabilidade. No mbito dos
ttulos de aces, vrios estudos indicam que a variabilidade dos retornos tende a diminuir
medida que a dimenso das empresas aumenta (ttulos de empresas pequenas apresentam maior
variabilidade).
3. Retornos de aces e de ndices tendem a apresentar assimetria negativa. As distribuies
empricas das rendibilidades de aces e ndices bolsistas tendem, em geral, a serem
assimtricas negativas (normalmente ocorrem mais variaes negativas fortes, i.e. crashes, do
que variaes positivas fortes).
4. Retornos apresentam distribuies leptocrticas. Observa-se para a generalidade das sries
financeiras que os retornos muitos altos e muito baixos ocorrem com maior frequncia do que
seria de esperar se os retornos seguissem uma distribuio normal. Na generalidade dos casos o
coeficiente de kurtosis estimado vem quase sempre bastante acima de 3, o que sugere que a
distribuio dos retornos (de cotaes, ndices, taxas de cmbio e mesmo taxas de juro)
leptocrtica.
5. Autocorrelaes lineares baixas entre os retornos. Em geral os coeficientes de autocorrelao
dos retornos so baixos. Imagine-se uma situao hipottica em que a mdia dos retornos
dirios zero e o coeficiente de correlao negativo e alto em mdulo. Se o retorno hoje
positivo, amanh tender a ser negativo e vice-versa. Existe, portanto, uma forte possibilidade
de ganho (arbitragem) com base na observao passada dos preos. Se outros participantes do
mercado comprarem e venderem com base neste padro de autocorrelao, o processo de
arbitragem reduzir rapidamente a correlao. Portanto, no credvel supor-se coeficientes de
autocorrelao lineares altos.
6. Volatility Clustering. J vimos que valores muitos altos e muito baixos ocorrem
frequentemente (com maior frequncia do que seria de esperar se as variveis seguissem uma
distribuio normal). Este valores extremos no ocorrem isoladamente: tendem a ocorrer de
forma seguida, da o termo volatility clustering.

7. Forte dependncia temporal da volatilidade. Nos pontos precedentes observmos dois factos
estilizados: (1) valores muitos altos e muito baixos ocorrem frequentemente e (2) estes valores
extremos aparecem de forma seguida (volatility clustering). Neste ponto refora-se a ideia de
volatility clustering: no s os valores extremos tendem a aparecer de forma seguida como
tambm h alguma persistncia neste fenmeno. Isto , se a volatilidade alta (baixa), ento
razovel esperar que a volatilidade se mantenha alta (baixa) durante bastante tempo.
8. Efeito assimtrico. Tem-se observado existir alguma correlao entre a volatilidade e a
ocorrncia de perdas significativas nos mercados de capitais. Designa-se esta relao por efeito
assimtrico. Concretamente, quando a rendibilidade de um activo negativa espera-se, em
mdia, um aumento de volatilidade para o perodo seguinte. O efeito assimtrico , por vezes
identificado como leverage effect depois de Black em 1976 ter notado que a volatilidade
aumenta quando o mercado cai e o rcio de endividamento (leverage ratio) aumenta. No
entanto, vrios autores tm salientado que o leverage muito reduzido quando comparado com
o efeito assimtrico.
9. Aumento da frequncia das observaes acentua a no linearidade e a no normalidade. Pode
mostrar-se que, em geral, o coeficiente de kurtosis tende a aumentar com o aumento da
frequncia amostral (por exemplo, quando se passa de observaes semanais para observaes
dirias). Assim, a distribuio marginal dos retornos dirios apresenta um maior afastamento
face distribuio normal do que a distribuio marginal dos retornos mensais (por exemplo).
Tambm a correlao entre a magnitude dos retornos tende a acentuar-se com o aumento da
frequncia das observaes.
10. Efeitos de calendrio. Em certas sries a rendibilidade e/ou a volatilidade varia com o
calendrio.
3. Modelao Em Tempo Discreto
3.1 Introduo
Ao longo das ltimas dcadas os modelos ARMA tm dominado a abordagem de sries temporais (os
primeiros trabalhos datam de 1927 com os modelos autoregressivos estudados por Yule). Existem
razes para o sucesso dos modelos ARMA Gaussianos:
simplicidade: as equaes lineares s diferenas finitas so fceis de tratar;
o modelo ARMA Gaussiano completamente caracterizado pela mdia, varincia e pelas
autocorrelaes;
so fceis de aplicar e implementar (a maioria dos programas de estatsticas possui um mdulo
para tratar os modelos ARMA);
a teoria est bastante desenvolvida: praticamente, todas as principais questes relacionadas com
a estimao, inferncia e previso esto resolvidas;
os modelos lineares apesar de simples so relativamente flexveis e teis na previso.
Todavia, os modelos ARMA apresentam limitaes:
no so apropriados para dados que exibam sbitas alteraes em perodos irregulares;
no so apropriados para dados que exibam forte assimetria e achatamento e,
obviamente, no so indicados para modelarem relaes no lineares. Pode suceder que os
coeficientes de autocorrelao linear sejam baixos, e existir fortes correlaes no lineares
entre as variveis da sucesso (por exemplo, a autocorrelao entre os quadrados das variveis
pode ser alto). Pode suceder tambm que os coeficientes de autocorrelao linear dependam do
nvel do processo.
25 O u t o n o d e 2 0 0 9

7. Forte dependncia temporal da volatilidade. Nos pontos precedentes observmos dois factos
estilizados: (1) valores muitos altos e muito baixos ocorrem frequentemente e (2) estes valores
extremos aparecem de forma seguida (volatility clustering). Neste ponto refora-se a ideia de
volatility clustering: no s os valores extremos tendem a aparecer de forma seguida como
tambm h alguma persistncia neste fenmeno. Isto , se a volatilidade alta (baixa), ento
razovel esperar que a volatilidade se mantenha alta (baixa) durante bastante tempo.
8. Efeito assimtrico. Tem-se observado existir alguma correlao entre a volatilidade e a
ocorrncia de perdas significativas nos mercados de capitais. Designa-se esta relao por efeito
assimtrico. Concretamente, quando a rendibilidade de um activo negativa espera-se, em
mdia, um aumento de volatilidade para o perodo seguinte. O efeito assimtrico , por vezes
identificado como leverage effect depois de Black em 1976 ter notado que a volatilidade
aumenta quando o mercado cai e o rcio de endividamento (leverage ratio) aumenta. No
entanto, vrios autores tm salientado que o leverage muito reduzido quando comparado com
o efeito assimtrico.
9. Aumento da frequncia das observaes acentua a no linearidade e a no normalidade. Pode
mostrar-se que, em geral, o coeficiente de kurtosis tende a aumentar com o aumento da
frequncia amostral (por exemplo, quando se passa de observaes semanais para observaes
dirias). Assim, a distribuio marginal dos retornos dirios apresenta um maior afastamento
face distribuio normal do que a distribuio marginal dos retornos mensais (por exemplo).
Tambm a correlao entre a magnitude dos retornos tende a acentuar-se com o aumento da
frequncia das observaes.
10. Efeitos de calendrio. Em certas sries a rendibilidade e/ou a volatilidade varia com o
calendrio.
3. Modelao Em Tempo Discreto
3.1 Introduo
Ao longo das ltimas dcadas os modelos ARMA tm dominado a abordagem de sries temporais (os
primeiros trabalhos datam de 1927 com os modelos autoregressivos estudados por Yule). Existem
razes para o sucesso dos modelos ARMA Gaussianos:
simplicidade: as equaes lineares s diferenas finitas so fceis de tratar;
o modelo ARMA Gaussiano completamente caracterizado pela mdia, varincia e pelas
autocorrelaes;
so fceis de aplicar e implementar (a maioria dos programas de estatsticas possui um mdulo
para tratar os modelos ARMA);
a teoria est bastante desenvolvida: praticamente, todas as principais questes relacionadas com
a estimao, inferncia e previso esto resolvidas;
os modelos lineares apesar de simples so relativamente flexveis e teis na previso.
Todavia, os modelos ARMA apresentam limitaes:
no so apropriados para dados que exibam sbitas alteraes em perodos irregulares;
no so apropriados para dados que exibam forte assimetria e achatamento e,
obviamente, no so indicados para modelarem relaes no lineares. Pode suceder que os
coeficientes de autocorrelao linear sejam baixos, e existir fortes correlaes no lineares
entre as variveis da sucesso (por exemplo, a autocorrelao entre os quadrados das variveis
pode ser alto). Pode suceder tambm que os coeficientes de autocorrelao linear dependam do
nvel do processo.

Tendo em conta os factos estilizados empricos estilizados de sries temporais financeiras descritos no
ponto anterior, fcil perceber que os modelos ARMA no so em geral adequados para modelarem
sries financeiras, observadas com frequncia elevada. Modelos mais adequados para sries financeiras
devero ser capazes de modelarem no linearidades. Uma forma simples (mas no geral) de introduzir
modelos no lineares consiste em apresentar a no linearidade atravs dos momentos condicionais.
Considere-se o modelo
y
t
= p
t
+u
t
, u
t
= o
t
e
t
onde {e
t
] um rudo branco (ou uma diferena de martingala),
p
t
= g(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
) a mdia condicional de y
t
e
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-1
, , u
t-q
) a varincia condicional de y
t
. O modelo no linear na
mdia se g uma funo no linear dos seus argumentos; o modelo no linear na varincia se o
t
2

no constante ao longo do tempo pois, neste caso, o processo {u
t
], definido por u
t
= o
t
e
t
no linear,
por ser um processo multiplicativo.
3.2 Modelos No Lineares na Varincia
Um dos primeiros modelos a romper com o quadro clssico da estimao ARMA, foi o modelo
ARCH, proposto por Robert Engle em 1982. Embora existisse j alguma evidncia de que a
volatilidade no era constante, devido aos trabalhos de Benoit Mandelbrot e Eugene Fama, na dcada
de 60, os modelos de sries temporais habituais na empirical finance assumiam homocedasticidade
(varincias iguais). Os modelos ARCH revolucionaram a abordagem economtrica de sries
temporais: no s passam a admitir, no mbito de um modelo paramtrico, heterocedasticidade (que
era frequentemente visto apenas como um problema de dados seccionais), como tambm propem um
modelo dinmico para a volatilidade.
O modelo da famlia ARCH (inclui, por exemplo, o GARCH, TARCH, EGARACH, etc.) pode ser
representado genericamente pelas seguintes equaes
u
t
= o
t
e
t
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
)
onde e
t
pode ser, por exemplo, um rudo branco.
Pode demonstrar-se que os modelos da famlia ARCH podem captar os factos estilizados 4 a 10
mencionados na seco 2. Trata-se de um enorme progresso face aos modelos ARMA. Alguns dos
factos estilizados, como por exemplo, o efeito de calendrio, no resultam directamente das
propriedades dos modelos da famlia ARCH, mas muito fcil, no quadro da estimao ARCH
incorporar esses efeitos. Por outro lado, outros factos estilizados resultam directamente das
propriedades dos modelos ARCH. Por exemplo, pode demonstrar-se que a distribuio marginal dos
retornos de um processo ARCH possui caudas polinomiais e, portanto caudas pesadas, com kurtosis
superior a 3, mesmo que a distribuio condicional seja Gaussiana.

Tendo em conta os factos estilizados empricos estilizados de sries temporais financeiras descritos no
ponto anterior, fcil perceber que os modelos ARMA no so em geral adequados para modelarem
sries financeiras, observadas com frequncia elevada. Modelos mais adequados para sries financeiras
devero ser capazes de modelarem no linearidades. Uma forma simples (mas no geral) de introduzir
modelos no lineares consiste em apresentar a no linearidade atravs dos momentos condicionais.
Considere-se o modelo
y
t
= p
t
+u
t
, u
t
= o
t
e
t
onde {e
t
] um rudo branco (ou uma diferena de martingala),
p
t
= g(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
) a mdia condicional de y
t
e
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-1
, , u
t-q
) a varincia condicional de y
t
. O modelo no linear na
mdia se g uma funo no linear dos seus argumentos; o modelo no linear na varincia se o
t
2

no constante ao longo do tempo pois, neste caso, o processo {u
t
], definido por u
t
= o
t
e
t
no linear,
por ser um processo multiplicativo.
3.2 Modelos No Lineares na Varincia
Um dos primeiros modelos a romper com o quadro clssico da estimao ARMA, foi o modelo
ARCH, proposto por Robert Engle em 1982. Embora existisse j alguma evidncia de que a
volatilidade no era constante, devido aos trabalhos de Benoit Mandelbrot e Eugene Fama, na dcada
de 60, os modelos de sries temporais habituais na empirical finance assumiam homocedasticidade
(varincias iguais). Os modelos ARCH revolucionaram a abordagem economtrica de sries
temporais: no s passam a admitir, no mbito de um modelo paramtrico, heterocedasticidade (que
era frequentemente visto apenas como um problema de dados seccionais), como tambm propem um
modelo dinmico para a volatilidade.
O modelo da famlia ARCH (inclui, por exemplo, o GARCH, TARCH, EGARACH, etc.) pode ser
representado genericamente pelas seguintes equaes
u
t
= o
t
e
t
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
)
onde e
t
pode ser, por exemplo, um rudo branco.
Pode demonstrar-se que os modelos da famlia ARCH podem captar os factos estilizados 4 a 10
mencionados na seco 2. Trata-se de um enorme progresso face aos modelos ARMA. Alguns dos
factos estilizados, como por exemplo, o efeito de calendrio, no resultam directamente das
propriedades dos modelos da famlia ARCH, mas muito fcil, no quadro da estimao ARCH
incorporar esses efeitos. Por outro lado, outros factos estilizados resultam directamente das
propriedades dos modelos ARCH. Por exemplo, pode demonstrar-se que a distribuio marginal dos
retornos de um processo ARCH possui caudas polinomiais e, portanto caudas pesadas, com kurtosis
superior a 3, mesmo que a distribuio condicional seja Gaussiana.

3.3 Modelos No lineares na Mdia
Uma classe importante de processos no lineares na mdia baseia-se na ideia de regime-switching.
Podem ser usados em duas circunstncias gerais: (a) existem alteraes bruscas e inesperadas nas
trajectrias dos processos (e.g., ataques especulativos, crashes bolsistas, anncios pblicos de medidas
do governo, eventos polticos e, em geral, eventos extraordinrios no antecipados); (b) existem
alteraes da dinmica do processo sem alteraes bruscas nas trajectrias. Por exemplo, a taxa de juro
no perodo 1993 a 2006 exibe dois perodos com comportamento bem diferenciado: no primeiro, as
taxas de juro e a volatilidade so relativamente altas e o processo evidencia uma tendncia de reverso
para uma mdia, seguindo-se, depois de 1995, um perodo de baixas taxas de juro, baixa volatilidade e
ausncia de reverso para uma mdia.
Para este tipo de fenmenos, os modelos com alteraes (estocsticas) de regime (ou regime-
switching) podem ser, no essencial, de dois tipos: (a) a mudana de regime funo de uma varivel
observvel; so exemplos, modelos com variveis impulso (dummy), os modelos limiares ou threshold
AR (TAR), os modelos onde os coeficientes associados s componentes AR so funes no lineares
dos valores passados do processo (STAR, smoothed transition AR), entre outros; (b) a mudana de
regime no observada, incluindo-se, nesta classe, os modelos onde os regimes so independentes
entre si (como, por exemplo, os modelos simple switching ou de Bernoulli) e os modelos onde existe
dependncia entre os regimes (como por exemplo, os modelos MS, Markov-Switching).
4. Modelao em Tempo Contnuo
4.1 Introduo
Nos ltimos anos tem-se assistido a um enorme interesse na modelao em tempo contnuo. Podemos
atribuir este facto ao boom da Matemtica Financeira, que usa fundamentalmente processos em tempo
contnuo para avaliar opes sobre activos, e recente disponibilidade de sries financeiras de
altssima frequncia.
O modelo base para descrever o comportamento probabilstico de uma srie financeira ao longo do
tempo o processo de difuso que pode ser descrito atravs de uma equao diferencial estocstica
(EDE)
JX
t
= o(X
t
, t)Jt + b(X
t
, t)Jw
t
, X
0
= x (1)
onde w
t
o processo de Wiener (padro). Processos de difuso so processos de Markov com
trajectrias contnuas quase certamente onde as probabilidades de transio P(s, x, t, B)
P(X
t
e B|X
s
= x) satisfazem, para cada s e |t, I], x e R , e > u,
1. lim
t-s
1
t-s
] P(s, x, t, B) = u
|-x|<s
2. existe uma funo o(s, x) tal que lim
t-s
1
t-s
]
(y - x) P(s, x, t, B) = a(s, x)
|-x|<s
3. existe uma funo b
2
(s, x) tal que lim
t-s
1
t-s
]
(y - x)
2
P(s, x, t, B) = b
2
(s, x)
|-x|<s

De acordo com a condio 1 a ocorrncia de saltos instantneos na trajectria do processo
improvvel. As condies 2 e 3 estabelecem que o processo tem uma mdia infinitesimal o(s, x) e
uma varincia infinitesimal b(s, x). A mdia infinitesimal (tambm designada por coeficiente de
tendncia) fornece uma medida da velocidade mdia do movimento descrito por X no momento s,
dado que X
s
= x (note-se, no caso do valor esperado condicional existir, o coeficiente de tendncia
pode ser interpretado como (t - s)
-1
E(X
t
- X
s
|X
s
= x) = o(s, x)) e a varincia infinitesimal
(tambm designada por coeficiente de difuso) fornece uma medida da magnitude local das flutuaes
de X
t
- X
s
dado X
s
= x (note-se, (t - s)
-1
E(X
t
- X
s
2
|X
s
= x) = b
2
(s, x)).
27 O u t o n o d e 2 0 0 9

3.3 Modelos No lineares na Mdia
Uma classe importante de processos no lineares na mdia baseia-se na ideia de regime-switching.
Podem ser usados em duas circunstncias gerais: (a) existem alteraes bruscas e inesperadas nas
trajectrias dos processos (e.g., ataques especulativos, crashes bolsistas, anncios pblicos de medidas
do governo, eventos polticos e, em geral, eventos extraordinrios no antecipados); (b) existem
alteraes da dinmica do processo sem alteraes bruscas nas trajectrias. Por exemplo, a taxa de juro
no perodo 1993 a 2006 exibe dois perodos com comportamento bem diferenciado: no primeiro, as
taxas de juro e a volatilidade so relativamente altas e o processo evidencia uma tendncia de reverso
para uma mdia, seguindo-se, depois de 1995, um perodo de baixas taxas de juro, baixa volatilidade e
ausncia de reverso para uma mdia.
Para este tipo de fenmenos, os modelos com alteraes (estocsticas) de regime (ou regime-
switching) podem ser, no essencial, de dois tipos: (a) a mudana de regime funo de uma varivel
observvel; so exemplos, modelos com variveis impulso (dummy), os modelos limiares ou threshold
AR (TAR), os modelos onde os coeficientes associados s componentes AR so funes no lineares
dos valores passados do processo (STAR, smoothed transition AR), entre outros; (b) a mudana de
regime no observada, incluindo-se, nesta classe, os modelos onde os regimes so independentes
entre si (como, por exemplo, os modelos simple switching ou de Bernoulli) e os modelos onde existe
dependncia entre os regimes (como por exemplo, os modelos MS, Markov-Switching).
4. Modelao em Tempo Contnuo
4.1 Introduo
Nos ltimos anos tem-se assistido a um enorme interesse na modelao em tempo contnuo. Podemos
atribuir este facto ao boom da Matemtica Financeira, que usa fundamentalmente processos em tempo
contnuo para avaliar opes sobre activos, e recente disponibilidade de sries financeiras de
altssima frequncia.
O modelo base para descrever o comportamento probabilstico de uma srie financeira ao longo do
tempo o processo de difuso que pode ser descrito atravs de uma equao diferencial estocstica
(EDE)
JX
t
= o(X
t
, t)Jt + b(X
t
, t)Jw
t
, X
0
= x (1)
onde w
t
o processo de Wiener (padro). Processos de difuso so processos de Markov com
trajectrias contnuas quase certamente onde as probabilidades de transio P(s, x, t, B)
P(X
t
e B|X
s
= x) satisfazem, para cada s e |t, I], x e R , e > u,
1. lim
t-s
1
t-s
] P(s, x, t, B) = u
|-x|<s
2. existe uma funo o(s, x) tal que lim
t-s
1
t-s
]
(y - x) P(s, x, t, B) = a(s, x)
|-x|<s
3. existe uma funo b
2
(s, x) tal que lim
t-s
1
t-s
]
(y - x)
2
P(s, x, t, B) = b
2
(s, x)
|-x|<s

De acordo com a condio 1 a ocorrncia de saltos instantneos na trajectria do processo
improvvel. As condies 2 e 3 estabelecem que o processo tem uma mdia infinitesimal o(s, x) e
uma varincia infinitesimal b(s, x). A mdia infinitesimal (tambm designada por coeficiente de
tendncia) fornece uma medida da velocidade mdia do movimento descrito por X no momento s,
dado que X
s
= x (note-se, no caso do valor esperado condicional existir, o coeficiente de tendncia
pode ser interpretado como (t - s)
-1
E(X
t
- X
s
|X
s
= x) = o(s, x)) e a varincia infinitesimal
(tambm designada por coeficiente de difuso) fornece uma medida da magnitude local das flutuaes
de X
t
- X
s
dado X
s
= x (note-se, (t - s)
-1
E(X
t
- X
s
2
|X
s
= x) = b
2
(s, x)).

Quais as vantagens em se modelar uma srie financeira atravs de uma EDE, comparativamente
modelao em tempo discreto? H, em primeiro lugar, uma vantagem bvia - permite que os modelos
financeiros tericos, na grande maioria deduzidos a partir de EDEs, possam ser efectivamente
aplicados ao "mundo real". Existem tambm vantagens (e, certamente, desvantagens) em termos
puramente estatsticos. Nos modelos a tempo discreto a especificao dos dois primeiros momentos
condicionais imediata; por exemplo, na especificao do modelo a tempo discreto, X
t
= p
t
+ o
t
e
t
(para t = 1,2, ), onde e
t
, por exemplo, uma diferena de martingala, com varincia finita igual a
um, a mdia condicional p
t
e a varincia condicional o
t
2
. As probabilidades de transio so fceis
de estabelecer uma vez especificada a distribuio de e
t
. Nas EDEs, os momentos e as probabilidades
condicionais, associadas a observaes discretas so, em geral, muito difceis de obter. No obstante,
uma das vantagens das EDEs a de que permitem, para um nmero aprecivel de casos no lineares, a
obteno das distribuies estacionrias (quando existam, obviamente) que so um elemento chave
para a compreenso do fenmeno. Em geral, muitas expresses de interesse, como leis de
probabilidade que governam o processo de difuso, so determinadas, parte certas condies
fronteira, apenas a partir da relao dos coeficientes infinitesimais. Na generalidade dos casos,
possvel estabelecer uma equao diferencial parcial (EDP) cuja soluo determina a expresso de
interesse. Tambm se obtm, em geral, uma infinidade de momentos estacionrios (quando existam).
No caso discreto, de equaes no lineares, (por exemplo, do tipo ARCH) geralmente difcil a
obteno de resultados limites, quer em termos de momentos estacionrios, quer sobretudo em termos
de distribuies estacionrias. Um exemplo destas dificuldades mostrada por Daniel Nelson: para
derivar certos resultados assintticos dos processos ARCH, Nelson considerou processos de difuso
como solues limites de processos ARCH, quando o intervalo de tempo entre sucessivas realizaes
do processo tende para zero. Outra vantagem dos modelos em tempo contnuo a de que fcil
estabelecer resultados para qualquer t pertencente a um intervalo. Nos modelos a tempo discreto, se os
dados so anuais, os resultados apenas podem referir-se a instantes mltiplos do ano. Nestes modelos,
supe-se ainda que o intervalo entre as observaes constante. A favor das EDES pode-se ainda
argumentar que as variveis econmicas evoluem intrinsecamente em tempo contnuo mesmo que as
trajectrias possam exibir descontinuidades, pois os processos latentes geradores das variveis
econmicas so contnuos. Por exemplo, as decises dos agentes, a informao, os gostos, a tecnologia
so quase certamente processos contnuos no tempo. A economia no "pra", obviamente, entre duas
observaes do processo; da mesma forma, a economia no evolui de acordo com as observaes
disponveis do processo. Uma questo diferente saber se as trajectrias dos processos econmicos
so contnuas. Algumas sries financeiras tm provavelmente trajectrias descontnuas, isto , evoluem
atravs de saltos aleatrios no tempo (por exemplo, uma cotao de uma aco sujeita a reduzidas
transaces no est continuamente a alterar de valor).
4.2 Extenses ao Modelo Base
Uma das extenses ao modelo (1) mais importante aquela que permite modelar o coeficiente de
difuso atravs de outra equao diferencial estocstica. Entende-se, neste caso, que no s os preos
mas tambm a volatilidade dos preos admite uma representao estocstica. Estes processos
designam-se por modelos de volatilidade estocstica. Para ilustrar considere-se o seguinte exemplo
JS
t
= (r - J)S
t
Jt + o
t
S
t
Jw
t1
,
Jo
t
2
= (o - o
t
2
)Jt + o
t
Jw
t2
,
onde w
t1
e w
t2
so processos de Wiener, no necessariamente independentes. Outra extenso
importante so os processos de difuso com saltos de Poisson. Estes modelos adequam-se a fenmenos
com alteraes bruscas da trajectria, devido, por exemplo, a anncios de poltica monetria, a crashes
bolsistas, ataques especulativos sbitos, etc.

Quais as vantagens em se modelar uma srie financeira atravs de uma EDE, comparativamente
modelao em tempo discreto? H, em primeiro lugar, uma vantagem bvia - permite que os modelos
financeiros tericos, na grande maioria deduzidos a partir de EDEs, possam ser efectivamente
aplicados ao "mundo real". Existem tambm vantagens (e, certamente, desvantagens) em termos
puramente estatsticos. Nos modelos a tempo discreto a especificao dos dois primeiros momentos
condicionais imediata; por exemplo, na especificao do modelo a tempo discreto, X
t
= p
t
+ o
t
e
t
(para t = 1,2, ), onde e
t
, por exemplo, uma diferena de martingala, com varincia finita igual a
um, a mdia condicional p
t
e a varincia condicional o
t
2
. As probabilidades de transio so fceis
de estabelecer uma vez especificada a distribuio de e
t
. Nas EDEs, os momentos e as probabilidades
condicionais, associadas a observaes discretas so, em geral, muito difceis de obter. No obstante,
uma das vantagens das EDEs a de que permitem, para um nmero aprecivel de casos no lineares, a
obteno das distribuies estacionrias (quando existam, obviamente) que so um elemento chave
para a compreenso do fenmeno. Em geral, muitas expresses de interesse, como leis de
probabilidade que governam o processo de difuso, so determinadas, parte certas condies
fronteira, apenas a partir da relao dos coeficientes infinitesimais. Na generalidade dos casos,
possvel estabelecer uma equao diferencial parcial (EDP) cuja soluo determina a expresso de
interesse. Tambm se obtm, em geral, uma infinidade de momentos estacionrios (quando existam).
No caso discreto, de equaes no lineares, (por exemplo, do tipo ARCH) geralmente difcil a
obteno de resultados limites, quer em termos de momentos estacionrios, quer sobretudo em termos
de distribuies estacionrias. Um exemplo destas dificuldades mostrada por Daniel Nelson: para
derivar certos resultados assintticos dos processos ARCH, Nelson considerou processos de difuso
como solues limites de processos ARCH, quando o intervalo de tempo entre sucessivas realizaes
do processo tende para zero. Outra vantagem dos modelos em tempo contnuo a de que fcil
estabelecer resultados para qualquer t pertencente a um intervalo. Nos modelos a tempo discreto, se os
dados so anuais, os resultados apenas podem referir-se a instantes mltiplos do ano. Nestes modelos,
supe-se ainda que o intervalo entre as observaes constante. A favor das EDES pode-se ainda
argumentar que as variveis econmicas evoluem intrinsecamente em tempo contnuo mesmo que as
trajectrias possam exibir descontinuidades, pois os processos latentes geradores das variveis
econmicas so contnuos. Por exemplo, as decises dos agentes, a informao, os gostos, a tecnologia
so quase certamente processos contnuos no tempo. A economia no "pra", obviamente, entre duas
observaes do processo; da mesma forma, a economia no evolui de acordo com as observaes
disponveis do processo. Uma questo diferente saber se as trajectrias dos processos econmicos
so contnuas. Algumas sries financeiras tm provavelmente trajectrias descontnuas, isto , evoluem
atravs de saltos aleatrios no tempo (por exemplo, uma cotao de uma aco sujeita a reduzidas
transaces no est continuamente a alterar de valor).
4.2 Extenses ao Modelo Base
Uma das extenses ao modelo (1) mais importante aquela que permite modelar o coeficiente de
difuso atravs de outra equao diferencial estocstica. Entende-se, neste caso, que no s os preos
mas tambm a volatilidade dos preos admite uma representao estocstica. Estes processos
designam-se por modelos de volatilidade estocstica. Para ilustrar considere-se o seguinte exemplo
JS
t
= (r - J)S
t
Jt + o
t
S
t
Jw
t1
,
Jo
t
2
= (o - o
t
2
)Jt + o
t
Jw
t2
,
onde w
t1
e w
t2
so processos de Wiener, no necessariamente independentes. Outra extenso
importante so os processos de difuso com saltos de Poisson. Estes modelos adequam-se a fenmenos
com alteraes bruscas da trajectria, devido, por exemplo, a anncios de poltica monetria, a crashes
bolsistas, ataques especulativos sbitos, etc.

4.3 O problema da Estimao
Tal como no caso discreto, tambm os processos de difuso envolvem parmetros ou funes
desconhecidas que devem ser estimados a partir de observaes discretas do processo. A estimao e
inferncia estatstica so consideravelmente mais difceis em processos de difuso do que em
processos em tempo discreto. Embora o mtodo da mxima verosimilhana para processos de difuso
baseados em observaes discretas apresenta as habituais boas propriedades (consistncia, eficincia e
distribuio assimpttica normal dos estimadores), as densidades de transio necessrias para
construir a funo de verosimilhana so geralmente desconhecidas. Vrias abordagens de estimao
tm sido propostas, como por exemplo: mtodo dos momentos generalizados baseados no operador
infinitesimal; funo martingala de estimao; aproximao da verosimilhana via expanso de
Hermite; aproximao da verosimilhana via aproximao numrica da equao progressiva de
Kolmogorov; aproximao da verosimilhana via simulao; mtodos Bayesianos; mtodos baseados
em modelos auxiliares (inferncia indirecta e mtodo dos momentos eficientes). Tambm a estimao
no paramtrica tem suscitado muito interesse. A estimao mais difcil que envolve os processos de
volatilidade estocstica: no s a verosimilhana, associada a observaes discretas, geralmente
desconhecida, como tambm o processo da volatilidade no observado.

5. Aplicaes
5.1 Opes
Uma das aplicaes mais importantes da teoria dos processos estocsticos s finanas a que respeita
determinao do preo justo ou prmio de uma opo. Uma opo call europeia confere ao seu
detentor o direito, mas no a obrigao, de comprar um activo (por exemplo uma aco cotada na
bolsa) na data de expirao do contrato T, por um preo K previamente fixado. A cotao do activo
evolui estocasticamente ao longo do tempo e pode ser genericamente caracterizado como um processo
estocstico {S
t
: u t I] definido num espao de probabilidades (, J, P) (onde o espao
amostral, podendo ser identificado como o conjunto de todos os cenrios de mercado, J a lgebra-o
dos subconjuntos de e P a medida de probabilidade). No instante T o detentor da opo pode
comprar o activo pelo preo K, previamente estabelecido, e vender imediatamente por S
1
, supondo
obviamente que S
1
> K. Se S
1
< K o detentor da opo no exerce o direito de compra. Desta forma a
receita (payoff) mox{S
1
- K, u]. Nestas circunstncias, qual o valor justo do prmio da opo no
momento t < I? Naturalmente, o valor mox{S
1
- K, u] depende crucialmente do processo estocstico
{S
t
: u t I]. Fisher Black e Myron Scholes, assumindo um movimento Browniano geomtrico,
deduziram uma frmula matemtica para o prmio da opo. Esta frmula, simples e extremamente
til ainda nos dias de hoje, considerada por muitos economistas como uma das maiores realizaes
da teoria financeira.
5.2 Estimao da Volatilidade
A volatilidade um tpico fundamental em finanas. O conceito de volatilidade est presente na
gesto do risco, na afectao e seleco de activos, na valorizao e hedging das opes e derivados e
em muitas outras operaes e estratgias financeiras (no exemplo anterior, o parmetro mais
importante que condiciona o valor mox{S
1
- K, u] , precisamente, a volatilidade do processo
{S
t
: u t I]). A rea da modelao e da previso da volatilidade assenta, naturalmente, em
processos estocsticos. A literatura muita vasta nesta rea, e inclui variadssimos modelos em tempo
discreto (e.g. modelos ARCH e modelos de volatilidade estocstica) e em tempo contnuo (e.g.
processos de difuso univariados com coeficiente de difuso no constante e processos de difuso de
segunda ordem de volatilidade estocstica).
29 O u t o n o d e 2 0 0 9

4.3 O problema da Estimao
Tal como no caso discreto, tambm os processos de difuso envolvem parmetros ou funes
desconhecidas que devem ser estimados a partir de observaes discretas do processo. A estimao e
inferncia estatstica so consideravelmente mais difceis em processos de difuso do que em
processos em tempo discreto. Embora o mtodo da mxima verosimilhana para processos de difuso
baseados em observaes discretas apresenta as habituais boas propriedades (consistncia, eficincia e
distribuio assimpttica normal dos estimadores), as densidades de transio necessrias para
construir a funo de verosimilhana so geralmente desconhecidas. Vrias abordagens de estimao
tm sido propostas, como por exemplo: mtodo dos momentos generalizados baseados no operador
infinitesimal; funo martingala de estimao; aproximao da verosimilhana via expanso de
Hermite; aproximao da verosimilhana via aproximao numrica da equao progressiva de
Kolmogorov; aproximao da verosimilhana via simulao; mtodos Bayesianos; mtodos baseados
em modelos auxiliares (inferncia indirecta e mtodo dos momentos eficientes). Tambm a estimao
no paramtrica tem suscitado muito interesse. A estimao mais difcil que envolve os processos de
volatilidade estocstica: no s a verosimilhana, associada a observaes discretas, geralmente
desconhecida, como tambm o processo da volatilidade no observado.

5. Aplicaes
5.1 Opes
Uma das aplicaes mais importantes da teoria dos processos estocsticos s finanas a que respeita
determinao do preo justo ou prmio de uma opo. Uma opo call europeia confere ao seu
detentor o direito, mas no a obrigao, de comprar um activo (por exemplo uma aco cotada na
bolsa) na data de expirao do contrato T, por um preo K previamente fixado. A cotao do activo
evolui estocasticamente ao longo do tempo e pode ser genericamente caracterizado como um processo
estocstico {S
t
: u t I] definido num espao de probabilidades (, J, P) (onde o espao
amostral, podendo ser identificado como o conjunto de todos os cenrios de mercado, J a lgebra-o
dos subconjuntos de e P a medida de probabilidade). No instante T o detentor da opo pode
comprar o activo pelo preo K, previamente estabelecido, e vender imediatamente por S
1
, supondo
obviamente que S
1
> K. Se S
1
< K o detentor da opo no exerce o direito de compra. Desta forma a
receita (payoff) mox{S
1
- K, u]. Nestas circunstncias, qual o valor justo do prmio da opo no
momento t < I? Naturalmente, o valor mox{S
1
- K, u] depende crucialmente do processo estocstico
{S
t
: u t I]. Fisher Black e Myron Scholes, assumindo um movimento Browniano geomtrico,
deduziram uma frmula matemtica para o prmio da opo. Esta frmula, simples e extremamente
til ainda nos dias de hoje, considerada por muitos economistas como uma das maiores realizaes
da teoria financeira.
5.2 Estimao da Volatilidade
A volatilidade um tpico fundamental em finanas. O conceito de volatilidade est presente na
gesto do risco, na afectao e seleco de activos, na valorizao e hedging das opes e derivados e
em muitas outras operaes e estratgias financeiras (no exemplo anterior, o parmetro mais
importante que condiciona o valor mox{S
1
- K, u] , precisamente, a volatilidade do processo
{S
t
: u t I]). A rea da modelao e da previso da volatilidade assenta, naturalmente, em
processos estocsticos. A literatura muita vasta nesta rea, e inclui variadssimos modelos em tempo
discreto (e.g. modelos ARCH e modelos de volatilidade estocstica) e em tempo contnuo (e.g.
processos de difuso univariados com coeficiente de difuso no constante e processos de difuso de
segunda ordem de volatilidade estocstica).

5.3 Gesto do Risco
A gesto do risco consiste, grosso modo, em identificar as fontes de risco e em medir, controlar e gerir
esse mesmo risco. Nesta rea, um conceito fundamental o Value at Risk ou VaR (como usualmente
conhecido na literatura). O VaR representa a perda que pode ocorrer num lapso de tempo determinado,
com uma certa probabilidade , supondo que o portfolio no gerido durante o perodo de anlise. Em
termos probabilsticos, o VaR o quantil de ordem da distribuio terica de ganhos e perdas. Estes
ganhos e perdas evoluem ao longo do tempo e, portanto, so susceptveis de serem modelados atravs
de processos estocsticos.
5.4 Eficincia dos Mercado Financeiros
Uma discusso j longa na literatura debate a eficincia dos mercados financeiros. O mercado de
capitais diz-se eficiente se os preos dos produtos financeiros reflectirem toda a informao disponvel.
Quando libertada uma informao relevante (por exemplo, um anncio de distribuio de dividendos
de valor superior ao esperado, um anncio de fuses ou aquisies, etc.) num mercado eficiente os
agentes reagem imediatamente comprando ou vendendo de acordo com a informao e os preos
ajustam-se imediatamente. Se o mercado eficiente o preo ajusta-se rapidamente e no h
oportunidades para a realizao de rendibilidades anormais. Neste caso, o retorno no previsvel e,
portanto, dever ser no autocorrelacionado. Naturalmente esta discusso faz-se no mbito de um
modelo probabilstico de processos estocsticos.
5.5 Gesto de Porfolios
Um problema importante em finanas o da seleco e constituio de portfolios de acordo com o
princpio geral da obteno da mxima rendibilidade com a menor volatilidade (risco) possvel.
Existem vrias abordagens para obter a rendibilidade e a volatilidade mas a mais conveniente e
adequada diz respeito s previses (temporais) de rendibilidade e volatilidades associadas aos activos
que constituem o portfolio. Com efeito, a deciso sobre constituio de portfolio depender da
rendibilidade e da volatilidade futura dos activos financeiros que constituem o portfolio. Trata-se,
portanto, de um problema de previso que deve ser tratado, naturalmente, no mbito dos processos
estocsticos.
6. Referncias Bibliogrficas
1
At-Sahalia Y., (1996), Nonparametric Princing of Interest Rate Derivative Securities,
Econometrica, 64, 527-560.
At-Sahalia, Y. (2002), Maximum Likelihood Estimation of Discretely Sampled Diffusions: A Closed-
form Approximation Approach. Econometrica, 70(1), 223-262.
Amin and Ng, (1993), Option Valuation with Systematic Stochastic Volatility, Journal of Finance,
48(3), 881-910.
Andersen, T.G., T. Bollerslev, F.X. Diebold and H. Ebens, (2001), The distribution of realized stock
return volatility, Journal of Financial Economics, 61, 43-76.
Bachelier L. (1900), Thorie de la Spculation, thse de Mathmatique, Paris.

1
Lista de alguns artigos relevantes na rea dos processos estocsticos em finanas. Inclui tambm algumas publicaes
do autor na rea da Econometria Financeira.

5.3 Gesto do Risco
estocsticos.
1
48(3), 881-910.

1

Barndorff-Nielsen, O.E. and N. Shephard (2006), Econometrics of testing for jumps in financial
economics using bipower variation, Journal of Financial Econometrics, 4, 1-30.
Bibby, B., and M. Sorensen (1995), Martingale Estimation Function for Discretely Observed
Diffusion Process, Bernoulli, 1, 17-39.
Black, F. and M. Scholes, (1973), The Pricing of Options and Corporate Liabilities, Journal of
Political Economy, 81, pp. 637-654.
Bollerslev, T. (1986), Generalized autoregressive conditional heteroscedasticity, Journal of
Econometrics 31, 307-327.
Bollerslev, T., R.Y. Chou and K.F. Kroner (1992) ARCH modeling in finance: a review of the theory
and empirical evidence, Journal of Econometrics, 52, 5-59.
Cox J.C., Ingersoll J.E., Ross S. A., (1985), A Theory of the Term Structure of Interest Rates,
Danielsson J., (1994), Stochastic Volatility in Asset Prices - Estimation With Simulated Maximum
Likelihood, Journal of Econometrics, 64, 375-400.
Duffie D., (1988), Security Markets : Stochastic Models, Academic Press.
Engle R., (1982), Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of
United Kingdom Inflation, Econometrica, 50, 987-1008.
Engle R., (2001), GARCH101: The Use of ARCH/GARCH Models in Applied Econometrics,
Journal of Economic Perspectives, 15, 157-168
Engle, R. and Jeff Russell, (1998), Autoregressive Conditional Duration: A New Model for
Irregularly Spaced Transaction Data, Econometrica 66.
Eraker, B. (2001), MCMC Analysis of Diffusion Models With Application to Finance, Journal of
Business & Economic Statistics, 19, 177-191.
Fama, E. (1976), Forward Rates as Predictors of Future Spot Rates, Journal of Financial Economics,
361-77.
Gallant A., and G. Tauchen (1996), Which moments to match?, Econometric Theory, 12, 657-681.
Hansen L.P. (1982). Large Sample Properties of Generalized Methods of Moments, Econometrica,
50.
Hansen, L., and J. Scheinkman (1995): Back to the Future: Generating Moment Implications for
Continuous-Time Markov Processes, Econometrica, 63, 767-804.
Hull J, and A. White (1987), The Pricing of Options on Assets with Stochastic Volatilities, Journal
of Finance, 42, 281-300.
Jacquier, Polson, and Rossi (1994), Bayesian Analysis of Stochastic Volatility Models, Journal of
Business and Economic Statistics, 12,371-389
Kessler, M. (1997): Estimation of an Ergodic Diffusion from Discrete Observations, Scandinavian
Journal of Statistics, 24, 211- 229.

5.3 Gesto do Risco
estocsticos.
1
48(3), 881-910.

1
31 O u t o n o d e 2 0 0 9

Barndorff-Nielsen, O.E. and N. Shephard (2006), Econometrics of testing for jumps in financial
economics using bipower variation, Journal of Financial Econometrics, 4, 1-30.
Bibby, B., and M. Sorensen (1995), Martingale Estimation Function for Discretely Observed
Diffusion Process, Bernoulli, 1, 17-39.
Black, F. and M. Scholes, (1973), The Pricing of Options and Corporate Liabilities, Journal of
Political Economy, 81, pp. 637-654.
Bollerslev, T. (1986), Generalized autoregressive conditional heteroscedasticity, Journal of
Econometrics 31, 307-327.
Bollerslev, T., R.Y. Chou and K.F. Kroner (1992) ARCH modeling in finance: a review of the theory
and empirical evidence, Journal of Econometrics, 52, 5-59.
Cox J.C., Ingersoll J.E., Ross S. A., (1985), A Theory of the Term Structure of Interest Rates,
Danielsson J., (1994), Stochastic Volatility in Asset Prices - Estimation With Simulated Maximum
Likelihood, Journal of Econometrics, 64, 375-400.
Duffie D., (1988), Security Markets : Stochastic Models, Academic Press.
Engle R., (1982), Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of
United Kingdom Inflation, Econometrica, 50, 987-1008.
Engle R., (2001), GARCH101: The Use of ARCH/GARCH Models in Applied Econometrics,
Journal of Economic Perspectives, 15, 157-168
Engle, R. and Jeff Russell, (1998), Autoregressive Conditional Duration: A New Model for
Irregularly Spaced Transaction Data, Econometrica 66.
Eraker, B. (2001), MCMC Analysis of Diffusion Models With Application to Finance, Journal of
Business & Economic Statistics, 19, 177-191.
Fama, E. (1976), Forward Rates as Predictors of Future Spot Rates, Journal of Financial Economics,
361-77.
Gallant A., and G. Tauchen (1996), Which moments to match?, Econometric Theory, 12, 657-681.
Hansen L.P. (1982). Large Sample Properties of Generalized Methods of Moments, Econometrica,
50.
Hansen, L., and J. Scheinkman (1995): Back to the Future: Generating Moment Implications for
Continuous-Time Markov Processes, Econometrica, 63, 767-804.
Hull J, and A. White (1987), The Pricing of Options on Assets with Stochastic Volatilities, Journal
of Finance, 42, 281-300.
Jacquier, Polson, and Rossi (1994), Bayesian Analysis of Stochastic Volatility Models, Journal of
Business and Economic Statistics, 12,371-389
Kessler, M. (1997): Estimation of an Ergodic Diffusion from Discrete Observations, Scandinavian
Journal of Statistics, 24, 211- 229.

Lintner J. (1965), The valuation of risk assets and the selection of risky investments in stock
portfolios and capital budgets, Review of Economics and Statistics, 47, 13-37.
Lo, A. (1988): Maximum likelihood estimation of generalized Ito processes with discretely sampled
data, Econometric Theory, 4, 231--247.
Marakowitz H. (1952), Portfolio selection, Journal of Finance, 7, 77-91.
Merton R.C., 1990, Continuous Time Finance, Cambridge, M.A. Blackwell.
Merton, R.C., 1973, Theory of Rational Option Pricing, Bell Journal of Economics and
Management Science, 4, 141-183.
Nelson D.B., (1990a), ARCH Models as Diffusion Approximations, Journal of Econometrics, 45, 7-
38.
Nelson D.B., (1991), Conditional Heteroskedasticity in Asset Returns: A New Approach,
Econometrica, 59.
Nicolau, J. (2002) New Technique for Simulating the Likelihood of Stochastic Differential
Equations, The Econometrics Journal, 5, 2002.
Nicolau, J. (2002) Stationary Processes that Look Like Random Walks -- the Bounded Random Walk
Process in Discrete and Continuous Time, Econometric Theory, 18.
Nicolau, J. (2003) Bias Reduction in Nonparametric Diffusion Coefficient Estimation, Econometric
Theory, 19.
Nicolau, J. (2005), Processes with Volatility-Induced Stationarity. An Application for Interest Rates,
Statistica Neerlandica, 59, 376-396.
Nicolau, J. (2005). A Method for Simulating Non-Linear Stochastic Differential Equations in R1.
Journal of Statistical Computation and Simulation, 75, 595-609.
Nicolau, J. (2007), A Discrete and a Continuous-Time Model Based on a Technical Trading Rule,
Journal of Financial Econometrics, 5, 266-284.
Nicolau, J. (2007), Non-Parametric Estimation of Second Order Stochastic Difference Equations,
Econometric Theory, 23.
Nicolau, J. (2008), Modeling Financial Time Series Through Second Order Stochastic Differential
Equations, Statistics and Probability Letters, 75, 595-609.
Pedersen, A. (1995), A new approach to maximum likelihood estimation for stochastic differential
equations based on discrete observations, Scandinavian Journal of Statistics, 22, 55-71.
Sharpe W. (1963), A simplified model for portfolio analysis, Management Science, 9, 277-93.
Sharpe W. (1964), Capital asset prices: a theory of market equilibrium under conditions of risk,
Journal of Finance, 19.
Srensen M., (1995), Martingale Estimation Function for Discretely Observed Diffusion Process,
Bernoulli, 1.
Taylor S.J. (2008), Modelling Financial Time Series, Second Edition, John Wiley & Sons.

Yoshida, N. (1992), "Estimation for Diffusion Processes from Discrete Observations", Journal of
Multivariate Analysis 41, 220-242.

Lintner J. (1965), The valuation of risk assets and the selection of risky investments in stock
portfolios and capital budgets, Review of Economics and Statistics, 47, 13-37.
Lo, A. (1988): Maximum likelihood estimation of generalized Ito processes with discretely sampled
data, Econometric Theory, 4, 231--247.
Marakowitz H. (1952), Portfolio selection, Journal of Finance, 7, 77-91.
Merton R.C., 1990, Continuous Time Finance, Cambridge, M.A. Blackwell.
Merton, R.C., 1973, Theory of Rational Option Pricing, Bell Journal of Economics and
Management Science, 4, 141-183.
Nelson D.B., (1990a), ARCH Models as Diffusion Approximations, Journal of Econometrics, 45, 7-
38.
Nelson D.B., (1991), Conditional Heteroskedasticity in Asset Returns: A New Approach,
Econometrica, 59.
Nicolau, J. (2002) New Technique for Simulating the Likelihood of Stochastic Differential
Equations, The Econometrics Journal, 5, 2002.
Nicolau, J. (2002) Stationary Processes that Look Like Random Walks -- the Bounded Random Walk
Process in Discrete and Continuous Time, Econometric Theory, 18.
Nicolau, J. (2003) Bias Reduction in Nonparametric Diffusion Coefficient Estimation, Econometric
Theory, 19.
Nicolau, J. (2005), Processes with Volatility-Induced Stationarity. An Application for Interest Rates,
Statistica Neerlandica, 59, 376-396.
Nicolau, J. (2005). A Method for Simulating Non-Linear Stochastic Differential Equations in R1.
Journal of Statistical Computation and Simulation, 75, 595-609.
Nicolau, J. (2007), A Discrete and a Continuous-Time Model Based on a Technical Trading Rule,
Journal of Financial Econometrics, 5, 266-284.
Nicolau, J. (2007), Non-Parametric Estimation of Second Order Stochastic Difference Equations,
Econometric Theory, 23.
Nicolau, J. (2008), Modeling Financial Time Series Through Second Order Stochastic Differential
Equations, Statistics and Probability Letters, 75, 595-609.
Pedersen, A. (1995), A new approach to maximum likelihood estimation for stochastic differential
equations based on discrete observations, Scandinavian Journal of Statistics, 22, 55-71.
Sharpe W. (1963), A simplified model for portfolio analysis, Management Science, 9, 277-93.
Sharpe W. (1964), Capital asset prices: a theory of market equilibrium under conditions of risk,
Journal of Finance, 19.
Srensen M., (1995), Martingale Estimation Function for Discretely Observed Diffusion Process,
Bernoulli, 1.
Taylor S.J. (2008), Modelling Financial Time Series, Second Edition, John Wiley & Sons.
33 O u t o n o d e 2 0 0 9
O Bootstrap para Estatsticas HAC e os seus Competidores
Slvia Gonalves, silvia.goncalves@umontreal.ca
Universit de Montral, Canada

O Bootstrap para Estatsticas HAC e os seus Competidores
Slvia Gonalves
Universit de Montral, Canada
1. Introduo
O bootstrap um mtodo de inferncia que pode ser utilizado para estimar a funo de distribuio (ou
funcionais dela, tais como a mdia ou a varincia) de um determinado estimador ou estatstica de teste. A
ideia subjacente ao bootstrap muito simples: tratam-se os dados disponveis como sendo a populao
para realizar a inferncia.
Desde a sua introduo por Efron em 1979, o bootstrap tornou-se muito popular em econometria. Uma das
razes da sua popularidade a sua simplicidade. Por exemplo, o bootstrap tornou-se num dos mtodos
padro para a obteno de erros padres de estimadores complicados quando as suas varincias
assimptticas so desconhecidas ou difceis de derivar. Dado que o poder computacional melhorou
substancialmente ao longo do tempo, o bootstrap tornou-se numa alternativa relativamente barata a
mtodos de inferncia mais complicados baseados em derivaes assimptticas. A outra razo pela qual o
bootstrap um mtodo de inferncia popular prende-se com o facto deste ter um desempenho melhor em
amostras finitas do que outros mtodos alternativos baseados em aproximaes assimptticas de primeira
ordem, reduzindo substancialmente as distores de amostras finitas associadas a estas aproximaes.
O objectivo deste artigo discutir o bootstrap para dados dependentes no contexto de estatsticas t
baseadas em estimadores de varincia consistentes heteroscedasticidade e autocorrelao (designados
na literatura por HAC). Este um exemplo bem conhecido em que a distribuio normal assimpttica de
primeira ordem convencional nos d uma fraca aproximao distribuio de amostras finitas da
estatstica de interesse. Estimadores HAC dependem de dois importantes parmetros de afinao: a janela
do ponderador (kernel) e o parmetro relativo largura de banda (bandwidth). A escolha destes
parmetros importante em amostras finitas, mas no captada pelas aproximaes da normal padro.
Uma aproximao assimpttica alternativa foi recentemente proposta por Kiefer e Vogelsang (2005),
onde o parmetro relativo largura de banda modelizado como uma proporo fixa do tamanho da
amostra. Esta nova teoria assimpttica capta a escolha da largura de banda e da funo ponderadora e
consequentemente tem um melhor desempenho em amostras finitas. O bootstrap em bloco oferece outra
aproximao. Neste artigo, revem-se estas aproximaes e discute-se o seu desempenho em amostras
finitas, tendo por base o trabalho de Gonalves e Vogelsang (2009). Para simplificar a exposio, iremos
focar-nos na mdia amostral. Primeiro, na Seco 2, revem-se algumas propriedades do bootstrap i.i.d.
quando aplicado a dados i.i.d. Na Seco 3, discutem-se as razes que justificam a falha do bootstrap i.i.d.
quando os dados so dependentes. A Seco 4 rev o mtodo do bootstrap em bloco e os seus
competidores no contexto de sries cronolgicas. A Seco 5 conclui.
2. O bootstrap i.i.d. para a mdia amostral de dados i.i.d.
Suponha que {X
t
: t=1,,n} representa uma amostra identicamente e independentemente distribuda
(i.i.d.) de uma populao F, de mdia e varincia y(u). O estimador de a mdia amostral
p
n
= X
n
= n
-1
X
t
n
t=1
= f(A
n
)
onde
n
=(X
1
, ,X
n
). Suponha que o objectivo estimar a varincia de p . Neste contexto i.i.d. simples,
o
2
Ior(np ) = y(u). (1)
Um estimador padro
o
2
Ior
(np ) = y(u) onJc y(u) =

1
n-1
(X
- X
n
)
2 n
=1
, (2)
que corresponde varincia amostral de
n
.
Se F fosse conhecido, poderamos aproximar a varincia de p arbitrariamente bem atravs da
aleatorizao de Monte Carlo. Poderamos gerar muitas amostras aleatrias de F e calcular a varincia
amostral sobre as replicaes de Monte Carlo de p como aproximao da verdadeira varincia da
populao dada por (1). O problema que no se conhece F. O bootstrap simplesmente substitui F por F
`
,
uma estimativa de F, e depois gera amostras aleatrias de F
`
. Em particular, o bootstrap no paramtrico
proposto por Efron (1979) consiste em gerar amostras i.i.d. dos dados originais
n
, o que corresponde a
considerar F
`
a funo de distribuio emprica.
Considere
*
n
= (X
*
1
, ,X
*
n
) uma amostra bootstrap i.i.d de
n
. Uma forma conveniente de escrever as
observaes bootstrap X
*
t
= X
t
, onde
t
um valor i.i.d. de uma distribuio uniforme sobre {1, , n}
. Considere P* (E* e Var*) a medida de probabilidade induzida pelo bootstrap (valor esperado bootstrap e
varincia bootstrap), condicional aos dados. Podemos avaliar a estatstica de interesse sobre
*
n
e obter
p
-
= n
-1
X
t
- n
t=1
= f(A
n
-
) que o anlogo bootstrap de p . Obtm-se que
E
-
(p
-
) =
1
n
E
-
(X
t
-
)
n
t=1
=
1
n
(X
t
)
n
t=1
p . (3)
Em particular, E
-
(X
t
-
) = E
-
(X
1
-
) =
1
n
X
t
n
t=1
, onde a primeira igualdade verificada porque as
observaes bootstrap so identicamente distribudas (logo, os seus momentos no se alteram com t) e a
segunda igualdade verifica-se dado que cada observao em _
n
tem a probabilidade
1
n
de ser escolhida
para a amostra bootstrap. De igual modo, podemos mostrar que
o
-2
Ior
-
(np
-
) = y(u) onJc y(u) =
1
n
(X
t
-X
n
)
2 n
t=1
. (4)
Se compararmos (4) com (2), podemos observar que ambos so muito prximos. A diferena que a
varincia do bootstrap se baseia em y(u), enquanto que a varincia habitual se baseia em y(u), que
utiliza um factor de ajustamento dos graus de liberdade.
Para o caso especial da media amostral, a varincia bootstrap uma expresso fechada conhecida dos
dados originais dada por (4). Logo, no necessitamos de recorrer a mtodos de simulao de Monte Carlo
para a aproximar. No entanto, nem sempre assim. Para estatsticas mais complicadas (por exemplo,
qualquer funo no linear de p ), a forma fechada do estimador da varincia bootstrap no conhecida, e
nestes casos dever ser aproximado atravs de simulaes de Monte Carlo.
Dado (2) e (4), a consistncia do estimador da varincia bootstrap obtm-se sob os pressupostos habituais
que garantem a consistncia da varincia amostral para a varincia da populao. Isto justifica a utilizao
do bootstrap para estimar a varincia de p . No entanto, o bootstrap uma ferramenta muito mais
2. O bootstrap i.i.d. para a mdia amostral de dados i.i.d.
Suponha que {X
t
: t=1,,n} representa uma amostra identicamente e independentemente distribuda
(i.i.d.) de uma populao F, de mdia e varincia y(u). O estimador de a mdia amostral
p
n
= X
n
= n
-1
X
t
n
t=1
= f(A
n
)
onde
n
=(X
1
, ,X
n
). Suponha que o objectivo estimar a varincia de p . Neste contexto i.i.d. simples,
o
2
Ior(np ) = y(u). (1)
Um estimador padro
o
2
Ior
(np ) = y(u) onJc y(u) =

1
n-1
(X
- X
n
)
2 n
=1
, (2)
que corresponde varincia amostral de
n
.
Se F fosse conhecido, poderamos aproximar a varincia de p arbitrariamente bem atravs da
aleatorizao de Monte Carlo. Poderamos gerar muitas amostras aleatrias de F e calcular a varincia
amostral sobre as replicaes de Monte Carlo de p como aproximao da verdadeira varincia da
populao dada por (1). O problema que no se conhece F. O bootstrap simplesmente substitui F por F
`
,
uma estimativa de F, e depois gera amostras aleatrias de F
`
. Em particular, o bootstrap no paramtrico
proposto por Efron (1979) consiste em gerar amostras i.i.d. dos dados originais
n
, o que corresponde a
considerar F
`
Considere
*
n
= (X
*
1
, ,X
*
n
) uma amostra bootstrap i.i.d de
n
. Uma forma conveniente de escrever as
observaes bootstrap X
*
t
= X
t
, onde
t
um valor i.i.d. de uma distribuio uniforme sobre {1, , n}
. Considere P* (E* e Var*) a medida de probabilidade induzida pelo bootstrap (valor esperado bootstrap e
varincia bootstrap), condicional aos dados. Podemos avaliar a estatstica de interesse sobre
*
n
e obter
p
-
= n
-1
X
t
- n
t=1
= f(A
n
-
) que o anlogo bootstrap de p . Obtm-se que
E
-
(p
-
) =
1
n
E
-
(X
t
-
)
n
t=1
=
1
n
(X
t
)
n
t=1
p . (3)
Em particular, E
-
(X
t
-
) = E
-
(X
1
-
) =
1
n
X
t
n
t=1
, onde a primeira igualdade verificada porque as
observaes bootstrap so identicamente distribudas (logo, os seus momentos no se alteram com t) e a
segunda igualdade verifica-se dado que cada observao em _
n
tem a probabilidade
1
n
de ser escolhida
para a amostra bootstrap. De igual modo, podemos mostrar que
o
-2
Ior
-
(np
-
) = y(u) onJc y(u) =
1
n
(X
t
-X
n
)
2 n
t=1
. (4)
Se compararmos (4) com (2), podemos observar que ambos so muito prximos. A diferena que a
varincia do bootstrap se baseia em y(u), enquanto que a varincia habitual se baseia em y(u), que
utiliza um factor de ajustamento dos graus de liberdade.
Para o caso especial da media amostral, a varincia bootstrap uma expresso fechada conhecida dos
dados originais dada por (4). Logo, no necessitamos de recorrer a mtodos de simulao de Monte Carlo
para a aproximar. No entanto, nem sempre assim. Para estatsticas mais complicadas (por exemplo,
qualquer funo no linear de p ), a forma fechada do estimador da varincia bootstrap no conhecida, e
nestes casos dever ser aproximado atravs de simulaes de Monte Carlo.
Dado (2) e (4), a consistncia do estimador da varincia bootstrap obtm-se sob os pressupostos habituais
que garantem a consistncia da varincia amostral para a varincia da populao. Isto justifica a utilizao
do bootstrap para estimar a varincia de p . No entanto, o bootstrap uma ferramenta muito mais
poderosa: permite-nos aproximar toda a distribuio de p . De facto, a teoria das expanses Edgeworth
(e.g. Hall, 1992) sugere que se o objectivo for realizar um teste de hipteses ou construir um intervalo de
confiana para , devemos utilizar o bootstrap para estimar os quantis de uma estatstica devidamente
studentized (cuja distribuio limite livre de parmetros perturbadores) de forma a obter-se um
refinamento assimpttico sobre a distribuio assimpttica padro de primeira ordem. De seguida
discute-se a aplicao do bootstrap para estimar a funo de distribuio de uma estatstica t.
Considere
t
n
.
A distribuio em amostras finitas de t s conhecida se considerarmos pressupostos distribuicionais
fortes. A abordagem padro baseia-se na sua aproximao recorrendo teoria assimpttica de primeira
ordem. Em particular, sob condies mais ligeiras, o teorema do limite central implica que t
d
- N(u,1), o
que justifica a utilizao dos quantis da distribuio N(0,1) para efeitos de inferncia.
Uma alternativa distribuio normal padro utilizar-se o bootstrap para estimar os quantis de t.
Considere t
*
o anlogo bootstrap de t:
t

,
onde p
-
, p e o
-
, so os anlogos bootstrap de p , e o, respectivamente. Em particular, o
-2
dado
pela expresso (2) mas avaliado com dados bootstrap A
n
-
em vez de A
n
. O anlogo bootstrap de p p
dado que a media amostral bootstrap p
-
centrada em p , i.e. E
-
(p
-
) = p , como demonstrado em (3).
Sob condies de regularidade fracas (veja e.g. Bickel e Freedman, 1981) podemos mostrar que o
boostrap assimptoticamente correcto de primeira ordem, i.e.
sup
xeR
|P
-
(t
-
x) -P(t x)|
p
-u, com n - . (5)
Logo, podemos utilizar os quantis empricos da distribuio bootstrap de t
-
para aproximar os quantis da
distribuio de t. Neste contexto i.i.d., podemos fortalecer (5) mostrando que o erro implcito na
aproximao bootstrap converge para zero a uma taxa mais rpida do que o erro implcito na aproximao
normal (veja Hall, 1992, Captulo 3). Isto conhecido na literatura sobre bootstrap como refinamento
assimpttico do bootstrap.
3. A falha do bootstrap em dados dependentes
Suponha agora que {X
t
: t=1,,n} uma amostra de n observaes obtidas de um processo de sries
cronolgicas estritamente estacionrio {X
t
: t e L]. Considere tambm que {X
t
: t e L] fracamente
dependente no sentido em que {X
t
: t u] e {X
t
: t k] se tornam assimptoticamente independentes
com k - . A mdia amostral p continua a ser um estimador consistente de p = E(X
t
) mas a sua
varincia j no dada por (1). De facto, neste caso,
o
2
Ior(np ) = y(u) + 2 [1 -
:
n
y()
n
:=1
, (6)
onde y() = Co:(X
t
X
t+:
), para qualquer = u,1, . Note que y(u) = Ior(X
t
).
35 O u t o n o d e 2 0 0 9
poderosa: permite-nos aproximar toda a distribuio de p . De facto, a teoria das expanses Edgeworth
(e.g. Hall, 1992) sugere que se o objectivo for realizar um teste de hipteses ou construir um intervalo de
confiana para , devemos utilizar o bootstrap para estimar os quantis de uma estatstica devidamente
studentized (cuja distribuio limite livre de parmetros perturbadores) de forma a obter-se um
refinamento assimpttico sobre a distribuio assimpttica padro de primeira ordem. De seguida
discute-se a aplicao do bootstrap para estimar a funo de distribuio de uma estatstica t.
Considere
t
n
.
A distribuio em amostras finitas de t s conhecida se considerarmos pressupostos distribuicionais
fortes. A abordagem padro baseia-se na sua aproximao recorrendo teoria assimpttica de primeira
ordem. Em particular, sob condies mais ligeiras, o teorema do limite central implica que t
d
- N(u,1), o
que justifica a utilizao dos quantis da distribuio N(0,1) para efeitos de inferncia.
Uma alternativa distribuio normal padro utilizar-se o bootstrap para estimar os quantis de t.
Considere t
*
o anlogo bootstrap de t:
t

,
onde p
-
, p e o
-
, so os anlogos bootstrap de p , e o, respectivamente. Em particular, o
-2
dado
pela expresso (2) mas avaliado com dados bootstrap A
n
-
em vez de A
n
. O anlogo bootstrap de p p
dado que a media amostral bootstrap p
-
centrada em p , i.e. E
-
(p
-
) = p , como demonstrado em (3).
Sob condies de regularidade fracas (veja e.g. Bickel e Freedman, 1981) podemos mostrar que o
boostrap assimptoticamente correcto de primeira ordem, i.e.
sup
xeR
|P
-
(t
-
x) -P(t x)|
p
-u, com n - . (5)
Logo, podemos utilizar os quantis empricos da distribuio bootstrap de t
-
para aproximar os quantis da
distribuio de t. Neste contexto i.i.d., podemos fortalecer (5) mostrando que o erro implcito na
aproximao bootstrap converge para zero a uma taxa mais rpida do que o erro implcito na aproximao
normal (veja Hall, 1992, Captulo 3). Isto conhecido na literatura sobre bootstrap como refinamento
assimpttico do bootstrap.
3. A falha do bootstrap em dados dependentes
Suponha agora que {X
t
: t=1,,n} uma amostra de n observaes obtidas de um processo de sries
cronolgicas estritamente estacionrio {X
t
: t e L]. Considere tambm que {X
t
: t e L] fracamente
dependente no sentido em que {X
t
: t u] e {X
t
: t k] se tornam assimptoticamente independentes
com k - . A mdia amostral p continua a ser um estimador consistente de p = E(X
t
) mas a sua
varincia j no dada por (1). De facto, neste caso,
o
2
Ior(np ) = y(u) + 2 [1 -
:
n
y()
n
:=1
, (6)
onde y() = Co:(X
t
X
t+:
), para qualquer = u,1, . Note que y(u) = Ior(X
t
).
A varincia dada em (6) conhecida na literatura economtrica como a varincia de longo prazo. A
presena em (6) das autocovarincias y() complica substancialmente o problema da estimao das
varincias. Tambm origina problemas para o bootstrap i.i.d., como foi observado por Singh (1981).
Considere uma amostra bootstrap A
n
-
= {X
t
-
: t = 1, , n] de A
n
= {X
t
: t = 1, , n] utilizando o
bootstrap i.i.d. de Efron (1979). Condicional sobre A
n
, X
t
-
i.i.d. para qualquer t=1, , n, implicando
que a estrutura de dependncia do conjunto dos dados originais perdida. Em particular, o
-2
, a varincia
bootstrap de np
-
, ainda dada por (4). Dado que o
-2
p
-y(u), esta no considera as autocovarincias
y() em (6). Isto implica que o bootstrap i.i.d. no pode ser utilizado para estimar a varincia nem os
quantis da distribuio de n(p - p). Como iremos ver abaixo, o bootstrap i.i.d. ainda pode ser
utilizado para estimar os quantis da estatstica t studentized.
4. O bootstrap em bloco e aproximaes assimptticas relacionadas
A falha do bootstrap i.i.d. no contexto de series cronolgicas motivou o desenvolvimento de mtodos
bootstrap alternativos para dados dependentes. Nesta seco, analisarei um desses mtodos, o bootstrap de
blocos mveis (MBB) (cf., Gtze e Knsch, 1989 e Liu e Singh, 1992), e discutirei como que ele se
relaciona com mtodos de inferncia alternativos que se baseiam em teoria assimpttica de primeira
ordem.
Estatsticas Studentized baseadas em erros padro HAC
Sob condies de regularidade bem conhecidas (veja e.g. Newey e West, 1987 e Andrews, 1991), um
estimador consistente da varincia de longo-prazo, o
2
, em (6) o estimador da varincia HAC. Este tem
a seguinte forma geral
o
HAC
2
= y(u) +2 k [
:
n
y()
n
:=1
, (7)
onde k(x) uma funo ponderadora tal que k(x) = k(-x), k(u) = 1, |k(x)| 1, k(x) contnuo em
x = 0, e ] k
2
(x)
-
< . Aqui, y() = n
-1
(X
t
-X
n
)(X
t-:
- X
n
)
n
t=:+1
so as autocovarincias
amostrais relativas ao desfasamento de {X
t
}. M o parmetro relativo largura de banda, que pode
funcionar como o desfasamento de truncagem para os ponderadores de modo que k(x) = u para
|x| > 1. O ponderador de Bartlett utilizado no popular estimador HAC proposto por Newey-West (1987)
um exemplo.
Uma estatstica studentized baseada em erros padro HAC dada por
t
HAC

n
HAC
.
Tal como no contexto i.i.d. puro, a distribuio desta estatstica t no conhecida em amostras finitas.
Logo, para efeitos de inferncia temos que a aproximar.
A varincia dada em (6) conhecida na literatura economtrica como a varincia de longo prazo. A
presena em (6) das autocovarincias y() complica substancialmente o problema da estimao das
varincias. Tambm origina problemas para o bootstrap i.i.d., como foi observado por Singh (1981).
Considere uma amostra bootstrap A
n
-
= {X
t
-
: t = 1, , n] de A
n
= {X
t
: t = 1, , n] utilizando o
bootstrap i.i.d. de Efron (1979). Condicional sobre A
n
, X
t
-
i.i.d. para qualquer t=1, , n, implicando
que a estrutura de dependncia do conjunto dos dados originais perdida. Em particular, o
-2
, a varincia
bootstrap de np
-
, ainda dada por (4). Dado que o
-2
p
-y(u), esta no considera as autocovarincias
y() em (6). Isto implica que o bootstrap i.i.d. no pode ser utilizado para estimar a varincia nem os
quantis da distribuio de n(p - p). Como iremos ver abaixo, o bootstrap i.i.d. ainda pode ser
utilizado para estimar os quantis da estatstica t studentized.
4. O bootstrap em bloco e aproximaes assimptticas relacionadas
A falha do bootstrap i.i.d. no contexto de series cronolgicas motivou o desenvolvimento de mtodos
bootstrap alternativos para dados dependentes. Nesta seco, analisarei um desses mtodos, o bootstrap de
blocos mveis (MBB) (cf., Gtze e Knsch, 1989 e Liu e Singh, 1992), e discutirei como que ele se
relaciona com mtodos de inferncia alternativos que se baseiam em teoria assimpttica de primeira
ordem.
Estatsticas Studentized baseadas em erros padro HAC
Sob condies de regularidade bem conhecidas (veja e.g. Newey e West, 1987 e Andrews, 1991), um
estimador consistente da varincia de longo-prazo, o
2
, em (6) o estimador da varincia HAC. Este tem
a seguinte forma geral
o
HAC
2
= y(u) +2 k [
:
n
y()
n
:=1
, (7)
onde k(x) uma funo ponderadora tal que k(x) = k(-x), k(u) = 1, |k(x)| 1, k(x) contnuo em
x = 0, e ] k
2
(x)
-
< . Aqui, y() = n
-1
(X
t
-X
n
)(X
t-:
- X
n
)
n
t=:+1
so as autocovarincias
amostrais relativas ao desfasamento de {X
t
}. M o parmetro relativo largura de banda, que pode
funcionar como o desfasamento de truncagem para os ponderadores de modo que k(x) = u para
|x| > 1. O ponderador de Bartlett utilizado no popular estimador HAC proposto por Newey-West (1987)
um exemplo.
Uma estatstica studentized baseada em erros padro HAC dada por
t
HAC

n
HAC
.
Tal como no contexto i.i.d. puro, a distribuio desta estatstica t no conhecida em amostras finitas.
Logo, para efeitos de inferncia temos que a aproximar.
A aproximao assimpttica da normal padro
Suponha que o
HAC
2
um estimador consistente de o
2
, que requer que H - medida que n - , mas
Hn - u . Sob estas condies, t
HAC
d
-N(u,1) . Dado que a aproximao normal se baseia na
consistncia de o
HAC
2
para o
HAC
2
obtm-se a mesma distribuio limite normal padro
independentemente do ponderador ou do parmetro relativo largura de banda utilizado. Como estas
escolhas tm impacto em amostras finitas, a aproximao normal padro tem um mau desempenho em
amostras finitas.
A aproximao assimpttica com b-fixo
Uma aproximao alternativa para o
HAC
2
foi proposta por Kiefer e Vogelsang (2005). Suponha que a
largura de banda modelada da seguinte forma M = bT, com b uma constante fixa em (0, 1]. Dado que b
mantido fixo, esta abordagem tem sido designada por abordagem assimpttica com b-fixo. Sob a
abordagem assimpttica com b-fixo, o
HAC
2
converge para uma varivel aleatria (e no para uma
constante) que depende do ponderador e da largura de banda. Como consequncia, t
HAC
tem uma
distribuio no convencional. Esta distribuio limite til para inferncia dado que reflecte a escolha da
largura de banda e do ponderador e assimptoticamente pivotal (i.e. independente de parmetros
perturbadores) e os valores crticos podem ser tabulados. Por exemplo, sob condies de regularidade
adequadas, Kiefer e Vogelsang (2005) mostraram que
t
HAC
d
W1
Qb
,
onde W(r) um processo padro de Wiener e Q(b) uma varivel aleatria que depende do ponderador
utilizado.
Dado que a aproximao com b-fixo reflecte a escolha de b e a funo ponderadora (atravs da forma de
Q(b)), esperado que tenha melhor desempenho em amostras finitas do que a aproximao N(0,1). Isto foi
confirmado teoricamente e por simulao.
A aproximao bootstrap em bloco
A ideia subjacente ao bootstrap em bloco a de reamostragem dos blocos de observaes consecutivas em
vez de observaes individuais. Desta forma, preservamos a estrutura de dependncia dos dados originais
em cada bloco e, desde que as observaes sejam fracamente dependentes, a independncia entre blocos
em termos assimptticos de primeira ordem irrelevante. Para descrever o MBB, considere que l denota o
tamanho do bloco e k o nmero de blocos. Suponha para simplificar que k = n/ l. Considere B
t,
=
{X
t
, X
t+1
, , X
t+-1
] o bloco de l observaes consecutivas com incio em t (note que l = 1 corresponde
ao bootstrap i.i.d. de Efron). O MBB procede reamostragem de k blocos aleatoriamente com reposio
do conjunto de n l +1 blocos que se sobrepem |B
1,
, B
2,
, , B
n-+1,
|. Assumindo que I
1
, , I
k
so
variveis aleatrias i.i.d distribudas uniformemente em {1, , n - l - 1} , temos que |X
t
-
= X
:
t
: t =
1, , n] onde
t
define um ndice aleatrio dado por {
t
] = {I
1
, , I
1+-1
, , I
k
, , I
k+-1
].
37 O u t o n o d e 2 0 0 9
A aproximao assimpttica da normal padro
Suponha que o
HAC
2
um estimador consistente de o
2
, que requer que H - medida que n - , mas
Hn - u . Sob estas condies, t
HAC
d
-N(u,1) . Dado que a aproximao normal se baseia na
consistncia de o
HAC
2
para o
HAC
2
obtm-se a mesma distribuio limite normal padro
independentemente do ponderador ou do parmetro relativo largura de banda utilizado. Como estas
escolhas tm impacto em amostras finitas, a aproximao normal padro tem um mau desempenho em
amostras finitas.
A aproximao assimpttica com b-fixo
Uma aproximao alternativa para o
HAC
2
foi proposta por Kiefer e Vogelsang (2005). Suponha que a
largura de banda modelada da seguinte forma M = bT, com b uma constante fixa em (0, 1]. Dado que b
mantido fixo, esta abordagem tem sido designada por abordagem assimpttica com b-fixo. Sob a
abordagem assimpttica com b-fixo, o
HAC
2
converge para uma varivel aleatria (e no para uma
constante) que depende do ponderador e da largura de banda. Como consequncia, t
HAC
tem uma
distribuio no convencional. Esta distribuio limite til para inferncia dado que reflecte a escolha da
largura de banda e do ponderador e assimptoticamente pivotal (i.e. independente de parmetros
perturbadores) e os valores crticos podem ser tabulados. Por exemplo, sob condies de regularidade
adequadas, Kiefer e Vogelsang (2005) mostraram que
t
HAC
d
W1
Qb
,
onde W(r) um processo padro de Wiener e Q(b) uma varivel aleatria que depende do ponderador
utilizado.
Dado que a aproximao com b-fixo reflecte a escolha de b e a funo ponderadora (atravs da forma de
Q(b)), esperado que tenha melhor desempenho em amostras finitas do que a aproximao N(0,1). Isto foi
confirmado teoricamente e por simulao.
A aproximao bootstrap em bloco
A ideia subjacente ao bootstrap em bloco a de reamostragem dos blocos de observaes consecutivas em
vez de observaes individuais. Desta forma, preservamos a estrutura de dependncia dos dados originais
em cada bloco e, desde que as observaes sejam fracamente dependentes, a independncia entre blocos
em termos assimptticos de primeira ordem irrelevante. Para descrever o MBB, considere que l denota o
tamanho do bloco e k o nmero de blocos. Suponha para simplificar que k = n/ l. Considere B
t,
=
{X
t
, X
t+1
, , X
t+-1
] o bloco de l observaes consecutivas com incio em t (note que l = 1 corresponde
ao bootstrap i.i.d. de Efron). O MBB procede reamostragem de k blocos aleatoriamente com reposio
do conjunto de n l +1 blocos que se sobrepem |B
1,
, B
2,
, , B
n-+1,
|. Assumindo que I
1
, , I
k
so
variveis aleatrias i.i.d distribudas uniformemente em {1, , n - l - 1} , temos que |X
t
-
= X
:
t
: t =
1, , n] onde
t
define um ndice aleatrio dado por {
t
] = {I
1
, , I
1+-1
, , I
k
, , I
k+-1
].
Como no caso i.i.d., para o MBB tambm existe uma expresso fechada para o
-2
= Ior
-
(np
-
). No
entanto, e contrariamente a (4) para o bootstrap i.i.d., a expresso para a varincia de MBB contem termos
que dependem da funo de autocovarincias da amostra. De facto, podemos demonstrar que a varincia
MBB assimptoticamente equivalente de um estimador HAC baseado num ponderador de Bartlett.
Logo, a varincia de MBB um estimador consistente da varincia de longo-prazo.
Para obter uma aproximao distribuio de t
HAC
atravs do bootstrap em bloco, temos que construir
uma estatstica bootstrap studentized. Vrias escolhas existem na literatura, dependendo da escolha do
estimador da varincia bootstrap o
-2
.
Um abordagem natural consiste simplesmente em substituir os dados bootstrap pelos dados originais nas
formulas utilizadas para construir a estatstica t original. Em particular, constri-se,
t
-
=
n(
-
-)
c
HAC
-
, (8)
onde o
HAC
-
dado por (7), mas avaliado sobre os dados bootstrap {X
t
-
].
1
Uma comparao das diferentes aproximaes
De seguida ilustramos o desempenho em amostras pequenas das diferentes aproximaes com base em
alguns resultados de Monte Carlo obtidos por Gonalves e Vogelsang (2009). Suponha que X
t
= +
t
,
onde = 0 e
t
=
t-1
+ (1
2
)
1/2
u
t
, com {u
t
}i.i.d.N(0,1),
1
=0 e {0, 0.5, 0.9}. O objectivo testar H
0
:
0 contra H
1
: > 0 a um nvel de significncia de 5% utilizando t
HAC
. So geradas 10000 amostras
aleatrias de tamanho n = 50. Rejeitamos a hiptese nula sempre que t
HAC
> t
c
, onde t
c
o valor crtico
obtido com base em cada um dos trs mtodos discutidos anteriormente. O MBB baseia-se em 999
replicaes bootstrap e consideramos l = 1 e l = 5. A Figura 1 apresenta as verdadeiras taxas de rejeio
para 25 valores de M. Podemos sumariar os resultados da seguinte forma. Em primeiro lugar, a
aproximao com b-fixo domina a aproximao N(0,1). Em segundo lugar, o bootstrap i.i.d. aplicado a t*
segue quase exactamente a aproximao assimpttica com b-fixo. Logo, assimptoticamente vlido
mesmo quando os dados so dependentes. Isto deve-se ao facto da distribuio assimpttica de t
HAC
no
depender da estrutura de dependncia dos dados. Por fim, o MBB com tamanhos de blocos maiores do que
um tm um desempenho superior aproximao assimpttica com b-fixo (e normal) quando a
dependncia forte.

1
Esta abordagem foi designada como ``naive'' por Davison e Hall (1993) e Gtze e Knsch (1996), e os autores avisaram que esta no prometia
refinamento assintoticos em relao aproximao normal padro. Em vez disso, eles sugeriram uma forma especial de recentrar e de
studentization da estatstica t do bootstrap.

Como no caso i.i.d., para o MBB tambm existe uma expresso fechada para o
-2
= Ior
-
(np
-
). No
entanto, e contrariamente a (4) para o bootstrap i.i.d., a expresso para a varincia de MBB contem termos
que dependem da funo de autocovarincias da amostra. De facto, podemos demonstrar que a varincia
MBB assimptoticamente equivalente de um estimador HAC baseado num ponderador de Bartlett.
Logo, a varincia de MBB um estimador consistente da varincia de longo-prazo.
Para obter uma aproximao distribuio de t
HAC
atravs do bootstrap em bloco, temos que construir
uma estatstica bootstrap studentized. Vrias escolhas existem na literatura, dependendo da escolha do
estimador da varincia bootstrap o
-2
.
Um abordagem natural consiste simplesmente em substituir os dados bootstrap pelos dados originais nas
formulas utilizadas para construir a estatstica t original. Em particular, constri-se,
t
-
=
n(
-
-)
c
HAC
-
, (8)
onde o
HAC
-
dado por (7), mas avaliado sobre os dados bootstrap {X
t
-
].
1
Uma comparao das diferentes aproximaes
De seguida ilustramos o desempenho em amostras pequenas das diferentes aproximaes com base em
alguns resultados de Monte Carlo obtidos por Gonalves e Vogelsang (2009). Suponha que X
t
= +
t
,
onde = 0 e
t
=
t-1
+ (1
2
)
1/2
u
t
, com {u
t
}i.i.d.N(0,1),
1
=0 e {0, 0.5, 0.9}. O objectivo testar H
0
:
0 contra H
1
: > 0 a um nvel de significncia de 5% utilizando t
HAC
. So geradas 10000 amostras
aleatrias de tamanho n = 50. Rejeitamos a hiptese nula sempre que t
HAC
> t
c
, onde t
c
o valor crtico
obtido com base em cada um dos trs mtodos discutidos anteriormente. O MBB baseia-se em 999
replicaes bootstrap e consideramos l = 1 e l = 5. A Figura 1 apresenta as verdadeiras taxas de rejeio
para 25 valores de M. Podemos sumariar os resultados da seguinte forma. Em primeiro lugar, a
aproximao com b-fixo domina a aproximao N(0,1). Em segundo lugar, o bootstrap i.i.d. aplicado a t*
segue quase exactamente a aproximao assimpttica com b-fixo. Logo, assimptoticamente vlido
mesmo quando os dados so dependentes. Isto deve-se ao facto da distribuio assimpttica de t
HAC
no
depender da estrutura de dependncia dos dados. Por fim, o MBB com tamanhos de blocos maiores do que
um tm um desempenho superior aproximao assimpttica com b-fixo (e normal) quando a
dependncia forte.

1
Esta abordagem foi designada como ``naive'' por Davison e Hall (1993) e Gtze e Knsch (1996), e os autores avisaram que esta no prometia
refinamento assintoticos em relao aproximao normal padro. Em vez disso, eles sugeriram uma forma especial de recentrar e de
studentization da estatstica t do bootstrap.

5. Concluso
Neste artigo foram revistas trs aproximaes diferentes da distribuio em amostras finitas dum teste t
robusto baseado em estimadores HAC: a aproximao N(0,1), a recentemente desenvolvida aproximao
assimpttica com b-fixo e o naive block bootstrap, conforme analisado em Gonalves e Vogelsang
(2009). Um dos maiores desafios na aplicao destes mtodos a escolha da largura de banda/tamanho
dos blocos, que para efeitos de brevidade no foram considerados neste artigo.
6. Referncias
Andrews, D.W.K., 1991. Heteroskedasticity and autocorrelation consistent covariance matrix estimation,
Bickel, P. e D. Freedman, 1981. Some asymptotic theory for the bootstrap, Annals of Statistics, 9,
1196-1217.
Davison, A.C. e P. Hall, 1993. On studentizing and blocking methods for implementing the bootstrap with
dependent data, Australian Journal of Statistics, 35, 215-224.
Efron, B., 1979. Bootstrap methods: another look at the jackknife, Annals of Statistics, 7, 1-26.
Gonalves, S., e T. Vogelsang, 2009. Block bootstrap HAC robust tests: the sophistication of the naive
bootstrap, mimeo, Universit de Montral.
Gtze, F., e H.R. Knsch, 1996. Second-order correctness of the blockwise bootstrap for stationary
observations, Annals of Statistics, 24, 1914-1933.
Hall, P., 1992. The bootstrap and Edgeworth expansion. Springer, New York.
Kiefer, N.M. e T. J. Vogelsang, 2005. A new asymptotic theory for heteroskedasticity-autocorrelation
robust tests. Econometric Theory, 21, 1130-1164.
Knsch, H.R., 1989. The jackknife and the bootstrap for general stationary observations, Annals of
Statistics, 17, 1217-1241.
Liu, R.Y., e K. Singh, 1992. Moving blocks jackknife and bootstrap capture weak dependence, in
Exploring the Limits of the Bootstrap, ed. by R. LePage and L. Billiard. New York: Wiley.
Newey, W. e K.D. West, 1987. A simple positive semi-definite, heteroskedastic and autocorrelation
consistent covariance matrix, Econometrica, 55, 703-708.
Singh, K., 1981. On the asymptotic accuracy of Efron's bootstrap. Annals of Statistics, 9, 1187-1195.
39 O u t o n o d e 2 0 0 9
O Mtodo Generalizado dos Momentos
Joaquim J. S. Ramalho, jsr@uevora.pt
Departamento de Economia e CEFAGE-UE
Universidade de vora
O Mtodo Generalizado dos Momentos

Joaquim J. S. Ramalho, jsr@uevora.pt

Departamento de Economia e CEFAGE-UE
Universidade de vora

1. Introduo

Durante muitos anos, foi prtica corrente em Econometria a utilizao quase exclusiva de modelos e
mtodos de estimao que requerem fortes pressupostos distribucionais. A veracidade desses
pressupostos era raramente colocada em causa, justificando-se a sua adopo pelas propriedades
ptimas que os estimadores assim obtidos potencialmente poderiam ter. Esta prtica foi sendo
abandonada a pouco e pouco, sendo hoje comum quer a aplicao de testes que permitem avaliar a
adequabilidade dos pressupostos assumidos quer a utilizao de mtodos de estimao menos
exigentes em termos de pressupostos.

Um dos mtodos de estimao que actualmente bastante popular em Econometria o Mtodo
Generalizado dos Momentos (abreviado, de ora em diante, por GMM, nome pelo qual conhecido na
literatura em lngua inglesa). Para poder ser aplicado, este mtodo requer simplesmente a especificao
de um certo nmero de condies de momentos, as quais so funo das variveis e dos parmetros de
interesse do modelo. Embora Karl Pearson tenha sido o primeiro investigador a reconhecer a
possibilidade de utilizar condies de momentos como base para a estimao de parmetros h mais de
cem anos atrs, foi apenas aps a publicao do artigo pioneiro de Hansen (1982) sobre o GMM que
essa forma de estimao alternativa se popularizou de um modo extraordinrio na literatura
economtrica.

Na base deste desenvolvimento, para alm da bvia vantagem a nvel dos pressupostos que
necessrio assumir, esto dois factos principais. Por um lado, o GMM inclui vrios estimadores
igualmente populares como casos particulares (mnimos quadrados, variveis instrumentais, mxima
verosimilhana, etc.), o que permite estud-los de uma forma integrada. Por outro lado, devido sua
flexibilidade e generalidade, o GMM pode ser facilmente aplicado estimao de modelos no
lineares que de outra forma exigiriam pressupostos adicionais e, mesmo assim, seriam muito
complicados de estimar.

Neste artigo, descreve-se de forma sumria em que consiste o GMM e quais as suas principais
aplicaes, limitaes e alternativas. Para uma descrio mais pormenorizada, deve-se consultar, por
exemplo, Newey e McFadden (1994), Mtys (1999) e Hall (2005).

2. Do Mtodo dos Momentos ao Mtodo Generalizado dos Momentos

Em Estatstica, o termo momento habitualmente usado para designar o valor esperado de uma
determinada potncia de uma varivel aleatria. Por exemplo, o momento de ordem r da varivel
aleatria discreta y com funo de probabilidade f(y) definida no espao amostral S calculado como:

( ) ( )
r r
r
S
E y f y y = =
.

Na ausncia de conhecimento sobre f(y), o Mtodo dos Momentos (MM) sugerido por Pearson permite
estimar
r
atravs da resoluo da condio de momentos amostral:

1
0
r
r
i
y
N
=
,

a qual representa a contrapartida na amostra de
( )
0
r
r
E y = .

A aplicao do MM pode ter por base mais do que uma condio de momentos amostral mas
necessrio que o nmero de parmetros a estimar seja igual ao nmero de condies de momentos. Por
vezes, o nmero de condies de momentos que possvel e faz sentido ter em conta pode ser superior
ao nmero de parmetros do modelo, o que implica a necessidade de seleccionar previamente quais as
condies que devem ser usadas na estimao e, por consequncia, quais as que devem ser excludas.
A impossibilidade de usar toda a informao disponvel sobre o modelo de interesse uma grande
desvantagem do MM, a qual evitada pelo GMM da forma que se descreve de seguida.

Vamos supor possvel definir s condies de momentos,

( ) , 0 E g z =

, (1)

onde g(z,) representa uma determinada funo das variveis z e dos k parmetros do modelo de
interesse, com s k. Um estimador para E[g(z,)] naturalmente dado por

( ) ( )
1
1

, ,
N
n i
i
g z g z
N

=
=
,

onde
representa um estimador consistente de . A questo que se coloca como obter
usando a
informao contida em (1).

A ideia subjacente ao GMM muito simples. O vector de parmetros de interesse estimado tendo por
objectivo obter para
( )
,
n
g z um valor to prximo de zero quanto possvel de modo a reflectir aquilo
que acontece na populao. Se o nmero de condies de momentos e de parmetros for idntico (s =
k), ento o GMM corresponde a uma aplicao trivial do MM, sendo
obtido atravs da resoluo do

sistema
( )
, 0
n
g z = . O mesmo procedimento no pode ser aplicado quando o modelo est sobre-
identificado (s > k) pois em geral no existe nenhum valor de
que permita obter aquela igualdade.

Neste caso, o nmero de equaes tem de alguma forma de ser reduzido para k, tendo Hansen (1982)
proposto usar k combinaes lineares das s condies de momentos iniciais.

Em qualquer dos casos, o estimador GMM para corresponde, por definio, ao valor de
que
minimiza a seguinte funo quadrtica das condies de momentos amostrais:

( ) ( )
1 1
1 1

, ' ,
N N
i n i
i i
g z W g z
N N

= =

, (2)

onde W
n
uma matriz simtrica s s de ponderadores que pode depender das observaes e converge
para a matriz positiva definida W. Daqui resulta que as k condies de primeira ordem que
caracterizam o estimador GMM so dadas por

( )
( )
1 1
, '
1 1
, 0
N N
i
n i
i i
g z
W g z
N N
= =

=

,

as quais implicitamente definem as combinaes lineares propostas por Hansen (1982).

Tal como demonstrado por Hansen (1982), qualquer que seja a escolha efectuada para a matriz W, o
estimador GMM consistente e assimptoticamente normal. Pelo contrrio, diferentes escolhas para W
conduzem a estimadores GMM com diferentes nveis de eficincia. Hansen (1982) demonstrou que o
nvel mximo de eficincia atingido quando W corresponde ao inverso da matriz de covarincias das
condies de momentos, definida por ( ) ( ) , , ' V E g z g z

.

A matriz ptima de ponderadores, V
-1
, depende de , o que significa que, em termos prticos,
necessrio dispor de uma estimativa inicial desse parmetro. Desde que essa estimativa seja
consistente, as propriedades assimptticas do GMM no so afectadas (Hansen, 1982). Normalmente,
essa estimativa preliminar de obtida aplicando numa primeira fase o GMM usando como
ponderadora a matriz identidade. O estimador GMM eficiente pode assim ser interpretado como um
estimador GMM a dois passos. Para estimadores GMM alternativos, pode-se consultar Hansen, Heaton
and Yaron (1996).

Como referido anteriormente, o GMM inclui como casos particulares muitos estimadores amplamente
conhecidos. No mbito do GMM, esses estimadores diferem entre eles apenas pelas diferentes funes
g(z,) que os caracterizam. Por exemplo, o estimador dos mnimos quadrados obtido quando se
assume que E(Xu) = 0, onde X representa a matriz de regressores e u o termo erro da regresso.
Similarmente, E(Tu) = 0, onde T representa uma matriz de instrumentos, produz o estimador das
variveis instrumentais (pressupondo que se assume a existncia de homocedasticidade), enquanto que
quando g(.) representa a funo score se obtm o estimador da mxima verosimilhana.

3. Testes de especificao

No mbito do GMM, o teste de especificao mais conhecido o chamado teste de sobre-
identificao, ou teste J, proposto por Hansen (1982). A ideia por trs deste teste tambm muito
simples e intuitiva, baseando-se no facto de se utilizarem s condies de momentos quando apenas k
seriam necessrias para estimar os parmetros de interesse, isto , existem s k condies de sobre-
identificao. O modo mais evidente de testar a especificao de um modelo definido por (1) consiste
em verificar se o valor de todas as condies de momentos amostrais aproximadamente zero ou no,
j que o GMM apenas impe que k combinaes lineares delas o sejam. Assim, a estatstica J dado
simplesmente pelo produto de N pelo valor da funo objectivo (2), tendo uma distribuio
assimpttica de qui-quadrado com s k graus de liberdade.

41 O u t o n o d e 2 0 0 9

( ) ( )
1 1
1 1

, ' ,
N N
i n i
i i
g z W g z
N N

= =

, (2)

onde W
n
uma matriz simtrica s s de ponderadores que pode depender das observaes e converge
para a matriz positiva definida W. Daqui resulta que as k condies de primeira ordem que
caracterizam o estimador GMM so dadas por

( )
( )
1 1
, '
1 1
, 0
N N
i
n i
i i
g z
W g z
N N
= =

=

,

as quais implicitamente definem as combinaes lineares propostas por Hansen (1982).

Tal como demonstrado por Hansen (1982), qualquer que seja a escolha efectuada para a matriz W, o
estimador GMM consistente e assimptoticamente normal. Pelo contrrio, diferentes escolhas para W
conduzem a estimadores GMM com diferentes nveis de eficincia. Hansen (1982) demonstrou que o
nvel mximo de eficincia atingido quando W corresponde ao inverso da matriz de covarincias das
condies de momentos, definida por ( ) ( ) , , ' V E g z g z

.

A matriz ptima de ponderadores, V
-1
, depende de , o que significa que, em termos prticos,
necessrio dispor de uma estimativa inicial desse parmetro. Desde que essa estimativa seja
consistente, as propriedades assimptticas do GMM no so afectadas (Hansen, 1982). Normalmente,
essa estimativa preliminar de obtida aplicando numa primeira fase o GMM usando como
ponderadora a matriz identidade. O estimador GMM eficiente pode assim ser interpretado como um
estimador GMM a dois passos. Para estimadores GMM alternativos, pode-se consultar Hansen, Heaton
and Yaron (1996).

Como referido anteriormente, o GMM inclui como casos particulares muitos estimadores amplamente
conhecidos. No mbito do GMM, esses estimadores diferem entre eles apenas pelas diferentes funes
g(z,) que os caracterizam. Por exemplo, o estimador dos mnimos quadrados obtido quando se
assume que E(Xu) = 0, onde X representa a matriz de regressores e u o termo erro da regresso.
Similarmente, E(Tu) = 0, onde T representa uma matriz de instrumentos, produz o estimador das
variveis instrumentais (pressupondo que se assume a existncia de homocedasticidade), enquanto que
quando g(.) representa a funo score se obtm o estimador da mxima verosimilhana.

3. Testes de especificao

No mbito do GMM, o teste de especificao mais conhecido o chamado teste de sobre-
identificao, ou teste J, proposto por Hansen (1982). A ideia por trs deste teste tambm muito
simples e intuitiva, baseando-se no facto de se utilizarem s condies de momentos quando apenas k
seriam necessrias para estimar os parmetros de interesse, isto , existem s k condies de sobre-
identificao. O modo mais evidente de testar a especificao de um modelo definido por (1) consiste
em verificar se o valor de todas as condies de momentos amostrais aproximadamente zero ou no,
j que o GMM apenas impe que k combinaes lineares delas o sejam. Assim, a estatstica J dado
simplesmente pelo produto de N pelo valor da funo objectivo (2), tendo uma distribuio
assimpttica de qui-quadrado com s k graus de liberdade.

A avaliao de restries paramtricas no contexto do GMM pode ser feita de modo similar ao que
acontece com outros estimadores. Para este fim, Newey e West (1987) derivaram testes Wald, score e
do tipo LR, enquanto Newey e McFadden (1994) desenvolveram testes de Hausman. Testes para a
validade de sub-conjuntos de condies de momentos foram propostos por Newey (1985) e
Eichenbaum, Hansen e Singleton (1988). Finalmente, testes para hipteses no encaixadas foram
desenvolvidos por Singleton (1985) e Smith (1992).

4. Aplicaes

O GMM comeou por ganhar maior notoriedade na rea das sries temporais mas tem sido tambm
bastante utilizado em aplicaes com dados seccionais ou de painel. Para exemplos de aplicaes
possveis do GMM, consultar Ogaki (1993) e Hall (2005).

Com dados seccionais, o GMM tem sido usado essencialmente como uma alternativa ao mtodo dos
mnimos quadrados a dois passos quando se suspeita da existncia de heterocedasticidade em modelos
de regresso linear. Outras aplicaes incluem certos modelos de regresso exponencial com variveis
explicativas endgenas (Mullahy, 1997), modelos para amostras sujeitas a estratificao endgena
(Imbens, 1992) e modelos microeconomtricos corrigidos para a no resposta (Ramalho e Smith,
2009).

Com dados de natureza temporal, uma das grandes vantagens do GMM a de permitir lidar com
problemas de autocorrelao de modo relativamente simples, atravs da utilizao de uma matriz
ponderadora que reflicta essa situao. Outra vantagem a possibilidade de se trabalhar apenas com as
condies de momentos que so efectivamente implicadas pela teoria econmica, sem necessidade de
adicionar pressupostos distribucionais, como se fazia anteriormente em modelos no lineares de
expectativas racionais (Hansen e Singleton, 1982). Exemplos de aplicaes do GMM no contexto
temporal incluem modelos de ciclos de negcios, modelos de volatilidade estocstica e modelos de
avaliao de activos.

Algumas das mais recentes e interessantes aplicaes do GMM ocorreram na estimao de modelos
para dados de painel, nomeadamente em casos em que existe heterogeneidade no observada. Sob o
pressuposto de que as variveis explicativas no esto correlacionadas com o termo erro em nenhum
perodo de tempo (excluindo o chamado efeito fixo), possvel construir uma multiplicidade de
estimadores GMM atravs da adio de condies de ortogonalidade representando essa ausncia de
relao, os quais so naturalmente mais eficientes que o estimador de efeitos fixos tradicional. Quando
o modelo contm ainda a varivel dependente desfasada entre os regressores, ento o GMM j o
mtodo de eleio para obter estimadores consistentes para os parmetros de interesse; ver, por
exemplo, Arellano e Bond (1991) e Blundell e Bond (1998).

5. Limitaes e mtodos alternativos

Apesar da sua corrente popularidade, o GMM possui algumas caractersticas indesejadas. Acima de
tudo, a distribuio assimpttica dos estimadores GMM parece constituir uma aproximao de fraca
qualidade sua distribuio em amostras finitas. De facto, existe uma grande variedade de estudos de
simulao de Monte Carlo que mostram claramente que os estimadores GMM para os parmetros de
interesse so por norma claramente enviesados em pequenas amostras, enquanto que a dimenso
estimada dos testes de especificao associados a esses estimadores frequentemente
substancialmente diferente da esperada de acordo com a teoria assimpttica.

A avaliao de restries paramtricas no contexto do GMM pode ser feita de modo similar ao que
acontece com outros estimadores. Para este fim, Newey e West (1987) derivaram testes Wald, score e
do tipo LR, enquanto Newey e McFadden (1994) desenvolveram testes de Hausman. Testes para a
validade de sub-conjuntos de condies de momentos foram propostos por Newey (1985) e
Eichenbaum, Hansen e Singleton (1988). Finalmente, testes para hipteses no encaixadas foram
desenvolvidos por Singleton (1985) e Smith (1992).

4. Aplicaes

O GMM comeou por ganhar maior notoriedade na rea das sries temporais mas tem sido tambm
bastante utilizado em aplicaes com dados seccionais ou de painel. Para exemplos de aplicaes
possveis do GMM, consultar Ogaki (1993) e Hall (2005).

Com dados seccionais, o GMM tem sido usado essencialmente como uma alternativa ao mtodo dos
mnimos quadrados a dois passos quando se suspeita da existncia de heterocedasticidade em modelos
de regresso linear. Outras aplicaes incluem certos modelos de regresso exponencial com variveis
explicativas endgenas (Mullahy, 1997), modelos para amostras sujeitas a estratificao endgena
(Imbens, 1992) e modelos microeconomtricos corrigidos para a no resposta (Ramalho e Smith,
2009).

Com dados de natureza temporal, uma das grandes vantagens do GMM a de permitir lidar com
problemas de autocorrelao de modo relativamente simples, atravs da utilizao de uma matriz
ponderadora que reflicta essa situao. Outra vantagem a possibilidade de se trabalhar apenas com as
condies de momentos que so efectivamente implicadas pela teoria econmica, sem necessidade de
adicionar pressupostos distribucionais, como se fazia anteriormente em modelos no lineares de
expectativas racionais (Hansen e Singleton, 1982). Exemplos de aplicaes do GMM no contexto
temporal incluem modelos de ciclos de negcios, modelos de volatilidade estocstica e modelos de
avaliao de activos.

Algumas das mais recentes e interessantes aplicaes do GMM ocorreram na estimao de modelos
para dados de painel, nomeadamente em casos em que existe heterogeneidade no observada. Sob o
pressuposto de que as variveis explicativas no esto correlacionadas com o termo erro em nenhum
perodo de tempo (excluindo o chamado efeito fixo), possvel construir uma multiplicidade de
estimadores GMM atravs da adio de condies de ortogonalidade representando essa ausncia de
relao, os quais so naturalmente mais eficientes que o estimador de efeitos fixos tradicional. Quando
o modelo contm ainda a varivel dependente desfasada entre os regressores, ento o GMM j o
mtodo de eleio para obter estimadores consistentes para os parmetros de interesse; ver, por
exemplo, Arellano e Bond (1991) e Blundell e Bond (1998).

5. Limitaes e mtodos alternativos

Apesar da sua corrente popularidade, o GMM possui algumas caractersticas indesejadas. Acima de
tudo, a distribuio assimpttica dos estimadores GMM parece constituir uma aproximao de fraca
qualidade sua distribuio em amostras finitas. De facto, existe uma grande variedade de estudos de
simulao de Monte Carlo que mostram claramente que os estimadores GMM para os parmetros de
interesse so por norma claramente enviesados em pequenas amostras, enquanto que a dimenso
estimada dos testes de especificao associados a esses estimadores frequentemente
substancialmente diferente da esperada de acordo com a teoria assimpttica.

O nvel de preocupao acerca das propriedades dos estimadores GMM em amostras finitas tem sido
tal que em 1996 uma edio da prestigiada revista Journal of Business Economics & Statistics foi
integralmente dedicada a esta questo. Entre outros aspectos, Andersen e Sorensen (1996)
confirmaram que o comportamento do GMM em modelos de volatilidade estocstica decai
substancialmente medida que o nmero de instrumentos (isto , condies de momentos) aumenta e
Altonji e Segal (1996) concluram que o estimador GMM eficiente a dois passos pode sofrer de nveis
de enviesamento muito superiores ao do estimador GMM no eficiente baseado na matriz de
identidade.

Naturalmente, dado o comportamento inadequado do GMM em amostras de reduzida dimenso, tm
vindo a ser sugeridos mtodos de estimao alternativos para lidar com modelos definidos por
condies de momentos. Na mesma edio do Journal of Business Economics & Statistics, Hansen,
Yeaton and Yaron (1996) propuseram o continuous-updating GMM, que difere do GMM a dois passos
pelo facto da matriz ponderadora V
-1
, que depende dos parmetros de interesse , no ser estimada
num primeiro passo mas sim em simultneo com . Estes autores demonstraram que os dois
estimadores so assimptoticamente equivalentes e que em pequenas amostras o novo estimador
aproximadamente centrado em termos medianos. Contudo, a sua computao muito mais complicada
e tende a exibir nveis de disperso muito mais elevados, pelo que a utilizao do continuous-updating
GMM em aplicaes economtricas tem sido praticamente nula.

Existe ainda uma classe de estimadores alternativos ao GMM que tem sido largamente estudada a
nvel terico mas, dada a sua difcil computao, raramente tem sido usada a nvel prtico. Essa classe,
chamada de verosimilhana emprica generalizada (GEL) por Newey e Smith (2004), tem trs
caractersticas muito atractivas: (i) ao contrrio do GMM, no necessrio definir nenhuma matriz de
ponderadores; (ii) tambm em oposio ao GMM, uma verso ponderada de todas as condies de
momentos so satisfeitas na amostra, em vez de apenas uma combinao linear delas; e (iii) embora
equivalente ao GMM em termos de teoria assimpttica de primeira ordem, as propriedades
assimptticas de ordem superior do GEL parecem ser muito mais apelativas.

Na literatura estatstica, o mtodo da verosimilhana emprica foi introduzido por Owen (1988). A sua
introduo na literatura economtrica e aplicao a modelos de condies de momentos foi feita por
Qin and Lawless (1994) e Imbens (1997). Outros mtodos semelhantes, que tambm pertencem
classe GEL, nomeadamente o mtodo de exponential tilting, foram posteriormente desenvolvidos por
Kitamura e Stutzer (1997) e Imbens, Spady and Johnson (1998).

Todos os estimadores GEL partilham uma caracterstica comum: utilizam um estimador da funo de
densidade dos dados que mais eficiente do que o usado pelo GMM pois, ao contrrio deste, na sua
construo tambm explorada a informao contida nas condies de momentos. Assim, enquanto
que o GMM se baseia na funo de densidade emprica, que atribui o mesmo peso a cada observao,
a funo de densidade GEL atribui um peso diferente a cada observao, sendo esse peso estimado
(em simultneo com os parmetros de interesse) de forma a impor na amostra todas as condies de
momentos. Para detalhes sobre os estimadores GEL, consultar os artigos citados.

Finalmente, outras alternativas ao GMM incluem o Mtodo Simulado dos Momentos e o Mtodo
Eficiente dos Momentos. Dada a sua complexidade, tambm estes mtodos tm sido pouco utilizados
em trabalho aplicado. Para surveys sobre estes mtodos, consultar Carrasco e Florens (2002) e
Gourieroux e Monfort (1996). A possibilidade de usar tcnicas de bootstrap na correco do
enviesamento do GMM em pequenas amostras tem tambm sido alvo de alguns estudos. Hall e
Horowitz (1996), Brown e Newey (2002) e Ramalho (2006) propuseram mtodos bootstrap
alternativos que, de acordo com a evidncia obtida at ao momento atravs de estudos de Monte Carlo,
43 O u t o n o d e 2 0 0 9
O nvel de preocupao acerca das propriedades dos estimadores GMM em amostras finitas tem sido
tal que em 1996 uma edio da prestigiada revista Journal of Business Economics & Statistics foi
integralmente dedicada a esta questo. Entre outros aspectos, Andersen e Sorensen (1996)
confirmaram que o comportamento do GMM em modelos de volatilidade estocstica decai
substancialmente medida que o nmero de instrumentos (isto , condies de momentos) aumenta e
Altonji e Segal (1996) concluram que o estimador GMM eficiente a dois passos pode sofrer de nveis
de enviesamento muito superiores ao do estimador GMM no eficiente baseado na matriz de
identidade.

Naturalmente, dado o comportamento inadequado do GMM em amostras de reduzida dimenso, tm
vindo a ser sugeridos mtodos de estimao alternativos para lidar com modelos definidos por
condies de momentos. Na mesma edio do Journal of Business Economics & Statistics, Hansen,
Yeaton and Yaron (1996) propuseram o continuous-updating GMM, que difere do GMM a dois passos
pelo facto da matriz ponderadora V
-1
, que depende dos parmetros de interesse , no ser estimada
num primeiro passo mas sim em simultneo com . Estes autores demonstraram que os dois
estimadores so assimptoticamente equivalentes e que em pequenas amostras o novo estimador
aproximadamente centrado em termos medianos. Contudo, a sua computao muito mais complicada
e tende a exibir nveis de disperso muito mais elevados, pelo que a utilizao do continuous-updating
GMM em aplicaes economtricas tem sido praticamente nula.

Existe ainda uma classe de estimadores alternativos ao GMM que tem sido largamente estudada a
nvel terico mas, dada a sua difcil computao, raramente tem sido usada a nvel prtico. Essa classe,
chamada de verosimilhana emprica generalizada (GEL) por Newey e Smith (2004), tem trs
caractersticas muito atractivas: (i) ao contrrio do GMM, no necessrio definir nenhuma matriz de
ponderadores; (ii) tambm em oposio ao GMM, uma verso ponderada de todas as condies de
momentos so satisfeitas na amostra, em vez de apenas uma combinao linear delas; e (iii) embora
equivalente ao GMM em termos de teoria assimpttica de primeira ordem, as propriedades
assimptticas de ordem superior do GEL parecem ser muito mais apelativas.

Na literatura estatstica, o mtodo da verosimilhana emprica foi introduzido por Owen (1988). A sua
introduo na literatura economtrica e aplicao a modelos de condies de momentos foi feita por
Qin and Lawless (1994) e Imbens (1997). Outros mtodos semelhantes, que tambm pertencem
classe GEL, nomeadamente o mtodo de exponential tilting, foram posteriormente desenvolvidos por
Kitamura e Stutzer (1997) e Imbens, Spady and Johnson (1998).

Todos os estimadores GEL partilham uma caracterstica comum: utilizam um estimador da funo de
densidade dos dados que mais eficiente do que o usado pelo GMM pois, ao contrrio deste, na sua
construo tambm explorada a informao contida nas condies de momentos. Assim, enquanto
que o GMM se baseia na funo de densidade emprica, que atribui o mesmo peso a cada observao,
a funo de densidade GEL atribui um peso diferente a cada observao, sendo esse peso estimado
(em simultneo com os parmetros de interesse) de forma a impor na amostra todas as condies de
momentos. Para detalhes sobre os estimadores GEL, consultar os artigos citados.

Finalmente, outras alternativas ao GMM incluem o Mtodo Simulado dos Momentos e o Mtodo
Eficiente dos Momentos. Dada a sua complexidade, tambm estes mtodos tm sido pouco utilizados
em trabalho aplicado. Para surveys sobre estes mtodos, consultar Carrasco e Florens (2002) e
Gourieroux e Monfort (1996). A possibilidade de usar tcnicas de bootstrap na correco do
enviesamento do GMM em pequenas amostras tem tambm sido alvo de alguns estudos. Hall e
Horowitz (1996), Brown e Newey (2002) e Ramalho (2006) propuseram mtodos bootstrap
alternativos que, de acordo com a evidncia obtida at ao momento atravs de estudos de Monte Carlo,
parecem funcionar razoavelmente bem na atenuao das distores geralmente apresentadas pelo
GMM em pequenas amostras.

6. Concluso

O GMM tem por finalidade obter estimadores para os parmetros de modelos que so apenas definidos
por condies de momentos. A maior parte dos modelos economtricos pode ser expressa desta forma,
o que reala o importante papel que o GMM desempenha na Econometria. A sua aplicao torna-se
mesmo essencial em certos modelos, como modelos no lineares de expectativas racionais e modelos
dinmicos para dados de painel com efeitos fixos. Pese embora o risco que representa a sua utilizao
em amostras de pequena dimenso, estamos convencidos que o GMM continuar a ser o mtodo mais
usado em trabalho aplicado na estimao de modelos definidos por condies de momentos, dada a
complexidade das alternativas existentes e a possibilidade de aplicar correces usando o bootstrap ou
mtodos similares.

Bibliografia

Altonji, J.G. and Segal, L.M. (1996), "Small-sample bias in GMM estimation of covariance
structures", Journal of Business & Economic Statistics, 14(3), 353-365.

Andersen, T.G. and Sorensen, B.E. (1996), "GMM estimation of a stochastic volatility model: a Monte
Carlo study", Journal of Business & Economic Statistics, 14(3), 328-352.

Arellano, M. and Bond, S. (1991), Some tests of specification for panel data: Monte Carlo evidence
and an application to employment equations, Review of Economic Studies, 58, 277-297.

Blundell R. and Bond, S. (1998), Initial conditions and moment restrictions in dynamic panel data
models, Journal of Econometrics, 87, 115-143.

Brown, B.W. and Newey, W.K. (2002), Generalised method of moments, efficient bootstrapping, and
improved inference, Journal of Business and Economic Statistics, 20, 507-517.

Carrasco, M. and Florens, J.P. (2000), Generalization of GMM to a continuum of moment
conditions, Econometric Theory, 16, 797-834.

Eichenbaum, M.S., Hansen, L.P. and Singleton, K.J. (1988), "A time series analysis of representative
agent models of consumption and leisure choice under uncertainty", Quarterly Journal of Economics,
103, 51-78.

Gourieroux, C. and Monfort, A. (1996), Simulation-Based Econometric Methods, Oxford University
Press.

Hall, A. (2005), Generalized Method of Moments, Oxford University Press.

Hall, P. and Horowitz, J.L. (1996), "Bootstrap critical values for tests based on generalised-method-of-
moments estimators", Econometrica, 64(4), 891-916.

Hansen, L.P. (1982), "Large sample properties of generalised method of moments estimators",
Econometrica, 50(4), 1029-1054.

parecem funcionar razoavelmente bem na atenuao das distores geralmente apresentadas pelo
GMM em pequenas amostras.

6. Concluso

O GMM tem por finalidade obter estimadores para os parmetros de modelos que so apenas definidos
por condies de momentos. A maior parte dos modelos economtricos pode ser expressa desta forma,
o que reala o importante papel que o GMM desempenha na Econometria. A sua aplicao torna-se
mesmo essencial em certos modelos, como modelos no lineares de expectativas racionais e modelos
dinmicos para dados de painel com efeitos fixos. Pese embora o risco que representa a sua utilizao
em amostras de pequena dimenso, estamos convencidos que o GMM continuar a ser o mtodo mais
usado em trabalho aplicado na estimao de modelos definidos por condies de momentos, dada a
complexidade das alternativas existentes e a possibilidade de aplicar correces usando o bootstrap ou
mtodos similares.

Bibliografia

Altonji, J.G. and Segal, L.M. (1996), "Small-sample bias in GMM estimation of covariance
structures", Journal of Business & Economic Statistics, 14(3), 353-365.

Andersen, T.G. and Sorensen, B.E. (1996), "GMM estimation of a stochastic volatility model: a Monte
Carlo study", Journal of Business & Economic Statistics, 14(3), 328-352.

Arellano, M. and Bond, S. (1991), Some tests of specification for panel data: Monte Carlo evidence
and an application to employment equations, Review of Economic Studies, 58, 277-297.

Blundell R. and Bond, S. (1998), Initial conditions and moment restrictions in dynamic panel data
models, Journal of Econometrics, 87, 115-143.

Brown, B.W. and Newey, W.K. (2002), Generalised method of moments, efficient bootstrapping, and
improved inference, Journal of Business and Economic Statistics, 20, 507-517.

Carrasco, M. and Florens, J.P. (2000), Generalization of GMM to a continuum of moment
conditions, Econometric Theory, 16, 797-834.

Eichenbaum, M.S., Hansen, L.P. and Singleton, K.J. (1988), "A time series analysis of representative
agent models of consumption and leisure choice under uncertainty", Quarterly Journal of Economics,
103, 51-78.

Gourieroux, C. and Monfort, A. (1996), Simulation-Based Econometric Methods, Oxford University
Press.

Hall, A. (2005), Generalized Method of Moments, Oxford University Press.

Hall, P. and Horowitz, J.L. (1996), "Bootstrap critical values for tests based on generalised-method-of-
moments estimators", Econometrica, 64(4), 891-916.

Hansen, L.P. (1982), "Large sample properties of generalised method of moments estimators",
Econometrica, 50(4), 1029-1054.

Hansen, L.P., Heaton, J. and Yaron, A. (1996), "Finite-sample properties of some alternative GMM
estimators", Journal of Business & Economic Statistics, 14(3), 262-280.

Hansen, L.P. and Singleton, K.J. (1982), Generalized instrumental variables estimation of nonlinear
rational expectations models, Econometrica, 50(59, 1269-1286.

Imbens, G.W. (2002), "Generalized method of moments and empirical likelihood", Journal of Business
& Economic Statistics, 20(4), 493-506.

Imbens, G.W. (1997), "One-step estimators for over-identified generalised method of moments
models", Review of Economic Studies, 64, 359-383.

Imbens, G.W., Spady, R.H. and Johnson, P. (1998), "Information theoretic approaches to inference in
moment condition models", Econometrica, 66(2), 333-357.

Kitamura, Y. and Stutzer, M. (1997), "An information-theoretic alternative to generalised method of
moments estimation", Econometrica, 65(4), 861-874.

Mtys, L. (1999), Generalized Method of Moments Estimation, Cambridge University Press.

Mullahy, J. (1997), "Instrumental-variable estimation of count data models: applications to models of
cigarette smoking behavior", Review of Economics and Statistics, 79(4), 586-593.

Newey, W.K. (1985b), "Maximum likelihood specification testing and conditional moment tests",
Econometrica, 53(5), 1047-1070.

Newey, W.K. and McFadden, D. (1994), "Large sample estimation and hypothesis testing", in Engle,
R. F. and McFadden, D. L. (eds.), Handbook of Econometrics, Vol. 4, Elsevier Science Publishers, pp.
2111-2245

Newey, W.K. and Smith, R.J. (2004), "Higher order properties of GMM and generalized empirical
likelihood estimators", Econometrica, 72(1), 219-255.

Newey, W.K. and West, K.D. (1987), "Hypothesis testing with efficient method of moments
estimation", International Economic Review, 28, 777-787.

Ogaki, M. (1993), "Generalized method of moments: econometric applications", in Maddala, G. S.,
Rao, C. R. and Vinod, H. D. (eds.), Handbook of Statistics, Vol. 11, Elsevier Science Publishers, pp.
455-488.

Owen, A.B. (1988), "Empirical likelihood ratio confidence intervals for a single functional",
Biometrika, 75(2), 237-249.

Qin, J. and Lawless, J. (1994), "Empirical likelihood and general estimating equations", Annals of
Statistics, 22(1), 300-325.

Ramalho, J.J.S. (2006), "Bootstrap bias-adjusted GMM estimators", Economics Letters, 92(1), 149-
155.

Ramalho, E.A. and Smith, R.J. (2009), "Discrete choice nonresponse, mimeo.
45 O u t o n o d e 2 0 0 9
Hansen, L.P., Heaton, J. and Yaron, A. (1996), "Finite-sample properties of some alternative GMM
estimators", Journal of Business & Economic Statistics, 14(3), 262-280.

Hansen, L.P. and Singleton, K.J. (1982), Generalized instrumental variables estimation of nonlinear
rational expectations models, Econometrica, 50(59, 1269-1286.

Imbens, G.W. (2002), "Generalized method of moments and empirical likelihood", Journal of Business
& Economic Statistics, 20(4), 493-506.

Imbens, G.W. (1997), "One-step estimators for over-identified generalised method of moments
models", Review of Economic Studies, 64, 359-383.

Imbens, G.W., Spady, R.H. and Johnson, P. (1998), "Information theoretic approaches to inference in
moment condition models", Econometrica, 66(2), 333-357.

Kitamura, Y. and Stutzer, M. (1997), "An information-theoretic alternative to generalised method of
moments estimation", Econometrica, 65(4), 861-874.

Mtys, L. (1999), Generalized Method of Moments Estimation, Cambridge University Press.

Mullahy, J. (1997), "Instrumental-variable estimation of count data models: applications to models of
cigarette smoking behavior", Review of Economics and Statistics, 79(4), 586-593.

Newey, W.K. (1985b), "Maximum likelihood specification testing and conditional moment tests",
Econometrica, 53(5), 1047-1070.

Newey, W.K. and McFadden, D. (1994), "Large sample estimation and hypothesis testing", in Engle,
R. F. and McFadden, D. L. (eds.), Handbook of Econometrics, Vol. 4, Elsevier Science Publishers, pp.
2111-2245

Newey, W.K. and Smith, R.J. (2004), "Higher order properties of GMM and generalized empirical
likelihood estimators", Econometrica, 72(1), 219-255.

Newey, W.K. and West, K.D. (1987), "Hypothesis testing with efficient method of moments
estimation", International Economic Review, 28, 777-787.

Ogaki, M. (1993), "Generalized method of moments: econometric applications", in Maddala, G. S.,
Rao, C. R. and Vinod, H. D. (eds.), Handbook of Statistics, Vol. 11, Elsevier Science Publishers, pp.
455-488.

Owen, A.B. (1988), "Empirical likelihood ratio confidence intervals for a single functional",
Biometrika, 75(2), 237-249.

Qin, J. and Lawless, J. (1994), "Empirical likelihood and general estimating equations", Annals of
Statistics, 22(1), 300-325.

Ramalho, J.J.S. (2006), "Bootstrap bias-adjusted GMM estimators", Economics Letters, 92(1), 149-
155.

Ramalho, E.A. and Smith, R.J. (2009), "Discrete choice nonresponse, mimeo.

Singleton, K.J. (1985), "Testing specifications of economic agents' intertemporal optimum problems in
the presence of alternative models", Journal of Econometrics, 30, 391-413.

Smith, R.J. (1992), "Non-nested tests for competing models estimated by generalised method of
moments", Econometrica, 60(4), 973-980.
Dados de Painel
Paulo Guimares, pguimaraes2001@gmail.com
Universidade da Carolina do Sul, EUA

Dados de Painel
Paulo Guimares,
Universidade da Carolina do Sul, EUA
1. Introduo
O termo "dados em painel" ou "dados longitudinais" vulgarmente utilizado para designar bases de dados
constitudas por variveis que integram observaes com uma dimenso seccional e temporal. Exemplos
deste tipo de dados so observaes para um conjunto de indivduos, firmas ou pases ao longo do tempo.
Contudo os dados em painel podem integrar mais de duas dimenses ou ter outras dimenses que no
espao e tempo. Para assentar ideias iremos considerar como referncia a situao mais comum em que os
dados integram apenas duas dimenses, seccional e temporal.
O aumento do nmero de bases de dados em painel disponveis para investigao encontra paralelo na
crescente procura por este tipo de dados. A razo para este interesse nos dados em painel tem a ver com
as reconhecidas vantagens que se lhes atribuem. Em primeiro lugar, pela sua prpria natureza, os dados
em painel permitem uma inferncia mais precisa, pois lidam com um muito maior nmero de observaes
(e graus de liberdade) do que os dados puramente seccionais ou temporais. Visto que tratam com
mltiplas observaes para a mesma unidade, estes dados permitem controlar para caractersticas no-
observadas dessas mesmas unidades. Tambm, porque misturam as diferenas inter-unidades com a
dinmica intra-unidades, permitem-nos estudar a importncia do desfasamento temporal no
comportamento das unidades. Outras vantagens dos dados em painel so a possibilidade de permitirem o
teste de hiptese de comportamento mais sofisticadas assim como o estudo das fundaes micro na
anlise de dados agregados. Recordemos que a anlise de dados agregados tipicamente baseada na
premissa do "agente representativo" mas a existncia de heterogeneidade individual pode por em causa a
validade da anlise agregada.
Trataremos aqui do caso em que pretendemos modelizar o comportamento de uma varivel y
it
composta
por N unidades seccionais observadas ao longo de T perodos de tempo, sendo que i=1,, N e t = 1,,
T. Designaremos genericamente por x
it
as variveis explicativas destes modelos. Um painel de dados
considerado balanceado se existem observaes para todas as variveis para todas as unidades seccionais
em todos os perodos de tempo. Se tal no acontece ento trata-se de um painel no-balanceado. A
existncia de dados no-balanceados no por si um problema, desde que o mecanismo gerador dos
dados em falta no seja endgeno ao modelo.
2. Modelos Lineares de Dados em Painel
Um dos modelos mais comuns para dados em painel modeliza a heterogeneidade no observada
utilizando uma regresso linear simples mas permitindo um intercepto diferente para cada unidade do
painel. Neste caso,
it i it it
y
= + + x
onde o vector de coeficientes associado s variveis explicativas,
i
uma varivel aleatria que
captura a heterogeneidade no observada e
it
o termo de perturbao usual. Neste caso
i
captura todas
as caractersticas da unidade que se mantm constantes ao longo do tempo quer sejam observadas ou no.
Por exemplo, se a unidade forem indivduos ento caractersticas como o sexo ou a naturalidade so
capturadas por
i
.
O modo de tratamento dos
i
determina o tipo de modelo a usar. Se assumirmos que
i
no est
correlacionado com x
it
ento os
i
podero ser tratados como um termo de perturbao adicional. Este
tipo de modelos so designados como modelos de "efeitos aleatrios". Se assumirmos que os
i
esto
correlacionados com x
it
ento passamos a lidar com um modelo de "efeitos fixos" e a soluo agora
consiste em estimar os
i
(os "efeitos fixos") ou efectuar uma transformao do modelo que remova os
i
mas permita ainda a estimao dos coeficientes associados s variveis de interesse. Note-se que neste
contexto a designao "efeito fixo" tem um significado diferente daquele comummente utilizado na
Estatstica.
No caso do modelo linear, o estimador de "efeitos aleatrios" implementado assumindo que
i
e
it
so
variveis aleatrias i.i.d. no correlacionadas, homocedsticas e de mdia zero. Baseado nestas hipteses
fcil calcular a matriz de varincias e covarincias de
i
+
it
e a partir da aplicar o estimador de
"mnimos quadrados generalizados exequveis" que, como sabido, consistente e assimptoticamente
eficiente. Note-se que se aplicarmos directamente mnimos quadrados, ignorando a estrutura de
correlao dos erros, obteremos na mesma estimadores consistentes mas no eficientes para (chama-se a
este modelo, o modelo "pooled" para dados em painel). Por contrapartida, as estimativas dos desvios-
padro dos estimadores de mnimos quadrados viro incorrectamente calculadas pois ignoram a
existncia de correlao (temporal) entre observaes para a mesma unidade.
Quando assumimos a existncia de "efeitos fixos" estamos a admitir a possibilidade de existncia de
correlao entre os
i
e
it
. Neste caso existem vrios estimadores que permitem lidar com os "efeitos
fixos". O mais comum o estimador "within" usualmente obtido a partir de uma regresso que transforma
todas as variveis por subtraco das mdias temporais, isto , efectuando uma regresso do tipo
( ) i i
it i it it i
y y = + + x x
em que todas as variveis so calculadas como desvios de cada unidade do painel em relao sua mdia
temporal. Esta transformao elimina todas as variveis que no exibem variao temporal incluindo
obviamente os
i
. Se a dimenso seccional for pequena ento o estimador "within" poder ser obtido de
outra forma sem necessidade de transformar o modelo. Bastar neste caso estimar um modelo pelo
mtodo dos mnimos quadrados que para alm de x
it
inclui ainda N variveis "dummy" (mas exclui o
intercepto da regresso) que identificam se a observao pertence ou no unidade do painel. Um outro
estimador para modelos com efeitos fixos, o estimador de primeiras-diferenas. Este estimador obtido
aplicando mnimos quadrados s primeiras diferenas temporais dos dados
1 1 1
( ) ( )
it it it it it it
y y

= + x x
47 O u t o n o d e 2 0 0 9
2. Modelos Lineares de Dados em Painel
Um dos modelos mais comuns para dados em painel modeliza a heterogeneidade no observada
utilizando uma regresso linear simples mas permitindo um intercepto diferente para cada unidade do
painel. Neste caso,
it i it it
y
= + + x
onde o vector de coeficientes associado s variveis explicativas,
i
uma varivel aleatria que
captura a heterogeneidade no observada e
it
o termo de perturbao usual. Neste caso
i
captura todas
as caractersticas da unidade que se mantm constantes ao longo do tempo quer sejam observadas ou no.
Por exemplo, se a unidade forem indivduos ento caractersticas como o sexo ou a naturalidade so
capturadas por
i
.
O modo de tratamento dos
i
determina o tipo de modelo a usar. Se assumirmos que
i
no est
correlacionado com x
it
ento os
i
podero ser tratados como um termo de perturbao adicional. Este
tipo de modelos so designados como modelos de "efeitos aleatrios". Se assumirmos que os
i
esto
correlacionados com x
it
ento passamos a lidar com um modelo de "efeitos fixos" e a soluo agora
consiste em estimar os
i
(os "efeitos fixos") ou efectuar uma transformao do modelo que remova os
i
mas permita ainda a estimao dos coeficientes associados s variveis de interesse. Note-se que neste
contexto a designao "efeito fixo" tem um significado diferente daquele comummente utilizado na
Estatstica.
No caso do modelo linear, o estimador de "efeitos aleatrios" implementado assumindo que
i
e
it
so
variveis aleatrias i.i.d. no correlacionadas, homocedsticas e de mdia zero. Baseado nestas hipteses
fcil calcular a matriz de varincias e covarincias de
i
+
it
e a partir da aplicar o estimador de
"mnimos quadrados generalizados exequveis" que, como sabido, consistente e assimptoticamente
eficiente. Note-se que se aplicarmos directamente mnimos quadrados, ignorando a estrutura de
correlao dos erros, obteremos na mesma estimadores consistentes mas no eficientes para (chama-se a
este modelo, o modelo "pooled" para dados em painel). Por contrapartida, as estimativas dos desvios-
padro dos estimadores de mnimos quadrados viro incorrectamente calculadas pois ignoram a
existncia de correlao (temporal) entre observaes para a mesma unidade.
Quando assumimos a existncia de "efeitos fixos" estamos a admitir a possibilidade de existncia de
correlao entre os
i
e
it
. Neste caso existem vrios estimadores que permitem lidar com os "efeitos
fixos". O mais comum o estimador "within" usualmente obtido a partir de uma regresso que transforma
todas as variveis por subtraco das mdias temporais, isto , efectuando uma regresso do tipo
( ) i i
it i it it i
y y = + + x x
em que todas as variveis so calculadas como desvios de cada unidade do painel em relao sua mdia
temporal. Esta transformao elimina todas as variveis que no exibem variao temporal incluindo
obviamente os
i
. Se a dimenso seccional for pequena ento o estimador "within" poder ser obtido de
outra forma sem necessidade de transformar o modelo. Bastar neste caso estimar um modelo pelo
mtodo dos mnimos quadrados que para alm de x
it
inclui ainda N variveis "dummy" (mas exclui o
intercepto da regresso) que identificam se a observao pertence ou no unidade do painel. Um outro
estimador para modelos com efeitos fixos, o estimador de primeiras-diferenas. Este estimador obtido
aplicando mnimos quadrados s primeiras diferenas temporais dos dados
1 1 1
( ) ( )
it it it it it it
y y

= + x x
Admitindo que
it
segue as hiptese habituais ento para T > 2 o estimador "within" mais eficiente do
que o estimador a primeiras-diferenas. Dever ser realado que se de facto se verificar a hiptese de
correlao entre os
i
e x
it
ento os estimadores de mnimos quadrados ou os estimadores de "efeitos
aleatrios" so inconsistentes. Esta uma das razes porque os economistas tendem a preferir os
estimadores de efeitos fixos, pois estes estimadores mantm-se consistentes independentemente da
existncia ou no de correlao entre
i
e x
it
embora sejam menos eficientes que o estimador de efeitos
aleatrios se de facto essa correlao for nula.
Do ponto de vista prtico existe uma outra distino importante entre "efeitos fixos" e "efeitos aleatrios".
No modelo com "efeitos aleatrios" possvel identificar tanto o efeito marginal
Ey
it
|
i
, x
it
/x
it

assim como
Ey
it
|x
it
enquanto que no modelo com "efeitos fixos" apenas possvel identificar os

efeitos marginais para variveis que tenham variao temporal (isto acontece porque os "efeitos fixos"
absorvem todos os factores que so constantes na dimenso temporal como por exemplo o sexo do
indivduo). Mesmo assim as estimativas obtidas podem ser muito imprecisas se a maior parte da
variabilidade for do tipo seccional.
Como vimos anteriormente a opo entre um estimador de efeitos aleatrios ou fixos no
inconsequente. Se o investigador estiver a lidar com dados obtidos a partir de um experimento controlado
ento far todo o sentido a utilizao do estimador de efeitos aleatrios pois no existe razo para
suspeitar da existncia de correlao entre
i
e x
it
. Noutras circunstncias poder ser utilizado um teste de
Hausman para ajudar a decidir qual o modelo apropriado. Se o teste de Hausman mostra uma diferena
estatisticamente significativa entre os dois estimadores ento isto dever ser interpretado como evidncia
a favor do modelo de efeitos fixos.
A aplicao do estimadores de "efeitos fixos" ou "aleatrios" poder no remover completamente a
correlao entre os membros da mesma unidade, pelo que uma atitude mais conservadora consiste em
utilizar um estimador robusto (tipo White/Huber) para a matriz de varincias e covarincias ou
"bootstrapping" (note-se que estas tcnicas tm de ser adaptadas estrutura de painel dos dados). Ao
fazer isto estamos tambm a prevenir contra a possvel existncia de heterogeneidade no termo de
perturbao habitual.
A verificao das propriedade assimptticas dos estimadores requer que se especifique se o aumento da
dimenso amostral efectuado por via de N ou T (ou ambos). Em grande parte das aplicaes faz mais
sentido admitir que seja N a tender para infinito pois a dimenso temporal dos painis geralmente
pequena enquanto a dimenso seccional elevada, centrando-se o interesse na modelizao da
heterogeneidade no-observada. Neste caso, e para o modelo com efeitos fixos, as estimativas dos
i
so
inconsistentes porque o nmero de parmetros
i
aumenta com N, embora as estimativas de no
venham afectadas. Se por outro lado tivermos um painel com uma dimenso temporal elevada poder
fazer sentido modelizar tambm a autocorrelao temporal.
Os modelo lineares discutidos anteriormente assumem a inexistncia de correlao entre o termo de
perturbao e os restantes termos do modelo. Mas esta hiptese inconsistente com modelos que incluem
entre os regressores variveis endgenas ou variveis dependentes desfasadas. Para lidar com este
problema torna-se necessrio utilizar variveis instrumentais. Esta tarefa facilitada pela natureza dos
dados, pois podemos utilizar os desfasamentos temporais de uma varivel como seu prprio instrumento.
Admitindo que
it
segue as hiptese habituais ento para T > 2 o estimador "within" mais eficiente do
que o estimador a primeiras-diferenas. Dever ser realado que se de facto se verificar a hiptese de
correlao entre os
i
e x
it
ento os estimadores de mnimos quadrados ou os estimadores de "efeitos
aleatrios" so inconsistentes. Esta uma das razes porque os economistas tendem a preferir os
estimadores de efeitos fixos, pois estes estimadores mantm-se consistentes independentemente da
existncia ou no de correlao entre
i
e x
it
embora sejam menos eficientes que o estimador de efeitos
aleatrios se de facto essa correlao for nula.
Do ponto de vista prtico existe uma outra distino importante entre "efeitos fixos" e "efeitos aleatrios".
No modelo com "efeitos aleatrios" possvel identificar tanto o efeito marginal
Ey
it
|
i
, x
it
/x
it

assim como
Ey
it
|x
it
enquanto que no modelo com "efeitos fixos" apenas possvel identificar os

efeitos marginais para variveis que tenham variao temporal (isto acontece porque os "efeitos fixos"
absorvem todos os factores que so constantes na dimenso temporal como por exemplo o sexo do
indivduo). Mesmo assim as estimativas obtidas podem ser muito imprecisas se a maior parte da
variabilidade for do tipo seccional.
Como vimos anteriormente a opo entre um estimador de efeitos aleatrios ou fixos no
inconsequente. Se o investigador estiver a lidar com dados obtidos a partir de um experimento controlado
ento far todo o sentido a utilizao do estimador de efeitos aleatrios pois no existe razo para
suspeitar da existncia de correlao entre
i
e x
it
. Noutras circunstncias poder ser utilizado um teste de
Hausman para ajudar a decidir qual o modelo apropriado. Se o teste de Hausman mostra uma diferena
estatisticamente significativa entre os dois estimadores ento isto dever ser interpretado como evidncia
a favor do modelo de efeitos fixos.
A aplicao do estimadores de "efeitos fixos" ou "aleatrios" poder no remover completamente a
correlao entre os membros da mesma unidade, pelo que uma atitude mais conservadora consiste em
utilizar um estimador robusto (tipo White/Huber) para a matriz de varincias e covarincias ou
"bootstrapping" (note-se que estas tcnicas tm de ser adaptadas estrutura de painel dos dados). Ao
fazer isto estamos tambm a prevenir contra a possvel existncia de heterogeneidade no termo de
perturbao habitual.
A verificao das propriedade assimptticas dos estimadores requer que se especifique se o aumento da
dimenso amostral efectuado por via de N ou T (ou ambos). Em grande parte das aplicaes faz mais
sentido admitir que seja N a tender para infinito pois a dimenso temporal dos painis geralmente
pequena enquanto a dimenso seccional elevada, centrando-se o interesse na modelizao da
heterogeneidade no-observada. Neste caso, e para o modelo com efeitos fixos, as estimativas dos
i
so
inconsistentes porque o nmero de parmetros
i
aumenta com N, embora as estimativas de no
venham afectadas. Se por outro lado tivermos um painel com uma dimenso temporal elevada poder
fazer sentido modelizar tambm a autocorrelao temporal.
Os modelo lineares discutidos anteriormente assumem a inexistncia de correlao entre o termo de
perturbao e os restantes termos do modelo. Mas esta hiptese inconsistente com modelos que incluem
entre os regressores variveis endgenas ou variveis dependentes desfasadas. Para lidar com este
problema torna-se necessrio utilizar variveis instrumentais. Esta tarefa facilitada pela natureza dos
dados, pois podemos utilizar os desfasamentos temporais de uma varivel como seu prprio instrumento.
O mtodo de estimao habitual destes modelos o mtodo dos momentos generalizados (GMM)
tipicamente aplicado a um modelo transformado por forma a eliminar os efeitos individuais. O conhecido
estimador de Arellano-Bond, utilizado para lidar com modelos de painel dinmicos, ou seja, modelos do
tipo,
y
it
y
it1
x
it

i

it
um exemplo dum estimador de painel GMM.
3. Modelos no lineares de Dados em Painel
A modelizao utilizada para lidar com dados em painel nos modelos lineares pode ser estendida a
modelos no lineares. No entanto os resultados conhecidos para o modelo linear no so generalizveis
aos modelos no-lineares. Por exemplo, em painis curtos, a introduo de efeitos fixos em vrios
modelos no-lineares torna os estimadores dos parmetros associados aos x
it
inconsistentes. Este
problema conhecido na literatura como o problema dos parmetros incidentais. Note-se que isto no
acontece no modelo linear, onde para painis curtos os estimadores de so consistentes embora os
estimadores dos
i
sejam inconsistentes. Para alguns modelos no-lineares como por exemplo o modelo
logit para dados binrios e o modelo de regresso de Poisson possvel eliminar os
i
calculando a
funo de mxima verosimilhana condicionada a uma estatstica suficiente dos
i
. A maximizao da
funo de mxima verosimilhana condicionada produz estimadores consistentes para embora (com a
excepo do modelo linear e modelo de Poisson) esses estimadores sejam menos eficientes. A utilizao
da mxima verosimilhana condicionada apenas possvel para alguns modelos no-lineares. Uma outra
opo para a estimao de modelos com efeitos fixos consiste na incluso explcita de variveis dummy
para os efeitos individuais. Esta alternativa funcionar se o nmero de variveis dummy for relativamente
pequeno, caso contrrio poder ser impraticvel estimar um modelo com um elevado nmero de
regressores.
Quanto aos modelos de efeitos aleatrios convm notar que, tal como para o modelo linear, a existncia
de correlao entre os efeitos individuais e os outros regressores torna os estimadores inconsistentes.
Desde que seja possvel estimar de forma consistente o modelo com efeitos fixos ento poder ser
implementado um teste de Hausman por forma a decidir qual a modelizao apropriada. Nos modelos
com efeitos aleatrios admite-se que os efeitos individuais seguem uma distribuio conhecida.
Dependendo do modelo em causa pode ser conveniente assumir uma distribuio particular para os
efeitos aleatrios que permita obter de forma explcita a distribuio incondicional dos dados. Por
exemplo, se num modelo de Poisson para dados em painel se assumir que os efeitos aleatrios seguem
uma distribuio gama ento a distribuio incondicional dos dados ser uma distribuio binomial
negativa. Na maior parte dos casos no possvel obter de forma explcita a distribuio incondicional
mas mesmo assim possvel maximizar a funo de mxima verosimilhana utilizando mtodos
numricos.
Hoje em dia vrios "packages" estatsticos integram estimadores prprios para dados em painel. Os
modelos de efeitos aleatrios que temos vindo a discutir so um caso particular dos modelos mistos
("mixed models") e portanto podem ser estimados com qualquer package estatstico que suporte modelos
mistos como por exemplo o SAS, o R e o S-plus. No entanto, "packages" como o Stata e o LIMDEP so
especializados neste tipo de dados e oferecem uma enorme variedade de estimadores.
49 O u t o n o d e 2 0 0 9
O mtodo de estimao habitual destes modelos o mtodo dos momentos generalizados (GMM)
tipicamente aplicado a um modelo transformado por forma a eliminar os efeitos individuais. O conhecido
estimador de Arellano-Bond, utilizado para lidar com modelos de painel dinmicos, ou seja, modelos do
tipo,
y
it
y
it1
x
it

i

it
um exemplo dum estimador de painel GMM.
3. Modelos no lineares de Dados em Painel
A modelizao utilizada para lidar com dados em painel nos modelos lineares pode ser estendida a
modelos no lineares. No entanto os resultados conhecidos para o modelo linear no so generalizveis
aos modelos no-lineares. Por exemplo, em painis curtos, a introduo de efeitos fixos em vrios
modelos no-lineares torna os estimadores dos parmetros associados aos x
it
inconsistentes. Este
problema conhecido na literatura como o problema dos parmetros incidentais. Note-se que isto no
acontece no modelo linear, onde para painis curtos os estimadores de so consistentes embora os
estimadores dos
i
sejam inconsistentes. Para alguns modelos no-lineares como por exemplo o modelo
logit para dados binrios e o modelo de regresso de Poisson possvel eliminar os
i
calculando a
funo de mxima verosimilhana condicionada a uma estatstica suficiente dos
i
. A maximizao da
funo de mxima verosimilhana condicionada produz estimadores consistentes para embora (com a
excepo do modelo linear e modelo de Poisson) esses estimadores sejam menos eficientes. A utilizao
da mxima verosimilhana condicionada apenas possvel para alguns modelos no-lineares. Uma outra
opo para a estimao de modelos com efeitos fixos consiste na incluso explcita de variveis dummy
para os efeitos individuais. Esta alternativa funcionar se o nmero de variveis dummy for relativamente
pequeno, caso contrrio poder ser impraticvel estimar um modelo com um elevado nmero de
regressores.
Quanto aos modelos de efeitos aleatrios convm notar que, tal como para o modelo linear, a existncia
de correlao entre os efeitos individuais e os outros regressores torna os estimadores inconsistentes.
Desde que seja possvel estimar de forma consistente o modelo com efeitos fixos ento poder ser
implementado um teste de Hausman por forma a decidir qual a modelizao apropriada. Nos modelos
com efeitos aleatrios admite-se que os efeitos individuais seguem uma distribuio conhecida.
Dependendo do modelo em causa pode ser conveniente assumir uma distribuio particular para os
efeitos aleatrios que permita obter de forma explcita a distribuio incondicional dos dados. Por
exemplo, se num modelo de Poisson para dados em painel se assumir que os efeitos aleatrios seguem
uma distribuio gama ento a distribuio incondicional dos dados ser uma distribuio binomial
negativa. Na maior parte dos casos no possvel obter de forma explcita a distribuio incondicional
mas mesmo assim possvel maximizar a funo de mxima verosimilhana utilizando mtodos
numricos.
Hoje em dia vrios "packages" estatsticos integram estimadores prprios para dados em painel. Os
modelos de efeitos aleatrios que temos vindo a discutir so um caso particular dos modelos mistos
("mixed models") e portanto podem ser estimados com qualquer package estatstico que suporte modelos
mistos como por exemplo o SAS, o R e o S-plus. No entanto, "packages" como o Stata e o LIMDEP so
especializados neste tipo de dados e oferecem uma enorme variedade de estimadores.
Cameron, C. and P. Trivedi (2005), Microeconometrics: Methods and Applications. Cambridge:
Cambridge University Press.
Davidson, R. and J. MacKinnon (1993), Estimation and Inference in Econometrics. New York: Oxford
University Press.
Greene, W. (2004), The Behavior of the Fixed effects Estimator in Nonlinear Models,, Econometrics
Journal, Vol. 7, pp. 98-119.
Greene, W. H. (2003). Econometric Analysis. 5th ed. Upper Saddle River: Prentice Hall.
Woolridge, J. (2002). Econometric Analysis of Cross-Section and Panel Data. MIT Press.
Loxodromia da vida humana:
Uma introduo anlise estatstica da durao
*
Carlota Louro, carlouro.spub@fcm.unl.pt
Faculdade de Cincias Mdicas, Universidade Nova de Lisboa
Pedro Portugal, pportugal@bportugal.pt
Banco de Portugal e Faculdade de Economia, Universidade Nova de Lisboa
1. Introduo
A anlise estatstica de fenmenos em que o interesse central reside na contagem do tempo decorrido at
verificao de determinado acontecimento ou, numa terminologia mais rigorosa, de um evento terminal, o
objecto da anlise da durao. Dito de outro modo, a anlise da durao trata da modelao estatstica da
ocorrncia de transies entre diferentes estados. Os fundamentos da anlise de durao so tributrios da
teoria dos processos estocsticos de renovao, dos processos pontuais e dos processos de contagem.
2. Loxodromia da vida humana
Comece-se por definir T como uma varivel aleatria contnua no-negativa que representa a durao num
dado estado. Seja f(t) a correspondente funo densidade de probabilidade e F(t) a funo de distribuio
cumulativa, que ser dada por
Ft PT t
0
t
fudu.
A probabilidade de um indivduo se manter nesse estado at t , ento, dada pela Funo de Sobrevivncia
St PT t 1 Ft.
O conceito fundamental na anlise de durao o de taxa de quebras ou funo "hazard", que definida
como
e que mede a taxa instantnea de sada no momento t, dado que o indivduo sobreviveu no estado at t.
De acordo com Tiago de Oliveira (1990), "o conceito de taxa de quebras, sob o aspecto de fora de
mortalidade (Demografia) foi criado em 1757 por Soares de Barros e Vasconcelos, um estrangeirado... que
o publicou no artigo "Loxodromia da Vida Humana", Mem. Real Academia de Sciencias de Lisboa, 1
srie, I, 1759. Soares de Barros e Vasconcelos usa 1/h(t) (chamada fora da vida), que interpreta
correctamente; note-se que 1/h(t) hoje um instrumento importante na Estatstica dos Extremos. S mais
tarde Gompertz (1825) e Makeham (1860) redescobrem o conceito e o utilizam em Demografia e
Actuariado."
Associada com a funo "hazard", define-se a funo "hazard" cumulativa
t
0
t
hudu
que especialmente utilizada na anlise de especificao. A evoluo temporal da taxa "hazard"
caracterizada por dh(t)/dt, define a importante noo de dependncia da durao. Diz-se que a dependncia
da durao negativa (positiva) quando a taxa "hazard" diminui (aumenta) com a passagem do tempo.
Uma outra funo com interesse na anlise da durao a do valor esperado da durao condicionado
sobrevivncia no estado at s
es
s
tftdt
Ss
s
s
Stdt
Ss
ht lim
t0
Pt T t t T t
t
,
Assi se estima a cousa: como se sabe julgar.
D. Francisco de Portugal, primeiro conde de Vimioso
1
.

*
Os autores agradecem os comentrios e sugestes de Antnio Antunes, Jos Antnio Ferreira Machado, Carlos Robalo
Marques e Paulo Rodrigues.

51 O u t o n o d e 2 0 0 9
1. Introduo
A anlise estatstica de fenmenos em que o interesse central reside na contagem do tempo decorrido at
verificao de determinado acontecimento ou, numa terminologia mais rigorosa, de um evento terminal, o
objecto da anlise da durao. Dito de outro modo, a anlise da durao trata da modelao estatstica da
ocorrncia de transies entre diferentes estados. Os fundamentos da anlise de durao so tributrios da
teoria dos processos estocsticos de renovao, dos processos pontuais e dos processos de contagem.
2. Loxodromia da vida humana
Comece-se por definir T como uma varivel aleatria contnua no-negativa que representa a durao num
dado estado. Seja f(t) a correspondente funo densidade de probabilidade e F(t) a funo de distribuio
cumulativa, que ser dada por
Ft PT t
0
t
fudu.
A probabilidade de um indivduo se manter nesse estado at t , ento, dada pela Funo de Sobrevivncia
St PT t 1 Ft.
O conceito fundamental na anlise de durao o de taxa de quebras ou funo "hazard", que definida
como
e que mede a taxa instantnea de sada no momento t, dado que o indivduo sobreviveu no estado at t.
De acordo com Tiago de Oliveira (1990), "o conceito de taxa de quebras, sob o aspecto de fora de
mortalidade (Demografia) foi criado em 1757 por Soares de Barros e Vasconcelos, um estrangeirado... que
o publicou no artigo "Loxodromia da Vida Humana", Mem. Real Academia de Sciencias de Lisboa, 1
srie, I, 1759. Soares de Barros e Vasconcelos usa 1/h(t) (chamada fora da vida), que interpreta
correctamente; note-se que 1/h(t) hoje um instrumento importante na Estatstica dos Extremos. S mais
tarde Gompertz (1825) e Makeham (1860) redescobrem o conceito e o utilizam em Demografia e
Actuariado."
Associada com a funo "hazard", define-se a funo "hazard" cumulativa
t
0
t
hudu
que especialmente utilizada na anlise de especificao. A evoluo temporal da taxa "hazard"
caracterizada por dh(t)/dt, define a importante noo de dependncia da durao. Diz-se que a dependncia
da durao negativa (positiva) quando a taxa "hazard" diminui (aumenta) com a passagem do tempo.
Uma outra funo com interesse na anlise da durao a do valor esperado da durao condicionado
sobrevivncia no estado at s
es
s
tftdt
Ss
s
s
Stdt
Ss
ht lim
t0
Pt T t t T t
t
,
que permite deduzir a expresso da durao mdia como o integral da funo de sobrevivncia
e0 ET
0
Stdt.
3. Duraes incompletas
Muitas vezes as observaes sobre a durao de um dado episdio no so exactas. Frequentemente so
incompletas, seja porque somente conhecido que a durao excede um dado valor (neste caso dizem-se
censuradas direita), ou porque sabido que a contagem exacta da durao foi iniciada aps ter decorrido
j algum tempo (neste caso dizem-se censuradas esquerda). tambm possvel a simultaneidade destas
duas situaes gerando observaes censuradas por intervalo.
Seja T* uma varivel aleatria representando a durao na ausncia de qualquer censura e seja C o tempo de
censura. A durao observada ser ento T=min(T
*
,C). conveniente, nestas circunstncias, introduzir o
indicador de censura para o indivduo i
o
= _
u, scI
-
> C
;
1, scI
-
C
A funo de verosimilhana para uma amostra do par (t

i
,
i
) de dimenso n, no caso em que o tempo de
censura no informativo sobre os parmetros da distribuio da durao, simplifica para
L

i1
n
ft
i
i
St
i
1i
.
A abordagem paramtrica estimao da funo de sobrevivncia pressupe a especificao da
distribuio da durao definida por um nmero finito de parmetros. Deve ser exercido especial cuidado
na escolha da funo de distribuio, j que a utilizao de funes de distribuio inadequadas conduz a
estimativas inconsistentes dos parmetros de interesse, e em particular, a resultados errneos sobre a
dependncia da durao. Importa ainda ter presente que a durao somente admite valores no-negativos.
As distribuies exponencial, Weibull, log-normal, log-logstica, Gompertz, Pareto, gama e gama
generalizada tm sido frequentemente utilizadas.
2
Sublinhe-se ainda que estas distribuies implicam
diferentes comportamentos da funo "hazard" no que diz respeito durao da dependncia.
4. Estimao no-paramtrica da funo de sobrevivncia
Uma forma conveniente de descrever a funo de sobrevivncia dada pela exibio do seu grfico. Para
uma amostra aleatria de dimenso n de duraes completas a funo de sobrevivncia emprica pode ser
simplesmente obtida por
S(t)
=
nJcI t
n
.

2
Ver Addison e Portugal (1987) para uma discusso sobre a escolha da distribuio da durao.
e0 ET
0
Stdt.
*
o
= _
u, scI
-
> C
;
1, scI
-
C

i
,
i
L

i1
n
ft
i
i
St
i
1i
.
2
S(t)
=
nJcI t
n
.

2
Com dados censurados direita a funo de sobrevivncia pode ser obtida atravs do celebrado estimador
de Kaplan-Meier,
St

t
j
t
1

em que
= n
j
/r
j
com n
j
sendo igual ao nmero de indivduos que falham no momento t
j
e r
j
correspondendo ao nmero de indivduos em risco de sarem no momento imediatamente anterior a t
j
.
5. Anlise de regresso
Na anlise economtrica da durao importa considerar os efeitos dos regressores x (em que x um vector
de variveis explicativas) no comportamento de f(t | x), h(t | x) e S(t | x). Na formulao do modelo de
efeitos proporcionais (Cox, 1972) assume-se que os regressores influenciam de forma proporcional a taxa
"hazard"
ht x h
0
texpx
em que h
0
(t) representa h(t) quando x = 0. Dito de outra forma, x afecta linearmente o comportamento de
ln[h(t)]. Assim, nesta especificao, o rcio entre a taxa "hazard" de duas sub-populaes permanece
constante ao longo do tempo (admitindo x constante ao longo do tempo).
6. O plano amostral: o paradoxo do autocarro
O processo gerador da amostra de duraes observadas pelo investigador tem consequncias decisivas
sobre a forma de interpretar a informao recolhida (por exemplo, o significado da durao mdia) e,
portanto, sobre a especificao da funo de verosimilhana. absolutamente crucial na anlise da durao
caracterizar o plano amostral e avaliar as condies de identificao dos parmetros de interesse. No
contexto da investigao da experincia dos desempregados, importar distinguir trs situaes:
amostragem sobre o fluxo; amostragem sobre o stock; e a amostragem sobre um intervalo fixo.
6.1 Amostragem sobre o fluxo
A primeira ideia a reter ser a de que a amostragem sobre fluxos se relaciona de forma directa com os
parmetros da distribuio de durao da populao. Isto , uma amostra aleatria que acompanhe os
indivduos desde o incio do episdio ser representativa da populao. No caso da amostragem sobre
fluxos a funo de verosimilhana apropriada ser:
L

i1
n
ft
i
i
St
i
1i
.
6.2 Amostragem sobre o stock
J no caso de amostragens sobre o stock - isto , sobre a durao decorrida num estado pelos indivduos que
num dado instante se encontram nesse estado - necessrio ter presente, por um lado, que todas as duraes
so incompletas, e, por outro lado (e mais importante), que amostras recolhidas de acordo com este plano
amostral tendem a sobre-representar sistematicamente as duraes mais longas. Este ltimo aspecto
conhecido na literatura como "length bias sampling". Um exemplo esclarecedor de "length bias sampling"
o chamado paradoxo do autocarro (Feller, 1966). Admita-se que numa cidade os autocarros circulam
exactamente tabela com um intervalo de 60 minutos. Um passageiro que chegue aleatoriamente a uma
paragem, esperar, em mdia, 30 minutos pelo autocarro. Suponha-se agora que os autocarros chegam
aleatoriamente, de acordo com uma distribuio Poisson, passando, em mdia, um autocarro em cada 60
minutos. O resultado paradoxal que o mesmo passageiro esperar agora, em mdia, 60 minutos, o dobro
da situao inicial.
No caso da amostragem sobre stocks a funo de verosimilhana ponderada pela probabilidade de um
dado indivduo ser observado, a qual proporcional durao mdia. Admitindo um fluxo de entrada
constante, a expresso da funo de verosimilhana ser
L
i1
n
St
i
em que a durao mdia.

6.3 Amostragem sobre um intervalo fixo
Ainda que utilizando uma amostragem sobre o stock, por vezes a informao sobre a durao recolhida
em dois ou mais momentos. No primeiro momento obtida informao sobre a durao decorrida e nos
perodos subsequentes obtm-se informao sobre a realizao ou no de uma transio. Neste caso
possvel condicionar a probabilidade de transio na durao decorrida e obter os parmetros da funo
distribuio da durao pela maximizao da funo:
1
( ) ( )
(1 ) em que
( )
i i
n
i
S t S t h
L
S t

=
+
= =
e em que h denota o perodo de seguimento.

7. Heterogeneidade individual no-observada: a lebre e a tartaruga
O problema da heterogeneidade no observada na anlise da durao pode ser visto, semelhana da
discusso dos modelos de efeitos aleatrios, como um problema de especificao incompleta. A presena
de heterogeneidade individual no observada pode ter como fonte erros de medida na durao ou nos
regressores, omisso de variveis relevantes, inadequada formulao da forma funcional ou da funo
"hazard". A heterogeneidade individual no observada acarreta como consequncia, na generalidade das
situaes, a inconsistncia dos estimadores.
Em particular, sabido que enviesa de forma sistemtica a estimao no sentido de favorecer a dependncia
da durao negativa. A razo deste enviesamento radica na alterao da composio da amostra ao longo do
tempo. Isto acontece porque medida que o tempo passa, a amostra crescentemente constituda por
indivduos que tm atributos no observados que lhe dificultam a transio para outro estado. Suponha-se
que numa dada amostra existem lebres e tartarugas. O econometrista no distingue umas das outras.
Iniciada a corrida, as lebres (com "hazards" mais elevadas) tendero a completar mais rapidamente o
trajecto, fazendo com que, medida que o tempo passa, a amostra seja composta por cada vez mais
e0 ET
0
Stdt.
*
o
= _
u, scI
-
> C
;
1, scI
-
C

i
,
i
L

i1
n
ft
i
i
St
i
1i
.
2
S(t)
=
nJcI t
n
.

2
Com dados censurados direita a funo de sobrevivncia pode ser obtida atravs do celebrado estimador
de Kaplan-Meier,
St

t
j
t
1

em que
= n
j
/r
j
com n
j
sendo igual ao nmero de indivduos que falham no momento t
j
e r
j
correspondendo ao nmero de indivduos em risco de sarem no momento imediatamente anterior a t
j
.
5. Anlise de regresso
Na anlise economtrica da durao importa considerar os efeitos dos regressores x (em que x um vector
de variveis explicativas) no comportamento de f(t | x), h(t | x) e S(t | x). Na formulao do modelo de
efeitos proporcionais (Cox, 1972) assume-se que os regressores influenciam de forma proporcional a taxa
"hazard"
ht x h
0
texpx
em que h
0
(t) representa h(t) quando x = 0. Dito de outra forma, x afecta linearmente o comportamento de
ln[h(t)]. Assim, nesta especificao, o rcio entre a taxa "hazard" de duas sub-populaes permanece
constante ao longo do tempo (admitindo x constante ao longo do tempo).
6. O plano amostral: o paradoxo do autocarro
O processo gerador da amostra de duraes observadas pelo investigador tem consequncias decisivas
sobre a forma de interpretar a informao recolhida (por exemplo, o significado da durao mdia) e,
portanto, sobre a especificao da funo de verosimilhana. absolutamente crucial na anlise da durao
caracterizar o plano amostral e avaliar as condies de identificao dos parmetros de interesse. No
contexto da investigao da experincia dos desempregados, importar distinguir trs situaes:
amostragem sobre o fluxo; amostragem sobre o stock; e a amostragem sobre um intervalo fixo.
6.1 Amostragem sobre o fluxo
A primeira ideia a reter ser a de que a amostragem sobre fluxos se relaciona de forma directa com os
parmetros da distribuio de durao da populao. Isto , uma amostra aleatria que acompanhe os
indivduos desde o incio do episdio ser representativa da populao. No caso da amostragem sobre
fluxos a funo de verosimilhana apropriada ser:
L

i1
n
ft
i
i
St
i
1i
.
6.2 Amostragem sobre o stock
J no caso de amostragens sobre o stock - isto , sobre a durao decorrida num estado pelos indivduos que
num dado instante se encontram nesse estado - necessrio ter presente, por um lado, que todas as duraes
da situao inicial.
L
i1
n
St
i

1
( ) ( )
(1 ) em que
( )
i i
n
i
S t S t h
L
S t

=
+
= =

53 O u t o n o d e 2 0 0 9
da situao inicial.
L
i1
n
St
i

1
( ) ( )
(1 ) em que
( )
i i
n
i
S t S t h
L
S t

=
+
= =

tartarugas (com "hazards" menores), projectando assim uma iluso de dependncia da durao negativa.
Uma forma directa de formalizar este problema atravs da incorporao de um termo de perturbao
aleatria v que representa um efeito individual especfico, com funo densidade de probabilidade g(v).
Sendo assim, o problema pode ser abordado no mbito da temtica da mistura de distribuies. A funo de
sobrevivncia incondicional resulta ento
St E
v
St v
v
gvSt vdv.
Duas abordagens alternativas tm sido propostas para incorporar a heterogeneidade individual no
observada nos modelos de durao. Num caso a funo paramtrica g(v) explicitada (assumida)
permitindo derivar a funo de sobrevivncia incondicional (abordagem paramtrica). A distribuio gama
com mdia unitria frequentemente utilizada para este efeito porque permite ( semelhana das
distribuies da famlia exponencial) uma soluo fechada para S(t).
3
Alternativamente, tm sido propostas
abordagens no paramtricas. Nestes casos a funo densidade de probabilidade da heterogeneidade no
observada aproximada atravs da estimao de uma funo emprica discreta com um nmero
pr-determinado (ou no) de pontos de suporte. Neste ltimo caso ser possvel estimar a proporo de
indivduos associada a cada grupo (por exemplo, a fraco de "lebres" e de "tartarugas").
8. Riscos defectivos: o ovo da tartaruga
A presena de sobreviventes de longa durao, isto , de indivduos cuja probabilidade de transio para
outro estado zero, obriga a especificar a distribuio da durao como uma distribuio degenerada. Na
epidemiologia, situaes de sobrevivncia de longa durao podero ser geradas pela presena de
indivduos imunes ou curados. Uma forma de incorporar a presena de sobreviventes de longa durao
passa pela considerao de uma probabilidade p do indivduo poder vir a transitar para outro estado e uma
probabilidade (1 p) ficar para sempre estado inicial. A funo de sobrevivncia incondicional poder
ento ser expressa como:
St 1 p pS
2
t #
em que S
2
(t) identifica a funo de sobrevivncia condicionada possibilidade de transio. Uma
caracterstica interessante deste modelo radica precisamente na possibilidade de estimar a proporo de
sobreviventes de longa durao (1 - p). Uma vez especificada a estrutura da funo de sobrevivncia como
um modelo de mistura de distribuies, a funo "hazard" incondicional definida como
ht
pft
1 p pS
2
t
. #
Admita-se que se pretende analisar, com base numa amostra de tartarugas, o tempo que decorre at
postura de ovos. Desafortunadamente, a amostra constituda por tartarugas macho e tartarugas fmea, e o
econometrista no capaz de distinguir o gnero das tartarugas. O modelo de sobrevivncia de longa
durao poder estimar a proporo de tartarugas macho e a distribuio do tempo at postura das
tartarugas fmea.

3
Ver Addison e Portugal (1997) para uma discusso sobre a escolha da distribuio de mistura.
St E
v
St v
v
gvSt vdv.
3
St 1 p pS
2
t #
em que S
2
ht
pft
1 p pS
2
t
. #
tartarugas fmea.

3
St E
v
St v
v
gvSt vdv.
3
St 1 p pS
2
t #
em que S
2
ht
pft
1 p pS
2
t
. #
tartarugas fmea.

3
St E
v
St v
v
gvSt vdv.
3
St 1 p pS
2
t #
em que S
2
ht
pft
1 p pS
2
t
. #
tartarugas fmea.

3
Referncias
Addison, J. T. e P. Portugal (1987) "On the Distributional Shape of Unemployment Duration,"
Review of Economics and Statistics, 69.
Addison, J. T. e P. Portugal (1997) "Some Specification Issues on Unemployment Duration,"
Labour Economics, 5.
Cox, D. (1972) "Regression Models and Life Tables," Journal of the Royal Statistical Society,
Series B, 34.
Feller (1966) An Introduction to Probability Theory and Its Applications Vol 2, Wiley, New
York.
Kaplan EL e P. Meier (1958) "Non parametric estimation from incomplete observations."
Journal of the American Statistical Association 53.
St E
v
St v
v
gvSt vdv.
3
St 1 p pS
2
t #
em que S
2
ht
pft
1 p pS
2
t
. #
tartarugas fmea.

3
55 O u t o n o d e 2 0 0 9
SPE e a Comunidade
Estatstica multivariada no R

Jorge Cadima, jcadima@isa.utl.pt

Departamento de Matemtica,
Instituto Superior de Agronomia, Universidade Tcnica de Lisboa

1. Introduo

Os principais mtodos de estatstica multivariada encontram-se disponveis no R, quer integrando a
distribuio base, quer espalhados por alguns dos mais de 2000 mdulos adicionais (Packages, na
linguagem do R) contribudos por utilizadores do R. A utilizao destes mtodos no ambiente de
trabalho do programa R traz ao utilizador as seguintes vantagens:
fiabilidade do cdigo (pelo menos para as funes da distribuio base);
ambiente de trabalho flexvel, que permite com facilidade pre-processar os dados e manipular e
submeter a ulterior anlise os resultados;
ambiente de trabalho poderoso, que permite escrever cdigo, incluindo atravs da programao
de funes (subrotinas) para efectuar anlises mais complexas ou que envolvam vrios procedimentos.

No R esto tambm disponveis ferramentas para a visualizao grfica bi- ou tri-dimensional de
dados. Uma das mais poderosas baseia-se no software de visualizao grfica em cdigo aberto Ggobi
(http://www.ggobi.org), que (estando instalada no nosso sistema) pode ser invocado a partir duma
sesso de trabalho do R por intermdio do package rggobi. Esta ferramenta grfica permite, entre
outras coisas, rodar nuvens de pontos dos dados (de forma automtica ou manualmente, controlando
com o rato), identificar observaes individuais (identify) ou em grupo (brush) e criar histogramas ou
grficos em coordenadas paralelas onde os indivduos seleccionados sejam destacados atravs de cores
diferentes, como ilustrado na imagem.
Estatstica multivariada no R
Jorge Cadima, jcadima@isa.utl.pt
Instituto Superior de Agronomia, Universidade Tcnica de Lisboa
Segue-se uma breve introduo utilizao no R de algumas das mais usadas tcnicas multivariadas.
Para exemplificar, ser usado o famoso conjunto de dados de Fisher com medies morfomtricas em
n=150 lrios, 50 de cada uma de trs espcies. Estes dados encontram-se disponveis na distribuio
base do R, no objecto iris. Trata-se duma data frame, com cinco colunas, de 150 valores cada. As
quatro primeiras colunas so variveis numricas, com comprimentos e larguras das spalas e ptalas
de cada lrio. A quinta coluna, um factor, com trs nveis (setosa, versicolor e virginica)
correspondentes s espcies observadas.

2. Anlise em Componentes Principais e biplots

Uma Anlise em Componentes Principais (ACP) [1] pode ser efectuada atravs de duas funes,
ambas includas no package stats (que integra a distribuio base do R, estando automaticamente
disponvel em qualquer verso do R instalada da forma usual). Trata-se das funes prcomp e
princomp. A primeira tem duas vantagens, que aconselham a sua utilizao:

1. obtm a informao necessria a uma ACP atravs da decomposio em valores singulares
(DVS) da matriz de dados, enquanto que a segunda funo se baseia numa decomposio espectral
(em valores e vectores prprios) da matriz de covarincias (ou de correlaes) dos dados. A maior
estabilidade numrica da DVS aconselha o uso da funo prcomp;
2. a funo princomp exige que nos dados analisados haja um nmero de observaes (que, por
omisso, so associadas pelo R s linhas da matriz de dados) superior ao nmero de variveis
observadas (colunas da matriz). Esta restrio no existe na funo prcomp.

Aqui aborda-se apenas a funo prcomp (podendo as particularidades da outra funo ser consultadas
da forma usual, com recurso funo help). A funo princomp mantida sobretudo por razes de
compatibilidade com o S-Plus, o software estatstico comercial que, tal como o R, baseado na
linguagem de programao S.

A passagem dos dados para a funo prcomp faz-se atravs duma matriz ou data frame (naturalmente
com dados numricos). Trata-se do nico argumento obrigatrio desta funo. Assim, para efectuar
uma ACP aos dados dos lrios, basta escrever prcomp(iris[,-5]). Note-se que se torna necessrio
excluir a quinta coluna do objecto iris da anlise, uma vez que se trata de um factor, cuja incluso na
ACP no faz sentido.

Caso se deseje efectuar uma ACP sobre a matriz de correlaes, isto , sobre os dados normalizados,
deve utilizar-se o argumento lgico scale, associando-lhe o valor verdade:

> prcomp(iris[,-5], scale=TRUE)

Alternativamente, seria possvel efectuar primeiro a normalizao dos dados (atravs da funo scale)
e depois invocar a funo prcomp sem ulteriores argumentos: prcomp(scale(iris[,-5])).

O comando prcomp produz como resultado uma lista com vrios objectos, dois dos quais so
mostrados, por omisso:
sdev - um vector com os p desvios padro das componentes principais (ou seja, com os valores
singulares da matriz de dados - centrada e a dividir por n+1 - que so tambm as razes quadradas dos
valores prprios da matriz de covarincias dos dados analisados);
rotation uma matriz pxp, cujas coluna k contm os coeficientes (loadings) na combinao
linear das variveis que definem a componente principal k.

A lista devolvida pelo comando produz ainda um terceiro objecto que apenas mostrado caso seja
explicitamente pedido. Trata-se duma matriz nxp, cujas colunas contm os valores (scores) de cada
indivduo em cada componente principal. Os autores da funo prcomp deram um nome curioso a este
objecto: apenas x. Para visualizar os scores nas componentes principais dos dados dos lrios, basta
solicitar, da forma usual, a componente da lista atravs do seu nome: prcomp(iris[,-5])$x

Como sabido, h uma indeterminao nos sinais em cada coluna das matrizes rotation e x, no
sentido que as colunas podem ser multiplicadas por -1 de forma arbitrria. possvel que as funes
prcomp e princomp, ou at a mesma funo em diferentes binrios executveis do R, produzam
variaes nestes sinais, como adverte a help page da funo prcomp.

Como foi referido, o output do comando prcomp uma lista. Mais formalmente, trata-se dum objecto
da classe prcomp, que herda da classe list, o que significa que uma lista de natureza especial, para a
qual podem ser escritos mtodos especficos, e que na ausncia de mtodos especficos para um
objecto de tipo prcomp, aplicar-se-o os mtodos para a classe mais geral list.

Uma das funes mais teis para aplicar aos resultados duma ACP no R a funo summary, que
constri uma tabela com os habituais indicadores da qualidade de cada componente principal:

> summary(prcomp(iris[,-5]))

Se o resultado duma ACP fr passado para a funo genrica plot, ser produzido (numa janela grfica
separada) um screeplot, na forma dum histograma das varincias associadas a cada componente
principal.

O biplot [2] , tal como a ACP, uma tcnica baseada na decomposio em valores singulares duma
matriz de dados. A distribuio base do R inclui a funo biplot, que produz um grfico bidimensional
com marcadores de indivduos (pontos) e marcadores de variveis (vectores) a partir dos quais se
reconstri, aproximadamente, boa parte da informao associada matriz de dados original. A funo
biplot admite, como argumento de entrada, o resultado duma ACP: biplot(prcomp(iris[,-5]))

3. Anlises Classificatrias

O vasto conjunto de tcnicas de classificao (clustering) disponibilizado no R atravs de vrias
funes e packages.

Uma anlise classificatria hierarquizada (hierarchical clustering) [3] tem como ponto de partida
uma matriz de distncias ou dissemelhanas entre os n indivduos que se pretende classificar. Essas
dissemelhanas podem ser determinadas de diferentes formas (inclundo avaliaes subjectivas). As
formas mais objectivas tm por base um conjunto de dados observados. O R disponibiliza a funo
dist para construir uma matriz de distncias/dissemelhanas a partir duma matriz ou data frame de
dados. Por omisso, so calculadas as distncias euclideanas usuais entre os indivduos (linhas da
matriz ou data frame). As distncias
2
entre os 150 lrios de Fisher calculam-se com dist(iris[,-5]).
A funo dist admite algumas outras opes para os critrios de dissemelhana, que podem ser
invocadas atravs do argumento method. As opes actualmente disponveis (verso 2.9.2 do R) so,
alm da "euclidean", "maximum" (norma do supremo), "manhattan" (norma
1
), "canberra", "binary"
(para dados de tipo 0/1) ou "minkowski" (com potncia p controlvel atravs do argumento com esse
nome). Assim, as distncias
1
entre os lrios sero obtidas com o comando:

> dist(iris[,-5], method=manhattan)

Uma anlise classificatria hierarquizada no R pode efectuar-se atravs da funo hclust,





principal.



funes e packages.

2
1
1


automaticamente disponvel na distribuio base do R (package stats). Esta funo tem um nico
argumento obrigatrio, que uma estrutura de dissemelhanas, como as que so criadas pela funo
dist. A classificao hierrquica ser, por omisso, baseada no critrio de agregao do vizinho mais
distante, que considera a distncia entre dois grupos de observaes como sendo a maior das
dissemelhanas entre um indivduo de cada grupo (complete link). Outros critrios de agregao de
grupos esto disponveis atravs do argumento method da funo hclust, que actualmente tem como
valores possveis: "ward", "single", "complete", "average", "mcquitty", "median" e "centroid".

Os resultados so de difcil leitura sem auxiliares ulteriores, como a funo plot (que tem um mtodo
especfico para objectos de classe hclust, produzidos pela funo homnima, e que tambm pode ser
invocado explcitamente com o nome plclust). Esta funo produz a tradicional representao grfica
das classificaes hierrquicas: um dendrograma.

A funo cutree ajuda a interpretar dendrogramas com numerosas folhas (indivduos), que podem
no ser de fcil leitura. Esta funo exige como argumento um objecto de classe hclust, e ainda um de
dois parmetros: ou um nmero k de classes em que se deseja agrupar os indivduos, ou uma altura h
qual se deseja cortar o dendrograma, para identificar as classes que um tal corte produziria. Em ambos
os casos, o output da funo ser uma listagem do grupo a que pertencer cada individuo.

Um conjunto alternativo de funes para anlises classificatrias encontra-se num package mais
recente, chamado cluster, baseado em [4]. Trata-se de um package includo nas distribuies base do
R, mas que necessrio carregar explicitamente para uma sesso de trabalho:

> library(cluster)

Neste package encontram-se duas funes para anlises classificatrias hierrquicas: a funo agnes,
que efectua uma anlise hierrquica agregadora, isto , de baixo para cima, comeando por
considerar (tal como a funo hclust) que cada individuo constitui um grupo e procurando depois
agregar indivduos em grupos o mais possvel internamente homogneos e heterogneos entre si; e a
funo diana, que efectua uma anlise desagregadora, isto , de cima para baixo, iniciando num
nico grande grupo e procurando em seguida as melhores desagregaes possvel. O input destas
funes , tal como para a funo hclust, uma estrutura de dissemelhanas que pode ser produzida pela
funo dist. Mas o package disponibiliza uma funo prpria para calcular matrizes de dissemelhana,
a funo daisy, que tem a particularidade de poder lidar com dados nominais ou ordinais, atravs do
coeficiente de dissemelhana generalizado de Gower. O output pode, tambm aqui, ser passado para a
funo plot, produzindo, alm do dendrograma correspondente, uma outra visualizao grfica (a
banner). As funes agnes e diana tambm calculam indicadores numricos da qualidade da
classificao produzida (veja-se a documentao de cada funo para ulteriores pormenores).

Mtodos de classificao no-hierrquica esto tambm disponveis no R, quer atravs do package
cluster, quer em algumas outras funes. Entre estas ltimas, encontra-se a funo kmeans, que
agrupa indivduos em k classes, a partir duma matriz de dados numricos. O nmero de classes
desejado indicado atravs do argumento centers, que pode ter por valor uma matriz kxp com k
conjuntos de valores nas p variveis analisadas e que constituiro os centrides dos grupos em torno
dos quais agrupar os indivduos observados, ou apenas o nmero k de grupos que se deseja constituir
(em cujo caso sero aleatoriamente seleccionados k de entre os n indivduos na matriz de dados para
constituir os centros dos grupos). O algoritmo das k mdias procede a associar os indivduos a grupos,
tendo por critrio a minimizao da soma de quadrados das distncias de cada indivduo aos centros do
respectivo grupo. Eis um exemplo de aplicao desta funo, escolhendo o primeiro lrio de cada
espcie como centrides dos futuros grupos:

kmeans(iris[,-5],centers=iris[c(1,51,101),-5])
57 O u t o n o d e 2 0 0 9





principal.



funes e packages.

2
1
1






> library(cluster)







> library(cluster)




4. Anlises Discriminantes

As tradicionais Anlises Discriminantes linear (de Fisher) e quadrtica podem ser efectuadas com as
funes lda e qda, respectivamente, ambas disponveis no pacote MASS [5], que tem de ser
explicitamente carregado para estar disponvel numa sesso de trabalho, atravs do comando
library(MASS).

A funo lda pode ser invocada passando como argumentos de entrada uma matriz ou data frame com
as variveis numricas cujas combinaes lineares definem as funes discriminantes, e ainda com o
argumento group, que deve ser um factor indicado as classes cuja discriminao se deseja efectuar.
Assim, a discriminao linear das espcies de lrios, com base nas quatro variveis numricas
observadas pode ser pedida com o comando lda(iris[,-5] , group=iris[,5]). Alternativamente, o
argumento de entrada pode ser uma frmula, semelhante s utilizadas nas funes de ajustamentos de
regresses lineares ou ANOVAs, em que a varivel resposta ( esquerda do smbolo ~) seja o factor
dos grupos que se pretende discriminar, e as parcelas do lado direito sejam as variveis numricas em
que essa discriminao se baseia. De forma totalmente anloga se pode invocar a funo qda.
tambm possvel visualizar a discriminao produzida pelas duas primeiras funes discriminantes
lineares passando o resultado da funo lda para o comando plot.

O pacote mda (de mixture discriminant analysis) contm tambm funes teis para anlises
discriminantes.

5. Mtodos de scaling

Entre os mtodos que visam a representao grfica de indivduos, a partir duma matriz de
dissemelhanas, a abordagem mais clssica, de Gower, tambm conhecida por Anlise em
Coordenadas Principais. Essa tcnica est disponvel na distribuio base do R atravs da funo
cmdscale (classical multidimensional scaling). Esta funo aceita como argumento uma estrutura de
dissemelhanas, como as que so produzidas pela j referida funo dist (e ainda, a indicao do
nmero de dimenses nas quais se pretende fazer a representao mtrica das dissemelhanas, atravs
do parmetro k que, por omisso, toma o valor 2). Uma Anlise em Coordenadas Principais da matriz
de distncias
1
entre os 150 lrios obtm-se pelo comando cmdscale(dist(iris[,-
5],method=manhattan)). O comando plot lida bem com o resultado produzido pelo comando
cmdscale, gerando um grfico dos indivduos em duas dimenses.

De entre as muitas abordagens no-mtricas de scaling, duas esto disponveis atravs das funes
isoMDS e sammon, ambas includas no j referido package MASS. A utilizao destas funes faz-se
de forma semelhante ao que j foi descrito para a funo cmdscale.

6. Distribuies multivariadas

Algumas funes do R permitem trabalhar com distribuies multivariadas. A funo mvrnorm (do
pacote MASS) gera observaes duma multinormal com vector mdio (argumento mu) e matriz de
varincias (argumento Sigma) especificados como argumentos da funo. Nos packages mvtnorm e
mnormt (que necessrio descarregar a partir do repositrio CRAN cran.r-project.org instalar e
carregar para a sesso de trabalho, antes de estarem disponveis) encontram-se vrias funes para
trabalhar com a multinormal e a distribuio t multivariada. Em particular, o primeiro destes packages
disponibiliza funes da famlia d-p-q-r (disponveis para as distribuies univariadas) que geram
59 O u t o n o d e 2 0 0 9

4. Anlises Discriminantes

As tradicionais Anlises Discriminantes linear (de Fisher) e quadrtica podem ser efectuadas com as
funes lda e qda, respectivamente, ambas disponveis no pacote MASS [5], que tem de ser
explicitamente carregado para estar disponvel numa sesso de trabalho, atravs do comando
library(MASS).

A funo lda pode ser invocada passando como argumentos de entrada uma matriz ou data frame com
as variveis numricas cujas combinaes lineares definem as funes discriminantes, e ainda com o
argumento group, que deve ser um factor indicado as classes cuja discriminao se deseja efectuar.
Assim, a discriminao linear das espcies de lrios, com base nas quatro variveis numricas
observadas pode ser pedida com o comando lda(iris[,-5] , group=iris[,5]). Alternativamente, o
argumento de entrada pode ser uma frmula, semelhante s utilizadas nas funes de ajustamentos de
regresses lineares ou ANOVAs, em que a varivel resposta ( esquerda do smbolo ~) seja o factor
dos grupos que se pretende discriminar, e as parcelas do lado direito sejam as variveis numricas em
que essa discriminao se baseia. De forma totalmente anloga se pode invocar a funo qda.
tambm possvel visualizar a discriminao produzida pelas duas primeiras funes discriminantes
lineares passando o resultado da funo lda para o comando plot.

O pacote mda (de mixture discriminant analysis) contm tambm funes teis para anlises
discriminantes.

5. Mtodos de scaling

Entre os mtodos que visam a representao grfica de indivduos, a partir duma matriz de
dissemelhanas, a abordagem mais clssica, de Gower, tambm conhecida por Anlise em
Coordenadas Principais. Essa tcnica est disponvel na distribuio base do R atravs da funo
cmdscale (classical multidimensional scaling). Esta funo aceita como argumento uma estrutura de
dissemelhanas, como as que so produzidas pela j referida funo dist (e ainda, a indicao do
nmero de dimenses nas quais se pretende fazer a representao mtrica das dissemelhanas, atravs
do parmetro k que, por omisso, toma o valor 2). Uma Anlise em Coordenadas Principais da matriz
de distncias
1
entre os 150 lrios obtm-se pelo comando cmdscale(dist(iris[,-
5],method=manhattan)). O comando plot lida bem com o resultado produzido pelo comando
cmdscale, gerando um grfico dos indivduos em duas dimenses.

De entre as muitas abordagens no-mtricas de scaling, duas esto disponveis atravs das funes
isoMDS e sammon, ambas includas no j referido package MASS. A utilizao destas funes faz-se
de forma semelhante ao que j foi descrito para a funo cmdscale.

6. Distribuies multivariadas

Algumas funes do R permitem trabalhar com distribuies multivariadas. A funo mvrnorm (do
pacote MASS) gera observaes duma multinormal com vector mdio (argumento mu) e matriz de
varincias (argumento Sigma) especificados como argumentos da funo. Nos packages mvtnorm e
mnormt (que necessrio descarregar a partir do repositrio CRAN cran.r-project.org instalar e
carregar para a sesso de trabalho, antes de estarem disponveis) encontram-se vrias funes para
trabalhar com a multinormal e a distribuio t multivariada. Em particular, o primeiro destes packages
disponibiliza funes da famlia d-p-q-r (disponveis para as distribuies univariadas) que geram
valores de densidades, funes distribuio cumulativas, quantis e amostras simuladas,
respectivamente, para a multinormal e a t multivariada. O package sn disponibiliza funes para as
distribuies multinormal e t multivariada assimtricas.

Alm das funes e mtodos aqui referidos, esto disponveis numerosas outras funes e mtodos na
distribuio base ou nos packages adicionais do R. Informaes mais completas sobre ferramentas
disponveis no R para dados multivariados ou tcnicas de estatstica multivariada esto disponveis no
documento cran.r-project.org/web/views/Multivariate.html

Bibliografia

[1] Jolliffe, I.T. (2002). Principal Component Analysis, 2d ed., Springer-Verlag.
[2] Gabriel, K. R. (1971). The biplot graphical display of matrices with application to principal
component analysis. Biometrika, 58, 453-467.
[3] Everitt, B. (1974). Cluster Analysis. London: Heinemann Educ. Books.
[4] Kaufman, L. and Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster
Analysis. Wiley, New York.
[5] Venables, W.N. e Ripley, B.D. (2002). Modern Applied Statistics with S (fourth edition), Springer-
Verlag.

valores de densidades, funes distribuio cumulativas, quantis e amostras simuladas,
respectivamente, para a multinormal e a t multivariada. O package sn disponibiliza funes para as
distribuies multinormal e t multivariada assimtricas.

Alm das funes e mtodos aqui referidos, esto disponveis numerosas outras funes e mtodos na
distribuio base ou nos packages adicionais do R. Informaes mais completas sobre ferramentas
disponveis no R para dados multivariados ou tcnicas de estatstica multivariada esto disponveis no
documento cran.r-project.org/web/views/Multivariate.html

Bibliografia

[1] Jolliffe, I.T. (2002). Principal Component Analysis, 2d ed., Springer-Verlag.
[2] Gabriel, K. R. (1971). The biplot graphical display of matrices with application to principal
component analysis. Biometrika, 58, 453-467.
[3] Everitt, B. (1974). Cluster Analysis. London: Heinemann Educ. Books.
[4] Kaufman, L. and Rousseeuw, P.J. (1990). Finding Groups in Data: An Introduction to Cluster
Analysis. Wiley, New York.
[5] Venables, W.N. e Ripley, B.D. (2002). Modern Applied Statistics with S (fourth edition), Springer-
Verlag.

61 O u t o n o d e 2 0 0 9
A utilizao do R na produo de informao estatstica
Rita Sousa, rita.sousa@ine.pt
Instituto Nacional de Estatstica - DME/ME
Pedro Campos, pedro.campos@ine.pt
Instituto Nacional de Estatstica - DME/ME
Ana Patrcia Martins, apsc.martins@gmail.com
Ana Lusa Quitrio, anaquiterio@gmail.com

A utilizao do R na produo de informao estatstica

Rita Sousa, rita.sousa@ine.pt
Inst. Nacional de Estatstica DME/ME

Pedro Campos, pedro.campos@ine.pt
Inst. Nacional de Estatstica DME/ME, Univ. Porto FEP

Ana Patrcia Martins, apsc.martins@gmail.com

Ana Lusa Quitrio, anaquiterio@gmail.com

1. Nota Introdutria

O R uma linguagem e um ambiente de desenvolvimento integrado para anlise estatstica de dados e
construo de grficos, com a vantagem de constituir uma ferramenta open source gratuita. Uma das
grandes virtudes do R a semelhana entre a linguagem de construo do software e a desenvolvida
pelos utilizadores (Everitt, B. S. e Hothorn, T., 2006). Para alm disso, como um software open
source, possibilita ao utilizador o acesso aos procedimentos existentes, facilitando assim a criao de
novas funcionalidades. Este software particularmente til para profissionais e investigadores das
reas da Estatstica e da Matemtica, pela diversidade de mecanismos incorporados que lhes permite
conceber toda a anlise, desde a organizao dos dados execuo de clculos, grficos e
implementao de metodologias de anlise de dados. Apesar de ter uma forte utilizao e influncia
das comunidades de Matemticos e Estatsticos, o R tem vindo a conquistar profissionais e
investigadores de muitas outras reas de saber. Neste momento o R uma linguagem muito utilizada
no s na comunidade acadmica e cientfica mas tambm no meio empresarial.
A utilizao do R nos inquritos por amostragem trouxe muitas vantagens aos produtores de
informao estatstica, nomeadamente ao Instituto Nacional de Estatstica (INE). Neste artigo
apresenta-se a gnese da utilizao do R no INE e descrevem-se muito sucintamente os packages do R
que so utilizados para a estimao de variveis em inquritos por amostragem, tais como o package
survey, o SAE (para estimao em Pequenos Domnios) e os packages Hmisc e mice.
Este trabalho foi elaborado por quatro colaboradores que iniciaram desenvolvimentos em R no
INE, dois dos quais j no se encontram no Instituto.

2. O INE e o R

No INE, a utilizao do R teve incio em 2005 com o objectivo de replicar processos j existentes, at
ento exclusivamente realizados noutras linguagens. A opo pelo R mostrou-se uma aposta ganha,
uma vez que permitiu um maior controlo da programao e um ganho significativo nos tempos de
execuo dos procedimentos. Para alm de todas as potencialidades computacionais conhecidas do R,
o facto de estar associado a uma comunidade muito activa geradora de novos contributos e
actualizaes permanentes aos packages disponveis constitui um ponto fundamental na escolha desta
linguagem. O package mais utilizado pelo INE o survey, desenvolvido por Thomas Lumley,
professor da Universidade de Washington. O contacto com o autor e os comentrios dos utilizadores
tm permitido uma actualizao deste package, muitas vezes adaptado prpria realidade do INE. A
primeira grande aplicao desenvolvida em R no INE, destinava-se execuo de tarefas inerentes ao
Inqurito ao Emprego (IE) e dado que os resultados obtidos foram bons, o processo tem vindo a ser

utilizado em diversos outros inquritos, tais como o Inqurito Nacional de Sade (INS), o Inqurito
Utilizao de Tecnologias da Informao e da Comunicao (IUTIC), entre outros.
Aps o desenvolvimento de diversos programas, j de considervel complexidade, tornou-se
notria a necessidade de se criar uma aplicao que permitisse a sua utilizao tanto por utilizadores
mais especializados como por utilizadores comuns, no familiarizados com as questes metodolgicas.
Assim, a criao de uma interface grfica (com recurso ao package tcltk) tem sido um dos projectos
em desenvolvimento no INE (IE-R), para alm de toda a utilizao paralela que se faz do R no mbito
da investigao e implementao das metodologias estatsticas.

3. Da amostragem estimao

O R um dos softwares mais utilizados em investigao com recurso a metodologias estatsticas,
sendo a amostragem e a estimao duas das reas de maior utilizao.
De seguida descrevem-se alguns dos packages utilizados na produo de informao estatstica atravs
dos inquritos por amostragem do INE.

A amostragem e o package survey
No contexto da amostragem existem diversos packages em R que permitem aplicar os mtodos
probabilsticos mais usuais. No INE recorre-se mais frequentemente ao package survey (Lumley, T.,
2009) pelo facto deste permitir a anlise de dados provenientes de planos complexos de amostragem
(Cochran, W.G., 1977).
A produo de estatsticas oficiais passa muitas vezes pela elaborao de inquritos com diversas
especificidades que tornam o processo de anlise e de estimao mais complexo, como o caso do
desenho amostral muti-etpico, da ps-estratificao, da calibrao de ponderadores, da imputao
mltipla, etc. Assim, o package survey disponibiliza diferentes funes pensadas para responder a
algumas destas situaes de maior complexidade, como por exemplo os mtodos de reamostragem:
Bootstrap e Jackknife (Srndal et al., 1992) para a estimao da varincia dos estimadores, quando
estes no so directamente deduzveis de forma analtica. Isto acontece com importantes operaes
estatsticas, como o IE, o INS, o IUTIC, entre outros.
Desde 2005 que, no INE, o projecto IE-R tem permitido a automatizao dos principais
apuramentos deste inqurito, at ento produzidos em SAS. Grande parte da programao passa a ser
substituda por funes existentes no package survey, tendo-se verificado ganhos significativos nos
tempos de execuo e uma maior flexibilidade de alterao dos procedimentos. Para alm disso, a
utilizao do R neste inqurito tem despertado o interesse para a investigao de novas metodologias
estatsticas no sentido de explorar e inferir sobre a qualidade da informao produzida. Por exemplo, a
difuso peridica e sequencial dos resultados ao longo do tempo conduz-nos anlise de sries
temporais, que muitas vezes exigem um estudo mais aprofundado, como o que se faz no IE com
recurso ao R (Quitrio, A., 2008). A abertura e transparncia deste software possibilitam uma partilha
e evoluo constantes, tanto por parte dos autores como dos prprios utilizadores. O autor deste
package, Thomas Lumley, tem feito alteraes frequentes de cdigo quando, por algum motivo, as
funes existentes no se ajustam realidade dos inquritos do INE.

Estimao em Pequenos Domnios
Quando nos inquritos por amostragem as reas a estudar fornecem amostras com dimenso
suficientemente grande, conseguem-se obter estimativas com preciso adequada. No entanto, nos
casos em que as amostras so de dimenso insuficiente, as estimativas podero apresentar uma
variabilidade inaceitvel. Para obter estimativas para as variveis de interesse em reas com pouca ou
nenhuma informao disponvel, recorre-se a informao de outras reas e/ou a informao de
variveis auxiliares (Tukey, J.W., 1958). A Estimao em Pequenos Domnios (EPD)
frequentemente utilizada nestes casos, especialmente na estimao da taxa de desemprego do IE em
reas geogrficas muito desagregadas. A EPD tambm utilizada na estimao do rendimento das
famlias nos inquritos s condies de vida e rendimento em vrios pases. Os estimadores utilizados

neste mbito chamam-se directos, quando utilizam informao apenas do domnio de estudo,
podendo recorrer a informao auxiliar dentro do prprio domnio. Por outro lado, os estimadores
indirectos so aqueles que recorrem a informao das variveis de estudo ou de variveis auxiliares
fora do domnio de estudo.
O package SAE (Small Area Estimation), com cdigo desenvolvido em R por Virgilio Gmez
Rubio e Nicola Salvati no mbito do BIAS Project (http://www.bias-project.org.uk), permite facilitar o
trabalho de Estimao em Pequenos Domnios (Rubio, V.G. e Salvati, N., 2007).

Imputao de no respostas
No mbito da estimao, a qualidade no se afere apenas pela avaliao do erro amostral mas tambm
pela correco de factores alheios s tcnicas de amostragem, como por exemplo as no respostas. A
imputao um mtodo estatstico para o tratamento de no respostas, em que os valores omissos so
substitudos por estimativas, recorrendo a mtodos dedutivos ou determinsticos (Srndal et al., 2004).
O R disponibiliza um conjunto significativo de packages, dos quais destacamos o Hmisc na imputao
Bayesiana, na imputao pela mdia ou pelo 3 quartil e o package mice na imputao pelo mtodo
Hot Deck e por modelos lineares generalizados. Nesta temtica, foram feitos importantes
desenvolvimentos no tratamento de no respostas do IUTIC e do IE (Martins, Ana Patrcia, 2007),
tambm com recurso a funes disponveis no R.

Tratamento da Confidencialidade Estatstica
Para proteger a informao confidencial existem mtodos de controlo de divulgao (Statistical
Disclosure Control). Estes mtodos tm como objectivo, quer a proteco na difuso dos dados
agregados, como por exemplo os quadros de apuramento dos inquritos, quer na difuso dos
microdados (dados individualizados). Os mtodos de controlo de divulgao que so utilizados
seguem critrios predefinidos que procuram por um lado minimizar o risco de identificao das
unidades estatsticas a que se referem e, por outro lado, preservar algumas das propriedades estatsticas
dos microdados (como por exemplo, os totais). Existem, no R, dois packages vocacionados para o
tratamento do segredo estatstico de dados individualizados e de dados agregados: sdcMicro e
sdcTable. Ambos se baseiam em mtodos implementados no software -Argus e -Argus. Os mtodos
mais utilizados para tratamento do segredo em microdados so a Recodificao global, a Supresso
local, PostRAndomisation Method (PRAM) e Micro-Agregaes Numricas. Os mtodos mais
utilizados para tratamento do segredo em macrodados so o mtodo Hipercubo e o mtodo Optimal
(Willenborg, L., Waal, T. de, 1996, 2001).
Nos pargrafos anteriores foram referidos alguns dos muitos exemplos em que o R contribui com
aplicaes que permitem resolver problemas concretos atravs de solues que se encontram
disponveis e de acesso livre. De seguida, descrevem-se algumas aplicaes associadas aos packages
descritos no presente captulo.

4. Aplicaes

A produo de informao estatstica passa por diferentes fases, que vo desde o planeamento, at
recolha, ao tratamento e anlise dos dados. Quer na fase da concepo quer na fase da operao
propriamente dita, a definio das metodologias estatsticas assume um papel de extrema importncia.
Nos inquritos por amostragem, a produo de estatsticas e dos respectivos indicadores de preciso
pode ser uma tarefa difcil, principalmente quando se baseiam em planos de amostragem complexos.
Nesses casos, a utilizao de informao auxiliar e o recurso a tcnicas como a calibrao permitem
minorar o erro resultante do carcter aleatrio das amostras e de outros factores no amostrais (como
o caso das no respostas). A utilizao do R, em particular do package survey, facilita bastante a
implementao destas tcnicas. Neste contexto, podemos destacar algumas das funes mais
utilizadas:

63 O u t o n o d e 2 0 0 9

neste mbito chamam-se directos, quando utilizam informao apenas do domnio de estudo,
podendo recorrer a informao auxiliar dentro do prprio domnio. Por outro lado, os estimadores
indirectos so aqueles que recorrem a informao das variveis de estudo ou de variveis auxiliares
fora do domnio de estudo.
O package SAE (Small Area Estimation), com cdigo desenvolvido em R por Virgilio Gmez
Rubio e Nicola Salvati no mbito do BIAS Project (http://www.bias-project.org.uk), permite facilitar o
trabalho de Estimao em Pequenos Domnios (Rubio, V.G. e Salvati, N., 2007).

Imputao de no respostas
No mbito da estimao, a qualidade no se afere apenas pela avaliao do erro amostral mas tambm
pela correco de factores alheios s tcnicas de amostragem, como por exemplo as no respostas. A
imputao um mtodo estatstico para o tratamento de no respostas, em que os valores omissos so
substitudos por estimativas, recorrendo a mtodos dedutivos ou determinsticos (Srndal et al., 2004).
O R disponibiliza um conjunto significativo de packages, dos quais destacamos o Hmisc na imputao
Bayesiana, na imputao pela mdia ou pelo 3 quartil e o package mice na imputao pelo mtodo
Hot Deck e por modelos lineares generalizados. Nesta temtica, foram feitos importantes
desenvolvimentos no tratamento de no respostas do IUTIC e do IE (Martins, Ana Patrcia, 2007),
tambm com recurso a funes disponveis no R.

Tratamento da Confidencialidade Estatstica
Para proteger a informao confidencial existem mtodos de controlo de divulgao (Statistical
Disclosure Control). Estes mtodos tm como objectivo, quer a proteco na difuso dos dados
agregados, como por exemplo os quadros de apuramento dos inquritos, quer na difuso dos
microdados (dados individualizados). Os mtodos de controlo de divulgao que so utilizados
seguem critrios predefinidos que procuram por um lado minimizar o risco de identificao das
unidades estatsticas a que se referem e, por outro lado, preservar algumas das propriedades estatsticas
dos microdados (como por exemplo, os totais). Existem, no R, dois packages vocacionados para o
tratamento do segredo estatstico de dados individualizados e de dados agregados: sdcMicro e
sdcTable. Ambos se baseiam em mtodos implementados no software -Argus e -Argus. Os mtodos
mais utilizados para tratamento do segredo em microdados so a Recodificao global, a Supresso
local, PostRAndomisation Method (PRAM) e Micro-Agregaes Numricas. Os mtodos mais
utilizados para tratamento do segredo em macrodados so o mtodo Hipercubo e o mtodo Optimal
(Willenborg, L., Waal, T. de, 1996, 2001).
Nos pargrafos anteriores foram referidos alguns dos muitos exemplos em que o R contribui com
aplicaes que permitem resolver problemas concretos atravs de solues que se encontram
disponveis e de acesso livre. De seguida, descrevem-se algumas aplicaes associadas aos packages
descritos no presente captulo.

4. Aplicaes

A produo de informao estatstica passa por diferentes fases, que vo desde o planeamento, at
recolha, ao tratamento e anlise dos dados. Quer na fase da concepo quer na fase da operao
propriamente dita, a definio das metodologias estatsticas assume um papel de extrema importncia.
Nos inquritos por amostragem, a produo de estatsticas e dos respectivos indicadores de preciso
pode ser uma tarefa difcil, principalmente quando se baseiam em planos de amostragem complexos.
Nesses casos, a utilizao de informao auxiliar e o recurso a tcnicas como a calibrao permitem
minorar o erro resultante do carcter aleatrio das amostras e de outros factores no amostrais (como
o caso das no respostas). A utilizao do R, em particular do package survey, facilita bastante a
implementao destas tcnicas. Neste contexto, podemos destacar algumas das funes mais
utilizadas:

svydesign na definio do desenho amostral;
as.svrepdesign na criao de rplicas com recurso a mtodos de reamostragem, como o
mtodo de Jackknife;
calibrate na calibrao dos ponderadores, fazendo um ajustamento com recurso a informao
auxiliar mais recente;
svyby na obteno de estimativas e respectivos indicadores de preciso.

Para o tratamento das no respostas, podemos destacar as funes impute e impute.transcan do
package Hmisc e as funes complete e glm.mids do package mice:
impute na imputao por processos aleatrios, pela mdia ou pelo 3 quartil;
impute.transcan na imputao Bayesiana;
complete na imputao pelo mtodo Hot Deck;
glm.mids na imputao por modelos lineares generalizados.

Quanto ao package SAE, os modelos de regresso constituem uma importante ferramenta na
conjugao de informao auxiliar de diferentes domnios. Assim, as aplicaes do SAE focam-se nos
modelos lineares, com diferentes tipos de estimadores, como por exemplo os sintticos e os
compsitos. Neste tema destacamos a aplicao da seguinte funo:
lm para aplicar um modelo linear na estimao de uma dada varivel, num determinado
domnio de interesse.

Quanto aos packages sdcMicro e sdcTable para o tratamento do segredo estatstico, destacam-se as
funes:
Microaggregation (sdcMicro) Os registos so agrupados com base numa medida de
proximidade das variveis de interesse. Os pequenos grupos de registos so usados para
calcular agregados para essas variveis, que so divulgados em substituio do registo
individual de valores.
protectTable (sdcTable) Para supresso de dados tabulares, o processo desenvolve-se em
duas etapas: a supresso primria (identificao e supresso das clulas confidenciais) e a
supresso secundria (identificao e supresso das clulas no confidenciais, de modo a
proteger as clulas confidenciais).

Relativamente ao package tctlk, existe um elevado nmero de funes que permitem construir uma
interface grfica, semelhana da que est na base do package R Commander Rcmdr (que
disponibiliza botes e menus de acesso s principais funes de anlise de dados em R). Como
exemplo apresenta-se na figura 1 uma imagem de algumas das janelas que compem a aplicao do
projecto IE-R, ainda em desenvolvimento.

svydesign na definio do desenho amostral;
as.svrepdesign na criao de rplicas com recurso a mtodos de reamostragem, como o
mtodo de Jackknife;
calibrate na calibrao dos ponderadores, fazendo um ajustamento com recurso a informao
auxiliar mais recente;
svyby na obteno de estimativas e respectivos indicadores de preciso.

Para o tratamento das no respostas, podemos destacar as funes impute e impute.transcan do
package Hmisc e as funes complete e glm.mids do package mice:
impute na imputao por processos aleatrios, pela mdia ou pelo 3 quartil;
impute.transcan na imputao Bayesiana;
complete na imputao pelo mtodo Hot Deck;
glm.mids na imputao por modelos lineares generalizados.

Quanto ao package SAE, os modelos de regresso constituem uma importante ferramenta na
conjugao de informao auxiliar de diferentes domnios. Assim, as aplicaes do SAE focam-se nos
modelos lineares, com diferentes tipos de estimadores, como por exemplo os sintticos e os
compsitos. Neste tema destacamos a aplicao da seguinte funo:
lm para aplicar um modelo linear na estimao de uma dada varivel, num determinado
domnio de interesse.

Quanto aos packages sdcMicro e sdcTable para o tratamento do segredo estatstico, destacam-se as
funes:
Microaggregation (sdcMicro) Os registos so agrupados com base numa medida de
proximidade das variveis de interesse. Os pequenos grupos de registos so usados para
calcular agregados para essas variveis, que so divulgados em substituio do registo
individual de valores.
protectTable (sdcTable) Para supresso de dados tabulares, o processo desenvolve-se em
duas etapas: a supresso primria (identificao e supresso das clulas confidenciais) e a
supresso secundria (identificao e supresso das clulas no confidenciais, de modo a
proteger as clulas confidenciais).

Relativamente ao package tctlk, existe um elevado nmero de funes que permitem construir uma
interface grfica, semelhana da que est na base do package R Commander Rcmdr (que
disponibiliza botes e menus de acesso s principais funes de anlise de dados em R). Como
exemplo apresenta-se na figura 1 uma imagem de algumas das janelas que compem a aplicao do
projecto IE-R, ainda em desenvolvimento.

Figura 1 Aplicao IE-R janela principal e janela dos apuramentos trimestrais do IE

5. Notas Finais

Ao longo do texto foram apresentadas algumas aplicaes do R na produo de informao estatstica
realizada pelo INE. A introduo do R na produo de informao a partir de inquritos por
amostragem teve como objectivo principal o de efectuar uma optimizao e enriquecimento dos
procedimentos utilizados na produo de informao estatstica, que se traduzem na versatilidade e na
velocidade (j confirmada) nos apuramentos de alguns inquritos, tais como o Inqurito ao Emprego
(IE). O package survey, desenvolvido em R por Thomas Lumley, professor da Universidade de
Washington tem sido muito utilizado na estimao de indicadores do IE. O contacto com o autor e os
comentrios dos utilizadores tm permitido uma actualizao permanente deste package, o que
permite aos tcnicos do INE uma ligao estreita com o meio cientfico, permitindo desta forma o
desenvolvimento e aplicao de mtodos de estimao de forma muito mais eficaz. Para alm dos
mtodos desenvolvidos, o R permite tambm o desenvolvimento de interfaces grficas. Est a ser
desenvolvida em R uma aplicao informtica (IE-R) que ser de fcil utilizao para qualquer
utilizador, no necessariamente familiarizado com a metodologia do IE.
A estas aplicaes do R associam-se outras, tais como o tratamento de no respostas, a estimao
em pequenos domnios e o tratamento do segredo estatstico.

Agradecimentos
Agradece-se aos colegas do Servio de Mtodos, do Departamento de Metodologia e Sistemas de
Informao do INE, em particular ao Daniel Fernandes, Mafalda Cabral, Paula Marques e Slvia Mina,
pelos contributos na componente do projecto IE-R e colega Daniela Oliveira, pelos contributos no
tratamento da confidencialidade estatstica em R.

65 O u t o n o d e 2 0 0 9

Referncias Bibliogrficas
Cochran, W.G. (1977). Sampling techniques. John Wiley & Sons.
Everitt, B. S. and Hothorn, T. (2006). A Handbook of Statistical Analyses using R. Chapman &
Hall/CRC.
Lumley, T. (2009). Survey: analysis of complex survey samples. R package version 3.16.
Martins, Ana Patrcia (2007). Imputao Mltipla Aplicao Prtica aos dados do Inqurito ao
Emprego. Tese de Mestrado. Faculdade de Cincias da Universidade de Lisboa.
Quitrio, Ana (2008). Modelos de Regresso Dinmica na Reviso das Sries do Inqurito ao
Emprego, Tese de Mestrado. Faculdade de Cincias da Universidade de Lisboa.
Quitrio, A., Martins, A. P., Campos, P. e Sousa, R. (2008). Inqurito ao Emprego Aplicao no
Software R. Actas do Congresso da Sociedade Portuguesa de Estatstica, Lisboa.
Rubio, Virgilio Gmez e Salvati, Nicola (2007). Introduction to Small Area Estimation, disponvel
em: http://www.bias-project.org.uk/software/
Srdnal, C.E., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling. New York,
Springer.
Srndal, C. and Lundstrom, S. (2004). Estimation in Surveys with Nonresponse. John Wiley & Sons.
Tukey, J.W. (1958). Bias and Confidence in not-quite large samples. Annals of Mathematical
Statistics, 29-614.

Willenborg, L., Waal, T. de (1996). Statistical Disclosure Control in Practice. Springer Series:
Lecture Notes in Statistics, Vol. 111.

Willenborg, L., Waal, T. de (2001). Elements of Statistical Disclosure Control. Springer Series:

Links de Interesse
Anlise de Inquritos com R: http://faculty.washington.edu/tlumley/survey/
BIAS Project: http://www.bias-project.org.uk
Contedos do R: http://neacm.fe.up.pt/CRAN/
Imputao Mltipla: http://www.multiple-imputation.com/
Mailing Lists do R: http://tolstoy.newcastle.edu.au/R/
Pgina Principal do R: http://www.r-project.org

Figura 1 Aplicao IE-R janela principal e janela dos apuramentos trimestrais do IE

5. Notas Finais

Ao longo do texto foram apresentadas algumas aplicaes do R na produo de informao estatstica
realizada pelo INE. A introduo do R na produo de informao a partir de inquritos por
amostragem teve como objectivo principal o de efectuar uma optimizao e enriquecimento dos
procedimentos utilizados na produo de informao estatstica, que se traduzem na versatilidade e na
velocidade (j confirmada) nos apuramentos de alguns inquritos, tais como o Inqurito ao Emprego
(IE). O package survey, desenvolvido em R por Thomas Lumley, professor da Universidade de
Washington tem sido muito utilizado na estimao de indicadores do IE. O contacto com o autor e os
comentrios dos utilizadores tm permitido uma actualizao permanente deste package, o que
permite aos tcnicos do INE uma ligao estreita com o meio cientfico, permitindo desta forma o
desenvolvimento e aplicao de mtodos de estimao de forma muito mais eficaz. Para alm dos
mtodos desenvolvidos, o R permite tambm o desenvolvimento de interfaces grficas. Est a ser
desenvolvida em R uma aplicao informtica (IE-R) que ser de fcil utilizao para qualquer
utilizador, no necessariamente familiarizado com a metodologia do IE.
A estas aplicaes do R associam-se outras, tais como o tratamento de no respostas, a estimao
em pequenos domnios e o tratamento do segredo estatstico.

Agradecimentos
Agradece-se aos colegas do Servio de Mtodos, do Departamento de Metodologia e Sistemas de
Informao do INE, em particular ao Daniel Fernandes, Mafalda Cabral, Paula Marques e Slvia Mina,
pelos contributos na componente do projecto IE-R e colega Daniela Oliveira, pelos contributos no
tratamento da confidencialidade estatstica em R.


Referncias Bibliogrficas
Cochran, W.G. (1977). Sampling techniques. John Wiley & Sons.
Everitt, B. S. and Hothorn, T. (2006). A Handbook of Statistical Analyses using R. Chapman &
Hall/CRC.
Lumley, T. (2009). Survey: analysis of complex survey samples. R package version 3.16.
Martins, Ana Patrcia (2007). Imputao Mltipla Aplicao Prtica aos dados do Inqurito ao
Emprego. Tese de Mestrado. Faculdade de Cincias da Universidade de Lisboa.
Quitrio, Ana (2008). Modelos de Regresso Dinmica na Reviso das Sries do Inqurito ao
Emprego, Tese de Mestrado. Faculdade de Cincias da Universidade de Lisboa.
Quitrio, A., Martins, A. P., Campos, P. e Sousa, R. (2008). Inqurito ao Emprego Aplicao no
Software R. Actas do Congresso da Sociedade Portuguesa de Estatstica, Lisboa.
Rubio, Virgilio Gmez e Salvati, Nicola (2007). Introduction to Small Area Estimation, disponvel
em: http://www.bias-project.org.uk/software/
Srdnal, C.E., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling. New York,
Springer.
Srndal, C. and Lundstrom, S. (2004). Estimation in Surveys with Nonresponse. John Wiley & Sons.
Tukey, J.W. (1958). Bias and Confidence in not-quite large samples. Annals of Mathematical
Statistics, 29-614.

Willenborg, L., Waal, T. de (1996). Statistical Disclosure Control in Practice. Springer Series:

Willenborg, L., Waal, T. de (2001). Elements of Statistical Disclosure Control. Springer Series:

Links de Interesse
Anlise de Inquritos com R: http://faculty.washington.edu/tlumley/survey/
BIAS Project: http://www.bias-project.org.uk
Contedos do R: http://neacm.fe.up.pt/CRAN/
Imputao Mltipla: http://www.multiple-imputation.com/
Mailing Lists do R: http://tolstoy.newcastle.edu.au/R/
Pgina Principal do R: http://www.r-project.org

67 O u t o n o d e 2 0 0 9
R casa com Regresso Logstica
Joo Gomes, jjgomes@fc.ul.pt
CMAF, Faculdade de Cincias Universidade de Lisboa
Snia Nobre, soninobre@hotmail.com
Unidade de Gastrenterologia Centro Hospitalar de Cascais
R casa com Regresso Logstica

Joo Gomes, jjgomes@fc.ul.pt Snia Nobre, soninobre@hotmail.com

CMAF Unidade de Gastrenterologia
Faculdade de Cincias Centro Hospitalar de Cascais
Universidade de Lisboa

Os padri nhos so o estatsti co e a mdica

1. Encontro
A peritonite bacteriana espontnea (PBE) uma infeco que surge frequentemente em doentes com
cirrose heptica (doena do fgado avanada). Pode ser muito grave, alcanando uma taxa de
mortalidade intra-hospitalar de 20 a 40%, (Song, et al., 2006 and Thuluvath, Morss, & Thompson,
2001).
A identificao precoce de doentes de risco crucial para a melhoria do prognstico desta doena.
Existe um sistema de classificao amplamente usado para estratificar o risco dos doentes com
cirrose heptica (classificao de Child-Turcotte-Pugh), mas apresenta deficincias relativas,
designadamente, subjectividade de alguns parmetros avaliados.
Mais recentemente, surgiu o score MELD (Model for End-Stage Liver Disease), que se calcula
atravs de uma frmula matemtica computorizada, com recurso a 3 variveis objectivas, fornecidas
por anlises sanguneas (1. creatinina parmetro de avaliao da funo dos rins; 2. INR parmetro
de coagulao do sangue; 3. bilirrubina parmetro de avaliao da funo do fgado). Foi
demonstrado que este score prediz a sobrevida a curto prazo de doentes com cirrose heptica, mas no
existem dados relativos aos doentes com PBE (Kamath, et al., 2001).
Para alm disso, outras variveis podero estar implicadas na sobrevida destes doentes,
nomeadamente a idade mais avanada.
Portanto, do ponto de vista mdico, existe a necessidade de estabelecer um modelo simples, clere e
fidedigno, para aferir a probabilidade de sobrevida de um doente que entra no hospital com PBE, de
modo a adoptar as medidas e instituir os tratamentos adequados e assim melhorar o prognstico destes
doentes. (Nobre, Cabral, Gomes, & Leito, 2008).

2. O namoro
Numa primeira fase avalia-se a capacidade dos preditores da varivel resposta morte (varivel com
dois nveis: morte e sobrevida): a idade, o sexo, valores laboratoriais, meld, etc. Este trabalho, por
no ter sido efectuado no R, no ser apresentado aqui.
O teste T para os preditores contnuos e o teste do Qui-Quadrado em tabelas de contingncia para
os preditores definidos em categorias, permitem afirmar que as nicas co-variveis que mostram
diferenas significativas entre morte e sobrevida so meld e idade, ambas variveis contnuas.
Com o objectivo de analisar cada uma delas comecemos por introduzir o nosso conjunto de dados
(vamos chamar-lhe td):

#################################
td=read.table("todos.txt",h=T) # Leitura de um ficheiro tipo txt chamado todos
head(td) # Das 92 observaes sero apresentadas 3

idade meld morte
1 43 22 0
2 47 24 0
3 68 21 0

Tabela 1: Trs das observaes de um total de 92

td$morte=factor(td$morte) #considerar a varivel "morte" categrica
summary(td) #Resumo descritivo dos dados

idade meld morte
Min. :35.00 Min. : 9.00 0:63
1st Qu.:49.75 1st Qu.:16.00 1:33
Median :63.00 Median :21.00
Mean :60.69 Mean :22.32
3rd Qu.:71.00 3rd Qu.:28.00
Max. :90.00 Max. :48.00

Tabela 2: Algumas medidas de localizao de idade e meld e contagem de morte

Analisemos a importncia da varivel independente meld relativamente varivel resposta:

#MELD
###################################################################################################
#Resumo descritivo de meld mas separada por nvel de resposta
v=summary(td$meld[td$morte==0]) # morte=0 significa sobrevida
m=summary(td$meld[td$morte==1]) # morte=1 significa morte
list(v=v,m=m) # O comando list cria um output conjunto, dos dois nveis de resposta, da varivel meld

$v Min. 1st Qu. Median Mean 3rd Qu. Max.
9.00 14.50 18.00 19.08 24.00 34.00
$m Min. 1st Qu. Median Mean 3rd Qu. Max.
10.00 23.00 28.00 28.52 33.00 48.00

Tabela 3: As observaes correspondentes a sobreviventes tm menor valor de meld

Faamos agora uma anlise grfica:

#########################
par(mfrow=c(1,1),font.axis=2,font.lab=2,cex.lab=1.2) #parmetros a definir para o grfico
boxplot(meld~morte,ylab="meld",xlab="morte=1,sobrevida=0",td) #box-plot

Com o objectivo de analisar cada uma delas comecemos por introduzir o nosso conjunto de dados
(vamos chamar-lhe td):

#################################
td=read.table("todos.txt",h=T) # Leitura de um ficheiro tipo txt chamado todos
head(td) # Das 92 observaes sero apresentadas 3

idade meld morte
1 43 22 0
2 47 24 0
3 68 21 0

Tabela 1: Trs das observaes de um total de 92

td$morte=factor(td$morte) #considerar a varivel "morte" categrica
summary(td) #Resumo descritivo dos dados

idade meld morte
Min. :35.00 Min. : 9.00 0:63
1st Qu.:49.75 1st Qu.:16.00 1:33
Median :63.00 Median :21.00
Mean :60.69 Mean :22.32
3rd Qu.:71.00 3rd Qu.:28.00
Max. :90.00 Max. :48.00

Tabela 2: Algumas medidas de localizao de idade e meld e contagem de morte

Analisemos a importncia da varivel independente meld relativamente varivel resposta:

#MELD
###################################################################################################
#Resumo descritivo de meld mas separada por nvel de resposta
v=summary(td$meld[td$morte==0]) # morte=0 significa sobrevida
m=summary(td$meld[td$morte==1]) # morte=1 significa morte
list(v=v,m=m) # O comando list cria um output conjunto, dos dois nveis de resposta, da varivel meld

$v Min. 1st Qu. Median Mean 3rd Qu. Max.
9.00 14.50 18.00 19.08 24.00 34.00
$m Min. 1st Qu. Median Mean 3rd Qu. Max.
10.00 23.00 28.00 28.52 33.00 48.00

Tabela 3: As observaes correspondentes a sobreviventes tm menor valor de meld

Faamos agora uma anlise grfica:

#########################
par(mfrow=c(1,1),font.axis=2,font.lab=2,cex.lab=1.2) #parmetros a definir para o grfico
boxplot(meld~morte,ylab="meld",xlab="morte=1,sobrevida=0",td) #box-plot

69 O u t o n o d e 2 0 0 9
0 1
1
0
2
0
3
0
4
0
morte=1,sobrevida=0
m
e
l
d

Figura 1: A box-plot diferencia de forma clara os valores de meld para morte e sobrevida

A proporo de "mortes" por decil indicar se o modelo logstico um bom candidato a noivo:

################################
q=quantile(td$meld,seq(0,1,0.1)) #quantis da varivel meld: Mn, 0.1, 0.2, ., 0.9 e Max
meldcat=rep(0,dim(td)[1]) #cria uma nova varivel chamada meldcat com valor 0 para todas as observaes
for (i in 1:10) meldcat[td$meld>=q[i] & td$meld<q[i+1]]=mean(c(q[i],q[i+1])) # meldcat d a mdia por quantil
meldcat[td$meld >= q[10] ] <- mean(c(q[10],q[11]))
Morte=as.numeric(td$morte)-1 # morte passa a ser numrica 0 ou 1
tab=by(Morte, meldcat, mean) # Cria uma tabela com a proporo de morte=1 por classe
meldclas=as.numeric(names(tab))
tab=as.vector(tab)
mod1=glm(morte~meld,binomial(logit),td) # Criao de um modelo logstico, digamos, o primeiro "beijo"
plot(Morte~meld,td) # Dados 0 ou 1 como resposta ao valor de meld
points(fitted(mod1)~td$meld, pch=19,cex=1.1,col="blue") # A probabilidade de morte atribuda pelo modelo
points(meldclas,tab,col="red",pch=21,cex=1.2,ylim = c(0, 1)) #A proporo de morte=1 por cada classe criada

10 20 30 40
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
meld
M
o
r
t
e

Figura 2: A adaptao dos decis curva indica que a Regresso Logstica ser um bom partido
A Figura 2 indica-nos que a proporo de morte=1 por decil de meld tem um comportamento
semelhante curva logstica resultante do modelo ajustado; deste modo o modelo logstico perfila-se
como primeira opo para candidato a modelo.
Da mesma forma, a importncia da varivel independente idade relativamente varivel resposta
morte pode ser revelada atravs de um modelo de regresso logstico simples (teste de WALD
(Hosmer & Lemeshow, 2000) , p-value<0.1) e ainda numa perspectiva grfica semelhante anterior

#IDADE
###################################################################################################
mod2=glm(morte~idade,binomial,td) #O segundo "beijo"
summary(mod2)$coef # Output do R para um Modelo Linear Generalizado (Tabela de coeficientes e teste de Wald)
##############

Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.33938026 1.06224653 -2.202295 0.02764447
idade 0.02755013 0.01671938 1.647796 0.09939452

Tabela 4: A varivel idade revela alguma importncia, independentemente do valor de meld
40 50 60 70 80 90
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
idade
M
o
r
t
e
0 1
4
0
5
0
6
0
7
0
8
0
9
0
morte=1,sobrevida=0
i
d
a
d
e

Figura 3: A proporo de morte cresce com os decis. A idade mais elevada para morte=1

3. Casamento
Estamos ento na fase de considerar que o casamento, no s possvel, como ter tudo para dar
certo. Os preditores da varivel morte, a considerar, sero idade e meld. Construamos o modelo:

#MELD+IDADE
###################################################################################################
mod3=glm(morte~idade+meld,binomial,td) # O modelo
summary(mod3) #Output simplificado do modelo
71 O u t o n o d e 2 0 0 9
glm(formula = morte ~ idade + meld, family = binomial, data = td)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.7476 -0.6418 -0.4077 0.4760 2.6562
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.12405 2.11291 -4.318 1.57e-05 ***
idade 0.05379 0.02233 2.409 0.016 *
meld 0.22372 0.04903 4.563 5.04e-06 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 123.550 on 95 degrees of freedom
Residual deviance: 83.322 on 93 degrees of freedom
AIC: 89.322
Tabela 5:As variveis idade e meld explicam de forma significativa a varivel morte

Para analisar algumas caractersticas da populao, fornecidas pelo modelo, precisamos de introduzir
dois conceitos: ODDS
x,z
para {meld=x,idade=z} e ODDS_RATIO
k,m
(vamos supor k>0 e z>0).

ODDS
x,z
(O
x,z
) - Razo entre a proporo de indivduos na populao com {morte=1|x,z} e
{morte=0|x,z} (
,
( 1| , )
( 0 | , )
x z
P Y x z
O
P Y x z
=
=
=
) (Por exemplo, para 2/3 vs 1/3 o ODDS 2).
ODDS_RATIO
k,m
(OR
k,m
) - Razo entre O
x+k,z+m
e O
x,z

No caso do modelo logstico
, 0
exp( )
x z meld idade
O x z = + + e
,
,
,
( )
k x m x
k m meld idade
k x
O
OR Exp k m
O

+ +
= = + ,
o que implica, assim, caractersticas especiais na populao que obrigam a um OR
k,m
no dependente
de x e z. A principal restrio do modelo tambm a sua maior fora pela simplicidade que implica.
Por exemplo, dois indivduos com o mesmo valor de meld mas com 10 anos de diferena, tm OR
0,10
expresso pela seguinte expresso
0 ,7
0,10
,
(0 10 ) (10 )
x x
meld idade idade
k x
O
OR Exp Exp
O

+ +
= = + = ,
enquanto se ambos tiverem a mesma idade mas diferena de 1 unidade no valor de meld o seu OR
1,0
ser
1 ,0
1,0
,
( 0 ) ( )
x x
meld idade meld
k x
O
OR Exp Exp
O

+ +
= = + = .
O R, como bom companheiro, obviamente que estimar estes valores:

##################################
id10=exp(10*coef(mod3)[2]) #ODDS_RATIO para 10 anos de diferena e o mesmo valor de meld
meld1=exp(coef(mod3)[3]) #ODDS_RATIO por unidade de "meld" para indivduos com a mesma idade
c("10anos"=id10," 1 unidade"=meld1)

10anos.idade 1 unidade.meld
1.712439 1.250722

Tabela 6: ODD_RATIO de 10 anos e ODDS_RATIO de 1 unidade no valor de meld
O modelo estima,assim, um aumento de cerca de 71% no valor do ODDS em cada 10 anos e um
aumento de 25% no valor do ODDS por cada unidade a mais no valor de meld.
J agora podemos estimar o valor de O
x,z
ou mesmo P(morte=1|meld=x,idade=z) com x e z nas
respectivas mdias amostrais:


####################################################
#ODDSx,z para x e z nas respectivas mdias amostrais
id1=mean(td$idade);meld1=mean(td$meld) # Calcula as mdias
x1z1=data.frame(idade=id1,meld=meld1) #Cria um novo individuo com caractersticas mdias
Oxz=exp(predict(mod3,x1z1)) #Odds para o ndividuo mdio
Pmorte=1/(1+exp(-predict(mod3,x1z1))) # Probabilidade de morte para o ndividuo mdio
c(med_idade=id1,med_meld=meld1,ODDS=Oxz,Pmorte=Pmorte)

med_idade med_meld ODDS Pmorte
60.6875000 22.3229167 0.4208584 0.2962001

Tabela 7: Com base no modelo, indivduos com 60 anos e meld=22 tero, em mdia, um ODDS de 0.42 e
probabilidade de morte de 0.29

4. Avaliao do Desempenho
Vamos admitir o modelo fase de avaliao. A curva ROC (Hosmer & Lemeshow, 2000) uma das
tcnicas mais eficazes e por isso uma das mais utilizadas.
Na curva ROC o primeiro conceito a reter o de cut_off. O modelo permite estimar P(morte=1) para
cada uma das observaes. Se fixarmos um valor c { : 0 1} c c e se a cada observao atribuirmos o
valor 1 quando a sua estimativa superior ou igual a c ( 1 y = ) e o valor 0 caso contrrio ( 0 y = ),
estamos a definir um {cut_off=c}.
Com base neste conceito, vamos ter para cada cut_off um vector bidimensional
( ) atributos observados = = y , y constitudo por pares (0,0), (0,1), (1,0) ou (1,1). Obviamente que
muitos pares (0,0) e (1,1) so indicadores de uma boa capacidade preditiva do modelo (nmero de
acertos) para um " _ " cut off c = .
Sem nos alongarmos mais e partindo do principio que o leitor, ou j est familiarizado com o conceito,
ou, antes de continuar, ir fazer uma pesquisa mais aprofundada sobre o tema (Ver, por exemplo,
Hosmer & Lemeshow, 2000), calculemos alguns valores interessantes:

#ROC
###############################################################################################
library(ROCR) # Package disponvel no R para avaliar a curva ROC e afins
pred=prediction( fitted(mod3), td$morte) #Comando chave associado a ROCR
perf=performance(pred,"acc") # Calcula o nmero de acertos (Pares (0,0) e (1,1)
par(mfrow=c(1,1),mgp=c(2,1,0),font.axis=2,font.lab=1.2,lwd=1,cex.lab=1.2)
par(mai=c(1,1,1,1),col=2)
cut_off=.Call("R_get_slot", perf, "x.values") #Slot que nos permite conhecer os cut_off utilizados
(cf= as.vector (cut_off[[1]]))

Inf 0.993 0.990 0.969 0.948 0.936 0.934 0.908 0.904 0.893 0.892 0.882 0.803 0.783 0.747

0.067 0.061 0.060 0.050 0.048 0.040 0.039 0.029 0.025 0.023 0.021 0.018 0.011

Tabela 8: Alguns do valores criados pelo package para o cut-off

#SENSIBILIDADE VS ESPECIFICIDADE
###################################
sens=performance(pred,"sens") #'tpr"->verd. positivos(sensibilidade), P(y^=1|y=1)
espec=performance(pred,"spec") #'tnr"->verd. negativos (especificidade),P(y^=0|y=0)
sensibilidade=.Call("R_get_slot", sens, "y.values")[[1]] #Retira o slot com a sensibilidade por cut-off
especificidade=.Call("R_get_slot", espec, "y.values")[[1]] #Retira o slot com a especificidade por cut-off
plot(sensibilidade~cf,ylab="Sens. vs Espec.",xlab="Cut_off",cex=0.7,col=2)
points(especificidade~cf,t="l",lwd=2,col=3)
optimo=cf[which.min(abs(sensibilidade-especificidade))] # optimo ser o ponto de interseco das curvas
points(-0.1~optimo,t="h",lwd=3,col="black")
73 O u t o n o d e 2 0 0 9
text(0.53,0.03,round(optimo,2),col=4,font=2)
text(0.33,0.03,"cut_off optimo=",col=4,font=2)
legend(0.6,0.8,c("Sensibilidade","Especificidade"),text.col=c(2,3),bty="n",lwd=c(3,2),lty=c(3,1),col=c(2,3))

0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Cut_off
S
e
n
s
.

v
s

E
s
p
e
c
.
0.35 cut_off optimo=
Sensibilidade
Especificidade

Figura 4: Nesta figura v-se o cut_off ptimo, a sensibilidade e especifidade

A Figura 4 indica que a sensibilidade relativamente baixa. Assim o cut-off que torna o modelo com
melhor capacidade preditiva est abaixo de 0.5. O cut_off ptimo o que maximiza,
simultaneamente, a sensibilidade e a especificidade do modelo.
Outra informao fornecida pelo package a rea sob a curva sensibilidade vs 1-especificidade.
A esta rea usual chamar Area Under Curve (AUC).

# AREA SOB A CURVA ROC
##########################################################################
matplot(1-especificidade,sensibilidade,t="l",lwd=2,col=2,main="Curva ROC")
area= performance(pred, "auc")
area=.Call("R_get_slot", area, "y.values")[[1]] Slot que fornece o valor de AUC
legend(0.5,0.56, "AUC=",bty = "n", cex=1.2,text.col ="black")
text(0.78,0.5,round(area,2),cex=1.2,col="black")
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Curva ROC
1 - especificidade
s
e
n
s
i
b
i
l
i
d
a
d
e
AUC=0.85

Figura 5: Esta curva ROC permite afirmar que o modelo tem uma elevada capacidade predictiva
Outras tcnicas de diagnstico esto ainda disponveis mas no sero aqui analisadas.
5. Descendncia
Para terminar, importante perceber como este modelo poder ser til:
Do ponto de vista prtico, muito importante para o mdico dispor de uma ferramenta que lhe
permita avaliar precocemente se o doente com PBE que est a observar de elevado risco, porque
deste modo adoptar um conjunto de medidas e instituir tratamentos mais especficos, que em ltima
anlise podero melhorar o prognstico desse doente.

# ATRIBUIO ATRAVS DO PONTO DE CORTE
####################################################
require(grDevices)
beta=coef(mod3)
f=function(idade,meld)
{
eta=beta[1]+beta[2]*idade+beta[3]*meld
1/(1+exp(-eta))
}
idade=seq(30,95,0.5)
meld=seq(8,50,0.2)
z=matrix(0,nrow=length(idade),ncol=length(meld))
for(i in 1:length(idade))
for (j in 1:length(meld))
z[i,j]=f(idade[i],meld[j])
image(idade,meld,z>optimo,col=c("azure3","azure1"),xlab="AGE",ylab="MELD")
legend(70,50,c("atrib=morte","atrib=sobrevida"),pch=c(19,21),bg="white")
y=td$morte
points(td$idade[which(y==0)],td$meld[which(y==0)],pch=21) # Observaes
points(td$idade[which(y==1)],td$meld[which(y==1)],pch=19)
contour(idade,meld,z,labcex=1,add=T,col=1)
30 40 50 60 70 80 90
1
0
2
0
3
0
4
0
5
0
Idade
M
e
l
d
morte
sobrevida
0
.1

0
.
2

0
.
3

0
.4

0
.5

0
.6

0
.
7

0
.8

0
.9

Figura 6: possvel visualizar de forma simples a qualidade do modelo, comparando a atribuio com o real
As duas cores da Figura 6 separam as observaes por estimativa da probabilidade de morte, acima
(cor clara e atribuio=morte) ou abaixo do cut-off ptimo (atribuio=sobrevida). As curvas de
nvel permitem ainda visualizar o que aconteceria para outros cut-off. Assim, a Figura 6 promete
ajudar o mdico a atribuir um protocolo a cada novo doente, aps validao futura do modelo.

75 O u t o n o d e 2 0 0 9
6. Bibliografia
Faraway, J. J. (2006). Extending the Linear Model with R. Chapman & Hall/CRC.
Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression. John Wiley & Sons .
Kamath, P. S., Wiesner, R., Malinchoc, M., Kremers, W., Therneau, T. M., Kosberg, C. L., et al.
(2001). A model to predict survival in patients with end-stage liver disease. Hepatology , 33, pp. 464-
470.
McCullagh, P., & Nelder, J. (1983). Generalized Linear Models. Chapman & Hall/CRC.
Nobre, S. R., Cabral, J. E., Gomes, J. J., & Leito, M. C. (2008, Dec). In-hospital mortality in
spontaneous bacterial peritonitis: a new predictive model. Eur J Gastroenterol Hepatol. , 20 (12), pp.
1176-1181.
Song, J. Y., Jung, S. J., Park, C. W., Sohn, J. W., Kim, W. J., Kim, M. J., et al. (2006). Prognostic
significance of infection acquisition sites in spontaneous bacterial peritonitis: nosocomial versus
community acquired. J Korean Med Sci , 21, pp. 666-671.
Thuluvath, P. J., Morss, S., & Thompson, R. (2001). Spontaneous bacterial peritonitis in-hospital
mortality,predictors of survival, and health care costs from 1988 to 1998. Am J Gastroenterol , 96, pp.
1232-1236.

As Estveis no R
Helena Iglsias Pereira, hmpereira@fc.ul.pt
CEAUL e Departamento de Estatstica e Investigao Operacional, FCUL

AS ESTVEIS NO R



1. INTRODUO

comum em estatstica aplicada, assumir que os fenmenos aleatrios observados so o efeito de um
grande nmero de causas independentes e no observveis que se adicionam resultando no fenmeno
em estudo. Pelo teorema Limite Central a soma de variveis aleatrias independentes e identicamente
distribudas (i.i.d.) convenientemente centrada e reduzida, tem distribuio assinttica normal. Mais
geralmente, a soma de v.a.'s i.i.d., convenientemente normada tem ainda distribuio normal, desde
que se imponham algumas condies no comportamento assinttico do segundo momento truncado
das parcelas.
Pelo Teorema Limite Central Generalizado, se a soma de v.a.'s i.i.d. tem distribuio limite no
degenerada esta distribuio tem de ser um elemento da classe das leis estveis, de que a normal o
nico elemento com varincia finita.
A classe das distribuies estveis caracterizada por quatro parmetros, usualmente designados
por , , a e c, respectivamente o expoente caracterstico, parmetro de assimetria, localizao e
escala.
As variveis aleatrias estveis tm propriedades aditivas interessantes e so absolutamente
contnuas, mas somente se conhecem expresses analticas das funes densidade de probabilidade
(f.d.p.) correspondentes aos casos: =2 (normal), =1, =0 (Cauchy) e =1/2, =1 (Lvy).
Este facto aliado no existncia de alguns momentos destas distribuies, dificulta muito o
problema da inferncia estatstica em modelos estveis. No entanto, estas distribuies so usadas
numa grande variedade de problemas de economia, finanas, engenharia e estatstica [1].
Mais recentemente, a existncia de programas de computador com suficiente preciso permite
calcular as funes densidade, as funes de distribuio, os quantis e gerar amostras aleatrias destas
distribuies, nomeadamente o software R 2.6.2, como iremos ilustrar ao longo deste artigo.

2. MODELOS ESTVEIS: DEFINIES E PROPRIEDADES

Seja { }
N | n i
Y
uma sucesso de v.a.'s i.i.d., a v.a. X diz-se estvel sse para todo o n | N existem
constantes R |
n n
b e a > 0 tais que
( ) 1 2
1
. n , X
d
n
a
n
i
n
b
i
Y
+

A classe das distribuies estveis tem funo caracterstica (f.c.) da forma
77 O u t o n o d e 2 0 0 9

AS ESTVEIS NO R



1. INTRODUO

comum em estatstica aplicada, assumir que os fenmenos aleatrios observados so o efeito de um
grande nmero de causas independentes e no observveis que se adicionam resultando no fenmeno
em estudo. Pelo teorema Limite Central a soma de variveis aleatrias independentes e identicamente
distribudas (i.i.d.) convenientemente centrada e reduzida, tem distribuio assinttica normal. Mais
geralmente, a soma de v.a.'s i.i.d., convenientemente normada tem ainda distribuio normal, desde
que se imponham algumas condies no comportamento assinttico do segundo momento truncado
das parcelas.
Pelo Teorema Limite Central Generalizado, se a soma de v.a.'s i.i.d. tem distribuio limite no
degenerada esta distribuio tem de ser um elemento da classe das leis estveis, de que a normal o
nico elemento com varincia finita.
A classe das distribuies estveis caracterizada por quatro parmetros, usualmente designados
por , , a e c, respectivamente o expoente caracterstico, parmetro de assimetria, localizao e
escala.
As variveis aleatrias estveis tm propriedades aditivas interessantes e so absolutamente
contnuas, mas somente se conhecem expresses analticas das funes densidade de probabilidade
(f.d.p.) correspondentes aos casos: =2 (normal), =1, =0 (Cauchy) e =1/2, =1 (Lvy).
Este facto aliado no existncia de alguns momentos destas distribuies, dificulta muito o
problema da inferncia estatstica em modelos estveis. No entanto, estas distribuies so usadas
numa grande variedade de problemas de economia, finanas, engenharia e estatstica [1].
Mais recentemente, a existncia de programas de computador com suficiente preciso permite
calcular as funes densidade, as funes de distribuio, os quantis e gerar amostras aleatrias destas
distribuies, nomeadamente o software R 2.6.2, como iremos ilustrar ao longo deste artigo.

2. MODELOS ESTVEIS: DEFINIES E PROPRIEDADES

Seja { }
N | n i
Y
uma sucesso de v.a.'s i.i.d., a v.a. X diz-se estvel sse para todo o n | N existem
constantes R |
n n
b e a > 0 tais que
( ) 1 2
1
. n , X
d
n
a
n
i
n
b
i
Y
+

A classe das distribuies estveis tem funo caracterstica (f.c.) da forma

( ) ( ) ( ) 2 2 1 . , t
t
t
i t c iat exp t
(
(

( )
( )
( ] [ ] ( ) 3 2 1 1 2 0 0
1
2
1 2
. , , , , c , a
, t ln
, tan
, t >
=

Existem outras representaes da f.c. de uma distribuio estvel [5], mas esta a mais usual.
As distribuies estveis tm propriedades interessantes:

I) As caudas da funo de distribuio (f.d.) F de uma v.a. X estvel satisfazem

[ ]
( )
0) >
2
k +
1
k e 0
2
k ,
1
k 0, > (C e x quando
.
k k
k
C ) x ( F x
k k
k
C ) x ( F x
+
+

4 2
2
1 2
1
2
1 2
2
1

Donde se conclui que o expoente caracterstico (e.c.) est intimamente relacionado com o
comportamento das caudas da f.d., sendo o peso destas tanto menor quanto maior o e.c. (a normal a
estvel com caudas mais leves).

II) Toda a distribuio estvel de e.c. ( 2 0 < < ) tem momentos absolutos finitos de ordem
( ) , 0 (esta propriedade consequncia da anterior).

III) Dado que a funo caracterstica (t) absolutamente integrvel, todas as distribuies estveis
so absolutamente contnuas.

Por outro lado, o parmetro de assimetria "compara" o peso da cauda direita com o peso da cauda
esquerda
( )
2 1
1 2
5 2
2 1
1
1
2 1
2
1
1
k k
k k
= se tendo
.
k k
k
) x ( F ) x ( F
) x ( F
lim
x
k k
k
) x ( F ) x ( F
) x ( F
lim
x
+
+
=
+
+
+
=
+

E quando 1 , tem-se ainda a seguinte relao [2]

( )
( ) ( )
( ) 6 2
2
1
0
2
.
arctan
, ; F
tan
=


Tambm para =1 se pode verificar que ( ) , ; F 0 decresce com [4]. Podemos pois concluir que o
parmetro de assimetria est relacionado com as caudas da f.d. e com o valor desta no ponto x=0.
A funo stableSlider da biblioteca Rmetrics do software R verso 2.6.2, permite visualizar a f.d.
e a f.d.p. de uma v.a. estvel de parmetros ( ) c , a , , e que passaremos a designar por ( ) c , a , , S .

Nesta funo a parametrizao 1 a que corresponde representao (2.2), para a qual se verifica
a relao (2.6). Quando =0 a distribuio simtrica e portanto ( ) 5 0 0 . , ; F = , 1 .

79 O u t o n o d e 2 0 0 9

Tambm para =1 se pode verificar que ( ) , ; F 0 decresce com [4]. Podemos pois concluir que o
parmetro de assimetria est relacionado com as caudas da f.d. e com o valor desta no ponto x=0.
A funo stableSlider da biblioteca Rmetrics do software R verso 2.6.2, permite visualizar a f.d.
e a f.d.p. de uma v.a. estvel de parmetros ( ) c , a , , e que passaremos a designar por ( ) c , a , , S .

Nesta funo a parametrizao 1 a que corresponde representao (2.2), para a qual se verifica
a relao (2.6). Quando =0 a distribuio simtrica e portanto ( ) 5 0 0 . , ; F = , 1 .

Para outros valores de tem-se por exemplo, ( ) 0.5556 , . ; F = 1 8 1 0 e ( ) 0.9715 . , . ; F = 8 0 8 0 0 .

Quando =1 a relao (2.6) no vlida, mas podemos verificar que ( ) , ; F 0 decresce com .

3. GERAO DE ESTVEIS: UMA APLICAO

Seja X uma varivel aleatria estvel de parmetros reais ( ] [ ] 0 1 1 2 0 > c , R a , , , , .
Suponhamos que todos os parmetros so conhecidos excepto o parmetro de assimetria , e que a=0
e c=1 por comodidade de clculo. Como j foi referido anteriormente tem-se

( )
( ) ( )
( ) 1 3
2
2
1
0 .
tan arctan
, ; F

=

E resolvendo em ordem a obtm-se

( )
( )
( ) 2 3
2
0
2
1
.
tan
, ; F tan
=

A relao anterior permite obter um estimador do parmetro quando conhecido. Seja
( )
n
X ,... X
1
uma amostra aleatria de uma populao estvel padro ( ) 1 0, , , S que designaremos
abreviadamente por ( ) , S , ento

( )
( )
( ) 3 3
2
0
2
1
.
tan
, ; F tan
*
n
*
n
=

onde ( ) x F
*
n
A funo rstable (n, alpha, beta, gamma, delta, pm=c (0, 1, 2)), onde gamma o parmetro de
escala c, delta o parmetro de localizao a e o parmetro pm indica a parametrizao utilizada,
permite gerar amostras de uma distribuio ( ) c , a , , S . A parametrizao que nos interessa a 1 como
j referimos.
A ttulo de exemplo, inclumos o programa para a obteno de estimativas de a partir da gerao
de m amostras de dimenso n de uma estvel padro S (0.9,0.5).

n<-500
m<-100
alpha<-0.9
beta<-0.5
s<-matrix(0,nrow=n,ncol=m)
freq<-matrix(0,nrow=1,ncol=m)
F0_emp<-matrix(0,nrow=1,ncol=m)
estbeta<-matrix(0,nrow=1,ncol=m)
set.seed(011)
for(j in 1:m){s[,j]<-rstable(n,alpha,beta,1,0,1)
freq[,j]<-length(subset(s[,j],s[,j]<=0))
F0_emp[,j]<-freq[,j]/n # f.d. emprica no pto x=0
estbeta[,j]<-tan(alpha*pi*(0.5- F0_emp[,j]))/tan(pi*alpha/2)}
F0_emp
estbeta
round(mean(estbeta),4)
[1] 0.5046

var<-matrix(0,nrow=1,ncol=m)
for(j in 1:m){ var[,j]<-((estbeta[,j]-mean(estbeta)))^2/(m-1)}
round(sqrt(sum(var)),4)
[1] 0.0472

hist(estbeta, freq=FALSE, right=FALSE, breaks="Sturges", xlab="estbeta",
main="S(0.9, 0.5)", col="lightblue")


( )
( )
( ) 2 3
2
0
2
1
.
tan
, ; F tan
=

( )
n
X ,... X
1

( )
( )
( ) 3 3
2
0
2
1
.
tan
, ; F tan
*
n
*
n
=

onde ( ) x F
*
n
j referimos.

n<-500
m<-100
alpha<-0.9
beta<-0.5
set.seed(011)
F0_emp
estbeta
[1] 0.5046

[1] 0.0472


Ao apresentarmos este estimador do parmetro obtido em situaes muito particulares, todos os
restantes parmetros so conhecidos, pretendemos simplesmente dar um exemplo de aplicao da
funo rstable() do package Rmetrics do R verso 2.6.2.

4. AGRADECIMENTOS

A autora agradece ao Professor John P. Nolan os seus valiosos esclarecimentos relativamente
parametrizao a utilizar na funo rstable.

5. REFERNCIAS

[1] Adler, Robert J., Feldman, Raisa E., Taqqu, Murad S. (1998). A Practical Guide to Heavy Tails,
Birkhauser.
[2] Iglsias Pereira, H. (2009). As estveis no R. Notas e Comunicaes, 9/2009 .
[3] Nolan, John P. (1998). Parameterizations and models of stable distributions. Statistics and
Probability Letters, 38, p. 187-195.
[4] Nolan, John P. (2009). Stable Distributions- Models for Heavy Tailed Data, Captulo 1,
http://academic2.american.edu/~jpnolan/stable/stable.html.
[5] Zolotarev, V.M. (1986). One-dimensional Stable Distributions. Am. Math. Society. Providence,
R.I.

81 O u t o n o d e 2 0 0 9

( )
( )
( ) 2 3
2
0
2
1
.
tan
, ; F tan
=

( )
n
X ,... X
1

( )
( )
( ) 3 3
2
0
2
1
.
tan
, ; F tan
*
n
*
n
=

onde ( ) x F
*
n
j referimos.

n<-500
m<-100
alpha<-0.9
beta<-0.5
set.seed(011)
F0_emp
estbeta
[1] 0.5046

[1] 0.0472


Ao apresentarmos este estimador do parmetro obtido em situaes muito particulares, todos os
restantes parmetros so conhecidos, pretendemos simplesmente dar um exemplo de aplicao da
funo rstable() do package Rmetrics do R verso 2.6.2.

4. AGRADECIMENTOS

A autora agradece ao Professor John P. Nolan os seus valiosos esclarecimentos relativamente
parametrizao a utilizar na funo rstable.

5. REFERNCIAS

[1] Adler, Robert J., Feldman, Raisa E., Taqqu, Murad S. (1998). A Practical Guide to Heavy Tails,
Birkhauser.
[2] Iglsias Pereira, H. (2009). As estveis no R. Notas e Comunicaes, 9/2009 .
[3] Nolan, John P. (1998). Parameterizations and models of stable distributions. Statistics and
Probability Letters, 38, p. 187-195.
[4] Nolan, John P. (2009). Stable Distributions- Models for Heavy Tailed Data, Captulo 1,
http://academic2.american.edu/~jpnolan/stable/stable.html.
[5] Zolotarev, V.M. (1986). One-dimensional Stable Distributions. Am. Math. Society. Providence,
R.I.

Deteco de Fraude usando o R: um caso de estudo
Lus Torgo, ltorgo@liaad.up.pt
LIAAD / Inesc Porto, LA / Faculdade de Cincias / Universidade do Porto
Deteccao de Fraude usando o R:
um caso de estudo
Lus Torgo
LIAAD / Inesc Porto, LA / Faculdade de Ciencias
Universidade do Porto
15 de Setembro de 2009
1 Introducao
Este pequeno artigo pretende ilustrar a utilizacao do R [11] num problema concreto que e en-
quadravel no cenario mais lato da an alise de dados para apoiar a tarefa de deteccao de fraude em
ambientes com recursos de inspeccao limitados. A motiva cao para o uso desta ferramenta esta
relacionada fortemente com as suas caractersticas de codigo aberto e tambem a sua disponibi-
lizacao gratuita. Estas caractersticas permitem uma facil adaptacao de ferramentas existentes a
novos problemas. Para alem disso o poder da linguagem de programacao que lhe esta associada
permite o facil e rapido desenvolvimento de prot otipos que podem ser usados para testar ideias.
Finalmente, ao disponibilizar uma quantidade impressionante, e em constante crescimento, de fer-
ramentas e metodos de analise de dados, o R facilita grandemente o teste, avaliacao e compara cao
de diferentes metodologias para abordar um problema.
A deteccao de fraude e uma tarefa com forte impacto econ omico e social em in umeras areas
de actividade humana. As ferramentas inform aticas tem vindo a ser cada vez mais usadas para
a recolha de dados sobre uma grande parte das actividades humanas, levando muitas vezes à
criacao de bases de dados de tamanho demasiado grande para a inspec cao humana. Pela sua
sensibilidade, as actividades onde a deteccao de fraude tem lugar, tambem se encontram fortemente
monitorizadas. Neste contexto, o uso de ferramentas de analise de dados para suportar e apoiar a
tarefa de detecc ao de fraude tras vantagens obvias.
O comportamento fraudulento e normalmente um desvio à norma na actividade em causa.
Assim, nao e surpreendente que a detec cao destes desvios esteja relacionada com a deteccao de
outliers nas bases de dados que descrevem estas actividades. A deteccao de outliers e uma tarefa
de analise de dados por demais estudada e explorada em in umeras areas do saber (e.g. [5, 2, 4]).
O papel das ferramentas de analise de dados no contexto da detec cao de fraude e o de fornecer
pistas que possam ajudar na tarefa de inspecc ao dos casos suspeitos. Estas tarefas de inspeccao
estao normalmente sujeitas a fortes restricoes de recursos tanto humanos como nanceiros. De
facto, em muitas organizacoes nao existem recursos que possibilitem a inspeccao de todos os casos
minimamente suspeitos. Assim, e importante para estas organizacoes direccionar os seus recursos
para os casos mais relevantes. Esta nocao de relevancia e obviamente dependente do domnio
de aplicacao em causa. Podera ser relevancia economica, por exemplo interessando detectar as
situacoes com maior retorno nanceiro, mas tambem podera estar ligada a outros factores, por
exemplo sociais, n umero de deteccoes, etc..
Uma grande parte dos metodos de deteccao de outliers existentes limitam-se a fornecer uma
classicacao das observacoes em normais ou desviantes, de acordo com uma qualquer metodologia.
Este tipo de abordagens e pouco adequado a cenarios de deteccao de fraude com recursos limitados.
De facto, e facil deparar com situacoes em que sao sinalizadas mais observacoes desviantes do
que aquelas que os recursos actuais permitem inspeccionar. Neste contexto, sao de muito maior
utilidade ferramentas de deteccao de outliers que fornecam como resultado um ranking de grau
de desvio à normalidade das observacoes fornecidas à ferramenta. Munidos deste ranking, os
utilizadores poderao direccionar os recursos disponveis de forma mais racional, optimizando desta
forma os resultados obtidos com os mesmos.

E esta a assumpcao base do trabalho aqui descrito.
2 Um Caso de Estudo
As companhias Portuguesas tem que declarar mensalmente as suas transaccoes comerciais com
outros pases da UE ao Instituto Nacional de Estatstica (INE). Estes dados sao fornecidos atraves
de um formulario chamado INTRASTAT, cujo conte udo fornece ao INE informacoes como o
peso, o custo, a identica cao dos itens transaccionados, etc.. Posteriormente, estes dados sao
inseridos numa base de dados para utilizacao na producao de estatsticas de comercio externo.
Durante o preenchimento desses formularios podem ocorrer erros e a sua identicacao e de extrema
importancia para que as estatsticas calculadas a partir deles sejam dedignas. Os erros mais
frequentes sao por exemplo o da introdu cao de identicadores de artigos (IDs) incorrectos que vao
associar uma transacc ao a atributos errados, ou o uso incorrecto de unidades de medida como
declarar o peso em toneladas em vez de quilos. Estes erros podem ser vistos como anomalias
relativamente ao que sao as caractersticas tpicas das transaccoes envolvendo o mesmo tipo de
produtos. Neste contexto, e dada a sua raridade, eles tem todas as caractersticas de uma fraude
no sentido descrito anteriormente
1
.
Para saber se uma transaccao contem um erro ou nao, os especialistas do INE inspeccionam
manualmente as informa coes de que dispoem. Dado que o n umero de transac coes e da ordem
dos milhares por mes, e que os recursos humanos disponveis para esta tarefa sao limitados, um
sistema automatico que de apoio para esta tarefa de inspeccao e altamente desejavel. Este e o
nosso objectivo operacional com este trabalho.
O INE forneceu-nos uma base de dados com informacao sobre este tipo de transaccoes. Os
dados dizem respeito a oito meses do ano de 1998. Para cada mes, cada artigo possui um determi-
nado n umero de transaccoes. O n umero de transac coes varia dependendo do artigo e do mes. Por
exemplo, o artigo com ID 2013000 possui 70 transaccoes no mes de Setembro mas em Outubro
nao possui qualquer transac cao.
Ao longo do tempo, os especialistas do INE adquiriram algumas estrategias para lidar com
este problema. Em seguida apresentamos alguns dos conselhos que nos foram dados:
Utilizar a variavel custo por quilo para a identicacao das transaccoes com erros - de acordo
com os peritos do INE a variavel custo por quilo, que e obtida dividindo-se os custos de cada
transaccao pelos seus respectivos pesos, e a variavel mais eciente na deteccao dos erros.
Inspeccionar os artigos separadamente - este conselho decorre da diversidade dos itens. Por
exemplo, considerar o preco padrao do vinho so faz sentido quando estamos a tratar de
transaccoes de vinho.
Processar os dados mensalmente - esta e a forma como os dados eram tratados no INE na
epoca em que obtivemos os dados.
Enviar para inspeccao todas as transaccoes dos artigos com poucas transacc oes.
No conjunto de dados fornecidos, existe uma coluna com o resultado da inspeccao feita pelos
peritos do INE. Esta coluna so indica quais as transaccoes que foram identicadas como erro.
Nas transaccoes nao sinalizadas pode dar-se uma de duas situacoes: ou foram inspeccionadas
e nao foram consideradas erro; ou nao foram inspeccionadas. Infelizmente, na base de dados
1
Na realidade algumas dessas situacoes podem ser mesmo tentativas de fraude, embora possam tambem ser
simplesmente erros de introducao dos dados.
83 O u t o n o d e 2 0 0 9

2 Um Caso de Estudo
1
.
com os peritos do INE a vari avel custo por quilo, que e obtida dividindo-se os custos de cada
Enviar para inspeccao todas as transaccoes dos artigos com poucas transaccoes.
1

2 Um Caso de Estudo
1
.
com os peritos do INE a variavel custo por quilo, que e obtida dividindo-se os custos de cada
Enviar para inspeccao todas as transaccoes dos artigos com poucas transacc oes.
1
fornecida nao havia qualquer distincao entre estas duas situa coes. Assim, possumos informacao
somente sobre os erros detectados. Isto tem impacto nas medidas de avaliacao que vamos usar
para qualicar as metodologias que iremos tentar nesta tarefa de analise de dados.
Qualquer metodologia que seja usada nestes dados vai pegar num conjunto de dados referentes
às transacc oes de um determinado mes e vai sugerir um sub-conjunto destas como sendo as com
maior potencial para serem erros. Seja N
i
o conjunto de transac coes no mes i, e n
i
o conjunto
de erros identicados por um qualquer modelo. Vamos denir a percentagem de transaccoes
seleccionadas para inspec cao como uma das medidas de avaliacao, %S = n
i
/N
i
. De acordo com o
INE, para uma metodologia ser aceitavel tem que ter %S 50%. Seja E
i
o conjunto de observacoes
etiquetadas como erros pelos peritos do INE no mes i, e seja e
i
o subconjunto de n
i
que pertence a E
i
.
Neste contexto denimos uma outra estatstica de performance como sendo o Recall, %R = e
i
/E
i
.
Mais uma vez o INE dene como criterio mnimo para uma metodologia ser aceit avel atingir um
valor de %R=90%. Resumindo iremos qualicar a performance de qualquer modelo por um par de
valores, < %S, %R >, sendo que o INE dene como criterios mnimos que %S 50%%R 90%.
3 A Metodologia Proposta
A nossa metodologia para abordar este problema e baseada em metodos de agrupamento hi-
erarquico. Os metodos de agrupamento hierarquico podem ser usados para identicar outliers
como efeito lateral do processo de agrupamento (e.g. [10]). A maioria dos metodos de agrupa-
mento baseiam-se na informacao de uma matriz de distancias e portanto podem ser classicados
como metodos de deteccao de outliers baseados em distancias (e.g. [7]). Todavia metodos iterativos
como os metodos hierarquicos de agrupamento (e.g. [6]) conseguem lidar com regioes de diferente
densidade o que e um dos maiores problemas dos metodos de deteccao de outliers baseados em
distancias. De facto, olhando por exemplo para os metodos hierarquicos aglomerativos, eles pro-
cedem de forma iterativa juntando dois dos grupos actuais baseados num criterio relacionado com
a sua proximidade, sendo esta decisao tomada localmente, i.e. levando em conta unicamente os
dois grupos em causa.
A ideia geral do metodo que foi desenvolvido tem a ver com usar o percurso de cada obser-
va cao pelo dendrograma como fonte de informacao para obter um grau de outlier para a mesma. A
motivacao resulta na assumpcao que, tendo em conta os criterios usados para o processo de aglom-
eracao nos algoritmos de agrupamento hierarquico, os outliers deverao oferecer granderesistencia
a serem juntos num grupo com outras observacoes, nomeadamente se este grupo for formado por
um grande n umero de observacoes normais. Em resumo, a ideia chave da metodologia desen-
volvida [12] e a de usar a altura em que uma observacao e junta a outras durante o processo
aglomerativo de agrupamento hierarquico, como indicador do grau de desvio da mesma, e desta
forma obter um ranking de outliers. Cada observacao pode participar em varias juncoes ao longo
do processo iterativo. Levando isso em conta denimos o grau de outlier de uma observacao como,
OF
H
(x) = max
i
of
i
(x) (1)
em que i toma valores entre 1 e N 1 e representa o conjunto de passos de juncao em que x
participa, sendo N o n umero de observacoes do conjunto de dados.
A motivacao para esta formula tem a ver com tentar capturar tanto outliers locais como outliers
globais. Os outliers locais sao observacoes que tipicamente ofereceram uma grande resistencia
a serem juntos com os seus vizinhos mais proximos, dado serem outliers neste contexto local.
Todavia, assim que se juntam a estes, passando portanto a fazer parte de um conjunto maior de
observacoes, deixam de ser vistos como outliers.
A funcao o f
i
() determina o grau de outlier de uma observacao que participa na juncao que
teve lugar no passo i do processo iterativo de agrupamento. Denimo-la como sendo funcao da
diferen ca entre os tamanhos dos dois grupos envolvidos na juncao no passo i. A ideia e a de que
sempre que estamos em presen ca de uma juncao entre dois grupos com tamanho muito diferente,
fornecida nao havia qualquer distincao entre estas duas situa coes. Assim, possumos informacao
somente sobre os erros detectados. Isto tem impacto nas medidas de avaliacao que vamos usar
para qualicar as metodologias que iremos tentar nesta tarefa de analise de dados.
Qualquer metodologia que seja usada nestes dados vai pegar num conjunto de dados referentes
às transacc oes de um determinado mes e vai sugerir um sub-conjunto destas como sendo as com
maior potencial para serem erros. Seja N
i
o conjunto de transac coes no mes i, e n
i
o conjunto
de erros identicados por um qualquer modelo. Vamos denir a percentagem de transaccoes
seleccionadas para inspec cao como uma das medidas de avaliacao, %S = n
i
/N
i
. De acordo com o
INE, para uma metodologia ser aceitavel tem que ter %S 50%. Seja E
i
o conjunto de observacoes
etiquetadas como erros pelos peritos do INE no mes i, e seja e
i
o subconjunto de n
i
que pertence a E
i
.
Neste contexto denimos uma outra estatstica de performance como sendo o Recall, %R = e
i
/E
i
.
Mais uma vez o INE dene como criterio mnimo para uma metodologia ser aceitavel atingir um
valor de %R=90%. Resumindo iremos qualicar a performance de qualquer modelo por um par de
valores, < %S, %R >, sendo que o INE dene como criterios mnimos que %S 50%%R 90%.
3 A Metodologia Proposta
A nossa metodologia para abordar este problema e baseada em metodos de agrupamento hi-
erarquico. Os metodos de agrupamento hierarquico podem ser usados para identicar outliers
como efeito lateral do processo de agrupamento (e.g. [10]). A maioria dos metodos de agrupa-
mento baseiam-se na informacao de uma matriz de distancias e portanto podem ser classicados
como metodos de deteccao de outliers baseados em distancias (e.g. [7]). Todavia metodos iterativos
como os metodos hierarquicos de agrupamento (e.g. [6]) conseguem lidar com regioes de diferente
densidade o que e um dos maiores problemas dos metodos de deteccao de outliers baseados em
distancias. De facto, olhando por exemplo para os metodos hierarquicos aglomerativos, eles pro-
cedem de forma iterativa juntando dois dos grupos actuais baseados num criterio relacionado com
a sua proximidade, sendo esta decisao tomada localmente, i.e. levando em conta unicamente os
dois grupos em causa.
A ideia geral do metodo que foi desenvolvido tem a ver com usar o percurso de cada obser-
va cao pelo dendrograma como fonte de informacao para obter um grau de outlier para a mesma. A
motivacao resulta na assumpcao que, tendo em conta os criterios usados para o processo de aglom-
eracao nos algoritmos de agrupamento hierarquico, os outliers deverao oferecer granderesistencia
a serem juntos num grupo com outras observacoes, nomeadamente se este grupo for formado por
um grande n umero de observacoes normais. Em resumo, a ideia chave da metodologia desen-
volvida [12] e a de usar a altura em que uma observacao e junta a outras durante o processo
aglomerativo de agrupamento hierarquico, como indicador do grau de desvio da mesma, e desta
forma obter um ranking de outliers. Cada observacao pode participar em varias juncoes ao longo
do processo iterativo. Levando isso em conta denimos o grau de outlier de uma observacao como,
OF
H
(x) = max
i
of
i
(x) (1)
em que i toma valores entre 1 e N 1 e representa o conjunto de passos de juncao em que x
participa, sendo N o n umero de observacoes do conjunto de dados.
A motivacao para esta formula tem a ver com tentar capturar tanto outliers locais como outliers
globais. Os outliers locais sao observacoes que tipicamente ofereceram uma grande resistencia
a serem juntos com os seus vizinhos mais proximos, dado serem outliers neste contexto local.
Todavia, assim que se juntam a estes, passando portanto a fazer parte de um conjunto maior de
observacoes, deixam de ser vistos como outliers.
A funcao of
i
() determina o grau de outlier de uma observacao que participa na juncao que
teve lugar no passo i do processo iterativo de agrupamento. Denimo-la como sendo funcao da
diferen ca entre os tamanhos dos dois grupos envolvidos na juncao no passo i. A ideia e a de que
sempre que estamos em presen ca de uma juncao entre dois grupos com tamanho muito diferente,
entao existem fortes suspeitas que os membros do grupo menor poderao ser outliers locais. Neste
contexto, denimos a funcao como,
of
i
(x) = max
0,
|g
y,i
| |g
x,i
|
|g
y,i
| +|g
x,i
|
(2)
em que g
x,i
e g
y,i
sao os 2 grupos de observacoes envolvidos na juncao no passo i, e g
x,i
e o grupo
a que a observa cao x pertence.
De notar que nesta formulacao se a observacao x pertence ao grupo maior (i.e. |g
x,i
| >|g
y,i
|) o
valor de of
i
(x) e 0 uma vez que a fraccao tera um valor negativo.
A implementacao destas ideias no R foi facil pelo caracter de codigo aberto e programavel
deste ambiente. A nossa implementacao actual usa o resultado da funcao hclust() que e baseada
em codigo Fortran desenvolvido por F. Murtagh [9]. Esta funcao de agrupamento hierarquico
produz como resultado uma estrutura de dados que fornece varia informacao sobre o processo de
agrupamento. A estrutura em causa e um objecto da classe hclust que tem, entre varias outras
componentes, uma componente chamada merge que e uma matriz (N1) 2. Cada linha i desta
matriz descreve a juncao que foi levada a cabo no passo i do processo de juncao do algoritmo.
Cada linha da matriz possui dois n umeros representando os grupos que sao juntos no passo em
causa. Se algum desses n umeros e negativo, e.g. k, entao isso signica que o respectivo grupo
e formado unicamente pela observacao k. Por sua vez, se algum dos 2 n umeros e positivo, e.g.
m, entao signica que a jun cao e com o grupo que resultou da juncao descrita na linha m da
matriz merge. Usando a informacao desta matriz merge e facil implementar as ideias descritas
pelas Equa coes 1 e 2, praticamente sem qualquer custo computacional adicional ao ja incorrido
no processo de agrupamento. Todavia, e altamente provavel que este processo de agrupamento,
levado a cabo pela funcao hclust() do R, contenha codigo que seja desnecessario para a obtencao
dos graus de outlier que pretendemos. Assim, sera provavelmente possvel optimizar o processo
computacional em causa. Isto pode ser conseguido uma vez que todo o codigo do R, e logo tambem
da funcao hclust(), esta disponvel para todos os utilizadores. Este tipo de trabalho e difcil,
senao impossvel, em muitas ferramentas alternativas ao R, em que o utilizador esta restringido
a tentar ele proprio desenvolver o codigo dos outros, no caso de pretender realizar pequenas
modica coes ao mesmo. Isso nao so e muito mais trabalhoso, como muitas vezes pode nao ser
avel pois nem sempre os artigos que descrevem uma qualquer metodologia sao (ou podem ser)
exaustivos quanto a detalhes de implementacao que muitas vezes se revelam cruciais em termos
dos resultados obtidos. Neste contexto, o uso do R revelou-se crucial neste trabalho.
4 Alguns Resultados
Apresentamos em seguida alguns dos resultados obtidos neste caso de estudo. Por limitacao de
espaco nao poderemos abordar todas as questoes que foram consideradas no nosso trabalho sobre
este problema. O leitor mais interessado pode colher mais informa cao noutros artigos publicados [8,
12, 14, 13].
Foram realizadas varias experiencias destinadas a aferir a ecacia do metodo proposto no caso
de estudo que descrevemos. Procurou-se nao so vericar se o metodo era capaz de satisfazer
os criterios operacionais do INE, %S 50%%R 90%, mas tambem comparar este metodo
com outras alternativas existentes para obter graus de outlier. Relativamente às alternativas
consideradas foi usado o metodo LOF [3], considerado um estado da arte em termos de obtencao
de rankings de outliers, e disponvel na package dprep [1] do R. Tratando-se ambos de metodos de
ranking de outliers, foi decido usar 5 nveis de esforco de inspeccao (%S) pre-determinados: 30%,
35%, 40%, 45% e 50%, todos dentro das restricoes impostas pelo INE. Para cada um destes nveis
de esforco de inspeccao foram comparados os resultados obtidos pela nossa proposta e pelo metodo
LOF. Tal comparacao foi efectuada para cada um dos 8 meses, uma vez que o INE determina que
85 O u t o n o d e 2 0 0 9
entao existem fortes suspeitas que os membros do grupo menor poderao ser outliers locais. Neste
contexto, denimos a funcao como,
o f
i
(x) = max
0,
|g
y,i
| |g
x,i
|
|g
y,i
| +|g
x,i
|
(2)
em que g
x,i
e g
y,i
sao os 2 grupos de observacoes envolvidos na juncao no passo i, e g
x,i
e o grupo
a que a observa cao x pertence.
De notar que nesta formulacao se a observacao x pertence ao grupo maior (i.e. |g
x,i
| >|g
y,i
|) o
valor de of
i
(x) e 0 uma vez que a fraccao tera um valor negativo.
A implementacao destas ideias no R foi facil pelo caracter de codigo aberto e programavel
deste ambiente. A nossa implementacao actual usa o resultado da funcao hclust() que e baseada
em codigo Fortran desenvolvido por F. Murtagh [9]. Esta funcao de agrupamento hierarquico
produz como resultado uma estrutura de dados que fornece varia informacao sobre o processo de
agrupamento. A estrutura em causa e um objecto da classe hclust que tem, entre varias outras
componentes, uma componente chamada merge que e uma matriz (N1) 2. Cada linha i desta
matriz descreve a juncao que foi levada a cabo no passo i do processo de juncao do algoritmo.
Cada linha da matriz possui dois n umeros representando os grupos que sao juntos no passo em
causa. Se algum desses n umeros e negativo, e.g. k, entao isso signica que o respectivo grupo
e formado unicamente pela observacao k. Por sua vez, se algum dos 2 n umeros e positivo, e.g.
m, entao signica que a jun cao e com o grupo que resultou da juncao descrita na linha m da
matriz merge. Usando a informacao desta matriz merge e facil implementar as ideias descritas
pelas Equa coes 1 e 2, praticamente sem qualquer custo computacional adicional ao ja incorrido
no processo de agrupamento. Todavia, e altamente provavel que este processo de agrupamento,
levado a cabo pela funcao hclust() do R, contenha codigo que seja desnecessario para a obtencao
dos graus de outlier que pretendemos. Assim, sera provavelmente possvel optimizar o processo
computacional em causa. Isto pode ser conseguido uma vez que todo o codigo do R, e logo tambem
da funcao hclust(), esta disponvel para todos os utilizadores. Este tipo de trabalho e difcil,
senao impossvel, em muitas ferramentas alternativas ao R, em que o utilizador esta restringido
a tentar ele proprio desenvolver o codigo dos outros, no caso de pretender realizar pequenas
modica coes ao mesmo. Isso nao so e muito mais trabalhoso, como muitas vezes pode nao ser
avel pois nem sempre os artigos que descrevem uma qualquer metodologia sao (ou podem ser)
exaustivos quanto a detalhes de implementacao que muitas vezes se revelam cruciais em termos
dos resultados obtidos. Neste contexto, o uso do R revelou-se crucial neste trabalho.
4 Alguns Resultados
Apresentamos em seguida alguns dos resultados obtidos neste caso de estudo. Por limitacao de
espaco nao poderemos abordar todas as questoes que foram consideradas no nosso trabalho sobre
este problema. O leitor mais interessado pode colher mais informa cao noutros artigos publicados [8,
12, 14, 13].
Foram realizadas varias experiencias destinadas a aferir a ecacia do metodo proposto no caso
de estudo que descrevemos. Procurou-se nao so vericar se o metodo era capaz de satisfazer
os criterios operacionais do INE, %S 50%%R 90%, mas tambem comparar este metodo
com outras alternativas existentes para obter graus de outlier. Relativamente às alternativas
consideradas foi usado o metodo LOF [3], considerado um estado da arte em termos de obtencao
de rankings de outliers, e disponvel na package dprep [1] do R. Tratando-se ambos de metodos de
ranking de outliers, foi decido usar 5 nveis de esforco de inspeccao (%S) pre-determinados: 30%,
35%, 40%, 45% e 50%, todos dentro das restricoes impostas pelo INE. Para cada um destes nveis
de esforco de inspeccao foram comparados os resultados obtidos pela nossa proposta e pelo metodo
LOF. Tal comparacao foi efectuada para cada um dos 8 meses, uma vez que o INE determina que
a inspec cao seja feita mensalmente. Os resultados desta comparacao sao apresentados na Figura 1,
que foi obtida usando os gracos disponveis na package lattice do R.
% Recall
%

S
e
l
e
c
t
e
d
0.2
0.3
0.4
0.5
0.85 0.90 0.95 1.00
Ago/1998 Fev/1998
0.85 0.90 0.95 1.00
Jan/1998 Jun/1998
Mai/1998
0.85 0.90 0.95 1.00
Mar/1998 Out/1998
0.85 0.90 0.95 1.00
0.2
0.3
0.4
0.5
Set/1998
LOF.3
LOF.35
LOF.4
LOF.45
LOF.5
OF.H.3
OF.H.35
OF.H.4
OF.H.45
OF.H.5
Figura 1: Metodo OF
H
comparado com o metodo LOF.
Os gracos mensais apresentam duas linhas a tracejado que delimitam a regiao onde deverao
estar os resultados para satisfazerem os criterios do INE. Qualquer ponto fora do quadrante inferior
direito esta foram destes criterios. Conforme se podera vericar, alguns pontos nem sao visveis
nos gracos por sarem fora da escala comum usada em todos eles, que permite uma mais facil
leitura comparativa dos resultados mensais. Isto so acontece para alguns setups do metodo LOF.
A nossa proposta consegue meter quase todos os seus resultados nos criterios exigidos. Note-se
tambem a superioridade clara do nosso metodo de ranking em relacao ao LOF, neste problema em
particular. Os resultados globais sao notaveis uma vez que com um esforco de 30% e na maioria
dos meses possvel apanhar cerca de 95% dos erros detectados pelos peritos do INE, sendo a unica
excep cao o mes de Junho.
5 Conclusoes
Neste artigo descreveu-se uma abordagem de obtencao de rankings de outliers desenvolvida em
R, tirando partido quer das potencialidades desta ferramenta, quer do facto de o seu codigo
estar disponvel gratuitamente, o que permite a criacao de novos metodos trabalhando de forma
incremental sobre ferramentas ja existentes, como foi o caso.
O metodo desenvolvido foi aplicado a um caso de estudo concreto de deteccao de erros/fraudes
em registos de transaccoes de comercio externo das empresas Portuguesas. Esta e uma aplicacao
que requer grandes recursos de inspec cao dado o volume de dados envolvido. Nestes contextos,
e dada a usual limitacao destes recursos, e de particular importancia a utilizacao de metodos
de ranking de outliers. O nosso metodo provou obter resultados bastante bons nesta aplicacao
particular, conseguindo ao mesmo tempo satisfazer os criterios operacionais do cliente e bater o
estado da arte em ranking de outliers. O metodo desenvolvido e generico e podera ser aplicado a
outros problemas de deteccao de fraude em contextos de recursos limitados.
Relativamente a desenvolvimentos futuros, encontramo-nos neste momento a estudar e de-
senvolver formas alternativas de obter os rankings, nomeadamente usando criterios de ordena cao
mais exveis que possam ser ajustados mais facilmente aos objectivos operacionais dos utilizadores
nais destas ferramentas.
a inspec cao seja feita mensalmente. Os resultados desta comparacao sao apresentados na Figura 1,
que foi obtida usando os gracos disponveis na package lattice do R.
% Recall
%

S
e
l
e
c
t
e
d
0.2
0.3
0.4
0.5
0.85 0.90 0.95 1.00
Ago/1998 Fev/1998
0.85 0.90 0.95 1.00
Jan/1998 Jun/1998
Mai/1998
0.85 0.90 0.95 1.00
Mar/1998 Out/1998
0.85 0.90 0.95 1.00
0.2
0.3
0.4
0.5
Set/1998
LOF.3
LOF.35
LOF.4
LOF.45
LOF.5
OF.H.3
OF.H.35
OF.H.4
OF.H.45
OF.H.5
Figura 1: Metodo OF
H
comparado com o metodo LOF.
Os gracos mensais apresentam duas linhas a tracejado que delimitam a regiao onde deverao
estar os resultados para satisfazerem os criterios do INE. Qualquer ponto fora do quadrante inferior
direito esta foram destes criterios. Conforme se podera vericar, alguns pontos nem sao visveis
nos gracos por sarem fora da escala comum usada em todos eles, que permite uma mais facil
leitura comparativa dos resultados mensais. Isto so acontece para alguns setups do metodo LOF.
A nossa proposta consegue meter quase todos os seus resultados nos criterios exigidos. Note-se
tambem a superioridade clara do nosso metodo de ranking em relacao ao LOF, neste problema em
particular. Os resultados globais sao notaveis uma vez que com um esforco de 30% e na maioria
dos meses possvel apanhar cerca de 95% dos erros detectados pelos peritos do INE, sendo a unica
excep cao o mes de Junho.
5 Conclusoes
Neste artigo descreveu-se uma abordagem de obtencao de rankings de outliers desenvolvida em
R, tirando partido quer das potencialidades desta ferramenta, quer do facto de o seu codigo
estar disponvel gratuitamente, o que permite a criacao de novos metodos trabalhando de forma
incremental sobre ferramentas ja existentes, como foi o caso.
O metodo desenvolvido foi aplicado a um caso de estudo concreto de deteccao de erros/fraudes
em registos de transaccoes de comercio externo das empresas Portuguesas. Esta e uma aplicacao
que requer grandes recursos de inspec cao dado o volume de dados envolvido. Nestes contextos,
e dada a usual limitacao destes recursos, e de particular importancia a utilizacao de metodos
de ranking de outliers. O nosso metodo provou obter resultados bastante bons nesta aplicacao
particular, conseguindo ao mesmo tempo satisfazer os criterios operacionais do cliente e bater o
estado da arte em ranking de outliers. O metodo desenvolvido e generico e podera ser aplicado a
outros problemas de deteccao de fraude em contextos de recursos limitados.
Relativamente a desenvolvimentos futuros, encontramo-nos neste momento a estudar e de-
senvolver formas alternativas de obter os rankings, nomeadamente usando criterios de ordena cao
mais exveis que possam ser ajustados mais facilmente aos objectivos operacionais dos utilizadores
nais destas ferramentas.
Agradecimentos
Parte do trabalho descrito neste documento foi feito em colaboracao com Carlos Soares (LIAAD) e
Welma Pereira (LIAAD). Este trabalho enquadra-se no projecto oRANKI (PTDC/EIA/68322/2006),
nanciado pela FCT. Agradece-se ainda ao INE pelo fornecimento dos dados usados neste estudo.
Referencias
[1] Edgar Acuna, , members of the CASTLE group at UPR-Mayaguez, and Puerto Rico. dprep:
Data preprocessing and visualization functions for classication, 2008. R package version 2.0.
[2] V. Barnett and T. Lewis. Outliers in statistical data, 3rd edition. John Wiley, 1994.
[3] M. M. Breunig, H. P. Kriegel, R. Ng, and J. Sander. Lof: Identifying density-based local
outliers. In Proceedings of ACM SIGMO 2000 International Conference on Management of
Data, 2000.
[4] D. M. Hawkins. Identication of Outliers. Chapman and Hall, 1980.
[5] Victoria Hodge and Jim Austin. A survey of outlier detection methodologies. Articial
Intelligence Review, 22:85126, 2004.
[6] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Anal-
ysis. Wiley, New York, 1990.
[7] Edwin M. Knorr and Raymond T. Ng. Algorithms for mining distance-based outliers in large
datasets. In Proceedings of 24rd International Conference on Very Large Data Bases (VLDB
1998), pages 392403. Morgan Kaufmann, San Francisco, CA, 1998.
[8] A. Loureiro, L. Torgo, and C. Soares. Outlier detection using clustering methods: a data
cleaning application. In Proceedings of KDNet Symposium on Knowledge-based Systems for
the Public Sector, 2004.
[9] F. Murtagh. Multidimensional clustering algorithms. COMPSTAT Lectures 4, Wuerzburg:
Physica-Verlag, 1985.
[10] R. Ng and J. Han. Ecient and efective clustering method for spatial data mining. In Proc.
of VLDB94, 1994.
[11] R Development Core Team. R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria, 2009. ISBN 3-900051-07-0.
[12] L. Torgo. Resource-bounded fraud detection. In Neves et. al, editor, Proceedings of the 13th
Portuguese Conference on Articial Intelligence (EPIA07), LNAI, pages 449460. Springer,
2007.
[13] L. Torgo, W. Pereira, and C. Soares. Detecting errors in foreign trade transactions: dealing
with insucient data. In Lopes et. al, editor, Proceedings of the 14th Portuguese Conference
on Articial Intelligence (EPIA09), LNAI-5816. Springer, 2009.
[14] L. Torgo and C. Soares. Data Mining for Business Applications, chapter Resource-bounded
outlier detection using clustering methods. IOS Press, (to appear in 2009).
87 O u t o n o d e 2 0 0 9
Agradecimentos
Parte do trabalho descrito neste documento foi feito em colaboracao com Carlos Soares (LIAAD) e
Welma Pereira (LIAAD). Este trabalho enquadra-se no projecto oRANKI (PTDC/EIA/68322/2006),
nanciado pela FCT. Agradece-se ainda ao INE pelo fornecimento dos dados usados neste estudo.
Referencias
[1] Edgar Acuna, , members of the CASTLE group at UPR-Mayaguez, and Puerto Rico. dprep:
Data preprocessing and visualization functions for classication, 2008. R package version 2.0.
[2] V. Barnett and T. Lewis. Outliers in statistical data, 3rd edition. John Wiley, 1994.
[3] M. M. Breunig, H. P. Kriegel, R. Ng, and J. Sander. Lof: Identifying density-based local
outliers. In Proceedings of ACM SIGMO 2000 International Conference on Management of
Data, 2000.
[4] D. M. Hawkins. Identication of Outliers. Chapman and Hall, 1980.
[5] Victoria Hodge and Jim Austin. A survey of outlier detection methodologies. Articial
Intelligence Review, 22:85126, 2004.
[6] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Anal-
ysis. Wiley, New York, 1990.
[7] Edwin M. Knorr and Raymond T. Ng. Algorithms for mining distance-based outliers in large
datasets. In Proceedings of 24rd International Conference on Very Large Data Bases (VLDB
1998), pages 392403. Morgan Kaufmann, San Francisco, CA, 1998.
[8] A. Loureiro, L. Torgo, and C. Soares. Outlier detection using clustering methods: a data
cleaning application. In Proceedings of KDNet Symposium on Knowledge-based Systems for
the Public Sector, 2004.
[9] F. Murtagh. Multidimensional clustering algorithms. COMPSTAT Lectures 4, Wuerzburg:
Physica-Verlag, 1985.
[10] R. Ng and J. Han. Ecient and efective clustering method for spatial data mining. In Proc.
of VLDB94, 1994.
[11] R Development Core Team. R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria, 2009. ISBN 3-900051-07-0.
[12] L. Torgo. Resource-bounded fraud detection. In Neves et. al, editor, Proceedings of the 13th
Portuguese Conference on Articial Intelligence (EPIA07), LNAI, pages 449460. Springer,
2007.
[13] L. Torgo, W. Pereira, and C. Soares. Detecting errors in foreign trade transactions: dealing
with insucient data. In Lopes et. al, editor, Proceedings of the 14th Portuguese Conference
on Articial Intelligence (EPIA09), LNAI-5816. Springer, 2009.
[14] L. Torgo and C. Soares. Data Mining for Business Applications, chapter Resource-bounded
outlier detection using clustering methods. IOS Press, (to appear in 2009).
Tutorial: Inferncia bayesiana no R atravs do WinBUGS
Tutorial: Inferncia bayesiana no R atravs do WinBUGS

Valeska Andreozzi, valeska.andreozzi@fc.ul.pt

Maria Antnia Amaral Turkman, antonia.turkman@fc.ul.pt

Faculdade de Cincias da Universidade de Lisboa
Centro de Estatstica e Aplicaes da Universidade de Lisboa

Introduo
Modelos estatsticos desenvolvidos para compreender os problemas do mundo real so cada vez mais
complexos incluindo estruturas temporais, espaciais e hierrquicas, e muito frequentemente
apresentam misturas de pelo menos duas dessas trs estruturas. Por este motivo, a inferncia bayesiana
vem sendo cada vez mais utilizada, no s por estatsticos bayesianos, mas tambm por outros
investigadores que trabalham em aplicaes estatsticas. Este facto deve-se ao desenvolvimento
tecnolgico na dcada de 80 que permitiu que mtodos de integrao de Monte Carlo via cadeias de
Markov (MCMC) pudessem ser utilizados para gerar amostras da distribuio a posteriori para os
parmetros do modelo, permitindo realizar inferncias adequadas. BayesX, WinBUGS e R so alguns
exemplos de softwares gratuitos que estimam modelos simples e complexos atravs de uma
abordagem bayesiana. Todos os trs softwares esto disponveis para o ambiente Windows com uma
documentao razovel e com exemplos includos.
O BayesX (Belitz et al. 2009) foi desenvolvido para estimar modelos aditivos generalizados
mistos englobando diversos tipos de modelos complexos de regresso. Funciona atravs de funes
pr-definidas que so executadas sob forma de linha de comando.
O WinBUGS (Lunn et al. 2000), que pode ser considerado o software mais amplamente utilizado
no meio cientfico, difere do primeiro, pois tem a vantagem de permitir ao utilizador a estimao de
modelos por ele desenvolvido. Contudo, o utilizador precisa de escrever o respectivo cdigo do
programa definindo o modelo probabilstico para a funo de verosimilhana e tambm para a
distribuio a priori dos parmetros, requerendo assim um conhecimento da linguagem que no
assim to simples. Um ponto de partida para os iniciantes est nos cdigos dos programas para os
modelos bem conhecidos da literatura que podem ser encontrados nos exemplos do prprio WinBUGS,
como tambm em diversos livros/artigos e na web.
O R (R Development Core Team 2009) no um software especfico para estimar modelos atravs
de uma abordagem bayesiana. No obstante, vm sendo cada vez mais encontrados na sua pgina da
internet uma grande quantidade de bibliotecas que permitem efectuar inferncias bayesianas e que
podem ser utilizadas nas mais diversas reas e para os mais especficos modelos/mtodos. Alguns
exemplos so as bibliotecas para estimar modelos na rea do Marketing e Micro-econometria
(bayesm), anlise de sobrevivncia (bayesSurv) e Cincias Socias (MCMCpack). Outras bibliotecas
mais especficas incluem mtodos para modelos de valores extremos (evdbayes) e CGH micro-arranjos
(RJaCGH). Uma lista completa das bibliotecas que utilizam inferncia bayesiana pode ser encontrada
em Park 2009. Contudo, no desenvolvimento pleno da modelao bayesiana, o R deve ser encarado
89 O u t o n o d e 2 0 0 9
como uma potente ferramenta adicional na etapa de ligao com outros softwares especficos para
inferncia bayesiana e na etapa de diagnstico das amostras simuladas das distribuies a posteriori.
As bibliotecas coda (Convergence Diagnosis and Output Analysis) e boa (Bayesian Output Analysis)
so as mais utilizadas na fase ps estimao dos modelos e a biblioteca R2WinBUGS para a ligao
com o WinBUGS.
Este artigo prope-se apresentar o potencial do R na estimao de modelos estatsticos com
inferncia bayesiana atravs do WinBUGS ilustrando a facilidade com que esta ligao oferece para a
entrada de dados, que atravs do R se torna muito mais simples, e para a etapa do diagnstico.
Pressupe-se que o leitor deste artigo tenha familiaridade tanto com o WinBUGS como com o R e o
que vamos ensinar como podemos tornar a vida mais simples atravs da ligao de ambos.
Preliminares
Para acompanhar este artigo como um tutorial, tenha em seu computador o R e o WinBUGS
instalados. Ser tambm necessrio instalar as seguintes bibliotecas do R: R2WinBUGS, boa e coda.
Os utilizadores do Windows Vista devem ter ateno s restries de escrita impostas no directrio
C:\Program Files. Para facilitar a execuo deste tutorial, sugere-se a instalao do WinBUGS em
outro diretrio que no seja o Program Files, por exemplo, diretamente no C:\, ou unidade
equivalente.
Motivao
Foi seleccionado um exemplo bastante didctico para que a utilizao do R pudesse ser explorada
ao mximo. Os dados que so apresentados so relativos percentagem total de calorias resultantes de
carbohidratos complexos, ingeridas por 20 indivduos diabticos do sexo masculino, nos quais se
testou um novo regime alimentar. Como se pode verificar tambm se registou a idade (x
1
) e o peso dos
indivduos (x
2
), assim como a percentagem de calorias resultantes das protenas presentes na dieta (x
3
)
.
Tabela 1. Primeiras 6 observaes dos dados que se encontra no ficheiro dadosexemplo.dat
y x1 x2 x3
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
Pensa-se que a percentagem de carbohidratos (Y) est relacionada linearmente com as variveis X
1
,
X
2
e X
3
. De forma a verificar esta afirmao, foi elaborado um programa no WinBUGS, considerando
que Y
i
~ Normal(,
2
), i = 1, 2, , 20 e sem qualquer conhecimento a priori acerca dos parmetros do
modelo como mostra o cdigo do programa no Quadro 1.
Tutorial
Os passos necessrios para estimar o modelo bayesiano no R atravs do WinBUGS so:
a) Escrever o cdigo do programa do modelo estatstico no WinBUGS
Para escrever o cdigo do programa utilize o prprio WinBUGS. Aproveite para, ainda
no WinbBUGS, verificar a sintaxe do seu programa no menu
MODEL>Specification>Check model. Depois salve o ficheiro com extenso .bug
No nosso exemplo o modelo probabilstico est no ficheiro texto modeloexemplo.bug
b) Escrever o script do R para:
i. ler os dados
ii. chamar o Winbugs
iii. guardar os resultados das simulaes das distribuies a posteriori
iv. carregar as bibliotecas boa ou coda para diagnstico das cadeias
Quadro 1. Cdigo do programa do modelo estatstico em WinBUGS (modeloexemplo.bug).

model{
for (i in 1:N){
y[i] ~ dnorm (mu[i], tau)

#Modelo
#As covariveis foram centralizadas
mu[i] <- beta[1] + beta[2]*(x1[i]-mean(x1[])) +
beta[3]*(x2[i]-mean(x2[])) + beta[4]*(x3[i]-mean(x3[]))

#Resduo padronizado
r[i]<-(y[i]-mu[i])*sqrt(tau)

#Predio
z[i]~dnorm(mu[i],tau)

#Resduo absoluto para calcular p-valor
#da medida de discrepncia T
absry[i]<-abs(y[i]-mu[i])
absrz[i]<-abs(z[i]-mu[i])

#O objeto inv ser utilizado para o clculo
inv[i]<-1/(sqrt(tau)*exp(-tau/2*(y[i]-mu[i])*(y[i]-mu[i])))
}

#Prioris
tau ~ dgamma(0.0001,0.0001)
for (j in 1:4){
beta[j]~ dnorm(0,0.0001)
}

#Clculo do intercepto na escala original
alpha<- beta[1] - beta[2]*(mean(x1[])) -
beta[3]*(mean(x2[])) - beta[4]*(mean(x3[]))

sigma2<-1/tau

#Estatstica T
ty<-sum(absry[])
tz<-sum(absrz[])
pvalor<-step(tz-ty)
}

A seguir encontra-se o tutorial com os comandos do R.

1. Incio
Antes de comear no se esquea de alterar o diretrio de trabalho, isto , suponha que o ficheiro dos
dados encontra-se no diretrio C:\exemplo

> setwd("C:\\exemplo")

como uma potente ferramenta adicional na etapa de ligao com outros softwares especficos para
inferncia bayesiana e na etapa de diagnstico das amostras simuladas das distribuies a posteriori.
As bibliotecas coda (Convergence Diagnosis and Output Analysis) e boa (Bayesian Output Analysis)
so as mais utilizadas na fase ps estimao dos modelos e a biblioteca R2WinBUGS para a ligao
com o WinBUGS.
Este artigo prope-se apresentar o potencial do R na estimao de modelos estatsticos com
inferncia bayesiana atravs do WinBUGS ilustrando a facilidade com que esta ligao oferece para a
entrada de dados, que atravs do R se torna muito mais simples, e para a etapa do diagnstico.
Pressupe-se que o leitor deste artigo tenha familiaridade tanto com o WinBUGS como com o R e o
que vamos ensinar como podemos tornar a vida mais simples atravs da ligao de ambos.
Preliminares
Para acompanhar este artigo como um tutorial, tenha em seu computador o R e o WinBUGS
instalados. Ser tambm necessrio instalar as seguintes bibliotecas do R: R2WinBUGS, boa e coda.
Os utilizadores do Windows Vista devem ter ateno s restries de escrita impostas no directrio
C:\Program Files. Para facilitar a execuo deste tutorial, sugere-se a instalao do WinBUGS em
outro diretrio que no seja o Program Files, por exemplo, diretamente no C:\, ou unidade
equivalente.
Motivao
Foi seleccionado um exemplo bastante didctico para que a utilizao do R pudesse ser explorada
ao mximo. Os dados que so apresentados so relativos percentagem total de calorias resultantes de
carbohidratos complexos, ingeridas por 20 indivduos diabticos do sexo masculino, nos quais se
testou um novo regime alimentar. Como se pode verificar tambm se registou a idade (x
1
) e o peso dos
indivduos (x
2
), assim como a percentagem de calorias resultantes das protenas presentes na dieta (x
3
)
.
Tabela 1. Primeiras 6 observaes dos dados que se encontra no ficheiro dadosexemplo.dat
y x1 x2 x3
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
Pensa-se que a percentagem de carbohidratos (Y) est relacionada linearmente com as variveis X
1
,
X
2
e X
3
. De forma a verificar esta afirmao, foi elaborado um programa no WinBUGS, considerando
que Y
i
~ Normal(,
2
), i = 1, 2, , 20 e sem qualquer conhecimento a priori acerca dos parmetros do
modelo como mostra o cdigo do programa no Quadro 1.
Tutorial
Os passos necessrios para estimar o modelo bayesiano no R atravs do WinBUGS so:
a) Escrever o cdigo do programa do modelo estatstico no WinBUGS
Para escrever o cdigo do programa utilize o prprio WinBUGS. Aproveite para, ainda
no WinbBUGS, verificar a sintaxe do seu programa no menu
MODEL>Specification>Check model. Depois salve o ficheiro com extenso .bug
No nosso exemplo o modelo probabilstico est no ficheiro texto modeloexemplo.bug
b) Escrever o script do R para:
Carregando a biblioteca

> library(R2WinBUGS)

2. Leitura dos dados

> dados <- read.table("dadosexemplo.dat",header=T)

Criao de objectos separados para cada varivel

> N <- nrow(dados) #nmero de indivduos no banco de dados
> y <- dados$y #varivel resposta percentagem de carbohidratos
> x1 <- dados$x1 #covarivel idade
> x2 <- dados$x2 #covarivel peso em kg
> x3 <- dados$x3 #covarivel percentagem de calorias das protenas da dieta

Criao de uma lista com os dados que sero fornecidos ao programa do WinBUGS.

> data <- list("N", "y", "x1", "x2", "x3")

3. Declarao dos valores iniciais dos parmetros

> inits <- list(list(tau = 1, beta = c(0,0,0,0),z=y))

uma alternativa permitir que o R gere aleatoriamente os parmetros da seguinte forma:

#inits <- function()
# {list(tau = rgamma(1,shape=1000,scale=1/1000),
# beta = rnorm(4,0.001,sqrt(1/0.001)),z=y)}

Ateno parametrizao da distribuio Normal no R que difere da do Winbugs.
Temos para o R os parmetros e e no WinBUGS e =1/
2
(veja o help da funo Normal)

4. Declarao dos parmetros a serem monitorizados

> parameters <- c("tau","beta","alpha","mu","inv","pvalor")

5. Executando o WinBUGS

Listar o cdigo do modelo dentro do R. O ficheiro com o cdigo do modelo encontra-se no diretrio de
trabalho C:/exemplo

> file.show("modeloexemplo.bug")

Agora j temos todos os elementos para executar o WinBUGS atravs do R utilizando a funo bugs()

> result <- bugs (data=data, inits=inits, parameters.to.save=parameters,
+ model.file="modeloexemplo.bug", n.chains=1, n.iter=10000,n.burnin=2000,
+ bugs.directory="C:\\WinBUGS14",
+ debug=FALSE,save.history=FALSE,DIC=TRUE)

Para maiores detalhes de todos os argumentos da funo bugs() pesquise o help file (?bugs) ou o guia
(vignette) da biblioteca atravs do comando vignette(R2WinBUGS). Um rpido resumo dos principais
argumentos encontra-se a seguir:
data= objecto que contm os dados
inits= objecto que contm os valores iniciais dos parmetros
parameters.to.save= objeto que contm os nomes dos parmetros a serem monitorizados
model.file= ficheiro que contm o modelo do WinBUGS
n.chains= nmero de cadeias
n.iter= nmero total de iteraes por cadeia incluindo a fase de aquecimento
n.burnin= nmero de iteraes que sero descartadas na fase de aquecimento
bugs.directory= directrio onde se encontra instalado o WinBUGS
debug= o valor FALSE indica que o WinBUGS ser fechado automaticamente aps o trmino da
estimao do modelo
save.history= se TRUE grficos do trao de cada parmetro ser gerado no WinBUGS.
aconselhvel no exigir que o WinBUGS faa esses grficos, pois como em geral tm-se muito
parmetros, s vezes o WinBUGS pode deixar de responder. Alm disso os traos podero ser todos
feitos posteriormente no R
DIC= se TRUE ento deviance, pD e DIC so calculados.

Ao executar a funo bugs() no R o WinBUGS ser automaticamente aberto para simular amostras
das distribuies a posteriori dos parmetros. Se o argumento debug=FALSE o WinBUGS ser
fechado tambm automaticamente, retornando ao R e guardando os resultados no objecto que recebeu
a funo bugs(), que neste exemplo se chama result.

6. Resultado

Sumrio dos parmetros que foram declarados no vector parameters no passo 4. Este sumrio muito
semelhante ao que se obtm no WinBUGS

> result$summary

Diversos outros elementos esto presentes no objeto result. Por exemplo, as simulaes podem ser
encontradas em diversos formatos (matriz (result$sims.matrix) , lista (result$sims.list), array
(result$sims.array))

> names(result)

Lista dos nomes de todos os parmetros que foram monitorizados

> dimnames(result$sims.matrix)

Para futuras comparaes com outros modelos, pode obter-se o valor de DIC, BIC e do CPO
(condicional predictive ordinate). O valor de DIC encontra-se no objeto result. BIC e CPO tm que
ser calculados.

> #DIC
> dic <- result$DIC
> dic
> #clculo do BIC
> bic <- unlist(result$mean["deviance"]) + 4*log(N)
> #4 o nmero de parmetros do modelo
> bic
> #clculo do CPO
> #vector com os nomes dos parmetros
> nomesinv <- paste("inv[",1:N,"]",sep="")
> #amostra dos parmetros seleccionados
> simulainv <- result$sims.matrix[,nomesinv]
> cpo <- 1/apply(simulainv,2,mean)

91 O u t o n o d e 2 0 0 9
Carregando a biblioteca

> library(R2WinBUGS)

2. Leitura dos dados

> dados <- read.table("dadosexemplo.dat",header=T)

Criao de objectos separados para cada varivel

> N <- nrow(dados) #nmero de indivduos no banco de dados
> y <- dados$y #varivel resposta percentagem de carbohidratos
> x1 <- dados$x1 #covarivel idade
> x2 <- dados$x2 #covarivel peso em kg
> x3 <- dados$x3 #covarivel percentagem de calorias das protenas da dieta

Criao de uma lista com os dados que sero fornecidos ao programa do WinBUGS.

> data <- list("N", "y", "x1", "x2", "x3")

3. Declarao dos valores iniciais dos parmetros

> inits <- list(list(tau = 1, beta = c(0,0,0,0),z=y))

uma alternativa permitir que o R gere aleatoriamente os parmetros da seguinte forma:

#inits <- function()
# {list(tau = rgamma(1,shape=1000,scale=1/1000),
# beta = rnorm(4,0.001,sqrt(1/0.001)),z=y)}

Ateno parametrizao da distribuio Normal no R que difere da do Winbugs.
Temos para o R os parmetros e e no WinBUGS e =1/
2
(veja o help da funo Normal)

4. Declarao dos parmetros a serem monitorizados

> parameters <- c("tau","beta","alpha","mu","inv","pvalor")

5. Executando o WinBUGS

Listar o cdigo do modelo dentro do R. O ficheiro com o cdigo do modelo encontra-se no diretrio de
trabalho C:/exemplo

> file.show("modeloexemplo.bug")

Agora j temos todos os elementos para executar o WinBUGS atravs do R utilizando a funo bugs()

> result <- bugs (data=data, inits=inits, parameters.to.save=parameters,
+ model.file="modeloexemplo.bug", n.chains=1, n.iter=10000,n.burnin=2000,
+ bugs.directory="C:\\WinBUGS14",
+ debug=FALSE,save.history=FALSE,DIC=TRUE)

Para maiores detalhes de todos os argumentos da funo bugs() pesquise o help file (?bugs) ou o guia
(vignette) da biblioteca atravs do comando vignette(R2WinBUGS). Um rpido resumo dos principais
argumentos encontra-se a seguir:
data= objecto que contm os dados
inits= objecto que contm os valores iniciais dos parmetros
parameters.to.save= objeto que contm os nomes dos parmetros a serem monitorizados
estimao do modelo


6. Resultado


> result$summary


> names(result)



ser calculados.

> #DIC
> dic <- result$DIC
> dic
> #clculo do BIC
> bic
> #clculo do CPO

estimao do modelo


6. Resultado


> result$summary


> names(result)



ser calculados.

> #DIC
> dic <- result$DIC
> dic
> #clculo do BIC
> bic
> #clculo do CPO

Um grfico do CPO versus o ndice da observao (dados) tambm pode ser til quando for necessrio
comparar modelos

> plot(1:N,cpo,type="h",xlab="observation index",ylab="CPO")

E uma medida global do CPO pode ser calculada atravs de:

> fitmed<-sum(log(cpo))
> fitmed

A partir daqui inicia-se a outra etapa da estimao do modelo, onde o R possui um papel essencial,
pois as simulaes de cada parmetro esto automaticamente disponveis para serem diagnosticadas.

7. Diagnstico

7.1 Utilizando a biblioteca BOA

Em geral o nmero de parmetros sempre muito grande. Podemos guardar um objecto que inclui
somente alguns parmetros de interesse para fazer o diagnstico

> #gerando um vector com os nomes dos parmetros a serem diagnosticados
> nomespar <- paste("beta[",1:4,"]",sep="")
> nomespar
> #criando um objecto do tipo matriz com as simulaes dos parmetros escolhidos
> simulashort <- result$sims.matrix[,nomespar]
> #carregando a biblioteca
> library(boa)
> #carregando o menu
> boa.menu()

A biblioteca boa funciona com um menu incorporado. Para carregar o objecto simulashort que
contm as simulaes siga os seguintes passos: a) No BOA MAIN MENU, escolha opo 1:File; b) No
FILE MENU, escolha opo 3:Import Data; c) No IMPORT DATA MENU, escolha opo 5:Data
Matrix Object; d) E entre com o nome do objecto que contm as simulaes (simulashort).
Agora as amostras das distribuies a posteriori dos parmetros estimados no WinBUGS esto
disponveis para a biblioteca boa e basta percorrer os menus para fazer o diagnstico.

7.2 Utilizando a biblioteca CODA

> library(coda)

Caso tenha optado por no guardar os resultados das simulaes no formato do WinBUGS, deixando o
argumento codaPkg=FALSE, temos antes que transformar o objeto que recebeu a funo bugs() da
seguinte forma:

> resultcoda <- as.mcmc.list(result)

Tambm a biblioteca coda possui um menu

> codamenu()

Para ler os dados com as simulaes basta, no menu principal, selecionar opo 2: Use a mcmc object.
Logo a seguir escreve-se o nome do objecto, que no nosso caso o resultcoda, e pronto, as amostras
esto disponveis para o diagnstico.

Ao final deste tutorial espera-se que o leitor que o tenha experimentado fique com a impresso de que
vale a pena executar o WinBUGS atravs do R. Desta forma acaba-se com aquela preocupao de ter
que formatar os dados para o WinBUGS, guardar o ficheiro com as simulaes das cadeias e depois ter
que ler cada ficheiro no R para fazer o diagnstico e outras tarefas para apresentao de resultados
como grficos e mapas. Outras situaes em que essa ligao muito til surgem em estudos de
simulaes e no estudo de adequabilidade dos modelos usando jacknife. claro que nem tudo so
flores. Uma desvantagem dessa ligao deve-se ao facto da funo bugs() guardar as simulaes em
diversos formatos (matrix, lista, array) e isso pode gerar um problema de memria para o R quando o
nmero de parmetros excessivamente grande. Mas quando esse no o problema, podemos tirar
muito proveito desta ligao e se juntarmos as caractersticas do Sweave (Leisch 2002), que gera um
relatrio em Latex com as sadas do R automaticamente, temos o pacote completo para facilitar nosso
trabalho e a apresentao dos resultados.

Todo o material deste tutorial, incluindo os ficheiros com os dados e o modelo e um pdf com os
outputs do R, est disponvel em www.curso-r.wikidot.com/r2winbugs.

Outros exemplos tambm podem ser encontrados na vignette da biblioteca R2WinBUGS, que pode ser
visualizada em formato pdf atravs do seguinte comando no R:
> vignette("R2WinBUGS")

Referncias

Belitz C, Brezger A, Kneib T, Lang S. (2009): BayesX - Software for Bayesian inference in structured
additive regression models. Version 2.00 (6.5.2009) . Available from http://www.stat.uni-
muenchen.de/~bayesx.
Leisch F, 2002. Sweave user manual. http://www.ci.tuwien.ac.at/~leisch/Sweave/.
Lunn DJ, Thomas A, Best N, and Spiegelhalter D. (2000) WinBUGS - a Bayesian modelling
framework: concepts, structure, and extensibility. Statistics and Computing, 10:325-337. Available
from http://www.mrc-bsu.cam.ac.uk/bugs/.
Park JH, 2009. CRAN Task View: Bayesian Inference.
Available from http://cran.r-project.org/web/views/Bayesian.html
R: A language and environment for statistical computing. R Foundation for Statistical Computing,
Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.

Bibliografia

Albert J, 2007. Bayesian Computational with R. Captulo 11. Springer
Plummer M, Best N, Cowles K , Vines K, 2006. CODA: Convergence Diagnosis and Output Analysis
for MCMC. Rnews, 6(1):7-11. http://CRAN.R-project.org/doc/Rnews/
Smith B, BOA (Bayesian Output Analysis) http://www.public-health.uiowa.edu/boa/
Sturtz S, Ligges U, Gelman A, 2005. R2WinBUGS: A Package for Running WinBUGS from R.
Journal of Statistical Software, 12(3), 1-16.

93 O u t o n o d e 2 0 0 9
Um grfico do CPO versus o ndice da observao (dados) tambm pode ser til quando for necessrio
comparar modelos

> plot(1:N,cpo,type="h",xlab="observation index",ylab="CPO")

E uma medida global do CPO pode ser calculada atravs de:

> fitmed<-sum(log(cpo))
> fitmed

A partir daqui inicia-se a outra etapa da estimao do modelo, onde o R possui um papel essencial,
pois as simulaes de cada parmetro esto automaticamente disponveis para serem diagnosticadas.

7. Diagnstico

7.1 Utilizando a biblioteca BOA

Em geral o nmero de parmetros sempre muito grande. Podemos guardar um objecto que inclui
somente alguns parmetros de interesse para fazer o diagnstico

> #gerando um vector com os nomes dos parmetros a serem diagnosticados
> nomespar <- paste("beta[",1:4,"]",sep="")
> nomespar
> #criando um objecto do tipo matriz com as simulaes dos parmetros escolhidos
> simulashort <- result$sims.matrix[,nomespar]
> library(boa)
> #carregando o menu
> boa.menu()

A biblioteca boa funciona com um menu incorporado. Para carregar o objecto simulashort que
contm as simulaes siga os seguintes passos: a) No BOA MAIN MENU, escolha opo 1:File; b) No
FILE MENU, escolha opo 3:Import Data; c) No IMPORT DATA MENU, escolha opo 5:Data
Matrix Object; d) E entre com o nome do objecto que contm as simulaes (simulashort).
Agora as amostras das distribuies a posteriori dos parmetros estimados no WinBUGS esto
disponveis para a biblioteca boa e basta percorrer os menus para fazer o diagnstico.

7.2 Utilizando a biblioteca CODA

> library(coda)

Caso tenha optado por no guardar os resultados das simulaes no formato do WinBUGS, deixando o
argumento codaPkg=FALSE, temos antes que transformar o objeto que recebeu a funo bugs() da
seguinte forma:

> resultcoda <- as.mcmc.list(result)

Tambm a biblioteca coda possui um menu

> codamenu()

Para ler os dados com as simulaes basta, no menu principal, selecionar opo 2: Use a mcmc object.
Logo a seguir escreve-se o nome do objecto, que no nosso caso o resultcoda, e pronto, as amostras
esto disponveis para o diagnstico.




Referncias


Bibliografia






Referncias


Bibliografia


95 O u t o n o d e 2 0 0 9
Cincia Estatstica
Artigos Cientfcos Publicados

Caeiro, F., Gomes, M.I. and Henriques Rodrigues, L. (2009). Reduced-bias tail index estimators under
a third order framework. Communications in Statistics - Theory and Methods, 38(7), 1019-1040.
Caeiro, F. and Gomes, M.I. (2009). Semi-parametric second-order reduced-bias high quantile
estimation. Test, 18(2), 392-413.
Caiado, J., N. Crato and D. Pea (2009) - Comparison of time series with unequal length in the
frequency domain, Communications in Statistics: Simulation and Computation, 38, 527-40.
Gomes, M.I., Pestana, D. and Caeiro F. (2009). A note on the asymptotic variance at optimal levels of
a bias-corrected Hill estimator. Statistics and Probability Letters, 79(3), 295-303.
Menezes, R. and J.Tawn (2009) - Assessing the effect of biased and clustered sampling on variogram
estimation. Environmetrics, vol 20, issue 4, 445-459.
Valente, V. and T. Oliveira (2009) - Hierarchical Linear Models in Education Sciences: An
Application. Biometrical Letters vol. 46(1), 71-86.

Teses de Mestrado

Ttulo: A Satisfao no trabalho em Portugal: Uma anlise longitudinal com recurso a Latent
Growth Curve Models
Autora: Ana Lcia Teixeira Dias, analuciadias@fcsh.unl.pt
Orientadora: Maria de Ftima Salgueiro

Ttulo: Costumer Lifetime Value na Banca
Autora: Ana Margarida Gomes Alexandre, ana.margarida.alexandre@gmail.com
Orientadores: Anabela Costa e Elson Filho

Ttulo: A situao econmica e social na Unio Europeia. Anlise de alguns indicadores
Autora: Patrcia Pereira, patricia_arp02@hotmail.com
Orientadora: Manuela Magalhes Hill

Ttulo: Modelao longitudinal do bem-estar psicolgico com modelos de trajectria latente
Autora: Joana Malta Correia Guedes, joanavmalta@gmail.com
Orientadora: Maria de Ftima Salgueiro

Ttulo: Anlise de Dados Longitudinais Discretos: uma Aplicao ao Estudo da Influncia de Lpidos
no Adenocarcinoma Mamrio
Autora: Eunice Isabel Ganho Carrasquinha Trigueiro, nicecarrasquinha@hotmail.com
Orientadora: Salom Cabral

Ttulo: Risco de Exposio Humana aos Contaminantes na Alimentao: o cdmio e o chumbo no
peixe-espada preto
Autora: Ins Alves Farias, farias.ines@gmail.com
Orientadora: Maria Isabel Fraga Alves

Livros
Ttulo: A Linguagem R, programao para a anlise de dados
Autor: Lus Torgo
Ano: 2009. Editora: Escolar Editora. ISBN: 978-972-592-246-0

Ttulo: COMPSTAT 2008 Proceedings in Computational Statistics (com CD-ROM)
Edio: Paula Brito
Ano: 2008. Editora: Physica-Verlag. ISBN: 978-3-7908-2083-6

Ttulo: Abordagem Estatstica de Conjuntos Difusos
Autor: Abdul Suleman
Ano: 2009. Editora: Slabo. ISBN: 978-972-618-544-4

Ttulo: Estatstica Descritiva e Probabilidades. Problemas resolvidos e propostos com aplicaes em R
Autores: Fernanda Figueiredo, Adelaide Figueiredo, Alexandra Ramos, Paulo Teles
Ano: 2009 (2 Edio). Editora: Escolar Editora. ISBN: 978-972-592-249-1

Ttulo: Um mundo para conhecer os nmeros
Autores: M. J. Ferreira, I. Tavares, P. Campos, L. Loura, M. E. G. Martins, A. A. da Silva, R. Sousa
Ano: 2009. Editora: INE. ISBN: 978-98925-0043-0

Ttulo: Anlise de Sobrevivncia
Autores: Cristina Rocha e Ana Lusa Papoila
Ano: 2009. Edies SPE. ISBN: 978-972-8890-22-3

Ttulo: Estatstica. Arte de Explicar o Acaso
Editores: Irene Oliveira, Elisete Correia, Ftima Ferreira, Sandra Dias e Carlos Braumann

Teses de Doutoramento
Ttulo: META-ANLISE Harmonizao de testes usando os valores de prova
Autor: Fernando Jos Arajo Correia da Ponte Sequeira, fjsequeira@fc.ul.pt
Orientador: Dinis Duarte Ferreira Pestana

Na minha tese, apresento uma breve resenha de tpicos de Meta-Anlise que mostram a importncia
dessa subdisciplina da Estatstica na construco do conhecimento cientfico, viabilizando snteses dos
factos e concluses conhecidas, e explora-se com algum detalhe o problema das snteses usando nveis
de significncia descritivos.
Apresentamos uma tcnica artificiosa de calcular pseudo p-values, ampliando computacionalmente
a amostra, e estudamos as implicaes desses procedimentos na potncia dos testes meta-analticos
usuais, de Fisher e de Tippett; usando os mtodos de Stouffer, averiguamos o impacto do uso da
amostra ampliada no nmero de estudos no significativos que seriam necessrios para virar a deciso
de rejeio global, uma das formas mais usadas de avaliar o efeito do enviesamento na publicao nas
revises sistemticas e snteses meta-analticas.
Estabelecem-se ainda resultados sobre caracterizao de uniformes, e estuda-se a distribuio
exacta de funes de betas potencialmente teis em eventuais extenses usando espaamentos.
O objectivo fundamental a ampliao do vector de valores de prova (em certas experinias de
nmero muito reduzido) de forma a que se refore a probabilidade de aceitao de
0
H no caso desta
ser verdadeira e o mesmo suceda na rejeio no caso de ser falsa. Os p-values artificiais so gerados
a partir dos originais mas so independentes dos mesmos.

Fernando Sequeira
97 O u t o n o d e 2 0 0 9
Ttulo: A Linguagem R, programao para a anlise de dados
Autor: Lus Torgo
Ano: 2009. Editora: Escolar Editora. ISBN: 978-972-592-246-0

Ttulo: COMPSTAT 2008 Proceedings in Computational Statistics (com CD-ROM)
Edio: Paula Brito
Ano: 2008. Editora: Physica-Verlag. ISBN: 978-3-7908-2083-6

Ttulo: Abordagem Estatstica de Conjuntos Difusos
Autor: Abdul Suleman
Ano: 2009. Editora: Slabo. ISBN: 978-972-618-544-4

Ttulo: Estatstica Descritiva e Probabilidades. Problemas resolvidos e propostos com aplicaes em R
Autores: Fernanda Figueiredo, Adelaide Figueiredo, Alexandra Ramos, Paulo Teles
Ano: 2009 (2 Edio). Editora: Escolar Editora. ISBN: 978-972-592-249-1

Ttulo: Um mundo para conhecer os nmeros
Autores: M. J. Ferreira, I. Tavares, P. Campos, L. Loura, M. E. G. Martins, A. A. da Silva, R. Sousa
Ano: 2009. Editora: INE. ISBN: 978-98925-0043-0

Ttulo: Anlise de Sobrevivncia
Autores: Cristina Rocha e Ana Lusa Papoila

Ttulo: Estatstica. Arte de Explicar o Acaso
Editores: Irene Oliveira, Elisete Correia, Ftima Ferreira, Sandra Dias e Carlos Braumann

Ttulo: Modelao Estatstica com Misturas e Pseudo-Misturas
Autor: Miguel Martins Felgueiras, mfelg@estg.ipleiria.pt
Orientador: Dinis Duarte Pestana

Na minha tese procurei estudar diferentes tipos de misturas de distribuies, que por permitirem uma
mirade de combinaes de achatamento, assimetria e multimodalidade, so extremamente eficazes na
anlise de dados.
Comecei por trabalhar com as misturas finitas e convexas mais habituais (com aplicaes nas mais
diversas reas do conhecimento), que surgem quando um determinado atributo observado numa
populao com vrias subpopulaes, no sendo possvel classificar os elementos da amostra nestas.
Para misturas unimodais, apresentei alguns resultados assintticos, que podero ser teis em vrias
situaes prticas. Questes de parcimnia foram igualmente analisadas neste contexto. Em misturas
de gaussianas, as aproximaes obtidas permitem testar a igualdade das mdias e a igualdade das
varincias.
Atravs de uma generalizao da teoria clssica de extremos (permitindo estabilidade para
transformaes de forma) explorei ainda um novo tipo de misturas, finitas mas no convexas, que
permitem que as suas componentes tenham pesos negativos e pesos superiores a 1. Estas misturas so
extremamente flexveis, podendo ser uma sria alternativa na modelao, por exemplo, de trfego na
internet.
Finalmente, analisei misturas infinitas com parmetro de escala Pareto. Ao aleatorizar o parmetro
de escala, consegui modelos baseados no original mas de caudas mais pesadas, e que generalizam as
distribuies divididas usuais, com diversas aplicaes em estudos de robustez. Devido densidade
polinomial da distribuio Pareto, vrias densidades explcitas destas misturas foram obtidas.

Miguel Felgueiras
Ttulo: SETAR Nonlinearity, Nonstationarity and Forecasting
Autor: Pedro Goubeia, pgouveia@ualg.pt
Orientador: Paulo M.M. Rodrigues

Na minha tese so realizados diversos desenvolvimentos no mbito dos modelos SETAR (Self-
Exciting Threshold Autorregressive).
Numa primeira fase, em contexto no sazonal, so derivados testes de razes unitrias que tm por
base o princpio do Multiplicador de Lagrange e obtidas as suas distribuies. Estes testes, de acordo
com o estudo de Monte Carlo realizado, tm bom desempenho e no apresentam distoro do nvel
face a quebras na mdia, contrariamente ao que ocorre com a verso no-linear do teste DF proposta
na literatura.
Tambm ao nvel dos testes de razes unitrias, so realizados alguns desenvolvimentos que tm
por base a aplicao do mtodo dos mnimos quadrados generalizados e a estimao recursiva das
componentes determinsticas. Ainda em contexto no sazonal, so derivados os limites assimptticos
dos testes propostos na regio de quase no estacionaridade.
Por outro lado, boa parte do interesse do estudo de sries econmicas com sazonalidade est
associado presena de razes unitrias nas frequncias zero e sazonais. Nesta tese procede-se
derivao de testes de razes unitrias em modelos SETAR sazonais. Estes testes apresentam a
vantagem de permitir testar a eventual interferncia do ciclo econmico nos padres de sazonalidade.
Finalmente, na componente emprica da tese desenvolvido um estudo de previso que tem por
base a combinao de diversos modelos lineares e no-lineares e a aplicao de diferentes filtros
varivel dependente de forma a ter ou no em conta os efeitos da sazonalidade e no-estacionaridade.
Este estudo de previso procura ainda ser pioneiro na utilizao de modelos sazonais em metodologias
de combinao de previses. Esta componente aplicada tem por base o princpio segundo o qual
diferentes modelos apresentam complementaridades na aproximao ao Processo Gerador de Dados.

Pedro Gouveia
Ttulo: Mtodos Robustos em Geoestatstica
Autor: Hilrio Amlcar dos Santos Ribeiro Miranda, hmiranda@ua.pt
Orientadora: Maria Manuela Souto de Miranda

Na minha tese faz-se uma reviso dos mtodos de estimao usuais em Geoestatstica e prope-se um
estimador robusto do variograma, com boas propriedades de eficincia sob modelos Normais.
Como os mtodos de estimao do variograma existentes ou no so robustos, ou tm pouca
eficincia em modelos Normais, no trabalho apresenta-se um novo estimador do variograma, que se
designou por estimador de mltiplos variogramas. Resumidamente, o novo mtodo consiste em quatro
etapas, nas quais prevalecem, alternadamente, critrios de robustez ou de eficincia. Com a amostra
inicial e por questes de eficincia, so calculadas, de forma robusta, tantas estimativas pontuais do
variograma quantos os parmetros do modelo; com base nessas estimativas, os parmetros so
estimados pelo mtodo dos mnimos quadrados; as duas fases anteriores so repetidas um elevado
nmero de vezes, criando um conjunto de mltiplas estimativas da funo variograma; por fim, a
estimativa final do variograma definida pelas medianas das estimativas dos parmetros obtidas
anteriormente. Assim se obtm um estimador robusto e com boa eficincia em processos Gaussianos.
A investigao desenvolvida revelou que, ao usar estimativas discretas na primeira fase da
estimao do variograma, existem situaes onde a identificabilidade dos parmetros no est
assegurada. Para os modelos mais comuns, foi possvel estabelecer condies que garantem a
unicidade de soluo na estimao do variograma.
A estimao do variograma supe sempre a estacionaridade da mdia do processo. Como no so
conhecidos procedimentos objectivos para avaliar tal condio, no trabalho sugere-se um teste para
validar essa hiptese. A estatstica do teste um estimador-MM, cuja distribuio desconhecida nas
condies assumidas. Tendo em vista a sua aproximao, prope-se uma verso do mtodo bootstrap
adequada ao estudo de observaes de processos espaciais, a qual preserva a estrutura de dependncia
do processo.
Finalmente, o estimador de mltiplos variogramas avaliado em termos da sua aplicao prtica.
O trabalho contm um estudo com dados reais e outro de simulao, os quais confirmam as
propriedades estabelecidas. Em todos os casos analisados, o estimador proposto produziu melhores
resultados do que as alternativas usuais, tanto para a distribuio assumida, como para distribuies
contaminadas.

Hilrio Miranda
Ttulo: Extremos em sries temporais max-autorregressivas
Autora: Marta Ferreira, msferreira@math.uminho.pt
Orientadora: Lusa Canto e Castro

A minha tese tem como motivao inicial a continuao do estudo do comportamento extremal de
nveis que persistem por um perodo de tempo fixo, introduzido em Draisma (2001). De uma anlise
sob o pressuposto de que esses nveis constituem uma srie de observaes i.i.d., rapidamente se passa
hiptese mais realista de considerar dependncia entre as observaes, embora mantendo a
estacionaridade. Uma vez que sempre uma modelao dos valores extremos que est em mente,
muito naturalmente se pensa nos modelos autorregressivos de mximos, como os MARMA (Davis e
Resnick, 1989), em particular, os MARMA(1,0), tambm designados ARMAX (Alpuim 1989a, 1989b
e Canto e Castro 1992). Na sequncia do interesse em contemplar situaes de dependncia, surge a
questo de avaliar se existe uma dependncia ou independncia exactas entre observaes
consecutivas consideradas nas caudas, ou se uma dependncia que vai desaparecendo gradualmente.
Ledford e Tawn (1996) introduzem um modelo, no qual surge um novo parmetro que permite ``medir
o grau'' de dependncia na cauda, designado coeficiente de dependncia assinttica na cauda ou
coeficiente de Ledford e Tawn. no decurso do clculo do valor deste coeficiente para os usuais max-
autorregressivos, que surge a construo do processo pARMAX, o qual inclui um parmetro potncia,
que faz com que o coeficiente de Ledford e Tawn se relacione directamente com esse mesmo
parmetro.
De modo a atenuar o carcter um tanto determinstico do processo pARMAX e, assim, torn-lo mais
aplicvel na modelao de dados reais, considera-se uma generalizao do mesmo, com a introduo
de um factor aleatrio.
Surge assim um novo processo max-autorregressivo potncia, que designamos pRARMAX, o qual
mantm a particularidade do seu parmetro potncia se relacionar com o coeficiente de Ledford e
Tawn, de modo anlogo ao do processo pARMAX. Aproveitando a maleabilidade permitida num
processo pRARMAX, desenvolve-se uma metodologia de anlise do seu ajustamento a uma srie de
dados.

Marta Ferreira
99 O u t o n o d e 2 0 0 9
Ttulo: Concepo de um Modelo Multicritrio de Suporte Avaliao de Agncias Bancrias
Autor: Fernando Alberto Freitas Ferreira, fernando.ferreira@esg.ipsantarem.pt
Orientadores: Srgio Pereira dos Santos e Paulo Manuel Marques Rodrigues

A minha tese insere-se no domnio MCDA Multiple Criteria Decision Analysis e prope a
concepo de um modelo multicritrio de suporte avaliao de agncias bancrias com base num
processo que conjuga mapas cognitivos com a tcnica MACBETH Measuring Attractiveness by a
Categorical Based Evaluation Technique. Aps analisar as tendncias evolutivas do sector bancrio
em Portugal (e das respectivas unidades tradicionais de retalho), bem como os principais mtodos de
avaliao utilizados, foi possvel conceber um modelo de avaliao de agncias que, assente numa
anlise integrada das vertentes potencial e efectiva, permite distinguir (global e localmente) diferentes
agncias segundo mltiplos critrios. Este modelo, ao qual se atribuiu a designao M-M
4
BE
Multicriteria Model for Branch Evaluation, visa mensurar a performance de agncias bancrias
atravs da conjugao de variveis quantificveis (i.e. aspectos objectivos) com variveis oriundas da
esfera intangvel das agncias (i.e. aspectos subjectivos). Alm disso, assume uma base complementar,
por nutrir-se das mais-valias dos mtodos genricos analisados. Naturalmente, para que esta
concepo fosse possvel, outros objectivos intermdios tiveram de ser atingidos, como por exemplo:
(a) identificar e validar critrios de avaliao relevantes, segundo os juzos dos decisores; (b) estruturar
hierarquicamente esses critrios com base em processos metodolgicos adequados; (c) construir
escalas numricas necessrias quantificao dos critrios e ponder-los segundo as apreciaes
semnticas dos decisores; (d) aplicar o modelo junto de uma amostra de agncias, revelando os seus
perfis de desempenho e (e) realizar anlises de sensibilidade e robustez. Como resultado, o ensaio
desenvolvido revelou ser til como base de reflexo para a definio e implementao de polticas de
desenvolvimento que, uma vez amadurecidas pela aquisio de novos conhecimentos, proporcionem
melhorias na performance das agncias avaliadas. Na prtica, o estudo corrobora, e como tal fortalece,
os contributos de outros investigadores relativamente s vantagens de utilizar tcnicas de mapeamento
cognitivo e metodologias multicritrio de apoio deciso, quer individualmente quer de forma
integrada, para apoiar a concepo e implementao de sistemas de avaliao do desempenho. De
resto, para alm do ensaio experimental do qual resultou o M-M
4
BE, deve testemunhar-se a mais-valia
obtida com o trabalho efectuado junto de profissionais da Banca em Portugal.

Fernando Ferreira
Ttulo: Feira dos Momentos Planeamento Experimental e Investigao de Localizao e Escala em
Populaes no Gaussianas
Autor: Joo Paulo Oliveira Martins, jpmartins@estg.ipleiria.pt
Orientadores: Dinis Duarte Ferreira Pestana e Sandra Maria Freitas Mendona
Na minha tese os desenvolvimentos clssicos relativos a planeamentos discriminantes ptimos e
planeamentos robustos ptimos serviram de inspirao para a definio de planeamentos mistos
ptimos, que tm em conta quer a estimao do grau da regresso bem como dos seus coeficientes,
sendo quase ptimos no que se refere aos critrios discriminante e robusto. O caso dos planeamentos
mistos ptimos at grau 4 caracterizado detalhadamente, e a investigao computacional mostra que
a perda de eficincia comparativamente com os planeamentos discriminantes ptimos e robustos
ptimos inferior a 2%, enquanto a perda de eficincia dos planeamentos robustos ptimos comparada
com os planeamentos discriminantes ptimos, ou vice-versa, pode atingir os 15%. A teoria dos
momentos cannicos serve de suporte apresentao dos resultados relativos a planeamentos ptimos.
Discutem-se as truncaturas da srie de Taylor sugeridas pela aplicao do mtodo delta. So
apresentadas algumas extenses e aplica-se o mtodo avaliao da varincia da soma de n variveis
aleatrias eventualmente correlacionadas, um problema com aplicaes ao nvel da Qumica. Ainda
neste contexto, so consideradas as transformaes estabilizadoras da varincia apresentando-se uma
extenso da definio para variveis aleatrias univariadas com n parmetros desconhecidos. O caso
multivariado tambm abordado e so dadas algumas pistas para compreender as condies para a
existncia ou no dessas transformaes. O mtodo delta tambm usado para estimar os primeiros
quatro momentos da estatstica de Student T
n
. Mostra-se que o comportamento da distribuio de T
n

prximo do comportamento de uma distribuio do tipo IV do sistema de Pearson. Discute-se o papel
da assimetria na atraco e repulso da mdia amostral e varincia amostral. A escolha do ttulo
pretende transmitir desde logo que, ainda que haja uma linha condutora, os resultados assimptticos e
os mtodos utilizados para os deduzir recorrem a um variado espectro de valores esperados e funes
de valores esperados, que com alguma latitude de linguagem podemos apodar de momentos e de
transformaes integrais.
Joo Paulo Martins

Ttulo: Extremos em sries temporais max-autorregressivas
Autora: Marta Ferreira, msferreira@math.uminho.pt
Orientadora: Lusa Canto e Castro

A minha tese tem como motivao inicial a continuao do estudo do comportamento extremal de
nveis que persistem por um perodo de tempo fixo, introduzido em Draisma (2001). De uma anlise
sob o pressuposto de que esses nveis constituem uma srie de observaes i.i.d., rapidamente se passa
hiptese mais realista de considerar dependncia entre as observaes, embora mantendo a
estacionaridade. Uma vez que sempre uma modelao dos valores extremos que est em mente,
muito naturalmente se pensa nos modelos autorregressivos de mximos, como os MARMA (Davis e
Resnick, 1989), em particular, os MARMA(1,0), tambm designados ARMAX (Alpuim 1989a, 1989b
e Canto e Castro 1992). Na sequncia do interesse em contemplar situaes de dependncia, surge a
questo de avaliar se existe uma dependncia ou independncia exactas entre observaes
consecutivas consideradas nas caudas, ou se uma dependncia que vai desaparecendo gradualmente.
Ledford e Tawn (1996) introduzem um modelo, no qual surge um novo parmetro que permite ``medir
o grau'' de dependncia na cauda, designado coeficiente de dependncia assinttica na cauda ou
coeficiente de Ledford e Tawn. no decurso do clculo do valor deste coeficiente para os usuais max-
autorregressivos, que surge a construo do processo pARMAX, o qual inclui um parmetro potncia,
que faz com que o coeficiente de Ledford e Tawn se relacione directamente com esse mesmo
parmetro.
De modo a atenuar o carcter um tanto determinstico do processo pARMAX e, assim, torn-lo mais
aplicvel na modelao de dados reais, considera-se uma generalizao do mesmo, com a introduo
de um factor aleatrio.
Surge assim um novo processo max-autorregressivo potncia, que designamos pRARMAX, o qual
mantm a particularidade do seu parmetro potncia se relacionar com o coeficiente de Ledford e
Tawn, de modo anlogo ao do processo pARMAX. Aproveitando a maleabilidade permitida num
processo pRARMAX, desenvolve-se uma metodologia de anlise do seu ajustamento a uma srie de
dados.

Marta Ferreira
Ttulo: Extremum Estimators and Stochastic Optimization Methods
Autor: Miguel de Carvalho, mb.carvalho@fct.unl.pt
Orientadores: Joo Tiago Mexia e Manuel L. Esquvel

A minha tese incide sobre estimadores extremais (extremum estimators). Estes mtodos unificam uma
ampla classe de estimadores, que podem ser formulados atravs da soluo de um problema de
optimizao. O mtodo dos mnimos quadrados, o mtodo generalizado dos momentos, bem como os
mtodos de mxima verosimilhana resultam da soluo de um problema de optimizao, sendo
consequentemente especificaes particulares de estimatores extremais. Um problema relevante no
clculo de estimativas deste tipo, est relacionado com as propriedades de convergncia do mtodo
utilizado para obter a soluo ptima. Com efeito, se o mtodo utilizado convergir, eventualmente,
para uma soluo local, deixam de ser garantidas a consistncia e a normalidade assimpttica do
estimador extremal.
Esta tese contribui para o estado da arte atravs da introduo de um mtodo de pesquisa
estocstica, com vista obteno de estimativas extremais. O mtodo proposto doravante designado
por mtodo mestre extremamente geral, incluindo como caso particular o algoritmo conceptual de
pesquisa aleatria simples, bem como a variante estocstica do algoritmo zigzag de Mexia et al.
(1999). So apresentadas duas variantes do mtodo mestre: uma relativa a uma formulao
algortmica; outra com uma estrutura matricial inerente. A formulao matricial permite uma melhor
compreenso do ponto de vista conceptual do mtodo introduzido. Alm disso, esta formulao pode
ainda possibilitar uma implementao mais simples, conforme evidenciamos atravs da decomposio
Kronecker-zigzag. A formulao matricial torna tambm claro como se pode tirar partido da teoria dos
valores extremos. Com efeito, atravs da aplicao de resultados assimptticos da teoria dos valores
extremos primeira coluna da matriz das iteradas, possvel construir intervalos de confiana para o
mximo da funo dos parmetros. Um dos grandes triunfos desta tese reside na prova de
convergncia estocstica do mtodo mestre. Efectivamente, da demonstrao de convergncia deste
mtodo, sai como corolrio a convergncia do mtodo estocstico zigzag, bem como a convergncia
de todos os remanescentes casos particulares deste mtodo. Com efeito, a designao do mtodo
devida ao facto de este funcionar como uma chave mestra no que concerne ao estabelecimento da
convergncia de uma vasta classe de mtodos de optimizao.

Miguel de Carvalho


4
BE
4

Fernando Ferreira
101 O u t o n o d e 2 0 0 9
Ttulo: Mtodos Analticos em Probabilidade e Mtodos Probabilsticos em Anlise Fractalidade
Associada aos Modelos Beta(p,q), Evoluo de Populaes e Dimenses de Hausdorff
Autora: Sandra Maria da Silva Figueiredo Aleixo, sandra.aleixo@dec.isel.ipl.pt
Orientadores: Jos Leonel Linhares da Rocha e Dinis Duarte Ferreira Pestana

Na minha tese, deduzi modelos de crescimento populacional proporcionais a densidades beta com
parmetros de forma p e 2, onde p1, cuja complexidade dinmica est relacionada com o parmetro
malthusiano r. Usando tcnicas de dinmica simblica, investiguei o comportamento catico destes
modelos, em termos de entropia topolgica, no espao de parmetros (r,p), identificando diferentes
comportamentos dinmicos.
Verifiquei a universalidade da constante de Feigenbaum nos modelos apresentados, usando uma
frmula diferente daquela que usualmente apresentada na literatura.
O efeito de Allee foi analisado nestes modelos. Para p>2, eles exibem uma dinmica populacional
onde o efeito de Allee surge naturalmente. No entanto, no caso onde 1<p2, os modelos propostos no
incluem este efeito. Para invoc-lo, apresentei alguns modelos alternativos e investiguei as suas
dinmicas.
Analisei tambm a negatividade da derivada de Schwarz em todos os modelos propostos.
Defini poeira de Cantor aleatria, um fractal obtido por eliminao recursiva do espaamento
central que definido entre o mnimo e mximo de duas observaes aleatrias uniformemente
distribudas, de cada intervalo da iterao anterior. A designao atribuda ao fractal justificvel,
uma vez que os valores esperados dos extremos dos intervalos de cada iterao, coincidem com os
extremos dos intervalos da correspondente iterao na construo da poeira de Cantor determinista.
Calculei a dimenso de Hausdorff (que intuitivamente avalia a que ponto um conjunto denso) da
poeira de Cantor aleatria, e verifiquei que apesar de a poeira de Cantor ser o fractal mdio, da
poeira de Cantor aleatria, mais denso (a dimenso de Hausdorff da poeira de Cantor C superior
dimenso de Hausdorff da poeira de Cantor aleatria F
U
).
Este resultado levou-me a uma definio mais geral de conjuntos de Cantor aleatrios F
X
, onde X
uma varivel aleatria com distribuio Beta(p,q), ao clculo das suas dimenses de Hausdorff, e das
dimenses de Hausdorff dos fractais deterministas que so a esperana daqueles fractais aleatrios,
num sentido similar ao de a poeira de Cantor determinista ser a esperana da poeira de Cantor
aleatria.
O fenmeno geral, e para essa diferena entre dimenses de Hausdorff encontrei uma explicao
probabilista que refora a interpretao de dimenso de Hausdorff como reveladora da abundncia de
pontos do fractal.

Sandra Aleixo

4
BE
4

Fernando Ferreira


Trabalho classificado em 1 lugar (Ensino Bsico)

Ttulo: Como se ocupam os nossos avs Autoria: Mariana Branco Farinha, Henrique Manuel T.
Manso Vinhas Nunes, Mariana Sofia das Neves Cruz. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.

Trabalhos classificados em 2 lugar (exquo) (Ensino Bsico)

Ttulo: Um olhar sobre a Estatstica nos 2 e 3 ciclos Autoria: Abel Filipe Santiago Nicolau,
Antnio Manuel de Jesus Ferreira, Mrio Antnio Ferreira Esteves da Silva Leal. Estabelecimento de
Ensino: Colgio Internato dos Carvalhos, Vila Nova de Gaia. Professor orientador: Sandra Maria de
Sousa Campelos.

Ttulo: A Escola e a Famlia Autoria: Leonor Oliveira Pedro, Ins Oliveira Pedro dos Santos.
Estabelecimento de Ensino: Agrupamento de Escolas Artur Gonalves, Torres Novas. Professor
orientador: Teresa de Jesus Poo Isabel.


Ttulo: Futuros Eleitores da Gro Vasco Autoria: Rafael Jos Gonalves de Melo, Carlos Miguel
Cardoso Garrido, Henrique Miguel Afonso Domingos. Estabelecimento de Ensino: Escola E. B. 2,3
Gro Vasco Viseu. Professor orientador: Cheila Isabel Ferreira Nunes e S Pereira.

Trabalho classificado em 1 lugar (Ensino Secundrio)

Ttulo: A educao para os Barcelenses - "Barcelos call: sondagem sobre a educao Autoria:
Andreia Sofia Ferraz Arajo, Jos Emanuel da Silva Boavista, Pedro Manuel Costa Magalhes.
Estabelecimento de Ensino: Escola Secundria de Barcelos, Barcelos, Professor orientador: Jos
Eduardo Fernandes da Cunha

Trabalhos classificados em 2 lugar (exquo) (Ensino Secundrio)

Ttulo: A Cultura Geral no Ensino Secundrio Autoria: Jos Pedro Gomes Marques da Silva,
Antnio Gil Cabral Azevedo. Estabelecimento de Ensino: Externato Ribadouro, Porto. Professor
orientador: Susana Luzia Machado Gonalves Moreira Gomes Antunes da Silva.

Ttulo: Pesos e alturas das crianas do J.I. de Santa Maria Autoria: Kayla Pires Pereira, Maria Ins
da Luz Ferreira, Sara Filipa Alves Pina dos Santos. Estabelecimento de Ensino: Agrupamento de


Ttulo: Pokmon - Estudo Estatstico para Matemtica Autoria: Rita Pereira Casmarrinha, Diogo
Chotas Arsnio Dias. Estabelecimento de Ensino: Escola Secundria de Cacilhas Tejo, Cacilhas.
Professor orientador: Lus Miguel Fonseca Nunes.

PRMIOS ESTATSTICO JNIOR 2009




Sousa Campelos.











103 O u t o n o d e 2 0 0 9
A educa A educa o para os barcelenses o para os barcelenses
Barcelos Barcelos call call: sondagem sobe a educa : sondagem sobe a educa o o
Professoresdasescolasprivadas, Professoresdasescolasprivadas,
profissionalmentemelhoresdoque profissionalmentemelhoresdoque
osdasescolasp osdasescolasp blicas? blicas?
Oque feitonasaulasde
substituio?
Escolaridadeobrigat Escolaridadeobrigat ria, ria,
at at quando? quando?
M
a
i
s
e
s
c
o
l
a
s
p
r
i
v
a
d
a
s
?
O
sC
U
R
S
O
S
P
R
O
F
IS
S
IO
N
A
IS
O
sC
U
R
S
O
S
P
R
O
F
IS
S
IO
N
A
IS
p
re
p
a
ra
m
a
d
e
q
u
a
d
a
m
e
n
te
o
s
p
re
p
a
ra
m
a
d
e
q
u
a
d
a
m
e
n
te
o
s
jo
v
e
n
s?
jo
v
e
n
s?
O
n
d
e
O
n
d
e

q
u
e
o
s
a
l
u
n
o
s
q
u
e
o
s
a
l
u
n
o
s
m
e
l
h
o
r
e
s
p
r
e
p
a
r
a
d
o
s
?
m
e
l
h
o
r
e
s
p
r
e
p
a
r
a
d
o
s
?
M
a
i
o
r
r
i
g
o
r
d
i
s
c
i
p
l
i
n
a
r
,
o
n
d
e
?
N
a
s
e
s
c
o
l
a
s
b
l
i
c
a
s
?
N
a
s
p
r
i
v
a
d
a
s
?
Autores: Emanuel, Andreia e Manuel





Sousa Campelos.











Ttulo: Exames Nacionais do 9 ano
Autoria: Mariana Pinto Marques, Marta Isabel Nunes Vieira Fernandes e Rui Tavares Godinho
Estabelecimento de Ensino: Escola Secundria do Entroncamento
Ano de Escolaridade: 10 Ano
Professor orientador: Dulce Marina Bugalho Monteiro
Trabalhos classificados em 2 lugar (ex quo) (Ensino Secundrio)
Ttulo: Como melhorar a educao nos prximos anos
Autoria: Vanda Catarina Ribeiro Gameiro, Ana Catarina Morgado e Ctia Sofia Guedes Pinto
Estabelecimento de Ensino: Escola Secundria do Entroncamento
Professor orientador: Dulce Marina Bugalho Monteiro
Ttulo: Caracterizao scio-econmica dos alunos desta escola
Autoria: Ricardo Simes e Vtor Pereira
Estabelecimento de Ensino: Escola EB/S Padre Martins Capela, Terras de Bouro
Professor orientador: Patrcia Alexandra da Silva Ribeiro Sampaio
Ttulo: Aplicando a distribuio bidimensional Estudo da relao entre a CIF e a CE na disciplina de
Matemtica A do 12 Ano
Autoria: Duarte Jos Baptista Pereira Alves e Dinis Cambraia Lopes Sarmento Pereira
Estabelecimento de Ensino: Escola Secundria Carlos Amarante-Braga
Professor orientador: Tom Antnio Mendes Torres
Ttulo: Hbitos alimentares dos alunos de 9 ano da Escola Artur Gonalves
Autoria: Ins Oliveira Pedro dos Santos, Leonor Oliveira Pedro e Ana Beatriz Correia Lopes
Estabelecimento de Ensino: Escola Artur Gonalves, Torres Novas
Professor orientador: Teresa de Jesus Poo Isabel
Ttulo: Segurana na nossa Escola
Autoria: Catarina Mafalda Correia da Costa e Vernica Panea
Estabelecimento de Ensino: Escola Bsica Integrada da Mexilhoeira Grande
Professor orientador: Clara Maria Loureno Marqus





Sousa Campelos.











Trabalho classifcado em 1. lugar ( Ensino Bsico)
Estatsticos Jnior 2009
O u t o n o d e 2 0 0 9

Esta aberto, at 28 de Naio de 2010, o concurso para atribuiao de prmios "Estatstico Jnior 2010", de acordo com o
seguinte regulamento:

1. A atribuiao de prmios "Estatstico Jnior 2010" promovida pela Sociedade Portuguesa de Estatistica (SPE), com o
apoio da Porto Editora, e tem como objectivo estimular e desenvolver o interesse dos alunos do ensino basico e secundario
pelas areas da Probabilidade e Estatistica.

2. Os candidatos a prmios "Estatstico Jnior 2010" devem ser alunos do 3. Ciclo do Ensino Basico, do Ensino
Secundario, ou dos Cursos de Educaao e Formaao de Adultos (EFA) no ano lectivo 2009f2010.

3. As candidaturas podem ser individuais ou em grupo com um mximo de 3 alunos. Do grupo pode ainda fazer parte
um professor do ensino basico ou secundario ao qual cabera o papel de orientador.

4. Os candidatos devem apresentar um trabalho cuja tematica deve estar relacionada com a teoria da Probabilidade efou
Estatistica.

5. O trabalho devera ser constituido por um texto escrito em Portugus com um maximo de 10 paginas A+ dactilografadas
e um poster formato A2 que resuma os principais aspectos do trabalho. O trabalho devera ser enviado impresso em papel
para efeitos da avaliaao.

6. Poderao ser atribuidos prmios "Estatstico Jnior 2010" a 7 trabalhos: aos trs primeiros classificados de entre os
trabalhos candidatos do 3. Ciclo do Ensino Basico, aos trs primeiros classificados de entre os trabalhos candidatos do
Ensino Secundario, e um primeiro classificado de entre os trabalhos candidatos dos Cursos EFA. Os prmios sao constituidos
por produtos pedaggicos editados pela Porto Editora (a excepao de manuais escolares) no valor de 600 euros, 300 euros
e 200 euros, a atribuir, respectivamente, aos grupos cujos trabalhos sejam classificados em 1., 2. e 3. lugar para as
categorias Ensino Basico e Secundario e 600 euros para a categoria dos Cursos EFA.

7. Ao professor orientador do trabalho classificado em 1 lugar, em cada categoria, ainda atribuida uma anuidade gratis
como scio da SPE, ajudas de custo para participaao no Xv!! Congresso Anual da SPE e produtos pedaggicos editados
pela Porto Editora (a excepao de manuais escolares) no valor de 500 Euros.

S. Aos grupos proponentes dos trabalhos classificados em 1 lugar sera tambm oferecida uma ampliaao do
correspondente poster que sera colocado na Sessao de Posters do Xv!!! Congresso Anual da SPE.

9. O boletim de candidatura, acompanhado do trabalho concorrente, devera ser dirigido ao Presidente da SPE para a
morada abaixo indicada. O carimbo do correio validara a data de entrega.

Sociedade Portuguesa de Estatstica - Bloco C6, Piso 4 - Campo Grande - 1749-016 Lisboa

O boletim de candidatura e este regulamento podem ser obtidos em
http://www.spestatistica.pt/static/docs/BoletimCandidaturaPEJ10.pdf
http://www.spestatistica.pt/static/docs/RegulamentoPEJ10.pdf

10. A admissibilidade e apreciaao dos trabalhos submetidos a concurso da competncia de um juri, cuja constituiao e
nomeaao sera da responsabilidade da Direcao da SPE.

11. O juri soberano nas decisoes, nao havendo lugar a impugnaao ou recurso.

12. A atribuiao dos prmios "Estatstico Jnior 2010" sera anunciada logo que conhecida a decisao do juri e a sua
entrega formal sera realizada no Xv!! Congresso Anual da SPE.

13. Os prmios "Estatstico Jnior 2010" poderao nao ser atribuidos.

Apoio da Porto Editora
PREMO8 E8TAT8TCO JUNOR 2010"
Mtodo de Imputao Recorrente: Anlise Espectral Singular com Valores Omissos

Miguel de Carvalho, mb.carvalho@fct.unl.pt
Paulo C. Rodrigues, paulocanas@fct.unl.pt
Universidade Nova de Lisboa, Faculdade de Cincias e Tecnologia e CMA

A Anlise de Componentes Principais (ACP) uma das ferramentas mais populares no domnio da
anlise multivariada. No entanto, o contexto original sob o qual a tcnica foi desenvolvida torna a ACP
inapropriada para o estudo de sries temporais. A Anlise Espectral Singular (AES) surge
precisamente como uma extenso da ACP para sries temporais univariadas (Golyandina et al., 2001).
A ideia basilar da AES consiste na decomposio da srie temporal em diversos blocos distintos que
possam ser identicados como componentes referentes a tendncia, movimentos sazonais, rudo, etc.
So tambm conhecidas na literatura tcnicas para articular com a AES, por forma a permitir a
conduo de experincias de previso. Essencialmente, a AES encontra a sua motivao originria na
decomposio clssica de Karhunen-Love, e outros resultados clebres sobre a representao
ortogonal de processos estocsticos. As razes deste procedimento so geralmente atribudas ao
trabalhos de Broomhead e King (1986). Algumas aplicaes deste procedimento podem ser
encontradas em Golyandina et al. (2001), e referncias a includas. Uma panormica consubstanciada
da AES pode tambm ser encontrada na mesma referncia.
Neste trabalho proposto um Mtodo de Imputao Recorrente (MIR) para sries temporais com
valores omissos, baseado na AES. O MIR recorre a uma combinao ponderada de valores de previso
directa (forecast) e previso inversa (backcast) por forma a imputar de modo recorrente os valores
omissos. Com o intuito de ilustrar a mecnica do mtodo referido foi usada a base de dados clssica na
qual so consideradas observaes mensais do nmero total de passageiros em diversas companhias
areas internacionais. A utilizao deste conjunto de dados permitiu-nos estabelecer comparaes
imediatas com um mtodo alternativo proposto recentemente por Golyandina e Osipov (2007). Os
resultados obtidos so extremamente apelativos superando mesmo o mtodo de Golyandina e Osipov
em algumas medidas de qualidade de previso.

Referncias:
[1] Broomhead, D.S. e King, G.P., 1986. Extracting qualitative dynamics from experimental data.
Physica D, 20, 217236.
[2] Golyandina, N. e Osipov E., 2007. The Catterpillar-SSA method for analysis of time series with
missing values. Journal of Statistical Planning and Inference, 137, 26422653.
[3] Golyandina, N., Nekrutkin, V. e Zhigljavsky, A., 2001. Analysis of Time Series Structure: SSA and
Related Techniques. Chapman & Hall/CRC, London.

Miguel de Carvalho, galardoado com o Prmio SPE 2009, licenciou-se em Matemtica pela Universidade Nova de
Lisboa e Mestre em Economia pela mesma Universidade. Concluiu o seu Doutoramento em Estatstica Matemtica sob a
orientao de Joo Tiago Mexia e Manuel L. Esquvel. Durante o presente ano lectivo realiza estudos de ps-doutoramento
na Faculdade de Cincias da Universidade de Lisboa, sob a superviso de Feridun Turkman e Antnia Turkman.

Paulo Canas Rodrigues, galardoado com o Prmio SPE 2009, licenciou-se em Matemtica pela Universidade Nova de
Lisboa. Mestre em Estatstica pelo Instituto Superior Tcnico. Actualmente aluno de doutoramento em Matemtica
(especializao em Estatstica) na Faculdade de Cincias e Tecnologia da Universidade Nova de Lisboa, sob a orientao
dos Professores Stanislaw Mejza e Joo Tiago Mexia. Neste momento Investigador e Assistente convidado na
Universidade de Wageningen, na Holanda.
PRMIO SPE 2009

Boletim Spe Outono 09

Enviado por

Direitos autorais:

Formatos disponíveis

Boletim Spe Outono 09

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Boletim Spe Outono 09

Enviado por

Direitos autorais:

Formatos disponíveis

Breve Contributo para a Histria do Ensino de Econometria em Portugal por J. A. F. Machado e J. M. C. Santos Silva .

(np ) = y(u) onJc y(u) =

(np ) = y(u) onJc y(u) =

representa um estimador consistente de . A questo que se coloca como obter

obtido atravs da resoluo do

que permita obter aquela igualdade.

enquanto que no modelo com "efeitos fixos" apenas possvel identificar os

enquanto que no modelo com "efeitos fixos" apenas possvel identificar os

A funo de verosimilhana para uma amostra do par (t

A funo de verosimilhana para uma amostra do par (t

em que a durao mdia.

e em que h denota o perodo de seguimento.

A funo de verosimilhana para uma amostra do par (t

em que a durao mdia.

e em que h denota o perodo de seguimento.

em que a durao mdia.

e em que h denota o perodo de seguimento.

Você também pode gostar