Boletim Spe Outono 09
Boletim Spe Outono 09
Boletim Spe Outono 09
10
Sries Temporais: Evoluo e Tpicos Recentes por Lus Catela Nunes e Paulo M. M. Rodrigues ....................................... 14
Econometria Financeira por Joo Nicolau ........................................................................................................................... 23
O Bootstrap para Estatsticas HAC e os seus Competidores por Slvia Gonalves .......................................................... 33
O Mtodo Generalizado dos Momentos por Joaquim J. S. Ramalho ................................................................................... 39
Dados de Painel por Paulo Guimares ................................................................................................................................. 46
Loxodromia da vida humana: Uma introduo anlise estatstica da durao por Carlota Louro e Pedro Portugal ... 50
Editorial ............................................................... 1
Mensagem do Presidente ..................................... 2
Notcias ................................................................ 3
SPE e a Comunidade ......................................... 55
Cincia Estatstica
Artigos Cientfcos Publicados .............. 95
Teses de Mestrado ................................. 95
Livros ..................................................... 96
Teses de Doutoramento ......................... 96
Prmios Estatstico Jnior ............................... 102
Informao Editorial
Endereo: Sociedade Portuguesa de Estatstica.
Campo Grande. Bloco C6. Piso 4.
1749-016 Lisboa. Portugal.
Telefone: +351.217500120
e-mail: spe@fc.ul.pt
URL: http://www.spestatistica.pt
ISSN: 1646-5903
Depsito Legal: 249102/06
Tiragem: 1000 exemplares
Execuo Grfca e Impresso: Grfca Sobreirense
Editor: Fernando Rosado, fernando.rosado@fc.ul.pt
Este Boletim tem o apoio da
Modelos Economtricos
B
o
l
e
t
i
m
S
P
E
O
u
t
o
n
o
d
e
2
0
0
9
Editorial
consolidado
1. O Boletim SPE Outono de 2009 contm uma extensa seco SPE e a Comunidade desenvolvida
em torno da utilizao do software R com livre direito de utilizao e que pode ser obtido atravs de
http://www.r-project.org. Neste contexto se inserem os artigos de divulgao publicados neste Boletim
onde os diversos autores convidados assumem esta informao conhecida pelo leitor. Assim, os textos
especializados que se publicam - de nvel mdio / avanado - esto dirigidos a utilizadores habituais de
R. Para uma introduo aprofundada ao tema pode ser, por exemplo, utilizado o livro de Lus Torgo
que anunciamos na seco Livros Publicados. Os vrios assuntos R abordados, obviamente, formam
uma perspectiva criada pelo editor. Dada a extenso do campo de utilizadores, so bem vindas novas
contribuies que sero includas em edies futuras daquela seco do Boletim.
2. Quando, em 2006, terminei os seis anos de direco na SPE, tinha uma certeza: o objectivo
Boletim sempre to desejado no contedo programtico, por diversas vicissitudes, no tinha sido
completamente atingido. Reflecti sobre este assunto e, como bvio, conclu sobre a extrema
importncia desta publicao. Uma feliz (co)incidncia em conversa com a direco seguinte, em
particular com o seu presidente, fez avanar e consolidar a iniciativa que se foi concretizando, com a
preciosa ajuda dos scios, dos leitores e, principalmente, dos autores que, generosamente, tm
colaborado em cada edio. O editor (apenas) aquele que estabelece as condies que levam a uma
continuidade desta importante publicao da SPE. o produtor. Como editor, pouco mais fao do que
assegurar a publicao desta edio SPE que se pode inserir num projecto didctico e de divulgao
cientfica. De facto, o valor de cada Boletim criado pelos seus autores! Como editor, responsabilizo-
me por cumprir aquela funo no mbito desse projecto: aquele por conta de quem corre a actividade
de produo, (tambm) do dinamismo e da fora e vigor da SPE
Desde h 3 anos temos evoludo. Graas generosidade e ao empenho de um grande nmero de
colaboradores, esta publicao pode-se considerar consolidada.
3. Sabemos que o Boletim SPE publica artigos cientficos de divulgao. Porque no tem um painel de
avaliadores, o Boletim SPE insere-se apenas no seu mbito, isto , uma publicao peridica sobre
o estado da arte na Estatstica.
, alm disso, como se sabe, uma publicao onde a actualidade e unidade nos temas um
objectivo. Passo a passo fomos percorrendo o caminho que nos trouxe at aqui, consolidando as vrias
seces e criando outras o que faremos a partir do prximo Boletim Primavera de 2010 onde
incluiremos uma nova seco; com novos doutores a escreverem artigos de divulgao alguns anos
aps o doutoramento. Este novo projecto, chamemos-lhe Seco Ps - doc, alm de consolidao
cientfica tambm divulga eventuais novos caminhos no ps-doutoramento.
4. Na ltima Assembleia Geral ordinria da SPE, realizada em 17 de Maro, vrias intervenes dos
scios (uma vez mais!) salientaram a importncia e a necessidade de um amplo debate de temas e
questes fulcrais em qualquer das vertentes da actividade estatstica e, em particular, sobre o Boletim.
As propostas de trabalho incidem fundamentalmente sobre dois campos. Por um lado pode (deve!)
fazer-se o uso dos meios electrnicos que permitem um debate em tempo real e, por outro,
obviamente, reflectir no Boletim. So propostas que devem merecer o maior apoio da comunidade.
E, talvez desde logo, pela anlise e crtica dessas propostas de interveno. O Boletim est - e sempre
esteve, como tem sido dito - aberto e desejoso dessa participao.
O Boletim tem bases para suportar novos desafios!
Consolidado est!
O tema central do prximo Boletim ser Data mining - Prospeco (Estatstica) de Dados?.
2 B o l e t i m S P E
Mensagem do Presidente
Caros Colegas:
Realizou-se em Sesimbra, de 30 de Setembro a 3 de Outubro de 2009, o nosso XVII Congresso Anual.
A Comisso Organizadora do XVII Congresso, presidida pelo nosso Colega Joo Tiago Mexia, cujo
jubileu celebrmos recentemente, e vice-presidida pelo nosso Colega Manuel Esquvel, credora do
nosso reconhecimento pelo excelente trabalho desenvolvido e pelo sucesso do Congresso, que bateu o
record (186) de comunicaes apresentadas, sinal do crescimento do trabalho produzido pela
comunidade estatstica portuguesa. Agradecemos tambm Faculdade de Cincias e Tecnologia da
Universidade Nova de Lisboa, nossa anfitri, aos membros da Comisso Executiva e Cientfica, aos
presidentes das sesses de trabalho, aos oradores convidados, aos autores das comunicaes e a todos
os 273 participantes. Esta reunio deve o seu sucesso unio de esforos de todos estes protagonistas.
As Actas do XVI Congresso, realizado em Vila Real em 2008, foram distribudas em Sesimbra,
sendo esta uma boa ocasio para felicitar a Comisso Organizadora, da UTAD, presidida pela Colega
Irene Oliveira, que assim concluiu a sua bem sucedida misso. Aos autores, aos avaliadores e aos
editores, os nossos agradecimentos pelo seu contributo para este relevante marco da actividade
cientfica desenvolvida em Portugal na rea da Estatstica.
O Prmio SPE 2009 desta vez premiou um trabalho cientfico da autoria de dois jovens
investigadores, Miguel de Carvalho e Paulo Canas Rodrigues, o qual foi apresentado no XVII
Congresso. Tivemos de novo os Prmios Estatstico Jnior, a que se candidataram um nmero record
de trabalhos escolares dos ensinos bsico e secundrio, com a coordenao do Colega Russell Alpzar-
Jara e da Comisso Especializada de Educao e o apoio da Porto Editora. Aos candidatos e aos jris
de ambos os prmios, o nosso agradecimento. No Congresso foi tambm lanada uma obra
comemorativa dos 10 anos do ALEA, comemorao a que a SPE assim se associou com grande jbilo.
E, no tarda muito, teremos o XVIII Congresso. A Faculdade de Cincias e Tecnologia da
Universidade de Coimbra e o Instituto Politcnico de Viseu so os anfitries, sendo a Comisso
Organizadora presidida pelo Colega Paulo Eduardo Oliveira, com a Colega Carla Henriques como
brao direito. com grande satisfao que vemos, pela primeira vez na histria dos nossos
Congressos, uma instituio do ensino superior politcnico como co-organizadora. Esto desde j
convidados para S. Pedro do Sul, local onde se realiza o Congresso.
Atravs de e-mails e da nossa pgina web, estais certamente a par do que se vai passando na SPE e
na comunidade estatstica. Limito-me, assim, a dar-vos apenas informao sobre o progresso de dois
temas pendentes. Um o do pagamento das quotas por dbito em conta, introduzido pela primeira vez
este ano como modalidade alternativa, mais cmoda, de pagamento. Esta modalidade est disponvel
para todos os interessados e j houve um nmero razovel de aderentes, aos quais pedimos
compreenso por algum atraso no dbito em conta relativamente data prevista (tratando-se do ano de
arranque, houve que desenvolver e validar procedimentos informticos complexos que demoraram
mais que o previsto). Outro tema o acordo de vrias sociedades estatsticas europeias, entre as quais
a SPE, com a Springer para uma nova srie internacional de publicaes, que incluem as Actas dos
Congressos. J h um acordo de princpio sobre as questes principais, faltando a Springer apresentar
o texto do contrato, o que se espera suceda muito em breve.
E altura de me despedir at ao prximo Boletim, o da Primavera de 2010, com uma saudao
muito cordial.
3 O u t o n o d e 2 0 0 9
Notcias
XVII Congresso SPE
Sesimbra: pesca de estatsticos e dos riscos que eles estudam
No dia XXX do ms IX do ano MMIX teve incio o 17 Congresso da Sociedade Portuguesa de
Estatstica na bela cidade de Cempsibriga (burgo da tribo de Sesim), actualmente conhecida por
Sesimbra. uma vila que viveu ao longo dos anos da pesca, mas que est cada vez mais dependente
economicamente do turismo, em que primam os bons restaurantes
com dieta base de peixe (o sonho de qualquer criana e de muitos
adultos!). Do tempo dos mouros e mouras pouco resta para alm de
alguns calhaus no castelo, pois D. Afonso Henriques com a ajuda
dos cruzados francos em 1165 achou por bem trazer para a Coroa
Portuguesa todos os vinhedos de Palmela e das Terras do Sado! Bom
gosto nunca fez mal a ningum e fica sempre bem na Realeza!
A responsabilidade da organizao do Congresso esteve a cargo da FCT / UNL, designadamente da
Comisso Organizadora Local, presidida pelos colegas Joo Tiago Mexia e Manuel Esquvel e
composta ainda pelos colegas Frederico Caeiro, Isabel Natrio e Joo Lita da Silva. De entre as
mltiplas escolhas em Sesimbra, a organizao do Congresso brindou-nos com a melhor: Sesimbra
Hotel & SPA. Um local nico, uma vista nica, e na verdade um tempo nico.
Os trabalhos comearam com o mini-curso sobre Anlise de Sobrevivncia
leccionado pelas colegas Cristina Rocha e Ana Lusa Papoila, contando
com mais de 70 participantes. O excelente livro do mini-curso bem como
a exposio permitiu melhor lidar com os efeitos competitivos entre o
Congresso e a praia em frente! Passou a doer menos deixar o terrao para
assistir a mais uma sequncia de apresentaes. Sim, quem sobreviveu ao
mini-curso em que a cada 4 palavras uma era morte, morreu,
sobreviveu, sobrevivncia, exposto ficou preparado para tudo:
curado ou mesmo imune!
Deu-se em seguida a Abertura Oficial dos trabalhos do Congresso, tendo como oradores principais os
Presidentes do Congresso e da Comisso Organizadora. Houve ainda a apresentao do livro Um
mundo para conhecer os nmeros que comemora o 10 aniversrio do projecto ALEA (www.alea.pt).
Seguiu-se a primeira Sesso Plenria intitulada The comparison of maximum likelihood and PLS
estimators for structural equation modeling. A simulation with
customer satisfaction data da responsabilidade do colega Manuel
Vilares da UNL, que deu o mote para o arranque dos trabalhos.
Seguidamente teve lugar a
atribuio do Prmio SPE
2009, tendo este ano sido
contemplado o trabalho dos
colegas Miguel de Carvalho
e Paulo Canas Rodrigues
com o ttulo Mtodos de
Imputao Recorrente: Anlise Espectral Singular com Valores
Omissos. Este foi apresentado pelo colega Miguel de Carvalho.
Na Fortaleza de Santiago em Sesimbra, a Organizao brindou-nos com
uma prova de Moscatel! O Moscatel era um verdadeiro nctar dos deuses,
mas os doces eram igualmente magnficos!
Passado este primeiro dia ainda de aquecimento, os trabalhos do
Congresso comearam na manh seguinte a todo o vapor! Leia-se s 9:00,
quando o sol que entra pelo terrao dos quartos convida a mais um belo
dia de praia .
O nmero record de congressistas inscritos ascendeu aos 273, estando o seu contributo cientfico
consubstanciado em 118 comunicaes orais e 69 comunicaes em formato poster. Isto para alm dos
5 Conferencistas Convidados: um colega Russo, um colega Polaco, um colega do Reino Unido e dois
4 B o l e t i m S P E
Sesimbra: pesca de estatsticos e dos riscos que eles estudam
No dia XXX do ms IX do ano MMIX teve incio o 17 Congresso da Sociedade Portuguesa de
Estatstica na bela cidade de Cempsibriga (burgo da tribo de Sesim), actualmente conhecida por
Sesimbra. uma vila que viveu ao longo dos anos da pesca, mas que est cada vez mais dependente
economicamente do turismo, em que primam os bons restaurantes
com dieta base de peixe (o sonho de qualquer criana e de muitos
adultos!). Do tempo dos mouros e mouras pouco resta para alm de
alguns calhaus no castelo, pois D. Afonso Henriques com a ajuda
dos cruzados francos em 1165 achou por bem trazer para a Coroa
Portuguesa todos os vinhedos de Palmela e das Terras do Sado! Bom
gosto nunca fez mal a ningum e fica sempre bem na Realeza!
A responsabilidade da organizao do Congresso esteve a cargo da FCT / UNL, designadamente da
Comisso Organizadora Local, presidida pelos colegas Joo Tiago Mexia e Manuel Esquvel e
composta ainda pelos colegas Frederico Caeiro, Isabel Natrio e Joo Lita da Silva. De entre as
mltiplas escolhas em Sesimbra, a organizao do Congresso brindou-nos com a melhor: Sesimbra
Hotel & SPA. Um local nico, uma vista nica, e na verdade um tempo nico.
Os trabalhos comearam com o mini-curso sobre Anlise de Sobrevivncia
leccionado pelas colegas Cristina Rocha e Ana Lusa Papoila, contando
com mais de 70 participantes. O excelente livro do mini-curso bem como
a exposio permitiu melhor lidar com os efeitos competitivos entre o
Congresso e a praia em frente! Passou a doer menos deixar o terrao para
assistir a mais uma sequncia de apresentaes. Sim, quem sobreviveu ao
mini-curso em que a cada 4 palavras uma era morte, morreu,
sobreviveu, sobrevivncia, exposto ficou preparado para tudo:
curado ou mesmo imune!
Deu-se em seguida a Abertura Oficial dos trabalhos do Congresso, tendo como oradores principais os
Presidentes do Congresso e da Comisso Organizadora. Houve ainda a apresentao do livro Um
mundo para conhecer os nmeros que comemora o 10 aniversrio do projecto ALEA (www.alea.pt).
Seguiu-se a primeira Sesso Plenria intitulada The comparison of maximum likelihood and PLS
estimators for structural equation modeling. A simulation with
customer satisfaction data da responsabilidade do colega Manuel
Vilares da UNL, que deu o mote para o arranque dos trabalhos.
Seguidamente teve lugar a
atribuio do Prmio SPE
2009, tendo este ano sido
contemplado o trabalho dos
colegas Miguel de Carvalho
e Paulo Canas Rodrigues
com o ttulo Mtodos de
Imputao Recorrente: Anlise Espectral Singular com Valores
Omissos. Este foi apresentado pelo colega Miguel de Carvalho.
Na Fortaleza de Santiago em Sesimbra, a Organizao brindou-nos com
uma prova de Moscatel! O Moscatel era um verdadeiro nctar dos deuses,
mas os doces eram igualmente magnficos!
Passado este primeiro dia ainda de aquecimento, os trabalhos do
Congresso comearam na manh seguinte a todo o vapor! Leia-se s 9:00,
quando o sol que entra pelo terrao dos quartos convida a mais um belo
dia de praia .
O nmero record de congressistas inscritos ascendeu aos 273, estando o seu contributo cientfico
consubstanciado em 118 comunicaes orais e 69 comunicaes em formato poster. Isto para alm dos
5 Conferencistas Convidados: um colega Russo, um colega Polaco, um colega do Reino Unido e dois
Sesimbra: pesca de estatsticos e dos riscos que eles estudam
No dia XXX do ms IX do ano MMIX teve incio o 17 Congresso da Sociedade Portuguesa de
Estatstica na bela cidade de Cempsibriga (burgo da tribo de Sesim), actualmente conhecida por
Sesimbra. uma vila que viveu ao longo dos anos da pesca, mas que est cada vez mais dependente
economicamente do turismo, em que primam os bons restaurantes
com dieta base de peixe (o sonho de qualquer criana e de muitos
adultos!). Do tempo dos mouros e mouras pouco resta para alm de
alguns calhaus no castelo, pois D. Afonso Henriques com a ajuda
dos cruzados francos em 1165 achou por bem trazer para a Coroa
Portuguesa todos os vinhedos de Palmela e das Terras do Sado! Bom
gosto nunca fez mal a ningum e fica sempre bem na Realeza!
A responsabilidade da organizao do Congresso esteve a cargo da FCT / UNL, designadamente da
Comisso Organizadora Local, presidida pelos colegas Joo Tiago Mexia e Manuel Esquvel e
composta ainda pelos colegas Frederico Caeiro, Isabel Natrio e Joo Lita da Silva. De entre as
mltiplas escolhas em Sesimbra, a organizao do Congresso brindou-nos com a melhor: Sesimbra
Hotel & SPA. Um local nico, uma vista nica, e na verdade um tempo nico.
Os trabalhos comearam com o mini-curso sobre Anlise de Sobrevivncia
leccionado pelas colegas Cristina Rocha e Ana Lusa Papoila, contando
com mais de 70 participantes. O excelente livro do mini-curso bem como
a exposio permitiu melhor lidar com os efeitos competitivos entre o
Congresso e a praia em frente! Passou a doer menos deixar o terrao para
assistir a mais uma sequncia de apresentaes. Sim, quem sobreviveu ao
mini-curso em que a cada 4 palavras uma era morte, morreu,
sobreviveu, sobrevivncia, exposto ficou preparado para tudo:
curado ou mesmo imune!
Deu-se em seguida a Abertura Oficial dos trabalhos do Congresso, tendo como oradores principais os
Presidentes do Congresso e da Comisso Organizadora. Houve ainda a apresentao do livro Um
mundo para conhecer os nmeros que comemora o 10 aniversrio do projecto ALEA (www.alea.pt).
Seguiu-se a primeira Sesso Plenria intitulada The comparison of maximum likelihood and PLS
estimators for structural equation modeling. A simulation with
customer satisfaction data da responsabilidade do colega Manuel
Vilares da UNL, que deu o mote para o arranque dos trabalhos.
Seguidamente teve lugar a
atribuio do Prmio SPE
2009, tendo este ano sido
contemplado o trabalho dos
colegas Miguel de Carvalho
e Paulo Canas Rodrigues
com o ttulo Mtodos de
Imputao Recorrente: Anlise Espectral Singular com Valores
Omissos. Este foi apresentado pelo colega Miguel de Carvalho.
Na Fortaleza de Santiago em Sesimbra, a Organizao brindou-nos com
uma prova de Moscatel! O Moscatel era um verdadeiro nctar dos deuses,
mas os doces eram igualmente magnficos!
Passado este primeiro dia ainda de aquecimento, os trabalhos do
Congresso comearam na manh seguinte a todo o vapor! Leia-se s 9:00,
quando o sol que entra pelo terrao dos quartos convida a mais um belo
dia de praia .
O nmero record de congressistas inscritos ascendeu aos 273, estando o seu contributo cientfico
consubstanciado em 118 comunicaes orais e 69 comunicaes em formato poster. Isto para alm dos
5 Conferencistas Convidados: um colega Russo, um colega Polaco, um colega do Reino Unido e dois
Sesimbra: pesca de estatsticos e dos riscos que eles estudam
No dia XXX do ms IX do ano MMIX teve incio o 17 Congresso da Sociedade Portuguesa de
Estatstica na bela cidade de Cempsibriga (burgo da tribo de Sesim), actualmente conhecida por
Sesimbra. uma vila que viveu ao longo dos anos da pesca, mas que est cada vez mais dependente
economicamente do turismo, em que primam os bons restaurantes
com dieta base de peixe (o sonho de qualquer criana e de muitos
adultos!). Do tempo dos mouros e mouras pouco resta para alm de
alguns calhaus no castelo, pois D. Afonso Henriques com a ajuda
dos cruzados francos em 1165 achou por bem trazer para a Coroa
Portuguesa todos os vinhedos de Palmela e das Terras do Sado! Bom
gosto nunca fez mal a ningum e fica sempre bem na Realeza!
A responsabilidade da organizao do Congresso esteve a cargo da FCT / UNL, designadamente da
Comisso Organizadora Local, presidida pelos colegas Joo Tiago Mexia e Manuel Esquvel e
composta ainda pelos colegas Frederico Caeiro, Isabel Natrio e Joo Lita da Silva. De entre as
mltiplas escolhas em Sesimbra, a organizao do Congresso brindou-nos com a melhor: Sesimbra
Hotel & SPA. Um local nico, uma vista nica, e na verdade um tempo nico.
Os trabalhos comearam com o mini-curso sobre Anlise de Sobrevivncia
leccionado pelas colegas Cristina Rocha e Ana Lusa Papoila, contando
com mais de 70 participantes. O excelente livro do mini-curso bem como
a exposio permitiu melhor lidar com os efeitos competitivos entre o
Congresso e a praia em frente! Passou a doer menos deixar o terrao para
assistir a mais uma sequncia de apresentaes. Sim, quem sobreviveu ao
mini-curso em que a cada 4 palavras uma era morte, morreu,
sobreviveu, sobrevivncia, exposto ficou preparado para tudo:
curado ou mesmo imune!
Deu-se em seguida a Abertura Oficial dos trabalhos do Congresso, tendo como oradores principais os
Presidentes do Congresso e da Comisso Organizadora. Houve ainda a apresentao do livro Um
mundo para conhecer os nmeros que comemora o 10 aniversrio do projecto ALEA (www.alea.pt).
Seguiu-se a primeira Sesso Plenria intitulada The comparison of maximum likelihood and PLS
estimators for structural equation modeling. A simulation with
customer satisfaction data da responsabilidade do colega Manuel
Vilares da UNL, que deu o mote para o arranque dos trabalhos.
Seguidamente teve lugar a
atribuio do Prmio SPE
2009, tendo este ano sido
contemplado o trabalho dos
colegas Miguel de Carvalho
e Paulo Canas Rodrigues
com o ttulo Mtodos de
Imputao Recorrente: Anlise Espectral Singular com Valores
Omissos. Este foi apresentado pelo colega Miguel de Carvalho.
Na Fortaleza de Santiago em Sesimbra, a Organizao brindou-nos com
uma prova de Moscatel! O Moscatel era um verdadeiro nctar dos deuses,
mas os doces eram igualmente magnficos!
Passado este primeiro dia ainda de aquecimento, os trabalhos do
Congresso comearam na manh seguinte a todo o vapor! Leia-se s 9:00,
quando o sol que entra pelo terrao dos quartos convida a mais um belo
dia de praia .
O nmero record de congressistas inscritos ascendeu aos 273, estando o seu contributo cientfico
consubstanciado em 118 comunicaes orais e 69 comunicaes em formato poster. Isto para alm dos
5 Conferencistas Convidados: um colega Russo, um colega Polaco, um colega do Reino Unido e dois
colegas Portugueses. A Figura abaixo representa a diversidade de palavras-chave encontradas nos
resumos das comunicaes orais e em formato poster. Uma imagem neste caso contm (quase) mil
palavras e fala de per si.
Palavras-chave nas comunicaes orais e em poster - Um tesauro visual por Olga Bessa Mendes,
Livro de Programa e Resumos do XVII Congresso SPE, p. 229.
Morte, vida, sobrevivncia e exposio voltaram frequncia usual neste tipo de eventos.
verdade que a primeira apresentao da primeira sesso paralela do primeiro dia, prometia a cura
(condicional a ter sobrevivido ao mini-curso)!
Seleccionar entre as estimulantes cinco sesses paralelas exigiu algum planeamento de modo a evitar-
se que o momento da deciso no fosse posterior ao trmino das mesmas. Felizmente, as salas eram
prximas e os moderadores foram frreos na boa sincronizao das sesses paralelas. Apesar da oferta
em geral suplantar a procura, houve casos em que a sala falhou o critrio de suficincia. Foi o caso da
apresentao do colega Joo Branco Suficincia: tanto barulho para qu?, pois se o colega tivesse que
assistir de p apresentao tambm faria barulho, no???
A sesso de posters foi localizada de forma estratgica e
central (entre as salas das comunicaes orais e as doses
dirias de cafena/tena) o que permitiu uma excelente
exposio aos mesmos.
No final da manh do segundo dia de trabalhos teve lugar a
segunda Sesso Plenria, apresentada pelo colega Stalislaw
Mejza, da Poznan University of Life Sciences, Polnia,
intitulada Younden square with split units.
Na componente ldica, a organizao da SPE2009, brindou-nos com duas opes igualmente
estimulantes: um passeio pelas Rotas dos Galees do Sal ou em
alternativa, para aqueles mais dados a actividades radicais, um
4x4 na Arrbida. Apesar de inicialmente previstos 42
congressistas, os radicais reduziram-se a 7 magnficos! Dos 6
jeeps previstos achmos que seria importante fazermos o trajecto
em grupo: 3+4. Para alm do conhecimento profundo e da
simpatia dos guias, a paisagem natural da Arrbida era
arrebatadora! Vimos os famosos golfinhos no esturio do Sado,
as salgas de peixe romanas da pennsula de Tria, rarssimos
exemplares de olea silvestre que tenta sobreviver no espao
deixado pela sua verso comercial, olea europaea, a azeiteira! Visitmos as caves do Moscatel da J.M.
Fonseca (felizmente nenhum dos sete tinha ao seu cuidado um jeep). Visitmos ainda a Olaria de S.
Simo em Azeito onde se produzem azulejos manualmente. Um dos sete aventurou-se na produo
de um azulejo tal como eram produzidos no sculo XVII e cujo acabamento posterior seria majlica
italiana. Para alm das vistas deslumbrantes, a proximidade aos conventos de El Carmen, e dos
Franciscanos da Arrbida, vistas de cortar a respirao sobre o Portinho da rrabida, a parte, sem
dvida, mais radical foi a caa raposa (estava igualmente prevista a caa ao javali, mas tal no se
proporcionou, para grande decepo do grupo). Vimos ainda uma rampa de lanamento de vnis na
Arrbida, muito utilizada tambm por praticantes de parapente! A visita terminou com uma ida ao
Castelo de Sesimbra. S faltou mesmo o javali para o programa ser completo e satisfazer as elevadas
expectativas do grupo. Quem sabe numa prxima edio do Congresso nas proximidades da Capital
teremos direito ao programa completo!
5 O u t o n o d e 2 0 0 9
Aparentemente, o passeio de barco foi mais apelativo aos congressistas, uma vez que contmos com a
presena de 92 participantes, repartidos por trs barcos, dois dos quais vela para os mais destemidos.
Felizmente as condies atmosfricas
foram as ideais, uma ligeira brisa tpica
de alto mar e um sol brilhante no cu
infinito que se confunde com o prprio
mar. Ao longo de 4 horas fomos
brindados com paisagens magnficas,
possibilitando uma outra perspectiva de
Sesimbra, da costa de Setbal at ao
Cabo Espichel (ou pelo menos era essa a
inteno...), da pennsula de Tria e do rio Sado. As pequenas praias escondidas entre escarpas, s
acessveis por barco, que guardam mil histrias de mar, de pescadores, de baleeiros e de piratas,
transportaram os participantes para um cenrio paradisaco e de fantasia. Alguns ainda levaram fato de
banho, mas o prometido mergulho inesquecvel ficou adiado para a SPE 2034!!!
E ao 3 dia, j todos nos acomodmos ao deslumbramento da vista dos terraos! Neste dia tivemos
duas Sesses Plenrias. A terceira Sesso Plenria On the probabilistic and algorithmic approaches to
the concept of RANDOMNESS, a cargo do colega Albert Shiryaev, do Steklov Mathematical Institute,
Rssia. Aluno de doutoramento de A. N. Kolmogorov, Shiryaev comeou a sua apresentao com um
vdeo de tributo a um dos marcos da Matemtica do sculo XX. No final da tarde teve lugar a quarta
Sesso Plenria sobre Stochastic multi-population mortality models, cuja apresentao esteve a cargo
do colega Andrew Cairns, da Heriot-Watt University Edimburgo.
Um magnfico pr de sol esperava os congressistas para um aperitivo no terrao oeste do Castelo de
Palmela. Houve algum que confundiu os fotgrafos penetras com
o fotgrafo oficial. Depois de algumas
tentativas l se conseguiu tirar a
fotografia de grupo. Seguiu-se o jantar
no Claustro da Pousada, tendo a
anTUNia (uma das Tunas da FCT/UNL)
abrilhantado o sero. De destacar na foto
as duas aniversariantes da noite, a quem se cantaram os parabns.
O 4 e ltimo dia comeou psicologicamente mais cedo, em particular para os colegas com
apresentaes logo s 9:00! Mas houve solidariedade de todos,
pois no nos pareceu que as salas estivessem mais vazias. A
encerrar a apresentao de trabalhos teve lugar a quinta Sesso
Plenria intitulada Um modelo para problemas de estimao,
apresentada pelo colega Paulo Oliveira, da Universidade de
Coimbra. Na Figura apresenta-se o slide at onde a classe modal da
assistncia conseguiu acompanhar a sua apresentao (no slide l-
se Introduo)!
A Direco da SPE, semelhana das campanhas de marketing juvenil (seja abrir uma conta bancria
ao primeiro aniversrio ou tornar o filho scio do maior clube de futebol
do mundo), decidiu instituir os Prmios Estatstico Jnior, o que
naturalmente uma excelente ideia. Para alm de criar um certo
coleccionismo (neste caso de trofus), permite ainda dar um ar jovem ao
ltimo dia do Congresso e mostrar que a Estatstica tem futuro! Houve,
assim, mais uma sesso de entrega de prmios.
colegas Portugueses. A Figura abaixo representa a diversidade de palavras-chave encontradas nos
resumos das comunicaes orais e em formato poster. Uma imagem neste caso contm (quase) mil
palavras e fala de per si.
Palavras-chave nas comunicaes orais e em poster - Um tesauro visual por Olga Bessa Mendes,
Livro de Programa e Resumos do XVII Congresso SPE, p. 229.
Morte, vida, sobrevivncia e exposio voltaram frequncia usual neste tipo de eventos.
verdade que a primeira apresentao da primeira sesso paralela do primeiro dia, prometia a cura
(condicional a ter sobrevivido ao mini-curso)!
Seleccionar entre as estimulantes cinco sesses paralelas exigiu algum planeamento de modo a evitar-
se que o momento da deciso no fosse posterior ao trmino das mesmas. Felizmente, as salas eram
prximas e os moderadores foram frreos na boa sincronizao das sesses paralelas. Apesar da oferta
em geral suplantar a procura, houve casos em que a sala falhou o critrio de suficincia. Foi o caso da
apresentao do colega Joo Branco Suficincia: tanto barulho para qu?, pois se o colega tivesse que
assistir de p apresentao tambm faria barulho, no???
A sesso de posters foi localizada de forma estratgica e
central (entre as salas das comunicaes orais e as doses
dirias de cafena/tena) o que permitiu uma excelente
exposio aos mesmos.
No final da manh do segundo dia de trabalhos teve lugar a
segunda Sesso Plenria, apresentada pelo colega Stalislaw
Mejza, da Poznan University of Life Sciences, Polnia,
intitulada Younden square with split units.
Na componente ldica, a organizao da SPE2009, brindou-nos com duas opes igualmente
estimulantes: um passeio pelas Rotas dos Galees do Sal ou em
alternativa, para aqueles mais dados a actividades radicais, um
4x4 na Arrbida. Apesar de inicialmente previstos 42
congressistas, os radicais reduziram-se a 7 magnficos! Dos 6
jeeps previstos achmos que seria importante fazermos o trajecto
em grupo: 3+4. Para alm do conhecimento profundo e da
simpatia dos guias, a paisagem natural da Arrbida era
arrebatadora! Vimos os famosos golfinhos no esturio do Sado,
as salgas de peixe romanas da pennsula de Tria, rarssimos
exemplares de olea silvestre que tenta sobreviver no espao
deixado pela sua verso comercial, olea europaea, a azeiteira! Visitmos as caves do Moscatel da J.M.
Fonseca (felizmente nenhum dos sete tinha ao seu cuidado um jeep). Visitmos ainda a Olaria de S.
Simo em Azeito onde se produzem azulejos manualmente. Um dos sete aventurou-se na produo
de um azulejo tal como eram produzidos no sculo XVII e cujo acabamento posterior seria majlica
italiana. Para alm das vistas deslumbrantes, a proximidade aos conventos de El Carmen, e dos
Franciscanos da Arrbida, vistas de cortar a respirao sobre o Portinho da rrabida, a parte, sem
dvida, mais radical foi a caa raposa (estava igualmente prevista a caa ao javali, mas tal no se
proporcionou, para grande decepo do grupo). Vimos ainda uma rampa de lanamento de vnis na
Arrbida, muito utilizada tambm por praticantes de parapente! A visita terminou com uma ida ao
Castelo de Sesimbra. S faltou mesmo o javali para o programa ser completo e satisfazer as elevadas
expectativas do grupo. Quem sabe numa prxima edio do Congresso nas proximidades da Capital
teremos direito ao programa completo!
6 B o l e t i m S P E
Por fim, houve a Sesso de Encerramento do Congresso. Agradeceu-se
Comisso Presente o excelente trabalho realizado. Os colegas Joo
Tiago Mexia e Manuel Esquvel fizeram chegar as flores recebidas aos
membros femininos da organizao. Agradeceu-se ainda anterior
Comisso Editorial das Actas do XVI Congresso a entrega das mesmas
durante o XVII Congresso.
Finalmente, passou-se o testemunho aos colegas Paulo Oliveira e Carmo Henriques, organizadores do
XVIII Congresso SPE, no Hotel do Parque, nas Termas de So Pedro do Sul, uma organizao
conjunta do Departamento de Matemtica da Universidade de Coimbra e do Instituto Politcnico de
Viseu. Certamente este prximo ano o colega Paulo Oliveira estar mais ocupado com outro tipo de
convergncias que resultem numa comisso organizadora uniformemente distribuda em esforo e que
em limite tenha um Congresso pelo menos to bom como o deste ano!
So os nossos votos que os prximos relatores se divirtam tanto quanto ns, na sua misso cliente-
mistrio
Ftima Salgueiro e Jos Gonalves Dias
(ISCTE IUL)
Aparentemente, o passeio de barco foi mais apelativo aos congressistas, uma vez que contmos com a
presena de 92 participantes, repartidos por trs barcos, dois dos quais vela para os mais destemidos.
Felizmente as condies atmosfricas
foram as ideais, uma ligeira brisa tpica
de alto mar e um sol brilhante no cu
infinito que se confunde com o prprio
mar. Ao longo de 4 horas fomos
brindados com paisagens magnficas,
possibilitando uma outra perspectiva de
Sesimbra, da costa de Setbal at ao
Cabo Espichel (ou pelo menos era essa a
inteno...), da pennsula de Tria e do rio Sado. As pequenas praias escondidas entre escarpas, s
acessveis por barco, que guardam mil histrias de mar, de pescadores, de baleeiros e de piratas,
transportaram os participantes para um cenrio paradisaco e de fantasia. Alguns ainda levaram fato de
banho, mas o prometido mergulho inesquecvel ficou adiado para a SPE 2034!!!
E ao 3 dia, j todos nos acomodmos ao deslumbramento da vista dos terraos! Neste dia tivemos
duas Sesses Plenrias. A terceira Sesso Plenria On the probabilistic and algorithmic approaches to
the concept of RANDOMNESS, a cargo do colega Albert Shiryaev, do Steklov Mathematical Institute,
Rssia. Aluno de doutoramento de A. N. Kolmogorov, Shiryaev comeou a sua apresentao com um
vdeo de tributo a um dos marcos da Matemtica do sculo XX. No final da tarde teve lugar a quarta
Sesso Plenria sobre Stochastic multi-population mortality models, cuja apresentao esteve a cargo
do colega Andrew Cairns, da Heriot-Watt University Edimburgo.
Um magnfico pr de sol esperava os congressistas para um aperitivo no terrao oeste do Castelo de
Palmela. Houve algum que confundiu os fotgrafos penetras com
o fotgrafo oficial. Depois de algumas
tentativas l se conseguiu tirar a
fotografia de grupo. Seguiu-se o jantar
no Claustro da Pousada, tendo a
anTUNia (uma das Tunas da FCT/UNL)
abrilhantado o sero. De destacar na foto
as duas aniversariantes da noite, a quem se cantaram os parabns.
O 4 e ltimo dia comeou psicologicamente mais cedo, em particular para os colegas com
apresentaes logo s 9:00! Mas houve solidariedade de todos,
pois no nos pareceu que as salas estivessem mais vazias. A
encerrar a apresentao de trabalhos teve lugar a quinta Sesso
Plenria intitulada Um modelo para problemas de estimao,
apresentada pelo colega Paulo Oliveira, da Universidade de
Coimbra. Na Figura apresenta-se o slide at onde a classe modal da
assistncia conseguiu acompanhar a sua apresentao (no slide l-
se Introduo)!
A Direco da SPE, semelhana das campanhas de marketing juvenil (seja abrir uma conta bancria
ao primeiro aniversrio ou tornar o filho scio do maior clube de futebol
do mundo), decidiu instituir os Prmios Estatstico Jnior, o que
naturalmente uma excelente ideia. Para alm de criar um certo
coleccionismo (neste caso de trofus), permite ainda dar um ar jovem ao
ltimo dia do Congresso e mostrar que a Estatstica tem futuro! Houve,
assim, mais uma sesso de entrega de prmios.
Finalmente, passou-se o testemunho aos colegas Paulo Oliveira e Carla Henriques, organizadores do
XVIII Congresso SPE, no Hotel do Parque, nas Termas de So Pedro do Sul, uma organizao
conjunta do Departamento de Matemtica da Universidade de Coimbra e do Instituto Politcnico de
Viseu. Certamente este prximo ano o colega Paulo Oliveira estar mais ocupado com outro tipo de
convergncias que resultem numa comisso organizadora uniformemente distribuda em esforo e que
em limite tenha um Congresso pelo menos to bom como o deste ano!
So os nossos votos que os prximos relatores se divirtam tanto quanto ns, na sua misso cliente-
mistrio
Ftima Salgueiro e Jos Gonalves Dias
(ISCTE IUL)
7 O u t o n o d e 2 0 0 9
Jubilao do Professor Tiago Mexia
Jubilao do Professor Tiago Mexia
No passado ms de Junho, jubilou-se o Professor Joo Tiago Mexia,
que escolheu o tema "Modelos e Inferncia - Caso Normal" como
ltima lio.
Celebrando a jubilao do Professor Joo Tiago Mexia, Professor
Catedrtico do Departamento de Matemtica da Faculdade de
Cincias e Tecnologia da Universidade Nova de Lisboa, realizou-se
um Workshop em Estatstica.
Este evento contou com a participao de vrios convidados nacionais e estrangeiros nomeadamente
pessoas que no decurso da sua vida profissional se relacionaram mais de perto com o Prof. Mexia.
FR
Prmios Estatstico Jnior 2009
Prmios Estatstico Jnior 2009
A atribuio de prmios Estatstico Jnior 2009 promovida pela Sociedade Portuguesa de
Estatstica, com o apoio da Porto Editora, e tem como objectivo estimular e desenvolver o interesse dos
alunos do ensino bsico e secundrio pelas reas da Probabilidade e Estatstica. Ao apelo para
submisso de trabalhos correspondeu uma adeso bastante mais elevada do que em 2008, tendo sido
recebidos 41 trabalhos na categoria Ensino Bsico, envolvendo um total de 104 alunos, e 29 na
categoria Ensino Secundrio, envolvendo um total de 71 alunos.
A cerimnia de entrega dos Prmios
Estatstico Jnior 2009, conforme
estipulado no Regulamento, decorreu na
Sesso de Encerramento do XVII
Congresso Anual da Sociedade Portuguesa
de Estatstica, no dia 3 de Outubro de 2009,
s 13 horas, nas instalaes do Sesimbra
Hotel & SPA, Sesimbra.
Excepcionalmente, este ano foi atribuda
uma meno honrosa ao trabalho Futuro
3
-
Ser que os jovens de hoje tero amanh
um futuro brilhante? autoria do aluno
Carlos Moura Pereira Lucas Teixeira da
Escola Bsica D. Manuel I em Tavira, e
orientado pela professora Maria Augusta
Carvalho de Azevedo.
O Jri foi constitudo pelos professores: Doutora Maria Eugnia Graa Martins (Presidente) e Doutora
Lusa Canto e Castro de Loura do Departamento de Estatstica e Investigao Operacional da
Faculdade de Cincias da Universidade de Lisboa e Doutor Russell Alpizar-Jara do Departamento de
Matemtica da Universidade de vora.
No final deste Boletim so apresentados os premiados.
A Direco
Finalmente, passou-se o testemunho aos colegas Paulo Oliveira e Carla Henriques, organizadores do
XVIII Congresso SPE, no Hotel do Parque, nas Termas de So Pedro do Sul, uma organizao
conjunta do Departamento de Matemtica da Universidade de Coimbra e do Instituto Politcnico de
Viseu. Certamente este prximo ano o colega Paulo Oliveira estar mais ocupado com outro tipo de
convergncias que resultem numa comisso organizadora uniformemente distribuda em esforo e que
em limite tenha um Congresso pelo menos to bom como o deste ano!
So os nossos votos que os prximos relatores se divirtam tanto quanto ns, na sua misso cliente-
mistrio
Ftima Salgueiro e Jos Gonalves Dias
(ISCTE IUL)
8 B o l e t i m S P E
Prmio SPE 2009
Foram apresentados os seguintes trabalhos concorrentes ao Prmio SPE 2009:
- Sries temporais de memria longa com aplicaes ao controlo motor - estudo de tarefas de tapping
repetido, da autoria de Ana Maria Fit Alves Diniz.
- Mtodo de imputao recorrente: anlise espectral singular com valores omissos, da autoria de
Miguel de Carvalho e Paulo Canas Rodrigues.
O jri, constitudo por Maria Nazar Mendes Lopes (Presidente), Paulo Rodrigues e Maria Eduarda
Silva, atribuiu o prmio ao trabalho de Miguel de Carvalho e Paulo Canas Rodrigues.
O trabalho vencedor foi apresentado no primeiro dia do XVII Congresso da SPE. O respectivo
Resumo publicado na contra capa deste Boletim SPE.
FR
Seminrios patrocinados pela SPE
Seminrios Patrocinados pela SPE
A Sociedade Portuguesa de Estatstica prope-se patrocinar a organizao de seminrios e de palestras
apresentados por convidados de outras instituies nacionais e por convidados de instituies
estrangeiras que estejam de passagem pelo pas.
No primeiro caso, a ideia a de contribuir para um maior contacto e colaborao entre investigadores
das vrias instituies nacionais.
No segundo caso, pretende-se que cientistas de instituies estrangeiras que estejam de visita a uma
instituio nacional possam, durante a sua estadia, ir dar um seminrio a outra instituio, deste modo
permitindo um melhor conhecimento de diferentes equipas e possibilitando uma mais ampla
colaborao. Solicitamos assim que os colegas que prevem a visita de cientistas o faam saber a
potenciais interessados; a SPE poder naturalmente ajudar nesta divulgao.
O patrocnio da SPE inclui o anncio de divulgao pelos scios e um apoio financeiro s instituies
interessadas em acolher um seminrio, atravs de um subsdio mximo de 150 euros.
Os scios interessados em usufruir desta iniciativa devero contactar a SPE, candidatando-se a este
tipo de apoio.
No ano de 2009, foi apoiado por este programa um Seminrio do Departamento de Mtodos
Quantitativos do ISCTE, intitulado Captura-Recaptura: Aplicaes nas Cincias Sociais e proferido
pelo Prof. Doutor Russell Alpizar-Jara (Cima/Departamento de Matemtica/Universidade de vora),
realizado no dia 24 de Abril.
A Direco da SPE
Caro(a) colega,
De 25 a 27 de Maro de 2010, o ISCTE Instituto Universitrio de Lisboa recebe as XVII Jornadas de
Classificao e Anlise de Dados (JOCLAD 2010). O prazo limite para submeter propostas de
trabalhos 11 de Fevereiro de 2010. Mais informaes estaro brevemente disponveis em
www.joclad2010.dmq.ibs.iscte.pt. Contamos com a sua presena nas Jornadas!!
Pela Comisso Organizadora,
Jos Gonalves Dias (ISCTE-IUL)
JOCLAD 2010
9 O u t o n o d e 2 0 0 9
A SPE no Encontro Cientfco da Sociedade Italiana de Estatstica
Participao da SPE no Encontro Cientfico da Sociedade Italiana de Estatstica
Por ocasio do septuagsimo aniversrio da
Sociedade Italiana de Estatstica (SIS), realizou-se o
congresso Statistical Methods for the analysis of
large data-sets, em Pescara Itlia, entre 23 e 25 de
Setembro de 2009. Vrias Sociedades de Estatstica
europeias, entre as quais a SPE, responderam ao
convite do presidente da SIS para integrarem o
programa cientfico com trs comunicaes na
temtica da conferncia.
A SPE foi representada por:
Antnia Amaral Turkman (Universidade de Lisboa), organizadora da sesso;
Joaquim Pinto da Costa (Universidade do Porto), com a comunicao intitulada A weighted
principal component analysis and its applications to microarray data. Na sua comunicao
descreveu um novo mtodo de seleco de genes com expresso diferencial em microarrays,
baseado em componentes principais ponderadas;
Lisete Sousa (Universidade de Lisboa), com a comunicao Proteomics: Predicting proteins
structure, na qual reviu vrios mtodos de predio da topologia de protenas transmembranares
disponveis na Internet, chamando a ateno para a importncia da interaco entre a Estatstica e
reas como a Biologia Molecular, Gentica, Bioqumica e Bioinformtica;
Giovanni Silva (Universidade Tcnica de Lisboa), com a comunicao Modelling and analysis of
forest fire data in Portugal, abordou o tema dos fogos em Portugal usando modelos lineares
generalizados para modelar a proporo de rea florestal ardida.
Embora no representando a SPE, esteve tambm presente na conferncia Filipe Sousa, aluno finalista
da licenciatura em Bioqumica da Universidade do Porto, que sente uma forte atraco pelas reas de
Estatstica e suas aplicaes Bioqumica e Biologia Molecular. Como era de esperar, dado o tema da
conferncia, houve um nmero significativo de sesses dedicadas quela temtica.
A lngua oficial do encontro foi o Ingls. Os conferencistas convidados foram Jerome H. Friedman
(Stanford University), com o tema Fast sparce regression and classification e Marco Riani
(University of Parma) com a comunicao Problems and challenges in the analysis of complex data:
static and dynamic approaches.
Para trs, alm de uma interessante conferncia, ficou um alegre convvio, e uma simptica cidade,
Pescara, banhada pelo Mar Adritico.
Antnia Turkman e Lisete Sousa
Workshop: Statistical Modelling: Challenges in Health (9-12 / Maio / 2010)
Workshop: Statistical Modelling: Challenges in Health (9-12 de Maio de 2010)
O workshop StaM2010 tem como objectivo promover o encontro de investigadores interessados em
estatstica avanada aplicada a problemas desafiantes na rea da Sade. Pretende-se que o workshop
sirva tambm para promover a partilha de conhecimento e experincia, bem como encorajar a
cooperao entre participantes. Os principais temas do workshop so:
- Estatstica Espacial em Sade
- Anlise de Sobrevivncia
- Estatstica em Gentica
- Estatstica em Biologia Molecular
- Bioinformtica
- Modelos de classes latentes em Sade.
Alm de oradores convidados de renome, o workshop contar tambm com uma sesso de
comunicaes poster. Os participantes so convidados a expor os seus trabalhos em desenvolvimento
e discuti-los com os convidados numa sesso intitulada Statistical Clinics.
Pgina Web: http://stam2010.fc.ul.pt
Lisete Sousa
Workshop: Statistical Modelling: Challenges in Health (9-12 de Maio de 2010)
O workshop StaM2010 tem como objectivo promover o encontro de investigadores interessados em
estatstica avanada aplicada a problemas desafiantes na rea da Sade. Pretende-se que o workshop
sirva tambm para promover a partilha de conhecimento e experincia, bem como encorajar a
cooperao entre participantes. Os principais temas do workshop so:
- Estatstica Espacial em Sade
- Anlise de Sobrevivncia
- Estatstica em Gentica
- Estatstica em Biologia Molecular
- Bioinformtica
- Modelos de classes latentes em Sade.
Alm de oradores convidados de renome, o workshop contar tambm com uma sesso de
comunicaes poster. Os participantes so convidados a expor os seus trabalhos em desenvolvimento
e discuti-los com os convidados numa sesso intitulada Statistical Clinics.
Pgina Web: http://stam2010.fc.ul.pt
Lisete Sousa
10 B o l e t i m S P E
Modelos Economtricos
Breve Contributo para a Histria do Ensino de Econometria em Portugal
1
Breve Contributo para a Histria do Ensino de Econometria em
Portugal
1
Jos A. F. Machado, jafm@fe.unl.pt
Faculdade de Economia, Universidade Nova de Lisboa
J. M. C. Santos Silva, jmcss@essex.ac.uk
University of Essex e CEMAPRE
A econometria um ramo relativamente novo da economia, podendo o seu nascimento como rea
autnoma ser associado fundao da Econometric Society em 1930. A evoluo da econometria tem
sido enorme nas ltimas dcadas. Vrios factores tm contribudo para esta evoluo, mas no h
dvida de que os avanos tcnicos tm sido um dos principais motores deste desenvolvimento. Em
particular, os avanos da informtica permitem hoje a existncia de bases de dados impensveis nos
anos 30, bem como os meios de clculo necessrios ao seu tratamento adequado e rpido. As
caractersticas especficas dos dados econmicos, tipicamente no experimentais, levaram a que a
econometria desenvolvesse muitas tcnicas estatsticas novas, contribuindo assim para a sua crescente
autonomizao em relao a outras reas da cincia em que o recurso estatstica matemtica
igualmente intenso, como a biometria. A forma como a econometria tem sido ensinada reflecte tanto a
juventude da rea como os rpidos desenvolvimentos tcnicos da segunda metade do Sculo XX.
Neste trabalho faz-se um breve resumo da forma como o ensino da econometria evoluiu em Portugal.
A disciplina de econometria foi introduzida pela primeira vez no plano de estudos de um curso de
economia de uma universidade portuguesa na sequncia da reforma em 1949 do plano de estudos do
ento Instituto Superior de Cincias Econmicas e Financeiras (ISCEF), tendo sido leccionada pela
primeira vez no ano lectivo de 1952/53. Nesta reforma, tornaram-se obrigatrias para todos os
estudantes da licenciatura em economia do ISCEF duas disciplinas de matemtica. Esta alterao levou
a que a disciplina de estatstica pudesse pela primeira vez tratar a estatstica matemtica, abrindo assim
caminho nova disciplina semestral de econometria. Na nota em que Armando Gonalves Pereira
(1949) apresenta a reviso do plano de estudos pode ler-se: "No nos podemos deixar de regozijar com
a criao de um Curso de Econometria, matria que se presta a estudos da maior relevncia".
1
Este trabalho uma verso resumida do artigo 50 Anos de Ensino de Econometria em Portugal, publicado pelos autores
na revista Economia em 2002. Os autores agradecem aos colegas Nuno Crato, Jos Antnio Giro, Bento Murteira e Carlos
Bastien Raposo a disponibilidade para discutir a histria do ensino da econometria em Portugal e as muitas informaes
prestadas. Este trabalho no teria sido possvel sem a colaborao de Ana Amaral da Biblioteca do ISEG. Naturalmente, os
autores so os nicos responsveis pelas opinies aqui expressas e por eventuais incorreces.
Breve Contributo para a Histria do Ensino de Econometria em
Portugal
1
Jos A. F. Machado, jafm@fe.unl.pt
Faculdade de Economia, Universidade Nova de Lisboa
J. M. C. Santos Silva, jmcss@essex.ac.uk
University of Essex e CEMAPRE
A econometria um ramo relativamente novo da economia, podendo o seu nascimento como rea
autnoma ser associado fundao da Econometric Society em 1930. A evoluo da econometria tem
sido enorme nas ltimas dcadas. Vrios factores tm contribudo para esta evoluo, mas no h
dvida de que os avanos tcnicos tm sido um dos principais motores deste desenvolvimento. Em
particular, os avanos da informtica permitem hoje a existncia de bases de dados impensveis nos
anos 30, bem como os meios de clculo necessrios ao seu tratamento adequado e rpido. As
caractersticas especficas dos dados econmicos, tipicamente no experimentais, levaram a que a
econometria desenvolvesse muitas tcnicas estatsticas novas, contribuindo assim para a sua crescente
autonomizao em relao a outras reas da cincia em que o recurso estatstica matemtica
igualmente intenso, como a biometria. A forma como a econometria tem sido ensinada reflecte tanto a
juventude da rea como os rpidos desenvolvimentos tcnicos da segunda metade do Sculo XX.
Neste trabalho faz-se um breve resumo da forma como o ensino da econometria evoluiu em Portugal.
A disciplina de econometria foi introduzida pela primeira vez no plano de estudos de um curso de
economia de uma universidade portuguesa na sequncia da reforma em 1949 do plano de estudos do
ento Instituto Superior de Cincias Econmicas e Financeiras (ISCEF), tendo sido leccionada pela
primeira vez no ano lectivo de 1952/53. Nesta reforma, tornaram-se obrigatrias para todos os
estudantes da licenciatura em economia do ISCEF duas disciplinas de matemtica. Esta alterao levou
a que a disciplina de estatstica pudesse pela primeira vez tratar a estatstica matemtica, abrindo assim
caminho nova disciplina semestral de econometria. Na nota em que Armando Gonalves Pereira
(1949) apresenta a reviso do plano de estudos pode ler-se: "No nos podemos deixar de regozijar com
a criao de um Curso de Econometria, matria que se presta a estudos da maior relevncia".
1
Este trabalho uma verso resumida do artigo 50 Anos de Ensino de Econometria em Portugal, publicado pelos autores
na revista Economia em 2002. Os autores agradecem aos colegas Nuno Crato, Jos Antnio Giro, Bento Murteira e Carlos
Bastien Raposo a disponibilidade para discutir a histria do ensino da econometria em Portugal e as muitas informaes
prestadas. Este trabalho no teria sido possvel sem a colaborao de Ana Amaral da Biblioteca do ISEG. Naturalmente, os
autores so os nicos responsveis pelas opinies aqui expressas e por eventuais incorreces.
Pode ter-se uma ideia do contedo da disciplina de econometria ento leccionada consultando o
programa da disciplina que apresentado por Manuel Jacinto Nunes (1953). Infelizmente, esse
programa no apresenta nenhuma lista de bibliografia usada, pelo que difcil conhecer com algum
detalhe a forma como o curso foi leccionado.
2
Para se conhecer melhor o contedo dos cursos da poca
pode recorrer-se sebenta de econometria editada pela Associao Acadmica do ISCEF, com base
nas lies de Bento Murteira no ano lectivo de 1955/56 (Murteira, 1956). Esta obra est dividida em
cinco captulos, com os seguintes temas: 1) O conceito e objectivos da econometria, 2) Elementos da
teoria da procura, 3) Teoria clssica da produo, 4) Funo consumo, e finalmente 5) Modelos
macroeconmicos. Nos dias de hoje, a estrutura desta sebenta parece ser mais apropriada a uma
disciplina de economia aplicada do que a um curso introdutrio de econometria, reflectindo afinal
aquela que a gnese da econometria como hoje a conhecemos. Alis, a importncia que se d nestas
lies teoria econmica est de acordo com o que era feito em livros de econometria da poca, como
sejam os de Gerhard Tinter (1952) e Lawrence Klein (1953).
3
Outro aspecto que notrio nestes apontamentos o facto de a calculatria necessria,
nomeadamente estimao do modelo de regresso linear mltipla pelo mtodo dos mnimos
quadrados, ter uma importncia relativa muito pequena. No entanto, tal no de estranhar se se
recordar que as primeiras calculadoras electrnicas (de secretria!) foram introduzidas uma dcada
mais tarde. Portanto, natural que numa disciplina de licenciatura no houvesse lugar a esse tipo de
preocupaes, uma vez que os meios de clculo ao dispor dos alunos no eram de todo adequados,
nem sequer estimao de modelos relativamente simples. Esta carncia colmatada com a
apresentao dos resultados de inmeros estudos empricos, que so cuidadosamente discutidos e
interpretados.
Numa anlise mais pormenorizada das lies de Bento Murteira verifica-se que cerca de metade da
disciplina era dedicada ao estudo de problemas de microeconometria, nomeadamente a estimao de
curvas de Engel e de curvas de custos. Numa segunda parte, estudavam-se modelos para dados
agregados (aquilo que hoje genericamente se designa por macroeconometria), dando-se especial
ateno funo consumo, que merece um captulo prprio, e aos modelos de equaes simultneas.
Curiosamente, este ltimo captulo, que segue de perto o manual de Lawrence Klein (1953), o que
mais se aproxima de captulos correspondentes em manuais de econometria actuais, incluindo a
habitual discusso do problema da identificao e dos mtodos de estimao com informao limitada
e completa.
Cerca de dez anos depois de se ter iniciado o ensino da econometria em Portugal, foi publicada a
primeira edio do livro Econometric Methods de Jack Johnston (1963), que marcou profundamente o
ensino da econometria em todo o mundo, e que com a sua quarta edio (Johnston e DiNardo, 1997)
continua a ser uma obra de referncia em muitas universidades portuguesas e estrangeiras. Uma vez
que no essencial a evoluo do ensino da econometria foi marcada pelo estilo e substncia das
sucessivas edies deste livro, vale a pena analisar com um pouco de ateno esta obra.
O que distingue o livro de Jack Johnston da maioria dos seus antecessores o facto de, como o seu
nome indica, se centrar claramente nos mtodos economtricos e no nas aplicaes. De facto, este
livro apresenta de uma forma sistemtica o modelo de regresso linear mltipla, bem como uma srie
de tpicos que ainda hoje fazem parte da maioria dos cursos de econometria, como sejam os erros nas
variveis, autocorrelao, heterocedasticidade, multicolinearidade, variveis artificiais e variveis
2
interessante notar que o curso foi leccionado pelos professores Francisco de Paula Leite Pinto, Henri Guitton
(Universidade de Dijon) e Jos de Castaeda (Universidade de Madrid), bem como pelo ento assistente Manuel Jacinto
Nunes.
3
Note-se no entanto que nestes manuais era possvel encontrar tratados outros tpicos, como sejam a anlise multivariada,
a anlise espectral, o clculo numrico, e modelos de input-output, que no so de todo tratados nas lies de Bento
Murteira, mas que tambm tipicamente no fazem parte dos manuais de econometria modernos.
Pode ter-se uma ideia do contedo da disciplina de econometria ento leccionada consultando o
programa da disciplina que apresentado por Manuel Jacinto Nunes (1953). Infelizmente, esse
programa no apresenta nenhuma lista de bibliografia usada, pelo que difcil conhecer com algum
detalhe a forma como o curso foi leccionado.
2
Para se conhecer melhor o contedo dos cursos da poca
pode recorrer-se sebenta de econometria editada pela Associao Acadmica do ISCEF, com base
nas lies de Bento Murteira no ano lectivo de 1955/56 (Murteira, 1956). Esta obra est dividida em
cinco captulos, com os seguintes temas: 1) O conceito e objectivos da econometria, 2) Elementos da
teoria da procura, 3) Teoria clssica da produo, 4) Funo consumo, e finalmente 5) Modelos
macroeconmicos. Nos dias de hoje, a estrutura desta sebenta parece ser mais apropriada a uma
disciplina de economia aplicada do que a um curso introdutrio de econometria, reflectindo afinal
aquela que a gnese da econometria como hoje a conhecemos. Alis, a importncia que se d nestas
lies teoria econmica est de acordo com o que era feito em livros de econometria da poca, como
sejam os de Gerhard Tinter (1952) e Lawrence Klein (1953).
3
Outro aspecto que notrio nestes apontamentos o facto de a calculatria necessria,
nomeadamente estimao do modelo de regresso linear mltipla pelo mtodo dos mnimos
quadrados, ter uma importncia relativa muito pequena. No entanto, tal no de estranhar se se
recordar que as primeiras calculadoras electrnicas (de secretria!) foram introduzidas uma dcada
mais tarde. Portanto, natural que numa disciplina de licenciatura no houvesse lugar a esse tipo de
preocupaes, uma vez que os meios de clculo ao dispor dos alunos no eram de todo adequados,
nem sequer estimao de modelos relativamente simples. Esta carncia colmatada com a
apresentao dos resultados de inmeros estudos empricos, que so cuidadosamente discutidos e
interpretados.
Numa anlise mais pormenorizada das lies de Bento Murteira verifica-se que cerca de metade da
disciplina era dedicada ao estudo de problemas de microeconometria, nomeadamente a estimao de
curvas de Engel e de curvas de custos. Numa segunda parte, estudavam-se modelos para dados
agregados (aquilo que hoje genericamente se designa por macroeconometria), dando-se especial
ateno funo consumo, que merece um captulo prprio, e aos modelos de equaes simultneas.
Curiosamente, este ltimo captulo, que segue de perto o manual de Lawrence Klein (1953), o que
mais se aproxima de captulos correspondentes em manuais de econometria actuais, incluindo a
habitual discusso do problema da identificao e dos mtodos de estimao com informao limitada
e completa.
Cerca de dez anos depois de se ter iniciado o ensino da econometria em Portugal, foi publicada a
primeira edio do livro Econometric Methods de Jack Johnston (1963), que marcou profundamente o
ensino da econometria em todo o mundo, e que com a sua quarta edio (Johnston e DiNardo, 1997)
continua a ser uma obra de referncia em muitas universidades portuguesas e estrangeiras. Uma vez
que no essencial a evoluo do ensino da econometria foi marcada pelo estilo e substncia das
sucessivas edies deste livro, vale a pena analisar com um pouco de ateno esta obra.
O que distingue o livro de Jack Johnston da maioria dos seus antecessores o facto de, como o seu
nome indica, se centrar claramente nos mtodos economtricos e no nas aplicaes. De facto, este
livro apresenta de uma forma sistemtica o modelo de regresso linear mltipla, bem como uma srie
de tpicos que ainda hoje fazem parte da maioria dos cursos de econometria, como sejam os erros nas
variveis, autocorrelao, heterocedasticidade, multicolinearidade, variveis artificiais e variveis
2
interessante notar que o curso foi leccionado pelos professores Francisco de Paula Leite Pinto, Henri Guitton
(Universidade de Dijon) e Jos de Castaeda (Universidade de Madrid), bem como pelo ento assistente Manuel Jacinto
Nunes.
3
Note-se no entanto que nestes manuais era possvel encontrar tratados outros tpicos, como sejam a anlise multivariada,
a anlise espectral, o clculo numrico, e modelos de input-output, que no so de todo tratados nas lies de Bento
Murteira, mas que tambm tipicamente no fazem parte dos manuais de econometria modernos.
Jos A. F. Machado, jafm@fe.unl.pt
Faculdade de Economia, Universidade Nova de Lisboa
J. M. C. Santos Silva, jmcss@essex.ac.uk
University of Essex e CEMAPRE
11 O u t o n o d e 2 0 0 9
Pode ter-se uma ideia do contedo da disciplina de econometria ento leccionada consultando o
programa da disciplina que apresentado por Manuel Jacinto Nunes (1953). Infelizmente, esse
programa no apresenta nenhuma lista de bibliografia usada, pelo que difcil conhecer com algum
detalhe a forma como o curso foi leccionado.
2
Para se conhecer melhor o contedo dos cursos da poca
pode recorrer-se sebenta de econometria editada pela Associao Acadmica do ISCEF, com base
nas lies de Bento Murteira no ano lectivo de 1955/56 (Murteira, 1956). Esta obra est dividida em
cinco captulos, com os seguintes temas: 1) O conceito e objectivos da econometria, 2) Elementos da
teoria da procura, 3) Teoria clssica da produo, 4) Funo consumo, e finalmente 5) Modelos
macroeconmicos. Nos dias de hoje, a estrutura desta sebenta parece ser mais apropriada a uma
disciplina de economia aplicada do que a um curso introdutrio de econometria, reflectindo afinal
aquela que a gnese da econometria como hoje a conhecemos. Alis, a importncia que se d nestas
lies teoria econmica est de acordo com o que era feito em livros de econometria da poca, como
sejam os de Gerhard Tinter (1952) e Lawrence Klein (1953).
3
Outro aspecto que notrio nestes apontamentos o facto de a calculatria necessria,
nomeadamente estimao do modelo de regresso linear mltipla pelo mtodo dos mnimos
quadrados, ter uma importncia relativa muito pequena. No entanto, tal no de estranhar se se
recordar que as primeiras calculadoras electrnicas (de secretria!) foram introduzidas uma dcada
mais tarde. Portanto, natural que numa disciplina de licenciatura no houvesse lugar a esse tipo de
preocupaes, uma vez que os meios de clculo ao dispor dos alunos no eram de todo adequados,
nem sequer estimao de modelos relativamente simples. Esta carncia colmatada com a
apresentao dos resultados de inmeros estudos empricos, que so cuidadosamente discutidos e
interpretados.
Numa anlise mais pormenorizada das lies de Bento Murteira verifica-se que cerca de metade da
disciplina era dedicada ao estudo de problemas de microeconometria, nomeadamente a estimao de
curvas de Engel e de curvas de custos. Numa segunda parte, estudavam-se modelos para dados
agregados (aquilo que hoje genericamente se designa por macroeconometria), dando-se especial
ateno funo consumo, que merece um captulo prprio, e aos modelos de equaes simultneas.
Curiosamente, este ltimo captulo, que segue de perto o manual de Lawrence Klein (1953), o que
mais se aproxima de captulos correspondentes em manuais de econometria actuais, incluindo a
habitual discusso do problema da identificao e dos mtodos de estimao com informao limitada
e completa.
Cerca de dez anos depois de se ter iniciado o ensino da econometria em Portugal, foi publicada a
primeira edio do livro Econometric Methods de Jack Johnston (1963), que marcou profundamente o
ensino da econometria em todo o mundo, e que com a sua quarta edio (Johnston e DiNardo, 1997)
continua a ser uma obra de referncia em muitas universidades portuguesas e estrangeiras. Uma vez
que no essencial a evoluo do ensino da econometria foi marcada pelo estilo e substncia das
sucessivas edies deste livro, vale a pena analisar com um pouco de ateno esta obra.
O que distingue o livro de Jack Johnston da maioria dos seus antecessores o facto de, como o seu
nome indica, se centrar claramente nos mtodos economtricos e no nas aplicaes. De facto, este
livro apresenta de uma forma sistemtica o modelo de regresso linear mltipla, bem como uma srie
de tpicos que ainda hoje fazem parte da maioria dos cursos de econometria, como sejam os erros nas
variveis, autocorrelao, heterocedasticidade, multicolinearidade, variveis artificiais e variveis
2
interessante notar que o curso foi leccionado pelos professores Francisco de Paula Leite Pinto, Henri Guitton
(Universidade de Dijon) e Jos de Castaeda (Universidade de Madrid), bem como pelo ento assistente Manuel Jacinto
Nunes.
3
Note-se no entanto que nestes manuais era possvel encontrar tratados outros tpicos, como sejam a anlise multivariada,
a anlise espectral, o clculo numrico, e modelos de input-output, que no so de todo tratados nas lies de Bento
Murteira, mas que tambm tipicamente no fazem parte dos manuais de econometria modernos.
Pode ter-se uma ideia do contedo da disciplina de econometria ento leccionada consultando o
programa da disciplina que apresentado por Manuel Jacinto Nunes (1953). Infelizmente, esse
programa no apresenta nenhuma lista de bibliografia usada, pelo que difcil conhecer com algum
detalhe a forma como o curso foi leccionado.
2
Para se conhecer melhor o contedo dos cursos da poca
pode recorrer-se sebenta de econometria editada pela Associao Acadmica do ISCEF, com base
nas lies de Bento Murteira no ano lectivo de 1955/56 (Murteira, 1956). Esta obra est dividida em
cinco captulos, com os seguintes temas: 1) O conceito e objectivos da econometria, 2) Elementos da
teoria da procura, 3) Teoria clssica da produo, 4) Funo consumo, e finalmente 5) Modelos
macroeconmicos. Nos dias de hoje, a estrutura desta sebenta parece ser mais apropriada a uma
disciplina de economia aplicada do que a um curso introdutrio de econometria, reflectindo afinal
aquela que a gnese da econometria como hoje a conhecemos. Alis, a importncia que se d nestas
lies teoria econmica est de acordo com o que era feito em livros de econometria da poca, como
sejam os de Gerhard Tinter (1952) e Lawrence Klein (1953).
3
Outro aspecto que notrio nestes apontamentos o facto de a calculatria necessria,
nomeadamente estimao do modelo de regresso linear mltipla pelo mtodo dos mnimos
quadrados, ter uma importncia relativa muito pequena. No entanto, tal no de estranhar se se
recordar que as primeiras calculadoras electrnicas (de secretria!) foram introduzidas uma dcada
mais tarde. Portanto, natural que numa disciplina de licenciatura no houvesse lugar a esse tipo de
preocupaes, uma vez que os meios de clculo ao dispor dos alunos no eram de todo adequados,
nem sequer estimao de modelos relativamente simples. Esta carncia colmatada com a
apresentao dos resultados de inmeros estudos empricos, que so cuidadosamente discutidos e
interpretados.
Numa anlise mais pormenorizada das lies de Bento Murteira verifica-se que cerca de metade da
disciplina era dedicada ao estudo de problemas de microeconometria, nomeadamente a estimao de
curvas de Engel e de curvas de custos. Numa segunda parte, estudavam-se modelos para dados
agregados (aquilo que hoje genericamente se designa por macroeconometria), dando-se especial
ateno funo consumo, que merece um captulo prprio, e aos modelos de equaes simultneas.
Curiosamente, este ltimo captulo, que segue de perto o manual de Lawrence Klein (1953), o que
mais se aproxima de captulos correspondentes em manuais de econometria actuais, incluindo a
habitual discusso do problema da identificao e dos mtodos de estimao com informao limitada
e completa.
Cerca de dez anos depois de se ter iniciado o ensino da econometria em Portugal, foi publicada a
primeira edio do livro Econometric Methods de Jack Johnston (1963), que marcou profundamente o
ensino da econometria em todo o mundo, e que com a sua quarta edio (Johnston e DiNardo, 1997)
continua a ser uma obra de referncia em muitas universidades portuguesas e estrangeiras. Uma vez
que no essencial a evoluo do ensino da econometria foi marcada pelo estilo e substncia das
sucessivas edies deste livro, vale a pena analisar com um pouco de ateno esta obra.
O que distingue o livro de Jack Johnston da maioria dos seus antecessores o facto de, como o seu
nome indica, se centrar claramente nos mtodos economtricos e no nas aplicaes. De facto, este
livro apresenta de uma forma sistemtica o modelo de regresso linear mltipla, bem como uma srie
de tpicos que ainda hoje fazem parte da maioria dos cursos de econometria, como sejam os erros nas
variveis, autocorrelao, heterocedasticidade, multicolinearidade, variveis artificiais e variveis
2
interessante notar que o curso foi leccionado pelos professores Francisco de Paula Leite Pinto, Henri Guitton
(Universidade de Dijon) e Jos de Castaeda (Universidade de Madrid), bem como pelo ento assistente Manuel Jacinto
Nunes.
3
Note-se no entanto que nestes manuais era possvel encontrar tratados outros tpicos, como sejam a anlise multivariada,
a anlise espectral, o clculo numrico, e modelos de input-output, que no so de todo tratados nas lies de Bento
Murteira, mas que tambm tipicamente no fazem parte dos manuais de econometria modernos.
desfasadas. Naturalmente, tal como em manuais anteriores, continua a ser dada grande importncia aos
sistemas de equaes simultneas.
Contrariamente aos livros da dcada anterior, o livro de Jack Johnston foi escrito com o propsito de
ser usado como manual em disciplinas de econometria das licenciaturas. O facto de se concentrar nos
mtodos economtricos permitia que numa disciplina anual de econometria fossem cobertos
praticamente todos os tpicos tratados no livro, e que representavam grande parte dos mtodos usados
na altura. Sob este ponto de vista, este livro constituiu um grande progresso em relao ao que se
passava anteriormente, no sendo de espantar que tenha ganho tanta popularidade. Naturalmente, esta
alterao na forma de ensinar econometria teve custos.
Na sua edio de 1963, e contrariamente ao que era habitual, o livro Econometric Methods
praticamente no apresenta exemplos realistas de aplicao da econometria. Como consequncia, ainda
que o assunto seja mencionado de passagem algumas vezes, este livro nunca discute a natureza dos
dados usados pela econometria nem a forma como estes so recolhidos, quase no distinguindo entre
dados seccionais e temporais (os dados de painel no ganharam importncia seno alguns anos mais
tarde). De facto, quase todo o livro apresenta os mtodos economtricos com base na hiptese de
regressores fixos, que praticamente insustentvel em econometria aplicada. claro que do ponto de
vista da leccionao dos mtodos economtricos, esta hiptese relativamente incua uma vez que
uma parte importante dos mtodos pode ser aplicada tanto no caso de regressores fixos como no de
regressores estocsticos.
A tendncia para valorizar essencialmente a mecnica dos mtodos economtricos em detrimento da
interpretao dos procedimentos ganhou peso nos anos 70 com a publicao da segunda edio do
livro de Jack Johnston e com o surgimento das calculadoras electrnicas portteis. De facto, o manual
de Johnston (1972)
4
j no inclui o captulo sobre erros nas variveis, sendo o tema remetido para uma
modesta seco no captulo sobre regressores estocsticos. Este era um tpico que tinha tido algum
destaque nos primeiros cursos de econometria (veja-se Murteira, 1956) e era uma das poucas
oportunidades que ainda restava para alertar os estudantes para os problemas que resultam da
especificidade dos dados usados em econometria. Paralelamente, o surgimento de calculadoras
electrnicas portteis veio tornar possvel que os estudantes pudessem estimar pequenos modelos. No
entanto, do ponto de vista prtico, esta possibilidade de estimar pequenos modelos economtricos no
era muito importante uma vez que por essa altura teve incio a comercializao dos primeiros
programas informticos dedicados econometria, significando que qualquer estudo srio de
econometria aplicada seria j feito com o recurso a meios de clculo mais sofisticados.
Apesar das suas insuficincias, esta forma de ver o ensino da econometria perdurou, sendo reforada
pelo surgimento de outros manuais que mantinham esta separao entre, por um lado, os mtodos e as
tcnicas da econometria, e, por outro, os dados dos quais dependem todos os resultados obtidos. Desta
forma, pelo menos at aos finais dos anos 80, era enorme o peso da calculatria quer nos cursos quer
nas provas de avaliao de econometria da maioria das universidades portuguesas, sendo dado
relativamente pouco peso aos exemplos de aplicaes reais.
Nos anos 90, com o rapidssimo crescimento da capacidade de clculo posta disposio dos
estudantes, a situao alterou-se qualitativamente. De facto, desde o final da dcada de 80 foi-se
vulgarizando a utilizao de programas informticos de econometria nos cursos de licenciatura,
proporcionando-se assim aos estudantes o contacto com ferramentas de trabalho poderosas e
sofisticadas. Este avano, que acompanhou o que se passava noutros pases da Europa, permitiu dar
uma formao muito mais adequada s necessidades dos futuros economistas, libertando a disciplina
de econometria de uma parte substancial da calcularia at ento indispensvel.
4
Este um livro ao qual ambos os autores muito devem, e do qual guardam uma muito grata recordao, pois foi por ele
que estudaram econometria durante as suas licenciaturas.
Pode ter-se uma ideia do contedo da disciplina de econometria ento leccionada consultando o
programa da disciplina que apresentado por Manuel Jacinto Nunes (1953). Infelizmente, esse
programa no apresenta nenhuma lista de bibliografia usada, pelo que difcil conhecer com algum
detalhe a forma como o curso foi leccionado.
2
Para se conhecer melhor o contedo dos cursos da poca
pode recorrer-se sebenta de econometria editada pela Associao Acadmica do ISCEF, com base
nas lies de Bento Murteira no ano lectivo de 1955/56 (Murteira, 1956). Esta obra est dividida em
cinco captulos, com os seguintes temas: 1) O conceito e objectivos da econometria, 2) Elementos da
teoria da procura, 3) Teoria clssica da produo, 4) Funo consumo, e finalmente 5) Modelos
macroeconmicos. Nos dias de hoje, a estrutura desta sebenta parece ser mais apropriada a uma
disciplina de economia aplicada do que a um curso introdutrio de econometria, reflectindo afinal
aquela que a gnese da econometria como hoje a conhecemos. Alis, a importncia que se d nestas
lies teoria econmica est de acordo com o que era feito em livros de econometria da poca, como
sejam os de Gerhard Tinter (1952) e Lawrence Klein (1953).
3
Outro aspecto que notrio nestes apontamentos o facto de a calculatria necessria,
nomeadamente estimao do modelo de regresso linear mltipla pelo mtodo dos mnimos
quadrados, ter uma importncia relativa muito pequena. No entanto, tal no de estranhar se se
recordar que as primeiras calculadoras electrnicas (de secretria!) foram introduzidas uma dcada
mais tarde. Portanto, natural que numa disciplina de licenciatura no houvesse lugar a esse tipo de
preocupaes, uma vez que os meios de clculo ao dispor dos alunos no eram de todo adequados,
nem sequer estimao de modelos relativamente simples. Esta carncia colmatada com a
apresentao dos resultados de inmeros estudos empricos, que so cuidadosamente discutidos e
interpretados.
Numa anlise mais pormenorizada das lies de Bento Murteira verifica-se que cerca de metade da
disciplina era dedicada ao estudo de problemas de microeconometria, nomeadamente a estimao de
curvas de Engel e de curvas de custos. Numa segunda parte, estudavam-se modelos para dados
agregados (aquilo que hoje genericamente se designa por macroeconometria), dando-se especial
ateno funo consumo, que merece um captulo prprio, e aos modelos de equaes simultneas.
Curiosamente, este ltimo captulo, que segue de perto o manual de Lawrence Klein (1953), o que
mais se aproxima de captulos correspondentes em manuais de econometria actuais, incluindo a
habitual discusso do problema da identificao e dos mtodos de estimao com informao limitada
e completa.
Cerca de dez anos depois de se ter iniciado o ensino da econometria em Portugal, foi publicada a
primeira edio do livro Econometric Methods de Jack Johnston (1963), que marcou profundamente o
ensino da econometria em todo o mundo, e que com a sua quarta edio (Johnston e DiNardo, 1997)
continua a ser uma obra de referncia em muitas universidades portuguesas e estrangeiras. Uma vez
que no essencial a evoluo do ensino da econometria foi marcada pelo estilo e substncia das
sucessivas edies deste livro, vale a pena analisar com um pouco de ateno esta obra.
O que distingue o livro de Jack Johnston da maioria dos seus antecessores o facto de, como o seu
nome indica, se centrar claramente nos mtodos economtricos e no nas aplicaes. De facto, este
livro apresenta de uma forma sistemtica o modelo de regresso linear mltipla, bem como uma srie
de tpicos que ainda hoje fazem parte da maioria dos cursos de econometria, como sejam os erros nas
variveis, autocorrelao, heterocedasticidade, multicolinearidade, variveis artificiais e variveis
2
interessante notar que o curso foi leccionado pelos professores Francisco de Paula Leite Pinto, Henri Guitton
(Universidade de Dijon) e Jos de Castaeda (Universidade de Madrid), bem como pelo ento assistente Manuel Jacinto
Nunes.
3
Note-se no entanto que nestes manuais era possvel encontrar tratados outros tpicos, como sejam a anlise multivariada,
a anlise espectral, o clculo numrico, e modelos de input-output, que no so de todo tratados nas lies de Bento
Murteira, mas que tambm tipicamente no fazem parte dos manuais de econometria modernos.
12 B o l e t i m S P E
desfasadas. Naturalmente, tal como em manuais anteriores, continua a ser dada grande importncia aos
sistemas de equaes simultneas.
Contrariamente aos livros da dcada anterior, o livro de Jack Johnston foi escrito com o propsito de
ser usado como manual em disciplinas de econometria das licenciaturas. O facto de se concentrar nos
mtodos economtricos permitia que numa disciplina anual de econometria fossem cobertos
praticamente todos os tpicos tratados no livro, e que representavam grande parte dos mtodos usados
na altura. Sob este ponto de vista, este livro constituiu um grande progresso em relao ao que se
passava anteriormente, no sendo de espantar que tenha ganho tanta popularidade. Naturalmente, esta
alterao na forma de ensinar econometria teve custos.
Na sua edio de 1963, e contrariamente ao que era habitual, o livro Econometric Methods
praticamente no apresenta exemplos realistas de aplicao da econometria. Como consequncia, ainda
que o assunto seja mencionado de passagem algumas vezes, este livro nunca discute a natureza dos
dados usados pela econometria nem a forma como estes so recolhidos, quase no distinguindo entre
dados seccionais e temporais (os dados de painel no ganharam importncia seno alguns anos mais
tarde). De facto, quase todo o livro apresenta os mtodos economtricos com base na hiptese de
regressores fixos, que praticamente insustentvel em econometria aplicada. claro que do ponto de
vista da leccionao dos mtodos economtricos, esta hiptese relativamente incua uma vez que
uma parte importante dos mtodos pode ser aplicada tanto no caso de regressores fixos como no de
regressores estocsticos.
A tendncia para valorizar essencialmente a mecnica dos mtodos economtricos em detrimento da
interpretao dos procedimentos ganhou peso nos anos 70 com a publicao da segunda edio do
livro de Jack Johnston e com o surgimento das calculadoras electrnicas portteis. De facto, o manual
de Johnston (1972)
4
j no inclui o captulo sobre erros nas variveis, sendo o tema remetido para uma
modesta seco no captulo sobre regressores estocsticos. Este era um tpico que tinha tido algum
destaque nos primeiros cursos de econometria (veja-se Murteira, 1956) e era uma das poucas
oportunidades que ainda restava para alertar os estudantes para os problemas que resultam da
especificidade dos dados usados em econometria. Paralelamente, o surgimento de calculadoras
electrnicas portteis veio tornar possvel que os estudantes pudessem estimar pequenos modelos. No
entanto, do ponto de vista prtico, esta possibilidade de estimar pequenos modelos economtricos no
era muito importante uma vez que por essa altura teve incio a comercializao dos primeiros
programas informticos dedicados econometria, significando que qualquer estudo srio de
econometria aplicada seria j feito com o recurso a meios de clculo mais sofisticados.
Apesar das suas insuficincias, esta forma de ver o ensino da econometria perdurou, sendo reforada
pelo surgimento de outros manuais que mantinham esta separao entre, por um lado, os mtodos e as
tcnicas da econometria, e, por outro, os dados dos quais dependem todos os resultados obtidos. Desta
forma, pelo menos at aos finais dos anos 80, era enorme o peso da calculatria quer nos cursos quer
nas provas de avaliao de econometria da maioria das universidades portuguesas, sendo dado
relativamente pouco peso aos exemplos de aplicaes reais.
Nos anos 90, com o rapidssimo crescimento da capacidade de clculo posta disposio dos
estudantes, a situao alterou-se qualitativamente. De facto, desde o final da dcada de 80 foi-se
vulgarizando a utilizao de programas informticos de econometria nos cursos de licenciatura,
proporcionando-se assim aos estudantes o contacto com ferramentas de trabalho poderosas e
sofisticadas. Este avano, que acompanhou o que se passava noutros pases da Europa, permitiu dar
uma formao muito mais adequada s necessidades dos futuros economistas, libertando a disciplina
de econometria de uma parte substancial da calcularia at ento indispensvel.
4
Este um livro ao qual ambos os autores muito devem, e do qual guardam uma muito grata recordao, pois foi por ele
que estudaram econometria durante as suas licenciaturas.
desfasadas. Naturalmente, tal como em manuais anteriores, continua a ser dada grande importncia aos
sistemas de equaes simultneas.
Contrariamente aos livros da dcada anterior, o livro de Jack Johnston foi escrito com o propsito de
ser usado como manual em disciplinas de econometria das licenciaturas. O facto de se concentrar nos
mtodos economtricos permitia que numa disciplina anual de econometria fossem cobertos
praticamente todos os tpicos tratados no livro, e que representavam grande parte dos mtodos usados
na altura. Sob este ponto de vista, este livro constituiu um grande progresso em relao ao que se
passava anteriormente, no sendo de espantar que tenha ganho tanta popularidade. Naturalmente, esta
alterao na forma de ensinar econometria teve custos.
Na sua edio de 1963, e contrariamente ao que era habitual, o livro Econometric Methods
praticamente no apresenta exemplos realistas de aplicao da econometria. Como consequncia, ainda
que o assunto seja mencionado de passagem algumas vezes, este livro nunca discute a natureza dos
dados usados pela econometria nem a forma como estes so recolhidos, quase no distinguindo entre
dados seccionais e temporais (os dados de painel no ganharam importncia seno alguns anos mais
tarde). De facto, quase todo o livro apresenta os mtodos economtricos com base na hiptese de
regressores fixos, que praticamente insustentvel em econometria aplicada. claro que do ponto de
vista da leccionao dos mtodos economtricos, esta hiptese relativamente incua uma vez que
uma parte importante dos mtodos pode ser aplicada tanto no caso de regressores fixos como no de
regressores estocsticos.
A tendncia para valorizar essencialmente a mecnica dos mtodos economtricos em detrimento da
interpretao dos procedimentos ganhou peso nos anos 70 com a publicao da segunda edio do
livro de Jack Johnston e com o surgimento das calculadoras electrnicas portteis. De facto, o manual
de Johnston (1972)
4
j no inclui o captulo sobre erros nas variveis, sendo o tema remetido para uma
modesta seco no captulo sobre regressores estocsticos. Este era um tpico que tinha tido algum
destaque nos primeiros cursos de econometria (veja-se Murteira, 1956) e era uma das poucas
oportunidades que ainda restava para alertar os estudantes para os problemas que resultam da
especificidade dos dados usados em econometria. Paralelamente, o surgimento de calculadoras
electrnicas portteis veio tornar possvel que os estudantes pudessem estimar pequenos modelos. No
entanto, do ponto de vista prtico, esta possibilidade de estimar pequenos modelos economtricos no
era muito importante uma vez que por essa altura teve incio a comercializao dos primeiros
programas informticos dedicados econometria, significando que qualquer estudo srio de
econometria aplicada seria j feito com o recurso a meios de clculo mais sofisticados.
Apesar das suas insuficincias, esta forma de ver o ensino da econometria perdurou, sendo reforada
pelo surgimento de outros manuais que mantinham esta separao entre, por um lado, os mtodos e as
tcnicas da econometria, e, por outro, os dados dos quais dependem todos os resultados obtidos. Desta
forma, pelo menos at aos finais dos anos 80, era enorme o peso da calculatria quer nos cursos quer
nas provas de avaliao de econometria da maioria das universidades portuguesas, sendo dado
relativamente pouco peso aos exemplos de aplicaes reais.
Nos anos 90, com o rapidssimo crescimento da capacidade de clculo posta disposio dos
estudantes, a situao alterou-se qualitativamente. De facto, desde o final da dcada de 80 foi-se
vulgarizando a utilizao de programas informticos de econometria nos cursos de licenciatura,
proporcionando-se assim aos estudantes o contacto com ferramentas de trabalho poderosas e
sofisticadas. Este avano, que acompanhou o que se passava noutros pases da Europa, permitiu dar
uma formao muito mais adequada s necessidades dos futuros economistas, libertando a disciplina
de econometria de uma parte substancial da calcularia at ento indispensvel.
4
Este um livro ao qual ambos os autores muito devem, e do qual guardam uma muito grata recordao, pois foi por ele
que estudaram econometria durante as suas licenciaturas.
Paralelamente aos avanos na capacidade de clculo, a econometria teve um rpido
desenvolvimento desde o final dos anos 70, o qual se tem acelerado progressivamente desde ento. A
ttulo de exemplo, podem destacar-se o surgimento de temas novos como estimao semi e no
paramtrica, o bootstrap, a cointegrao, e mesmo a maior ateno dada aos testes de especificao,
temas que tipicamente estavam ausentes dos manuais de econometria dos anos 80. O crescimento
exponencial da variedade de tcnicas usadas em econometria torna praticamente impossvel que este
desenvolvimento possa ser acompanhado por uma disciplina de licenciatura, especialmente numa
poca em que h tendncia para a reduo da durao dos cursos. Apesar das dificuldades, foi feito
algum esforo neste sentido, tendo a maioria das disciplinas de econometria passado a integrar durante
os anos 90 o tratamento de temas novos como a anlise da estacionaridade de sries econmicas e a
cointegrao.
5
As disciplinas de Econometria leccionadas hoje nas licenciaturas aproximam-se da filosofia
primordial patente nas lices de Bento Murteira. A grande acessibilidade de programas informticos
de fcil utilizao, o surgimento de manuais modernos como o de Jeff Wooldridge (2000), e o
nascimento de uma activa comunidade de investigao na rea, possibilitaram um enfoque maior nas
aplicaes, na formalizao de modelos e na interpretao dos resultados das estimaes.
Curiosamente, em 50 ou 60 anos fechou-se um crculo.
Referncias
Gonalves Pereira, A. (1949). "O Instituto Superior de Cincias Econmicas e Financeiras. A Recente
Reforma de Estudo", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Financeiras, 17, 445-447.
Johnston, J. (1963). Econometric Methods, Nova Iorque: McGraw-Hill.
Johnston, J. (1972). Econometric Methods, 2ed., Nova Iorque: McGraw-Hill.
Johnston, J. e DiNardo, J. (1997). Econometric Methods, 4ed., Nova Iorque: McGraw-Hill.
Klein, L.R. (1953). A Textbook of Econometrics, Evanston: Row, Peterson and Company.
Machado, J.A.F. e Santos Silva, J.M.C. (2002). "50 Anos de Ensino de Econometria em Portugal",
Economia, 26, 95-112.
Murteira, B.F. (1956). Econometria, 1 Curso, Associao Acadmica do ISCEF, Lisboa.
Jacinto Nunes, M. (1953). "Lies de Econometria no Instituto Superior de Cincias Econmicas e
Financeiras", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Financeiras, 21, 238-241.
Tinter, G. (1952). Econometrics, Nova Iorque: John Wiley & Sons.
Wooldridge, J.M. (2000). Introductory Econometrics, A Modern Approach, Cincinnati: South-Western
College Publishing.
5
No entanto, apesar de se ter tornado ainda mais necessrio, continuou a ser dada relativamente pouca importncia ao
contexto estocstico em que se desenvolve o estudo dos modelos de regresso e natureza dos dados econmicos. (Veja-se
Machado e Santos Silva, 2002, para uma discusso mais detalhada.)
Paralelamente aos avanos na capacidade de clculo, a econometria teve um rpido
desenvolvimento desde o final dos anos 70, o qual se tem acelerado progressivamente desde ento. A
ttulo de exemplo, podem destacar-se o surgimento de temas novos como estimao semi e no
paramtrica, o bootstrap, a cointegrao, e mesmo a maior ateno dada aos testes de especificao,
temas que tipicamente estavam ausentes dos manuais de econometria dos anos 80. O crescimento
exponencial da variedade de tcnicas usadas em econometria torna praticamente impossvel que este
desenvolvimento possa ser acompanhado por uma disciplina de licenciatura, especialmente numa
poca em que h tendncia para a reduo da durao dos cursos. Apesar das dificuldades, foi feito
algum esforo neste sentido, tendo a maioria das disciplinas de econometria passado a integrar durante
os anos 90 o tratamento de temas novos como a anlise da estacionaridade de sries econmicas e a
cointegrao.
5
As disciplinas de Econometria leccionadas hoje nas licenciaturas aproximam-se da filosofia
primordial patente nas lices de Bento Murteira. A grande acessibilidade de programas informticos
de fcil utilizao, o surgimento de manuais modernos como o de Jeff Wooldridge (2000), e o
nascimento de uma activa comunidade de investigao na rea, possibilitaram um enfoque maior nas
aplicaes, na formalizao de modelos e na interpretao dos resultados das estimaes.
Curiosamente, em 50 ou 60 anos fechou-se um crculo.
Referncias
Gonalves Pereira, A. (1949). "O Instituto Superior de Cincias Econmicas e Financeiras. A Recente
Reforma de Estudo", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Financeiras, 17, 445-447.
Johnston, J. (1963). Econometric Methods, Nova Iorque: McGraw-Hill.
Johnston, J. (1972). Econometric Methods, 2ed., Nova Iorque: McGraw-Hill.
Johnston, J. e DiNardo, J. (1997). Econometric Methods, 4ed., Nova Iorque: McGraw-Hill.
Klein, L.R. (1953). A Textbook of Econometrics, Evanston: Row, Peterson and Company.
Machado, J.A.F. e Santos Silva, J.M.C. (2002). "50 Anos de Ensino de Econometria em Portugal",
Economia, 26, 95-112.
Murteira, B.F. (1956). Econometria, 1 Curso, Associao Acadmica do ISCEF, Lisboa.
Jacinto Nunes, M. (1953). "Lies de Econometria no Instituto Superior de Cincias Econmicas e
Financeiras", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Financeiras, 21, 238-241.
Tinter, G. (1952). Econometrics, Nova Iorque: John Wiley & Sons.
Wooldridge, J.M. (2000). Introductory Econometrics, A Modern Approach, Cincinnati: South-Western
College Publishing.
5
No entanto, apesar de se ter tornado ainda mais necessrio, continuou a ser dada relativamente pouca importncia ao
contexto estocstico em que se desenvolve o estudo dos modelos de regresso e natureza dos dados econmicos. (Veja-se
Machado e Santos Silva, 2002, para uma discusso mais detalhada.)
13 O u t o n o d e 2 0 0 9
Paralelamente aos avanos na capacidade de clculo, a econometria teve um rpido
desenvolvimento desde o final dos anos 70, o qual se tem acelerado progressivamente desde ento. A
ttulo de exemplo, podem destacar-se o surgimento de temas novos como estimao semi e no
paramtrica, o bootstrap, a cointegrao, e mesmo a maior ateno dada aos testes de especificao,
temas que tipicamente estavam ausentes dos manuais de econometria dos anos 80. O crescimento
exponencial da variedade de tcnicas usadas em econometria torna praticamente impossvel que este
desenvolvimento possa ser acompanhado por uma disciplina de licenciatura, especialmente numa
poca em que h tendncia para a reduo da durao dos cursos. Apesar das dificuldades, foi feito
algum esforo neste sentido, tendo a maioria das disciplinas de econometria passado a integrar durante
os anos 90 o tratamento de temas novos como a anlise da estacionaridade de sries econmicas e a
cointegrao.
5
As disciplinas de Econometria leccionadas hoje nas licenciaturas aproximam-se da filosofia
primordial patente nas lices de Bento Murteira. A grande acessibilidade de programas informticos
de fcil utilizao, o surgimento de manuais modernos como o de Jeff Wooldridge (2000), e o
nascimento de uma activa comunidade de investigao na rea, possibilitaram um enfoque maior nas
aplicaes, na formalizao de modelos e na interpretao dos resultados das estimaes.
Curiosamente, em 50 ou 60 anos fechou-se um crculo.
Referncias
Gonalves Pereira, A. (1949). "O Instituto Superior de Cincias Econmicas e Financeiras. A Recente
Reforma de Estudo", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Financeiras, 17, 445-447.
Johnston, J. (1963). Econometric Methods, Nova Iorque: McGraw-Hill.
Johnston, J. (1972). Econometric Methods, 2ed., Nova Iorque: McGraw-Hill.
Johnston, J. e DiNardo, J. (1997). Econometric Methods, 4ed., Nova Iorque: McGraw-Hill.
Klein, L.R. (1953). A Textbook of Econometrics, Evanston: Row, Peterson and Company.
Machado, J.A.F. e Santos Silva, J.M.C. (2002). "50 Anos de Ensino de Econometria em Portugal",
Economia, 26, 95-112.
Murteira, B.F. (1956). Econometria, 1 Curso, Associao Acadmica do ISCEF, Lisboa.
Jacinto Nunes, M. (1953). "Lies de Econometria no Instituto Superior de Cincias Econmicas e
Financeiras", Economia e Finanas, Anais do Instituto Superior de Cincias Econmicas e
Financeiras, 21, 238-241.
Tinter, G. (1952). Econometrics, Nova Iorque: John Wiley & Sons.
Wooldridge, J.M. (2000). Introductory Econometrics, A Modern Approach, Cincinnati: South-Western
College Publishing.
5
No entanto, apesar de se ter tornado ainda mais necessrio, continuou a ser dada relativamente pouca importncia ao
contexto estocstico em que se desenvolve o estudo dos modelos de regresso e natureza dos dados econmicos. (Veja-se
Machado e Santos Silva, 2002, para uma discusso mais detalhada.)
14 B o l e t i m S P E
Sries Temporais: Evoluo e Tpicos Recentes
Lus Catela Nunes
a)
e Paulo M. M. Rodrigues
b) a)
a) Universidade Nova de Lisboa, Faculdade de Economia
b) Banco de Portugal
1. Introduo
Historicamente pode dizer-se que a anlise estatstica de sries temporais se iniciou no incio do sculo
XX (Yule, 1927) e que atingiu a maturidade nos anos setenta aquando da publicao do famoso livro
de G.E.P. Box e G.M. Jenkins, Time Series Analysis: Forecasting and Control, San Francisco, 1970.
Esta publicao foi importante, no sentido em que contribuiu com uma abordagem sistemtica
permitindo a aplicao de mtodos de sries temporais para a previso. Box e Jenkins (1970)
popularizaram os modelos autoregressivos integrados de mdias mveis, os famosos ARIMA(p,d,q),
(1-
1
L-
2
L
2
- -
p
L
p
)(1-L)
d
z
t
= c + (1-
1
L-
2
L
2
- -
q
L
q
)e
t
onde p, d e q assumem valores no negativos, c uma constante e L o operador de desfasamento
temporal tal que Lz
t
= z
t-1
. Os dois polinmios em L, (1-
1
L-
2
L
2
- -
p
L
p
) e (1-
1
L-
2
L
2
- -
q
L
q
)
no tm factores comuns e assume-se que as suas razes caiem fora do circulo unitrio. frequente
adicionalmente assumir-se que e
t
segue uma distribuio Gaussiana. Esta abordagem assume que z
t
estacionrio se d=0 e que z
t
contm razes unitrias quando d0. O sucesso deste modelo originou
investigao substancial na rea das sries temporais.
Inicialmente a anlise das sries temporais dividia-se (e divide-se) em duas abordagens: a anlise no
domnio da frequncia (veja Brillinger, 1975 e Priestley, 1981) e a anlise no domnio temporal. A
abordagem no domnio temporal utiliza a funo de autocorrelao dos dados e modelos paramtricos
(e.g. os ARIMA) para descrever a dependncia dinmica das sries enquanto que a abordagem no
domnio da frequncia se centra na anlise espectral para a anlise das sries temporais. Actualmente, a
opo pela utilizao de uma abordagem ou outra prende-se mais com aspectos de ordem pratica do
que de ordem filosfica ( semelhana do que acontece com as abordagens Bayesiana e no
Bayesiana).
Os avanos ao nvel dos mtodos e meios computacionais tiveram um impacto profundo sobre a
anlise de sries temporais. No contexto do que designado por anlise tradicional (c.f. Tsay, 2000)
deram-se muitos desenvolvimentos importantes. Entre outros, a anlise de outliers e a deteco de
quebras estruturais passaram a fazer parte integrante do kit de diagnstico do modelo, e foram
desenvolvidos vrios critrios de seleco para ajudar na escolha dos modelos; veja, entre outros,
Akaike (1974) e Hannan (1980).
Em Economia, de acordo com Tsay (2000) a anlise de series temporais utilizada entre outros
propsitos para, (a) estudar a estrutura dinmica de um processo, (b) para investigar as relaes
dinmicas entre variveis, (c) para proceder ao ajustamento sazonal de dados econmicos, (d) para
melhorar a anlise de regresso quando os erros se encontram correlacionados e (e) para produzir
previses pontuais ou intervalos de previso.
Sries Temporais: Evoluo e Tpicos Recentes
Lus Catela Nunes, lcnunes@fe.unl.pt
Faculdade de Economia, Universidade Nova de Lisboa
Paulo M. M. Rodrigues, pmrodrigues@bportugal.pt
Banco de Portugal
15 O u t o n o d e 2 0 0 9
.
As caractersticas das sries econmicas e financeiras (assim como outras) tm originado
desenvolvimentos importantes dos quais destacamos alguns nas seces seguintes.
2. Tpicos Recentes
2.1 Quebras Estruturais
Ao se considerarem modelos de sries temporais pode-se colocar sempre a questo da estabilidade dos
parmetros ao longo da amostra considerada. A existncia de pelo menos uma alterao estrutural
poder resultar em erros de inferncia e de previso se tais quebras no forem devidamente tidas em
conta. Nos ltimos 50 anos a literatura sobre a estimao e teste de modelos com quebras estruturais
teve uma grande expanso. Como ilustrao do problema, considere-se o caso mais simples de uma
srie temporal que de acordo com a hiptese nula tem mdia e varincia constantes ao longo do tempo,
mas de acordo com a hiptese alternativa a sua mdia altera-se numa certa data no conhecida. Este
um problema no standard j que um dos parmetros, a data da quebra, s identificado sob a
hiptese alternativa. Quandt (1958, 1960) prope a utilizao do teste sup F, ou sup Wald, que
corresponde ao teste de rcio de verosimilhana avaliado na data de quebra que maximiza a funo de
verosimilhana (assumindo uma distribuio Gaussiana). Esta soluo foi mais tarde utilizada em
contextos mais gerais por Davies (1977).
Andrews (1993) considera tambm testes baseados no valor mximo dos testes de Wald e do
multiplicador de Lagrange (LM) e mostra que estes so assimptoticamente equivalentes. Andrews
(1993) tambm apresenta verses dos testes robustas presena de autocorrelao e
heterocedasticidade. Andrews e Ploberger (1994) desenvolvem testes ptimos, como o exp Wald, no
sentido em que a potncia mdia ponderada maximizada.
Muitos outros testes alternativos foram apresentados por diversos autores como sejam os baseados em
somas parciais dos resduos (teste LM de Gardner, 1969) ou no mximo de somas parciais de resduos
recursivos (teste CUSUM de Brown, Durbin e Evans, 1975).
Inicialmente, a caracterizao da distribuio assimpttica de muitos dos testes propostos no era feita.
Por exemplo, Quandt (1960) nota que a distribuio do teste sup Wald sob a hiptese nula no
correspondia a uma distribuio de qui-quadrado (que se obteria caso a data de quebra fosse
conhecida). Tal como no caso dos testes de razes unitrias, a utilizao do teorema do limite central
funcional permite caracterizar de forma simples a distribuio assimpttica de todas as variantes destes
testes como funcionais de movimentos Brownianos. Por exemplo em MacNeill (1974) a distribuio
assimpttica do teste LM proposto por Gardner caracterizada como o integral do quadrado de uma
ponte Browniana no intervalo [0,1]. Outro exemplo o teste CUSUM cuja distribuio assimpttica se
pode representar como o supremo de um movimento Browniano devidamente normalizado.
O problema bsico acima considerado foi generalizado ao modelo de regresso linear mltipla com
vrias quebras estruturais. Bai (1997) e Bai e Perron (2003) estudam as propriedades do estimador de
mnimos quadrados e dos testes de quebras mltiplas, e ainda a inferncia acerca das datas de quebras.
O caso em que se pretende estimar o nmero de quebras foi tambm estudado por vrios autores. Liu
et al (1997) e Yao (1988) propem a utilizao de critrios de seleco de modelos enquanto Bai e
Perron (2003) consideram a utilizao sequencial de testes de m quebras contra m+1 quebras, partindo
do caso m = 0 at ocorrer uma rejeio.
A maioria dos testes de quebras estruturais so vlidos apenas quando as sries temporais so
estacionrias, excluindo como tal o caso de razes unitrias. Considere-se o seguinte problema acerca
do comportamento da tendncia de uma srie temporal: y
t
= a + b t + e
t
em que os erros e
t
podem ser
auto-correlacionados, estacionrios, I(0), ou no-estacionrios com uma raz unitria, I(1). Neste
exemplo, os testes habituais sobre uma quebra estrutural do declive da componente de tendncia
determinstica b tm taxas de convergncia diferentes sob a hiptese nula de no existirem quebras nos
casos I(0) e I(1). S muito recentemente foram encontradas solues para este problema. Perron e
Yabu (2005) e Harvey, Leybourne e Taylor (2009) propem testes de quebras estruturais que so
vlidos e no requerem conhecimento prvio acerca da estacionariedade ou no dos erros.
O problema oposto, de testar uma raiz unitria, na eventual presena de uma quebra estrutural tambm
levanta problemas. Perron (1989) mostra que a anlise da funo de autocorrelao ou a utilizao de
testes de raz unitria tendem a concluir pela existncia de raiz unitria mesmo quando as sries so
estacionrias na presena de uma quebra na componente de mdia ou tendncia determinstica. Como
soluo, o autor prope uma modificao aos testes de razes unitrias do tipo Dickey-Fuller. Estes
testes foram generalizados ao caso em que a data da quebra no conhecida por Zivot e Andrews
(1992) e a vrias quebras por Ohara (1999). Mais recentemente, Kim e Perron (2009) apresentam uma
soluo para o caso em que se pretende testar uma raiz unitria sem necessidade de se saber se existe
ou no uma quebra tanto sob a hiptese nula como alternativa.
A reviso apresentada acima, considera apenas modelos em que o nmero de quebras embora possa ser
desconhecido determinado a priori. Como tal, nestes modelos as quebras ocorrem de forma exgena
e independente. Em alternativa poder considerar-se que as alteraes estruturais seguem elas prprias
um processo estocstico gerado a partir de um determinado modelo, passando a ser possvel por
exemplo inferir sobre a possibilidade de ocorrncia de quebras no futuro a partir da observao dos
dados e eventuais quebras ocorridas no passado. Uma das abordagens mais populares consiste na
modelizao de vrios regimes, no observados, como sendo gerados a partir de uma cadeia de
Markov. Este modelo tornou-se popular na anlise de ciclos econmicos (Hamilton, 1989) uma vez
que permite por exemplo definir partida a existncia de dois estados, um de recesso e outro de
expanso, em que a srie temporal da actividade econmica gerada a partir de modelos auto-
regressivos com parmetros diferentes e em que a durao de cada regime determinada por uma
matriz de transio. Este modelo tem tido tambm bastante popularidade na caracterizao da evoluo
da varincia condicional de sries financeiras por exemplo em diferentes perodos de crise (Turner,
Startz e Nelson, 1989).
De facto, existe uma classe geral de modelos com variveis no observadas denominados de modelos
de espao de estados que tm tido uma grande aplicao em economia e finanas (ver por exemplo
Harvey, 1990; e Hamilton, 1994). A principal ferramenta utilizada na estimao destes modelos o
filtro de Kalman, um procedimento recursivo que permite estimar as variveis no observadas a partir
da informao disponvel em cada momento do tempo, e que permite construir a funo de
verosimilhana tendo em vista a estimao do parmetros do modelo. Em Kim e Nelson (1999) so
apresentados vrios modelos de espao de estados com mudanas de regime tanto numa perspectiva
clssica como Bayesiana.
Outra abordagem que tambm permite gerar diferentes regimes so os modelos TAR (threshold auto-
regression) popularizados por Tong (1990). Neste caso, os estados ou regimes so determinados por
intervalos de valores que uma srie temporal pode ir tomando ao longo do tempo.
Tal como no caso dos modelos com quebras estruturais, nestes dois modelos alternativos existe um
problema de no identificao de parmetros sob a hiptese nula (por exemplo os valores da matriz de
transio no caso do modelo com mudanas de regime Markovianas) e que causa dificuldades na
determinao do nmero de estados ou regimes. Uma reviso recente destes e outros modelos no
lineares aparece em Tersvirta (2006).
16 B o l e t i m S P E
do comportamento da tendncia de uma srie temporal: y
t
= a + b t + e
t
em que os erros e
t
podem ser
auto-correlacionados, estacionrios, I(0), ou no-estacionrios com uma raz unitria, I(1). Neste
exemplo, os testes habituais sobre uma quebra estrutural do declive da componente de tendncia
determinstica b tm taxas de convergncia diferentes sob a hiptese nula de no existirem quebras nos
casos I(0) e I(1). S muito recentemente foram encontradas solues para este problema. Perron e
Yabu (2005) e Harvey, Leybourne e Taylor (2009) propem testes de quebras estruturais que so
vlidos e no requerem conhecimento prvio acerca da estacionariedade ou no dos erros.
O problema oposto, de testar uma raiz unitria, na eventual presena de uma quebra estrutural tambm
levanta problemas. Perron (1989) mostra que a anlise da funo de autocorrelao ou a utilizao de
testes de raz unitria tendem a concluir pela existncia de raiz unitria mesmo quando as sries so
estacionrias na presena de uma quebra na componente de mdia ou tendncia determinstica. Como
soluo, o autor prope uma modificao aos testes de razes unitrias do tipo Dickey-Fuller. Estes
testes foram generalizados ao caso em que a data da quebra no conhecida por Zivot e Andrews
(1992) e a vrias quebras por Ohara (1999). Mais recentemente, Kim e Perron (2009) apresentam uma
soluo para o caso em que se pretende testar uma raiz unitria sem necessidade de se saber se existe
ou no uma quebra tanto sob a hiptese nula como alternativa.
A reviso apresentada acima, considera apenas modelos em que o nmero de quebras embora possa ser
desconhecido determinado a priori. Como tal, nestes modelos as quebras ocorrem de forma exgena
e independente. Em alternativa poder considerar-se que as alteraes estruturais seguem elas prprias
um processo estocstico gerado a partir de um determinado modelo, passando a ser possvel por
exemplo inferir sobre a possibilidade de ocorrncia de quebras no futuro a partir da observao dos
dados e eventuais quebras ocorridas no passado. Uma das abordagens mais populares consiste na
modelizao de vrios regimes, no observados, como sendo gerados a partir de uma cadeia de
Markov. Este modelo tornou-se popular na anlise de ciclos econmicos (Hamilton, 1989) uma vez
que permite por exemplo definir partida a existncia de dois estados, um de recesso e outro de
expanso, em que a srie temporal da actividade econmica gerada a partir de modelos auto-
regressivos com parmetros diferentes e em que a durao de cada regime determinada por uma
matriz de transio. Este modelo tem tido tambm bastante popularidade na caracterizao da evoluo
da varincia condicional de sries financeiras por exemplo em diferentes perodos de crise (Turner,
Startz e Nelson, 1989).
De facto, existe uma classe geral de modelos com variveis no observadas denominados de modelos
de espao de estados que tm tido uma grande aplicao em economia e finanas (ver por exemplo
Harvey, 1990; e Hamilton, 1994). A principal ferramenta utilizada na estimao destes modelos o
filtro de Kalman, um procedimento recursivo que permite estimar as variveis no observadas a partir
da informao disponvel em cada momento do tempo, e que permite construir a funo de
verosimilhana tendo em vista a estimao do parmetros do modelo. Em Kim e Nelson (1999) so
apresentados vrios modelos de espao de estados com mudanas de regime tanto numa perspectiva
clssica como Bayesiana.
Outra abordagem que tambm permite gerar diferentes regimes so os modelos TAR (threshold auto-
regression) popularizados por Tong (1990). Neste caso, os estados ou regimes so determinados por
intervalos de valores que uma srie temporal pode ir tomando ao longo do tempo.
Tal como no caso dos modelos com quebras estruturais, nestes dois modelos alternativos existe um
problema de no identificao de parmetros sob a hiptese nula (por exemplo os valores da matriz de
transio no caso do modelo com mudanas de regime Markovianas) e que causa dificuldades na
determinao do nmero de estados ou regimes. Uma reviso recente destes e outros modelos no
lineares aparece em Tersvirta (2006).
2.2 Razes unitrias
No final da dcada de 70, economistas e econometristas reconheceram que estava a ser dada pouca
ateno aos mecanismos de tendncia dos dados. Esta avaliao gerou um conjunto substancial de
desenvolvimentos resultando na modificao de como os estudos de sries temporais eram feitos. A
investigao em no estacionaridade avanou significativamente com os contributos de Granger e
Newbold (1974), Davidson et al. (1978), Hendry e Mizon (1978) e Phillips (1986), entre outros.
Para ilustrar o problema que as razes unitrias originam, considere-se o seguinte processo
autoregressivo de ordem 1,
x
t
= x
t-1
+ e
t
(1)
onde e
t
rudo branco. Assumimos para simplificao da exposio que o valor inicial da srie zero,
i.e., x
0
= 0. Este processo designa-se por passeio aleatrio. Frequentemente tambm se utiliza a
designao de srie integrada de ordem 1 (I(1)), indicando a necessidade de considerar as primeiras
diferenas para a obteno de uma srie estacionria (I(0)).
Uma caracterstica interessante deste processo o facto de contrariamente a um processo estacionrio
o impacto dos choques passados no diminuir com o passar do tempo. Em particular, reescrevendo x
t
em funo dos choques verifica-se que a importncia dos choques passados exactamente a mesma da
de choques recentes. Este fenmeno resulta em implicaes interessantes, particularmente sobre as
propriedades dos estimadores assim como em contextos de modelao.
Para se analisarem as propriedades dos estimadores necessrio recorrer a um novo conceito
designado de Teorema do Limite Central Funcional (Phillips, 1987) que permite estabelecer que, T
-1/2
x
t
=>
2
W(r), com Too onde T o tamanho da amostra e W(r) um processo Browniano. Phillips
(1987) tambm demonstra que o estimador de ,
T
, e correspondente teste t, obtidos pelo mtodo dos
mnimos quadrados ordinrios tendo por base o modelo x
t
= x
t-1
+ e
t
assumindo que os dados so
gerados por (1) convergem para distribuies no convencionais, funes de processos Brownianos.
Este novo resultado interessante por vrias razes. Em primeiro lugar a taxa de convergncia de
T
T e no a habitual T
1/2
. Em segundo lugar a teoria associada no estacionaridade veio abrir uma rea
de investigao muito importante, em particular relacionada com problemas de testes na qual muitos
economistas, econometristas e estatsticos esto interessados.
Em particular o teste de razes unitrias considera a hiptese nula H
0
: = 1 (de raz unitria) contra a
alternativa H
a
: || < 1 (de estacionaridade); veja Dickey e Fuller (1979). O problema de testar a raz
unitria tem atrado muito interesse por vrias razes: i) providencia um teste formal determinao da
ordem de integrao de um ARIMA; ii) abre uma rea em que os testes que so desenvolvidos
dependem a) das variveis deterministicas a incluir na regresso teste; b) da multiplicidade de razes
unitrias; e c) da presena de outros parmetros AR e MA, parmetros esses assimptoticamente
negligenciveis, mas que podem ter efeitos nefastos em amostras finitas.
O problema da anlise e determinao de razes unitrias foi tambm alargado aos processos MA (veja
Davis e Dunsmuir, 1996), aos processos sazonais (Hylleberg et al., 1990, Osborn et al. (1988),
Rodrigues e Taylor, 2004), a dados em Painel (Breitung e Pesaran, 2008) e a modelos no lineares do
tipo SETAR (Caner e Hansen, 2001) e STAR (Smooth Transition Autoregressive), resultando num
avultado nmero de desenvolvimentos tericos e aplicados.
17 O u t o n o d e 2 0 0 9
2.2 Razes unitrias
No final da dcada de 70, economistas e econometristas reconheceram que estava a ser dada pouca
ateno aos mecanismos de tendncia dos dados. Esta avaliao gerou um conjunto substancial de
desenvolvimentos resultando na modificao de como os estudos de sries temporais eram feitos. A
investigao em no estacionaridade avanou significativamente com os contributos de Granger e
Newbold (1974), Davidson et al. (1978), Hendry e Mizon (1978) e Phillips (1986), entre outros.
Para ilustrar o problema que as razes unitrias originam, considere-se o seguinte processo
autoregressivo de ordem 1,
x
t
= x
t-1
+ e
t
(1)
onde e
t
rudo branco. Assumimos para simplificao da exposio que o valor inicial da srie zero,
i.e., x
0
= 0. Este processo designa-se por passeio aleatrio. Frequentemente tambm se utiliza a
designao de srie integrada de ordem 1 (I(1)), indicando a necessidade de considerar as primeiras
diferenas para a obteno de uma srie estacionria (I(0)).
Uma caracterstica interessante deste processo o facto de contrariamente a um processo estacionrio
o impacto dos choques passados no diminuir com o passar do tempo. Em particular, reescrevendo x
t
em funo dos choques verifica-se que a importncia dos choques passados exactamente a mesma da
de choques recentes. Este fenmeno resulta em implicaes interessantes, particularmente sobre as
propriedades dos estimadores assim como em contextos de modelao.
Para se analisarem as propriedades dos estimadores necessrio recorrer a um novo conceito
designado de Teorema do Limite Central Funcional (Phillips, 1987) que permite estabelecer que, T
-1/2
x
t
=>
2
W(r), com Too onde T o tamanho da amostra e W(r) um processo Browniano. Phillips
(1987) tambm demonstra que o estimador de ,
T
, e correspondente teste t, obtidos pelo mtodo dos
mnimos quadrados ordinrios tendo por base o modelo x
t
= x
t-1
+ e
t
assumindo que os dados so
gerados por (1) convergem para distribuies no convencionais, funes de processos Brownianos.
Este novo resultado interessante por vrias razes. Em primeiro lugar a taxa de convergncia de
T
T e no a habitual T
1/2
. Em segundo lugar a teoria associada no estacionaridade veio abrir uma rea
de investigao muito importante, em particular relacionada com problemas de testes na qual muitos
economistas, econometristas e estatsticos esto interessados.
Em particular o teste de razes unitrias considera a hiptese nula H
0
: = 1 (de raz unitria) contra a
alternativa H
a
: || < 1 (de estacionaridade); veja Dickey e Fuller (1979). O problema de testar a raz
unitria tem atrado muito interesse por vrias razes: i) providencia um teste formal determinao da
ordem de integrao de um ARIMA; ii) abre uma rea em que os testes que so desenvolvidos
dependem a) das variveis deterministicas a incluir na regresso teste; b) da multiplicidade de razes
unitrias; e c) da presena de outros parmetros AR e MA, parmetros esses assimptoticamente
negligenciveis, mas que podem ter efeitos nefastos em amostras finitas.
O problema da anlise e determinao de razes unitrias foi tambm alargado aos processos MA (veja
Davis e Dunsmuir, 1996), aos processos sazonais (Hylleberg et al., 1990, Osborn et al. (1988),
Rodrigues e Taylor, 2004), a dados em Painel (Breitung e Pesaran, 2008) e a modelos no lineares do
tipo SETAR (Caner e Hansen, 2001) e STAR (Smooth Transition Autoregressive), resultando num
avultado nmero de desenvolvimentos tericos e aplicados.
Outra rea relacionada com a no estacionaridade que tambm viu grandes desenvolvimentos ao longo
das ltimas duas dcadas foi a rea dos processos fraccionrios; veja Granger e Joyeux (1980), Crato e
de Lima (1994), Robinson (1994), Breitung e Hassler (2002) e Hassler, Rodrigues e Rubia (2009).
2.3 Regresses Esprias
Um fenmeno relacionado com as razes unitrias o fenmeno das relaes (regresses) esprias,
conhecido dos estatsticos e econometristas desde Yule (1897) e Pearson (1897). Existem muitos
exemplos de regresses esprias na literatura. Por exemplo, Phillips (1986) ilustra este fenmeno
recorrendo relao implausvel entre the number of ordained ministers and the rate of alcoholism in
Great Britain in the nineteenth century; o prprio Yule (1926) apresenta a curiosa relao entre a
proportion of Church of England marriages to all marriages and the mortality rate over the period
18661911; outro caso curioso a relao entre o nvel de preos e a quantidade cumulativa de
precipitao no Reino Unido avanada por Hendry (1980).
O grande interesse neste fenmeno em econometria s surgiu no entanto com o famoso artigo de
Granger e Newbold (1974) no qual com base em anlise Monte Carlo, apresentada evidncia,
regredindo variveis perfeitamente independentes entre si, da significncia aparente das vrias
relaes.
A questo que sob as condies de regularidade convencionais o mtodo dos mnimos quadrados
ordinrios no apresenta evidncia de relao entre duas variveis independentes. No entanto, no
estudo de Granger e Newbold (1974), as sries foram geradas como passeios aleatrios e era a no
estacionaridade (resultante de razes unitrias) das variveis que originou estimativas de parmetros
estatisticamente diferentes de zero. Foi Phillips (1986) que veio enquadrar teoricamente o problema
explicando analiticamente as causas do fenmeno das regresses esprias.
Note-se que o problema simtrico, denominado de quebras esprias (Nunes et al., 1996), tambm se
pode colocar. Quando uma srie I(1), os mtodos habituais de inferncia vlidos para sries I(0)
tendem a concluir sobre a existncia de uma ou mais quebras mesmo quando o processo gerador de
dados no apresenta quebras.
2.4 Cointegrao
O conceito de cointegrao que valeu a Clive Granger em 2003 o prmio Nobel da Economia traduz
um fenmeno importante para a modelao de longo prazo das sries cronolgicas. De acordo com
Engle e Granger (1987), um vector X
t
de n variveis (X
it
, i=1, 2,.,n) diz-se cointegrado se todos os
elementos de X
t
forem integrados da mesma ordem e exista um vector = (
1
,
2
, ....,
n
), tal que a
combinao linear Z
t
= X
t
de ordem de integrao inferior de X
t
e 0. conhecido como vector
de cointegrao. Se existir um sistema de r
i
(i = 1,...,r) vectores, ento a matriz (nr) de vectores
designa-se por matriz de cointegrao. O nmero de vectores de cointegrao definido como a ordem
de cointegrao de X
t
, i.e., se X
t
for constitudo por n variveis ento podero existir at n-1 vectores
de cointegrao.
O conceito de cointegrao est relacionado com a noo de equilbrio de longo prazo. Uma definio
de equilbrio entre um conjunto de variveis X
t
uma relao do tipo X
t
= 0. Esta relao designada
por relao de cointegrao ou de longo prazo entre as variveis. No entanto, dado que difcil de
ocorrer, Z
t
= X
t
mede o grau de desequilbrio do sistema, i.e., a distncia do sistema situao de
equilbrio, representando desta forma o erro de equilbrio.
18 B o l e t i m S P E
Outra rea relacionada com a no estacionaridade que tambm viu grandes desenvolvimentos ao longo
das ltimas duas dcadas foi a rea dos processos fraccionrios; veja Granger e Joyeux (1980), Crato e
de Lima (1994), Robinson (1994), Breitung e Hassler (2002) e Hassler, Rodrigues e Rubia (2009).
2.3 Regresses Esprias
Um fenmeno relacionado com as razes unitrias o fenmeno das relaes (regresses) esprias,
conhecido dos estatsticos e econometristas desde Yule (1897) e Pearson (1897). Existem muitos
exemplos de regresses esprias na literatura. Por exemplo, Phillips (1986) ilustra este fenmeno
recorrendo relao implausvel entre the number of ordained ministers and the rate of alcoholism in
Great Britain in the nineteenth century; o prprio Yule (1926) apresenta a curiosa relao entre a
proportion of Church of England marriages to all marriages and the mortality rate over the period
18661911; outro caso curioso a relao entre o nvel de preos e a quantidade cumulativa de
precipitao no Reino Unido avanada por Hendry (1980).
O grande interesse neste fenmeno em econometria s surgiu no entanto com o famoso artigo de
Granger e Newbold (1974) no qual com base em anlise Monte Carlo, apresentada evidncia,
regredindo variveis perfeitamente independentes entre si, da significncia aparente das vrias
relaes.
A questo que sob as condies de regularidade convencionais o mtodo dos mnimos quadrados
ordinrios no apresenta evidncia de relao entre duas variveis independentes. No entanto, no
estudo de Granger e Newbold (1974), as sries foram geradas como passeios aleatrios e era a no
estacionaridade (resultante de razes unitrias) das variveis que originou estimativas de parmetros
estatisticamente diferentes de zero. Foi Phillips (1986) que veio enquadrar teoricamente o problema
explicando analiticamente as causas do fenmeno das regresses esprias.
Note-se que o problema simtrico, denominado de quebras esprias (Nunes et al., 1996), tambm se
pode colocar. Quando uma srie I(1), os mtodos habituais de inferncia vlidos para sries I(0)
tendem a concluir sobre a existncia de uma ou mais quebras mesmo quando o processo gerador de
dados no apresenta quebras.
2.4 Cointegrao
O conceito de cointegrao que valeu a Clive Granger em 2003 o prmio Nobel da Economia traduz
um fenmeno importante para a modelao de longo prazo das sries cronolgicas. De acordo com
Engle e Granger (1987), um vector X
t
de n variveis (X
it
, i=1, 2,.,n) diz-se cointegrado se todos os
elementos de X
t
forem integrados da mesma ordem e exista um vector = (
1
,
2
, ....,
n
), tal que a
combinao linear Z
t
= X
t
de ordem de integrao inferior de X
t
e 0. conhecido como vector
de cointegrao. Se existir um sistema de r
i
(i = 1,...,r) vectores, ento a matriz (nr) de vectores
designa-se por matriz de cointegrao. O nmero de vectores de cointegrao definido como a ordem
de cointegrao de X
t
, i.e., se X
t
for constitudo por n variveis ento podero existir at n-1 vectores
de cointegrao.
O conceito de cointegrao est relacionado com a noo de equilbrio de longo prazo. Uma definio
de equilbrio entre um conjunto de variveis X
t
uma relao do tipo X
t
= 0. Esta relao designada
por relao de cointegrao ou de longo prazo entre as variveis. No entanto, dado que difcil de
ocorrer, Z
t
= X
t
mede o grau de desequilbrio do sistema, i.e., a distncia do sistema situao de
equilbrio, representando desta forma o erro de equilbrio.
Se duas ou mais variveis forem cointegradas, elas podem ter uma representao de curto e longo
prazo atravs de um mecanismo corrector do erro (MCE). O equilbrio anteriormente descrito
introduzido neste modelo como uma varivel adicional sobre a forma de um termo corrector do erro.
Apesar de j existirem na literatura (na literatura estatstica a ideia de combinao linear de sries com
razes unitrias ser estacionria foi analisada por Box e Tiao, 1977), foi s com Engle e Granger
(1987) que o conceito de cointegrao ganhou expresso. Em particular, o Teorema de Representao
de Granger teve importante destaque. De acordo com este Teorema, considerando X
t
um vector (n1)
de n variveis cointegradas, com r vectores cointegrantes (0 < r n-1), a seguinte representao de
correco de erro pode ser obtida,
A(L)(1 - L)X
t
= -Z
t-1
+ u
t
(2)
onde Z
t
= X
t
, u
t
um vector de resduos estacionrios, A(L) uma matriz de polinmios em L, L o
operador de desfasamento temporal convencional e so os coeficientes do termo corrector do erro ou
coeficientes de ajustamento.
O termo Z
t-1
= X
t-1
conhecido como termo corrector do erro, dado que representa o desequilbrio
entre as variveis X
it
(elementos de X
t
) no perodo t-1. Quanto maiores forem estes coeficientes, maior
a resposta de X
it
a desvios do perodo anterior em relao ao equilbrio de longo prazo. O sinal
negativo indica que a prxima alterao em X
it
vai ser de sinal oposto de Z
t-1
. O MCE pode ser
interpretado como o mecanismo que conduz a economia para um estado de equilbrio. Isto significa
que no perodo t os agentes econmicos corrigem parte do desequilbrio detectado no perodo t-1.
Johansen e Juselius (1990) e Johansen (1988) introduziram duas estatsticas para determinar o nmero
de vectores cointegrantes: i) o teste do trao da matriz e ii) o teste do valor prprio mximo.
2.5 Modelos Multivariados
Os modelos VAR (vector autoregressive) continuam a estar entre os mais populares na anlise das
interrelaes dinmicas entre vrias variveis. Estes modelos permitem responder a questes como
qual o impacto de um aumento da taxa de juro em variveis macroeconmicas como o desemprego ou
a inflao ao longo de vrios perodos atravs das chamadas funes de resposta a impulsos. A razo
da sua popularidade tem a ver com o facto de serem modelos lineares relativamente fceis de estimar.
Alm disso, no necessitam partida da imposio de restries sobre as relaes entre as variveis,
ou seja, no necessrio impor uma estrutura ou modelo macroeconmico. No entanto este ltimo
ponto tambm um dos maiores desafios destes modelos j que a identificao e estimao das
funes de resposta a impulsos e de outros resultados destes modelos (como a decomposio da
varincia do erro de previso) requerem a imposio de restries que permitam identificar o modelo
estrutural subjacente ao modelo VAR. Por exemplo considere-se o seguinte modelo VAR com apenas
duas variveis:
Y
1t
= a
12
Y
2t
+ b
12
Y
2,t-1
+ b
11
Y
1,t-1
+ e
1t
Y
2t
= a
21
Y
1t
+ b
21
Y
1,t-1
+ b
22
Y
2,t-1
+ e
2t
Em que os e
1t
e e
2t
so choques estruturais ortogonais com E(e
t
| Y
t-1
,Y
t-2
,)=0. fcil concluir que os
coeficientes do modelo no so identificados. Os vrios desenvolvimentos dos modelos VAR
consistem precisamente em diversas formas de utilizar restries vindas da teoria econmica que
permitam identificar os parmetros do modelo. As restries de curto prazo so as mais
frequentemente utilizadas (por exemplo impor que a
12
= 0, ou seja, que a varivel Y
1
no reage
19 O u t o n o d e 2 0 0 9
Se duas ou mais variveis forem cointegradas, elas podem ter uma representao de curto e longo
prazo atravs de um mecanismo corrector do erro (MCE). O equilbrio anteriormente descrito
introduzido neste modelo como uma varivel adicional sobre a forma de um termo corrector do erro.
Apesar de j existirem na literatura (na literatura estatstica a ideia de combinao linear de sries com
razes unitrias ser estacionria foi analisada por Box e Tiao, 1977), foi s com Engle e Granger
(1987) que o conceito de cointegrao ganhou expresso. Em particular, o Teorema de Representao
de Granger teve importante destaque. De acordo com este Teorema, considerando X
t
um vector (n1)
de n variveis cointegradas, com r vectores cointegrantes (0 < r n-1), a seguinte representao de
correco de erro pode ser obtida,
A(L)(1 - L)X
t
= -Z
t-1
+ u
t
(2)
onde Z
t
= X
t
, u
t
um vector de resduos estacionrios, A(L) uma matriz de polinmios em L, L o
operador de desfasamento temporal convencional e so os coeficientes do termo corrector do erro ou
coeficientes de ajustamento.
O termo Z
t-1
= X
t-1
conhecido como termo corrector do erro, dado que representa o desequilbrio
entre as variveis X
it
(elementos de X
t
) no perodo t-1. Quanto maiores forem estes coeficientes, maior
a resposta de X
it
a desvios do perodo anterior em relao ao equilbrio de longo prazo. O sinal
negativo indica que a prxima alterao em X
it
vai ser de sinal oposto de Z
t-1
. O MCE pode ser
interpretado como o mecanismo que conduz a economia para um estado de equilbrio. Isto significa
que no perodo t os agentes econmicos corrigem parte do desequilbrio detectado no perodo t-1.
Johansen e Juselius (1990) e Johansen (1988) introduziram duas estatsticas para determinar o nmero
de vectores cointegrantes: i) o teste do trao da matriz e ii) o teste do valor prprio mximo.
2.5 Modelos Multivariados
Os modelos VAR (vector autoregressive) continuam a estar entre os mais populares na anlise das
interrelaes dinmicas entre vrias variveis. Estes modelos permitem responder a questes como
qual o impacto de um aumento da taxa de juro em variveis macroeconmicas como o desemprego ou
a inflao ao longo de vrios perodos atravs das chamadas funes de resposta a impulsos. A razo
da sua popularidade tem a ver com o facto de serem modelos lineares relativamente fceis de estimar.
Alm disso, no necessitam partida da imposio de restries sobre as relaes entre as variveis,
ou seja, no necessrio impor uma estrutura ou modelo macroeconmico. No entanto este ltimo
ponto tambm um dos maiores desafios destes modelos j que a identificao e estimao das
funes de resposta a impulsos e de outros resultados destes modelos (como a decomposio da
varincia do erro de previso) requerem a imposio de restries que permitam identificar o modelo
estrutural subjacente ao modelo VAR. Por exemplo considere-se o seguinte modelo VAR com apenas
duas variveis:
Y
1t
= a
12
Y
2t
+ b
12
Y
2,t-1
+ b
11
Y
1,t-1
+ e
1t
Y
2t
= a
21
Y
1t
+ b
21
Y
1,t-1
+ b
22
Y
2,t-1
+ e
2t
Em que os e
1t
e e
2t
so choques estruturais ortogonais com E(e
t
| Y
t-1
,Y
t-2
,)=0. fcil concluir que os
coeficientes do modelo no so identificados. Os vrios desenvolvimentos dos modelos VAR
consistem precisamente em diversas formas de utilizar restries vindas da teoria econmica que
permitam identificar os parmetros do modelo. As restries de curto prazo so as mais
frequentemente utilizadas (por exemplo impor que a
12
= 0, ou seja, que a varivel Y
1
no reage
contemporaneamente aos choques e
2
). Uma reviso destes mtodos aparece por exemplo em Hamilton
(1994). No entanto possvel utilizar tambm restries de longo prazo (Blanchard e Quah, 1989; ou
King, Plosser, Stock e Watson, 1991), restries de sinal da funo de resposta a impulsos em
determinados horizontes temporais (Uhlig, 2005), atravs da identificao de regimes em que os
choques tm varincias diferentes (Rigobon, 2003), ou atravs de mtodos Bayesianos em que as
distribuies a priori dos parmetros do modelo so sugeridas por modelos estruturais
macroeconmicos (DelNegro and Schorfheide, 2004).
3. Concluso
Este artigo apresenta uma breve resenha da evoluo da anlise economtrica de sries cronolgicas e
de alguns tpicos recentes que marcaram a rea devido sua importncia e impacto em termos de
anlise, modelao e previso.
As diferentes caractersticas das sries cronolgicas tm motivado a necessidade de desenvolvimento
de mtodos e tcnicas de anlise adequados, levando a uma dinmica recente de investigao
importante em tpicos como o Bootstrap, a no-linearidade e no-estacionaridade, a anlise no
paramtrica, quebras na varincia, etc. A anlise economtrica de sries cronolgicas uma rea de
investigao muito activa e que tem despertado muito interesse quer em termos aplicados como
tericos.
4. Referncias
Akaike, H. (1974). A new look at the statistical model identification, IEEE Transactions on Automatic
Control, 19(6), 716723.
Andrews, D.W.K., (1993) Tests for parameter instability and structural change with unknown change
point. Econometrica 61, 821-856 (Corrigendum, 71, 395-397).
Andrews, D.W.K., Ploberger, W., (1994) Optimal tests when a nuisance parameter is present only
under the alternative. Econometrica 62, 1383-1414.
Bai, J., (1997) Estimation of a change point in multiple regression models. Review of Economic and
Statistics 79, 551-563.
Bai, J., Perron, P., (2003) Computation and analysis of multiple structural change models. Journal of
Applied Econometrics 18, 1-22.
Blanchard, O.J., e Quah, D. (1989) The Dynamic Effects of Aggregate Demand and Supply
Disturbances, American Economic Review, 79(4), 655-73.
Box, G.E.P., e Jenkins, G.M., (1970) Time Series Analysis: Forecasting and Control.
Box, E.E.P., e Tiao, G.C., (1977) A canonical analysis of multiple time series, Biometrika, 64, 355
365.
Breitung, J. e Hassler, U. (2002) Inference on the cointegration rank in fractionally integrated
processes, Journal of Econometrics, 110(2), 167-185.
Breitung, J. and Pesaran, M.H., (2008) Unit roots and cointegration in panels, Ed. Matyas, L. and
Sevestre, P. The Econometrics of Panel Data (Third Edition), Kluwer Academic Publishers, no prelo.
20 B o l e t i m S P E
contemporaneamente aos choques e
2
). Uma reviso destes mtodos aparece por exemplo em Hamilton
(1994). No entanto possvel utilizar tambm restries de longo prazo (Blanchard e Quah, 1989; ou
King, Plosser, Stock e Watson, 1991), restries de sinal da funo de resposta a impulsos em
determinados horizontes temporais (Uhlig, 2005), atravs da identificao de regimes em que os
choques tm varincias diferentes (Rigobon, 2003), ou atravs de mtodos Bayesianos em que as
distribuies a priori dos parmetros do modelo so sugeridas por modelos estruturais
macroeconmicos (DelNegro and Schorfheide, 2004).
3. Concluso
Este artigo apresenta uma breve resenha da evoluo da anlise economtrica de sries cronolgicas e
de alguns tpicos recentes que marcaram a rea devido sua importncia e impacto em termos de
anlise, modelao e previso.
As diferentes caractersticas das sries cronolgicas tm motivado a necessidade de desenvolvimento
de mtodos e tcnicas de anlise adequados, levando a uma dinmica recente de investigao
importante em tpicos como o Bootstrap, a no-linearidade e no-estacionaridade, a anlise no
paramtrica, quebras na varincia, etc. A anlise economtrica de sries cronolgicas uma rea de
investigao muito activa e que tem despertado muito interesse quer em termos aplicados como
tericos.
4. Referncias
Akaike, H. (1974). A new look at the statistical model identification, IEEE Transactions on Automatic
Control, 19(6), 716723.
Andrews, D.W.K., (1993) Tests for parameter instability and structural change with unknown change
point. Econometrica 61, 821-856 (Corrigendum, 71, 395-397).
Andrews, D.W.K., Ploberger, W., (1994) Optimal tests when a nuisance parameter is present only
under the alternative. Econometrica 62, 1383-1414.
Bai, J., (1997) Estimation of a change point in multiple regression models. Review of Economic and
Statistics 79, 551-563.
Bai, J., Perron, P., (2003) Computation and analysis of multiple structural change models. Journal of
Applied Econometrics 18, 1-22.
Blanchard, O.J., e Quah, D. (1989) The Dynamic Effects of Aggregate Demand and Supply
Disturbances, American Economic Review, 79(4), 655-73.
Box, G.E.P., e Jenkins, G.M., (1970) Time Series Analysis: Forecasting and Control.
Box, E.E.P., e Tiao, G.C., (1977) A canonical analysis of multiple time series, Biometrika, 64, 355
365.
Breitung, J. e Hassler, U. (2002) Inference on the cointegration rank in fractionally integrated
processes, Journal of Econometrics, 110(2), 167-185.
Breitung, J. and Pesaran, M.H., (2008) Unit roots and cointegration in panels, Ed. Matyas, L. and
Sevestre, P. The Econometrics of Panel Data (Third Edition), Kluwer Academic Publishers, no prelo.
Brillinger, D.R. (1975) Time Series: Data Analysis and Theory. New York: Holt, Rinchart and
Winston.
Brown, R.L., Durbin, J., Evans, J.M., (1975) Techniques for testing the constancy of regression
relationships over time. Journal of the Royal Statistical Society B 37, 149-163.
Caner, M., e Hansen, B.E., (2001) Threshold Autoregression with a Unit Root, Econometrica, 69(6),
1555-1596.
Crato, N. e P. J. F. de Lima, (1994) Long-range dependence in the conditional variance of stock
returns, Economics Letters, vol. 45, no. 3, pp. 281285.
Davidson, J., D. Hendry, F. Srba, e S. Yeo, (1978) Econometric modelling of the aggregate time-series
relationship between consumers' expenditure and income in the United Kingdom, Economic Journal,
vol. 88, pp. 661692.
Davies, R.B. (1977) Hypothesis testing when a nuisance parameter is present only under the
alternative. Biometrika 64, 247-254.
Davis, R.A., and Dunsmuir, W.T.M., (1996) Maximum-likelihood estimation for MA(1) processes
with a unit root on or near the unit circle, Econometric Theory, 12, 129.
Del Negro, M. e Schorfeide, F. (2004) Priors from General Equilibrium Models for VARs,
International Economic Review, 45, 643-673.
Dickey, D. A. e W. A. Fuller, (1979) Distribution of the estimators for autoregressive time series with
a unit root, Journal of the American Statistical Association, vol. 74, no. 366, part 1, pp. 427431.
Engle, R. F. e C. W. J. Granger, (1987) Co-integration and error correction: representation, estimation,
and testing, Econometrica, vol. 55, no. 2, pp. 251276.
Gardner, L.A., (1969) On detecting changes in the mean of normal variates. The Annals of
Mathematical Statistics 40, 116-126.
Granger, C. W. J. e R. Joyeux, (1980) An introduction to long-memory time series models and
fractional differencing, Journal of Time Series Analysis, vol. 1, no. 1, pp. 1529.
Granger, C. W. J. e P. Newbold, (1974) Spurious regressions in econometrics, Journal of
Econometrics, vol. 2, no. 2, pp. 111120.
Hamilton, James D, (1989) A New Approach to the Economic Analysis of Nonstationary Time Series
and the Business Cycle. Econometrica, 57(2), 357-84.
Hamilton, J.D., (1994) Time Series Analysis, Princeton, NJ: Princeton University Press.
Hannan, E.J., (1980) The estimation of the order of an ARMA process, Annals of Statistics, 8, 1071
1081.
Harvey, A C, (1990) Forecasting, Structural Time Series Models and the Kalman Filter, Cambridge
University Press, Cambridge.
Harvey, D. I., Leybourne, S.J. and Taylor, A.M.R., (2009) Simple, Robust, And Powerful Tests Of
The Breaking Trend Hypothesis. Econometric Theory 25(4), 995-1029.
Hassler, U., Rodrigues, P.M.M. e A. Rubia, (2009) Testing for the General Fractional Integration
Hypothesis in the Time Domain. Econometric Theory, no prelo.
Hylleberg, S., R.F. Engle, C.W.J. Granger and B.S. Yoo (1990), Seasonal Integration and
Cointegration, Journal of Econometrics, 44: 215-38.
Hendry, D. (1980) Econometrics-alchemy or science? Economica, vol. 47, no. 188, pp. 387406.
21 O u t o n o d e 2 0 0 9
Brillinger, D.R. (1975) Time Series: Data Analysis and Theory. New York: Holt, Rinchart and
Winston.
Brown, R.L., Durbin, J., Evans, J.M., (1975) Techniques for testing the constancy of regression
relationships over time. Journal of the Royal Statistical Society B 37, 149-163.
Caner, M., e Hansen, B.E., (2001) Threshold Autoregression with a Unit Root, Econometrica, 69(6),
1555-1596.
Crato, N. e P. J. F. de Lima, (1994) Long-range dependence in the conditional variance of stock
returns, Economics Letters, vol. 45, no. 3, pp. 281285.
Davidson, J., D. Hendry, F. Srba, e S. Yeo, (1978) Econometric modelling of the aggregate time-series
relationship between consumers' expenditure and income in the United Kingdom, Economic Journal,
vol. 88, pp. 661692.
Davies, R.B. (1977) Hypothesis testing when a nuisance parameter is present only under the
alternative. Biometrika 64, 247-254.
Davis, R.A., and Dunsmuir, W.T.M., (1996) Maximum-likelihood estimation for MA(1) processes
with a unit root on or near the unit circle, Econometric Theory, 12, 129.
Del Negro, M. e Schorfeide, F. (2004) Priors from General Equilibrium Models for VARs,
International Economic Review, 45, 643-673.
Dickey, D. A. e W. A. Fuller, (1979) Distribution of the estimators for autoregressive time series with
a unit root, Journal of the American Statistical Association, vol. 74, no. 366, part 1, pp. 427431.
Engle, R. F. e C. W. J. Granger, (1987) Co-integration and error correction: representation, estimation,
and testing, Econometrica, vol. 55, no. 2, pp. 251276.
Gardner, L.A., (1969) On detecting changes in the mean of normal variates. The Annals of
Mathematical Statistics 40, 116-126.
Granger, C. W. J. e R. Joyeux, (1980) An introduction to long-memory time series models and
fractional differencing, Journal of Time Series Analysis, vol. 1, no. 1, pp. 1529.
Granger, C. W. J. e P. Newbold, (1974) Spurious regressions in econometrics, Journal of
Econometrics, vol. 2, no. 2, pp. 111120.
Hamilton, James D, (1989) A New Approach to the Economic Analysis of Nonstationary Time Series
and the Business Cycle. Econometrica, 57(2), 357-84.
Hamilton, J.D., (1994) Time Series Analysis, Princeton, NJ: Princeton University Press.
Hannan, E.J., (1980) The estimation of the order of an ARMA process, Annals of Statistics, 8, 1071
1081.
Harvey, A C, (1990) Forecasting, Structural Time Series Models and the Kalman Filter, Cambridge
University Press, Cambridge.
Harvey, D. I., Leybourne, S.J. and Taylor, A.M.R., (2009) Simple, Robust, And Powerful Tests Of
The Breaking Trend Hypothesis. Econometric Theory 25(4), 995-1029.
Hassler, U., Rodrigues, P.M.M. e A. Rubia, (2009) Testing for the General Fractional Integration
Hypothesis in the Time Domain. Econometric Theory, no prelo.
Hylleberg, S., R.F. Engle, C.W.J. Granger and B.S. Yoo (1990), Seasonal Integration and
Cointegration, Journal of Econometrics, 44: 215-38.
Hendry, D. (1980) Econometrics-alchemy or science? Economica, vol. 47, no. 188, pp. 387406.
Hendry, D. e G. Mizon, (1978) Serial correlation as convenience simplification, not a nuisance: a
comment on a study of the demand for money by the bank of England, Economic Journal, vol. 88, pp.
549563.
Johansen, S. (1988), Statistical Analysis of Cointegrating Vectors, Journal of Economic Dynamics and
Control, 12, 231-54.
Johansen, S., e Juselius, K., (1990) Maximum Likelihood Estimation and Inference on Cointegration
With Applications to the Demand for Money, Oxford Bulletin of Economics and Statistics, 52(2), 169-
210.
King, R. , C. Plosser, J. Stock, and M. Watson, (1991) Stochastic trends and economic fluctuations,
The American Economic Review, vol. 81, no. 4, pp. 819840.
Kim, C.J., and Nelson, C.R., (1999) State-Space Models with Regime Switching, Cambridge,
Massachusetts, MIT Press.
Kim, D., Perron, P., (2009), Unit root tests allowing for a break in the trend function at an unknown
time under both the null and alternative hypotheses. Journal of Econometrics, 148(1), 1-13.
Liu, J., Wu, S., Zidek, J.V., (1997) On segmented multivariate regressions. Statistica Sinica 7, 497-
525.
MacNeill, I.B., (1974) Tests for change of parameter at unknown time and distributions on some
related functionals of Brownian motion. Annals of Statistics 2, 950-962.
Nunes, L.C., Newbold, P., and Kuan,C.-K., (1996) Spurious number of breaks, Economics Letters,
50(2), 175-178.
Ohara, H.I., (1999) A unit root test with multiple trend breaks: a theory and application to US and
Japanese macroeconomic time-series. The Japanese Economic Review 50, 266-290.
Osborn, D.R., Chui, A.P.L., Smith, J.P. and Birchenhall, C.R. (1988), Seasonality and the Order of
Integration for Consumption, Oxford Bulletin of Economics and Statistics, 50, pp.361-377.
Pearson, K. (1897) On a form of spurious correlation which may arise when indices are used in the
measurement of organs, Proceedings of the Royal Society of London, vol. 60, pp. 489498.
Perron, P. (1989) The great crash, the oil price shock and the unit root hypothesis, Econometrica, vol.
57, pp. 13611401.
Perron, P., Yabu, T., (2005) Testing for shifts in trend with an integrated or stationary noise
component. Manuscript in preparation, Department of Economics, Boston University.
Phillips, P. C. B. (1986) Understanding spurious regressions in econometrics, Journal of Econometrics
33(3), pp.311340.
Phillips, P. C. B. (1987) Towards a Unified Asymptotic Theory for Autoregression," Biometrika, Vol.
74(3), 535547.
Priestley, M.B. (1981) Spectral Analysis and Time Series (Vols. 1 & 2), London: Academic Press.
Quandt, R. E., (1958) The estimation of the parameters of a linear regression system obeying two
separate regimes. Journal of the American Statistical Association 53, 873-880.
Quandt, R.E., (1960) Tests of the hypothesis that a linear regression system obeys two separate
regimes. Journal of the American Statistical Association 55, 324-330.
Rigobon, R., (2003) Identification Through Heteroskedasticity, The Review of Economics and
Statistics, 85(4), 777-792.
Robinson, P. M. (1994) Efficient tests of nonstationary hypotheses, Journal of the American Statistical
Association, vol. 89, no. 428, pp. 14201437.
22 B o l e t i m S P E
Rodrigues, P.M.M. e A.M.R. Taylor (2004) Alternative Estimators and Unit Root Tests for Seasonal
Autoregressive Processes. Journal of Econometrics 120, 35-73.
Tersvirta, T. (2006), 'Univariate nonlinear time series models' in Patterson, Kerry and Terence C.
Mills (eds.) Palgrave Handbook of Econometrics, Volume 1: Econometrics, Captulo 10, pp. 396-424,
Palgrave Macmillan.
Tong, H., (1990) Non-linear time series: a dynamical system approach, Oxford University Press,
Oxford.
Tsay, R.S. (2000) Time Series and Forecasting: Brief History and Future Research, Journal of the
American Statistical Association 95 (450), pp. 638-643.
Turner, C.M., Startz, R. and Nelson, C.R., (1989) A Markov model of heteroskedasticity, risk, and
learning in the stock market. Journal of Financial Economics 25(1), 3-22.
Uhlig, H. (2005) What are the effects of monetary policy on output? Results from an agnostic
identification procedure, Journal of Monetary Economics, 52(2), 381-419.
Yao, Y-C., (1988) Estimating the number of change-points via Schwarz criterion. Statistics and
Probability Letters 6, 181-189.
Yule, G.U., (1897) On the theory of correlation, Journal of the Royal Statistical Society 60(4), pp.
812854.
Yule, G.U., (1926) Why do we sometimes get nonsense-correlations between time-series? A study in
sampling and the nature of time-series, Journal of the Royal Statistical Society 89(1), pp. 163.
Yule, G.U., (1927) On a Method of Investigating Periodicities in Disturbed Series, with Special
Reference to Wolfer's Sunspot Numbers. Philosophical Transactions of the Royal Society of London,
Ser. A, 226, 267-298.
Zivot, E. e D. W. K. Andrews, (1992) Further evidence on the great crash, the oil-price shock, and the
unit-root hypothesis, Journal of Business and Economic Statistics 10, pp. 251270.
Hendry, D. e G. Mizon, (1978) Serial correlation as convenience simplification, not a nuisance: a
comment on a study of the demand for money by the bank of England, Economic Journal, vol. 88, pp.
549563.
Johansen, S. (1988), Statistical Analysis of Cointegrating Vectors, Journal of Economic Dynamics and
Control, 12, 231-54.
Johansen, S., e Juselius, K., (1990) Maximum Likelihood Estimation and Inference on Cointegration
With Applications to the Demand for Money, Oxford Bulletin of Economics and Statistics, 52(2), 169-
210.
King, R. , C. Plosser, J. Stock, and M. Watson, (1991) Stochastic trends and economic fluctuations,
The American Economic Review, vol. 81, no. 4, pp. 819840.
Kim, C.J., and Nelson, C.R., (1999) State-Space Models with Regime Switching, Cambridge,
Massachusetts, MIT Press.
Kim, D., Perron, P., (2009), Unit root tests allowing for a break in the trend function at an unknown
time under both the null and alternative hypotheses. Journal of Econometrics, 148(1), 1-13.
Liu, J., Wu, S., Zidek, J.V., (1997) On segmented multivariate regressions. Statistica Sinica 7, 497-
525.
MacNeill, I.B., (1974) Tests for change of parameter at unknown time and distributions on some
related functionals of Brownian motion. Annals of Statistics 2, 950-962.
Nunes, L.C., Newbold, P., and Kuan,C.-K., (1996) Spurious number of breaks, Economics Letters,
50(2), 175-178.
Ohara, H.I., (1999) A unit root test with multiple trend breaks: a theory and application to US and
Japanese macroeconomic time-series. The Japanese Economic Review 50, 266-290.
Osborn, D.R., Chui, A.P.L., Smith, J.P. and Birchenhall, C.R. (1988), Seasonality and the Order of
Integration for Consumption, Oxford Bulletin of Economics and Statistics, 50, pp.361-377.
Pearson, K. (1897) On a form of spurious correlation which may arise when indices are used in the
measurement of organs, Proceedings of the Royal Society of London, vol. 60, pp. 489498.
Perron, P. (1989) The great crash, the oil price shock and the unit root hypothesis, Econometrica, vol.
57, pp. 13611401.
Perron, P., Yabu, T., (2005) Testing for shifts in trend with an integrated or stationary noise
component. Manuscript in preparation, Department of Economics, Boston University.
Phillips, P. C. B. (1986) Understanding spurious regressions in econometrics, Journal of Econometrics
33(3), pp.311340.
Phillips, P. C. B. (1987) Towards a Unified Asymptotic Theory for Autoregression," Biometrika, Vol.
74(3), 535547.
Priestley, M.B. (1981) Spectral Analysis and Time Series (Vols. 1 & 2), London: Academic Press.
Quandt, R. E., (1958) The estimation of the parameters of a linear regression system obeying two
separate regimes. Journal of the American Statistical Association 53, 873-880.
Quandt, R.E., (1960) Tests of the hypothesis that a linear regression system obeys two separate
regimes. Journal of the American Statistical Association 55, 324-330.
Rigobon, R., (2003) Identification Through Heteroskedasticity, The Review of Economics and
Statistics, 85(4), 777-792.
Robinson, P. M. (1994) Efficient tests of nonstationary hypotheses, Journal of the American Statistical
Association, vol. 89, no. 428, pp. 14201437.
23 O u t o n o d e 2 0 0 9
Econometria Financeira
Joo Nicolau, nicolau@iseg.utl.pt
Instituto Superior de Economia e Gesto / Universidade Tcnica de Lisboa e CEMAPRE
Econometria Financeira
Joo Nicolau
Instituto Superior de Economia e Gesto/Universidade Tcnica de Lisboa e CEMAPRE
1. Introduo
A investigao em econometria financeira realiza-se em duas grandes reas: uma que se preocupa
fundamentalmente com o desenvolvimento de mtodos economtricos adequados a dados financeiros;
a outra, mais emprica, que aplica os mtodos para testar hipteses e teorias da economia financeira.
Qualquer que seja a abordagem entende-se que Financial econometrics is simply the application of
econometric tools to financial data (Robert Engle). A econometria financeira , portanto, uma
disciplina economtrica (baseada em mtodos estatsticos e matemticos) vocacionada para analisar
dados financeiros. Alguns dos temas genricos de interesse na rea do desenvolvimento dos mtodos
economtricos so a estimao, a construo de modelos economtricos e a previso. O escopo das
aplicaes economtricas economia financeira muito vasto. Citem-se alguns exemplos:
Avaliao do risco (por exemplo, atravs do Value at Risk);
Avaliao de obrigaes, opes e outros activos financeiros;
Previso da volatilidade;
Gesto de portfolios;
Anlise da previsibilidade e eficincia dos mercados.
Sendo a econometria financeira a aplicao de mtodos economtricos adequados a dados financeiros,
todos os mtodos estatsticos que de uma forma ou outra se apliquem a dados financeiros, interessam
econometria financeira. De todo o modo, a rea proeminente em econometria financeira a das sries
temporais. Estuda-se, por exemplo, a evoluo temporal das cotaes, taxas de cmbio, taxas de juro,
etc. Por esta razo, este documento analisa essencialmente mtodos economtricos para sries
temporais, sobretudo os mtodos que de alguma forma se adequam s caractersticas prprias das
sries financeiras, como sejam, a no linearidade e a no normalidade.
conveniente distinguir sries temporais de natureza macroeconmica e as de natureza financeira.
Dados de natureza macroeconmica (consumo, produto, taxa de desemprego) podem ser observados
com periodicidade mensal, trimestral ou anual; dados financeiros, como por exemplo, retornos de
aces ou taxas de cmbio podem ser observados com uma frequncia muito superior; nalguns casos,
com intervalos de minutos ou segundos entre duas observaes consecutivas. Assim, o nmero de
observaes disponveis de dados financeiros pode situar-se na ordem das centenas de milhares, ou
ainda mais. Normalmente, prefere-se trabalhar com dados dirios (evitando-se os problemas de
microestrutura de mercado). Com as sries macroeconmicas raramente se passam das poucas
centenas de observaes (quando, na melhor das hipteses, se tm observaes mensais). Os dados
macroeconmicos so menos fiveis, i.e., esto mais sujeitos a erros de medio. Com efeito, os
valores apurados no resultam de valores efectivamente observados no mercado, como sucede com a
generalidade das sries financeiras, mas antes de valores apurados de acordo com certa metodologia e
decorrentes de inquritos. Outra diferena assinalvel decorre das propriedades estatsticas dos dois
24 B o l e t i m S P E
tipos de sries. Ao contrrio das sries macroeconmicas, as sries financeiras tendem a exibir
habitualmente fortes efeitos no lineares e distribuies no normais.
O ponto de partida para a anlise estatstica normalmente uma srie de preos (por exemplo, a srie
das cotaes de fecho do BCP num certo intervalo de tempo). De uma forma geral, o preo pode ser,
por exemplo, o valor a que um intermedirio financeiro informa estar disposto a pagar pela compra de
um determinado activo, opo ou futuro (bid price), o valor a que um intermedirio financeiro informa
estar disposto a receber pela venda de um determinado activo, opo ou futuro (ask price), o valor final
da transaco, o valor definido num mercado de futuros, entre outros.
2. Factos Empricos Estilizados de Sries Temporais Financeiras
Antes de se propor um modelo estocstico para uma srie financeira, importante discutirem-se as
principais regularidades empricas da srie. Em geral, h um conjunto de regularidades empricas que
so partilhadas por um grande leque de sries temporais financeiras observadas com frequncia
elevada (diria ou semanal). Chamam-se a essas regularidades factos empricos estilizados, por serem
comuns a muitas sries. Os principais so os seguintes:
1. Prmio de risco positivo. O valor esperado do retorno de um investimento no mercado de
capitais deve exceder o retorno do investimento sem risco. A essa diferena designa-se prmio
de risco. Este prmio deve ser positivo pois, caso contrrio, no haveria motivao para aceitar
um investimento com retornos incertos, quando a alternativa um retorno garantido.
2. Desvios padro diferentes consoante os activos. Os activos com maior variabilidade e,
portanto, com maior risco associado, so os ttulos de empresas, seguidos dos ndices bolsistas
e taxas de cmbio. Os bilhetes do tesouro apresentam a menor variabilidade. No mbito dos
ttulos de aces, vrios estudos indicam que a variabilidade dos retornos tende a diminuir
medida que a dimenso das empresas aumenta (ttulos de empresas pequenas apresentam maior
variabilidade).
3. Retornos de aces e de ndices tendem a apresentar assimetria negativa. As distribuies
empricas das rendibilidades de aces e ndices bolsistas tendem, em geral, a serem
assimtricas negativas (normalmente ocorrem mais variaes negativas fortes, i.e. crashes, do
que variaes positivas fortes).
4. Retornos apresentam distribuies leptocrticas. Observa-se para a generalidade das sries
financeiras que os retornos muitos altos e muito baixos ocorrem com maior frequncia do que
seria de esperar se os retornos seguissem uma distribuio normal. Na generalidade dos casos o
coeficiente de kurtosis estimado vem quase sempre bastante acima de 3, o que sugere que a
distribuio dos retornos (de cotaes, ndices, taxas de cmbio e mesmo taxas de juro)
leptocrtica.
5. Autocorrelaes lineares baixas entre os retornos. Em geral os coeficientes de autocorrelao
dos retornos so baixos. Imagine-se uma situao hipottica em que a mdia dos retornos
dirios zero e o coeficiente de correlao negativo e alto em mdulo. Se o retorno hoje
positivo, amanh tender a ser negativo e vice-versa. Existe, portanto, uma forte possibilidade
de ganho (arbitragem) com base na observao passada dos preos. Se outros participantes do
mercado comprarem e venderem com base neste padro de autocorrelao, o processo de
arbitragem reduzir rapidamente a correlao. Portanto, no credvel supor-se coeficientes de
autocorrelao lineares altos.
6. Volatility Clustering. J vimos que valores muitos altos e muito baixos ocorrem
frequentemente (com maior frequncia do que seria de esperar se as variveis seguissem uma
distribuio normal). Este valores extremos no ocorrem isoladamente: tendem a ocorrer de
forma seguida, da o termo volatility clustering.
7. Forte dependncia temporal da volatilidade. Nos pontos precedentes observmos dois factos
estilizados: (1) valores muitos altos e muito baixos ocorrem frequentemente e (2) estes valores
extremos aparecem de forma seguida (volatility clustering). Neste ponto refora-se a ideia de
volatility clustering: no s os valores extremos tendem a aparecer de forma seguida como
tambm h alguma persistncia neste fenmeno. Isto , se a volatilidade alta (baixa), ento
razovel esperar que a volatilidade se mantenha alta (baixa) durante bastante tempo.
8. Efeito assimtrico. Tem-se observado existir alguma correlao entre a volatilidade e a
ocorrncia de perdas significativas nos mercados de capitais. Designa-se esta relao por efeito
assimtrico. Concretamente, quando a rendibilidade de um activo negativa espera-se, em
mdia, um aumento de volatilidade para o perodo seguinte. O efeito assimtrico , por vezes
identificado como leverage effect depois de Black em 1976 ter notado que a volatilidade
aumenta quando o mercado cai e o rcio de endividamento (leverage ratio) aumenta. No
entanto, vrios autores tm salientado que o leverage muito reduzido quando comparado com
o efeito assimtrico.
9. Aumento da frequncia das observaes acentua a no linearidade e a no normalidade. Pode
mostrar-se que, em geral, o coeficiente de kurtosis tende a aumentar com o aumento da
frequncia amostral (por exemplo, quando se passa de observaes semanais para observaes
dirias). Assim, a distribuio marginal dos retornos dirios apresenta um maior afastamento
face distribuio normal do que a distribuio marginal dos retornos mensais (por exemplo).
Tambm a correlao entre a magnitude dos retornos tende a acentuar-se com o aumento da
frequncia das observaes.
10. Efeitos de calendrio. Em certas sries a rendibilidade e/ou a volatilidade varia com o
calendrio.
3. Modelao Em Tempo Discreto
3.1 Introduo
Ao longo das ltimas dcadas os modelos ARMA tm dominado a abordagem de sries temporais (os
primeiros trabalhos datam de 1927 com os modelos autoregressivos estudados por Yule). Existem
razes para o sucesso dos modelos ARMA Gaussianos:
simplicidade: as equaes lineares s diferenas finitas so fceis de tratar;
o modelo ARMA Gaussiano completamente caracterizado pela mdia, varincia e pelas
autocorrelaes;
so fceis de aplicar e implementar (a maioria dos programas de estatsticas possui um mdulo
para tratar os modelos ARMA);
a teoria est bastante desenvolvida: praticamente, todas as principais questes relacionadas com
a estimao, inferncia e previso esto resolvidas;
os modelos lineares apesar de simples so relativamente flexveis e teis na previso.
Todavia, os modelos ARMA apresentam limitaes:
no so apropriados para dados que exibam sbitas alteraes em perodos irregulares;
no so apropriados para dados que exibam forte assimetria e achatamento e,
obviamente, no so indicados para modelarem relaes no lineares. Pode suceder que os
coeficientes de autocorrelao linear sejam baixos, e existir fortes correlaes no lineares
entre as variveis da sucesso (por exemplo, a autocorrelao entre os quadrados das variveis
pode ser alto). Pode suceder tambm que os coeficientes de autocorrelao linear dependam do
nvel do processo.
25 O u t o n o d e 2 0 0 9
7. Forte dependncia temporal da volatilidade. Nos pontos precedentes observmos dois factos
estilizados: (1) valores muitos altos e muito baixos ocorrem frequentemente e (2) estes valores
extremos aparecem de forma seguida (volatility clustering). Neste ponto refora-se a ideia de
volatility clustering: no s os valores extremos tendem a aparecer de forma seguida como
tambm h alguma persistncia neste fenmeno. Isto , se a volatilidade alta (baixa), ento
razovel esperar que a volatilidade se mantenha alta (baixa) durante bastante tempo.
8. Efeito assimtrico. Tem-se observado existir alguma correlao entre a volatilidade e a
ocorrncia de perdas significativas nos mercados de capitais. Designa-se esta relao por efeito
assimtrico. Concretamente, quando a rendibilidade de um activo negativa espera-se, em
mdia, um aumento de volatilidade para o perodo seguinte. O efeito assimtrico , por vezes
identificado como leverage effect depois de Black em 1976 ter notado que a volatilidade
aumenta quando o mercado cai e o rcio de endividamento (leverage ratio) aumenta. No
entanto, vrios autores tm salientado que o leverage muito reduzido quando comparado com
o efeito assimtrico.
9. Aumento da frequncia das observaes acentua a no linearidade e a no normalidade. Pode
mostrar-se que, em geral, o coeficiente de kurtosis tende a aumentar com o aumento da
frequncia amostral (por exemplo, quando se passa de observaes semanais para observaes
dirias). Assim, a distribuio marginal dos retornos dirios apresenta um maior afastamento
face distribuio normal do que a distribuio marginal dos retornos mensais (por exemplo).
Tambm a correlao entre a magnitude dos retornos tende a acentuar-se com o aumento da
frequncia das observaes.
10. Efeitos de calendrio. Em certas sries a rendibilidade e/ou a volatilidade varia com o
calendrio.
3. Modelao Em Tempo Discreto
3.1 Introduo
Ao longo das ltimas dcadas os modelos ARMA tm dominado a abordagem de sries temporais (os
primeiros trabalhos datam de 1927 com os modelos autoregressivos estudados por Yule). Existem
razes para o sucesso dos modelos ARMA Gaussianos:
simplicidade: as equaes lineares s diferenas finitas so fceis de tratar;
o modelo ARMA Gaussiano completamente caracterizado pela mdia, varincia e pelas
autocorrelaes;
so fceis de aplicar e implementar (a maioria dos programas de estatsticas possui um mdulo
para tratar os modelos ARMA);
a teoria est bastante desenvolvida: praticamente, todas as principais questes relacionadas com
a estimao, inferncia e previso esto resolvidas;
os modelos lineares apesar de simples so relativamente flexveis e teis na previso.
Todavia, os modelos ARMA apresentam limitaes:
no so apropriados para dados que exibam sbitas alteraes em perodos irregulares;
no so apropriados para dados que exibam forte assimetria e achatamento e,
obviamente, no so indicados para modelarem relaes no lineares. Pode suceder que os
coeficientes de autocorrelao linear sejam baixos, e existir fortes correlaes no lineares
entre as variveis da sucesso (por exemplo, a autocorrelao entre os quadrados das variveis
pode ser alto). Pode suceder tambm que os coeficientes de autocorrelao linear dependam do
nvel do processo.
Tendo em conta os factos estilizados empricos estilizados de sries temporais financeiras descritos no
ponto anterior, fcil perceber que os modelos ARMA no so em geral adequados para modelarem
sries financeiras, observadas com frequncia elevada. Modelos mais adequados para sries financeiras
devero ser capazes de modelarem no linearidades. Uma forma simples (mas no geral) de introduzir
modelos no lineares consiste em apresentar a no linearidade atravs dos momentos condicionais.
Considere-se o modelo
y
t
= p
t
+u
t
, u
t
= o
t
e
t
onde {e
t
] um rudo branco (ou uma diferena de martingala),
p
t
= g(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
) a mdia condicional de y
t
e
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-1
, , u
t-q
) a varincia condicional de y
t
. O modelo no linear na
mdia se g uma funo no linear dos seus argumentos; o modelo no linear na varincia se o
t
2
no constante ao longo do tempo pois, neste caso, o processo {u
t
], definido por u
t
= o
t
e
t
no linear,
por ser um processo multiplicativo.
3.2 Modelos No Lineares na Varincia
Um dos primeiros modelos a romper com o quadro clssico da estimao ARMA, foi o modelo
ARCH, proposto por Robert Engle em 1982. Embora existisse j alguma evidncia de que a
volatilidade no era constante, devido aos trabalhos de Benoit Mandelbrot e Eugene Fama, na dcada
de 60, os modelos de sries temporais habituais na empirical finance assumiam homocedasticidade
(varincias iguais). Os modelos ARCH revolucionaram a abordagem economtrica de sries
temporais: no s passam a admitir, no mbito de um modelo paramtrico, heterocedasticidade (que
era frequentemente visto apenas como um problema de dados seccionais), como tambm propem um
modelo dinmico para a volatilidade.
O modelo da famlia ARCH (inclui, por exemplo, o GARCH, TARCH, EGARACH, etc.) pode ser
representado genericamente pelas seguintes equaes
u
t
= o
t
e
t
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
)
onde e
t
pode ser, por exemplo, um rudo branco.
Pode demonstrar-se que os modelos da famlia ARCH podem captar os factos estilizados 4 a 10
mencionados na seco 2. Trata-se de um enorme progresso face aos modelos ARMA. Alguns dos
factos estilizados, como por exemplo, o efeito de calendrio, no resultam directamente das
propriedades dos modelos da famlia ARCH, mas muito fcil, no quadro da estimao ARCH
incorporar esses efeitos. Por outro lado, outros factos estilizados resultam directamente das
propriedades dos modelos ARCH. Por exemplo, pode demonstrar-se que a distribuio marginal dos
retornos de um processo ARCH possui caudas polinomiais e, portanto caudas pesadas, com kurtosis
superior a 3, mesmo que a distribuio condicional seja Gaussiana.
26 B o l e t i m S P E
Tendo em conta os factos estilizados empricos estilizados de sries temporais financeiras descritos no
ponto anterior, fcil perceber que os modelos ARMA no so em geral adequados para modelarem
sries financeiras, observadas com frequncia elevada. Modelos mais adequados para sries financeiras
devero ser capazes de modelarem no linearidades. Uma forma simples (mas no geral) de introduzir
modelos no lineares consiste em apresentar a no linearidade atravs dos momentos condicionais.
Considere-se o modelo
y
t
= p
t
+u
t
, u
t
= o
t
e
t
onde {e
t
] um rudo branco (ou uma diferena de martingala),
p
t
= g(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
) a mdia condicional de y
t
e
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-1
, , u
t-q
) a varincia condicional de y
t
. O modelo no linear na
mdia se g uma funo no linear dos seus argumentos; o modelo no linear na varincia se o
t
2
no constante ao longo do tempo pois, neste caso, o processo {u
t
], definido por u
t
= o
t
e
t
no linear,
por ser um processo multiplicativo.
3.2 Modelos No Lineares na Varincia
Um dos primeiros modelos a romper com o quadro clssico da estimao ARMA, foi o modelo
ARCH, proposto por Robert Engle em 1982. Embora existisse j alguma evidncia de que a
volatilidade no era constante, devido aos trabalhos de Benoit Mandelbrot e Eugene Fama, na dcada
de 60, os modelos de sries temporais habituais na empirical finance assumiam homocedasticidade
(varincias iguais). Os modelos ARCH revolucionaram a abordagem economtrica de sries
temporais: no s passam a admitir, no mbito de um modelo paramtrico, heterocedasticidade (que
era frequentemente visto apenas como um problema de dados seccionais), como tambm propem um
modelo dinmico para a volatilidade.
O modelo da famlia ARCH (inclui, por exemplo, o GARCH, TARCH, EGARACH, etc.) pode ser
representado genericamente pelas seguintes equaes
u
t
= o
t
e
t
o
t
2
= b(y
t-1
, , y
t-p
; u
t-1
, u
t-2
, , u
t-q
)
onde e
t
pode ser, por exemplo, um rudo branco.
Pode demonstrar-se que os modelos da famlia ARCH podem captar os factos estilizados 4 a 10
mencionados na seco 2. Trata-se de um enorme progresso face aos modelos ARMA. Alguns dos
factos estilizados, como por exemplo, o efeito de calendrio, no resultam directamente das
propriedades dos modelos da famlia ARCH, mas muito fcil, no quadro da estimao ARCH
incorporar esses efeitos. Por outro lado, outros factos estilizados resultam directamente das
propriedades dos modelos ARCH. Por exemplo, pode demonstrar-se que a distribuio marginal dos
retornos de um processo ARCH possui caudas polinomiais e, portanto caudas pesadas, com kurtosis
superior a 3, mesmo que a distribuio condicional seja Gaussiana.
3.3 Modelos No lineares na Mdia
Uma classe importante de processos no lineares na mdia baseia-se na ideia de regime-switching.
Podem ser usados em duas circunstncias gerais: (a) existem alteraes bruscas e inesperadas nas
trajectrias dos processos (e.g., ataques especulativos, crashes bolsistas, anncios pblicos de medidas
do governo, eventos polticos e, em geral, eventos extraordinrios no antecipados); (b) existem
alteraes da dinmica do processo sem alteraes bruscas nas trajectrias. Por exemplo, a taxa de juro
no perodo 1993 a 2006 exibe dois perodos com comportamento bem diferenciado: no primeiro, as
taxas de juro e a volatilidade so relativamente altas e o processo evidencia uma tendncia de reverso
para uma mdia, seguindo-se, depois de 1995, um perodo de baixas taxas de juro, baixa volatilidade e
ausncia de reverso para uma mdia.
Para este tipo de fenmenos, os modelos com alteraes (estocsticas) de regime (ou regime-
switching) podem ser, no essencial, de dois tipos: (a) a mudana de regime funo de uma varivel
observvel; so exemplos, modelos com variveis impulso (dummy), os modelos limiares ou threshold
AR (TAR), os modelos onde os coeficientes associados s componentes AR so funes no lineares
dos valores passados do processo (STAR, smoothed transition AR), entre outros; (b) a mudana de
regime no observada, incluindo-se, nesta classe, os modelos onde os regimes so independentes
entre si (como, por exemplo, os modelos simple switching ou de Bernoulli) e os modelos onde existe
dependncia entre os regimes (como por exemplo, os modelos MS, Markov-Switching).
4. Modelao em Tempo Contnuo
4.1 Introduo
Nos ltimos anos tem-se assistido a um enorme interesse na modelao em tempo contnuo. Podemos
atribuir este facto ao boom da Matemtica Financeira, que usa fundamentalmente processos em tempo
contnuo para avaliar opes sobre activos, e recente disponibilidade de sries financeiras de
altssima frequncia.
O modelo base para descrever o comportamento probabilstico de uma srie financeira ao longo do
tempo o processo de difuso que pode ser descrito atravs de uma equao diferencial estocstica
(EDE)
JX
t
= o(X
t
, t)Jt + b(X
t
, t)Jw
t
, X
0
= x (1)
onde w
t
o processo de Wiener (padro). Processos de difuso so processos de Markov com
trajectrias contnuas quase certamente onde as probabilidades de transio P(s, x, t, B)
P(X
t
e B|X
s
= x) satisfazem, para cada s e |t, I], x e R , e > u,
1. lim
t-s
1
t-s
] P(s, x, t, B) = u
|-x|<s
2. existe uma funo o(s, x) tal que lim
t-s
1
t-s
]
(y - x) P(s, x, t, B) = a(s, x)
|-x|<s
3. existe uma funo b
2
(s, x) tal que lim
t-s
1
t-s
]
(y - x)
2
P(s, x, t, B) = b
2
(s, x)
|-x|<s
De acordo com a condio 1 a ocorrncia de saltos instantneos na trajectria do processo
improvvel. As condies 2 e 3 estabelecem que o processo tem uma mdia infinitesimal o(s, x) e
uma varincia infinitesimal b(s, x). A mdia infinitesimal (tambm designada por coeficiente de
tendncia) fornece uma medida da velocidade mdia do movimento descrito por X no momento s,
dado que X
s
= x (note-se, no caso do valor esperado condicional existir, o coeficiente de tendncia
pode ser interpretado como (t - s)
-1
E(X
t
- X
s
|X
s
= x) = o(s, x)) e a varincia infinitesimal
(tambm designada por coeficiente de difuso) fornece uma medida da magnitude local das flutuaes
de X
t
- X
s
dado X
s
= x (note-se, (t - s)
-1
E(X
t
- X
s
2
|X
s
= x) = b
2
(s, x)).
27 O u t o n o d e 2 0 0 9
3.3 Modelos No lineares na Mdia
Uma classe importante de processos no lineares na mdia baseia-se na ideia de regime-switching.
Podem ser usados em duas circunstncias gerais: (a) existem alteraes bruscas e inesperadas nas
trajectrias dos processos (e.g., ataques especulativos, crashes bolsistas, anncios pblicos de medidas
do governo, eventos polticos e, em geral, eventos extraordinrios no antecipados); (b) existem
alteraes da dinmica do processo sem alteraes bruscas nas trajectrias. Por exemplo, a taxa de juro
no perodo 1993 a 2006 exibe dois perodos com comportamento bem diferenciado: no primeiro, as
taxas de juro e a volatilidade so relativamente altas e o processo evidencia uma tendncia de reverso
para uma mdia, seguindo-se, depois de 1995, um perodo de baixas taxas de juro, baixa volatilidade e
ausncia de reverso para uma mdia.
Para este tipo de fenmenos, os modelos com alteraes (estocsticas) de regime (ou regime-
switching) podem ser, no essencial, de dois tipos: (a) a mudana de regime funo de uma varivel
observvel; so exemplos, modelos com variveis impulso (dummy), os modelos limiares ou threshold
AR (TAR), os modelos onde os coeficientes associados s componentes AR so funes no lineares
dos valores passados do processo (STAR, smoothed transition AR), entre outros; (b) a mudana de
regime no observada, incluindo-se, nesta classe, os modelos onde os regimes so independentes
entre si (como, por exemplo, os modelos simple switching ou de Bernoulli) e os modelos onde existe
dependncia entre os regimes (como por exemplo, os modelos MS, Markov-Switching).
4. Modelao em Tempo Contnuo
4.1 Introduo
Nos ltimos anos tem-se assistido a um enorme interesse na modelao em tempo contnuo. Podemos
atribuir este facto ao boom da Matemtica Financeira, que usa fundamentalmente processos em tempo
contnuo para avaliar opes sobre activos, e recente disponibilidade de sries financeiras de
altssima frequncia.
O modelo base para descrever o comportamento probabilstico de uma srie financeira ao longo do
tempo o processo de difuso que pode ser descrito atravs de uma equao diferencial estocstica
(EDE)
JX
t
= o(X
t
, t)Jt + b(X
t
, t)Jw
t
, X
0
= x (1)
onde w
t
o processo de Wiener (padro). Processos de difuso so processos de Markov com
trajectrias contnuas quase certamente onde as probabilidades de transio P(s, x, t, B)
P(X
t
e B|X
s
= x) satisfazem, para cada s e |t, I], x e R , e > u,
1. lim
t-s
1
t-s
] P(s, x, t, B) = u
|-x|<s
2. existe uma funo o(s, x) tal que lim
t-s
1
t-s
]
(y - x) P(s, x, t, B) = a(s, x)
|-x|<s
3. existe uma funo b
2
(s, x) tal que lim
t-s
1
t-s
]
(y - x)
2
P(s, x, t, B) = b
2
(s, x)
|-x|<s
De acordo com a condio 1 a ocorrncia de saltos instantneos na trajectria do processo
improvvel. As condies 2 e 3 estabelecem que o processo tem uma mdia infinitesimal o(s, x) e
uma varincia infinitesimal b(s, x). A mdia infinitesimal (tambm designada por coeficiente de
tendncia) fornece uma medida da velocidade mdia do movimento descrito por X no momento s,
dado que X
s
= x (note-se, no caso do valor esperado condicional existir, o coeficiente de tendncia
pode ser interpretado como (t - s)
-1
E(X
t
- X
s
|X
s
= x) = o(s, x)) e a varincia infinitesimal
(tambm designada por coeficiente de difuso) fornece uma medida da magnitude local das flutuaes
de X
t
- X
s
dado X
s
= x (note-se, (t - s)
-1
E(X
t
- X
s
2
|X
s
= x) = b
2
(s, x)).
Quais as vantagens em se modelar uma srie financeira atravs de uma EDE, comparativamente
modelao em tempo discreto? H, em primeiro lugar, uma vantagem bvia - permite que os modelos
financeiros tericos, na grande maioria deduzidos a partir de EDEs, possam ser efectivamente
aplicados ao "mundo real". Existem tambm vantagens (e, certamente, desvantagens) em termos
puramente estatsticos. Nos modelos a tempo discreto a especificao dos dois primeiros momentos
condicionais imediata; por exemplo, na especificao do modelo a tempo discreto, X
t
= p
t
+ o
t
e
t
(para t = 1,2, ), onde e
t
, por exemplo, uma diferena de martingala, com varincia finita igual a
um, a mdia condicional p
t
e a varincia condicional o
t
2
. As probabilidades de transio so fceis
de estabelecer uma vez especificada a distribuio de e
t
. Nas EDEs, os momentos e as probabilidades
condicionais, associadas a observaes discretas so, em geral, muito difceis de obter. No obstante,
uma das vantagens das EDEs a de que permitem, para um nmero aprecivel de casos no lineares, a
obteno das distribuies estacionrias (quando existam, obviamente) que so um elemento chave
para a compreenso do fenmeno. Em geral, muitas expresses de interesse, como leis de
probabilidade que governam o processo de difuso, so determinadas, parte certas condies
fronteira, apenas a partir da relao dos coeficientes infinitesimais. Na generalidade dos casos,
possvel estabelecer uma equao diferencial parcial (EDP) cuja soluo determina a expresso de
interesse. Tambm se obtm, em geral, uma infinidade de momentos estacionrios (quando existam).
No caso discreto, de equaes no lineares, (por exemplo, do tipo ARCH) geralmente difcil a
obteno de resultados limites, quer em termos de momentos estacionrios, quer sobretudo em termos
de distribuies estacionrias. Um exemplo destas dificuldades mostrada por Daniel Nelson: para
derivar certos resultados assintticos dos processos ARCH, Nelson considerou processos de difuso
como solues limites de processos ARCH, quando o intervalo de tempo entre sucessivas realizaes
do processo tende para zero. Outra vantagem dos modelos em tempo contnuo a de que fcil
estabelecer resultados para qualquer t pertencente a um intervalo. Nos modelos a tempo discreto, se os
dados so anuais, os resultados apenas podem referir-se a instantes mltiplos do ano. Nestes modelos,
supe-se ainda que o intervalo entre as observaes constante. A favor das EDES pode-se ainda
argumentar que as variveis econmicas evoluem intrinsecamente em tempo contnuo mesmo que as
trajectrias possam exibir descontinuidades, pois os processos latentes geradores das variveis
econmicas so contnuos. Por exemplo, as decises dos agentes, a informao, os gostos, a tecnologia
so quase certamente processos contnuos no tempo. A economia no "pra", obviamente, entre duas
observaes do processo; da mesma forma, a economia no evolui de acordo com as observaes
disponveis do processo. Uma questo diferente saber se as trajectrias dos processos econmicos
so contnuas. Algumas sries financeiras tm provavelmente trajectrias descontnuas, isto , evoluem
atravs de saltos aleatrios no tempo (por exemplo, uma cotao de uma aco sujeita a reduzidas
transaces no est continuamente a alterar de valor).
4.2 Extenses ao Modelo Base
Uma das extenses ao modelo (1) mais importante aquela que permite modelar o coeficiente de
difuso atravs de outra equao diferencial estocstica. Entende-se, neste caso, que no s os preos
mas tambm a volatilidade dos preos admite uma representao estocstica. Estes processos
designam-se por modelos de volatilidade estocstica. Para ilustrar considere-se o seguinte exemplo
JS
t
= (r - J)S
t
Jt + o
t
S
t
Jw
t1
,
Jo
t
2
= (o - o
t
2
)Jt + o
t
Jw
t2
,
onde w
t1
e w
t2
so processos de Wiener, no necessariamente independentes. Outra extenso
importante so os processos de difuso com saltos de Poisson. Estes modelos adequam-se a fenmenos
com alteraes bruscas da trajectria, devido, por exemplo, a anncios de poltica monetria, a crashes
bolsistas, ataques especulativos sbitos, etc.
28 B o l e t i m S P E
Quais as vantagens em se modelar uma srie financeira atravs de uma EDE, comparativamente
modelao em tempo discreto? H, em primeiro lugar, uma vantagem bvia - permite que os modelos
financeiros tericos, na grande maioria deduzidos a partir de EDEs, possam ser efectivamente
aplicados ao "mundo real". Existem tambm vantagens (e, certamente, desvantagens) em termos
puramente estatsticos. Nos modelos a tempo discreto a especificao dos dois primeiros momentos
condicionais imediata; por exemplo, na especificao do modelo a tempo discreto, X
t
= p
t
+ o
t
e
t
(para t = 1,2, ), onde e
t
, por exemplo, uma diferena de martingala, com varincia finita igual a
um, a mdia condicional p
t
e a varincia condicional o
t
2
. As probabilidades de transio so fceis
de estabelecer uma vez especificada a distribuio de e
t
. Nas EDEs, os momentos e as probabilidades
condicionais, associadas a observaes discretas so, em geral, muito difceis de obter. No obstante,
uma das vantagens das EDEs a de que permitem, para um nmero aprecivel de casos no lineares, a
obteno das distribuies estacionrias (quando existam, obviamente) que so um elemento chave
para a compreenso do fenmeno. Em geral, muitas expresses de interesse, como leis de
probabilidade que governam o processo de difuso, so determinadas, parte certas condies
fronteira, apenas a partir da relao dos coeficientes infinitesimais. Na generalidade dos casos,
possvel estabelecer uma equao diferencial parcial (EDP) cuja soluo determina a expresso de
interesse. Tambm se obtm, em geral, uma infinidade de momentos estacionrios (quando existam).
No caso discreto, de equaes no lineares, (por exemplo, do tipo ARCH) geralmente difcil a
obteno de resultados limites, quer em termos de momentos estacionrios, quer sobretudo em termos
de distribuies estacionrias. Um exemplo destas dificuldades mostrada por Daniel Nelson: para
derivar certos resultados assintticos dos processos ARCH, Nelson considerou processos de difuso
como solues limites de processos ARCH, quando o intervalo de tempo entre sucessivas realizaes
do processo tende para zero. Outra vantagem dos modelos em tempo contnuo a de que fcil
estabelecer resultados para qualquer t pertencente a um intervalo. Nos modelos a tempo discreto, se os
dados so anuais, os resultados apenas podem referir-se a instantes mltiplos do ano. Nestes modelos,
supe-se ainda que o intervalo entre as observaes constante. A favor das EDES pode-se ainda
argumentar que as variveis econmicas evoluem intrinsecamente em tempo contnuo mesmo que as
trajectrias possam exibir descontinuidades, pois os processos latentes geradores das variveis
econmicas so contnuos. Por exemplo, as decises dos agentes, a informao, os gostos, a tecnologia
so quase certamente processos contnuos no tempo. A economia no "pra", obviamente, entre duas
observaes do processo; da mesma forma, a economia no evolui de acordo com as observaes
disponveis do processo. Uma questo diferente saber se as trajectrias dos processos econmicos
so contnuas. Algumas sries financeiras tm provavelmente trajectrias descontnuas, isto , evoluem
atravs de saltos aleatrios no tempo (por exemplo, uma cotao de uma aco sujeita a reduzidas
transaces no est continuamente a alterar de valor).
4.2 Extenses ao Modelo Base
Uma das extenses ao modelo (1) mais importante aquela que permite modelar o coeficiente de
difuso atravs de outra equao diferencial estocstica. Entende-se, neste caso, que no s os preos
mas tambm a volatilidade dos preos admite uma representao estocstica. Estes processos
designam-se por modelos de volatilidade estocstica. Para ilustrar considere-se o seguinte exemplo
JS
t
= (r - J)S
t
Jt + o
t
S
t
Jw
t1
,
Jo
t
2
= (o - o
t
2
)Jt + o
t
Jw
t2
,
onde w
t1
e w
t2
so processos de Wiener, no necessariamente independentes. Outra extenso
importante so os processos de difuso com saltos de Poisson. Estes modelos adequam-se a fenmenos
com alteraes bruscas da trajectria, devido, por exemplo, a anncios de poltica monetria, a crashes
bolsistas, ataques especulativos sbitos, etc.
4.3 O problema da Estimao
Tal como no caso discreto, tambm os processos de difuso envolvem parmetros ou funes
desconhecidas que devem ser estimados a partir de observaes discretas do processo. A estimao e
inferncia estatstica so consideravelmente mais difceis em processos de difuso do que em
processos em tempo discreto. Embora o mtodo da mxima verosimilhana para processos de difuso
baseados em observaes discretas apresenta as habituais boas propriedades (consistncia, eficincia e
distribuio assimpttica normal dos estimadores), as densidades de transio necessrias para
construir a funo de verosimilhana so geralmente desconhecidas. Vrias abordagens de estimao
tm sido propostas, como por exemplo: mtodo dos momentos generalizados baseados no operador
infinitesimal; funo martingala de estimao; aproximao da verosimilhana via expanso de
Hermite; aproximao da verosimilhana via aproximao numrica da equao progressiva de
Kolmogorov; aproximao da verosimilhana via simulao; mtodos Bayesianos; mtodos baseados
em modelos auxiliares (inferncia indirecta e mtodo dos momentos eficientes). Tambm a estimao
no paramtrica tem suscitado muito interesse. A estimao mais difcil que envolve os processos de
volatilidade estocstica: no s a verosimilhana, associada a observaes discretas, geralmente
desconhecida, como tambm o processo da volatilidade no observado.
5. Aplicaes
5.1 Opes
Uma das aplicaes mais importantes da teoria dos processos estocsticos s finanas a que respeita
determinao do preo justo ou prmio de uma opo. Uma opo call europeia confere ao seu
detentor o direito, mas no a obrigao, de comprar um activo (por exemplo uma aco cotada na
bolsa) na data de expirao do contrato T, por um preo K previamente fixado. A cotao do activo
evolui estocasticamente ao longo do tempo e pode ser genericamente caracterizado como um processo
estocstico {S
t
: u t I] definido num espao de probabilidades (, J, P) (onde o espao
amostral, podendo ser identificado como o conjunto de todos os cenrios de mercado, J a lgebra-o
dos subconjuntos de e P a medida de probabilidade). No instante T o detentor da opo pode
comprar o activo pelo preo K, previamente estabelecido, e vender imediatamente por S
1
, supondo
obviamente que S
1
> K. Se S
1
< K o detentor da opo no exerce o direito de compra. Desta forma a
receita (payoff) mox{S
1
- K, u]. Nestas circunstncias, qual o valor justo do prmio da opo no
momento t < I? Naturalmente, o valor mox{S
1
- K, u] depende crucialmente do processo estocstico
{S
t
: u t I]. Fisher Black e Myron Scholes, assumindo um movimento Browniano geomtrico,
deduziram uma frmula matemtica para o prmio da opo. Esta frmula, simples e extremamente
til ainda nos dias de hoje, considerada por muitos economistas como uma das maiores realizaes
da teoria financeira.
5.2 Estimao da Volatilidade
A volatilidade um tpico fundamental em finanas. O conceito de volatilidade est presente na
gesto do risco, na afectao e seleco de activos, na valorizao e hedging das opes e derivados e
em muitas outras operaes e estratgias financeiras (no exemplo anterior, o parmetro mais
importante que condiciona o valor mox{S
1
- K, u] , precisamente, a volatilidade do processo
{S
t
: u t I]). A rea da modelao e da previso da volatilidade assenta, naturalmente, em
processos estocsticos. A literatura muita vasta nesta rea, e inclui variadssimos modelos em tempo
discreto (e.g. modelos ARCH e modelos de volatilidade estocstica) e em tempo contnuo (e.g.
processos de difuso univariados com coeficiente de difuso no constante e processos de difuso de
segunda ordem de volatilidade estocstica).
29 O u t o n o d e 2 0 0 9
4.3 O problema da Estimao
Tal como no caso discreto, tambm os processos de difuso envolvem parmetros ou funes
desconhecidas que devem ser estimados a partir de observaes discretas do processo. A estimao e
inferncia estatstica so consideravelmente mais difceis em processos de difuso do que em
processos em tempo discreto. Embora o mtodo da mxima verosimilhana para processos de difuso
baseados em observaes discretas apresenta as habituais boas propriedades (consistncia, eficincia e
distribuio assimpttica normal dos estimadores), as densidades de transio necessrias para
construir a funo de verosimilhana so geralmente desconhecidas. Vrias abordagens de estimao
tm sido propostas, como por exemplo: mtodo dos momentos generalizados baseados no operador
infinitesimal; funo martingala de estimao; aproximao da verosimilhana via expanso de
Hermite; aproximao da verosimilhana via aproximao numrica da equao progressiva de
Kolmogorov; aproximao da verosimilhana via simulao; mtodos Bayesianos; mtodos baseados
em modelos auxiliares (inferncia indirecta e mtodo dos momentos eficientes). Tambm a estimao
no paramtrica tem suscitado muito interesse. A estimao mais difcil que envolve os processos de
volatilidade estocstica: no s a verosimilhana, associada a observaes discretas, geralmente
desconhecida, como tambm o processo da volatilidade no observado.
5. Aplicaes
5.1 Opes
Uma das aplicaes mais importantes da teoria dos processos estocsticos s finanas a que respeita
determinao do preo justo ou prmio de uma opo. Uma opo call europeia confere ao seu
detentor o direito, mas no a obrigao, de comprar um activo (por exemplo uma aco cotada na
bolsa) na data de expirao do contrato T, por um preo K previamente fixado. A cotao do activo
evolui estocasticamente ao longo do tempo e pode ser genericamente caracterizado como um processo
estocstico {S
t
: u t I] definido num espao de probabilidades (, J, P) (onde o espao
amostral, podendo ser identificado como o conjunto de todos os cenrios de mercado, J a lgebra-o
dos subconjuntos de e P a medida de probabilidade). No instante T o detentor da opo pode
comprar o activo pelo preo K, previamente estabelecido, e vender imediatamente por S
1
, supondo
obviamente que S
1
> K. Se S
1
< K o detentor da opo no exerce o direito de compra. Desta forma a
receita (payoff) mox{S
1
- K, u]. Nestas circunstncias, qual o valor justo do prmio da opo no
momento t < I? Naturalmente, o valor mox{S
1
- K, u] depende crucialmente do processo estocstico
{S
t
: u t I]. Fisher Black e Myron Scholes, assumindo um movimento Browniano geomtrico,
deduziram uma frmula matemtica para o prmio da opo. Esta frmula, simples e extremamente
til ainda nos dias de hoje, considerada por muitos economistas como uma das maiores realizaes
da teoria financeira.
5.2 Estimao da Volatilidade
A volatilidade um tpico fundamental em finanas. O conceito de volatilidade est presente na
gesto do risco, na afectao e seleco de activos, na valorizao e hedging das opes e derivados e
em muitas outras operaes e estratgias financeiras (no exemplo anterior, o parmetro mais
importante que condiciona o valor mox{S
1
- K, u] , precisamente, a volatilidade do processo
{S
t
: u t I]). A rea da modelao e da previso da volatilidade assenta, naturalmente, em
processos estocsticos. A literatura muita vasta nesta rea, e inclui variadssimos modelos em tempo
discreto (e.g. modelos ARCH e modelos de volatilidade estocstica) e em tempo contnuo (e.g.
processos de difuso univariados com coeficiente de difuso no constante e processos de difuso de
segunda ordem de volatilidade estocstica).
5.3 Gesto do Risco
A gesto do risco consiste, grosso modo, em identificar as fontes de risco e em medir, controlar e gerir
esse mesmo risco. Nesta rea, um conceito fundamental o Value at Risk ou VaR (como usualmente
conhecido na literatura). O VaR representa a perda que pode ocorrer num lapso de tempo determinado,
com uma certa probabilidade , supondo que o portfolio no gerido durante o perodo de anlise. Em
termos probabilsticos, o VaR o quantil de ordem da distribuio terica de ganhos e perdas. Estes
ganhos e perdas evoluem ao longo do tempo e, portanto, so susceptveis de serem modelados atravs
de processos estocsticos.
5.4 Eficincia dos Mercado Financeiros
Uma discusso j longa na literatura debate a eficincia dos mercados financeiros. O mercado de
capitais diz-se eficiente se os preos dos produtos financeiros reflectirem toda a informao disponvel.
Quando libertada uma informao relevante (por exemplo, um anncio de distribuio de dividendos
de valor superior ao esperado, um anncio de fuses ou aquisies, etc.) num mercado eficiente os
agentes reagem imediatamente comprando ou vendendo de acordo com a informao e os preos
ajustam-se imediatamente. Se o mercado eficiente o preo ajusta-se rapidamente e no h
oportunidades para a realizao de rendibilidades anormais. Neste caso, o retorno no previsvel e,
portanto, dever ser no autocorrelacionado. Naturalmente esta discusso faz-se no mbito de um
modelo probabilstico de processos estocsticos.
5.5 Gesto de Porfolios
Um problema importante em finanas o da seleco e constituio de portfolios de acordo com o
princpio geral da obteno da mxima rendibilidade com a menor volatilidade (risco) possvel.
Existem vrias abordagens para obter a rendibilidade e a volatilidade mas a mais conveniente e
adequada diz respeito s previses (temporais) de rendibilidade e volatilidades associadas aos activos
que constituem o portfolio. Com efeito, a deciso sobre constituio de portfolio depender da
rendibilidade e da volatilidade futura dos activos financeiros que constituem o portfolio. Trata-se,
portanto, de um problema de previso que deve ser tratado, naturalmente, no mbito dos processos
estocsticos.
6. Referncias Bibliogrficas
1
At-Sahalia Y., (1996), Nonparametric Princing of Interest Rate Derivative Securities,
Econometrica, 64, 527-560.
At-Sahalia, Y. (2002), Maximum Likelihood Estimation of Discretely Sampled Diffusions: A Closed-
form Approximation Approach. Econometrica, 70(1), 223-262.
Amin and Ng, (1993), Option Valuation with Systematic Stochastic Volatility, Journal of Finance,
48(3), 881-910.
Andersen, T.G., T. Bollerslev, F.X. Diebold and H. Ebens, (2001), The distribution of realized stock
return volatility, Journal of Financial Economics, 61, 43-76.
Bachelier L. (1900), Thorie de la Spculation, thse de Mathmatique, Paris.
1
Lista de alguns artigos relevantes na rea dos processos estocsticos em finanas. Inclui tambm algumas publicaes
do autor na rea da Econometria Financeira.
30 B o l e t i m S P E
5.3 Gesto do Risco
A gesto do risco consiste, grosso modo, em identificar as fontes de risco e em medir, controlar e gerir
esse mesmo risco. Nesta rea, um conceito fundamental o Value at Risk ou VaR (como usualmente
conhecido na literatura). O VaR representa a perda que pode ocorrer num lapso de tempo determinado,
com uma certa probabilidade , supondo que o portfolio no gerido durante o perodo de anlise. Em
termos probabilsticos, o VaR o quantil de ordem da distribuio terica de ganhos e perdas. Estes
ganhos e perdas evoluem ao longo do tempo e, portanto, so susceptveis de serem modelados atravs
de processos estocsticos.
5.4 Eficincia dos Mercado Financeiros
Uma discusso j longa na literatura debate a eficincia dos mercados financeiros. O mercado de
capitais diz-se eficiente se os preos dos produtos financeiros reflectirem toda a informao disponvel.
Quando libertada uma informao relevante (por exemplo, um anncio de distribuio de dividendos
de valor superior ao esperado, um anncio de fuses ou aquisies, etc.) num mercado eficiente os
agentes reagem imediatamente comprando ou vendendo de acordo com a informao e os preos
ajustam-se imediatamente. Se o mercado eficiente o preo ajusta-se rapidamente e no h
oportunidades para a realizao de rendibilidades anormais. Neste caso, o retorno no previsvel e,
portanto, dever ser no autocorrelacionado. Naturalmente esta discusso faz-se no mbito de um
modelo probabilstico de processos estocsticos.
5.5 Gesto de Porfolios
Um problema importante em finanas o da seleco e constituio de portfolios de acordo com o
princpio geral da obteno da mxima rendibilidade com a menor volatilidade (risco) possvel.
Existem vrias abordagens para obter a rendibilidade e a volatilidade mas a mais conveniente e
adequada diz respeito s previses (temporais) de rendibilidade e volatilidades associadas aos activos
que constituem o portfolio. Com efeito, a deciso sobre constituio de portfolio depender da
rendibilidade e da volatilidade futura dos activos financeiros que constituem o portfolio. Trata-se,
portanto, de um problema de previso que deve ser tratado, naturalmente, no mbito dos processos
estocsticos.
6. Referncias Bibliogrficas
1
At-Sahalia Y., (1996), Nonparametric Princing of Interest Rate Derivative Securities,
Econometrica, 64, 527-560.
At-Sahalia, Y. (2002), Maximum Likelihood Estimation of Discretely Sampled Diffusions: A Closed-
form Approximation Approach. Econometrica, 70(1), 223-262.
Amin and Ng, (1993), Option Valuation with Systematic Stochastic Volatility, Journal of Finance,
48(3), 881-910.
Andersen, T.G., T. Bollerslev, F.X. Diebold and H. Ebens, (2001), The distribution of realized stock
return volatility, Journal of Financial Economics, 61, 43-76.
Bachelier L. (1900), Thorie de la Spculation, thse de Mathmatique, Paris.
1
Lista de alguns artigos relevantes na rea dos processos estocsticos em finanas. Inclui tambm algumas publicaes
do autor na rea da Econometria Financeira.
Barndorff-Nielsen, O.E. and N. Shephard (2006), Econometrics of testing for jumps in financial
economics using bipower variation, Journal of Financial Econometrics, 4, 1-30.
Bibby, B., and M. Sorensen (1995), Martingale Estimation Function for Discretely Observed
Diffusion Process, Bernoulli, 1, 17-39.
Black, F. and M. Scholes, (1973), The Pricing of Options and Corporate Liabilities, Journal of
Political Economy, 81, pp. 637-654.
Bollerslev, T. (1986), Generalized autoregressive conditional heteroscedasticity, Journal of
Econometrics 31, 307-327.
Bollerslev, T., R.Y. Chou and K.F. Kroner (1992) ARCH modeling in finance: a review of the theory
and empirical evidence, Journal of Econometrics, 52, 5-59.
Cox J.C., Ingersoll J.E., Ross S. A., (1985), A Theory of the Term Structure of Interest Rates,
Econometrica, 53, 385-407.
Danielsson J., (1994), Stochastic Volatility in Asset Prices - Estimation With Simulated Maximum
Likelihood, Journal of Econometrics, 64, 375-400.
Duffie D., (1988), Security Markets : Stochastic Models, Academic Press.
Engle R., (1982), Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of
United Kingdom Inflation, Econometrica, 50, 987-1008.
Engle R., (2001), GARCH101: The Use of ARCH/GARCH Models in Applied Econometrics,
Journal of Economic Perspectives, 15, 157-168
Engle, R. and Jeff Russell, (1998), Autoregressive Conditional Duration: A New Model for
Irregularly Spaced Transaction Data, Econometrica 66.
Eraker, B. (2001), MCMC Analysis of Diffusion Models With Application to Finance, Journal of
Business & Economic Statistics, 19, 177-191.
Fama, E. (1976), Forward Rates as Predictors of Future Spot Rates, Journal of Financial Economics,
361-77.
Gallant A., and G. Tauchen (1996), Which moments to match?, Econometric Theory, 12, 657-681.
Hansen L.P. (1982). Large Sample Properties of Generalized Methods of Moments, Econometrica,
50.
Hansen, L., and J. Scheinkman (1995): Back to the Future: Generating Moment Implications for
Continuous-Time Markov Processes, Econometrica, 63, 767-804.
Hull J, and A. White (1987), The Pricing of Options on Assets with Stochastic Volatilities, Journal
of Finance, 42, 281-300.
Jacquier, Polson, and Rossi (1994), Bayesian Analysis of Stochastic Volatility Models, Journal of
Business and Economic Statistics, 12,371-389
Kessler, M. (1997): Estimation of an Ergodic Diffusion from Discrete Observations, Scandinavian
Journal of Statistics, 24, 211- 229.
5.3 Gesto do Risco
A gesto do risco consiste, grosso modo, em identificar as fontes de risco e em medir, controlar e gerir
esse mesmo risco. Nesta rea, um conceito fundamental o Value at Risk ou VaR (como usualmente
conhecido na literatura). O VaR representa a perda que pode ocorrer num lapso de tempo determinado,
com uma certa probabilidade , supondo que o portfolio no gerido durante o perodo de anlise. Em
termos probabilsticos, o VaR o quantil de ordem da distribuio terica de ganhos e perdas. Estes
ganhos e perdas evoluem ao longo do tempo e, portanto, so susceptveis de serem modelados atravs
de processos estocsticos.
5.4 Eficincia dos Mercado Financeiros
Uma discusso j longa na literatura debate a eficincia dos mercados financeiros. O mercado de
capitais diz-se eficiente se os preos dos produtos financeiros reflectirem toda a informao disponvel.
Quando libertada uma informao relevante (por exemplo, um anncio de distribuio de dividendos
de valor superior ao esperado, um anncio de fuses ou aquisies, etc.) num mercado eficiente os
agentes reagem imediatamente comprando ou vendendo de acordo com a informao e os preos
ajustam-se imediatamente. Se o mercado eficiente o preo ajusta-se rapidamente e no h
oportunidades para a realizao de rendibilidades anormais. Neste caso, o retorno no previsvel e,
portanto, dever ser no autocorrelacionado. Naturalmente esta discusso faz-se no mbito de um
modelo probabilstico de processos estocsticos.
5.5 Gesto de Porfolios
Um problema importante em finanas o da seleco e constituio de portfolios de acordo com o
princpio geral da obteno da mxima rendibilidade com a menor volatilidade (risco) possvel.
Existem vrias abordagens para obter a rendibilidade e a volatilidade mas a mais conveniente e
adequada diz respeito s previses (temporais) de rendibilidade e volatilidades associadas aos activos
que constituem o portfolio. Com efeito, a deciso sobre constituio de portfolio depender da
rendibilidade e da volatilidade futura dos activos financeiros que constituem o portfolio. Trata-se,
portanto, de um problema de previso que deve ser tratado, naturalmente, no mbito dos processos
estocsticos.
6. Referncias Bibliogrficas
1
At-Sahalia Y., (1996), Nonparametric Princing of Interest Rate Derivative Securities,
Econometrica, 64, 527-560.
At-Sahalia, Y. (2002), Maximum Likelihood Estimation of Discretely Sampled Diffusions: A Closed-
form Approximation Approach. Econometrica, 70(1), 223-262.
Amin and Ng, (1993), Option Valuation with Systematic Stochastic Volatility, Journal of Finance,
48(3), 881-910.
Andersen, T.G., T. Bollerslev, F.X. Diebold and H. Ebens, (2001), The distribution of realized stock
return volatility, Journal of Financial Economics, 61, 43-76.
Bachelier L. (1900), Thorie de la Spculation, thse de Mathmatique, Paris.
1
Lista de alguns artigos relevantes na rea dos processos estocsticos em finanas. Inclui tambm algumas publicaes
do autor na rea da Econometria Financeira.
31 O u t o n o d e 2 0 0 9
Barndorff-Nielsen, O.E. and N. Shephard (2006), Econometrics of testing for jumps in financial
economics using bipower variation, Journal of Financial Econometrics, 4, 1-30.
Bibby, B., and M. Sorensen (1995), Martingale Estimation Function for Discretely Observed
Diffusion Process, Bernoulli, 1, 17-39.
Black, F. and M. Scholes, (1973), The Pricing of Options and Corporate Liabilities, Journal of
Political Economy, 81, pp. 637-654.
Bollerslev, T. (1986), Generalized autoregressive conditional heteroscedasticity, Journal of
Econometrics 31, 307-327.
Bollerslev, T., R.Y. Chou and K.F. Kroner (1992) ARCH modeling in finance: a review of the theory
and empirical evidence, Journal of Econometrics, 52, 5-59.
Cox J.C., Ingersoll J.E., Ross S. A., (1985), A Theory of the Term Structure of Interest Rates,
Econometrica, 53, 385-407.
Danielsson J., (1994), Stochastic Volatility in Asset Prices - Estimation With Simulated Maximum
Likelihood, Journal of Econometrics, 64, 375-400.
Duffie D., (1988), Security Markets : Stochastic Models, Academic Press.
Engle R., (1982), Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of
United Kingdom Inflation, Econometrica, 50, 987-1008.
Engle R., (2001), GARCH101: The Use of ARCH/GARCH Models in Applied Econometrics,
Journal of Economic Perspectives, 15, 157-168
Engle, R. and Jeff Russell, (1998), Autoregressive Conditional Duration: A New Model for
Irregularly Spaced Transaction Data, Econometrica 66.
Eraker, B. (2001), MCMC Analysis of Diffusion Models With Application to Finance, Journal of
Business & Economic Statistics, 19, 177-191.
Fama, E. (1976), Forward Rates as Predictors of Future Spot Rates, Journal of Financial Economics,
361-77.
Gallant A., and G. Tauchen (1996), Which moments to match?, Econometric Theory, 12, 657-681.
Hansen L.P. (1982). Large Sample Properties of Generalized Methods of Moments, Econometrica,
50.
Hansen, L., and J. Scheinkman (1995): Back to the Future: Generating Moment Implications for
Continuous-Time Markov Processes, Econometrica, 63, 767-804.
Hull J, and A. White (1987), The Pricing of Options on Assets with Stochastic Volatilities, Journal
of Finance, 42, 281-300.
Jacquier, Polson, and Rossi (1994), Bayesian Analysis of Stochastic Volatility Models, Journal of
Business and Economic Statistics, 12,371-389
Kessler, M. (1997): Estimation of an Ergodic Diffusion from Discrete Observations, Scandinavian
Journal of Statistics, 24, 211- 229.
Lintner J. (1965), The valuation of risk assets and the selection of risky investments in stock
portfolios and capital budgets, Review of Economics and Statistics, 47, 13-37.
Lo, A. (1988): Maximum likelihood estimation of generalized Ito processes with discretely sampled
data, Econometric Theory, 4, 231--247.
Marakowitz H. (1952), Portfolio selection, Journal of Finance, 7, 77-91.
Merton R.C., 1990, Continuous Time Finance, Cambridge, M.A. Blackwell.
Merton, R.C., 1973, Theory of Rational Option Pricing, Bell Journal of Economics and
Management Science, 4, 141-183.
Nelson D.B., (1990a), ARCH Models as Diffusion Approximations, Journal of Econometrics, 45, 7-
38.
Nelson D.B., (1991), Conditional Heteroskedasticity in Asset Returns: A New Approach,
Econometrica, 59.
Nicolau, J. (2002) New Technique for Simulating the Likelihood of Stochastic Differential
Equations, The Econometrics Journal, 5, 2002.
Nicolau, J. (2002) Stationary Processes that Look Like Random Walks -- the Bounded Random Walk
Process in Discrete and Continuous Time, Econometric Theory, 18.
Nicolau, J. (2003) Bias Reduction in Nonparametric Diffusion Coefficient Estimation, Econometric
Theory, 19.
Nicolau, J. (2005), Processes with Volatility-Induced Stationarity. An Application for Interest Rates,
Statistica Neerlandica, 59, 376-396.
Nicolau, J. (2005). A Method for Simulating Non-Linear Stochastic Differential Equations in R1.
Journal of Statistical Computation and Simulation, 75, 595-609.
Nicolau, J. (2007), A Discrete and a Continuous-Time Model Based on a Technical Trading Rule,
Journal of Financial Econometrics, 5, 266-284.
Nicolau, J. (2007), Non-Parametric Estimation of Second Order Stochastic Difference Equations,
Econometric Theory, 23.
Nicolau, J. (2008), Modeling Financial Time Series Through Second Order Stochastic Differential
Equations, Statistics and Probability Letters, 75, 595-609.
Pedersen, A. (1995), A new approach to maximum likelihood estimation for stochastic differential
equations based on discrete observations, Scandinavian Journal of Statistics, 22, 55-71.
Sharpe W. (1963), A simplified model for portfolio analysis, Management Science, 9, 277-93.
Sharpe W. (1964), Capital asset prices: a theory of market equilibrium under conditions of risk,
Journal of Finance, 19.
Srensen M., (1995), Martingale Estimation Function for Discretely Observed Diffusion Process,
Bernoulli, 1.
Taylor S.J. (2008), Modelling Financial Time Series, Second Edition, John Wiley & Sons.
32 B o l e t i m S P E
Yoshida, N. (1992), "Estimation for Diffusion Processes from Discrete Observations", Journal of
Multivariate Analysis 41, 220-242.
Lintner J. (1965), The valuation of risk assets and the selection of risky investments in stock
portfolios and capital budgets, Review of Economics and Statistics, 47, 13-37.
Lo, A. (1988): Maximum likelihood estimation of generalized Ito processes with discretely sampled
data, Econometric Theory, 4, 231--247.
Marakowitz H. (1952), Portfolio selection, Journal of Finance, 7, 77-91.
Merton R.C., 1990, Continuous Time Finance, Cambridge, M.A. Blackwell.
Merton, R.C., 1973, Theory of Rational Option Pricing, Bell Journal of Economics and
Management Science, 4, 141-183.
Nelson D.B., (1990a), ARCH Models as Diffusion Approximations, Journal of Econometrics, 45, 7-
38.
Nelson D.B., (1991), Conditional Heteroskedasticity in Asset Returns: A New Approach,
Econometrica, 59.
Nicolau, J. (2002) New Technique for Simulating the Likelihood of Stochastic Differential
Equations, The Econometrics Journal, 5, 2002.
Nicolau, J. (2002) Stationary Processes that Look Like Random Walks -- the Bounded Random Walk
Process in Discrete and Continuous Time, Econometric Theory, 18.
Nicolau, J. (2003) Bias Reduction in Nonparametric Diffusion Coefficient Estimation, Econometric
Theory, 19.
Nicolau, J. (2005), Processes with Volatility-Induced Stationarity. An Application for Interest Rates,
Statistica Neerlandica, 59, 376-396.
Nicolau, J. (2005). A Method for Simulating Non-Linear Stochastic Differential Equations in R1.
Journal of Statistical Computation and Simulation, 75, 595-609.
Nicolau, J. (2007), A Discrete and a Continuous-Time Model Based on a Technical Trading Rule,
Journal of Financial Econometrics, 5, 266-284.
Nicolau, J. (2007), Non-Parametric Estimation of Second Order Stochastic Difference Equations,
Econometric Theory, 23.
Nicolau, J. (2008), Modeling Financial Time Series Through Second Order Stochastic Differential
Equations, Statistics and Probability Letters, 75, 595-609.
Pedersen, A. (1995), A new approach to maximum likelihood estimation for stochastic differential
equations based on discrete observations, Scandinavian Journal of Statistics, 22, 55-71.
Sharpe W. (1963), A simplified model for portfolio analysis, Management Science, 9, 277-93.
Sharpe W. (1964), Capital asset prices: a theory of market equilibrium under conditions of risk,
Journal of Finance, 19.
Srensen M., (1995), Martingale Estimation Function for Discretely Observed Diffusion Process,
Bernoulli, 1.
Taylor S.J. (2008), Modelling Financial Time Series, Second Edition, John Wiley & Sons.
33 O u t o n o d e 2 0 0 9
O Bootstrap para Estatsticas HAC e os seus Competidores
Slvia Gonalves, silvia.goncalves@umontreal.ca
Universit de Montral, Canada
O Bootstrap para Estatsticas HAC e os seus Competidores
Slvia Gonalves
Universit de Montral, Canada
1. Introduo
O bootstrap um mtodo de inferncia que pode ser utilizado para estimar a funo de distribuio (ou
funcionais dela, tais como a mdia ou a varincia) de um determinado estimador ou estatstica de teste. A
ideia subjacente ao bootstrap muito simples: tratam-se os dados disponveis como sendo a populao
para realizar a inferncia.
Desde a sua introduo por Efron em 1979, o bootstrap tornou-se muito popular em econometria. Uma das
razes da sua popularidade a sua simplicidade. Por exemplo, o bootstrap tornou-se num dos mtodos
padro para a obteno de erros padres de estimadores complicados quando as suas varincias
assimptticas so desconhecidas ou difceis de derivar. Dado que o poder computacional melhorou
substancialmente ao longo do tempo, o bootstrap tornou-se numa alternativa relativamente barata a
mtodos de inferncia mais complicados baseados em derivaes assimptticas. A outra razo pela qual o
bootstrap um mtodo de inferncia popular prende-se com o facto deste ter um desempenho melhor em
amostras finitas do que outros mtodos alternativos baseados em aproximaes assimptticas de primeira
ordem, reduzindo substancialmente as distores de amostras finitas associadas a estas aproximaes.
O objectivo deste artigo discutir o bootstrap para dados dependentes no contexto de estatsticas t
baseadas em estimadores de varincia consistentes heteroscedasticidade e autocorrelao (designados
na literatura por HAC). Este um exemplo bem conhecido em que a distribuio normal assimpttica de
primeira ordem convencional nos d uma fraca aproximao distribuio de amostras finitas da
estatstica de interesse. Estimadores HAC dependem de dois importantes parmetros de afinao: a janela
do ponderador (kernel) e o parmetro relativo largura de banda (bandwidth). A escolha destes
parmetros importante em amostras finitas, mas no captada pelas aproximaes da normal padro.
Uma aproximao assimpttica alternativa foi recentemente proposta por Kiefer e Vogelsang (2005),
onde o parmetro relativo largura de banda modelizado como uma proporo fixa do tamanho da
amostra. Esta nova teoria assimpttica capta a escolha da largura de banda e da funo ponderadora e
consequentemente tem um melhor desempenho em amostras finitas. O bootstrap em bloco oferece outra
aproximao. Neste artigo, revem-se estas aproximaes e discute-se o seu desempenho em amostras
finitas, tendo por base o trabalho de Gonalves e Vogelsang (2009). Para simplificar a exposio, iremos
focar-nos na mdia amostral. Primeiro, na Seco 2, revem-se algumas propriedades do bootstrap i.i.d.
quando aplicado a dados i.i.d. Na Seco 3, discutem-se as razes que justificam a falha do bootstrap i.i.d.
quando os dados so dependentes. A Seco 4 rev o mtodo do bootstrap em bloco e os seus
competidores no contexto de sries cronolgicas. A Seco 5 conclui.
2. O bootstrap i.i.d. para a mdia amostral de dados i.i.d.
Suponha que {X
t
: t=1,,n} representa uma amostra identicamente e independentemente distribuda
(i.i.d.) de uma populao F, de mdia e varincia y(u). O estimador de a mdia amostral
p
n
= X
n
= n
-1
X
t
n
t=1
= f(A
n
)
onde
n
=(X
1
, ,X
n
). Suponha que o objectivo estimar a varincia de p . Neste contexto i.i.d. simples,
o
2
Ior(np ) = y(u). (1)
Um estimador padro
o
2
Ior
- X
n
)
2 n
=1
, (2)
que corresponde varincia amostral de
n
.
Se F fosse conhecido, poderamos aproximar a varincia de p arbitrariamente bem atravs da
aleatorizao de Monte Carlo. Poderamos gerar muitas amostras aleatrias de F e calcular a varincia
amostral sobre as replicaes de Monte Carlo de p como aproximao da verdadeira varincia da
populao dada por (1). O problema que no se conhece F. O bootstrap simplesmente substitui F por F
`
,
uma estimativa de F, e depois gera amostras aleatrias de F
`
. Em particular, o bootstrap no paramtrico
proposto por Efron (1979) consiste em gerar amostras i.i.d. dos dados originais
n
, o que corresponde a
considerar F
`
a funo de distribuio emprica.
Considere
*
n
= (X
*
1
, ,X
*
n
) uma amostra bootstrap i.i.d de
n
. Uma forma conveniente de escrever as
observaes bootstrap X
*
t
= X
t
, onde
t
um valor i.i.d. de uma distribuio uniforme sobre {1, , n}
. Considere P* (E* e Var*) a medida de probabilidade induzida pelo bootstrap (valor esperado bootstrap e
varincia bootstrap), condicional aos dados. Podemos avaliar a estatstica de interesse sobre
*
n
e obter
p
-
= n
-1
X
t
- n
t=1
= f(A
n
-
) que o anlogo bootstrap de p . Obtm-se que
E
-
(p
-
) =
1
n
E
-
(X
t
-
)
n
t=1
=
1
n
(X
t
)
n
t=1
p . (3)
Em particular, E
-
(X
t
-
) = E
-
(X
1
-
) =
1
n
X
t
n
t=1
, onde a primeira igualdade verificada porque as
observaes bootstrap so identicamente distribudas (logo, os seus momentos no se alteram com t) e a
segunda igualdade verifica-se dado que cada observao em _
n
tem a probabilidade
1
n
de ser escolhida
para a amostra bootstrap. De igual modo, podemos mostrar que
o
-2
Ior
-
(np
-
) = y(u) onJc y(u) =
1
n
(X
t
-X
n
)
2 n
t=1
. (4)
Se compararmos (4) com (2), podemos observar que ambos so muito prximos. A diferena que a
varincia do bootstrap se baseia em y(u), enquanto que a varincia habitual se baseia em y(u), que
utiliza um factor de ajustamento dos graus de liberdade.
Para o caso especial da media amostral, a varincia bootstrap uma expresso fechada conhecida dos
dados originais dada por (4). Logo, no necessitamos de recorrer a mtodos de simulao de Monte Carlo
para a aproximar. No entanto, nem sempre assim. Para estatsticas mais complicadas (por exemplo,
qualquer funo no linear de p ), a forma fechada do estimador da varincia bootstrap no conhecida, e
nestes casos dever ser aproximado atravs de simulaes de Monte Carlo.
Dado (2) e (4), a consistncia do estimador da varincia bootstrap obtm-se sob os pressupostos habituais
que garantem a consistncia da varincia amostral para a varincia da populao. Isto justifica a utilizao
do bootstrap para estimar a varincia de p . No entanto, o bootstrap uma ferramenta muito mais
34 B o l e t i m S P E
2. O bootstrap i.i.d. para a mdia amostral de dados i.i.d.
Suponha que {X
t
: t=1,,n} representa uma amostra identicamente e independentemente distribuda
(i.i.d.) de uma populao F, de mdia e varincia y(u). O estimador de a mdia amostral
p
n
= X
n
= n
-1
X
t
n
t=1
= f(A
n
)
onde
n
=(X
1
, ,X
n
). Suponha que o objectivo estimar a varincia de p . Neste contexto i.i.d. simples,
o
2
Ior(np ) = y(u). (1)
Um estimador padro
o
2
Ior
- X
n
)
2 n
=1
, (2)
que corresponde varincia amostral de
n
.
Se F fosse conhecido, poderamos aproximar a varincia de p arbitrariamente bem atravs da
aleatorizao de Monte Carlo. Poderamos gerar muitas amostras aleatrias de F e calcular a varincia
amostral sobre as replicaes de Monte Carlo de p como aproximao da verdadeira varincia da
populao dada por (1). O problema que no se conhece F. O bootstrap simplesmente substitui F por F
`
,
uma estimativa de F, e depois gera amostras aleatrias de F
`
. Em particular, o bootstrap no paramtrico
proposto por Efron (1979) consiste em gerar amostras i.i.d. dos dados originais
n
, o que corresponde a
considerar F
`
a funo de distribuio emprica.
Considere
*
n
= (X
*
1
, ,X
*
n
) uma amostra bootstrap i.i.d de
n
. Uma forma conveniente de escrever as
observaes bootstrap X
*
t
= X
t
, onde
t
um valor i.i.d. de uma distribuio uniforme sobre {1, , n}
. Considere P* (E* e Var*) a medida de probabilidade induzida pelo bootstrap (valor esperado bootstrap e
varincia bootstrap), condicional aos dados. Podemos avaliar a estatstica de interesse sobre
*
n
e obter
p
-
= n
-1
X
t
- n
t=1
= f(A
n
-
) que o anlogo bootstrap de p . Obtm-se que
E
-
(p
-
) =
1
n
E
-
(X
t
-
)
n
t=1
=
1
n
(X
t
)
n
t=1
p . (3)
Em particular, E
-
(X
t
-
) = E
-
(X
1
-
) =
1
n
X
t
n
t=1
, onde a primeira igualdade verificada porque as
observaes bootstrap so identicamente distribudas (logo, os seus momentos no se alteram com t) e a
segunda igualdade verifica-se dado que cada observao em _
n
tem a probabilidade
1
n
de ser escolhida
para a amostra bootstrap. De igual modo, podemos mostrar que
o
-2
Ior
-
(np
-
) = y(u) onJc y(u) =
1
n
(X
t
-X
n
)
2 n
t=1
. (4)
Se compararmos (4) com (2), podemos observar que ambos so muito prximos. A diferena que a
varincia do bootstrap se baseia em y(u), enquanto que a varincia habitual se baseia em y(u), que
utiliza um factor de ajustamento dos graus de liberdade.
Para o caso especial da media amostral, a varincia bootstrap uma expresso fechada conhecida dos
dados originais dada por (4). Logo, no necessitamos de recorrer a mtodos de simulao de Monte Carlo
para a aproximar. No entanto, nem sempre assim. Para estatsticas mais complicadas (por exemplo,
qualquer funo no linear de p ), a forma fechada do estimador da varincia bootstrap no conhecida, e
nestes casos dever ser aproximado atravs de simulaes de Monte Carlo.
Dado (2) e (4), a consistncia do estimador da varincia bootstrap obtm-se sob os pressupostos habituais
que garantem a consistncia da varincia amostral para a varincia da populao. Isto justifica a utilizao
do bootstrap para estimar a varincia de p . No entanto, o bootstrap uma ferramenta muito mais
poderosa: permite-nos aproximar toda a distribuio de p . De facto, a teoria das expanses Edgeworth
(e.g. Hall, 1992) sugere que se o objectivo for realizar um teste de hipteses ou construir um intervalo de
confiana para , devemos utilizar o bootstrap para estimar os quantis de uma estatstica devidamente
studentized (cuja distribuio limite livre de parmetros perturbadores) de forma a obter-se um
refinamento assimpttico sobre a distribuio assimpttica padro de primeira ordem. De seguida
discute-se a aplicao do bootstrap para estimar a funo de distribuio de uma estatstica t.
Considere
t
n
.
A distribuio em amostras finitas de t s conhecida se considerarmos pressupostos distribuicionais
fortes. A abordagem padro baseia-se na sua aproximao recorrendo teoria assimpttica de primeira
ordem. Em particular, sob condies mais ligeiras, o teorema do limite central implica que t
d
- N(u,1), o
que justifica a utilizao dos quantis da distribuio N(0,1) para efeitos de inferncia.
Uma alternativa distribuio normal padro utilizar-se o bootstrap para estimar os quantis de t.
Considere t
*
o anlogo bootstrap de t:
t
,
onde p
-
, p e o
-
, so os anlogos bootstrap de p , e o, respectivamente. Em particular, o
-2
dado
pela expresso (2) mas avaliado com dados bootstrap A
n
-
em vez de A
n
. O anlogo bootstrap de p p
dado que a media amostral bootstrap p
-
centrada em p , i.e. E
-
(p
-
) = p , como demonstrado em (3).
Sob condies de regularidade fracas (veja e.g. Bickel e Freedman, 1981) podemos mostrar que o
boostrap assimptoticamente correcto de primeira ordem, i.e.
sup
xeR
|P
-
(t
-
x) -P(t x)|
p
-u, com n - . (5)
Logo, podemos utilizar os quantis empricos da distribuio bootstrap de t
-
para aproximar os quantis da
distribuio de t. Neste contexto i.i.d., podemos fortalecer (5) mostrando que o erro implcito na
aproximao bootstrap converge para zero a uma taxa mais rpida do que o erro implcito na aproximao
normal (veja Hall, 1992, Captulo 3). Isto conhecido na literatura sobre bootstrap como refinamento
assimpttico do bootstrap.
3. A falha do bootstrap em dados dependentes
Suponha agora que {X
t
: t=1,,n} uma amostra de n observaes obtidas de um processo de sries
cronolgicas estritamente estacionrio {X
t
: t e L]. Considere tambm que {X
t
: t e L] fracamente
dependente no sentido em que {X
t
: t u] e {X
t
: t k] se tornam assimptoticamente independentes
com k - . A mdia amostral p continua a ser um estimador consistente de p = E(X
t
) mas a sua
varincia j no dada por (1). De facto, neste caso,
o
2
Ior(np ) = y(u) + 2 [1 -
:
n
y()
n
:=1
, (6)
onde y() = Co:(X
t
X
t+:
), para qualquer = u,1, . Note que y(u) = Ior(X
t
).
35 O u t o n o d e 2 0 0 9
poderosa: permite-nos aproximar toda a distribuio de p . De facto, a teoria das expanses Edgeworth
(e.g. Hall, 1992) sugere que se o objectivo for realizar um teste de hipteses ou construir um intervalo de
confiana para , devemos utilizar o bootstrap para estimar os quantis de uma estatstica devidamente
studentized (cuja distribuio limite livre de parmetros perturbadores) de forma a obter-se um
refinamento assimpttico sobre a distribuio assimpttica padro de primeira ordem. De seguida
discute-se a aplicao do bootstrap para estimar a funo de distribuio de uma estatstica t.
Considere
t
n
.
A distribuio em amostras finitas de t s conhecida se considerarmos pressupostos distribuicionais
fortes. A abordagem padro baseia-se na sua aproximao recorrendo teoria assimpttica de primeira
ordem. Em particular, sob condies mais ligeiras, o teorema do limite central implica que t
d
- N(u,1), o
que justifica a utilizao dos quantis da distribuio N(0,1) para efeitos de inferncia.
Uma alternativa distribuio normal padro utilizar-se o bootstrap para estimar os quantis de t.
Considere t
*
o anlogo bootstrap de t:
t
,
onde p
-
, p e o
-
, so os anlogos bootstrap de p , e o, respectivamente. Em particular, o
-2
dado
pela expresso (2) mas avaliado com dados bootstrap A
n
-
em vez de A
n
. O anlogo bootstrap de p p
dado que a media amostral bootstrap p
-
centrada em p , i.e. E
-
(p
-
) = p , como demonstrado em (3).
Sob condies de regularidade fracas (veja e.g. Bickel e Freedman, 1981) podemos mostrar que o
boostrap assimptoticamente correcto de primeira ordem, i.e.
sup
xeR
|P
-
(t
-
x) -P(t x)|
p
-u, com n - . (5)
Logo, podemos utilizar os quantis empricos da distribuio bootstrap de t
-
para aproximar os quantis da
distribuio de t. Neste contexto i.i.d., podemos fortalecer (5) mostrando que o erro implcito na
aproximao bootstrap converge para zero a uma taxa mais rpida do que o erro implcito na aproximao
normal (veja Hall, 1992, Captulo 3). Isto conhecido na literatura sobre bootstrap como refinamento
assimpttico do bootstrap.
3. A falha do bootstrap em dados dependentes
Suponha agora que {X
t
: t=1,,n} uma amostra de n observaes obtidas de um processo de sries
cronolgicas estritamente estacionrio {X
t
: t e L]. Considere tambm que {X
t
: t e L] fracamente
dependente no sentido em que {X
t
: t u] e {X
t
: t k] se tornam assimptoticamente independentes
com k - . A mdia amostral p continua a ser um estimador consistente de p = E(X
t
) mas a sua
varincia j no dada por (1). De facto, neste caso,
o
2
Ior(np ) = y(u) + 2 [1 -
:
n
y()
n
:=1
, (6)
onde y() = Co:(X
t
X
t+:
), para qualquer = u,1, . Note que y(u) = Ior(X
t
).
A varincia dada em (6) conhecida na literatura economtrica como a varincia de longo prazo. A
presena em (6) das autocovarincias y() complica substancialmente o problema da estimao das
varincias. Tambm origina problemas para o bootstrap i.i.d., como foi observado por Singh (1981).
Considere uma amostra bootstrap A
n
-
= {X
t
-
: t = 1, , n] de A
n
= {X
t
: t = 1, , n] utilizando o
bootstrap i.i.d. de Efron (1979). Condicional sobre A
n
, X
t
-
i.i.d. para qualquer t=1, , n, implicando
que a estrutura de dependncia do conjunto dos dados originais perdida. Em particular, o
-2
, a varincia
bootstrap de np
-
, ainda dada por (4). Dado que o
-2
p
-y(u), esta no considera as autocovarincias
y() em (6). Isto implica que o bootstrap i.i.d. no pode ser utilizado para estimar a varincia nem os
quantis da distribuio de n(p - p). Como iremos ver abaixo, o bootstrap i.i.d. ainda pode ser
utilizado para estimar os quantis da estatstica t studentized.
4. O bootstrap em bloco e aproximaes assimptticas relacionadas
A falha do bootstrap i.i.d. no contexto de series cronolgicas motivou o desenvolvimento de mtodos
bootstrap alternativos para dados dependentes. Nesta seco, analisarei um desses mtodos, o bootstrap de
blocos mveis (MBB) (cf., Gtze e Knsch, 1989 e Liu e Singh, 1992), e discutirei como que ele se
relaciona com mtodos de inferncia alternativos que se baseiam em teoria assimpttica de primeira
ordem.
Estatsticas Studentized baseadas em erros padro HAC
Sob condies de regularidade bem conhecidas (veja e.g. Newey e West, 1987 e Andrews, 1991), um
estimador consistente da varincia de longo-prazo, o
2
, em (6) o estimador da varincia HAC. Este tem
a seguinte forma geral
o
HAC
2
= y(u) +2 k [
:
n
y()
n
:=1
, (7)
onde k(x) uma funo ponderadora tal que k(x) = k(-x), k(u) = 1, |k(x)| 1, k(x) contnuo em
x = 0, e ] k
2
(x)
-
< . Aqui, y() = n
-1
(X
t
-X
n
)(X
t-:
- X
n
)
n
t=:+1
so as autocovarincias
amostrais relativas ao desfasamento de {X
t
}. M o parmetro relativo largura de banda, que pode
funcionar como o desfasamento de truncagem para os ponderadores de modo que k(x) = u para
|x| > 1. O ponderador de Bartlett utilizado no popular estimador HAC proposto por Newey-West (1987)
um exemplo.
Uma estatstica studentized baseada em erros padro HAC dada por
t
HAC
n
HAC
.
Tal como no contexto i.i.d. puro, a distribuio desta estatstica t no conhecida em amostras finitas.
Logo, para efeitos de inferncia temos que a aproximar.
36 B o l e t i m S P E
A varincia dada em (6) conhecida na literatura economtrica como a varincia de longo prazo. A
presena em (6) das autocovarincias y() complica substancialmente o problema da estimao das
varincias. Tambm origina problemas para o bootstrap i.i.d., como foi observado por Singh (1981).
Considere uma amostra bootstrap A
n
-
= {X
t
-
: t = 1, , n] de A
n
= {X
t
: t = 1, , n] utilizando o
bootstrap i.i.d. de Efron (1979). Condicional sobre A
n
, X
t
-
i.i.d. para qualquer t=1, , n, implicando
que a estrutura de dependncia do conjunto dos dados originais perdida. Em particular, o
-2
, a varincia
bootstrap de np
-
, ainda dada por (4). Dado que o
-2
p
-y(u), esta no considera as autocovarincias
y() em (6). Isto implica que o bootstrap i.i.d. no pode ser utilizado para estimar a varincia nem os
quantis da distribuio de n(p - p). Como iremos ver abaixo, o bootstrap i.i.d. ainda pode ser
utilizado para estimar os quantis da estatstica t studentized.
4. O bootstrap em bloco e aproximaes assimptticas relacionadas
A falha do bootstrap i.i.d. no contexto de series cronolgicas motivou o desenvolvimento de mtodos
bootstrap alternativos para dados dependentes. Nesta seco, analisarei um desses mtodos, o bootstrap de
blocos mveis (MBB) (cf., Gtze e Knsch, 1989 e Liu e Singh, 1992), e discutirei como que ele se
relaciona com mtodos de inferncia alternativos que se baseiam em teoria assimpttica de primeira
ordem.
Estatsticas Studentized baseadas em erros padro HAC
Sob condies de regularidade bem conhecidas (veja e.g. Newey e West, 1987 e Andrews, 1991), um
estimador consistente da varincia de longo-prazo, o
2
, em (6) o estimador da varincia HAC. Este tem
a seguinte forma geral
o
HAC
2
= y(u) +2 k [
:
n
y()
n
:=1
, (7)
onde k(x) uma funo ponderadora tal que k(x) = k(-x), k(u) = 1, |k(x)| 1, k(x) contnuo em
x = 0, e ] k
2
(x)
-
< . Aqui, y() = n
-1
(X
t
-X
n
)(X
t-:
- X
n
)
n
t=:+1
so as autocovarincias
amostrais relativas ao desfasamento de {X
t
}. M o parmetro relativo largura de banda, que pode
funcionar como o desfasamento de truncagem para os ponderadores de modo que k(x) = u para
|x| > 1. O ponderador de Bartlett utilizado no popular estimador HAC proposto por Newey-West (1987)
um exemplo.
Uma estatstica studentized baseada em erros padro HAC dada por
t
HAC
n
HAC
.
Tal como no contexto i.i.d. puro, a distribuio desta estatstica t no conhecida em amostras finitas.
Logo, para efeitos de inferncia temos que a aproximar.
A aproximao assimpttica da normal padro
Suponha que o
HAC
2
um estimador consistente de o
2
, que requer que H - medida que n - , mas
Hn - u . Sob estas condies, t
HAC
d
-N(u,1) . Dado que a aproximao normal se baseia na
consistncia de o
HAC
2
para o
HAC
2
obtm-se a mesma distribuio limite normal padro
independentemente do ponderador ou do parmetro relativo largura de banda utilizado. Como estas
escolhas tm impacto em amostras finitas, a aproximao normal padro tem um mau desempenho em
amostras finitas.
A aproximao assimpttica com b-fixo
Uma aproximao alternativa para o
HAC
2
foi proposta por Kiefer e Vogelsang (2005). Suponha que a
largura de banda modelada da seguinte forma M = bT, com b uma constante fixa em (0, 1]. Dado que b
mantido fixo, esta abordagem tem sido designada por abordagem assimpttica com b-fixo. Sob a
abordagem assimpttica com b-fixo, o
HAC
2
converge para uma varivel aleatria (e no para uma
constante) que depende do ponderador e da largura de banda. Como consequncia, t
HAC
tem uma
distribuio no convencional. Esta distribuio limite til para inferncia dado que reflecte a escolha da
largura de banda e do ponderador e assimptoticamente pivotal (i.e. independente de parmetros
perturbadores) e os valores crticos podem ser tabulados. Por exemplo, sob condies de regularidade
adequadas, Kiefer e Vogelsang (2005) mostraram que
t
HAC
d
W1
Qb
,
onde W(r) um processo padro de Wiener e Q(b) uma varivel aleatria que depende do ponderador
utilizado.
Dado que a aproximao com b-fixo reflecte a escolha de b e a funo ponderadora (atravs da forma de
Q(b)), esperado que tenha melhor desempenho em amostras finitas do que a aproximao N(0,1). Isto foi
confirmado teoricamente e por simulao.
A aproximao bootstrap em bloco
A ideia subjacente ao bootstrap em bloco a de reamostragem dos blocos de observaes consecutivas em
vez de observaes individuais. Desta forma, preservamos a estrutura de dependncia dos dados originais
em cada bloco e, desde que as observaes sejam fracamente dependentes, a independncia entre blocos
em termos assimptticos de primeira ordem irrelevante. Para descrever o MBB, considere que l denota o
tamanho do bloco e k o nmero de blocos. Suponha para simplificar que k = n/ l. Considere B
t,
=
{X
t
, X
t+1
, , X
t+-1
] o bloco de l observaes consecutivas com incio em t (note que l = 1 corresponde
ao bootstrap i.i.d. de Efron). O MBB procede reamostragem de k blocos aleatoriamente com reposio
do conjunto de n l +1 blocos que se sobrepem |B
1,
, B
2,
, , B
n-+1,
|. Assumindo que I
1
, , I
k
so
variveis aleatrias i.i.d distribudas uniformemente em {1, , n - l - 1} , temos que |X
t
-
= X
:
t
: t =
1, , n] onde
t
define um ndice aleatrio dado por {
t
] = {I
1
, , I
1+-1
, , I
k
, , I
k+-1
].
37 O u t o n o d e 2 0 0 9
A aproximao assimpttica da normal padro
Suponha que o
HAC
2
um estimador consistente de o
2
, que requer que H - medida que n - , mas
Hn - u . Sob estas condies, t
HAC
d
-N(u,1) . Dado que a aproximao normal se baseia na
consistncia de o
HAC
2
para o
HAC
2
obtm-se a mesma distribuio limite normal padro
independentemente do ponderador ou do parmetro relativo largura de banda utilizado. Como estas
escolhas tm impacto em amostras finitas, a aproximao normal padro tem um mau desempenho em
amostras finitas.
A aproximao assimpttica com b-fixo
Uma aproximao alternativa para o
HAC
2
foi proposta por Kiefer e Vogelsang (2005). Suponha que a
largura de banda modelada da seguinte forma M = bT, com b uma constante fixa em (0, 1]. Dado que b
mantido fixo, esta abordagem tem sido designada por abordagem assimpttica com b-fixo. Sob a
abordagem assimpttica com b-fixo, o
HAC
2
converge para uma varivel aleatria (e no para uma
constante) que depende do ponderador e da largura de banda. Como consequncia, t
HAC
tem uma
distribuio no convencional. Esta distribuio limite til para inferncia dado que reflecte a escolha da
largura de banda e do ponderador e assimptoticamente pivotal (i.e. independente de parmetros
perturbadores) e os valores crticos podem ser tabulados. Por exemplo, sob condies de regularidade
adequadas, Kiefer e Vogelsang (2005) mostraram que
t
HAC
d
W1
Qb
,
onde W(r) um processo padro de Wiener e Q(b) uma varivel aleatria que depende do ponderador
utilizado.
Dado que a aproximao com b-fixo reflecte a escolha de b e a funo ponderadora (atravs da forma de
Q(b)), esperado que tenha melhor desempenho em amostras finitas do que a aproximao N(0,1). Isto foi
confirmado teoricamente e por simulao.
A aproximao bootstrap em bloco
A ideia subjacente ao bootstrap em bloco a de reamostragem dos blocos de observaes consecutivas em
vez de observaes individuais. Desta forma, preservamos a estrutura de dependncia dos dados originais
em cada bloco e, desde que as observaes sejam fracamente dependentes, a independncia entre blocos
em termos assimptticos de primeira ordem irrelevante. Para descrever o MBB, considere que l denota o
tamanho do bloco e k o nmero de blocos. Suponha para simplificar que k = n/ l. Considere B
t,
=
{X
t
, X
t+1
, , X
t+-1
] o bloco de l observaes consecutivas com incio em t (note que l = 1 corresponde
ao bootstrap i.i.d. de Efron). O MBB procede reamostragem de k blocos aleatoriamente com reposio
do conjunto de n l +1 blocos que se sobrepem |B
1,
, B
2,
, , B
n-+1,
|. Assumindo que I
1
, , I
k
so
variveis aleatrias i.i.d distribudas uniformemente em {1, , n - l - 1} , temos que |X
t
-
= X
:
t
: t =
1, , n] onde
t
define um ndice aleatrio dado por {
t
] = {I
1
, , I
1+-1
, , I
k
, , I
k+-1
].
Como no caso i.i.d., para o MBB tambm existe uma expresso fechada para o
-2
= Ior
-
(np
-
). No
entanto, e contrariamente a (4) para o bootstrap i.i.d., a expresso para a varincia de MBB contem termos
que dependem da funo de autocovarincias da amostra. De facto, podemos demonstrar que a varincia
MBB assimptoticamente equivalente de um estimador HAC baseado num ponderador de Bartlett.
Logo, a varincia de MBB um estimador consistente da varincia de longo-prazo.
Para obter uma aproximao distribuio de t
HAC
atravs do bootstrap em bloco, temos que construir
uma estatstica bootstrap studentized. Vrias escolhas existem na literatura, dependendo da escolha do
estimador da varincia bootstrap o
-2
.
Um abordagem natural consiste simplesmente em substituir os dados bootstrap pelos dados originais nas
formulas utilizadas para construir a estatstica t original. Em particular, constri-se,
t
-
=
n(
-
-)
c
HAC
-
, (8)
onde o
HAC
-
dado por (7), mas avaliado sobre os dados bootstrap {X
t
-
].
1
Uma comparao das diferentes aproximaes
De seguida ilustramos o desempenho em amostras pequenas das diferentes aproximaes com base em
alguns resultados de Monte Carlo obtidos por Gonalves e Vogelsang (2009). Suponha que X
t
= +
t
,
onde = 0 e
t
=
t-1
+ (1
2
)
1/2
u
t
, com {u
t
}i.i.d.N(0,1),
1
=0 e {0, 0.5, 0.9}. O objectivo testar H
0
:
0 contra H
1
: > 0 a um nvel de significncia de 5% utilizando t
HAC
. So geradas 10000 amostras
aleatrias de tamanho n = 50. Rejeitamos a hiptese nula sempre que t
HAC
> t
c
, onde t
c
o valor crtico
obtido com base em cada um dos trs mtodos discutidos anteriormente. O MBB baseia-se em 999
replicaes bootstrap e consideramos l = 1 e l = 5. A Figura 1 apresenta as verdadeiras taxas de rejeio
para 25 valores de M. Podemos sumariar os resultados da seguinte forma. Em primeiro lugar, a
aproximao com b-fixo domina a aproximao N(0,1). Em segundo lugar, o bootstrap i.i.d. aplicado a t*
segue quase exactamente a aproximao assimpttica com b-fixo. Logo, assimptoticamente vlido
mesmo quando os dados so dependentes. Isto deve-se ao facto da distribuio assimpttica de t
HAC
no
depender da estrutura de dependncia dos dados. Por fim, o MBB com tamanhos de blocos maiores do que
um tm um desempenho superior aproximao assimpttica com b-fixo (e normal) quando a
dependncia forte.
1
Esta abordagem foi designada como ``naive'' por Davison e Hall (1993) e Gtze e Knsch (1996), e os autores avisaram que esta no prometia
refinamento assintoticos em relao aproximao normal padro. Em vez disso, eles sugeriram uma forma especial de recentrar e de
studentization da estatstica t do bootstrap.
Como no caso i.i.d., para o MBB tambm existe uma expresso fechada para o
-2
= Ior
-
(np
-
). No
entanto, e contrariamente a (4) para o bootstrap i.i.d., a expresso para a varincia de MBB contem termos
que dependem da funo de autocovarincias da amostra. De facto, podemos demonstrar que a varincia
MBB assimptoticamente equivalente de um estimador HAC baseado num ponderador de Bartlett.
Logo, a varincia de MBB um estimador consistente da varincia de longo-prazo.
Para obter uma aproximao distribuio de t
HAC
atravs do bootstrap em bloco, temos que construir
uma estatstica bootstrap studentized. Vrias escolhas existem na literatura, dependendo da escolha do
estimador da varincia bootstrap o
-2
.
Um abordagem natural consiste simplesmente em substituir os dados bootstrap pelos dados originais nas
formulas utilizadas para construir a estatstica t original. Em particular, constri-se,
t
-
=
n(
-
-)
c
HAC
-
, (8)
onde o
HAC
-
dado por (7), mas avaliado sobre os dados bootstrap {X
t
-
].
1
Uma comparao das diferentes aproximaes
De seguida ilustramos o desempenho em amostras pequenas das diferentes aproximaes com base em
alguns resultados de Monte Carlo obtidos por Gonalves e Vogelsang (2009). Suponha que X
t
= +
t
,
onde = 0 e
t
=
t-1
+ (1
2
)
1/2
u
t
, com {u
t
}i.i.d.N(0,1),
1
=0 e {0, 0.5, 0.9}. O objectivo testar H
0
:
0 contra H
1
: > 0 a um nvel de significncia de 5% utilizando t
HAC
. So geradas 10000 amostras
aleatrias de tamanho n = 50. Rejeitamos a hiptese nula sempre que t
HAC
> t
c
, onde t
c
o valor crtico
obtido com base em cada um dos trs mtodos discutidos anteriormente. O MBB baseia-se em 999
replicaes bootstrap e consideramos l = 1 e l = 5. A Figura 1 apresenta as verdadeiras taxas de rejeio
para 25 valores de M. Podemos sumariar os resultados da seguinte forma. Em primeiro lugar, a
aproximao com b-fixo domina a aproximao N(0,1). Em segundo lugar, o bootstrap i.i.d. aplicado a t*
segue quase exactamente a aproximao assimpttica com b-fixo. Logo, assimptoticamente vlido
mesmo quando os dados so dependentes. Isto deve-se ao facto da distribuio assimpttica de t
HAC
no
depender da estrutura de dependncia dos dados. Por fim, o MBB com tamanhos de blocos maiores do que
um tm um desempenho superior aproximao assimpttica com b-fixo (e normal) quando a
dependncia forte.
1
Esta abordagem foi designada como ``naive'' por Davison e Hall (1993) e Gtze e Knsch (1996), e os autores avisaram que esta no prometia
refinamento assintoticos em relao aproximao normal padro. Em vez disso, eles sugeriram uma forma especial de recentrar e de
studentization da estatstica t do bootstrap.
38 B o l e t i m S P E
5. Concluso
Neste artigo foram revistas trs aproximaes diferentes da distribuio em amostras finitas dum teste t
robusto baseado em estimadores HAC: a aproximao N(0,1), a recentemente desenvolvida aproximao
assimpttica com b-fixo e o naive block bootstrap, conforme analisado em Gonalves e Vogelsang
(2009). Um dos maiores desafios na aplicao destes mtodos a escolha da largura de banda/tamanho
dos blocos, que para efeitos de brevidade no foram considerados neste artigo.
6. Referncias
Andrews, D.W.K., 1991. Heteroskedasticity and autocorrelation consistent covariance matrix estimation,
Econometrica, 59, 817-858.
Bickel, P. e D. Freedman, 1981. Some asymptotic theory for the bootstrap, Annals of Statistics, 9,
1196-1217.
Davison, A.C. e P. Hall, 1993. On studentizing and blocking methods for implementing the bootstrap with
dependent data, Australian Journal of Statistics, 35, 215-224.
Efron, B., 1979. Bootstrap methods: another look at the jackknife, Annals of Statistics, 7, 1-26.
Gonalves, S., e T. Vogelsang, 2009. Block bootstrap HAC robust tests: the sophistication of the naive
bootstrap, mimeo, Universit de Montral.
Gtze, F., e H.R. Knsch, 1996. Second-order correctness of the blockwise bootstrap for stationary
observations, Annals of Statistics, 24, 1914-1933.
Hall, P., 1992. The bootstrap and Edgeworth expansion. Springer, New York.
Kiefer, N.M. e T. J. Vogelsang, 2005. A new asymptotic theory for heteroskedasticity-autocorrelation
robust tests. Econometric Theory, 21, 1130-1164.
Knsch, H.R., 1989. The jackknife and the bootstrap for general stationary observations, Annals of
Statistics, 17, 1217-1241.
Liu, R.Y., e K. Singh, 1992. Moving blocks jackknife and bootstrap capture weak dependence, in
Exploring the Limits of the Bootstrap, ed. by R. LePage and L. Billiard. New York: Wiley.
Newey, W. e K.D. West, 1987. A simple positive semi-definite, heteroskedastic and autocorrelation
consistent covariance matrix, Econometrica, 55, 703-708.
Singh, K., 1981. On the asymptotic accuracy of Efron's bootstrap. Annals of Statistics, 9, 1187-1195.
39 O u t o n o d e 2 0 0 9
O Mtodo Generalizado dos Momentos
Joaquim J. S. Ramalho, jsr@uevora.pt
Departamento de Economia e CEFAGE-UE
Universidade de vora
O Mtodo Generalizado dos Momentos
Joaquim J. S. Ramalho, jsr@uevora.pt
Departamento de Economia e CEFAGE-UE
Universidade de vora
1. Introduo
Durante muitos anos, foi prtica corrente em Econometria a utilizao quase exclusiva de modelos e
mtodos de estimao que requerem fortes pressupostos distribucionais. A veracidade desses
pressupostos era raramente colocada em causa, justificando-se a sua adopo pelas propriedades
ptimas que os estimadores assim obtidos potencialmente poderiam ter. Esta prtica foi sendo
abandonada a pouco e pouco, sendo hoje comum quer a aplicao de testes que permitem avaliar a
adequabilidade dos pressupostos assumidos quer a utilizao de mtodos de estimao menos
exigentes em termos de pressupostos.
Um dos mtodos de estimao que actualmente bastante popular em Econometria o Mtodo
Generalizado dos Momentos (abreviado, de ora em diante, por GMM, nome pelo qual conhecido na
literatura em lngua inglesa). Para poder ser aplicado, este mtodo requer simplesmente a especificao
de um certo nmero de condies de momentos, as quais so funo das variveis e dos parmetros de
interesse do modelo. Embora Karl Pearson tenha sido o primeiro investigador a reconhecer a
possibilidade de utilizar condies de momentos como base para a estimao de parmetros h mais de
cem anos atrs, foi apenas aps a publicao do artigo pioneiro de Hansen (1982) sobre o GMM que
essa forma de estimao alternativa se popularizou de um modo extraordinrio na literatura
economtrica.
Na base deste desenvolvimento, para alm da bvia vantagem a nvel dos pressupostos que
necessrio assumir, esto dois factos principais. Por um lado, o GMM inclui vrios estimadores
igualmente populares como casos particulares (mnimos quadrados, variveis instrumentais, mxima
verosimilhana, etc.), o que permite estud-los de uma forma integrada. Por outro lado, devido sua
flexibilidade e generalidade, o GMM pode ser facilmente aplicado estimao de modelos no
lineares que de outra forma exigiriam pressupostos adicionais e, mesmo assim, seriam muito
complicados de estimar.
Neste artigo, descreve-se de forma sumria em que consiste o GMM e quais as suas principais
aplicaes, limitaes e alternativas. Para uma descrio mais pormenorizada, deve-se consultar, por
exemplo, Newey e McFadden (1994), Mtys (1999) e Hall (2005).
2. Do Mtodo dos Momentos ao Mtodo Generalizado dos Momentos
Em Estatstica, o termo momento habitualmente usado para designar o valor esperado de uma
determinada potncia de uma varivel aleatria. Por exemplo, o momento de ordem r da varivel
aleatria discreta y com funo de probabilidade f(y) definida no espao amostral S calculado como:
40 B o l e t i m S P E
( ) ( )
r r
r
S
E y f y y = =
.
Na ausncia de conhecimento sobre f(y), o Mtodo dos Momentos (MM) sugerido por Pearson permite
estimar
r
atravs da resoluo da condio de momentos amostral:
1
0
r
r
i
y
N
=
,
a qual representa a contrapartida na amostra de
( )
0
r
r
E y = .
A aplicao do MM pode ter por base mais do que uma condio de momentos amostral mas
necessrio que o nmero de parmetros a estimar seja igual ao nmero de condies de momentos. Por
vezes, o nmero de condies de momentos que possvel e faz sentido ter em conta pode ser superior
ao nmero de parmetros do modelo, o que implica a necessidade de seleccionar previamente quais as
condies que devem ser usadas na estimao e, por consequncia, quais as que devem ser excludas.
A impossibilidade de usar toda a informao disponvel sobre o modelo de interesse uma grande
desvantagem do MM, a qual evitada pelo GMM da forma que se descreve de seguida.
Vamos supor possvel definir s condies de momentos,
( ) , 0 E g z =
, (1)
onde g(z,) representa uma determinada funo das variveis z e dos k parmetros do modelo de
interesse, com s k. Um estimador para E[g(z,)] naturalmente dado por
( ) ( )
1
1
, ,
N
n i
i
g z g z
N
=
=
,
onde
usando a
informao contida em (1).
A ideia subjacente ao GMM muito simples. O vector de parmetros de interesse estimado tendo por
objectivo obter para
( )
,
n
g z um valor to prximo de zero quanto possvel de modo a reflectir aquilo
que acontece na populao. Se o nmero de condies de momentos e de parmetros for idntico (s =
k), ento o GMM corresponde a uma aplicao trivial do MM, sendo
, 0
n
g z = . O mesmo procedimento no pode ser aplicado quando o modelo est sobre-
identificado (s > k) pois em geral no existe nenhum valor de
que
minimiza a seguinte funo quadrtica das condies de momentos amostrais:
( ) ( )
1 1
1 1
, ' ,
N N
i n i
i i
g z W g z
N N
= =
, (2)
onde W
n
uma matriz simtrica s s de ponderadores que pode depender das observaes e converge
para a matriz positiva definida W. Daqui resulta que as k condies de primeira ordem que
caracterizam o estimador GMM so dadas por
( )
( )
1 1
, '
1 1
, 0
N N
i
n i
i i
g z
W g z
N N
= =
=
,
as quais implicitamente definem as combinaes lineares propostas por Hansen (1982).
Tal como demonstrado por Hansen (1982), qualquer que seja a escolha efectuada para a matriz W, o
estimador GMM consistente e assimptoticamente normal. Pelo contrrio, diferentes escolhas para W
conduzem a estimadores GMM com diferentes nveis de eficincia. Hansen (1982) demonstrou que o
nvel mximo de eficincia atingido quando W corresponde ao inverso da matriz de covarincias das
condies de momentos, definida por ( ) ( ) , , ' V E g z g z
.
A matriz ptima de ponderadores, V
-1
, depende de , o que significa que, em termos prticos,
necessrio dispor de uma estimativa inicial desse parmetro. Desde que essa estimativa seja
consistente, as propriedades assimptticas do GMM no so afectadas (Hansen, 1982). Normalmente,
essa estimativa preliminar de obtida aplicando numa primeira fase o GMM usando como
ponderadora a matriz identidade. O estimador GMM eficiente pode assim ser interpretado como um
estimador GMM a dois passos. Para estimadores GMM alternativos, pode-se consultar Hansen, Heaton
and Yaron (1996).
Como referido anteriormente, o GMM inclui como casos particulares muitos estimadores amplamente
conhecidos. No mbito do GMM, esses estimadores diferem entre eles apenas pelas diferentes funes
g(z,) que os caracterizam. Por exemplo, o estimador dos mnimos quadrados obtido quando se
assume que E(Xu) = 0, onde X representa a matriz de regressores e u o termo erro da regresso.
Similarmente, E(Tu) = 0, onde T representa uma matriz de instrumentos, produz o estimador das
variveis instrumentais (pressupondo que se assume a existncia de homocedasticidade), enquanto que
quando g(.) representa a funo score se obtm o estimador da mxima verosimilhana.
3. Testes de especificao
No mbito do GMM, o teste de especificao mais conhecido o chamado teste de sobre-
identificao, ou teste J, proposto por Hansen (1982). A ideia por trs deste teste tambm muito
simples e intuitiva, baseando-se no facto de se utilizarem s condies de momentos quando apenas k
seriam necessrias para estimar os parmetros de interesse, isto , existem s k condies de sobre-
identificao. O modo mais evidente de testar a especificao de um modelo definido por (1) consiste
em verificar se o valor de todas as condies de momentos amostrais aproximadamente zero ou no,
j que o GMM apenas impe que k combinaes lineares delas o sejam. Assim, a estatstica J dado
simplesmente pelo produto de N pelo valor da funo objectivo (2), tendo uma distribuio
assimpttica de qui-quadrado com s k graus de liberdade.
41 O u t o n o d e 2 0 0 9
( ) ( )
1 1
1 1
, ' ,
N N
i n i
i i
g z W g z
N N
= =
, (2)
onde W
n
uma matriz simtrica s s de ponderadores que pode depender das observaes e converge
para a matriz positiva definida W. Daqui resulta que as k condies de primeira ordem que
caracterizam o estimador GMM so dadas por
( )
( )
1 1
, '
1 1
, 0
N N
i
n i
i i
g z
W g z
N N
= =
=
,
as quais implicitamente definem as combinaes lineares propostas por Hansen (1982).
Tal como demonstrado por Hansen (1982), qualquer que seja a escolha efectuada para a matriz W, o
estimador GMM consistente e assimptoticamente normal. Pelo contrrio, diferentes escolhas para W
conduzem a estimadores GMM com diferentes nveis de eficincia. Hansen (1982) demonstrou que o
nvel mximo de eficincia atingido quando W corresponde ao inverso da matriz de covarincias das
condies de momentos, definida por ( ) ( ) , , ' V E g z g z
.
A matriz ptima de ponderadores, V
-1
, depende de , o que significa que, em termos prticos,
necessrio dispor de uma estimativa inicial desse parmetro. Desde que essa estimativa seja
consistente, as propriedades assimptticas do GMM no so afectadas (Hansen, 1982). Normalmente,
essa estimativa preliminar de obtida aplicando numa primeira fase o GMM usando como
ponderadora a matriz identidade. O estimador GMM eficiente pode assim ser interpretado como um
estimador GMM a dois passos. Para estimadores GMM alternativos, pode-se consultar Hansen, Heaton
and Yaron (1996).
Como referido anteriormente, o GMM inclui como casos particulares muitos estimadores amplamente
conhecidos. No mbito do GMM, esses estimadores diferem entre eles apenas pelas diferentes funes
g(z,) que os caracterizam. Por exemplo, o estimador dos mnimos quadrados obtido quando se
assume que E(Xu) = 0, onde X representa a matriz de regressores e u o termo erro da regresso.
Similarmente, E(Tu) = 0, onde T representa uma matriz de instrumentos, produz o estimador das
variveis instrumentais (pressupondo que se assume a existncia de homocedasticidade), enquanto que
quando g(.) representa a funo score se obtm o estimador da mxima verosimilhana.
3. Testes de especificao
No mbito do GMM, o teste de especificao mais conhecido o chamado teste de sobre-
identificao, ou teste J, proposto por Hansen (1982). A ideia por trs deste teste tambm muito
simples e intuitiva, baseando-se no facto de se utilizarem s condies de momentos quando apenas k
seriam necessrias para estimar os parmetros de interesse, isto , existem s k condies de sobre-
identificao. O modo mais evidente de testar a especificao de um modelo definido por (1) consiste
em verificar se o valor de todas as condies de momentos amostrais aproximadamente zero ou no,
j que o GMM apenas impe que k combinaes lineares delas o sejam. Assim, a estatstica J dado
simplesmente pelo produto de N pelo valor da funo objectivo (2), tendo uma distribuio
assimpttica de qui-quadrado com s k graus de liberdade.
A avaliao de restries paramtricas no contexto do GMM pode ser feita de modo similar ao que
acontece com outros estimadores. Para este fim, Newey e West (1987) derivaram testes Wald, score e
do tipo LR, enquanto Newey e McFadden (1994) desenvolveram testes de Hausman. Testes para a
validade de sub-conjuntos de condies de momentos foram propostos por Newey (1985) e
Eichenbaum, Hansen e Singleton (1988). Finalmente, testes para hipteses no encaixadas foram
desenvolvidos por Singleton (1985) e Smith (1992).
4. Aplicaes
O GMM comeou por ganhar maior notoriedade na rea das sries temporais mas tem sido tambm
bastante utilizado em aplicaes com dados seccionais ou de painel. Para exemplos de aplicaes
possveis do GMM, consultar Ogaki (1993) e Hall (2005).
Com dados seccionais, o GMM tem sido usado essencialmente como uma alternativa ao mtodo dos
mnimos quadrados a dois passos quando se suspeita da existncia de heterocedasticidade em modelos
de regresso linear. Outras aplicaes incluem certos modelos de regresso exponencial com variveis
explicativas endgenas (Mullahy, 1997), modelos para amostras sujeitas a estratificao endgena
(Imbens, 1992) e modelos microeconomtricos corrigidos para a no resposta (Ramalho e Smith,
2009).
Com dados de natureza temporal, uma das grandes vantagens do GMM a de permitir lidar com
problemas de autocorrelao de modo relativamente simples, atravs da utilizao de uma matriz
ponderadora que reflicta essa situao. Outra vantagem a possibilidade de se trabalhar apenas com as
condies de momentos que so efectivamente implicadas pela teoria econmica, sem necessidade de
adicionar pressupostos distribucionais, como se fazia anteriormente em modelos no lineares de
expectativas racionais (Hansen e Singleton, 1982). Exemplos de aplicaes do GMM no contexto
temporal incluem modelos de ciclos de negcios, modelos de volatilidade estocstica e modelos de
avaliao de activos.
Algumas das mais recentes e interessantes aplicaes do GMM ocorreram na estimao de modelos
para dados de painel, nomeadamente em casos em que existe heterogeneidade no observada. Sob o
pressuposto de que as variveis explicativas no esto correlacionadas com o termo erro em nenhum
perodo de tempo (excluindo o chamado efeito fixo), possvel construir uma multiplicidade de
estimadores GMM atravs da adio de condies de ortogonalidade representando essa ausncia de
relao, os quais so naturalmente mais eficientes que o estimador de efeitos fixos tradicional. Quando
o modelo contm ainda a varivel dependente desfasada entre os regressores, ento o GMM j o
mtodo de eleio para obter estimadores consistentes para os parmetros de interesse; ver, por
exemplo, Arellano e Bond (1991) e Blundell e Bond (1998).
5. Limitaes e mtodos alternativos
Apesar da sua corrente popularidade, o GMM possui algumas caractersticas indesejadas. Acima de
tudo, a distribuio assimpttica dos estimadores GMM parece constituir uma aproximao de fraca
qualidade sua distribuio em amostras finitas. De facto, existe uma grande variedade de estudos de
simulao de Monte Carlo que mostram claramente que os estimadores GMM para os parmetros de
interesse so por norma claramente enviesados em pequenas amostras, enquanto que a dimenso
estimada dos testes de especificao associados a esses estimadores frequentemente
substancialmente diferente da esperada de acordo com a teoria assimpttica.
42 B o l e t i m S P E
A avaliao de restries paramtricas no contexto do GMM pode ser feita de modo similar ao que
acontece com outros estimadores. Para este fim, Newey e West (1987) derivaram testes Wald, score e
do tipo LR, enquanto Newey e McFadden (1994) desenvolveram testes de Hausman. Testes para a
validade de sub-conjuntos de condies de momentos foram propostos por Newey (1985) e
Eichenbaum, Hansen e Singleton (1988). Finalmente, testes para hipteses no encaixadas foram
desenvolvidos por Singleton (1985) e Smith (1992).
4. Aplicaes
O GMM comeou por ganhar maior notoriedade na rea das sries temporais mas tem sido tambm
bastante utilizado em aplicaes com dados seccionais ou de painel. Para exemplos de aplicaes
possveis do GMM, consultar Ogaki (1993) e Hall (2005).
Com dados seccionais, o GMM tem sido usado essencialmente como uma alternativa ao mtodo dos
mnimos quadrados a dois passos quando se suspeita da existncia de heterocedasticidade em modelos
de regresso linear. Outras aplicaes incluem certos modelos de regresso exponencial com variveis
explicativas endgenas (Mullahy, 1997), modelos para amostras sujeitas a estratificao endgena
(Imbens, 1992) e modelos microeconomtricos corrigidos para a no resposta (Ramalho e Smith,
2009).
Com dados de natureza temporal, uma das grandes vantagens do GMM a de permitir lidar com
problemas de autocorrelao de modo relativamente simples, atravs da utilizao de uma matriz
ponderadora que reflicta essa situao. Outra vantagem a possibilidade de se trabalhar apenas com as
condies de momentos que so efectivamente implicadas pela teoria econmica, sem necessidade de
adicionar pressupostos distribucionais, como se fazia anteriormente em modelos no lineares de
expectativas racionais (Hansen e Singleton, 1982). Exemplos de aplicaes do GMM no contexto
temporal incluem modelos de ciclos de negcios, modelos de volatilidade estocstica e modelos de
avaliao de activos.
Algumas das mais recentes e interessantes aplicaes do GMM ocorreram na estimao de modelos
para dados de painel, nomeadamente em casos em que existe heterogeneidade no observada. Sob o
pressuposto de que as variveis explicativas no esto correlacionadas com o termo erro em nenhum
perodo de tempo (excluindo o chamado efeito fixo), possvel construir uma multiplicidade de
estimadores GMM atravs da adio de condies de ortogonalidade representando essa ausncia de
relao, os quais so naturalmente mais eficientes que o estimador de efeitos fixos tradicional. Quando
o modelo contm ainda a varivel dependente desfasada entre os regressores, ento o GMM j o
mtodo de eleio para obter estimadores consistentes para os parmetros de interesse; ver, por
exemplo, Arellano e Bond (1991) e Blundell e Bond (1998).
5. Limitaes e mtodos alternativos
Apesar da sua corrente popularidade, o GMM possui algumas caractersticas indesejadas. Acima de
tudo, a distribuio assimpttica dos estimadores GMM parece constituir uma aproximao de fraca
qualidade sua distribuio em amostras finitas. De facto, existe uma grande variedade de estudos de
simulao de Monte Carlo que mostram claramente que os estimadores GMM para os parmetros de
interesse so por norma claramente enviesados em pequenas amostras, enquanto que a dimenso
estimada dos testes de especificao associados a esses estimadores frequentemente
substancialmente diferente da esperada de acordo com a teoria assimpttica.
O nvel de preocupao acerca das propriedades dos estimadores GMM em amostras finitas tem sido
tal que em 1996 uma edio da prestigiada revista Journal of Business Economics & Statistics foi
integralmente dedicada a esta questo. Entre outros aspectos, Andersen e Sorensen (1996)
confirmaram que o comportamento do GMM em modelos de volatilidade estocstica decai
substancialmente medida que o nmero de instrumentos (isto , condies de momentos) aumenta e
Altonji e Segal (1996) concluram que o estimador GMM eficiente a dois passos pode sofrer de nveis
de enviesamento muito superiores ao do estimador GMM no eficiente baseado na matriz de
identidade.
Naturalmente, dado o comportamento inadequado do GMM em amostras de reduzida dimenso, tm
vindo a ser sugeridos mtodos de estimao alternativos para lidar com modelos definidos por
condies de momentos. Na mesma edio do Journal of Business Economics & Statistics, Hansen,
Yeaton and Yaron (1996) propuseram o continuous-updating GMM, que difere do GMM a dois passos
pelo facto da matriz ponderadora V
-1
, que depende dos parmetros de interesse , no ser estimada
num primeiro passo mas sim em simultneo com . Estes autores demonstraram que os dois
estimadores so assimptoticamente equivalentes e que em pequenas amostras o novo estimador
aproximadamente centrado em termos medianos. Contudo, a sua computao muito mais complicada
e tende a exibir nveis de disperso muito mais elevados, pelo que a utilizao do continuous-updating
GMM em aplicaes economtricas tem sido praticamente nula.
Existe ainda uma classe de estimadores alternativos ao GMM que tem sido largamente estudada a
nvel terico mas, dada a sua difcil computao, raramente tem sido usada a nvel prtico. Essa classe,
chamada de verosimilhana emprica generalizada (GEL) por Newey e Smith (2004), tem trs
caractersticas muito atractivas: (i) ao contrrio do GMM, no necessrio definir nenhuma matriz de
ponderadores; (ii) tambm em oposio ao GMM, uma verso ponderada de todas as condies de
momentos so satisfeitas na amostra, em vez de apenas uma combinao linear delas; e (iii) embora
equivalente ao GMM em termos de teoria assimpttica de primeira ordem, as propriedades
assimptticas de ordem superior do GEL parecem ser muito mais apelativas.
Na literatura estatstica, o mtodo da verosimilhana emprica foi introduzido por Owen (1988). A sua
introduo na literatura economtrica e aplicao a modelos de condies de momentos foi feita por
Qin and Lawless (1994) e Imbens (1997). Outros mtodos semelhantes, que tambm pertencem
classe GEL, nomeadamente o mtodo de exponential tilting, foram posteriormente desenvolvidos por
Kitamura e Stutzer (1997) e Imbens, Spady and Johnson (1998).
Todos os estimadores GEL partilham uma caracterstica comum: utilizam um estimador da funo de
densidade dos dados que mais eficiente do que o usado pelo GMM pois, ao contrrio deste, na sua
construo tambm explorada a informao contida nas condies de momentos. Assim, enquanto
que o GMM se baseia na funo de densidade emprica, que atribui o mesmo peso a cada observao,
a funo de densidade GEL atribui um peso diferente a cada observao, sendo esse peso estimado
(em simultneo com os parmetros de interesse) de forma a impor na amostra todas as condies de
momentos. Para detalhes sobre os estimadores GEL, consultar os artigos citados.
Finalmente, outras alternativas ao GMM incluem o Mtodo Simulado dos Momentos e o Mtodo
Eficiente dos Momentos. Dada a sua complexidade, tambm estes mtodos tm sido pouco utilizados
em trabalho aplicado. Para surveys sobre estes mtodos, consultar Carrasco e Florens (2002) e
Gourieroux e Monfort (1996). A possibilidade de usar tcnicas de bootstrap na correco do
enviesamento do GMM em pequenas amostras tem tambm sido alvo de alguns estudos. Hall e
Horowitz (1996), Brown e Newey (2002) e Ramalho (2006) propuseram mtodos bootstrap
alternativos que, de acordo com a evidncia obtida at ao momento atravs de estudos de Monte Carlo,
43 O u t o n o d e 2 0 0 9
O nvel de preocupao acerca das propriedades dos estimadores GMM em amostras finitas tem sido
tal que em 1996 uma edio da prestigiada revista Journal of Business Economics & Statistics foi
integralmente dedicada a esta questo. Entre outros aspectos, Andersen e Sorensen (1996)
confirmaram que o comportamento do GMM em modelos de volatilidade estocstica decai
substancialmente medida que o nmero de instrumentos (isto , condies de momentos) aumenta e
Altonji e Segal (1996) concluram que o estimador GMM eficiente a dois passos pode sofrer de nveis
de enviesamento muito superiores ao do estimador GMM no eficiente baseado na matriz de
identidade.
Naturalmente, dado o comportamento inadequado do GMM em amostras de reduzida dimenso, tm
vindo a ser sugeridos mtodos de estimao alternativos para lidar com modelos definidos por
condies de momentos. Na mesma edio do Journal of Business Economics & Statistics, Hansen,
Yeaton and Yaron (1996) propuseram o continuous-updating GMM, que difere do GMM a dois passos
pelo facto da matriz ponderadora V
-1
, que depende dos parmetros de interesse , no ser estimada
num primeiro passo mas sim em simultneo com . Estes autores demonstraram que os dois
estimadores so assimptoticamente equivalentes e que em pequenas amostras o novo estimador
aproximadamente centrado em termos medianos. Contudo, a sua computao muito mais complicada
e tende a exibir nveis de disperso muito mais elevados, pelo que a utilizao do continuous-updating
GMM em aplicaes economtricas tem sido praticamente nula.
Existe ainda uma classe de estimadores alternativos ao GMM que tem sido largamente estudada a
nvel terico mas, dada a sua difcil computao, raramente tem sido usada a nvel prtico. Essa classe,
chamada de verosimilhana emprica generalizada (GEL) por Newey e Smith (2004), tem trs
caractersticas muito atractivas: (i) ao contrrio do GMM, no necessrio definir nenhuma matriz de
ponderadores; (ii) tambm em oposio ao GMM, uma verso ponderada de todas as condies de
momentos so satisfeitas na amostra, em vez de apenas uma combinao linear delas; e (iii) embora
equivalente ao GMM em termos de teoria assimpttica de primeira ordem, as propriedades
assimptticas de ordem superior do GEL parecem ser muito mais apelativas.
Na literatura estatstica, o mtodo da verosimilhana emprica foi introduzido por Owen (1988). A sua
introduo na literatura economtrica e aplicao a modelos de condies de momentos foi feita por
Qin and Lawless (1994) e Imbens (1997). Outros mtodos semelhantes, que tambm pertencem
classe GEL, nomeadamente o mtodo de exponential tilting, foram posteriormente desenvolvidos por
Kitamura e Stutzer (1997) e Imbens, Spady and Johnson (1998).
Todos os estimadores GEL partilham uma caracterstica comum: utilizam um estimador da funo de
densidade dos dados que mais eficiente do que o usado pelo GMM pois, ao contrrio deste, na sua
construo tambm explorada a informao contida nas condies de momentos. Assim, enquanto
que o GMM se baseia na funo de densidade emprica, que atribui o mesmo peso a cada observao,
a funo de densidade GEL atribui um peso diferente a cada observao, sendo esse peso estimado
(em simultneo com os parmetros de interesse) de forma a impor na amostra todas as condies de
momentos. Para detalhes sobre os estimadores GEL, consultar os artigos citados.
Finalmente, outras alternativas ao GMM incluem o Mtodo Simulado dos Momentos e o Mtodo
Eficiente dos Momentos. Dada a sua complexidade, tambm estes mtodos tm sido pouco utilizados
em trabalho aplicado. Para surveys sobre estes mtodos, consultar Carrasco e Florens (2002) e
Gourieroux e Monfort (1996). A possibilidade de usar tcnicas de bootstrap na correco do
enviesamento do GMM em pequenas amostras tem tambm sido alvo de alguns estudos. Hall e
Horowitz (1996), Brown e Newey (2002) e Ramalho (2006) propuseram mtodos bootstrap
alternativos que, de acordo com a evidncia obtida at ao momento atravs de estudos de Monte Carlo,
parecem funcionar razoavelmente bem na atenuao das distores geralmente apresentadas pelo
GMM em pequenas amostras.
6. Concluso
O GMM tem por finalidade obter estimadores para os parmetros de modelos que so apenas definidos
por condies de momentos. A maior parte dos modelos economtricos pode ser expressa desta forma,
o que reala o importante papel que o GMM desempenha na Econometria. A sua aplicao torna-se
mesmo essencial em certos modelos, como modelos no lineares de expectativas racionais e modelos
dinmicos para dados de painel com efeitos fixos. Pese embora o risco que representa a sua utilizao
em amostras de pequena dimenso, estamos convencidos que o GMM continuar a ser o mtodo mais
usado em trabalho aplicado na estimao de modelos definidos por condies de momentos, dada a
complexidade das alternativas existentes e a possibilidade de aplicar correces usando o bootstrap ou
mtodos similares.
Bibliografia
Altonji, J.G. and Segal, L.M. (1996), "Small-sample bias in GMM estimation of covariance
structures", Journal of Business & Economic Statistics, 14(3), 353-365.
Andersen, T.G. and Sorensen, B.E. (1996), "GMM estimation of a stochastic volatility model: a Monte
Carlo study", Journal of Business & Economic Statistics, 14(3), 328-352.
Arellano, M. and Bond, S. (1991), Some tests of specification for panel data: Monte Carlo evidence
and an application to employment equations, Review of Economic Studies, 58, 277-297.
Blundell R. and Bond, S. (1998), Initial conditions and moment restrictions in dynamic panel data
models, Journal of Econometrics, 87, 115-143.
Brown, B.W. and Newey, W.K. (2002), Generalised method of moments, efficient bootstrapping, and
improved inference, Journal of Business and Economic Statistics, 20, 507-517.
Carrasco, M. and Florens, J.P. (2000), Generalization of GMM to a continuum of moment
conditions, Econometric Theory, 16, 797-834.
Eichenbaum, M.S., Hansen, L.P. and Singleton, K.J. (1988), "A time series analysis of representative
agent models of consumption and leisure choice under uncertainty", Quarterly Journal of Economics,
103, 51-78.
Gourieroux, C. and Monfort, A. (1996), Simulation-Based Econometric Methods, Oxford University
Press.
Hall, A. (2005), Generalized Method of Moments, Oxford University Press.
Hall, P. and Horowitz, J.L. (1996), "Bootstrap critical values for tests based on generalised-method-of-
moments estimators", Econometrica, 64(4), 891-916.
Hansen, L.P. (1982), "Large sample properties of generalised method of moments estimators",
Econometrica, 50(4), 1029-1054.
44 B o l e t i m S P E
parecem funcionar razoavelmente bem na atenuao das distores geralmente apresentadas pelo
GMM em pequenas amostras.
6. Concluso
O GMM tem por finalidade obter estimadores para os parmetros de modelos que so apenas definidos
por condies de momentos. A maior parte dos modelos economtricos pode ser expressa desta forma,
o que reala o importante papel que o GMM desempenha na Econometria. A sua aplicao torna-se
mesmo essencial em certos modelos, como modelos no lineares de expectativas racionais e modelos
dinmicos para dados de painel com efeitos fixos. Pese embora o risco que representa a sua utilizao
em amostras de pequena dimenso, estamos convencidos que o GMM continuar a ser o mtodo mais
usado em trabalho aplicado na estimao de modelos definidos por condies de momentos, dada a
complexidade das alternativas existentes e a possibilidade de aplicar correces usando o bootstrap ou
mtodos similares.
Bibliografia
Altonji, J.G. and Segal, L.M. (1996), "Small-sample bias in GMM estimation of covariance
structures", Journal of Business & Economic Statistics, 14(3), 353-365.
Andersen, T.G. and Sorensen, B.E. (1996), "GMM estimation of a stochastic volatility model: a Monte
Carlo study", Journal of Business & Economic Statistics, 14(3), 328-352.
Arellano, M. and Bond, S. (1991), Some tests of specification for panel data: Monte Carlo evidence
and an application to employment equations, Review of Economic Studies, 58, 277-297.
Blundell R. and Bond, S. (1998), Initial conditions and moment restrictions in dynamic panel data
models, Journal of Econometrics, 87, 115-143.
Brown, B.W. and Newey, W.K. (2002), Generalised method of moments, efficient bootstrapping, and
improved inference, Journal of Business and Economic Statistics, 20, 507-517.
Carrasco, M. and Florens, J.P. (2000), Generalization of GMM to a continuum of moment
conditions, Econometric Theory, 16, 797-834.
Eichenbaum, M.S., Hansen, L.P. and Singleton, K.J. (1988), "A time series analysis of representative
agent models of consumption and leisure choice under uncertainty", Quarterly Journal of Economics,
103, 51-78.
Gourieroux, C. and Monfort, A. (1996), Simulation-Based Econometric Methods, Oxford University
Press.
Hall, A. (2005), Generalized Method of Moments, Oxford University Press.
Hall, P. and Horowitz, J.L. (1996), "Bootstrap critical values for tests based on generalised-method-of-
moments estimators", Econometrica, 64(4), 891-916.
Hansen, L.P. (1982), "Large sample properties of generalised method of moments estimators",
Econometrica, 50(4), 1029-1054.
Hansen, L.P., Heaton, J. and Yaron, A. (1996), "Finite-sample properties of some alternative GMM
estimators", Journal of Business & Economic Statistics, 14(3), 262-280.
Hansen, L.P. and Singleton, K.J. (1982), Generalized instrumental variables estimation of nonlinear
rational expectations models, Econometrica, 50(59, 1269-1286.
Imbens, G.W. (2002), "Generalized method of moments and empirical likelihood", Journal of Business
& Economic Statistics, 20(4), 493-506.
Imbens, G.W. (1997), "One-step estimators for over-identified generalised method of moments
models", Review of Economic Studies, 64, 359-383.
Imbens, G.W., Spady, R.H. and Johnson, P. (1998), "Information theoretic approaches to inference in
moment condition models", Econometrica, 66(2), 333-357.
Kitamura, Y. and Stutzer, M. (1997), "An information-theoretic alternative to generalised method of
moments estimation", Econometrica, 65(4), 861-874.
Mtys, L. (1999), Generalized Method of Moments Estimation, Cambridge University Press.
Mullahy, J. (1997), "Instrumental-variable estimation of count data models: applications to models of
cigarette smoking behavior", Review of Economics and Statistics, 79(4), 586-593.
Newey, W.K. (1985b), "Maximum likelihood specification testing and conditional moment tests",
Econometrica, 53(5), 1047-1070.
Newey, W.K. and McFadden, D. (1994), "Large sample estimation and hypothesis testing", in Engle,
R. F. and McFadden, D. L. (eds.), Handbook of Econometrics, Vol. 4, Elsevier Science Publishers, pp.
2111-2245
Newey, W.K. and Smith, R.J. (2004), "Higher order properties of GMM and generalized empirical
likelihood estimators", Econometrica, 72(1), 219-255.
Newey, W.K. and West, K.D. (1987), "Hypothesis testing with efficient method of moments
estimation", International Economic Review, 28, 777-787.
Ogaki, M. (1993), "Generalized method of moments: econometric applications", in Maddala, G. S.,
Rao, C. R. and Vinod, H. D. (eds.), Handbook of Statistics, Vol. 11, Elsevier Science Publishers, pp.
455-488.
Owen, A.B. (1988), "Empirical likelihood ratio confidence intervals for a single functional",
Biometrika, 75(2), 237-249.
Qin, J. and Lawless, J. (1994), "Empirical likelihood and general estimating equations", Annals of
Statistics, 22(1), 300-325.
Ramalho, J.J.S. (2006), "Bootstrap bias-adjusted GMM estimators", Economics Letters, 92(1), 149-
155.
Ramalho, E.A. and Smith, R.J. (2009), "Discrete choice nonresponse, mimeo.
45 O u t o n o d e 2 0 0 9
Hansen, L.P., Heaton, J. and Yaron, A. (1996), "Finite-sample properties of some alternative GMM
estimators", Journal of Business & Economic Statistics, 14(3), 262-280.
Hansen, L.P. and Singleton, K.J. (1982), Generalized instrumental variables estimation of nonlinear
rational expectations models, Econometrica, 50(59, 1269-1286.
Imbens, G.W. (2002), "Generalized method of moments and empirical likelihood", Journal of Business
& Economic Statistics, 20(4), 493-506.
Imbens, G.W. (1997), "One-step estimators for over-identified generalised method of moments
models", Review of Economic Studies, 64, 359-383.
Imbens, G.W., Spady, R.H. and Johnson, P. (1998), "Information theoretic approaches to inference in
moment condition models", Econometrica, 66(2), 333-357.
Kitamura, Y. and Stutzer, M. (1997), "An information-theoretic alternative to generalised method of
moments estimation", Econometrica, 65(4), 861-874.
Mtys, L. (1999), Generalized Method of Moments Estimation, Cambridge University Press.
Mullahy, J. (1997), "Instrumental-variable estimation of count data models: applications to models of
cigarette smoking behavior", Review of Economics and Statistics, 79(4), 586-593.
Newey, W.K. (1985b), "Maximum likelihood specification testing and conditional moment tests",
Econometrica, 53(5), 1047-1070.
Newey, W.K. and McFadden, D. (1994), "Large sample estimation and hypothesis testing", in Engle,
R. F. and McFadden, D. L. (eds.), Handbook of Econometrics, Vol. 4, Elsevier Science Publishers, pp.
2111-2245
Newey, W.K. and Smith, R.J. (2004), "Higher order properties of GMM and generalized empirical
likelihood estimators", Econometrica, 72(1), 219-255.
Newey, W.K. and West, K.D. (1987), "Hypothesis testing with efficient method of moments
estimation", International Economic Review, 28, 777-787.
Ogaki, M. (1993), "Generalized method of moments: econometric applications", in Maddala, G. S.,
Rao, C. R. and Vinod, H. D. (eds.), Handbook of Statistics, Vol. 11, Elsevier Science Publishers, pp.
455-488.
Owen, A.B. (1988), "Empirical likelihood ratio confidence intervals for a single functional",
Biometrika, 75(2), 237-249.
Qin, J. and Lawless, J. (1994), "Empirical likelihood and general estimating equations", Annals of
Statistics, 22(1), 300-325.
Ramalho, J.J.S. (2006), "Bootstrap bias-adjusted GMM estimators", Economics Letters, 92(1), 149-
155.
Ramalho, E.A. and Smith, R.J. (2009), "Discrete choice nonresponse, mimeo.
Singleton, K.J. (1985), "Testing specifications of economic agents' intertemporal optimum problems in
the presence of alternative models", Journal of Econometrics, 30, 391-413.
Smith, R.J. (1992), "Non-nested tests for competing models estimated by generalised method of
moments", Econometrica, 60(4), 973-980.
46 B o l e t i m S P E
Dados de Painel
Paulo Guimares, pguimaraes2001@gmail.com
Universidade da Carolina do Sul, EUA
Dados de Painel
Paulo Guimares,
Universidade da Carolina do Sul, EUA
1. Introduo
O termo "dados em painel" ou "dados longitudinais" vulgarmente utilizado para designar bases de dados
constitudas por variveis que integram observaes com uma dimenso seccional e temporal. Exemplos
deste tipo de dados so observaes para um conjunto de indivduos, firmas ou pases ao longo do tempo.
Contudo os dados em painel podem integrar mais de duas dimenses ou ter outras dimenses que no
espao e tempo. Para assentar ideias iremos considerar como referncia a situao mais comum em que os
dados integram apenas duas dimenses, seccional e temporal.
O aumento do nmero de bases de dados em painel disponveis para investigao encontra paralelo na
crescente procura por este tipo de dados. A razo para este interesse nos dados em painel tem a ver com
as reconhecidas vantagens que se lhes atribuem. Em primeiro lugar, pela sua prpria natureza, os dados
em painel permitem uma inferncia mais precisa, pois lidam com um muito maior nmero de observaes
(e graus de liberdade) do que os dados puramente seccionais ou temporais. Visto que tratam com
mltiplas observaes para a mesma unidade, estes dados permitem controlar para caractersticas no-
observadas dessas mesmas unidades. Tambm, porque misturam as diferenas inter-unidades com a
dinmica intra-unidades, permitem-nos estudar a importncia do desfasamento temporal no
comportamento das unidades. Outras vantagens dos dados em painel so a possibilidade de permitirem o
teste de hiptese de comportamento mais sofisticadas assim como o estudo das fundaes micro na
anlise de dados agregados. Recordemos que a anlise de dados agregados tipicamente baseada na
premissa do "agente representativo" mas a existncia de heterogeneidade individual pode por em causa a
validade da anlise agregada.
Trataremos aqui do caso em que pretendemos modelizar o comportamento de uma varivel y
it
composta
por N unidades seccionais observadas ao longo de T perodos de tempo, sendo que i=1,, N e t = 1,,
T. Designaremos genericamente por x
it
as variveis explicativas destes modelos. Um painel de dados
considerado balanceado se existem observaes para todas as variveis para todas as unidades seccionais
em todos os perodos de tempo. Se tal no acontece ento trata-se de um painel no-balanceado. A
existncia de dados no-balanceados no por si um problema, desde que o mecanismo gerador dos
dados em falta no seja endgeno ao modelo.
2. Modelos Lineares de Dados em Painel
Um dos modelos mais comuns para dados em painel modeliza a heterogeneidade no observada
utilizando uma regresso linear simples mas permitindo um intercepto diferente para cada unidade do
painel. Neste caso,
it i it it
y
= + + x
onde o vector de coeficientes associado s variveis explicativas,
i
uma varivel aleatria que
captura a heterogeneidade no observada e
it
o termo de perturbao usual. Neste caso
i
captura todas
as caractersticas da unidade que se mantm constantes ao longo do tempo quer sejam observadas ou no.
Por exemplo, se a unidade forem indivduos ento caractersticas como o sexo ou a naturalidade so
capturadas por
i
.
O modo de tratamento dos
i
determina o tipo de modelo a usar. Se assumirmos que
i
no est
correlacionado com x
it
ento os
i
podero ser tratados como um termo de perturbao adicional. Este
tipo de modelos so designados como modelos de "efeitos aleatrios". Se assumirmos que os
i
esto
correlacionados com x
it
ento passamos a lidar com um modelo de "efeitos fixos" e a soluo agora
consiste em estimar os
i
(os "efeitos fixos") ou efectuar uma transformao do modelo que remova os
i
mas permita ainda a estimao dos coeficientes associados s variveis de interesse. Note-se que neste
contexto a designao "efeito fixo" tem um significado diferente daquele comummente utilizado na
Estatstica.
No caso do modelo linear, o estimador de "efeitos aleatrios" implementado assumindo que
i
e
it
so
variveis aleatrias i.i.d. no correlacionadas, homocedsticas e de mdia zero. Baseado nestas hipteses
fcil calcular a matriz de varincias e covarincias de
i
+
it
e a partir da aplicar o estimador de
"mnimos quadrados generalizados exequveis" que, como sabido, consistente e assimptoticamente
eficiente. Note-se que se aplicarmos directamente mnimos quadrados, ignorando a estrutura de
correlao dos erros, obteremos na mesma estimadores consistentes mas no eficientes para (chama-se a
este modelo, o modelo "pooled" para dados em painel). Por contrapartida, as estimativas dos desvios-
padro dos estimadores de mnimos quadrados viro incorrectamente calculadas pois ignoram a
existncia de correlao (temporal) entre observaes para a mesma unidade.
Quando assumimos a existncia de "efeitos fixos" estamos a admitir a possibilidade de existncia de
correlao entre os
i
e
it
. Neste caso existem vrios estimadores que permitem lidar com os "efeitos
fixos". O mais comum o estimador "within" usualmente obtido a partir de uma regresso que transforma
todas as variveis por subtraco das mdias temporais, isto , efectuando uma regresso do tipo
( ) i i
it i it it i
y y = + + x x
em que todas as variveis so calculadas como desvios de cada unidade do painel em relao sua mdia
temporal. Esta transformao elimina todas as variveis que no exibem variao temporal incluindo
obviamente os
i
. Se a dimenso seccional for pequena ento o estimador "within" poder ser obtido de
outra forma sem necessidade de transformar o modelo. Bastar neste caso estimar um modelo pelo
mtodo dos mnimos quadrados que para alm de x
it
inclui ainda N variveis "dummy" (mas exclui o
intercepto da regresso) que identificam se a observao pertence ou no unidade do painel. Um outro
estimador para modelos com efeitos fixos, o estimador de primeiras-diferenas. Este estimador obtido
aplicando mnimos quadrados s primeiras diferenas temporais dos dados
1 1 1
( ) ( )
it it it it it it
y y
= + x x
47 O u t o n o d e 2 0 0 9
2. Modelos Lineares de Dados em Painel
Um dos modelos mais comuns para dados em painel modeliza a heterogeneidade no observada
utilizando uma regresso linear simples mas permitindo um intercepto diferente para cada unidade do
painel. Neste caso,
it i it it
y
= + + x
onde o vector de coeficientes associado s variveis explicativas,
i
uma varivel aleatria que
captura a heterogeneidade no observada e
it
o termo de perturbao usual. Neste caso
i
captura todas
as caractersticas da unidade que se mantm constantes ao longo do tempo quer sejam observadas ou no.
Por exemplo, se a unidade forem indivduos ento caractersticas como o sexo ou a naturalidade so
capturadas por
i
.
O modo de tratamento dos
i
determina o tipo de modelo a usar. Se assumirmos que
i
no est
correlacionado com x
it
ento os
i
podero ser tratados como um termo de perturbao adicional. Este
tipo de modelos so designados como modelos de "efeitos aleatrios". Se assumirmos que os
i
esto
correlacionados com x
it
ento passamos a lidar com um modelo de "efeitos fixos" e a soluo agora
consiste em estimar os
i
(os "efeitos fixos") ou efectuar uma transformao do modelo que remova os
i
mas permita ainda a estimao dos coeficientes associados s variveis de interesse. Note-se que neste
contexto a designao "efeito fixo" tem um significado diferente daquele comummente utilizado na
Estatstica.
No caso do modelo linear, o estimador de "efeitos aleatrios" implementado assumindo que
i
e
it
so
variveis aleatrias i.i.d. no correlacionadas, homocedsticas e de mdia zero. Baseado nestas hipteses
fcil calcular a matriz de varincias e covarincias de
i
+
it
e a partir da aplicar o estimador de
"mnimos quadrados generalizados exequveis" que, como sabido, consistente e assimptoticamente
eficiente. Note-se que se aplicarmos directamente mnimos quadrados, ignorando a estrutura de
correlao dos erros, obteremos na mesma estimadores consistentes mas no eficientes para (chama-se a
este modelo, o modelo "pooled" para dados em painel). Por contrapartida, as estimativas dos desvios-
padro dos estimadores de mnimos quadrados viro incorrectamente calculadas pois ignoram a
existncia de correlao (temporal) entre observaes para a mesma unidade.
Quando assumimos a existncia de "efeitos fixos" estamos a admitir a possibilidade de existncia de
correlao entre os
i
e
it
. Neste caso existem vrios estimadores que permitem lidar com os "efeitos
fixos". O mais comum o estimador "within" usualmente obtido a partir de uma regresso que transforma
todas as variveis por subtraco das mdias temporais, isto , efectuando uma regresso do tipo
( ) i i
it i it it i
y y = + + x x
em que todas as variveis so calculadas como desvios de cada unidade do painel em relao sua mdia
temporal. Esta transformao elimina todas as variveis que no exibem variao temporal incluindo
obviamente os
i
. Se a dimenso seccional for pequena ento o estimador "within" poder ser obtido de
outra forma sem necessidade de transformar o modelo. Bastar neste caso estimar um modelo pelo
mtodo dos mnimos quadrados que para alm de x
it
inclui ainda N variveis "dummy" (mas exclui o
intercepto da regresso) que identificam se a observao pertence ou no unidade do painel. Um outro
estimador para modelos com efeitos fixos, o estimador de primeiras-diferenas. Este estimador obtido
aplicando mnimos quadrados s primeiras diferenas temporais dos dados
1 1 1
( ) ( )
it it it it it it
y y
= + x x
Admitindo que
it
segue as hiptese habituais ento para T > 2 o estimador "within" mais eficiente do
que o estimador a primeiras-diferenas. Dever ser realado que se de facto se verificar a hiptese de
correlao entre os
i
e x
it
ento os estimadores de mnimos quadrados ou os estimadores de "efeitos
aleatrios" so inconsistentes. Esta uma das razes porque os economistas tendem a preferir os
estimadores de efeitos fixos, pois estes estimadores mantm-se consistentes independentemente da
existncia ou no de correlao entre
i
e x
it
embora sejam menos eficientes que o estimador de efeitos
aleatrios se de facto essa correlao for nula.
Do ponto de vista prtico existe uma outra distino importante entre "efeitos fixos" e "efeitos aleatrios".
No modelo com "efeitos aleatrios" possvel identificar tanto o efeito marginal
Ey
it
|
i
, x
it
/x
it
assim como
Ey
it
|x
it
i
it
um exemplo dum estimador de painel GMM.
3. Modelos no lineares de Dados em Painel
A modelizao utilizada para lidar com dados em painel nos modelos lineares pode ser estendida a
modelos no lineares. No entanto os resultados conhecidos para o modelo linear no so generalizveis
aos modelos no-lineares. Por exemplo, em painis curtos, a introduo de efeitos fixos em vrios
modelos no-lineares torna os estimadores dos parmetros associados aos x
it
inconsistentes. Este
problema conhecido na literatura como o problema dos parmetros incidentais. Note-se que isto no
acontece no modelo linear, onde para painis curtos os estimadores de so consistentes embora os
estimadores dos
i
sejam inconsistentes. Para alguns modelos no-lineares como por exemplo o modelo
logit para dados binrios e o modelo de regresso de Poisson possvel eliminar os
i
calculando a
funo de mxima verosimilhana condicionada a uma estatstica suficiente dos
i
. A maximizao da
funo de mxima verosimilhana condicionada produz estimadores consistentes para embora (com a
excepo do modelo linear e modelo de Poisson) esses estimadores sejam menos eficientes. A utilizao
da mxima verosimilhana condicionada apenas possvel para alguns modelos no-lineares. Uma outra
opo para a estimao de modelos com efeitos fixos consiste na incluso explcita de variveis dummy
para os efeitos individuais. Esta alternativa funcionar se o nmero de variveis dummy for relativamente
pequeno, caso contrrio poder ser impraticvel estimar um modelo com um elevado nmero de
regressores.
Quanto aos modelos de efeitos aleatrios convm notar que, tal como para o modelo linear, a existncia
de correlao entre os efeitos individuais e os outros regressores torna os estimadores inconsistentes.
Desde que seja possvel estimar de forma consistente o modelo com efeitos fixos ento poder ser
implementado um teste de Hausman por forma a decidir qual a modelizao apropriada. Nos modelos
com efeitos aleatrios admite-se que os efeitos individuais seguem uma distribuio conhecida.
Dependendo do modelo em causa pode ser conveniente assumir uma distribuio particular para os
efeitos aleatrios que permita obter de forma explcita a distribuio incondicional dos dados. Por
exemplo, se num modelo de Poisson para dados em painel se assumir que os efeitos aleatrios seguem
uma distribuio gama ento a distribuio incondicional dos dados ser uma distribuio binomial
negativa. Na maior parte dos casos no possvel obter de forma explcita a distribuio incondicional
mas mesmo assim possvel maximizar a funo de mxima verosimilhana utilizando mtodos
numricos.
Hoje em dia vrios "packages" estatsticos integram estimadores prprios para dados em painel. Os
modelos de efeitos aleatrios que temos vindo a discutir so um caso particular dos modelos mistos
("mixed models") e portanto podem ser estimados com qualquer package estatstico que suporte modelos
mistos como por exemplo o SAS, o R e o S-plus. No entanto, "packages" como o Stata e o LIMDEP so
especializados neste tipo de dados e oferecem uma enorme variedade de estimadores.
49 O u t o n o d e 2 0 0 9
O mtodo de estimao habitual destes modelos o mtodo dos momentos generalizados (GMM)
tipicamente aplicado a um modelo transformado por forma a eliminar os efeitos individuais. O conhecido
estimador de Arellano-Bond, utilizado para lidar com modelos de painel dinmicos, ou seja, modelos do
tipo,
y
it
y
it1
x
it
i
it
um exemplo dum estimador de painel GMM.
3. Modelos no lineares de Dados em Painel
A modelizao utilizada para lidar com dados em painel nos modelos lineares pode ser estendida a
modelos no lineares. No entanto os resultados conhecidos para o modelo linear no so generalizveis
aos modelos no-lineares. Por exemplo, em painis curtos, a introduo de efeitos fixos em vrios
modelos no-lineares torna os estimadores dos parmetros associados aos x
it
inconsistentes. Este
problema conhecido na literatura como o problema dos parmetros incidentais. Note-se que isto no
acontece no modelo linear, onde para painis curtos os estimadores de so consistentes embora os
estimadores dos
i
sejam inconsistentes. Para alguns modelos no-lineares como por exemplo o modelo
logit para dados binrios e o modelo de regresso de Poisson possvel eliminar os
i
calculando a
funo de mxima verosimilhana condicionada a uma estatstica suficiente dos
i
. A maximizao da
funo de mxima verosimilhana condicionada produz estimadores consistentes para embora (com a
excepo do modelo linear e modelo de Poisson) esses estimadores sejam menos eficientes. A utilizao
da mxima verosimilhana condicionada apenas possvel para alguns modelos no-lineares. Uma outra
opo para a estimao de modelos com efeitos fixos consiste na incluso explcita de variveis dummy
para os efeitos individuais. Esta alternativa funcionar se o nmero de variveis dummy for relativamente
pequeno, caso contrrio poder ser impraticvel estimar um modelo com um elevado nmero de
regressores.
Quanto aos modelos de efeitos aleatrios convm notar que, tal como para o modelo linear, a existncia
de correlao entre os efeitos individuais e os outros regressores torna os estimadores inconsistentes.
Desde que seja possvel estimar de forma consistente o modelo com efeitos fixos ento poder ser
implementado um teste de Hausman por forma a decidir qual a modelizao apropriada. Nos modelos
com efeitos aleatrios admite-se que os efeitos individuais seguem uma distribuio conhecida.
Dependendo do modelo em causa pode ser conveniente assumir uma distribuio particular para os
efeitos aleatrios que permita obter de forma explcita a distribuio incondicional dos dados. Por
exemplo, se num modelo de Poisson para dados em painel se assumir que os efeitos aleatrios seguem
uma distribuio gama ento a distribuio incondicional dos dados ser uma distribuio binomial
negativa. Na maior parte dos casos no possvel obter de forma explcita a distribuio incondicional
mas mesmo assim possvel maximizar a funo de mxima verosimilhana utilizando mtodos
numricos.
Hoje em dia vrios "packages" estatsticos integram estimadores prprios para dados em painel. Os
modelos de efeitos aleatrios que temos vindo a discutir so um caso particular dos modelos mistos
("mixed models") e portanto podem ser estimados com qualquer package estatstico que suporte modelos
mistos como por exemplo o SAS, o R e o S-plus. No entanto, "packages" como o Stata e o LIMDEP so
especializados neste tipo de dados e oferecem uma enorme variedade de estimadores.
4. Referncias Bibliogrficas
Cameron, C. and P. Trivedi (2005), Microeconometrics: Methods and Applications. Cambridge:
Cambridge University Press.
Davidson, R. and J. MacKinnon (1993), Estimation and Inference in Econometrics. New York: Oxford
University Press.
Greene, W. (2004), The Behavior of the Fixed effects Estimator in Nonlinear Models,, Econometrics
Journal, Vol. 7, pp. 98-119.
Greene, W. H. (2003). Econometric Analysis. 5th ed. Upper Saddle River: Prentice Hall.
Woolridge, J. (2002). Econometric Analysis of Cross-Section and Panel Data. MIT Press.
50 B o l e t i m S P E
Loxodromia da vida humana:
Uma introduo anlise estatstica da durao
*
Carlota Louro, carlouro.spub@fcm.unl.pt
Faculdade de Cincias Mdicas, Universidade Nova de Lisboa
Pedro Portugal, pportugal@bportugal.pt
Banco de Portugal e Faculdade de Economia, Universidade Nova de Lisboa
1. Introduo
A anlise estatstica de fenmenos em que o interesse central reside na contagem do tempo decorrido at
verificao de determinado acontecimento ou, numa terminologia mais rigorosa, de um evento terminal, o
objecto da anlise da durao. Dito de outro modo, a anlise da durao trata da modelao estatstica da
ocorrncia de transies entre diferentes estados. Os fundamentos da anlise de durao so tributrios da
teoria dos processos estocsticos de renovao, dos processos pontuais e dos processos de contagem.
2. Loxodromia da vida humana
Comece-se por definir T como uma varivel aleatria contnua no-negativa que representa a durao num
dado estado. Seja f(t) a correspondente funo densidade de probabilidade e F(t) a funo de distribuio
cumulativa, que ser dada por
Ft PT t
0
t
fudu.
A probabilidade de um indivduo se manter nesse estado at t , ento, dada pela Funo de Sobrevivncia
St PT t 1 Ft.
O conceito fundamental na anlise de durao o de taxa de quebras ou funo "hazard", que definida
como
e que mede a taxa instantnea de sada no momento t, dado que o indivduo sobreviveu no estado at t.
De acordo com Tiago de Oliveira (1990), "o conceito de taxa de quebras, sob o aspecto de fora de
mortalidade (Demografia) foi criado em 1757 por Soares de Barros e Vasconcelos, um estrangeirado... que
o publicou no artigo "Loxodromia da Vida Humana", Mem. Real Academia de Sciencias de Lisboa, 1
srie, I, 1759. Soares de Barros e Vasconcelos usa 1/h(t) (chamada fora da vida), que interpreta
correctamente; note-se que 1/h(t) hoje um instrumento importante na Estatstica dos Extremos. S mais
tarde Gompertz (1825) e Makeham (1860) redescobrem o conceito e o utilizam em Demografia e
Actuariado."
Associada com a funo "hazard", define-se a funo "hazard" cumulativa
t
0
t
hudu
que especialmente utilizada na anlise de especificao. A evoluo temporal da taxa "hazard"
caracterizada por dh(t)/dt, define a importante noo de dependncia da durao. Diz-se que a dependncia
da durao negativa (positiva) quando a taxa "hazard" diminui (aumenta) com a passagem do tempo.
Uma outra funo com interesse na anlise da durao a do valor esperado da durao condicionado
sobrevivncia no estado at s
es
s
tftdt
Ss
s
s
Stdt
Ss
ht lim
t0
Pt T t t T t
t
,
Assi se estima a cousa: como se sabe julgar.
D. Francisco de Portugal, primeiro conde de Vimioso
1
.
*
Os autores agradecem os comentrios e sugestes de Antnio Antunes, Jos Antnio Ferreira Machado, Carlos Robalo
Marques e Paulo Rodrigues.
51 O u t o n o d e 2 0 0 9
1. Introduo
A anlise estatstica de fenmenos em que o interesse central reside na contagem do tempo decorrido at
verificao de determinado acontecimento ou, numa terminologia mais rigorosa, de um evento terminal, o
objecto da anlise da durao. Dito de outro modo, a anlise da durao trata da modelao estatstica da
ocorrncia de transies entre diferentes estados. Os fundamentos da anlise de durao so tributrios da
teoria dos processos estocsticos de renovao, dos processos pontuais e dos processos de contagem.
2. Loxodromia da vida humana
Comece-se por definir T como uma varivel aleatria contnua no-negativa que representa a durao num
dado estado. Seja f(t) a correspondente funo densidade de probabilidade e F(t) a funo de distribuio
cumulativa, que ser dada por
Ft PT t
0
t
fudu.
A probabilidade de um indivduo se manter nesse estado at t , ento, dada pela Funo de Sobrevivncia
St PT t 1 Ft.
O conceito fundamental na anlise de durao o de taxa de quebras ou funo "hazard", que definida
como
e que mede a taxa instantnea de sada no momento t, dado que o indivduo sobreviveu no estado at t.
De acordo com Tiago de Oliveira (1990), "o conceito de taxa de quebras, sob o aspecto de fora de
mortalidade (Demografia) foi criado em 1757 por Soares de Barros e Vasconcelos, um estrangeirado... que
o publicou no artigo "Loxodromia da Vida Humana", Mem. Real Academia de Sciencias de Lisboa, 1
srie, I, 1759. Soares de Barros e Vasconcelos usa 1/h(t) (chamada fora da vida), que interpreta
correctamente; note-se que 1/h(t) hoje um instrumento importante na Estatstica dos Extremos. S mais
tarde Gompertz (1825) e Makeham (1860) redescobrem o conceito e o utilizam em Demografia e
Actuariado."
Associada com a funo "hazard", define-se a funo "hazard" cumulativa
t
0
t
hudu
que especialmente utilizada na anlise de especificao. A evoluo temporal da taxa "hazard"
caracterizada por dh(t)/dt, define a importante noo de dependncia da durao. Diz-se que a dependncia
da durao negativa (positiva) quando a taxa "hazard" diminui (aumenta) com a passagem do tempo.
Uma outra funo com interesse na anlise da durao a do valor esperado da durao condicionado
sobrevivncia no estado at s
es
s
tftdt
Ss
s
s
Stdt
Ss
ht lim
t0
Pt T t t T t
t
,
que permite deduzir a expresso da durao mdia como o integral da funo de sobrevivncia
e0 ET
0
Stdt.
3. Duraes incompletas
Muitas vezes as observaes sobre a durao de um dado episdio no so exactas. Frequentemente so
incompletas, seja porque somente conhecido que a durao excede um dado valor (neste caso dizem-se
censuradas direita), ou porque sabido que a contagem exacta da durao foi iniciada aps ter decorrido
j algum tempo (neste caso dizem-se censuradas esquerda). tambm possvel a simultaneidade destas
duas situaes gerando observaes censuradas por intervalo.
Seja T* uma varivel aleatria representando a durao na ausncia de qualquer censura e seja C o tempo de
censura. A durao observada ser ento T=min(T
*
,C). conveniente, nestas circunstncias, introduzir o
indicador de censura para o indivduo i
o
= _
u, scI
-
> C
;
1, scI
-
C
i
St
i
1i
.
A abordagem paramtrica estimao da funo de sobrevivncia pressupe a especificao da
distribuio da durao definida por um nmero finito de parmetros. Deve ser exercido especial cuidado
na escolha da funo de distribuio, j que a utilizao de funes de distribuio inadequadas conduz a
estimativas inconsistentes dos parmetros de interesse, e em particular, a resultados errneos sobre a
dependncia da durao. Importa ainda ter presente que a durao somente admite valores no-negativos.
As distribuies exponencial, Weibull, log-normal, log-logstica, Gompertz, Pareto, gama e gama
generalizada tm sido frequentemente utilizadas.
2
Sublinhe-se ainda que estas distribuies implicam
diferentes comportamentos da funo "hazard" no que diz respeito durao da dependncia.
4. Estimao no-paramtrica da funo de sobrevivncia
Uma forma conveniente de descrever a funo de sobrevivncia dada pela exibio do seu grfico. Para
uma amostra aleatria de dimenso n de duraes completas a funo de sobrevivncia emprica pode ser
simplesmente obtida por
S(t)
=
nJcI t
n
.
2
Ver Addison e Portugal (1987) para uma discusso sobre a escolha da distribuio da durao.
que permite deduzir a expresso da durao mdia como o integral da funo de sobrevivncia
e0 ET
0
Stdt.
3. Duraes incompletas
Muitas vezes as observaes sobre a durao de um dado episdio no so exactas. Frequentemente so
incompletas, seja porque somente conhecido que a durao excede um dado valor (neste caso dizem-se
censuradas direita), ou porque sabido que a contagem exacta da durao foi iniciada aps ter decorrido
j algum tempo (neste caso dizem-se censuradas esquerda). tambm possvel a simultaneidade destas
duas situaes gerando observaes censuradas por intervalo.
Seja T* uma varivel aleatria representando a durao na ausncia de qualquer censura e seja C o tempo de
censura. A durao observada ser ento T=min(T
*
,C). conveniente, nestas circunstncias, introduzir o
indicador de censura para o indivduo i
o
= _
u, scI
-
> C
;
1, scI
-
C
i
St
i
1i
.
A abordagem paramtrica estimao da funo de sobrevivncia pressupe a especificao da
distribuio da durao definida por um nmero finito de parmetros. Deve ser exercido especial cuidado
na escolha da funo de distribuio, j que a utilizao de funes de distribuio inadequadas conduz a
estimativas inconsistentes dos parmetros de interesse, e em particular, a resultados errneos sobre a
dependncia da durao. Importa ainda ter presente que a durao somente admite valores no-negativos.
As distribuies exponencial, Weibull, log-normal, log-logstica, Gompertz, Pareto, gama e gama
generalizada tm sido frequentemente utilizadas.
2
Sublinhe-se ainda que estas distribuies implicam
diferentes comportamentos da funo "hazard" no que diz respeito durao da dependncia.
4. Estimao no-paramtrica da funo de sobrevivncia
Uma forma conveniente de descrever a funo de sobrevivncia dada pela exibio do seu grfico. Para
uma amostra aleatria de dimenso n de duraes completas a funo de sobrevivncia emprica pode ser
simplesmente obtida por
S(t)
=
nJcI t
n
.
2
Ver Addison e Portugal (1987) para uma discusso sobre a escolha da distribuio da durao.
52 B o l e t i m S P E
Com dados censurados direita a funo de sobrevivncia pode ser obtida atravs do celebrado estimador
de Kaplan-Meier,
St
t
j
t
1
em que
= n
j
/r
j
com n
j
sendo igual ao nmero de indivduos que falham no momento t
j
e r
j
correspondendo ao nmero de indivduos em risco de sarem no momento imediatamente anterior a t
j
.
5. Anlise de regresso
Na anlise economtrica da durao importa considerar os efeitos dos regressores x (em que x um vector
de variveis explicativas) no comportamento de f(t | x), h(t | x) e S(t | x). Na formulao do modelo de
efeitos proporcionais (Cox, 1972) assume-se que os regressores influenciam de forma proporcional a taxa
"hazard"
ht x h
0
texpx
em que h
0
(t) representa h(t) quando x = 0. Dito de outra forma, x afecta linearmente o comportamento de
ln[h(t)]. Assim, nesta especificao, o rcio entre a taxa "hazard" de duas sub-populaes permanece
constante ao longo do tempo (admitindo x constante ao longo do tempo).
6. O plano amostral: o paradoxo do autocarro
O processo gerador da amostra de duraes observadas pelo investigador tem consequncias decisivas
sobre a forma de interpretar a informao recolhida (por exemplo, o significado da durao mdia) e,
portanto, sobre a especificao da funo de verosimilhana. absolutamente crucial na anlise da durao
caracterizar o plano amostral e avaliar as condies de identificao dos parmetros de interesse. No
contexto da investigao da experincia dos desempregados, importar distinguir trs situaes:
amostragem sobre o fluxo; amostragem sobre o stock; e a amostragem sobre um intervalo fixo.
6.1 Amostragem sobre o fluxo
A primeira ideia a reter ser a de que a amostragem sobre fluxos se relaciona de forma directa com os
parmetros da distribuio de durao da populao. Isto , uma amostra aleatria que acompanhe os
indivduos desde o incio do episdio ser representativa da populao. No caso da amostragem sobre
fluxos a funo de verosimilhana apropriada ser:
L
i1
n
ft
i
i
St
i
1i
.
6.2 Amostragem sobre o stock
J no caso de amostragens sobre o stock - isto , sobre a durao decorrida num estado pelos indivduos que
num dado instante se encontram nesse estado - necessrio ter presente, por um lado, que todas as duraes
so incompletas, e, por outro lado (e mais importante), que amostras recolhidas de acordo com este plano
amostral tendem a sobre-representar sistematicamente as duraes mais longas. Este ltimo aspecto
conhecido na literatura como "length bias sampling". Um exemplo esclarecedor de "length bias sampling"
o chamado paradoxo do autocarro (Feller, 1966). Admita-se que numa cidade os autocarros circulam
exactamente tabela com um intervalo de 60 minutos. Um passageiro que chegue aleatoriamente a uma
paragem, esperar, em mdia, 30 minutos pelo autocarro. Suponha-se agora que os autocarros chegam
aleatoriamente, de acordo com uma distribuio Poisson, passando, em mdia, um autocarro em cada 60
minutos. O resultado paradoxal que o mesmo passageiro esperar agora, em mdia, 60 minutos, o dobro
da situao inicial.
No caso da amostragem sobre stocks a funo de verosimilhana ponderada pela probabilidade de um
dado indivduo ser observado, a qual proporcional durao mdia. Admitindo um fluxo de entrada
constante, a expresso da funo de verosimilhana ser
L
i1
n
St
i
Stdt.
3. Duraes incompletas
Muitas vezes as observaes sobre a durao de um dado episdio no so exactas. Frequentemente so
incompletas, seja porque somente conhecido que a durao excede um dado valor (neste caso dizem-se
censuradas direita), ou porque sabido que a contagem exacta da durao foi iniciada aps ter decorrido
j algum tempo (neste caso dizem-se censuradas esquerda). tambm possvel a simultaneidade destas
duas situaes gerando observaes censuradas por intervalo.
Seja T* uma varivel aleatria representando a durao na ausncia de qualquer censura e seja C o tempo de
censura. A durao observada ser ento T=min(T
*
,C). conveniente, nestas circunstncias, introduzir o
indicador de censura para o indivduo i
o
= _
u, scI
-
> C
;
1, scI
-
C
i
St
i
1i
.
A abordagem paramtrica estimao da funo de sobrevivncia pressupe a especificao da
distribuio da durao definida por um nmero finito de parmetros. Deve ser exercido especial cuidado
na escolha da funo de distribuio, j que a utilizao de funes de distribuio inadequadas conduz a
estimativas inconsistentes dos parmetros de interesse, e em particular, a resultados errneos sobre a
dependncia da durao. Importa ainda ter presente que a durao somente admite valores no-negativos.
As distribuies exponencial, Weibull, log-normal, log-logstica, Gompertz, Pareto, gama e gama
generalizada tm sido frequentemente utilizadas.
2
Sublinhe-se ainda que estas distribuies implicam
diferentes comportamentos da funo "hazard" no que diz respeito durao da dependncia.
4. Estimao no-paramtrica da funo de sobrevivncia
Uma forma conveniente de descrever a funo de sobrevivncia dada pela exibio do seu grfico. Para
uma amostra aleatria de dimenso n de duraes completas a funo de sobrevivncia emprica pode ser
simplesmente obtida por
S(t)
=
nJcI t
n
.
2
Ver Addison e Portugal (1987) para uma discusso sobre a escolha da distribuio da durao.
Com dados censurados direita a funo de sobrevivncia pode ser obtida atravs do celebrado estimador
de Kaplan-Meier,
St
t
j
t
1
em que
= n
j
/r
j
com n
j
sendo igual ao nmero de indivduos que falham no momento t
j
e r
j
correspondendo ao nmero de indivduos em risco de sarem no momento imediatamente anterior a t
j
.
5. Anlise de regresso
Na anlise economtrica da durao importa considerar os efeitos dos regressores x (em que x um vector
de variveis explicativas) no comportamento de f(t | x), h(t | x) e S(t | x). Na formulao do modelo de
efeitos proporcionais (Cox, 1972) assume-se que os regressores influenciam de forma proporcional a taxa
"hazard"
ht x h
0
texpx
em que h
0
(t) representa h(t) quando x = 0. Dito de outra forma, x afecta linearmente o comportamento de
ln[h(t)]. Assim, nesta especificao, o rcio entre a taxa "hazard" de duas sub-populaes permanece
constante ao longo do tempo (admitindo x constante ao longo do tempo).
6. O plano amostral: o paradoxo do autocarro
O processo gerador da amostra de duraes observadas pelo investigador tem consequncias decisivas
sobre a forma de interpretar a informao recolhida (por exemplo, o significado da durao mdia) e,
portanto, sobre a especificao da funo de verosimilhana. absolutamente crucial na anlise da durao
caracterizar o plano amostral e avaliar as condies de identificao dos parmetros de interesse. No
contexto da investigao da experincia dos desempregados, importar distinguir trs situaes:
amostragem sobre o fluxo; amostragem sobre o stock; e a amostragem sobre um intervalo fixo.
6.1 Amostragem sobre o fluxo
A primeira ideia a reter ser a de que a amostragem sobre fluxos se relaciona de forma directa com os
parmetros da distribuio de durao da populao. Isto , uma amostra aleatria que acompanhe os
indivduos desde o incio do episdio ser representativa da populao. No caso da amostragem sobre
fluxos a funo de verosimilhana apropriada ser:
L
i1
n
ft
i
i
St
i
1i
.
6.2 Amostragem sobre o stock
J no caso de amostragens sobre o stock - isto , sobre a durao decorrida num estado pelos indivduos que
num dado instante se encontram nesse estado - necessrio ter presente, por um lado, que todas as duraes
so incompletas, e, por outro lado (e mais importante), que amostras recolhidas de acordo com este plano
amostral tendem a sobre-representar sistematicamente as duraes mais longas. Este ltimo aspecto
conhecido na literatura como "length bias sampling". Um exemplo esclarecedor de "length bias sampling"
o chamado paradoxo do autocarro (Feller, 1966). Admita-se que numa cidade os autocarros circulam
exactamente tabela com um intervalo de 60 minutos. Um passageiro que chegue aleatoriamente a uma
paragem, esperar, em mdia, 30 minutos pelo autocarro. Suponha-se agora que os autocarros chegam
aleatoriamente, de acordo com uma distribuio Poisson, passando, em mdia, um autocarro em cada 60
minutos. O resultado paradoxal que o mesmo passageiro esperar agora, em mdia, 60 minutos, o dobro
da situao inicial.
No caso da amostragem sobre stocks a funo de verosimilhana ponderada pela probabilidade de um
dado indivduo ser observado, a qual proporcional durao mdia. Admitindo um fluxo de entrada
constante, a expresso da funo de verosimilhana ser
L
i1
n
St
i
i1
n
St
i
uma sucesso de v.a.'s i.i.d., a v.a. X diz-se estvel sse para todo o n | N existem
constantes R |
n n
b e a > 0 tais que
( ) 1 2
1
. n , X
d
n
a
n
i
n
b
i
Y
+
A classe das distribuies estveis tem funo caracterstica (f.c.) da forma
77 O u t o n o d e 2 0 0 9
AS ESTVEIS NO R
Helena Iglsias Pereira, hmpereira@fc.ul.pt
CEAUL e Departamento de Estatstica e Investigao Operacional, FCUL
1. INTRODUO
comum em estatstica aplicada, assumir que os fenmenos aleatrios observados so o efeito de um
grande nmero de causas independentes e no observveis que se adicionam resultando no fenmeno
em estudo. Pelo teorema Limite Central a soma de variveis aleatrias independentes e identicamente
distribudas (i.i.d.) convenientemente centrada e reduzida, tem distribuio assinttica normal. Mais
geralmente, a soma de v.a.'s i.i.d., convenientemente normada tem ainda distribuio normal, desde
que se imponham algumas condies no comportamento assinttico do segundo momento truncado
das parcelas.
Pelo Teorema Limite Central Generalizado, se a soma de v.a.'s i.i.d. tem distribuio limite no
degenerada esta distribuio tem de ser um elemento da classe das leis estveis, de que a normal o
nico elemento com varincia finita.
A classe das distribuies estveis caracterizada por quatro parmetros, usualmente designados
por , , a e c, respectivamente o expoente caracterstico, parmetro de assimetria, localizao e
escala.
As variveis aleatrias estveis tm propriedades aditivas interessantes e so absolutamente
contnuas, mas somente se conhecem expresses analticas das funes densidade de probabilidade
(f.d.p.) correspondentes aos casos: =2 (normal), =1, =0 (Cauchy) e =1/2, =1 (Lvy).
Este facto aliado no existncia de alguns momentos destas distribuies, dificulta muito o
problema da inferncia estatstica em modelos estveis. No entanto, estas distribuies so usadas
numa grande variedade de problemas de economia, finanas, engenharia e estatstica [1].
Mais recentemente, a existncia de programas de computador com suficiente preciso permite
calcular as funes densidade, as funes de distribuio, os quantis e gerar amostras aleatrias destas
distribuies, nomeadamente o software R 2.6.2, como iremos ilustrar ao longo deste artigo.
2. MODELOS ESTVEIS: DEFINIES E PROPRIEDADES
Seja { }
N | n i
Y
uma sucesso de v.a.'s i.i.d., a v.a. X diz-se estvel sse para todo o n | N existem
constantes R |
n n
b e a > 0 tais que
( ) 1 2
1
. n , X
d
n
a
n
i
n
b
i
Y
+
A classe das distribuies estveis tem funo caracterstica (f.c.) da forma
( ) ( ) ( ) 2 2 1 . , t
t
t
i t c iat exp t
(
(
( )
( )
( ] [ ] ( ) 3 2 1 1 2 0 0
1
2
1 2
. , , , , c , a
, t ln
, tan
, t >
=
Existem outras representaes da f.c. de uma distribuio estvel [5], mas esta a mais usual.
As distribuies estveis tm propriedades interessantes:
I) As caudas da funo de distribuio (f.d.) F de uma v.a. X estvel satisfazem
[ ]
( )
0) >
2
k +
1
k e 0
2
k ,
1
k 0, > (C e x quando
.
k k
k
C ) x ( F x
k k
k
C ) x ( F x
+
+
4 2
2
1 2
1
2
1 2
2
1
Donde se conclui que o expoente caracterstico (e.c.) est intimamente relacionado com o
comportamento das caudas da f.d., sendo o peso destas tanto menor quanto maior o e.c. (a normal a
estvel com caudas mais leves).
II) Toda a distribuio estvel de e.c. ( 2 0 < < ) tem momentos absolutos finitos de ordem
( ) , 0 (esta propriedade consequncia da anterior).
III) Dado que a funo caracterstica (t) absolutamente integrvel, todas as distribuies estveis
so absolutamente contnuas.
Por outro lado, o parmetro de assimetria "compara" o peso da cauda direita com o peso da cauda
esquerda
( )
2 1
1 2
5 2
2 1
1
1
2 1
2
1
1
k k
k k
= se tendo
.
k k
k
) x ( F ) x ( F
) x ( F
lim
x
k k
k
) x ( F ) x ( F
) x ( F
lim
x
+
+
=
+
+
+
=
+
E quando 1 , tem-se ainda a seguinte relao [2]
( )
( ) ( )
( ) 6 2
2
1
0
2
.
arctan
, ; F
tan
=
78 B o l e t i m S P E
Tambm para =1 se pode verificar que ( ) , ; F 0 decresce com [4]. Podemos pois concluir que o
parmetro de assimetria est relacionado com as caudas da f.d. e com o valor desta no ponto x=0.
A funo stableSlider da biblioteca Rmetrics do software R verso 2.6.2, permite visualizar a f.d.
e a f.d.p. de uma v.a. estvel de parmetros ( ) c , a , , e que passaremos a designar por ( ) c , a , , S .
Nesta funo a parametrizao 1 a que corresponde representao (2.2), para a qual se verifica
a relao (2.6). Quando =0 a distribuio simtrica e portanto ( ) 5 0 0 . , ; F = , 1 .
79 O u t o n o d e 2 0 0 9
Tambm para =1 se pode verificar que ( ) , ; F 0 decresce com [4]. Podemos pois concluir que o
parmetro de assimetria est relacionado com as caudas da f.d. e com o valor desta no ponto x=0.
A funo stableSlider da biblioteca Rmetrics do software R verso 2.6.2, permite visualizar a f.d.
e a f.d.p. de uma v.a. estvel de parmetros ( ) c , a , , e que passaremos a designar por ( ) c , a , , S .
Nesta funo a parametrizao 1 a que corresponde representao (2.2), para a qual se verifica
a relao (2.6). Quando =0 a distribuio simtrica e portanto ( ) 5 0 0 . , ; F = , 1 .
Para outros valores de tem-se por exemplo, ( ) 0.5556 , . ; F = 1 8 1 0 e ( ) 0.9715 . , . ; F = 8 0 8 0 0 .
Quando =1 a relao (2.6) no vlida, mas podemos verificar que ( ) , ; F 0 decresce com .
3. GERAO DE ESTVEIS: UMA APLICAO
Seja X uma varivel aleatria estvel de parmetros reais ( ] [ ] 0 1 1 2 0 > c , R a , , , , .
Suponhamos que todos os parmetros so conhecidos excepto o parmetro de assimetria , e que a=0
e c=1 por comodidade de clculo. Como j foi referido anteriormente tem-se
( )
( ) ( )
( ) 1 3
2
2
1
0 .
tan arctan
, ; F
=
E resolvendo em ordem a obtm-se
( )
( )
( ) 2 3
2
0
2
1
.
tan
, ; F tan
=
A relao anterior permite obter um estimador do parmetro quando conhecido. Seja
( )
n
X ,... X
1
uma amostra aleatria de uma populao estvel padro ( ) 1 0, , , S que designaremos
abreviadamente por ( ) , S , ento
( )
( )
( ) 3 3
2
0
2
1
.
tan
, ; F tan
*
n
*
n
=
onde ( ) x F
*
n
a funo de distribuio emprica.
A funo rstable (n, alpha, beta, gamma, delta, pm=c (0, 1, 2)), onde gamma o parmetro de
escala c, delta o parmetro de localizao a e o parmetro pm indica a parametrizao utilizada,
permite gerar amostras de uma distribuio ( ) c , a , , S . A parametrizao que nos interessa a 1 como
j referimos.
A ttulo de exemplo, inclumos o programa para a obteno de estimativas de a partir da gerao
de m amostras de dimenso n de uma estvel padro S (0.9,0.5).
n<-500
m<-100
alpha<-0.9
beta<-0.5
s<-matrix(0,nrow=n,ncol=m)
freq<-matrix(0,nrow=1,ncol=m)
F0_emp<-matrix(0,nrow=1,ncol=m)
estbeta<-matrix(0,nrow=1,ncol=m)
set.seed(011)
for(j in 1:m){s[,j]<-rstable(n,alpha,beta,1,0,1)
freq[,j]<-length(subset(s[,j],s[,j]<=0))
F0_emp[,j]<-freq[,j]/n # f.d. emprica no pto x=0
estbeta[,j]<-tan(alpha*pi*(0.5- F0_emp[,j]))/tan(pi*alpha/2)}
F0_emp
estbeta
round(mean(estbeta),4)
[1] 0.5046
var<-matrix(0,nrow=1,ncol=m)
for(j in 1:m){ var[,j]<-((estbeta[,j]-mean(estbeta)))^2/(m-1)}
round(sqrt(sum(var)),4)
[1] 0.0472
hist(estbeta, freq=FALSE, right=FALSE, breaks="Sturges", xlab="estbeta",
main="S(0.9, 0.5)", col="lightblue")
80 B o l e t i m S P E
( )
( )
( ) 2 3
2
0
2
1
.
tan
, ; F tan
=
A relao anterior permite obter um estimador do parmetro quando conhecido. Seja
( )
n
X ,... X
1
uma amostra aleatria de uma populao estvel padro ( ) 1 0, , , S que designaremos
abreviadamente por ( ) , S , ento
( )
( )
( ) 3 3
2
0
2
1
.
tan
, ; F tan
*
n
*
n
=
onde ( ) x F
*
n
a funo de distribuio emprica.
A funo rstable (n, alpha, beta, gamma, delta, pm=c (0, 1, 2)), onde gamma o parmetro de
escala c, delta o parmetro de localizao a e o parmetro pm indica a parametrizao utilizada,
permite gerar amostras de uma distribuio ( ) c , a , , S . A parametrizao que nos interessa a 1 como
j referimos.
A ttulo de exemplo, inclumos o programa para a obteno de estimativas de a partir da gerao
de m amostras de dimenso n de uma estvel padro S (0.9,0.5).
n<-500
m<-100
alpha<-0.9
beta<-0.5
s<-matrix(0,nrow=n,ncol=m)
freq<-matrix(0,nrow=1,ncol=m)
F0_emp<-matrix(0,nrow=1,ncol=m)
estbeta<-matrix(0,nrow=1,ncol=m)
set.seed(011)
for(j in 1:m){s[,j]<-rstable(n,alpha,beta,1,0,1)
freq[,j]<-length(subset(s[,j],s[,j]<=0))
F0_emp[,j]<-freq[,j]/n # f.d. emprica no pto x=0
estbeta[,j]<-tan(alpha*pi*(0.5- F0_emp[,j]))/tan(pi*alpha/2)}
F0_emp
estbeta
round(mean(estbeta),4)
[1] 0.5046
var<-matrix(0,nrow=1,ncol=m)
for(j in 1:m){ var[,j]<-((estbeta[,j]-mean(estbeta)))^2/(m-1)}
round(sqrt(sum(var)),4)
[1] 0.0472
hist(estbeta, freq=FALSE, right=FALSE, breaks="Sturges", xlab="estbeta",
main="S(0.9, 0.5)", col="lightblue")
Ao apresentarmos este estimador do parmetro obtido em situaes muito particulares, todos os
restantes parmetros so conhecidos, pretendemos simplesmente dar um exemplo de aplicao da
funo rstable() do package Rmetrics do R verso 2.6.2.
4. AGRADECIMENTOS
A autora agradece ao Professor John P. Nolan os seus valiosos esclarecimentos relativamente
parametrizao a utilizar na funo rstable.
5. REFERNCIAS
[1] Adler, Robert J., Feldman, Raisa E., Taqqu, Murad S. (1998). A Practical Guide to Heavy Tails,
Birkhauser.
[2] Iglsias Pereira, H. (2009). As estveis no R. Notas e Comunicaes, 9/2009 .
[3] Nolan, John P. (1998). Parameterizations and models of stable distributions. Statistics and
Probability Letters, 38, p. 187-195.
[4] Nolan, John P. (2009). Stable Distributions- Models for Heavy Tailed Data, Captulo 1,
http://academic2.american.edu/~jpnolan/stable/stable.html.
[5] Zolotarev, V.M. (1986). One-dimensional Stable Distributions. Am. Math. Society. Providence,
R.I.
81 O u t o n o d e 2 0 0 9
( )
( )
( ) 2 3
2
0
2
1
.
tan
, ; F tan
=
A relao anterior permite obter um estimador do parmetro quando conhecido. Seja
( )
n
X ,... X
1
uma amostra aleatria de uma populao estvel padro ( ) 1 0, , , S que designaremos
abreviadamente por ( ) , S , ento
( )
( )
( ) 3 3
2
0
2
1
.
tan
, ; F tan
*
n
*
n
=
onde ( ) x F
*
n
a funo de distribuio emprica.
A funo rstable (n, alpha, beta, gamma, delta, pm=c (0, 1, 2)), onde gamma o parmetro de
escala c, delta o parmetro de localizao a e o parmetro pm indica a parametrizao utilizada,
permite gerar amostras de uma distribuio ( ) c , a , , S . A parametrizao que nos interessa a 1 como
j referimos.
A ttulo de exemplo, inclumos o programa para a obteno de estimativas de a partir da gerao
de m amostras de dimenso n de uma estvel padro S (0.9,0.5).
n<-500
m<-100
alpha<-0.9
beta<-0.5
s<-matrix(0,nrow=n,ncol=m)
freq<-matrix(0,nrow=1,ncol=m)
F0_emp<-matrix(0,nrow=1,ncol=m)
estbeta<-matrix(0,nrow=1,ncol=m)
set.seed(011)
for(j in 1:m){s[,j]<-rstable(n,alpha,beta,1,0,1)
freq[,j]<-length(subset(s[,j],s[,j]<=0))
F0_emp[,j]<-freq[,j]/n # f.d. emprica no pto x=0
estbeta[,j]<-tan(alpha*pi*(0.5- F0_emp[,j]))/tan(pi*alpha/2)}
F0_emp
estbeta
round(mean(estbeta),4)
[1] 0.5046
var<-matrix(0,nrow=1,ncol=m)
for(j in 1:m){ var[,j]<-((estbeta[,j]-mean(estbeta)))^2/(m-1)}
round(sqrt(sum(var)),4)
[1] 0.0472
hist(estbeta, freq=FALSE, right=FALSE, breaks="Sturges", xlab="estbeta",
main="S(0.9, 0.5)", col="lightblue")
Ao apresentarmos este estimador do parmetro obtido em situaes muito particulares, todos os
restantes parmetros so conhecidos, pretendemos simplesmente dar um exemplo de aplicao da
funo rstable() do package Rmetrics do R verso 2.6.2.
4. AGRADECIMENTOS
A autora agradece ao Professor John P. Nolan os seus valiosos esclarecimentos relativamente
parametrizao a utilizar na funo rstable.
5. REFERNCIAS
[1] Adler, Robert J., Feldman, Raisa E., Taqqu, Murad S. (1998). A Practical Guide to Heavy Tails,
Birkhauser.
[2] Iglsias Pereira, H. (2009). As estveis no R. Notas e Comunicaes, 9/2009 .
[3] Nolan, John P. (1998). Parameterizations and models of stable distributions. Statistics and
Probability Letters, 38, p. 187-195.
[4] Nolan, John P. (2009). Stable Distributions- Models for Heavy Tailed Data, Captulo 1,
http://academic2.american.edu/~jpnolan/stable/stable.html.
[5] Zolotarev, V.M. (1986). One-dimensional Stable Distributions. Am. Math. Society. Providence,
R.I.
82 B o l e t i m S P E
Deteco de Fraude usando o R: um caso de estudo
Lus Torgo, ltorgo@liaad.up.pt
LIAAD / Inesc Porto, LA / Faculdade de Cincias / Universidade do Porto
Deteccao de Fraude usando o R:
um caso de estudo
Lus Torgo
LIAAD / Inesc Porto, LA / Faculdade de Ciencias
Universidade do Porto
15 de Setembro de 2009
1 Introducao
Este pequeno artigo pretende ilustrar a utilizacao do R [11] num problema concreto que e en-
quadravel no cenario mais lato da an alise de dados para apoiar a tarefa de deteccao de fraude em
ambientes com recursos de inspeccao limitados. A motiva cao para o uso desta ferramenta esta
relacionada fortemente com as suas caractersticas de codigo aberto e tambem a sua disponibi-
lizacao gratuita. Estas caractersticas permitem uma facil adaptacao de ferramentas existentes a
novos problemas. Para alem disso o poder da linguagem de programacao que lhe esta associada
permite o facil e rapido desenvolvimento de prot otipos que podem ser usados para testar ideias.
Finalmente, ao disponibilizar uma quantidade impressionante, e em constante crescimento, de fer-
ramentas e metodos de analise de dados, o R facilita grandemente o teste, avaliacao e compara cao
de diferentes metodologias para abordar um problema.
A deteccao de fraude e uma tarefa com forte impacto econ omico e social em in umeras areas
de actividade humana. As ferramentas inform aticas tem vindo a ser cada vez mais usadas para
a recolha de dados sobre uma grande parte das actividades humanas, levando muitas vezes `a
criacao de bases de dados de tamanho demasiado grande para a inspec cao humana. Pela sua
sensibilidade, as actividades onde a deteccao de fraude tem lugar, tambem se encontram fortemente
monitorizadas. Neste contexto, o uso de ferramentas de analise de dados para suportar e apoiar a
tarefa de detecc ao de fraude tras vantagens obvias.
O comportamento fraudulento e normalmente um desvio `a norma na actividade em causa.
Assim, nao e surpreendente que a detec cao destes desvios esteja relacionada com a deteccao de
outliers nas bases de dados que descrevem estas actividades. A deteccao de outliers e uma tarefa
de analise de dados por demais estudada e explorada em in umeras areas do saber (e.g. [5, 2, 4]).
O papel das ferramentas de analise de dados no contexto da detec cao de fraude e o de fornecer
pistas que possam ajudar na tarefa de inspecc ao dos casos suspeitos. Estas tarefas de inspeccao
estao normalmente sujeitas a fortes restricoes de recursos tanto humanos como nanceiros. De
facto, em muitas organizacoes nao existem recursos que possibilitem a inspeccao de todos os casos
minimamente suspeitos. Assim, e importante para estas organizacoes direccionar os seus recursos
para os casos mais relevantes. Esta nocao de relevancia e obviamente dependente do domnio
de aplicacao em causa. Podera ser relevancia economica, por exemplo interessando detectar as
situacoes com maior retorno nanceiro, mas tambem podera estar ligada a outros factores, por
exemplo sociais, n umero de deteccoes, etc..
Uma grande parte dos metodos de deteccao de outliers existentes limitam-se a fornecer uma
classicacao das observacoes em normais ou desviantes, de acordo com uma qualquer metodologia.
Este tipo de abordagens e pouco adequado a cenarios de deteccao de fraude com recursos limitados.
De facto, e facil deparar com situacoes em que sao sinalizadas mais observacoes desviantes do
que aquelas que os recursos actuais permitem inspeccionar. Neste contexto, sao de muito maior
utilidade ferramentas de deteccao de outliers que fornecam como resultado um ranking de grau
de desvio `a normalidade das observacoes fornecidas `a ferramenta. Munidos deste ranking, os
utilizadores poderao direccionar os recursos disponveis de forma mais racional, optimizando desta
forma os resultados obtidos com os mesmos.
E esta a assumpcao base do trabalho aqui descrito.
2 Um Caso de Estudo
As companhias Portuguesas tem que declarar mensalmente as suas transaccoes comerciais com
outros pases da UE ao Instituto Nacional de Estatstica (INE). Estes dados sao fornecidos atraves
de um formulario chamado INTRASTAT, cujo conte udo fornece ao INE informacoes como o
peso, o custo, a identica cao dos itens transaccionados, etc.. Posteriormente, estes dados sao
inseridos numa base de dados para utilizacao na producao de estatsticas de comercio externo.
Durante o preenchimento desses formularios podem ocorrer erros e a sua identicacao e de extrema
importancia para que as estatsticas calculadas a partir deles sejam dedignas. Os erros mais
frequentes sao por exemplo o da introdu cao de identicadores de artigos (IDs) incorrectos que vao
associar uma transacc ao a atributos errados, ou o uso incorrecto de unidades de medida como
declarar o peso em toneladas em vez de quilos. Estes erros podem ser vistos como anomalias
relativamente ao que sao as caractersticas tpicas das transaccoes envolvendo o mesmo tipo de
produtos. Neste contexto, e dada a sua raridade, eles tem todas as caractersticas de uma fraude
no sentido descrito anteriormente
1
.
Para saber se uma transaccao contem um erro ou nao, os especialistas do INE inspeccionam
manualmente as informa coes de que dispoem. Dado que o n umero de transac coes e da ordem
dos milhares por mes, e que os recursos humanos disponveis para esta tarefa sao limitados, um
sistema automatico que de apoio para esta tarefa de inspeccao e altamente desejavel. Este e o
nosso objectivo operacional com este trabalho.
O INE forneceu-nos uma base de dados com informacao sobre este tipo de transaccoes. Os
dados dizem respeito a oito meses do ano de 1998. Para cada mes, cada artigo possui um determi-
nado n umero de transaccoes. O n umero de transac coes varia dependendo do artigo e do mes. Por
exemplo, o artigo com ID 2013000 possui 70 transaccoes no mes de Setembro mas em Outubro
nao possui qualquer transac cao.
Ao longo do tempo, os especialistas do INE adquiriram algumas estrategias para lidar com
este problema. Em seguida apresentamos alguns dos conselhos que nos foram dados:
Utilizar a variavel custo por quilo para a identicacao das transaccoes com erros - de acordo
com os peritos do INE a variavel custo por quilo, que e obtida dividindo-se os custos de cada
transaccao pelos seus respectivos pesos, e a variavel mais eciente na deteccao dos erros.
Inspeccionar os artigos separadamente - este conselho decorre da diversidade dos itens. Por
exemplo, considerar o preco padrao do vinho so faz sentido quando estamos a tratar de
transaccoes de vinho.
Processar os dados mensalmente - esta e a forma como os dados eram tratados no INE na
epoca em que obtivemos os dados.
Enviar para inspeccao todas as transaccoes dos artigos com poucas transacc oes.
No conjunto de dados fornecidos, existe uma coluna com o resultado da inspeccao feita pelos
peritos do INE. Esta coluna so indica quais as transaccoes que foram identicadas como erro.
Nas transaccoes nao sinalizadas pode dar-se uma de duas situacoes: ou foram inspeccionadas
e nao foram consideradas erro; ou nao foram inspeccionadas. Infelizmente, na base de dados
1
Na realidade algumas dessas situacoes podem ser mesmo tentativas de fraude, embora possam tambem ser
simplesmente erros de introducao dos dados.
83 O u t o n o d e 2 0 0 9
utilidade ferramentas de deteccao de outliers que fornecam como resultado um ranking de grau
de desvio `a normalidade das observacoes fornecidas `a ferramenta. Munidos deste ranking, os
utilizadores poderao direccionar os recursos disponveis de forma mais racional, optimizando desta
forma os resultados obtidos com os mesmos.
E esta a assumpcao base do trabalho aqui descrito.
2 Um Caso de Estudo
As companhias Portuguesas tem que declarar mensalmente as suas transaccoes comerciais com
outros pases da UE ao Instituto Nacional de Estatstica (INE). Estes dados sao fornecidos atraves
de um formulario chamado INTRASTAT, cujo conte udo fornece ao INE informacoes como o
peso, o custo, a identica cao dos itens transaccionados, etc.. Posteriormente, estes dados sao
inseridos numa base de dados para utilizacao na producao de estatsticas de comercio externo.
Durante o preenchimento desses formularios podem ocorrer erros e a sua identicacao e de extrema
importancia para que as estatsticas calculadas a partir deles sejam dedignas. Os erros mais
frequentes sao por exemplo o da introdu cao de identicadores de artigos (IDs) incorrectos que vao
associar uma transacc ao a atributos errados, ou o uso incorrecto de unidades de medida como
declarar o peso em toneladas em vez de quilos. Estes erros podem ser vistos como anomalias
relativamente ao que sao as caractersticas tpicas das transaccoes envolvendo o mesmo tipo de
produtos. Neste contexto, e dada a sua raridade, eles tem todas as caractersticas de uma fraude
no sentido descrito anteriormente
1
.
Para saber se uma transaccao contem um erro ou nao, os especialistas do INE inspeccionam
manualmente as informa coes de que dispoem. Dado que o n umero de transac coes e da ordem
dos milhares por mes, e que os recursos humanos disponveis para esta tarefa sao limitados, um
sistema automatico que de apoio para esta tarefa de inspeccao e altamente desejavel. Este e o
nosso objectivo operacional com este trabalho.
O INE forneceu-nos uma base de dados com informacao sobre este tipo de transaccoes. Os
dados dizem respeito a oito meses do ano de 1998. Para cada mes, cada artigo possui um determi-
nado n umero de transaccoes. O n umero de transac coes varia dependendo do artigo e do mes. Por
exemplo, o artigo com ID 2013000 possui 70 transaccoes no mes de Setembro mas em Outubro
nao possui qualquer transac cao.
Ao longo do tempo, os especialistas do INE adquiriram algumas estrategias para lidar com
este problema. Em seguida apresentamos alguns dos conselhos que nos foram dados:
Utilizar a variavel custo por quilo para a identicacao das transaccoes com erros - de acordo
com os peritos do INE a vari avel custo por quilo, que e obtida dividindo-se os custos de cada
transaccao pelos seus respectivos pesos, e a variavel mais eciente na deteccao dos erros.
Inspeccionar os artigos separadamente - este conselho decorre da diversidade dos itens. Por
exemplo, considerar o preco padrao do vinho so faz sentido quando estamos a tratar de
transaccoes de vinho.
Processar os dados mensalmente - esta e a forma como os dados eram tratados no INE na
epoca em que obtivemos os dados.
Enviar para inspeccao todas as transaccoes dos artigos com poucas transaccoes.
No conjunto de dados fornecidos, existe uma coluna com o resultado da inspeccao feita pelos
peritos do INE. Esta coluna so indica quais as transaccoes que foram identicadas como erro.
Nas transaccoes nao sinalizadas pode dar-se uma de duas situacoes: ou foram inspeccionadas
e nao foram consideradas erro; ou nao foram inspeccionadas. Infelizmente, na base de dados
1
Na realidade algumas dessas situacoes podem ser mesmo tentativas de fraude, embora possam tambem ser
simplesmente erros de introducao dos dados.
utilidade ferramentas de deteccao de outliers que fornecam como resultado um ranking de grau
de desvio `a normalidade das observacoes fornecidas `a ferramenta. Munidos deste ranking, os
utilizadores poderao direccionar os recursos disponveis de forma mais racional, optimizando desta
forma os resultados obtidos com os mesmos.
E esta a assumpcao base do trabalho aqui descrito.
2 Um Caso de Estudo
As companhias Portuguesas tem que declarar mensalmente as suas transaccoes comerciais com
outros pases da UE ao Instituto Nacional de Estatstica (INE). Estes dados sao fornecidos atraves
de um formulario chamado INTRASTAT, cujo conte udo fornece ao INE informacoes como o
peso, o custo, a identica cao dos itens transaccionados, etc.. Posteriormente, estes dados sao
inseridos numa base de dados para utilizacao na producao de estatsticas de comercio externo.
Durante o preenchimento desses formularios podem ocorrer erros e a sua identicacao e de extrema
importancia para que as estatsticas calculadas a partir deles sejam dedignas. Os erros mais
frequentes sao por exemplo o da introdu cao de identicadores de artigos (IDs) incorrectos que vao
associar uma transacc ao a atributos errados, ou o uso incorrecto de unidades de medida como
declarar o peso em toneladas em vez de quilos. Estes erros podem ser vistos como anomalias
relativamente ao que sao as caractersticas tpicas das transaccoes envolvendo o mesmo tipo de
produtos. Neste contexto, e dada a sua raridade, eles tem todas as caractersticas de uma fraude
no sentido descrito anteriormente
1
.
Para saber se uma transaccao contem um erro ou nao, os especialistas do INE inspeccionam
manualmente as informa coes de que dispoem. Dado que o n umero de transac coes e da ordem
dos milhares por mes, e que os recursos humanos disponveis para esta tarefa sao limitados, um
sistema automatico que de apoio para esta tarefa de inspeccao e altamente desejavel. Este e o
nosso objectivo operacional com este trabalho.
O INE forneceu-nos uma base de dados com informacao sobre este tipo de transaccoes. Os
dados dizem respeito a oito meses do ano de 1998. Para cada mes, cada artigo possui um determi-
nado n umero de transaccoes. O n umero de transac coes varia dependendo do artigo e do mes. Por
exemplo, o artigo com ID 2013000 possui 70 transaccoes no mes de Setembro mas em Outubro
nao possui qualquer transac cao.
Ao longo do tempo, os especialistas do INE adquiriram algumas estrategias para lidar com
este problema. Em seguida apresentamos alguns dos conselhos que nos foram dados:
Utilizar a variavel custo por quilo para a identicacao das transaccoes com erros - de acordo
com os peritos do INE a variavel custo por quilo, que e obtida dividindo-se os custos de cada
transaccao pelos seus respectivos pesos, e a variavel mais eciente na deteccao dos erros.
Inspeccionar os artigos separadamente - este conselho decorre da diversidade dos itens. Por
exemplo, considerar o preco padrao do vinho so faz sentido quando estamos a tratar de
transaccoes de vinho.
Processar os dados mensalmente - esta e a forma como os dados eram tratados no INE na
epoca em que obtivemos os dados.
Enviar para inspeccao todas as transaccoes dos artigos com poucas transacc oes.
No conjunto de dados fornecidos, existe uma coluna com o resultado da inspeccao feita pelos
peritos do INE. Esta coluna so indica quais as transaccoes que foram identicadas como erro.
Nas transaccoes nao sinalizadas pode dar-se uma de duas situacoes: ou foram inspeccionadas
e nao foram consideradas erro; ou nao foram inspeccionadas. Infelizmente, na base de dados
1
Na realidade algumas dessas situacoes podem ser mesmo tentativas de fraude, embora possam tambem ser
simplesmente erros de introducao dos dados.
fornecida nao havia qualquer distincao entre estas duas situa coes. Assim, possumos informacao
somente sobre os erros detectados. Isto tem impacto nas medidas de avaliacao que vamos usar
para qualicar as metodologias que iremos tentar nesta tarefa de analise de dados.
Qualquer metodologia que seja usada nestes dados vai pegar num conjunto de dados referentes
`as transacc oes de um determinado mes e vai sugerir um sub-conjunto destas como sendo as com
maior potencial para serem erros. Seja N
i
o conjunto de transac coes no mes i, e n
i
o conjunto
de erros identicados por um qualquer modelo. Vamos denir a percentagem de transaccoes
seleccionadas para inspec cao como uma das medidas de avaliacao, %S = n
i
/N
i
. De acordo com o
INE, para uma metodologia ser aceitavel tem que ter %S 50%. Seja E
i
o conjunto de observacoes
etiquetadas como erros pelos peritos do INE no mes i, e seja e
i
o subconjunto de n
i
que pertence a E
i
.
Neste contexto denimos uma outra estatstica de performance como sendo o Recall, %R = e
i
/E
i
.
Mais uma vez o INE dene como criterio mnimo para uma metodologia ser aceit avel atingir um
valor de %R=90%. Resumindo iremos qualicar a performance de qualquer modelo por um par de
valores, < %S, %R >, sendo que o INE dene como criterios mnimos que %S 50%%R 90%.
3 A Metodologia Proposta
A nossa metodologia para abordar este problema e baseada em metodos de agrupamento hi-
erarquico. Os metodos de agrupamento hierarquico podem ser usados para identicar outliers
como efeito lateral do processo de agrupamento (e.g. [10]). A maioria dos metodos de agrupa-
mento baseiam-se na informacao de uma matriz de distancias e portanto podem ser classicados
como metodos de deteccao de outliers baseados em distancias (e.g. [7]). Todavia metodos iterativos
como os metodos hierarquicos de agrupamento (e.g. [6]) conseguem lidar com regioes de diferente
densidade o que e um dos maiores problemas dos metodos de deteccao de outliers baseados em
distancias. De facto, olhando por exemplo para os metodos hierarquicos aglomerativos, eles pro-
cedem de forma iterativa juntando dois dos grupos actuais baseados num criterio relacionado com
a sua proximidade, sendo esta decisao tomada localmente, i.e. levando em conta unicamente os
dois grupos em causa.
A ideia geral do metodo que foi desenvolvido tem a ver com usar o percurso de cada obser-
va cao pelo dendrograma como fonte de informacao para obter um grau de outlier para a mesma. A
motivacao resulta na assumpcao que, tendo em conta os criterios usados para o processo de aglom-
eracao nos algoritmos de agrupamento hierarquico, os outliers deverao oferecer granderesistencia
a serem juntos num grupo com outras observacoes, nomeadamente se este grupo for formado por
um grande n umero de observacoes normais. Em resumo, a ideia chave da metodologia desen-
volvida [12] e a de usar a altura em que uma observacao e junta a outras durante o processo
aglomerativo de agrupamento hierarquico, como indicador do grau de desvio da mesma, e desta
forma obter um ranking de outliers. Cada observacao pode participar em varias juncoes ao longo
do processo iterativo. Levando isso em conta denimos o grau de outlier de uma observacao como,
OF
H
(x) = max
i
of
i
(x) (1)
em que i toma valores entre 1 e N 1 e representa o conjunto de passos de juncao em que x
participa, sendo N o n umero de observacoes do conjunto de dados.
A motivacao para esta formula tem a ver com tentar capturar tanto outliers locais como outliers
globais. Os outliers locais sao observacoes que tipicamente ofereceram uma grande resistencia
a serem juntos com os seus vizinhos mais proximos, dado serem outliers neste contexto local.
Todavia, assim que se juntam a estes, passando portanto a fazer parte de um conjunto maior de
observacoes, deixam de ser vistos como outliers.
A funcao o f
i
() determina o grau de outlier de uma observacao que participa na juncao que
teve lugar no passo i do processo iterativo de agrupamento. Denimo-la como sendo funcao da
diferen ca entre os tamanhos dos dois grupos envolvidos na juncao no passo i. A ideia e a de que
sempre que estamos em presen ca de uma juncao entre dois grupos com tamanho muito diferente,
84 B o l e t i m S P E
fornecida nao havia qualquer distincao entre estas duas situa coes. Assim, possumos informacao
somente sobre os erros detectados. Isto tem impacto nas medidas de avaliacao que vamos usar
para qualicar as metodologias que iremos tentar nesta tarefa de analise de dados.
Qualquer metodologia que seja usada nestes dados vai pegar num conjunto de dados referentes
`as transacc oes de um determinado mes e vai sugerir um sub-conjunto destas como sendo as com
maior potencial para serem erros. Seja N
i
o conjunto de transac coes no mes i, e n
i
o conjunto
de erros identicados por um qualquer modelo. Vamos denir a percentagem de transaccoes
seleccionadas para inspec cao como uma das medidas de avaliacao, %S = n
i
/N
i
. De acordo com o
INE, para uma metodologia ser aceitavel tem que ter %S 50%. Seja E
i
o conjunto de observacoes
etiquetadas como erros pelos peritos do INE no mes i, e seja e
i
o subconjunto de n
i
que pertence a E
i
.
Neste contexto denimos uma outra estatstica de performance como sendo o Recall, %R = e
i
/E
i
.
Mais uma vez o INE dene como criterio mnimo para uma metodologia ser aceitavel atingir um
valor de %R=90%. Resumindo iremos qualicar a performance de qualquer modelo por um par de
valores, < %S, %R >, sendo que o INE dene como criterios mnimos que %S 50%%R 90%.
3 A Metodologia Proposta
A nossa metodologia para abordar este problema e baseada em metodos de agrupamento hi-
erarquico. Os metodos de agrupamento hierarquico podem ser usados para identicar outliers
como efeito lateral do processo de agrupamento (e.g. [10]). A maioria dos metodos de agrupa-
mento baseiam-se na informacao de uma matriz de distancias e portanto podem ser classicados
como metodos de deteccao de outliers baseados em distancias (e.g. [7]). Todavia metodos iterativos
como os metodos hierarquicos de agrupamento (e.g. [6]) conseguem lidar com regioes de diferente
densidade o que e um dos maiores problemas dos metodos de deteccao de outliers baseados em
distancias. De facto, olhando por exemplo para os metodos hierarquicos aglomerativos, eles pro-
cedem de forma iterativa juntando dois dos grupos actuais baseados num criterio relacionado com
a sua proximidade, sendo esta decisao tomada localmente, i.e. levando em conta unicamente os
dois grupos em causa.
A ideia geral do metodo que foi desenvolvido tem a ver com usar o percurso de cada obser-
va cao pelo dendrograma como fonte de informacao para obter um grau de outlier para a mesma. A
motivacao resulta na assumpcao que, tendo em conta os criterios usados para o processo de aglom-
eracao nos algoritmos de agrupamento hierarquico, os outliers deverao oferecer granderesistencia
a serem juntos num grupo com outras observacoes, nomeadamente se este grupo for formado por
um grande n umero de observacoes normais. Em resumo, a ideia chave da metodologia desen-
volvida [12] e a de usar a altura em que uma observacao e junta a outras durante o processo
aglomerativo de agrupamento hierarquico, como indicador do grau de desvio da mesma, e desta
forma obter um ranking de outliers. Cada observacao pode participar em varias juncoes ao longo
do processo iterativo. Levando isso em conta denimos o grau de outlier de uma observacao como,
OF
H
(x) = max
i
of
i
(x) (1)
em que i toma valores entre 1 e N 1 e representa o conjunto de passos de juncao em que x
participa, sendo N o n umero de observacoes do conjunto de dados.
A motivacao para esta formula tem a ver com tentar capturar tanto outliers locais como outliers
globais. Os outliers locais sao observacoes que tipicamente ofereceram uma grande resistencia
a serem juntos com os seus vizinhos mais proximos, dado serem outliers neste contexto local.
Todavia, assim que se juntam a estes, passando portanto a fazer parte de um conjunto maior de
observacoes, deixam de ser vistos como outliers.
A funcao of
i
() determina o grau de outlier de uma observacao que participa na juncao que
teve lugar no passo i do processo iterativo de agrupamento. Denimo-la como sendo funcao da
diferen ca entre os tamanhos dos dois grupos envolvidos na juncao no passo i. A ideia e a de que
sempre que estamos em presen ca de uma juncao entre dois grupos com tamanho muito diferente,
entao existem fortes suspeitas que os membros do grupo menor poderao ser outliers locais. Neste
contexto, denimos a funcao como,
of
i
(x) = max
0,
|g
y,i
| |g
x,i
|
|g
y,i
| +|g
x,i
|
(2)
em que g
x,i
e g
y,i
sao os 2 grupos de observacoes envolvidos na juncao no passo i, e g
x,i
e o grupo
a que a observa cao x pertence.
De notar que nesta formulacao se a observacao x pertence ao grupo maior (i.e. |g
x,i
| >|g
y,i
|) o
valor de of
i
(x) e 0 uma vez que a fraccao tera um valor negativo.
A implementacao destas ideias no R foi facil pelo caracter de codigo aberto e programavel
deste ambiente. A nossa implementacao actual usa o resultado da funcao hclust() que e baseada
em codigo Fortran desenvolvido por F. Murtagh [9]. Esta funcao de agrupamento hierarquico
produz como resultado uma estrutura de dados que fornece varia informacao sobre o processo de
agrupamento. A estrutura em causa e um objecto da classe hclust que tem, entre varias outras
componentes, uma componente chamada merge que e uma matriz (N1) 2. Cada linha i desta
matriz descreve a juncao que foi levada a cabo no passo i do processo de juncao do algoritmo.
Cada linha da matriz possui dois n umeros representando os grupos que sao juntos no passo em
causa. Se algum desses n umeros e negativo, e.g. k, entao isso signica que o respectivo grupo
e formado unicamente pela observacao k. Por sua vez, se algum dos 2 n umeros e positivo, e.g.
m, entao signica que a jun cao e com o grupo que resultou da juncao descrita na linha m da
matriz merge. Usando a informacao desta matriz merge e facil implementar as ideias descritas
pelas Equa coes 1 e 2, praticamente sem qualquer custo computacional adicional ao ja incorrido
no processo de agrupamento. Todavia, e altamente provavel que este processo de agrupamento,
levado a cabo pela funcao hclust() do R, contenha codigo que seja desnecessario para a obtencao
dos graus de outlier que pretendemos. Assim, sera provavelmente possvel optimizar o processo
computacional em causa. Isto pode ser conseguido uma vez que todo o codigo do R, e logo tambem
da funcao hclust(), esta disponvel para todos os utilizadores. Este tipo de trabalho e difcil,
senao impossvel, em muitas ferramentas alternativas ao R, em que o utilizador esta restringido
a tentar ele proprio desenvolver o codigo dos outros, no caso de pretender realizar pequenas
modica coes ao mesmo. Isso nao so e muito mais trabalhoso, como muitas vezes pode nao ser
avel pois nem sempre os artigos que descrevem uma qualquer metodologia sao (ou podem ser)
exaustivos quanto a detalhes de implementacao que muitas vezes se revelam cruciais em termos
dos resultados obtidos. Neste contexto, o uso do R revelou-se crucial neste trabalho.
4 Alguns Resultados
Apresentamos em seguida alguns dos resultados obtidos neste caso de estudo. Por limitacao de
espaco nao poderemos abordar todas as questoes que foram consideradas no nosso trabalho sobre
este problema. O leitor mais interessado pode colher mais informa cao noutros artigos publicados [8,
12, 14, 13].
Foram realizadas varias experiencias destinadas a aferir a ecacia do metodo proposto no caso
de estudo que descrevemos. Procurou-se nao so vericar se o metodo era capaz de satisfazer
os criterios operacionais do INE, %S 50%%R 90%, mas tambem comparar este metodo
com outras alternativas existentes para obter graus de outlier. Relativamente `as alternativas
consideradas foi usado o metodo LOF [3], considerado um estado da arte em termos de obtencao
de rankings de outliers, e disponvel na package dprep [1] do R. Tratando-se ambos de metodos de
ranking de outliers, foi decido usar 5 nveis de esforco de inspeccao (%S) pre-determinados: 30%,
35%, 40%, 45% e 50%, todos dentro das restricoes impostas pelo INE. Para cada um destes nveis
de esforco de inspeccao foram comparados os resultados obtidos pela nossa proposta e pelo metodo
LOF. Tal comparacao foi efectuada para cada um dos 8 meses, uma vez que o INE determina que
85 O u t o n o d e 2 0 0 9
entao existem fortes suspeitas que os membros do grupo menor poderao ser outliers locais. Neste
contexto, denimos a funcao como,
o f
i
(x) = max
0,
|g
y,i
| |g
x,i
|
|g
y,i
| +|g
x,i
|
(2)
em que g
x,i
e g
y,i
sao os 2 grupos de observacoes envolvidos na juncao no passo i, e g
x,i
e o grupo
a que a observa cao x pertence.
De notar que nesta formulacao se a observacao x pertence ao grupo maior (i.e. |g
x,i
| >|g
y,i
|) o
valor de of
i
(x) e 0 uma vez que a fraccao tera um valor negativo.
A implementacao destas ideias no R foi facil pelo caracter de codigo aberto e programavel
deste ambiente. A nossa implementacao actual usa o resultado da funcao hclust() que e baseada
em codigo Fortran desenvolvido por F. Murtagh [9]. Esta funcao de agrupamento hierarquico
produz como resultado uma estrutura de dados que fornece varia informacao sobre o processo de
agrupamento. A estrutura em causa e um objecto da classe hclust que tem, entre varias outras
componentes, uma componente chamada merge que e uma matriz (N1) 2. Cada linha i desta
matriz descreve a juncao que foi levada a cabo no passo i do processo de juncao do algoritmo.
Cada linha da matriz possui dois n umeros representando os grupos que sao juntos no passo em
causa. Se algum desses n umeros e negativo, e.g. k, entao isso signica que o respectivo grupo
e formado unicamente pela observacao k. Por sua vez, se algum dos 2 n umeros e positivo, e.g.
m, entao signica que a jun cao e com o grupo que resultou da juncao descrita na linha m da
matriz merge. Usando a informacao desta matriz merge e facil implementar as ideias descritas
pelas Equa coes 1 e 2, praticamente sem qualquer custo computacional adicional ao ja incorrido
no processo de agrupamento. Todavia, e altamente provavel que este processo de agrupamento,
levado a cabo pela funcao hclust() do R, contenha codigo que seja desnecessario para a obtencao
dos graus de outlier que pretendemos. Assim, sera provavelmente possvel optimizar o processo
computacional em causa. Isto pode ser conseguido uma vez que todo o codigo do R, e logo tambem
da funcao hclust(), esta disponvel para todos os utilizadores. Este tipo de trabalho e difcil,
senao impossvel, em muitas ferramentas alternativas ao R, em que o utilizador esta restringido
a tentar ele proprio desenvolver o codigo dos outros, no caso de pretender realizar pequenas
modica coes ao mesmo. Isso nao so e muito mais trabalhoso, como muitas vezes pode nao ser
avel pois nem sempre os artigos que descrevem uma qualquer metodologia sao (ou podem ser)
exaustivos quanto a detalhes de implementacao que muitas vezes se revelam cruciais em termos
dos resultados obtidos. Neste contexto, o uso do R revelou-se crucial neste trabalho.
4 Alguns Resultados
Apresentamos em seguida alguns dos resultados obtidos neste caso de estudo. Por limitacao de
espaco nao poderemos abordar todas as questoes que foram consideradas no nosso trabalho sobre
este problema. O leitor mais interessado pode colher mais informa cao noutros artigos publicados [8,
12, 14, 13].
Foram realizadas varias experiencias destinadas a aferir a ecacia do metodo proposto no caso
de estudo que descrevemos. Procurou-se nao so vericar se o metodo era capaz de satisfazer
os criterios operacionais do INE, %S 50%%R 90%, mas tambem comparar este metodo
com outras alternativas existentes para obter graus de outlier. Relativamente `as alternativas
consideradas foi usado o metodo LOF [3], considerado um estado da arte em termos de obtencao
de rankings de outliers, e disponvel na package dprep [1] do R. Tratando-se ambos de metodos de
ranking de outliers, foi decido usar 5 nveis de esforco de inspeccao (%S) pre-determinados: 30%,
35%, 40%, 45% e 50%, todos dentro das restricoes impostas pelo INE. Para cada um destes nveis
de esforco de inspeccao foram comparados os resultados obtidos pela nossa proposta e pelo metodo
LOF. Tal comparacao foi efectuada para cada um dos 8 meses, uma vez que o INE determina que
a inspec cao seja feita mensalmente. Os resultados desta comparacao sao apresentados na Figura 1,
que foi obtida usando os gracos disponveis na package lattice do R.
% Recall
%
S
e
l
e
c
t
e
d
0.2
0.3
0.4
0.5
0.85 0.90 0.95 1.00
Ago/1998 Fev/1998
0.85 0.90 0.95 1.00
Jan/1998 Jun/1998
Mai/1998
0.85 0.90 0.95 1.00
Mar/1998 Out/1998
0.85 0.90 0.95 1.00
0.2
0.3
0.4
0.5
Set/1998
LOF.3
LOF.35
LOF.4
LOF.45
LOF.5
OF.H.3
OF.H.35
OF.H.4
OF.H.45
OF.H.5
Figura 1: Metodo OF
H
comparado com o metodo LOF.
Os gracos mensais apresentam duas linhas a tracejado que delimitam a regiao onde deverao
estar os resultados para satisfazerem os criterios do INE. Qualquer ponto fora do quadrante inferior
direito esta foram destes criterios. Conforme se podera vericar, alguns pontos nem sao visveis
nos gracos por sarem fora da escala comum usada em todos eles, que permite uma mais facil
leitura comparativa dos resultados mensais. Isto so acontece para alguns setups do metodo LOF.
A nossa proposta consegue meter quase todos os seus resultados nos criterios exigidos. Note-se
tambem a superioridade clara do nosso metodo de ranking em relacao ao LOF, neste problema em
particular. Os resultados globais sao notaveis uma vez que com um esforco de 30% e na maioria
dos meses possvel apanhar cerca de 95% dos erros detectados pelos peritos do INE, sendo a unica
excep cao o mes de Junho.
5 Conclusoes
Neste artigo descreveu-se uma abordagem de obtencao de rankings de outliers desenvolvida em
R, tirando partido quer das potencialidades desta ferramenta, quer do facto de o seu codigo
estar disponvel gratuitamente, o que permite a criacao de novos metodos trabalhando de forma
incremental sobre ferramentas ja existentes, como foi o caso.
O metodo desenvolvido foi aplicado a um caso de estudo concreto de deteccao de erros/fraudes
em registos de transaccoes de comercio externo das empresas Portuguesas. Esta e uma aplicacao
que requer grandes recursos de inspec cao dado o volume de dados envolvido. Nestes contextos,
e dada a usual limitacao destes recursos, e de particular importancia a utilizacao de metodos
de ranking de outliers. O nosso metodo provou obter resultados bastante bons nesta aplicacao
particular, conseguindo ao mesmo tempo satisfazer os criterios operacionais do cliente e bater o
estado da arte em ranking de outliers. O metodo desenvolvido e generico e podera ser aplicado a
outros problemas de deteccao de fraude em contextos de recursos limitados.
Relativamente a desenvolvimentos futuros, encontramo-nos neste momento a estudar e de-
senvolver formas alternativas de obter os rankings, nomeadamente usando criterios de ordena cao
mais exveis que possam ser ajustados mais facilmente aos objectivos operacionais dos utilizadores
nais destas ferramentas.
86 B o l e t i m S P E
a inspec cao seja feita mensalmente. Os resultados desta comparacao sao apresentados na Figura 1,
que foi obtida usando os gracos disponveis na package lattice do R.
% Recall
%
S
e
l
e
c
t
e
d
0.2
0.3
0.4
0.5
0.85 0.90 0.95 1.00
Ago/1998 Fev/1998
0.85 0.90 0.95 1.00
Jan/1998 Jun/1998
Mai/1998
0.85 0.90 0.95 1.00
Mar/1998 Out/1998
0.85 0.90 0.95 1.00
0.2
0.3
0.4
0.5
Set/1998
LOF.3
LOF.35
LOF.4
LOF.45
LOF.5
OF.H.3
OF.H.35
OF.H.4
OF.H.45
OF.H.5
Figura 1: Metodo OF
H
comparado com o metodo LOF.
Os gracos mensais apresentam duas linhas a tracejado que delimitam a regiao onde deverao
estar os resultados para satisfazerem os criterios do INE. Qualquer ponto fora do quadrante inferior
direito esta foram destes criterios. Conforme se podera vericar, alguns pontos nem sao visveis
nos gracos por sarem fora da escala comum usada em todos eles, que permite uma mais facil
leitura comparativa dos resultados mensais. Isto so acontece para alguns setups do metodo LOF.
A nossa proposta consegue meter quase todos os seus resultados nos criterios exigidos. Note-se
tambem a superioridade clara do nosso metodo de ranking em relacao ao LOF, neste problema em
particular. Os resultados globais sao notaveis uma vez que com um esforco de 30% e na maioria
dos meses possvel apanhar cerca de 95% dos erros detectados pelos peritos do INE, sendo a unica
excep cao o mes de Junho.
5 Conclusoes
Neste artigo descreveu-se uma abordagem de obtencao de rankings de outliers desenvolvida em
R, tirando partido quer das potencialidades desta ferramenta, quer do facto de o seu codigo
estar disponvel gratuitamente, o que permite a criacao de novos metodos trabalhando de forma
incremental sobre ferramentas ja existentes, como foi o caso.
O metodo desenvolvido foi aplicado a um caso de estudo concreto de deteccao de erros/fraudes
em registos de transaccoes de comercio externo das empresas Portuguesas. Esta e uma aplicacao
que requer grandes recursos de inspec cao dado o volume de dados envolvido. Nestes contextos,
e dada a usual limitacao destes recursos, e de particular importancia a utilizacao de metodos
de ranking de outliers. O nosso metodo provou obter resultados bastante bons nesta aplicacao
particular, conseguindo ao mesmo tempo satisfazer os criterios operacionais do cliente e bater o
estado da arte em ranking de outliers. O metodo desenvolvido e generico e podera ser aplicado a
outros problemas de deteccao de fraude em contextos de recursos limitados.
Relativamente a desenvolvimentos futuros, encontramo-nos neste momento a estudar e de-
senvolver formas alternativas de obter os rankings, nomeadamente usando criterios de ordena cao
mais exveis que possam ser ajustados mais facilmente aos objectivos operacionais dos utilizadores
nais destas ferramentas.
Agradecimentos
Parte do trabalho descrito neste documento foi feito em colaboracao com Carlos Soares (LIAAD) e
Welma Pereira (LIAAD). Este trabalho enquadra-se no projecto oRANKI (PTDC/EIA/68322/2006),
nanciado pela FCT. Agradece-se ainda ao INE pelo fornecimento dos dados usados neste estudo.
Referencias
[1] Edgar Acuna, , members of the CASTLE group at UPR-Mayaguez, and Puerto Rico. dprep:
Data preprocessing and visualization functions for classication, 2008. R package version 2.0.
[2] V. Barnett and T. Lewis. Outliers in statistical data, 3rd edition. John Wiley, 1994.
[3] M. M. Breunig, H. P. Kriegel, R. Ng, and J. Sander. Lof: Identifying density-based local
outliers. In Proceedings of ACM SIGMO 2000 International Conference on Management of
Data, 2000.
[4] D. M. Hawkins. Identication of Outliers. Chapman and Hall, 1980.
[5] Victoria Hodge and Jim Austin. A survey of outlier detection methodologies. Articial
Intelligence Review, 22:85126, 2004.
[6] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Anal-
ysis. Wiley, New York, 1990.
[7] Edwin M. Knorr and Raymond T. Ng. Algorithms for mining distance-based outliers in large
datasets. In Proceedings of 24rd International Conference on Very Large Data Bases (VLDB
1998), pages 392403. Morgan Kaufmann, San Francisco, CA, 1998.
[8] A. Loureiro, L. Torgo, and C. Soares. Outlier detection using clustering methods: a data
cleaning application. In Proceedings of KDNet Symposium on Knowledge-based Systems for
the Public Sector, 2004.
[9] F. Murtagh. Multidimensional clustering algorithms. COMPSTAT Lectures 4, Wuerzburg:
Physica-Verlag, 1985.
[10] R. Ng and J. Han. Ecient and efective clustering method for spatial data mining. In Proc.
of VLDB94, 1994.
[11] R Development Core Team. R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria, 2009. ISBN 3-900051-07-0.
[12] L. Torgo. Resource-bounded fraud detection. In Neves et. al, editor, Proceedings of the 13th
Portuguese Conference on Articial Intelligence (EPIA07), LNAI, pages 449460. Springer,
2007.
[13] L. Torgo, W. Pereira, and C. Soares. Detecting errors in foreign trade transactions: dealing
with insucient data. In Lopes et. al, editor, Proceedings of the 14th Portuguese Conference
on Articial Intelligence (EPIA09), LNAI-5816. Springer, 2009.
[14] L. Torgo and C. Soares. Data Mining for Business Applications, chapter Resource-bounded
outlier detection using clustering methods. IOS Press, (to appear in 2009).
87 O u t o n o d e 2 0 0 9
Agradecimentos
Parte do trabalho descrito neste documento foi feito em colaboracao com Carlos Soares (LIAAD) e
Welma Pereira (LIAAD). Este trabalho enquadra-se no projecto oRANKI (PTDC/EIA/68322/2006),
nanciado pela FCT. Agradece-se ainda ao INE pelo fornecimento dos dados usados neste estudo.
Referencias
[1] Edgar Acuna, , members of the CASTLE group at UPR-Mayaguez, and Puerto Rico. dprep:
Data preprocessing and visualization functions for classication, 2008. R package version 2.0.
[2] V. Barnett and T. Lewis. Outliers in statistical data, 3rd edition. John Wiley, 1994.
[3] M. M. Breunig, H. P. Kriegel, R. Ng, and J. Sander. Lof: Identifying density-based local
outliers. In Proceedings of ACM SIGMO 2000 International Conference on Management of
Data, 2000.
[4] D. M. Hawkins. Identication of Outliers. Chapman and Hall, 1980.
[5] Victoria Hodge and Jim Austin. A survey of outlier detection methodologies. Articial
Intelligence Review, 22:85126, 2004.
[6] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Anal-
ysis. Wiley, New York, 1990.
[7] Edwin M. Knorr and Raymond T. Ng. Algorithms for mining distance-based outliers in large
datasets. In Proceedings of 24rd International Conference on Very Large Data Bases (VLDB
1998), pages 392403. Morgan Kaufmann, San Francisco, CA, 1998.
[8] A. Loureiro, L. Torgo, and C. Soares. Outlier detection using clustering methods: a data
cleaning application. In Proceedings of KDNet Symposium on Knowledge-based Systems for
the Public Sector, 2004.
[9] F. Murtagh. Multidimensional clustering algorithms. COMPSTAT Lectures 4, Wuerzburg:
Physica-Verlag, 1985.
[10] R. Ng and J. Han. Ecient and efective clustering method for spatial data mining. In Proc.
of VLDB94, 1994.
[11] R Development Core Team. R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria, 2009. ISBN 3-900051-07-0.
[12] L. Torgo. Resource-bounded fraud detection. In Neves et. al, editor, Proceedings of the 13th
Portuguese Conference on Articial Intelligence (EPIA07), LNAI, pages 449460. Springer,
2007.
[13] L. Torgo, W. Pereira, and C. Soares. Detecting errors in foreign trade transactions: dealing
with insucient data. In Lopes et. al, editor, Proceedings of the 14th Portuguese Conference
on Articial Intelligence (EPIA09), LNAI-5816. Springer, 2009.
[14] L. Torgo and C. Soares. Data Mining for Business Applications, chapter Resource-bounded
outlier detection using clustering methods. IOS Press, (to appear in 2009).
88 B o l e t i m S P E
Tutorial: Inferncia bayesiana no R atravs do WinBUGS
Tutorial: Inferncia bayesiana no R atravs do WinBUGS
Valeska Andreozzi, valeska.andreozzi@fc.ul.pt
Maria Antnia Amaral Turkman, antonia.turkman@fc.ul.pt
Faculdade de Cincias da Universidade de Lisboa
Centro de Estatstica e Aplicaes da Universidade de Lisboa
Introduo
Modelos estatsticos desenvolvidos para compreender os problemas do mundo real so cada vez mais
complexos incluindo estruturas temporais, espaciais e hierrquicas, e muito frequentemente
apresentam misturas de pelo menos duas dessas trs estruturas. Por este motivo, a inferncia bayesiana
vem sendo cada vez mais utilizada, no s por estatsticos bayesianos, mas tambm por outros
investigadores que trabalham em aplicaes estatsticas. Este facto deve-se ao desenvolvimento
tecnolgico na dcada de 80 que permitiu que mtodos de integrao de Monte Carlo via cadeias de
Markov (MCMC) pudessem ser utilizados para gerar amostras da distribuio a posteriori para os
parmetros do modelo, permitindo realizar inferncias adequadas. BayesX, WinBUGS e R so alguns
exemplos de softwares gratuitos que estimam modelos simples e complexos atravs de uma
abordagem bayesiana. Todos os trs softwares esto disponveis para o ambiente Windows com uma
documentao razovel e com exemplos includos.
O BayesX (Belitz et al. 2009) foi desenvolvido para estimar modelos aditivos generalizados
mistos englobando diversos tipos de modelos complexos de regresso. Funciona atravs de funes
pr-definidas que so executadas sob forma de linha de comando.
O WinBUGS (Lunn et al. 2000), que pode ser considerado o software mais amplamente utilizado
no meio cientfico, difere do primeiro, pois tem a vantagem de permitir ao utilizador a estimao de
modelos por ele desenvolvido. Contudo, o utilizador precisa de escrever o respectivo cdigo do
programa definindo o modelo probabilstico para a funo de verosimilhana e tambm para a
distribuio a priori dos parmetros, requerendo assim um conhecimento da linguagem que no
assim to simples. Um ponto de partida para os iniciantes est nos cdigos dos programas para os
modelos bem conhecidos da literatura que podem ser encontrados nos exemplos do prprio WinBUGS,
como tambm em diversos livros/artigos e na web.
O R (R Development Core Team 2009) no um software especfico para estimar modelos atravs
de uma abordagem bayesiana. No obstante, vm sendo cada vez mais encontrados na sua pgina da
internet uma grande quantidade de bibliotecas que permitem efectuar inferncias bayesianas e que
podem ser utilizadas nas mais diversas reas e para os mais especficos modelos/mtodos. Alguns
exemplos so as bibliotecas para estimar modelos na rea do Marketing e Micro-econometria
(bayesm), anlise de sobrevivncia (bayesSurv) e Cincias Socias (MCMCpack). Outras bibliotecas
mais especficas incluem mtodos para modelos de valores extremos (evdbayes) e CGH micro-arranjos
(RJaCGH). Uma lista completa das bibliotecas que utilizam inferncia bayesiana pode ser encontrada
em Park 2009. Contudo, no desenvolvimento pleno da modelao bayesiana, o R deve ser encarado
89 O u t o n o d e 2 0 0 9
como uma potente ferramenta adicional na etapa de ligao com outros softwares especficos para
inferncia bayesiana e na etapa de diagnstico das amostras simuladas das distribuies a posteriori.
As bibliotecas coda (Convergence Diagnosis and Output Analysis) e boa (Bayesian Output Analysis)
so as mais utilizadas na fase ps estimao dos modelos e a biblioteca R2WinBUGS para a ligao
com o WinBUGS.
Este artigo prope-se apresentar o potencial do R na estimao de modelos estatsticos com
inferncia bayesiana atravs do WinBUGS ilustrando a facilidade com que esta ligao oferece para a
entrada de dados, que atravs do R se torna muito mais simples, e para a etapa do diagnstico.
Pressupe-se que o leitor deste artigo tenha familiaridade tanto com o WinBUGS como com o R e o
que vamos ensinar como podemos tornar a vida mais simples atravs da ligao de ambos.
Preliminares
Para acompanhar este artigo como um tutorial, tenha em seu computador o R e o WinBUGS
instalados. Ser tambm necessrio instalar as seguintes bibliotecas do R: R2WinBUGS, boa e coda.
Os utilizadores do Windows Vista devem ter ateno s restries de escrita impostas no directrio
C:\Program Files. Para facilitar a execuo deste tutorial, sugere-se a instalao do WinBUGS em
outro diretrio que no seja o Program Files, por exemplo, diretamente no C:\, ou unidade
equivalente.
Motivao
Foi seleccionado um exemplo bastante didctico para que a utilizao do R pudesse ser explorada
ao mximo. Os dados que so apresentados so relativos percentagem total de calorias resultantes de
carbohidratos complexos, ingeridas por 20 indivduos diabticos do sexo masculino, nos quais se
testou um novo regime alimentar. Como se pode verificar tambm se registou a idade (x
1
) e o peso dos
indivduos (x
2
), assim como a percentagem de calorias resultantes das protenas presentes na dieta (x
3
)
.
Tabela 1. Primeiras 6 observaes dos dados que se encontra no ficheiro dadosexemplo.dat
y x1 x2 x3
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
Pensa-se que a percentagem de carbohidratos (Y) est relacionada linearmente com as variveis X
1
,
X
2
e X
3
. De forma a verificar esta afirmao, foi elaborado um programa no WinBUGS, considerando
que Y
i
~ Normal(,
2
), i = 1, 2, , 20 e sem qualquer conhecimento a priori acerca dos parmetros do
modelo como mostra o cdigo do programa no Quadro 1.
Tutorial
Os passos necessrios para estimar o modelo bayesiano no R atravs do WinBUGS so:
a) Escrever o cdigo do programa do modelo estatstico no WinBUGS
Para escrever o cdigo do programa utilize o prprio WinBUGS. Aproveite para, ainda
no WinbBUGS, verificar a sintaxe do seu programa no menu
MODEL>Specification>Check model. Depois salve o ficheiro com extenso .bug
No nosso exemplo o modelo probabilstico est no ficheiro texto modeloexemplo.bug
b) Escrever o script do R para:
90 B o l e t i m S P E
i. ler os dados
ii. chamar o Winbugs
iii. guardar os resultados das simulaes das distribuies a posteriori
iv. carregar as bibliotecas boa ou coda para diagnstico das cadeias
Quadro 1. Cdigo do programa do modelo estatstico em WinBUGS (modeloexemplo.bug).
model{
for (i in 1:N){
y[i] ~ dnorm (mu[i], tau)
#Modelo
#As covariveis foram centralizadas
mu[i] <- beta[1] + beta[2]*(x1[i]-mean(x1[])) +
beta[3]*(x2[i]-mean(x2[])) + beta[4]*(x3[i]-mean(x3[]))
#Resduo padronizado
r[i]<-(y[i]-mu[i])*sqrt(tau)
#Predio
z[i]~dnorm(mu[i],tau)
#Resduo absoluto para calcular p-valor
#da medida de discrepncia T
absry[i]<-abs(y[i]-mu[i])
absrz[i]<-abs(z[i]-mu[i])
#O objeto inv ser utilizado para o clculo
inv[i]<-1/(sqrt(tau)*exp(-tau/2*(y[i]-mu[i])*(y[i]-mu[i])))
}
#Prioris
tau ~ dgamma(0.0001,0.0001)
for (j in 1:4){
beta[j]~ dnorm(0,0.0001)
}
#Clculo do intercepto na escala original
alpha<- beta[1] - beta[2]*(mean(x1[])) -
beta[3]*(mean(x2[])) - beta[4]*(mean(x3[]))
sigma2<-1/tau
#Estatstica T
ty<-sum(absry[])
tz<-sum(absrz[])
pvalor<-step(tz-ty)
}
A seguir encontra-se o tutorial com os comandos do R.
1. Incio
Antes de comear no se esquea de alterar o diretrio de trabalho, isto , suponha que o ficheiro dos
dados encontra-se no diretrio C:\exemplo
> setwd("C:\\exemplo")
como uma potente ferramenta adicional na etapa de ligao com outros softwares especficos para
inferncia bayesiana e na etapa de diagnstico das amostras simuladas das distribuies a posteriori.
As bibliotecas coda (Convergence Diagnosis and Output Analysis) e boa (Bayesian Output Analysis)
so as mais utilizadas na fase ps estimao dos modelos e a biblioteca R2WinBUGS para a ligao
com o WinBUGS.
Este artigo prope-se apresentar o potencial do R na estimao de modelos estatsticos com
inferncia bayesiana atravs do WinBUGS ilustrando a facilidade com que esta ligao oferece para a
entrada de dados, que atravs do R se torna muito mais simples, e para a etapa do diagnstico.
Pressupe-se que o leitor deste artigo tenha familiaridade tanto com o WinBUGS como com o R e o
que vamos ensinar como podemos tornar a vida mais simples atravs da ligao de ambos.
Preliminares
Para acompanhar este artigo como um tutorial, tenha em seu computador o R e o WinBUGS
instalados. Ser tambm necessrio instalar as seguintes bibliotecas do R: R2WinBUGS, boa e coda.
Os utilizadores do Windows Vista devem ter ateno s restries de escrita impostas no directrio
C:\Program Files. Para facilitar a execuo deste tutorial, sugere-se a instalao do WinBUGS em
outro diretrio que no seja o Program Files, por exemplo, diretamente no C:\, ou unidade
equivalente.
Motivao
Foi seleccionado um exemplo bastante didctico para que a utilizao do R pudesse ser explorada
ao mximo. Os dados que so apresentados so relativos percentagem total de calorias resultantes de
carbohidratos complexos, ingeridas por 20 indivduos diabticos do sexo masculino, nos quais se
testou um novo regime alimentar. Como se pode verificar tambm se registou a idade (x
1
) e o peso dos
indivduos (x
2
), assim como a percentagem de calorias resultantes das protenas presentes na dieta (x
3
)
.
Tabela 1. Primeiras 6 observaes dos dados que se encontra no ficheiro dadosexemplo.dat
y x1 x2 x3
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
Pensa-se que a percentagem de carbohidratos (Y) est relacionada linearmente com as variveis X
1
,
X
2
e X
3
. De forma a verificar esta afirmao, foi elaborado um programa no WinBUGS, considerando
que Y
i
~ Normal(,
2
), i = 1, 2, , 20 e sem qualquer conhecimento a priori acerca dos parmetros do
modelo como mostra o cdigo do programa no Quadro 1.
Tutorial
Os passos necessrios para estimar o modelo bayesiano no R atravs do WinBUGS so:
a) Escrever o cdigo do programa do modelo estatstico no WinBUGS
Para escrever o cdigo do programa utilize o prprio WinBUGS. Aproveite para, ainda
no WinbBUGS, verificar a sintaxe do seu programa no menu
MODEL>Specification>Check model. Depois salve o ficheiro com extenso .bug
No nosso exemplo o modelo probabilstico est no ficheiro texto modeloexemplo.bug
b) Escrever o script do R para:
Carregando a biblioteca
> library(R2WinBUGS)
2. Leitura dos dados
> dados <- read.table("dadosexemplo.dat",header=T)
Criao de objectos separados para cada varivel
> N <- nrow(dados) #nmero de indivduos no banco de dados
> y <- dados$y #varivel resposta percentagem de carbohidratos
> x1 <- dados$x1 #covarivel idade
> x2 <- dados$x2 #covarivel peso em kg
> x3 <- dados$x3 #covarivel percentagem de calorias das protenas da dieta
Criao de uma lista com os dados que sero fornecidos ao programa do WinBUGS.
> data <- list("N", "y", "x1", "x2", "x3")
3. Declarao dos valores iniciais dos parmetros
> inits <- list(list(tau = 1, beta = c(0,0,0,0),z=y))
uma alternativa permitir que o R gere aleatoriamente os parmetros da seguinte forma:
#inits <- function()
# {list(tau = rgamma(1,shape=1000,scale=1/1000),
# beta = rnorm(4,0.001,sqrt(1/0.001)),z=y)}
Ateno parametrizao da distribuio Normal no R que difere da do Winbugs.
Temos para o R os parmetros e e no WinBUGS e =1/
2
(veja o help da funo Normal)
4. Declarao dos parmetros a serem monitorizados
> parameters <- c("tau","beta","alpha","mu","inv","pvalor")
5. Executando o WinBUGS
Listar o cdigo do modelo dentro do R. O ficheiro com o cdigo do modelo encontra-se no diretrio de
trabalho C:/exemplo
> file.show("modeloexemplo.bug")
Agora j temos todos os elementos para executar o WinBUGS atravs do R utilizando a funo bugs()
> result <- bugs (data=data, inits=inits, parameters.to.save=parameters,
+ model.file="modeloexemplo.bug", n.chains=1, n.iter=10000,n.burnin=2000,
+ bugs.directory="C:\\WinBUGS14",
+ debug=FALSE,save.history=FALSE,DIC=TRUE)
Para maiores detalhes de todos os argumentos da funo bugs() pesquise o help file (?bugs) ou o guia
(vignette) da biblioteca atravs do comando vignette(R2WinBUGS). Um rpido resumo dos principais
argumentos encontra-se a seguir:
data= objecto que contm os dados
inits= objecto que contm os valores iniciais dos parmetros
parameters.to.save= objeto que contm os nomes dos parmetros a serem monitorizados
model.file= ficheiro que contm o modelo do WinBUGS
n.chains= nmero de cadeias
n.iter= nmero total de iteraes por cadeia incluindo a fase de aquecimento
n.burnin= nmero de iteraes que sero descartadas na fase de aquecimento
bugs.directory= directrio onde se encontra instalado o WinBUGS
debug= o valor FALSE indica que o WinBUGS ser fechado automaticamente aps o trmino da
estimao do modelo
save.history= se TRUE grficos do trao de cada parmetro ser gerado no WinBUGS.
aconselhvel no exigir que o WinBUGS faa esses grficos, pois como em geral tm-se muito
parmetros, s vezes o WinBUGS pode deixar de responder. Alm disso os traos podero ser todos
feitos posteriormente no R
DIC= se TRUE ento deviance, pD e DIC so calculados.
Ao executar a funo bugs() no R o WinBUGS ser automaticamente aberto para simular amostras
das distribuies a posteriori dos parmetros. Se o argumento debug=FALSE o WinBUGS ser
fechado tambm automaticamente, retornando ao R e guardando os resultados no objecto que recebeu
a funo bugs(), que neste exemplo se chama result.
6. Resultado
Sumrio dos parmetros que foram declarados no vector parameters no passo 4. Este sumrio muito
semelhante ao que se obtm no WinBUGS
> result$summary
Diversos outros elementos esto presentes no objeto result. Por exemplo, as simulaes podem ser
encontradas em diversos formatos (matriz (result$sims.matrix) , lista (result$sims.list), array
(result$sims.array))
> names(result)
Lista dos nomes de todos os parmetros que foram monitorizados
> dimnames(result$sims.matrix)
Para futuras comparaes com outros modelos, pode obter-se o valor de DIC, BIC e do CPO
(condicional predictive ordinate). O valor de DIC encontra-se no objeto result. BIC e CPO tm que
ser calculados.
> #DIC
> dic <- result$DIC
> dic
> #clculo do BIC
> bic <- unlist(result$mean["deviance"]) + 4*log(N)
> #4 o nmero de parmetros do modelo
> bic
> #clculo do CPO
> #vector com os nomes dos parmetros
> nomesinv <- paste("inv[",1:N,"]",sep="")
> #amostra dos parmetros seleccionados
> simulainv <- result$sims.matrix[,nomesinv]
> cpo <- 1/apply(simulainv,2,mean)
91 O u t o n o d e 2 0 0 9
Carregando a biblioteca
> library(R2WinBUGS)
2. Leitura dos dados
> dados <- read.table("dadosexemplo.dat",header=T)
Criao de objectos separados para cada varivel
> N <- nrow(dados) #nmero de indivduos no banco de dados
> y <- dados$y #varivel resposta percentagem de carbohidratos
> x1 <- dados$x1 #covarivel idade
> x2 <- dados$x2 #covarivel peso em kg
> x3 <- dados$x3 #covarivel percentagem de calorias das protenas da dieta
Criao de uma lista com os dados que sero fornecidos ao programa do WinBUGS.
> data <- list("N", "y", "x1", "x2", "x3")
3. Declarao dos valores iniciais dos parmetros
> inits <- list(list(tau = 1, beta = c(0,0,0,0),z=y))
uma alternativa permitir que o R gere aleatoriamente os parmetros da seguinte forma:
#inits <- function()
# {list(tau = rgamma(1,shape=1000,scale=1/1000),
# beta = rnorm(4,0.001,sqrt(1/0.001)),z=y)}
Ateno parametrizao da distribuio Normal no R que difere da do Winbugs.
Temos para o R os parmetros e e no WinBUGS e =1/
2
(veja o help da funo Normal)
4. Declarao dos parmetros a serem monitorizados
> parameters <- c("tau","beta","alpha","mu","inv","pvalor")
5. Executando o WinBUGS
Listar o cdigo do modelo dentro do R. O ficheiro com o cdigo do modelo encontra-se no diretrio de
trabalho C:/exemplo
> file.show("modeloexemplo.bug")
Agora j temos todos os elementos para executar o WinBUGS atravs do R utilizando a funo bugs()
> result <- bugs (data=data, inits=inits, parameters.to.save=parameters,
+ model.file="modeloexemplo.bug", n.chains=1, n.iter=10000,n.burnin=2000,
+ bugs.directory="C:\\WinBUGS14",
+ debug=FALSE,save.history=FALSE,DIC=TRUE)
Para maiores detalhes de todos os argumentos da funo bugs() pesquise o help file (?bugs) ou o guia
(vignette) da biblioteca atravs do comando vignette(R2WinBUGS). Um rpido resumo dos principais
argumentos encontra-se a seguir:
data= objecto que contm os dados
inits= objecto que contm os valores iniciais dos parmetros
parameters.to.save= objeto que contm os nomes dos parmetros a serem monitorizados
model.file= ficheiro que contm o modelo do WinBUGS
n.chains= nmero de cadeias
n.iter= nmero total de iteraes por cadeia incluindo a fase de aquecimento
n.burnin= nmero de iteraes que sero descartadas na fase de aquecimento
bugs.directory= directrio onde se encontra instalado o WinBUGS
debug= o valor FALSE indica que o WinBUGS ser fechado automaticamente aps o trmino da
estimao do modelo
save.history= se TRUE grficos do trao de cada parmetro ser gerado no WinBUGS.
aconselhvel no exigir que o WinBUGS faa esses grficos, pois como em geral tm-se muito
parmetros, s vezes o WinBUGS pode deixar de responder. Alm disso os traos podero ser todos
feitos posteriormente no R
DIC= se TRUE ento deviance, pD e DIC so calculados.
Ao executar a funo bugs() no R o WinBUGS ser automaticamente aberto para simular amostras
das distribuies a posteriori dos parmetros. Se o argumento debug=FALSE o WinBUGS ser
fechado tambm automaticamente, retornando ao R e guardando os resultados no objecto que recebeu
a funo bugs(), que neste exemplo se chama result.
6. Resultado
Sumrio dos parmetros que foram declarados no vector parameters no passo 4. Este sumrio muito
semelhante ao que se obtm no WinBUGS
> result$summary
Diversos outros elementos esto presentes no objeto result. Por exemplo, as simulaes podem ser
encontradas em diversos formatos (matriz (result$sims.matrix) , lista (result$sims.list), array
(result$sims.array))
> names(result)
Lista dos nomes de todos os parmetros que foram monitorizados
> dimnames(result$sims.matrix)
Para futuras comparaes com outros modelos, pode obter-se o valor de DIC, BIC e do CPO
(condicional predictive ordinate). O valor de DIC encontra-se no objeto result. BIC e CPO tm que
ser calculados.
> #DIC
> dic <- result$DIC
> dic
> #clculo do BIC
> bic <- unlist(result$mean["deviance"]) + 4*log(N)
> #4 o nmero de parmetros do modelo
> bic
> #clculo do CPO
> #vector com os nomes dos parmetros
> nomesinv <- paste("inv[",1:N,"]",sep="")
> #amostra dos parmetros seleccionados
> simulainv <- result$sims.matrix[,nomesinv]
> cpo <- 1/apply(simulainv,2,mean)
92 B o l e t i m S P E
model.file= ficheiro que contm o modelo do WinBUGS
n.chains= nmero de cadeias
n.iter= nmero total de iteraes por cadeia incluindo a fase de aquecimento
n.burnin= nmero de iteraes que sero descartadas na fase de aquecimento
bugs.directory= directrio onde se encontra instalado o WinBUGS
debug= o valor FALSE indica que o WinBUGS ser fechado automaticamente aps o trmino da
estimao do modelo
save.history= se TRUE grficos do trao de cada parmetro ser gerado no WinBUGS.
aconselhvel no exigir que o WinBUGS faa esses grficos, pois como em geral tm-se muito
parmetros, s vezes o WinBUGS pode deixar de responder. Alm disso os traos podero ser todos
feitos posteriormente no R
DIC= se TRUE ento deviance, pD e DIC so calculados.
Ao executar a funo bugs() no R o WinBUGS ser automaticamente aberto para simular amostras
das distribuies a posteriori dos parmetros. Se o argumento debug=FALSE o WinBUGS ser
fechado tambm automaticamente, retornando ao R e guardando os resultados no objecto que recebeu
a funo bugs(), que neste exemplo se chama result.
6. Resultado
Sumrio dos parmetros que foram declarados no vector parameters no passo 4. Este sumrio muito
semelhante ao que se obtm no WinBUGS
> result$summary
Diversos outros elementos esto presentes no objeto result. Por exemplo, as simulaes podem ser
encontradas em diversos formatos (matriz (result$sims.matrix) , lista (result$sims.list), array
(result$sims.array))
> names(result)
Lista dos nomes de todos os parmetros que foram monitorizados
> dimnames(result$sims.matrix)
Para futuras comparaes com outros modelos, pode obter-se o valor de DIC, BIC e do CPO
(condicional predictive ordinate). O valor de DIC encontra-se no objeto result. BIC e CPO tm que
ser calculados.
> #DIC
> dic <- result$DIC
> dic
> #clculo do BIC
> bic <- unlist(result$mean["deviance"]) + 4*log(N)
> #4 o nmero de parmetros do modelo
> bic
> #clculo do CPO
> #vector com os nomes dos parmetros
> nomesinv <- paste("inv[",1:N,"]",sep="")
> #amostra dos parmetros seleccionados
> simulainv <- result$sims.matrix[,nomesinv]
> cpo <- 1/apply(simulainv,2,mean)
Um grfico do CPO versus o ndice da observao (dados) tambm pode ser til quando for necessrio
comparar modelos
> plot(1:N,cpo,type="h",xlab="observation index",ylab="CPO")
E uma medida global do CPO pode ser calculada atravs de:
> fitmed<-sum(log(cpo))
> fitmed
A partir daqui inicia-se a outra etapa da estimao do modelo, onde o R possui um papel essencial,
pois as simulaes de cada parmetro esto automaticamente disponveis para serem diagnosticadas.
7. Diagnstico
7.1 Utilizando a biblioteca BOA
Em geral o nmero de parmetros sempre muito grande. Podemos guardar um objecto que inclui
somente alguns parmetros de interesse para fazer o diagnstico
> dimnames(result$sims.matrix)
> #gerando um vector com os nomes dos parmetros a serem diagnosticados
> nomespar <- paste("beta[",1:4,"]",sep="")
> nomespar
> #criando um objecto do tipo matriz com as simulaes dos parmetros escolhidos
> simulashort <- result$sims.matrix[,nomespar]
> #carregando a biblioteca
> library(boa)
> #carregando o menu
> boa.menu()
A biblioteca boa funciona com um menu incorporado. Para carregar o objecto simulashort que
contm as simulaes siga os seguintes passos: a) No BOA MAIN MENU, escolha opo 1:File; b) No
FILE MENU, escolha opo 3:Import Data; c) No IMPORT DATA MENU, escolha opo 5:Data
Matrix Object; d) E entre com o nome do objecto que contm as simulaes (simulashort).
Agora as amostras das distribuies a posteriori dos parmetros estimados no WinBUGS esto
disponveis para a biblioteca boa e basta percorrer os menus para fazer o diagnstico.
7.2 Utilizando a biblioteca CODA
> #carregando a biblioteca
> library(coda)
Caso tenha optado por no guardar os resultados das simulaes no formato do WinBUGS, deixando o
argumento codaPkg=FALSE, temos antes que transformar o objeto que recebeu a funo bugs() da
seguinte forma:
> resultcoda <- as.mcmc.list(result)
Tambm a biblioteca coda possui um menu
> codamenu()
Para ler os dados com as simulaes basta, no menu principal, selecionar opo 2: Use a mcmc object.
Logo a seguir escreve-se o nome do objecto, que no nosso caso o resultcoda, e pronto, as amostras
esto disponveis para o diagnstico.
Ao final deste tutorial espera-se que o leitor que o tenha experimentado fique com a impresso de que
vale a pena executar o WinBUGS atravs do R. Desta forma acaba-se com aquela preocupao de ter
que formatar os dados para o WinBUGS, guardar o ficheiro com as simulaes das cadeias e depois ter
que ler cada ficheiro no R para fazer o diagnstico e outras tarefas para apresentao de resultados
como grficos e mapas. Outras situaes em que essa ligao muito til surgem em estudos de
simulaes e no estudo de adequabilidade dos modelos usando jacknife. claro que nem tudo so
flores. Uma desvantagem dessa ligao deve-se ao facto da funo bugs() guardar as simulaes em
diversos formatos (matrix, lista, array) e isso pode gerar um problema de memria para o R quando o
nmero de parmetros excessivamente grande. Mas quando esse no o problema, podemos tirar
muito proveito desta ligao e se juntarmos as caractersticas do Sweave (Leisch 2002), que gera um
relatrio em Latex com as sadas do R automaticamente, temos o pacote completo para facilitar nosso
trabalho e a apresentao dos resultados.
Todo o material deste tutorial, incluindo os ficheiros com os dados e o modelo e um pdf com os
outputs do R, est disponvel em www.curso-r.wikidot.com/r2winbugs.
Outros exemplos tambm podem ser encontrados na vignette da biblioteca R2WinBUGS, que pode ser
visualizada em formato pdf atravs do seguinte comando no R:
> vignette("R2WinBUGS")
Referncias
Belitz C, Brezger A, Kneib T, Lang S. (2009): BayesX - Software for Bayesian inference in structured
additive regression models. Version 2.00 (6.5.2009) . Available from http://www.stat.uni-
muenchen.de/~bayesx.
Leisch F, 2002. Sweave user manual. http://www.ci.tuwien.ac.at/~leisch/Sweave/.
Lunn DJ, Thomas A, Best N, and Spiegelhalter D. (2000) WinBUGS - a Bayesian modelling
framework: concepts, structure, and extensibility. Statistics and Computing, 10:325-337. Available
from http://www.mrc-bsu.cam.ac.uk/bugs/.
Park JH, 2009. CRAN Task View: Bayesian Inference.
Available from http://cran.r-project.org/web/views/Bayesian.html
R: A language and environment for statistical computing. R Foundation for Statistical Computing,
Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
Bibliografia
Albert J, 2007. Bayesian Computational with R. Captulo 11. Springer
Plummer M, Best N, Cowles K , Vines K, 2006. CODA: Convergence Diagnosis and Output Analysis
for MCMC. Rnews, 6(1):7-11. http://CRAN.R-project.org/doc/Rnews/
Smith B, BOA (Bayesian Output Analysis) http://www.public-health.uiowa.edu/boa/
Sturtz S, Ligges U, Gelman A, 2005. R2WinBUGS: A Package for Running WinBUGS from R.
Journal of Statistical Software, 12(3), 1-16.
93 O u t o n o d e 2 0 0 9
Um grfico do CPO versus o ndice da observao (dados) tambm pode ser til quando for necessrio
comparar modelos
> plot(1:N,cpo,type="h",xlab="observation index",ylab="CPO")
E uma medida global do CPO pode ser calculada atravs de:
> fitmed<-sum(log(cpo))
> fitmed
A partir daqui inicia-se a outra etapa da estimao do modelo, onde o R possui um papel essencial,
pois as simulaes de cada parmetro esto automaticamente disponveis para serem diagnosticadas.
7. Diagnstico
7.1 Utilizando a biblioteca BOA
Em geral o nmero de parmetros sempre muito grande. Podemos guardar um objecto que inclui
somente alguns parmetros de interesse para fazer o diagnstico
> dimnames(result$sims.matrix)
> #gerando um vector com os nomes dos parmetros a serem diagnosticados
> nomespar <- paste("beta[",1:4,"]",sep="")
> nomespar
> #criando um objecto do tipo matriz com as simulaes dos parmetros escolhidos
> simulashort <- result$sims.matrix[,nomespar]
> #carregando a biblioteca
> library(boa)
> #carregando o menu
> boa.menu()
A biblioteca boa funciona com um menu incorporado. Para carregar o objecto simulashort que
contm as simulaes siga os seguintes passos: a) No BOA MAIN MENU, escolha opo 1:File; b) No
FILE MENU, escolha opo 3:Import Data; c) No IMPORT DATA MENU, escolha opo 5:Data
Matrix Object; d) E entre com o nome do objecto que contm as simulaes (simulashort).
Agora as amostras das distribuies a posteriori dos parmetros estimados no WinBUGS esto
disponveis para a biblioteca boa e basta percorrer os menus para fazer o diagnstico.
7.2 Utilizando a biblioteca CODA
> #carregando a biblioteca
> library(coda)
Caso tenha optado por no guardar os resultados das simulaes no formato do WinBUGS, deixando o
argumento codaPkg=FALSE, temos antes que transformar o objeto que recebeu a funo bugs() da
seguinte forma:
> resultcoda <- as.mcmc.list(result)
Tambm a biblioteca coda possui um menu
> codamenu()
Para ler os dados com as simulaes basta, no menu principal, selecionar opo 2: Use a mcmc object.
Logo a seguir escreve-se o nome do objecto, que no nosso caso o resultcoda, e pronto, as amostras
esto disponveis para o diagnstico.
Ao final deste tutorial espera-se que o leitor que o tenha experimentado fique com a impresso de que
vale a pena executar o WinBUGS atravs do R. Desta forma acaba-se com aquela preocupao de ter
que formatar os dados para o WinBUGS, guardar o ficheiro com as simulaes das cadeias e depois ter
que ler cada ficheiro no R para fazer o diagnstico e outras tarefas para apresentao de resultados
como grficos e mapas. Outras situaes em que essa ligao muito til surgem em estudos de
simulaes e no estudo de adequabilidade dos modelos usando jacknife. claro que nem tudo so
flores. Uma desvantagem dessa ligao deve-se ao facto da funo bugs() guardar as simulaes em
diversos formatos (matrix, lista, array) e isso pode gerar um problema de memria para o R quando o
nmero de parmetros excessivamente grande. Mas quando esse no o problema, podemos tirar
muito proveito desta ligao e se juntarmos as caractersticas do Sweave (Leisch 2002), que gera um
relatrio em Latex com as sadas do R automaticamente, temos o pacote completo para facilitar nosso
trabalho e a apresentao dos resultados.
Todo o material deste tutorial, incluindo os ficheiros com os dados e o modelo e um pdf com os
outputs do R, est disponvel em www.curso-r.wikidot.com/r2winbugs.
Outros exemplos tambm podem ser encontrados na vignette da biblioteca R2WinBUGS, que pode ser
visualizada em formato pdf atravs do seguinte comando no R:
> vignette("R2WinBUGS")
Referncias
Belitz C, Brezger A, Kneib T, Lang S. (2009): BayesX - Software for Bayesian inference in structured
additive regression models. Version 2.00 (6.5.2009) . Available from http://www.stat.uni-
muenchen.de/~bayesx.
Leisch F, 2002. Sweave user manual. http://www.ci.tuwien.ac.at/~leisch/Sweave/.
Lunn DJ, Thomas A, Best N, and Spiegelhalter D. (2000) WinBUGS - a Bayesian modelling
framework: concepts, structure, and extensibility. Statistics and Computing, 10:325-337. Available
from http://www.mrc-bsu.cam.ac.uk/bugs/.
Park JH, 2009. CRAN Task View: Bayesian Inference.
Available from http://cran.r-project.org/web/views/Bayesian.html
R: A language and environment for statistical computing. R Foundation for Statistical Computing,
Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
Bibliografia
Albert J, 2007. Bayesian Computational with R. Captulo 11. Springer
Plummer M, Best N, Cowles K , Vines K, 2006. CODA: Convergence Diagnosis and Output Analysis
for MCMC. Rnews, 6(1):7-11. http://CRAN.R-project.org/doc/Rnews/
Smith B, BOA (Bayesian Output Analysis) http://www.public-health.uiowa.edu/boa/
Sturtz S, Ligges U, Gelman A, 2005. R2WinBUGS: A Package for Running WinBUGS from R.
Journal of Statistical Software, 12(3), 1-16.
94 B o l e t i m S P E
Ao final deste tutorial espera-se que o leitor que o tenha experimentado fique com a impresso de que
vale a pena executar o WinBUGS atravs do R. Desta forma acaba-se com aquela preocupao de ter
que formatar os dados para o WinBUGS, guardar o ficheiro com as simulaes das cadeias e depois ter
que ler cada ficheiro no R para fazer o diagnstico e outras tarefas para apresentao de resultados
como grficos e mapas. Outras situaes em que essa ligao muito til surgem em estudos de
simulaes e no estudo de adequabilidade dos modelos usando jacknife. claro que nem tudo so
flores. Uma desvantagem dessa ligao deve-se ao facto da funo bugs() guardar as simulaes em
diversos formatos (matrix, lista, array) e isso pode gerar um problema de memria para o R quando o
nmero de parmetros excessivamente grande. Mas quando esse no o problema, podemos tirar
muito proveito desta ligao e se juntarmos as caractersticas do Sweave (Leisch 2002), que gera um
relatrio em Latex com as sadas do R automaticamente, temos o pacote completo para facilitar nosso
trabalho e a apresentao dos resultados.
Todo o material deste tutorial, incluindo os ficheiros com os dados e o modelo e um pdf com os
outputs do R, est disponvel em www.curso-r.wikidot.com/r2winbugs.
Outros exemplos tambm podem ser encontrados na vignette da biblioteca R2WinBUGS, que pode ser
visualizada em formato pdf atravs do seguinte comando no R:
> vignette("R2WinBUGS")
Referncias
Belitz C, Brezger A, Kneib T, Lang S. (2009): BayesX - Software for Bayesian inference in structured
additive regression models. Version 2.00 (6.5.2009) . Available from http://www.stat.uni-
muenchen.de/~bayesx.
Leisch F, 2002. Sweave user manual. http://www.ci.tuwien.ac.at/~leisch/Sweave/.
Lunn DJ, Thomas A, Best N, and Spiegelhalter D. (2000) WinBUGS - a Bayesian modelling
framework: concepts, structure, and extensibility. Statistics and Computing, 10:325-337. Available
from http://www.mrc-bsu.cam.ac.uk/bugs/.
Park JH, 2009. CRAN Task View: Bayesian Inference.
Available from http://cran.r-project.org/web/views/Bayesian.html
R: A language and environment for statistical computing. R Foundation for Statistical Computing,
Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
Bibliografia
Albert J, 2007. Bayesian Computational with R. Captulo 11. Springer
Plummer M, Best N, Cowles K , Vines K, 2006. CODA: Convergence Diagnosis and Output Analysis
for MCMC. Rnews, 6(1):7-11. http://CRAN.R-project.org/doc/Rnews/
Smith B, BOA (Bayesian Output Analysis) http://www.public-health.uiowa.edu/boa/
Sturtz S, Ligges U, Gelman A, 2005. R2WinBUGS: A Package for Running WinBUGS from R.
Journal of Statistical Software, 12(3), 1-16.
95 O u t o n o d e 2 0 0 9
Cincia Estatstica
Artigos Cientfcos Publicados
Caeiro, F., Gomes, M.I. and Henriques Rodrigues, L. (2009). Reduced-bias tail index estimators under
a third order framework. Communications in Statistics - Theory and Methods, 38(7), 1019-1040.
Caeiro, F. and Gomes, M.I. (2009). Semi-parametric second-order reduced-bias high quantile
estimation. Test, 18(2), 392-413.
Caiado, J., N. Crato and D. Pea (2009) - Comparison of time series with unequal length in the
frequency domain, Communications in Statistics: Simulation and Computation, 38, 527-40.
Gomes, M.I., Pestana, D. and Caeiro F. (2009). A note on the asymptotic variance at optimal levels of
a bias-corrected Hill estimator. Statistics and Probability Letters, 79(3), 295-303.
Menezes, R. and J.Tawn (2009) - Assessing the effect of biased and clustered sampling on variogram
estimation. Environmetrics, vol 20, issue 4, 445-459.
Valente, V. and T. Oliveira (2009) - Hierarchical Linear Models in Education Sciences: An
Application. Biometrical Letters vol. 46(1), 71-86.
Teses de Mestrado
Ttulo: A Satisfao no trabalho em Portugal: Uma anlise longitudinal com recurso a Latent
Growth Curve Models
Autora: Ana Lcia Teixeira Dias, analuciadias@fcsh.unl.pt
Orientadora: Maria de Ftima Salgueiro
Ttulo: Costumer Lifetime Value na Banca
Autora: Ana Margarida Gomes Alexandre, ana.margarida.alexandre@gmail.com
Orientadores: Anabela Costa e Elson Filho
Ttulo: A situao econmica e social na Unio Europeia. Anlise de alguns indicadores
Autora: Patrcia Pereira, patricia_arp02@hotmail.com
Orientadora: Manuela Magalhes Hill
Ttulo: Modelao longitudinal do bem-estar psicolgico com modelos de trajectria latente
Autora: Joana Malta Correia Guedes, joanavmalta@gmail.com
Orientadora: Maria de Ftima Salgueiro
Ttulo: Anlise de Dados Longitudinais Discretos: uma Aplicao ao Estudo da Influncia de Lpidos
no Adenocarcinoma Mamrio
Autora: Eunice Isabel Ganho Carrasquinha Trigueiro, nicecarrasquinha@hotmail.com
Orientadora: Salom Cabral
Ttulo: Risco de Exposio Humana aos Contaminantes na Alimentao: o cdmio e o chumbo no
peixe-espada preto
Autora: Ins Alves Farias, farias.ines@gmail.com
Orientadora: Maria Isabel Fraga Alves
96 B o l e t i m S P E
Livros
Ttulo: A Linguagem R, programao para a anlise de dados
Autor: Lus Torgo
Ano: 2009. Editora: Escolar Editora. ISBN: 978-972-592-246-0
Ttulo: COMPSTAT 2008 Proceedings in Computational Statistics (com CD-ROM)
Edio: Paula Brito
Ano: 2008. Editora: Physica-Verlag. ISBN: 978-3-7908-2083-6
Ttulo: Abordagem Estatstica de Conjuntos Difusos
Autor: Abdul Suleman
Ano: 2009. Editora: Slabo. ISBN: 978-972-618-544-4
Ttulo: Estatstica Descritiva e Probabilidades. Problemas resolvidos e propostos com aplicaes em R
Autores: Fernanda Figueiredo, Adelaide Figueiredo, Alexandra Ramos, Paulo Teles
Ano: 2009 (2 Edio). Editora: Escolar Editora. ISBN: 978-972-592-249-1
Ttulo: Um mundo para conhecer os nmeros
Autores: M. J. Ferreira, I. Tavares, P. Campos, L. Loura, M. E. G. Martins, A. A. da Silva, R. Sousa
Ano: 2009. Editora: INE. ISBN: 978-98925-0043-0
Ttulo: Anlise de Sobrevivncia
Autores: Cristina Rocha e Ana Lusa Papoila
Ano: 2009. Edies SPE. ISBN: 978-972-8890-22-3
Ttulo: Estatstica. Arte de Explicar o Acaso
Editores: Irene Oliveira, Elisete Correia, Ftima Ferreira, Sandra Dias e Carlos Braumann
Ano: 2009. Edies SPE. ISBN: 978-972-8890-20-9
Teses de Doutoramento
Ttulo: META-ANLISE Harmonizao de testes usando os valores de prova
Autor: Fernando Jos Arajo Correia da Ponte Sequeira, fjsequeira@fc.ul.pt
Orientador: Dinis Duarte Ferreira Pestana
Na minha tese, apresento uma breve resenha de tpicos de Meta-Anlise que mostram a importncia
dessa subdisciplina da Estatstica na construco do conhecimento cientfico, viabilizando snteses dos
factos e concluses conhecidas, e explora-se com algum detalhe o problema das snteses usando nveis
de significncia descritivos.
Apresentamos uma tcnica artificiosa de calcular pseudo p-values, ampliando computacionalmente
a amostra, e estudamos as implicaes desses procedimentos na potncia dos testes meta-analticos
usuais, de Fisher e de Tippett; usando os mtodos de Stouffer, averiguamos o impacto do uso da
amostra ampliada no nmero de estudos no significativos que seriam necessrios para virar a deciso
de rejeio global, uma das formas mais usadas de avaliar o efeito do enviesamento na publicao nas
revises sistemticas e snteses meta-analticas.
Estabelecem-se ainda resultados sobre caracterizao de uniformes, e estuda-se a distribuio
exacta de funes de betas potencialmente teis em eventuais extenses usando espaamentos.
O objectivo fundamental a ampliao do vector de valores de prova (em certas experinias de
nmero muito reduzido) de forma a que se refore a probabilidade de aceitao de
0
H no caso desta
ser verdadeira e o mesmo suceda na rejeio no caso de ser falsa. Os p-values artificiais so gerados
a partir dos originais mas so independentes dos mesmos.
Fernando Sequeira
97 O u t o n o d e 2 0 0 9
Ttulo: A Linguagem R, programao para a anlise de dados
Autor: Lus Torgo
Ano: 2009. Editora: Escolar Editora. ISBN: 978-972-592-246-0
Ttulo: COMPSTAT 2008 Proceedings in Computational Statistics (com CD-ROM)
Edio: Paula Brito
Ano: 2008. Editora: Physica-Verlag. ISBN: 978-3-7908-2083-6
Ttulo: Abordagem Estatstica de Conjuntos Difusos
Autor: Abdul Suleman
Ano: 2009. Editora: Slabo. ISBN: 978-972-618-544-4
Ttulo: Estatstica Descritiva e Probabilidades. Problemas resolvidos e propostos com aplicaes em R
Autores: Fernanda Figueiredo, Adelaide Figueiredo, Alexandra Ramos, Paulo Teles
Ano: 2009 (2 Edio). Editora: Escolar Editora. ISBN: 978-972-592-249-1
Ttulo: Um mundo para conhecer os nmeros
Autores: M. J. Ferreira, I. Tavares, P. Campos, L. Loura, M. E. G. Martins, A. A. da Silva, R. Sousa
Ano: 2009. Editora: INE. ISBN: 978-98925-0043-0
Ttulo: Anlise de Sobrevivncia
Autores: Cristina Rocha e Ana Lusa Papoila
Ano: 2009. Edies SPE. ISBN: 978-972-8890-22-3
Ttulo: Estatstica. Arte de Explicar o Acaso
Editores: Irene Oliveira, Elisete Correia, Ftima Ferreira, Sandra Dias e Carlos Braumann
Ano: 2009. Edies SPE. ISBN: 978-972-8890-20-9
Ttulo: Modelao Estatstica com Misturas e Pseudo-Misturas
Autor: Miguel Martins Felgueiras, mfelg@estg.ipleiria.pt
Orientador: Dinis Duarte Pestana
Na minha tese procurei estudar diferentes tipos de misturas de distribuies, que por permitirem uma
mirade de combinaes de achatamento, assimetria e multimodalidade, so extremamente eficazes na
anlise de dados.
Comecei por trabalhar com as misturas finitas e convexas mais habituais (com aplicaes nas mais
diversas reas do conhecimento), que surgem quando um determinado atributo observado numa
populao com vrias subpopulaes, no sendo possvel classificar os elementos da amostra nestas.
Para misturas unimodais, apresentei alguns resultados assintticos, que podero ser teis em vrias
situaes prticas. Questes de parcimnia foram igualmente analisadas neste contexto. Em misturas
de gaussianas, as aproximaes obtidas permitem testar a igualdade das mdias e a igualdade das
varincias.
Atravs de uma generalizao da teoria clssica de extremos (permitindo estabilidade para
transformaes de forma) explorei ainda um novo tipo de misturas, finitas mas no convexas, que
permitem que as suas componentes tenham pesos negativos e pesos superiores a 1. Estas misturas so
extremamente flexveis, podendo ser uma sria alternativa na modelao, por exemplo, de trfego na
internet.
Finalmente, analisei misturas infinitas com parmetro de escala Pareto. Ao aleatorizar o parmetro
de escala, consegui modelos baseados no original mas de caudas mais pesadas, e que generalizam as
distribuies divididas usuais, com diversas aplicaes em estudos de robustez. Devido densidade
polinomial da distribuio Pareto, vrias densidades explcitas destas misturas foram obtidas.
Miguel Felgueiras
Ttulo: SETAR Nonlinearity, Nonstationarity and Forecasting
Autor: Pedro Goubeia, pgouveia@ualg.pt
Orientador: Paulo M.M. Rodrigues
Na minha tese so realizados diversos desenvolvimentos no mbito dos modelos SETAR (Self-
Exciting Threshold Autorregressive).
Numa primeira fase, em contexto no sazonal, so derivados testes de razes unitrias que tm por
base o princpio do Multiplicador de Lagrange e obtidas as suas distribuies. Estes testes, de acordo
com o estudo de Monte Carlo realizado, tm bom desempenho e no apresentam distoro do nvel
face a quebras na mdia, contrariamente ao que ocorre com a verso no-linear do teste DF proposta
na literatura.
Tambm ao nvel dos testes de razes unitrias, so realizados alguns desenvolvimentos que tm
por base a aplicao do mtodo dos mnimos quadrados generalizados e a estimao recursiva das
componentes determinsticas. Ainda em contexto no sazonal, so derivados os limites assimptticos
dos testes propostos na regio de quase no estacionaridade.
Por outro lado, boa parte do interesse do estudo de sries econmicas com sazonalidade est
associado presena de razes unitrias nas frequncias zero e sazonais. Nesta tese procede-se
derivao de testes de razes unitrias em modelos SETAR sazonais. Estes testes apresentam a
vantagem de permitir testar a eventual interferncia do ciclo econmico nos padres de sazonalidade.
Finalmente, na componente emprica da tese desenvolvido um estudo de previso que tem por
base a combinao de diversos modelos lineares e no-lineares e a aplicao de diferentes filtros
varivel dependente de forma a ter ou no em conta os efeitos da sazonalidade e no-estacionaridade.
Este estudo de previso procura ainda ser pioneiro na utilizao de modelos sazonais em metodologias
de combinao de previses. Esta componente aplicada tem por base o princpio segundo o qual
diferentes modelos apresentam complementaridades na aproximao ao Processo Gerador de Dados.
Pedro Gouveia
98 B o l e t i m S P E
Ttulo: Mtodos Robustos em Geoestatstica
Autor: Hilrio Amlcar dos Santos Ribeiro Miranda, hmiranda@ua.pt
Orientadora: Maria Manuela Souto de Miranda
Na minha tese faz-se uma reviso dos mtodos de estimao usuais em Geoestatstica e prope-se um
estimador robusto do variograma, com boas propriedades de eficincia sob modelos Normais.
Como os mtodos de estimao do variograma existentes ou no so robustos, ou tm pouca
eficincia em modelos Normais, no trabalho apresenta-se um novo estimador do variograma, que se
designou por estimador de mltiplos variogramas. Resumidamente, o novo mtodo consiste em quatro
etapas, nas quais prevalecem, alternadamente, critrios de robustez ou de eficincia. Com a amostra
inicial e por questes de eficincia, so calculadas, de forma robusta, tantas estimativas pontuais do
variograma quantos os parmetros do modelo; com base nessas estimativas, os parmetros so
estimados pelo mtodo dos mnimos quadrados; as duas fases anteriores so repetidas um elevado
nmero de vezes, criando um conjunto de mltiplas estimativas da funo variograma; por fim, a
estimativa final do variograma definida pelas medianas das estimativas dos parmetros obtidas
anteriormente. Assim se obtm um estimador robusto e com boa eficincia em processos Gaussianos.
A investigao desenvolvida revelou que, ao usar estimativas discretas na primeira fase da
estimao do variograma, existem situaes onde a identificabilidade dos parmetros no est
assegurada. Para os modelos mais comuns, foi possvel estabelecer condies que garantem a
unicidade de soluo na estimao do variograma.
A estimao do variograma supe sempre a estacionaridade da mdia do processo. Como no so
conhecidos procedimentos objectivos para avaliar tal condio, no trabalho sugere-se um teste para
validar essa hiptese. A estatstica do teste um estimador-MM, cuja distribuio desconhecida nas
condies assumidas. Tendo em vista a sua aproximao, prope-se uma verso do mtodo bootstrap
adequada ao estudo de observaes de processos espaciais, a qual preserva a estrutura de dependncia
do processo.
Finalmente, o estimador de mltiplos variogramas avaliado em termos da sua aplicao prtica.
O trabalho contm um estudo com dados reais e outro de simulao, os quais confirmam as
propriedades estabelecidas. Em todos os casos analisados, o estimador proposto produziu melhores
resultados do que as alternativas usuais, tanto para a distribuio assumida, como para distribuies
contaminadas.
Hilrio Miranda
Ttulo: Extremos em sries temporais max-autorregressivas
Autora: Marta Ferreira, msferreira@math.uminho.pt
Orientadora: Lusa Canto e Castro
A minha tese tem como motivao inicial a continuao do estudo do comportamento extremal de
nveis que persistem por um perodo de tempo fixo, introduzido em Draisma (2001). De uma anlise
sob o pressuposto de que esses nveis constituem uma srie de observaes i.i.d., rapidamente se passa
hiptese mais realista de considerar dependncia entre as observaes, embora mantendo a
estacionaridade. Uma vez que sempre uma modelao dos valores extremos que est em mente,
muito naturalmente se pensa nos modelos autorregressivos de mximos, como os MARMA (Davis e
Resnick, 1989), em particular, os MARMA(1,0), tambm designados ARMAX (Alpuim 1989a, 1989b
e Canto e Castro 1992). Na sequncia do interesse em contemplar situaes de dependncia, surge a
questo de avaliar se existe uma dependncia ou independncia exactas entre observaes
consecutivas consideradas nas caudas, ou se uma dependncia que vai desaparecendo gradualmente.
Ledford e Tawn (1996) introduzem um modelo, no qual surge um novo parmetro que permite ``medir
o grau'' de dependncia na cauda, designado coeficiente de dependncia assinttica na cauda ou
coeficiente de Ledford e Tawn. no decurso do clculo do valor deste coeficiente para os usuais max-
autorregressivos, que surge a construo do processo pARMAX, o qual inclui um parmetro potncia,
que faz com que o coeficiente de Ledford e Tawn se relacione directamente com esse mesmo
parmetro.
De modo a atenuar o carcter um tanto determinstico do processo pARMAX e, assim, torn-lo mais
aplicvel na modelao de dados reais, considera-se uma generalizao do mesmo, com a introduo
de um factor aleatrio.
Surge assim um novo processo max-autorregressivo potncia, que designamos pRARMAX, o qual
mantm a particularidade do seu parmetro potncia se relacionar com o coeficiente de Ledford e
Tawn, de modo anlogo ao do processo pARMAX. Aproveitando a maleabilidade permitida num
processo pRARMAX, desenvolve-se uma metodologia de anlise do seu ajustamento a uma srie de
dados.
Marta Ferreira
99 O u t o n o d e 2 0 0 9
Ttulo: Concepo de um Modelo Multicritrio de Suporte Avaliao de Agncias Bancrias
Autor: Fernando Alberto Freitas Ferreira, fernando.ferreira@esg.ipsantarem.pt
Orientadores: Srgio Pereira dos Santos e Paulo Manuel Marques Rodrigues
A minha tese insere-se no domnio MCDA Multiple Criteria Decision Analysis e prope a
concepo de um modelo multicritrio de suporte avaliao de agncias bancrias com base num
processo que conjuga mapas cognitivos com a tcnica MACBETH Measuring Attractiveness by a
Categorical Based Evaluation Technique. Aps analisar as tendncias evolutivas do sector bancrio
em Portugal (e das respectivas unidades tradicionais de retalho), bem como os principais mtodos de
avaliao utilizados, foi possvel conceber um modelo de avaliao de agncias que, assente numa
anlise integrada das vertentes potencial e efectiva, permite distinguir (global e localmente) diferentes
agncias segundo mltiplos critrios. Este modelo, ao qual se atribuiu a designao M-M
4
BE
Multicriteria Model for Branch Evaluation, visa mensurar a performance de agncias bancrias
atravs da conjugao de variveis quantificveis (i.e. aspectos objectivos) com variveis oriundas da
esfera intangvel das agncias (i.e. aspectos subjectivos). Alm disso, assume uma base complementar,
por nutrir-se das mais-valias dos mtodos genricos analisados. Naturalmente, para que esta
concepo fosse possvel, outros objectivos intermdios tiveram de ser atingidos, como por exemplo:
(a) identificar e validar critrios de avaliao relevantes, segundo os juzos dos decisores; (b) estruturar
hierarquicamente esses critrios com base em processos metodolgicos adequados; (c) construir
escalas numricas necessrias quantificao dos critrios e ponder-los segundo as apreciaes
semnticas dos decisores; (d) aplicar o modelo junto de uma amostra de agncias, revelando os seus
perfis de desempenho e (e) realizar anlises de sensibilidade e robustez. Como resultado, o ensaio
desenvolvido revelou ser til como base de reflexo para a definio e implementao de polticas de
desenvolvimento que, uma vez amadurecidas pela aquisio de novos conhecimentos, proporcionem
melhorias na performance das agncias avaliadas. Na prtica, o estudo corrobora, e como tal fortalece,
os contributos de outros investigadores relativamente s vantagens de utilizar tcnicas de mapeamento
cognitivo e metodologias multicritrio de apoio deciso, quer individualmente quer de forma
integrada, para apoiar a concepo e implementao de sistemas de avaliao do desempenho. De
resto, para alm do ensaio experimental do qual resultou o M-M
4
BE, deve testemunhar-se a mais-valia
obtida com o trabalho efectuado junto de profissionais da Banca em Portugal.
Fernando Ferreira
Ttulo: Feira dos Momentos Planeamento Experimental e Investigao de Localizao e Escala em
Populaes no Gaussianas
Autor: Joo Paulo Oliveira Martins, jpmartins@estg.ipleiria.pt
Orientadores: Dinis Duarte Ferreira Pestana e Sandra Maria Freitas Mendona
Na minha tese os desenvolvimentos clssicos relativos a planeamentos discriminantes ptimos e
planeamentos robustos ptimos serviram de inspirao para a definio de planeamentos mistos
ptimos, que tm em conta quer a estimao do grau da regresso bem como dos seus coeficientes,
sendo quase ptimos no que se refere aos critrios discriminante e robusto. O caso dos planeamentos
mistos ptimos at grau 4 caracterizado detalhadamente, e a investigao computacional mostra que
a perda de eficincia comparativamente com os planeamentos discriminantes ptimos e robustos
ptimos inferior a 2%, enquanto a perda de eficincia dos planeamentos robustos ptimos comparada
com os planeamentos discriminantes ptimos, ou vice-versa, pode atingir os 15%. A teoria dos
momentos cannicos serve de suporte apresentao dos resultados relativos a planeamentos ptimos.
Discutem-se as truncaturas da srie de Taylor sugeridas pela aplicao do mtodo delta. So
apresentadas algumas extenses e aplica-se o mtodo avaliao da varincia da soma de n variveis
aleatrias eventualmente correlacionadas, um problema com aplicaes ao nvel da Qumica. Ainda
neste contexto, so consideradas as transformaes estabilizadoras da varincia apresentando-se uma
extenso da definio para variveis aleatrias univariadas com n parmetros desconhecidos. O caso
multivariado tambm abordado e so dadas algumas pistas para compreender as condies para a
existncia ou no dessas transformaes. O mtodo delta tambm usado para estimar os primeiros
quatro momentos da estatstica de Student T
n
. Mostra-se que o comportamento da distribuio de T
n
prximo do comportamento de uma distribuio do tipo IV do sistema de Pearson. Discute-se o papel
da assimetria na atraco e repulso da mdia amostral e varincia amostral. A escolha do ttulo
pretende transmitir desde logo que, ainda que haja uma linha condutora, os resultados assimptticos e
os mtodos utilizados para os deduzir recorrem a um variado espectro de valores esperados e funes
de valores esperados, que com alguma latitude de linguagem podemos apodar de momentos e de
transformaes integrais.
Joo Paulo Martins
Ttulo: Extremos em sries temporais max-autorregressivas
Autora: Marta Ferreira, msferreira@math.uminho.pt
Orientadora: Lusa Canto e Castro
A minha tese tem como motivao inicial a continuao do estudo do comportamento extremal de
nveis que persistem por um perodo de tempo fixo, introduzido em Draisma (2001). De uma anlise
sob o pressuposto de que esses nveis constituem uma srie de observaes i.i.d., rapidamente se passa
hiptese mais realista de considerar dependncia entre as observaes, embora mantendo a
estacionaridade. Uma vez que sempre uma modelao dos valores extremos que est em mente,
muito naturalmente se pensa nos modelos autorregressivos de mximos, como os MARMA (Davis e
Resnick, 1989), em particular, os MARMA(1,0), tambm designados ARMAX (Alpuim 1989a, 1989b
e Canto e Castro 1992). Na sequncia do interesse em contemplar situaes de dependncia, surge a
questo de avaliar se existe uma dependncia ou independncia exactas entre observaes
consecutivas consideradas nas caudas, ou se uma dependncia que vai desaparecendo gradualmente.
Ledford e Tawn (1996) introduzem um modelo, no qual surge um novo parmetro que permite ``medir
o grau'' de dependncia na cauda, designado coeficiente de dependncia assinttica na cauda ou
coeficiente de Ledford e Tawn. no decurso do clculo do valor deste coeficiente para os usuais max-
autorregressivos, que surge a construo do processo pARMAX, o qual inclui um parmetro potncia,
que faz com que o coeficiente de Ledford e Tawn se relacione directamente com esse mesmo
parmetro.
De modo a atenuar o carcter um tanto determinstico do processo pARMAX e, assim, torn-lo mais
aplicvel na modelao de dados reais, considera-se uma generalizao do mesmo, com a introduo
de um factor aleatrio.
Surge assim um novo processo max-autorregressivo potncia, que designamos pRARMAX, o qual
mantm a particularidade do seu parmetro potncia se relacionar com o coeficiente de Ledford e
Tawn, de modo anlogo ao do processo pARMAX. Aproveitando a maleabilidade permitida num
processo pRARMAX, desenvolve-se uma metodologia de anlise do seu ajustamento a uma srie de
dados.
Marta Ferreira
100 B o l e t i m S P E
Ttulo: Extremum Estimators and Stochastic Optimization Methods
Autor: Miguel de Carvalho, mb.carvalho@fct.unl.pt
Orientadores: Joo Tiago Mexia e Manuel L. Esquvel
A minha tese incide sobre estimadores extremais (extremum estimators). Estes mtodos unificam uma
ampla classe de estimadores, que podem ser formulados atravs da soluo de um problema de
optimizao. O mtodo dos mnimos quadrados, o mtodo generalizado dos momentos, bem como os
mtodos de mxima verosimilhana resultam da soluo de um problema de optimizao, sendo
consequentemente especificaes particulares de estimatores extremais. Um problema relevante no
clculo de estimativas deste tipo, est relacionado com as propriedades de convergncia do mtodo
utilizado para obter a soluo ptima. Com efeito, se o mtodo utilizado convergir, eventualmente,
para uma soluo local, deixam de ser garantidas a consistncia e a normalidade assimpttica do
estimador extremal.
Esta tese contribui para o estado da arte atravs da introduo de um mtodo de pesquisa
estocstica, com vista obteno de estimativas extremais. O mtodo proposto doravante designado
por mtodo mestre extremamente geral, incluindo como caso particular o algoritmo conceptual de
pesquisa aleatria simples, bem como a variante estocstica do algoritmo zigzag de Mexia et al.
(1999). So apresentadas duas variantes do mtodo mestre: uma relativa a uma formulao
algortmica; outra com uma estrutura matricial inerente. A formulao matricial permite uma melhor
compreenso do ponto de vista conceptual do mtodo introduzido. Alm disso, esta formulao pode
ainda possibilitar uma implementao mais simples, conforme evidenciamos atravs da decomposio
Kronecker-zigzag. A formulao matricial torna tambm claro como se pode tirar partido da teoria dos
valores extremos. Com efeito, atravs da aplicao de resultados assimptticos da teoria dos valores
extremos primeira coluna da matriz das iteradas, possvel construir intervalos de confiana para o
mximo da funo dos parmetros. Um dos grandes triunfos desta tese reside na prova de
convergncia estocstica do mtodo mestre. Efectivamente, da demonstrao de convergncia deste
mtodo, sai como corolrio a convergncia do mtodo estocstico zigzag, bem como a convergncia
de todos os remanescentes casos particulares deste mtodo. Com efeito, a designao do mtodo
devida ao facto de este funcionar como uma chave mestra no que concerne ao estabelecimento da
convergncia de uma vasta classe de mtodos de optimizao.
Miguel de Carvalho
Ttulo: Concepo de um Modelo Multicritrio de Suporte Avaliao de Agncias Bancrias
Autor: Fernando Alberto Freitas Ferreira, fernando.ferreira@esg.ipsantarem.pt
Orientadores: Srgio Pereira dos Santos e Paulo Manuel Marques Rodrigues
A minha tese insere-se no domnio MCDA Multiple Criteria Decision Analysis e prope a
concepo de um modelo multicritrio de suporte avaliao de agncias bancrias com base num
processo que conjuga mapas cognitivos com a tcnica MACBETH Measuring Attractiveness by a
Categorical Based Evaluation Technique. Aps analisar as tendncias evolutivas do sector bancrio
em Portugal (e das respectivas unidades tradicionais de retalho), bem como os principais mtodos de
avaliao utilizados, foi possvel conceber um modelo de avaliao de agncias que, assente numa
anlise integrada das vertentes potencial e efectiva, permite distinguir (global e localmente) diferentes
agncias segundo mltiplos critrios. Este modelo, ao qual se atribuiu a designao M-M
4
BE
Multicriteria Model for Branch Evaluation, visa mensurar a performance de agncias bancrias
atravs da conjugao de variveis quantificveis (i.e. aspectos objectivos) com variveis oriundas da
esfera intangvel das agncias (i.e. aspectos subjectivos). Alm disso, assume uma base complementar,
por nutrir-se das mais-valias dos mtodos genricos analisados. Naturalmente, para que esta
concepo fosse possvel, outros objectivos intermdios tiveram de ser atingidos, como por exemplo:
(a) identificar e validar critrios de avaliao relevantes, segundo os juzos dos decisores; (b) estruturar
hierarquicamente esses critrios com base em processos metodolgicos adequados; (c) construir
escalas numricas necessrias quantificao dos critrios e ponder-los segundo as apreciaes
semnticas dos decisores; (d) aplicar o modelo junto de uma amostra de agncias, revelando os seus
perfis de desempenho e (e) realizar anlises de sensibilidade e robustez. Como resultado, o ensaio
desenvolvido revelou ser til como base de reflexo para a definio e implementao de polticas de
desenvolvimento que, uma vez amadurecidas pela aquisio de novos conhecimentos, proporcionem
melhorias na performance das agncias avaliadas. Na prtica, o estudo corrobora, e como tal fortalece,
os contributos de outros investigadores relativamente s vantagens de utilizar tcnicas de mapeamento
cognitivo e metodologias multicritrio de apoio deciso, quer individualmente quer de forma
integrada, para apoiar a concepo e implementao de sistemas de avaliao do desempenho. De
resto, para alm do ensaio experimental do qual resultou o M-M
4
BE, deve testemunhar-se a mais-valia
obtida com o trabalho efectuado junto de profissionais da Banca em Portugal.
Fernando Ferreira
101 O u t o n o d e 2 0 0 9
Ttulo: Mtodos Analticos em Probabilidade e Mtodos Probabilsticos em Anlise Fractalidade
Associada aos Modelos Beta(p,q), Evoluo de Populaes e Dimenses de Hausdorff
Autora: Sandra Maria da Silva Figueiredo Aleixo, sandra.aleixo@dec.isel.ipl.pt
Orientadores: Jos Leonel Linhares da Rocha e Dinis Duarte Ferreira Pestana
Na minha tese, deduzi modelos de crescimento populacional proporcionais a densidades beta com
parmetros de forma p e 2, onde p1, cuja complexidade dinmica est relacionada com o parmetro
malthusiano r. Usando tcnicas de dinmica simblica, investiguei o comportamento catico destes
modelos, em termos de entropia topolgica, no espao de parmetros (r,p), identificando diferentes
comportamentos dinmicos.
Verifiquei a universalidade da constante de Feigenbaum nos modelos apresentados, usando uma
frmula diferente daquela que usualmente apresentada na literatura.
O efeito de Allee foi analisado nestes modelos. Para p>2, eles exibem uma dinmica populacional
onde o efeito de Allee surge naturalmente. No entanto, no caso onde 1<p2, os modelos propostos no
incluem este efeito. Para invoc-lo, apresentei alguns modelos alternativos e investiguei as suas
dinmicas.
Analisei tambm a negatividade da derivada de Schwarz em todos os modelos propostos.
Defini poeira de Cantor aleatria, um fractal obtido por eliminao recursiva do espaamento
central que definido entre o mnimo e mximo de duas observaes aleatrias uniformemente
distribudas, de cada intervalo da iterao anterior. A designao atribuda ao fractal justificvel,
uma vez que os valores esperados dos extremos dos intervalos de cada iterao, coincidem com os
extremos dos intervalos da correspondente iterao na construo da poeira de Cantor determinista.
Calculei a dimenso de Hausdorff (que intuitivamente avalia a que ponto um conjunto denso) da
poeira de Cantor aleatria, e verifiquei que apesar de a poeira de Cantor ser o fractal mdio, da
poeira de Cantor aleatria, mais denso (a dimenso de Hausdorff da poeira de Cantor C superior
dimenso de Hausdorff da poeira de Cantor aleatria F
U
).
Este resultado levou-me a uma definio mais geral de conjuntos de Cantor aleatrios F
X
, onde X
uma varivel aleatria com distribuio Beta(p,q), ao clculo das suas dimenses de Hausdorff, e das
dimenses de Hausdorff dos fractais deterministas que so a esperana daqueles fractais aleatrios,
num sentido similar ao de a poeira de Cantor determinista ser a esperana da poeira de Cantor
aleatria.
O fenmeno geral, e para essa diferena entre dimenses de Hausdorff encontrei uma explicao
probabilista que refora a interpretao de dimenso de Hausdorff como reveladora da abundncia de
pontos do fractal.
Sandra Aleixo
Ttulo: Concepo de um Modelo Multicritrio de Suporte Avaliao de Agncias Bancrias
Autor: Fernando Alberto Freitas Ferreira, fernando.ferreira@esg.ipsantarem.pt
Orientadores: Srgio Pereira dos Santos e Paulo Manuel Marques Rodrigues
A minha tese insere-se no domnio MCDA Multiple Criteria Decision Analysis e prope a
concepo de um modelo multicritrio de suporte avaliao de agncias bancrias com base num
processo que conjuga mapas cognitivos com a tcnica MACBETH Measuring Attractiveness by a
Categorical Based Evaluation Technique. Aps analisar as tendncias evolutivas do sector bancrio
em Portugal (e das respectivas unidades tradicionais de retalho), bem como os principais mtodos de
avaliao utilizados, foi possvel conceber um modelo de avaliao de agncias que, assente numa
anlise integrada das vertentes potencial e efectiva, permite distinguir (global e localmente) diferentes
agncias segundo mltiplos critrios. Este modelo, ao qual se atribuiu a designao M-M
4
BE
Multicriteria Model for Branch Evaluation, visa mensurar a performance de agncias bancrias
atravs da conjugao de variveis quantificveis (i.e. aspectos objectivos) com variveis oriundas da
esfera intangvel das agncias (i.e. aspectos subjectivos). Alm disso, assume uma base complementar,
por nutrir-se das mais-valias dos mtodos genricos analisados. Naturalmente, para que esta
concepo fosse possvel, outros objectivos intermdios tiveram de ser atingidos, como por exemplo:
(a) identificar e validar critrios de avaliao relevantes, segundo os juzos dos decisores; (b) estruturar
hierarquicamente esses critrios com base em processos metodolgicos adequados; (c) construir
escalas numricas necessrias quantificao dos critrios e ponder-los segundo as apreciaes
semnticas dos decisores; (d) aplicar o modelo junto de uma amostra de agncias, revelando os seus
perfis de desempenho e (e) realizar anlises de sensibilidade e robustez. Como resultado, o ensaio
desenvolvido revelou ser til como base de reflexo para a definio e implementao de polticas de
desenvolvimento que, uma vez amadurecidas pela aquisio de novos conhecimentos, proporcionem
melhorias na performance das agncias avaliadas. Na prtica, o estudo corrobora, e como tal fortalece,
os contributos de outros investigadores relativamente s vantagens de utilizar tcnicas de mapeamento
cognitivo e metodologias multicritrio de apoio deciso, quer individualmente quer de forma
integrada, para apoiar a concepo e implementao de sistemas de avaliao do desempenho. De
resto, para alm do ensaio experimental do qual resultou o M-M
4
BE, deve testemunhar-se a mais-valia
obtida com o trabalho efectuado junto de profissionais da Banca em Portugal.
Fernando Ferreira
102 B o l e t i m S P E
Prmios Estatstico Jnior 2009
Trabalho classificado em 1 lugar (Ensino Bsico)
Ttulo: Como se ocupam os nossos avs Autoria: Mariana Branco Farinha, Henrique Manuel T.
Manso Vinhas Nunes, Mariana Sofia das Neves Cruz. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalhos classificados em 2 lugar (exquo) (Ensino Bsico)
Ttulo: Um olhar sobre a Estatstica nos 2 e 3 ciclos Autoria: Abel Filipe Santiago Nicolau,
Antnio Manuel de Jesus Ferreira, Mrio Antnio Ferreira Esteves da Silva Leal. Estabelecimento de
Ensino: Colgio Internato dos Carvalhos, Vila Nova de Gaia. Professor orientador: Sandra Maria de
Sousa Campelos.
Ttulo: A Escola e a Famlia Autoria: Leonor Oliveira Pedro, Ins Oliveira Pedro dos Santos.
Estabelecimento de Ensino: Agrupamento de Escolas Artur Gonalves, Torres Novas. Professor
orientador: Teresa de Jesus Poo Isabel.
Trabalho classificado em 3 lugar (Ensino Bsico)
Ttulo: Futuros Eleitores da Gro Vasco Autoria: Rafael Jos Gonalves de Melo, Carlos Miguel
Cardoso Garrido, Henrique Miguel Afonso Domingos. Estabelecimento de Ensino: Escola E. B. 2,3
Gro Vasco Viseu. Professor orientador: Cheila Isabel Ferreira Nunes e S Pereira.
Trabalho classificado em 1 lugar (Ensino Secundrio)
Ttulo: A educao para os Barcelenses - "Barcelos call: sondagem sobre a educao Autoria:
Andreia Sofia Ferraz Arajo, Jos Emanuel da Silva Boavista, Pedro Manuel Costa Magalhes.
Estabelecimento de Ensino: Escola Secundria de Barcelos, Barcelos, Professor orientador: Jos
Eduardo Fernandes da Cunha
Trabalhos classificados em 2 lugar (exquo) (Ensino Secundrio)
Ttulo: A Cultura Geral no Ensino Secundrio Autoria: Jos Pedro Gomes Marques da Silva,
Antnio Gil Cabral Azevedo. Estabelecimento de Ensino: Externato Ribadouro, Porto. Professor
orientador: Susana Luzia Machado Gonalves Moreira Gomes Antunes da Silva.
Ttulo: Pesos e alturas das crianas do J.I. de Santa Maria Autoria: Kayla Pires Pereira, Maria Ins
da Luz Ferreira, Sara Filipa Alves Pina dos Santos. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalho classificado em 3 lugar (Ensino Secundrio)
Ttulo: Pokmon - Estudo Estatstico para Matemtica Autoria: Rita Pereira Casmarrinha, Diogo
Chotas Arsnio Dias. Estabelecimento de Ensino: Escola Secundria de Cacilhas Tejo, Cacilhas.
Professor orientador: Lus Miguel Fonseca Nunes.
PRMIOS ESTATSTICO JNIOR 2009
Prmios Estatstico Jnior 2009
Trabalho classificado em 1 lugar (Ensino Bsico)
Ttulo: Como se ocupam os nossos avs Autoria: Mariana Branco Farinha, Henrique Manuel T.
Manso Vinhas Nunes, Mariana Sofia das Neves Cruz. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalhos classificados em 2 lugar (exquo) (Ensino Bsico)
Ttulo: Um olhar sobre a Estatstica nos 2 e 3 ciclos Autoria: Abel Filipe Santiago Nicolau,
Antnio Manuel de Jesus Ferreira, Mrio Antnio Ferreira Esteves da Silva Leal. Estabelecimento de
Ensino: Colgio Internato dos Carvalhos, Vila Nova de Gaia. Professor orientador: Sandra Maria de
Sousa Campelos.
Ttulo: A Escola e a Famlia Autoria: Leonor Oliveira Pedro, Ins Oliveira Pedro dos Santos.
Estabelecimento de Ensino: Agrupamento de Escolas Artur Gonalves, Torres Novas. Professor
orientador: Teresa de Jesus Poo Isabel.
Trabalho classificado em 3 lugar (Ensino Bsico)
Ttulo: Futuros Eleitores da Gro Vasco Autoria: Rafael Jos Gonalves de Melo, Carlos Miguel
Cardoso Garrido, Henrique Miguel Afonso Domingos. Estabelecimento de Ensino: Escola E. B. 2,3
Gro Vasco Viseu. Professor orientador: Cheila Isabel Ferreira Nunes e S Pereira.
Trabalho classificado em 1 lugar (Ensino Secundrio)
Ttulo: A educao para os Barcelenses - "Barcelos call: sondagem sobre a educao Autoria:
Andreia Sofia Ferraz Arajo, Jos Emanuel da Silva Boavista, Pedro Manuel Costa Magalhes.
Estabelecimento de Ensino: Escola Secundria de Barcelos, Barcelos, Professor orientador: Jos
Eduardo Fernandes da Cunha
Trabalhos classificados em 2 lugar (exquo) (Ensino Secundrio)
Ttulo: A Cultura Geral no Ensino Secundrio Autoria: Jos Pedro Gomes Marques da Silva,
Antnio Gil Cabral Azevedo. Estabelecimento de Ensino: Externato Ribadouro, Porto. Professor
orientador: Susana Luzia Machado Gonalves Moreira Gomes Antunes da Silva.
Ttulo: Pesos e alturas das crianas do J.I. de Santa Maria Autoria: Kayla Pires Pereira, Maria Ins
da Luz Ferreira, Sara Filipa Alves Pina dos Santos. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalho classificado em 3 lugar (Ensino Secundrio)
Ttulo: Pokmon - Estudo Estatstico para Matemtica Autoria: Rita Pereira Casmarrinha, Diogo
Chotas Arsnio Dias. Estabelecimento de Ensino: Escola Secundria de Cacilhas Tejo, Cacilhas.
Professor orientador: Lus Miguel Fonseca Nunes.
103 O u t o n o d e 2 0 0 9
A educa A educa o para os barcelenses o para os barcelenses
Barcelos Barcelos call call: sondagem sobe a educa : sondagem sobe a educa o o
Professoresdasescolasprivadas, Professoresdasescolasprivadas,
profissionalmentemelhoresdoque profissionalmentemelhoresdoque
osdasescolasp osdasescolasp blicas? blicas?
Oque feitonasaulasde
substituio?
Escolaridadeobrigat Escolaridadeobrigat ria, ria,
at at quando? quando?
M
a
i
s
e
s
c
o
l
a
s
p
r
i
v
a
d
a
s
?
O
sC
U
R
S
O
S
P
R
O
F
IS
S
IO
N
A
IS
O
sC
U
R
S
O
S
P
R
O
F
IS
S
IO
N
A
IS
p
re
p
a
ra
m
a
d
e
q
u
a
d
a
m
e
n
te
o
s
p
re
p
a
ra
m
a
d
e
q
u
a
d
a
m
e
n
te
o
s
jo
v
e
n
s?
jo
v
e
n
s?
O
n
d
e
O
n
d
e
q
u
e
o
s
a
l
u
n
o
s
q
u
e
o
s
a
l
u
n
o
s
m
e
l
h
o
r
e
s
p
r
e
p
a
r
a
d
o
s
?
m
e
l
h
o
r
e
s
p
r
e
p
a
r
a
d
o
s
?
M
a
i
o
r
r
i
g
o
r
d
i
s
c
i
p
l
i
n
a
r
,
o
n
d
e
?
N
a
s
e
s
c
o
l
a
s
b
l
i
c
a
s
?
N
a
s
p
r
i
v
a
d
a
s
?
Autores: Emanuel, Andreia e Manuel
Prmios Estatstico Jnior 2009
Trabalho classificado em 1 lugar (Ensino Bsico)
Ttulo: Como se ocupam os nossos avs Autoria: Mariana Branco Farinha, Henrique Manuel T.
Manso Vinhas Nunes, Mariana Sofia das Neves Cruz. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalhos classificados em 2 lugar (exquo) (Ensino Bsico)
Ttulo: Um olhar sobre a Estatstica nos 2 e 3 ciclos Autoria: Abel Filipe Santiago Nicolau,
Antnio Manuel de Jesus Ferreira, Mrio Antnio Ferreira Esteves da Silva Leal. Estabelecimento de
Ensino: Colgio Internato dos Carvalhos, Vila Nova de Gaia. Professor orientador: Sandra Maria de
Sousa Campelos.
Ttulo: A Escola e a Famlia Autoria: Leonor Oliveira Pedro, Ins Oliveira Pedro dos Santos.
Estabelecimento de Ensino: Agrupamento de Escolas Artur Gonalves, Torres Novas. Professor
orientador: Teresa de Jesus Poo Isabel.
Trabalho classificado em 3 lugar (Ensino Bsico)
Ttulo: Futuros Eleitores da Gro Vasco Autoria: Rafael Jos Gonalves de Melo, Carlos Miguel
Cardoso Garrido, Henrique Miguel Afonso Domingos. Estabelecimento de Ensino: Escola E. B. 2,3
Gro Vasco Viseu. Professor orientador: Cheila Isabel Ferreira Nunes e S Pereira.
Trabalho classificado em 1 lugar (Ensino Secundrio)
Ttulo: A educao para os Barcelenses - "Barcelos call: sondagem sobre a educao Autoria:
Andreia Sofia Ferraz Arajo, Jos Emanuel da Silva Boavista, Pedro Manuel Costa Magalhes.
Estabelecimento de Ensino: Escola Secundria de Barcelos, Barcelos, Professor orientador: Jos
Eduardo Fernandes da Cunha
Trabalhos classificados em 2 lugar (exquo) (Ensino Secundrio)
Ttulo: A Cultura Geral no Ensino Secundrio Autoria: Jos Pedro Gomes Marques da Silva,
Antnio Gil Cabral Azevedo. Estabelecimento de Ensino: Externato Ribadouro, Porto. Professor
orientador: Susana Luzia Machado Gonalves Moreira Gomes Antunes da Silva.
Ttulo: Pesos e alturas das crianas do J.I. de Santa Maria Autoria: Kayla Pires Pereira, Maria Ins
da Luz Ferreira, Sara Filipa Alves Pina dos Santos. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalho classificado em 3 lugar (Ensino Secundrio)
Ttulo: Pokmon - Estudo Estatstico para Matemtica Autoria: Rita Pereira Casmarrinha, Diogo
Chotas Arsnio Dias. Estabelecimento de Ensino: Escola Secundria de Cacilhas Tejo, Cacilhas.
Professor orientador: Lus Miguel Fonseca Nunes.
PRMIOS ESTATSTICO JNIOR 2009
Prmios Estatstico Jnior 2008
Trabalho classificado em 1 lugar (Ensino Secundrio)
Ttulo: Exames Nacionais do 9 ano
Autoria: Mariana Pinto Marques, Marta Isabel Nunes Vieira Fernandes e Rui Tavares Godinho
Estabelecimento de Ensino: Escola Secundria do Entroncamento
Ano de Escolaridade: 10 Ano
Professor orientador: Dulce Marina Bugalho Monteiro
Trabalhos classificados em 2 lugar (ex quo) (Ensino Secundrio)
Ttulo: Como melhorar a educao nos prximos anos
Autoria: Vanda Catarina Ribeiro Gameiro, Ana Catarina Morgado e Ctia Sofia Guedes Pinto
Estabelecimento de Ensino: Escola Secundria do Entroncamento
Ano de Escolaridade: 10 Ano
Professor orientador: Dulce Marina Bugalho Monteiro
Ttulo: Caracterizao scio-econmica dos alunos desta escola
Autoria: Ricardo Simes e Vtor Pereira
Estabelecimento de Ensino: Escola EB/S Padre Martins Capela, Terras de Bouro
Ano de Escolaridade: 10 Ano
Professor orientador: Patrcia Alexandra da Silva Ribeiro Sampaio
Trabalho classificado em 3 lugar (Ensino Secundrio)
Ttulo: Aplicando a distribuio bidimensional Estudo da relao entre a CIF e a CE na disciplina de
Matemtica A do 12 Ano
Autoria: Duarte Jos Baptista Pereira Alves e Dinis Cambraia Lopes Sarmento Pereira
Estabelecimento de Ensino: Escola Secundria Carlos Amarante-Braga
Ano de Escolaridade: 11 Ano
Professor orientador: Tom Antnio Mendes Torres
Trabalho classificado em 2 lugar (Ensino Bsico)
Ttulo: Hbitos alimentares dos alunos de 9 ano da Escola Artur Gonalves
Autoria: Ins Oliveira Pedro dos Santos, Leonor Oliveira Pedro e Ana Beatriz Correia Lopes
Estabelecimento de Ensino: Escola Artur Gonalves, Torres Novas
Ano de Escolaridade: 7 Ano
Professor orientador: Teresa de Jesus Poo Isabel
Trabalho classificado em 3 lugar (Ensino Bsico)
Ttulo: Segurana na nossa Escola
Autoria: Catarina Mafalda Correia da Costa e Vernica Panea
Estabelecimento de Ensino: Escola Bsica Integrada da Mexilhoeira Grande
Ano de Escolaridade: 8 Ano
Professor orientador: Clara Maria Loureno Marqus
Prmios Estatstico Jnior 2009
Trabalho classificado em 1 lugar (Ensino Bsico)
Ttulo: Como se ocupam os nossos avs Autoria: Mariana Branco Farinha, Henrique Manuel T.
Manso Vinhas Nunes, Mariana Sofia das Neves Cruz. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalhos classificados em 2 lugar (exquo) (Ensino Bsico)
Ttulo: Um olhar sobre a Estatstica nos 2 e 3 ciclos Autoria: Abel Filipe Santiago Nicolau,
Antnio Manuel de Jesus Ferreira, Mrio Antnio Ferreira Esteves da Silva Leal. Estabelecimento de
Ensino: Colgio Internato dos Carvalhos, Vila Nova de Gaia. Professor orientador: Sandra Maria de
Sousa Campelos.
Ttulo: A Escola e a Famlia Autoria: Leonor Oliveira Pedro, Ins Oliveira Pedro dos Santos.
Estabelecimento de Ensino: Agrupamento de Escolas Artur Gonalves, Torres Novas. Professor
orientador: Teresa de Jesus Poo Isabel.
Trabalho classificado em 3 lugar (Ensino Bsico)
Ttulo: Futuros Eleitores da Gro Vasco Autoria: Rafael Jos Gonalves de Melo, Carlos Miguel
Cardoso Garrido, Henrique Miguel Afonso Domingos. Estabelecimento de Ensino: Escola E. B. 2,3
Gro Vasco Viseu. Professor orientador: Cheila Isabel Ferreira Nunes e S Pereira.
Trabalho classificado em 1 lugar (Ensino Secundrio)
Ttulo: A educao para os Barcelenses - "Barcelos call: sondagem sobre a educao Autoria:
Andreia Sofia Ferraz Arajo, Jos Emanuel da Silva Boavista, Pedro Manuel Costa Magalhes.
Estabelecimento de Ensino: Escola Secundria de Barcelos, Barcelos, Professor orientador: Jos
Eduardo Fernandes da Cunha
Trabalhos classificados em 2 lugar (exquo) (Ensino Secundrio)
Ttulo: A Cultura Geral no Ensino Secundrio Autoria: Jos Pedro Gomes Marques da Silva,
Antnio Gil Cabral Azevedo. Estabelecimento de Ensino: Externato Ribadouro, Porto. Professor
orientador: Susana Luzia Machado Gonalves Moreira Gomes Antunes da Silva.
Ttulo: Pesos e alturas das crianas do J.I. de Santa Maria Autoria: Kayla Pires Pereira, Maria Ins
da Luz Ferreira, Sara Filipa Alves Pina dos Santos. Estabelecimento de Ensino: Agrupamento de
Escolas Artur Gonalves, Torres Novas. Professor orientador: Maria Alice da Silva Martins.
Trabalho classificado em 3 lugar (Ensino Secundrio)
Ttulo: Pokmon - Estudo Estatstico para Matemtica Autoria: Rita Pereira Casmarrinha, Diogo
Chotas Arsnio Dias. Estabelecimento de Ensino: Escola Secundria de Cacilhas Tejo, Cacilhas.
Professor orientador: Lus Miguel Fonseca Nunes.
104 B o l e t i m S P E
PRMIOS ESTATSTICO JNIOR 2009
Trabalho classifcado em 1. lugar ( Ensino Bsico)
Estatsticos Jnior 2009
O u t o n o d e 2 0 0 9
Esta aberto, at 28 de Naio de 2010, o concurso para atribuiao de prmios "Estatstico Jnior 2010", de acordo com o
seguinte regulamento:
1. A atribuiao de prmios "Estatstico Jnior 2010" promovida pela Sociedade Portuguesa de Estatistica (SPE), com o
apoio da Porto Editora, e tem como objectivo estimular e desenvolver o interesse dos alunos do ensino basico e secundario
pelas areas da Probabilidade e Estatistica.
2. Os candidatos a prmios "Estatstico Jnior 2010" devem ser alunos do 3. Ciclo do Ensino Basico, do Ensino
Secundario, ou dos Cursos de Educaao e Formaao de Adultos (EFA) no ano lectivo 2009f2010.
3. As candidaturas podem ser individuais ou em grupo com um mximo de 3 alunos. Do grupo pode ainda fazer parte
um professor do ensino basico ou secundario ao qual cabera o papel de orientador.
4. Os candidatos devem apresentar um trabalho cuja tematica deve estar relacionada com a teoria da Probabilidade efou
Estatistica.
5. O trabalho devera ser constituido por um texto escrito em Portugus com um maximo de 10 paginas A+ dactilografadas
e um poster formato A2 que resuma os principais aspectos do trabalho. O trabalho devera ser enviado impresso em papel
para efeitos da avaliaao.
6. Poderao ser atribuidos prmios "Estatstico Jnior 2010" a 7 trabalhos: aos trs primeiros classificados de entre os
trabalhos candidatos do 3. Ciclo do Ensino Basico, aos trs primeiros classificados de entre os trabalhos candidatos do
Ensino Secundario, e um primeiro classificado de entre os trabalhos candidatos dos Cursos EFA. Os prmios sao constituidos
por produtos pedaggicos editados pela Porto Editora (a excepao de manuais escolares) no valor de 600 euros, 300 euros
e 200 euros, a atribuir, respectivamente, aos grupos cujos trabalhos sejam classificados em 1., 2. e 3. lugar para as
categorias Ensino Basico e Secundario e 600 euros para a categoria dos Cursos EFA.
7. Ao professor orientador do trabalho classificado em 1 lugar, em cada categoria, ainda atribuida uma anuidade gratis
como scio da SPE, ajudas de custo para participaao no Xv!! Congresso Anual da SPE e produtos pedaggicos editados
pela Porto Editora (a excepao de manuais escolares) no valor de 500 Euros.
S. Aos grupos proponentes dos trabalhos classificados em 1 lugar sera tambm oferecida uma ampliaao do
correspondente poster que sera colocado na Sessao de Posters do Xv!!! Congresso Anual da SPE.
9. O boletim de candidatura, acompanhado do trabalho concorrente, devera ser dirigido ao Presidente da SPE para a
morada abaixo indicada. O carimbo do correio validara a data de entrega.
Sociedade Portuguesa de Estatstica - Bloco C6, Piso 4 - Campo Grande - 1749-016 Lisboa
O boletim de candidatura e este regulamento podem ser obtidos em
http://www.spestatistica.pt/static/docs/BoletimCandidaturaPEJ10.pdf
http://www.spestatistica.pt/static/docs/RegulamentoPEJ10.pdf
10. A admissibilidade e apreciaao dos trabalhos submetidos a concurso da competncia de um juri, cuja constituiao e
nomeaao sera da responsabilidade da Direcao da SPE.
11. O juri soberano nas decisoes, nao havendo lugar a impugnaao ou recurso.
12. A atribuiao dos prmios "Estatstico Jnior 2010" sera anunciada logo que conhecida a decisao do juri e a sua
entrega formal sera realizada no Xv!! Congresso Anual da SPE.
13. Os prmios "Estatstico Jnior 2010" poderao nao ser atribuidos.
Apoio da Porto Editora
PREMO8 E8TAT8TCO JUNOR 2010"
PRMIOS ESTATSTICO JNIOR 2010
Mtodo de Imputao Recorrente: Anlise Espectral Singular com Valores Omissos
Miguel de Carvalho, mb.carvalho@fct.unl.pt
Paulo C. Rodrigues, paulocanas@fct.unl.pt
Universidade Nova de Lisboa, Faculdade de Cincias e Tecnologia e CMA
A Anlise de Componentes Principais (ACP) uma das ferramentas mais populares no domnio da
anlise multivariada. No entanto, o contexto original sob o qual a tcnica foi desenvolvida torna a ACP
inapropriada para o estudo de sries temporais. A Anlise Espectral Singular (AES) surge
precisamente como uma extenso da ACP para sries temporais univariadas (Golyandina et al., 2001).
A ideia basilar da AES consiste na decomposio da srie temporal em diversos blocos distintos que
possam ser identicados como componentes referentes a tendncia, movimentos sazonais, rudo, etc.
So tambm conhecidas na literatura tcnicas para articular com a AES, por forma a permitir a
conduo de experincias de previso. Essencialmente, a AES encontra a sua motivao originria na
decomposio clssica de Karhunen-Love, e outros resultados clebres sobre a representao
ortogonal de processos estocsticos. As razes deste procedimento so geralmente atribudas ao
trabalhos de Broomhead e King (1986). Algumas aplicaes deste procedimento podem ser
encontradas em Golyandina et al. (2001), e referncias a includas. Uma panormica consubstanciada
da AES pode tambm ser encontrada na mesma referncia.
Neste trabalho proposto um Mtodo de Imputao Recorrente (MIR) para sries temporais com
valores omissos, baseado na AES. O MIR recorre a uma combinao ponderada de valores de previso
directa (forecast) e previso inversa (backcast) por forma a imputar de modo recorrente os valores
omissos. Com o intuito de ilustrar a mecnica do mtodo referido foi usada a base de dados clssica na
qual so consideradas observaes mensais do nmero total de passageiros em diversas companhias
areas internacionais. A utilizao deste conjunto de dados permitiu-nos estabelecer comparaes
imediatas com um mtodo alternativo proposto recentemente por Golyandina e Osipov (2007). Os
resultados obtidos so extremamente apelativos superando mesmo o mtodo de Golyandina e Osipov
em algumas medidas de qualidade de previso.
Referncias:
[1] Broomhead, D.S. e King, G.P., 1986. Extracting qualitative dynamics from experimental data.
Physica D, 20, 217236.
[2] Golyandina, N. e Osipov E., 2007. The Catterpillar-SSA method for analysis of time series with
missing values. Journal of Statistical Planning and Inference, 137, 26422653.
[3] Golyandina, N., Nekrutkin, V. e Zhigljavsky, A., 2001. Analysis of Time Series Structure: SSA and
Related Techniques. Chapman & Hall/CRC, London.
Miguel de Carvalho, galardoado com o Prmio SPE 2009, licenciou-se em Matemtica pela Universidade Nova de
Lisboa e Mestre em Economia pela mesma Universidade. Concluiu o seu Doutoramento em Estatstica Matemtica sob a
orientao de Joo Tiago Mexia e Manuel L. Esquvel. Durante o presente ano lectivo realiza estudos de ps-doutoramento
na Faculdade de Cincias da Universidade de Lisboa, sob a superviso de Feridun Turkman e Antnia Turkman.
Paulo Canas Rodrigues, galardoado com o Prmio SPE 2009, licenciou-se em Matemtica pela Universidade Nova de
Lisboa. Mestre em Estatstica pelo Instituto Superior Tcnico. Actualmente aluno de doutoramento em Matemtica
(especializao em Estatstica) na Faculdade de Cincias e Tecnologia da Universidade Nova de Lisboa, sob a orientao
dos Professores Stanislaw Mejza e Joo Tiago Mexia. Neste momento Investigador e Assistente convidado na
Universidade de Wageningen, na Holanda.
PRMIO SPE 2009