Apostila ECO Principal PDF

i
Apostila
ECONOMETRIA
MAT02208
Marcio Valk
Guilherme Pumi
Porto Alegre
2017
ii
Capı́tulo 1
Revisão
1.1 Introdução
Para iniciar qualquer curso em que são utilizadas técnicas estatı́sticas, é necessário escla-
recer/fundamentar bem o conceito de aleatoriedade.
“Na história antiga, os conceitos de chance e de aleatoriedade eram interligados ao con-
ceito que era atribuı́do a destino. Várias pessoas da antigüidade jogavam dados para deter-
minarem o destino, e posteriormente isso se desenvolveu em jogos de azar. A maioria das
culturas usaram vários métodos de adivinhações para tentarem contornar a aleatoriedade e o
destino, ou mesmo a dita sorte. A palavra aleatoriedade é utilizada para exprimir quebra de
ordem, propósito, causa, ou imprevisibilidade em uma terminologia não cientı́fica. Um pro-
cesso aleatório é o processo repetitivo cujo resultado não descreve um padrão determinı́stico,
mas segue uma distribuição de probabilidade. ” (Wikipedia).
Figura 1.1
As técnicas estatı́sticas surgem para encontrar algum padrão de variação. Para tal tarefa
é necessário formalizar e definir alguns conceitos, como são os casos de variável aleatória e
distribuição de probabilidade.
1
2 CAPÍTULO 1. REVISÃO
1.2 Variável Aleatória
Denomina-se variável uma propriedade (caracterı́stica) qualquer das unidades da popula-

ção para a qual foi definida uma unidade de medida, que pode ser quantitativa ou qualitativa.
Observe que essa caracterı́stica é comum a todos os indivı́duos e portanto é uma caracterı́stica
da população. Em geral, queremos fazer afirmações sobre caracterı́sticas e temos apenas
informações de alguns indivı́duos (amostra). Assim, toda afirmação feita a partir de uma
amostra é passı́vel de erros, ou seja, é uma aproximação. Além disso, em alguns casos não é
possı́vel “medir” toda a população e devemos pensar nessa caracterı́stica como uma quantidade
aleatória. Para isso, é necessário introduzirmos o conceito de variável aleatória.
Definição 1.2.1. Espaço amostral de um experimento aleatório (fenômeno que, mesmo repe-
tidos várias vezes sob condições semelhantes, apresentam resultados imprevisı́veis) é qualquer
conjunto contendo todos os possı́veis resultados do experimento. Aqui, sempre que não houver
perigo de confusão, o espaço amostral de um experimento em questão será denotado por Ω,
Exemplo 1.1. No seguinte experimento: lançar uma moeda e verificar a face voltada para
cima, o espaço amostral é o conjunto {cara, coroa}.
Exemplo 1.2. Se o experimento é lançar um dado de seis faces, o espaço amostral é {1, 2, 3,
4, 5, 6}.
Exemplo 1.3. Poderá perfeitamente existir mais de um espaço amostral adequado para um
determinado experimento. No Exemplo 1.2, o conjunto {1, 2, 3, 4, 5, 6, 7} contém todos os
possı́veis resultados do experimento em questão (lançar um dado de seis faces). Assim, pela
definição 1.2.1, este conjunto é tão adequado como espaço amostral quanto o conjunto mais
intuitivo {1, 2, 3, 4, 5, 6}. Até mesmo o conjunto dos números reais R é adequado. Obvia-
mente, sempre que possı́vel é recomendável utilizar o conjunto mais “natural” como espaço
amostral, porém, do ponto de vista teórico, desde que o conjunto escolhido efetivamente con-
tenha todos os possı́veis resultados do experimento, não faz diferença alguma qual conjunto se
está utilizando.
Exemplo 1.4. Nos exemplos anteriores, é possı́vel (e muito fácil) determinar exatamente
quais são todos os possı́veis resultados dos experimentos em questão. Porém nem sempre este
é o caso. Considere o experimento em que uma pessoa é escolhida ao acaso e sua altura (em
metros) medida. Neste caso é difı́cil determinar precisamente o conjunto contendo exatamente
todos os possı́veis resultados do experimento. Com certeza o conjunto [0, 10] contém todas as
possı́veis alturas a serem registradas. O conjunto [0, 3] também. Por outro lado, será que o
conjunto [0, 2.7] é apropriado? E (0.3, 2.7)?
Todo subconjunto de um espaço amostral é chamado evento. Os subconjuntos de um

espaço amostral contendo apenas um elemento são chamados de eventos elementares.
Por exemplo, no lançamento de um dado de seis faces, {5} é um evento elementar. Outro
evento possı́vel é: {a face superior é ı́mpar}, o que é equivalente ao subconjunto {1, 3, 5} ⊂ Ω.
Outra possibilidade poderia ser verificar se a face obtida é superior a 3.
Existem ainda experimentos que podem ser vistos como “compostos” por natureza, como
por exemplo o lançamento independente de um dado de seis faces e de uma moeda honesta,
1.2. VARIÁVEL ALEATÓRIA 3
no qual anotamos a face superior do dado e a face da moeda. Neste caso, é fácil determinar
um espaço amostral associado ao experimento que contenha exatamente todos os resultados
possı́veis. Este constituirá de pares contendo um número inteiro de 0 à 6, correspondente ao
lançamento do dado e um elemento do conjunto {cara, {coroa}, correspondente ao lançamento
da moeda, ou seja, Ω = {(1, cara), (1, coroa), · · · , (6, cara), (6, coroa)}. Uma outra maneira
de representar isto é a partir do produto cartesiano dos espaços amostrais de cada um dos
experimentos individuais, neste caso Ω = {1, 2, 3, 4, 5, 6} × {cara, coroa}.
Espaços amostrais são importantes na definição de um espaço de probabilidade. Um espaço
de probabilidade (Ω, F, P) onde Ω denota um espaço amostral qualquer, F é um conjunto de
eventos associado à Ω satisfazendo certas propriedades (σ-algebra de eventos), e P : F → [0, 1]
uma medida de probabilidade atribuindo valores em [0, 1] para cada evento de interesse em
F (a probabilidade dos eventos).
Uma variável aleatória é uma função do espaço amostral Ω nos reais, para a qual é possı́vel
calcular a probabilidade de ocorrência de seus valores. Em geral, as variáveis aleatórias são
representadas por letras maiúsculas do fim do alfabeto. Temos, para cada elemento ω ∈ Ω,
um número real X(ω) conforme a Figura 1.2.
Figura 1.2: Variável aleatória
Garantimos o cálculo de probabilidades com variáveis aleatórias ao exigir que, para qual-
quer I ⊂ R, o conjunto X −1 (I) seja um evento. Em outras palavras, o conjunto X −1 (I)
é um elemento de F, ou seja, X −1 (I) ∈ F. Lembremos que apenas os elementos de F
têm atribuição de probabilidade. Em linguagem mais matemática, dizemos que uma variável
aleatória é qualquer função mensurável em (Ω, F). Isto justifica dizer que a variável X é F-
mensuravel. Com frequência, faz-se menção ao espaço de probabilidade (Ω, F, P), para deixar
claro o espaço amostral, a σ-álgebra e a probabilidade envolvidas. Formalmente, definimos
Definição 1.2.2. Seja (Ω, F, P) um espaço de probabilidade. Denominamos de variável
aleatória, qualquer função X : Ω → R tal que
X −1 (I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F,
para todo intervalo I ⊂ R. Em palavras, X é tal que sua imagem inversa de intervalos I ⊂ R
pertencem a σ-álgebra F.
No que segue precisamos do conceito de cardinalidade de um conjunto. Em palavras

simples, a cardinalidade de um conjunto é uma maneira de expressar a “quantidade” de
elementos que este contém. Um conjunto ordenado A é dito finito se contém um número finito
de elementos. A cardinalidade de um conjunto finito nada mais é que o número de elementos
que este contém. Por exemplo o conjunto A = {1, 2, 9, 15} é finito e tem cardinalidade 4.
Por outro lado, a definição de cardinalidade para conjuntos infinitos é matematicamente
muito mais complexa pois, no final das contas, a idéia é impor uma hierarquia, uma “ordem”,
no “tamanho” de conjuntos infinitos. Obviamente a cardinalidade de um conjunto infinito
não pode ser expressa em números. Estamos interessados apenas em distinguir entre dois
“tamanhos” de conjuntos infinitos: enumerável e não-enumerável. Por sorte, na maioria das
vezes é possı́vel utilizar apenas a intuição para resolver o problema. Intuitivamente, um
conjunto ordenado A é dito ser infinito enumerável (ou ainda, contável ) se dado um elemento
qualquer de A, podemos determinar quem é o próximo elemento do conjunto. Caso contrário,
o conjunto é dito ser não-enumerável. Por exemplo, o conjunto dos números naturais N é
infinito enumerável. De fato, dado qualquer número natural x, o próximo é x+1, obviamente.
Já o conjunto [0, 1] é infinito não-enumerável. Por exemplo, dado o número 0.5 ∈ [0, 1], qual
é próximo elemento de [0, 1]? Poderı́amos dizer 0.6, mas e 0.51? Este ainda está mais longe
de 0.5 que 0.501. De fato 0, 5001, 0.50001 etc. é uma sequência infinita de números em [0, 1]
cada vez mais próxima de 0.5 de forma que não é possı́vel determinar o próximo elemento
na ordenação do conjunto. Os conjuntos enumeráveis mais conhecidos são N, Z e Q, sendo
que este último é um pouco mais difı́cil de aplicar a regra intuitiva acima. Os conjuntos não
enumeráveis mais conhecidos são R, R \ Q, C.
Definição 1.2.3. Variável Aleatória Discreta. Se o conjunto dos possı́veis valores da

variável aleatória é finito ou infinito enumerável.
Definição 1.2.4. Variável Aleatória Contı́nua Se o conjunto dos possı́veis valores da

variável aleatória é infinito não-enumerável.
Na prática, é comum a utilização de variáveis aleatórias contı́nuas pois estas são matema-
ticamente mais simples de se tratar. Quando, por exemplo, falamos que a renda é uma v.a.
contı́nua (na verdade ela é discreta) é pela conveniência da aproximação.
1.2.1 Distribuição de Probabilidade
A função que descreve as probabilidades da variável aleatória discreta X assumir os di-

ferentes valores do espaço amostral é chamada de função massa de probabilidade. No caso
de uma variável contı́nua, a probabilidade de uma variável aleatória assumir qualquer valor
especı́fico é 0. Neste caso o análogo da função massa de probabilidade é a função de densi-
dade de probabilidade (abreviado f.d.p. ou ainda, do inglês, p.d.f.) que, em poucas palavras,
descreve a variação instantânea da probabilidade no ponto. Para que uma função qualquer f
seja uma densidade de probabilidade é necessário que
f (x) ≥ 0 para todo x ∈ R,

Z Z ∞
f (x)dx = f (x)dx = 1. (1.1)
R −∞
Como a probabilidade de ocorrência de um valor em particular de uma variávela aleatória

contı́nua é sempre 0, probabilidades são discutidas em termos de intervalos, ou mesmo outros
tipos de conjuntos. Essas probabilidades são obtidas por meio de integração da função den-
sidade no intervalo especificado. Por exemplo, seja X uma variávela aleatória com densidade
f (x). Então P (a ≤ X ≤ b) é dada por
Z b
P (a ≤ X ≤ b) = f (x)dx.
a
Analogamente, para um conjunto A ⊆ R qualquer,

Z
P (X ∈ A) = f (x)dx.
A
A probabilidade de que a variável aleatória X assuma valores inferiores ou igual a um

número x ∈ R, P (X ≤ x), possui importancia intrı́nsica pois representa a probabilidade
acumulada até o ponto x. Por isso, para cada x ∈ R fixo, denotamos esta probabilidade por
F (x) = P (X ≤ x)
e a função assim definida F : R → [0, 1] é chamada de função de distribuição acumulada

(denotada por f.d.a.), ou somente função de distribuição. Note que se X é uma variável
aleatória contı́nua com densidade f ,
Z x
F (x) = P (X ≤ x) = f (t)dt.
−∞
Distribuições conjunta, marginal e condicional
Geralmente estamos interessados não apenas numa variável aleatória mas na relação entre
algumas variáveis aleatórias. Suponha que temos duas variáveis aleatórias, X e Y . Agora
além do comportamento probabilı́stico individual de X e Y , caracterizado por suas funções
de distribuições, digamos FX e FY , respectivamente, precisamos alguma forma de descrever o
comportamento probabilı́stico conjunto de X e Y . Para isso definimos a função de distribuição
acumulada de X e Y , denotada por FX,Y , por
FX,Y (x, y) = P (X ≤ x, Y ≤ y).

Se X e Y são ambas contı́nuas, podemos definir a densidade conjunta de X e Y denotada por

fX,Y , como sendo a função que satisfaz
Z x Z y
FX,Y (x, y) = fX,Y (z, w)dzdw.
−∞ −∞
A função de distribuição conjunta de um par de variáveis aleatórias X e Y caracteriza também

os comportamentos probabilisticos de X e Y individualmente. De fato
FX (x) = lim FX,Y (x, y) e FY (y) = lim FX,Y (x, y)

y→∞ x→∞
e também Z Z
fX (x) = fX,Y (x, y)dy e fY (y) = fX,Y (x, y)dx.
R R
Quando temos a função de distribuição conjunta de um par X e Y de variáveis aleatórias,
dizemos que as densidades/distribuições individuais de X e Y são as densidades/distribuições
marginais de X e Y .
A função de distribuição condicional de X dado Y = y é descrita por

P (X≤x,Y =y)

 P (Y =y) , se X é discreta e P (Y = y) 6= 0
FX|Y (x|y) = P (X ≤ x|Y = y) = Rx
 −∞ fX,Y (t,y)dt ,

se X é contı́nua e fY (y) 6= 0
fy (y)
1. As densidades condicionais são:
(a) fX|Y (x|y), que é a densidade de X dado Y = y.

(b) fY |X (y|x), que é a densidade de Y dado X = x.
Formalmente, temos a relação

Z x Z y
FX|Y (x|y) = fX|Y (t|y)dt e FY |x (y|x) = fY |X (t|x)dt,
−∞ −∞
no caso em que X e Y são contı́nuas. Relações parecidas valem no caso em que X e Y são
discretas, trocando-se integrais por somas e densidades por função massa de probabilidade.
A densidade conjunta pode ser escrita como o produto das densidades marginal e condi-
cional da seguinte forma:
fX,Y (x, y) = fX (x)fY |X (y|x)

= fY (y)fX|Y (x|y).
Se fX,Y (x, y) = fX (x)fY (y) para todo x e y, então X e Y são chamadas de variáveis inde-
pendentes. Note que, se eles são independentes,
fX|Y (x|y) = fX (x) e fY |X (y|x) = fY (y),

isto é, as distribuições condicionais são as mesmas que as marginais. Intuitivamente, quando
X e Y são independentes X não carrega nenhuma informação útil a respeito de Y , assim o
fato de Y ser ou não conhecido é irrelevante para a determinação de X.
1.2.2 A Distribuição Normal e Distribuições Relacionadas
Existem algumas distribuições de probabilidade cujas probabilidades que, devido à sua

utilização em diversas aplicações, valores de suas funções de distribuição são tabuladas. Den-
tre estas distribuições notáveis, podemos citar distribuição normal e as distribuições χ2 , t e
F , as quais discutiremos juntamente com as distribuições lognormal e normal bivariada. Exis-
tem diversas outras distribuições para as quais tabelas extensivas estão disponı́veis. Como
exemplos citamos as distribuições gama e beta. Na verdade, a distribuição χ2 é um caso
particular da distribuição gama, e as distribuições t e F são casos particulares da distribuição
beta. Trataremos aqui apenas das citadas.
Existe um grande criticismo sobre a adequação da distribuição normal para descrever
variáveis econômicas. Muitas vezes a distribuição normal de fato não é apropriada. Contudo,
dois fatos tornam o estudo da distribuição normal importantes: primeiramente, embora exis-
tam problemas em que o uso da distribuição normal é questionável, existe um número muito
maior de problemas em que o uso desta é totalmente apropriado. Segundo, mesmo que as
variáveis não sejam normalmente distribuı́das, pode-se considerar transformações de variáveis
que façam com que as variáveis transformadas se tornem normalmente distribuı́das.
A Distribuição Normal
A distribuição normal, cuja densidade possui um formato que lembra um sino, é a distri-
buição mais amplamente utilizada em aplicações estatı́sticas numa grande variedade de áreas.
Dizemos que X tem distribuição normal com média µ ∈ R e variância σ 2 > 0, denotado
compactamente por X ∼ N (µ, σ 2 ), se sua função de densidade de probabilidade for dada por

1 1 2
f (x) = √ exp − 2 (x − µ) , para x ∈ R.
σ 2π 2σ
Os parâmetros µ e σ 2 são também chamados de parâmetros de locação e escala, respectiva-

mente.
Se µ = 0 e σ = 1, a distribuição é chamada de “distribuição normal padrão” e a função
de densidade de probabilidade reduz-se a,
1 x2
f (x) = √ e− 2 .
2π
Uma propriedade importante propriedade da distribuição normal é que qualquer com-

binação linear de variáveis normalmente distribuı́das também é normalmente distribuı́da. De
fato, pode-se mostrar que, se
X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 )

Figura 1.3: Função densidade Normal com diferentes parâmetros de locação e escala.
Locação Escala
0.4 0.4
µ=−3 µ=0 µ=3

0.35 0.35
σ2 =1
0.3 0.3
0.25 0.25 σ2=2.25
0.2 0.2
σ2=4
0.15 0.15
0.1 0.1
0.05 0.05
0 0
−6 −4 −2 0 2 4 6 −10 −5 0 5 10
e a correlação entre X1 e X2 é ρ, então
a1 X1 + a2 X2 ∼ N (a1 µ1 + a2 µ2 , a21 σ12 + a22 σ22 + 2ρa1 a2 σ1 σ2 ).
Em particular,
X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 + 2ρσ1 σ2 )

e
X1 − X2 ∼ N (µ1 − µ2 , σ12 + σ22 − 2ρσ1 σ2 ).
Distribuições Relacionadas
Além da distribuição normal, há outras distribuições de probabilidade que usaremos com
frequência. São elas as distribuições χ2 , t e F , tabuladas no apêndice. Estas distribuições são
derivadas da distribuição normal e definidas como descrito a seguir.
Distribuição χ2
A distribuição χ2 é bastante importante em aplicações e é definida a partir da soma

dos quadrados de variáveis normais. Mais especificamente, se X1 , X2 , · · · , Xn são variáveis
aleatórias independentes com distribuição normal padrão então
n
X
Q= Xi2
i=1
1.3. PARÂMETROS, ESTIMADORES E VALORES ESTIMADOS 9
tem distribuição χ2 com n graus de liberdade (g.l.), e escrevemos isso compactamente como
Q ∼ χ2n .
Se Xi ∼ N (µ, σ 2 ), então Q deve ser definido por
n
X (Xi − µ)2
Q= .
σ2
i=1
A distribuiçãoχ2 também satisfaz uma determinada “propriedade de adição”, no seguinte

sentido: se Z1 ∼ χ2n e Z2 ∼ χ2m e Z1 e Z2 são independentes, então Z1 + Z2 ∼ χ2n+m . Note que
esta propriedade de adição é bem mais restritiva que aquela da distribuição normal, já que
exige independência para que a simples soma das variáveis satisfaçam à propriedade (para
normal, a propriedade vale para combinações lineares quaisquer), mas ainda assim é muito
útil na prática.
Distribuição t
Se X ∼ N (0, 1), Y ∼ χ2n , e X e Y são independentes, a variável

√
X nX
T =p = √
Y /n Y
possui distribuição t com n g.l. Escrevemos isso como T ∼ tn . O subscrito n novamente

denota os g.l. Assim como a distribuição normal, a distribuição t é uma distribuição de
probabilidade simétrica, com forma lembrando um sino, sendo porém mais achatada e com
caudas mais “pesadas” que a normal. Quando o número de graus de liberdade n de uma
variável tn tende ao infinito, obtemos a distribuição normal. Em outras palavras, quando
os graus de liberdade de uma variável aleatória com distribuição tn for grande, esta tem
comportamento probabilı́stico muito similar ao de uma normal.
Distribuição F
Se Y1 ∼ χ2n1 , Y2 ∼ χ2n2 e Y1 e Y2 são independentes, a variável
Y1 /n1 n2 Y1
F = =
Y2 /n2 n1 Y2
é dita possuir distribuição F com n1 e n2 g.l. Escrevemos isso como F ∼ Fn1 ,n2 . O primeiro
subscrito n1 , refere-se aos g.l. do numerador, e o segundo subscrito, n2 , refere-se aos g.l. do
denominador.
1.3 Parâmetros, Estimadores e Valores Estimados
Considere o deslocamento de uma partı́cula no vácuo, em superfı́cie sem atrito. Aprende-

mos cedo que a velocidade da partı́cula num instante de tempo t, vt , é dada por vt = v0 + at,
onde v0 é a velocidade inicial da partı́cula, a > 0 é a aceleração aplicada na partı́cula, neste
Figura 1.4: Função densidade χ2 , t-Student e F-Snedecor. Em parênteses os graus de liber-

dade.
0.25 0.4 1
0.9
0.35
0.2 0.8
0.3
0.7
0.25
0.15 0.6
0.2 0.5
0.1 0.4
0.15
0.3
0.1
0.05 0.2
0.05
0.1
0 0 0
0 5 10 15 −5 0 5 0 2 4 6 8
caso assumida constante. Neste modelo idealizado, a velocidade de uma partı́cula é uma
função linear do tempo, cujo gráfico é apresentado na Figura 1.5(a).
Um grupo de pesquisadores realizou o seguinte experimento: numa superfı́cie lisa, porém
não absolutamente sem atrito, ao ar livre (isto é, na presença de vento, partı́culas de poeira,
etc.) uma partı́cula foi acelerada à uma determinada aceleração desconhecida, mas constante
em cada repetição do experimento, à partir de uma velocidade inicial desconhecida, mas
também constante em cada repetição do experimento. Após um determinado tempo t a
velocidade da partı́cula foi medida. Como resultados obtemos pares (vi , ti ) representando
a i-ésima observação da velocidade da partı́cula, medida no tempo ti . Os resultados estão
apresentados na Figura 1.5(b). Nosso interesse é determinar a velocidade inicial da partı́cula
e a aceleração, que são chamados de parâmetros populacionais. Note que devido às condições
não serem ideais, os dados não estão perfeitamente alinhados em uma reta como o estipulado
na teoria, mas estão aproximadamente alinhados. Os desvios da reta “esperada” podem ser
interpretados como sendo aleatórios, e são devidos aos vários fatores que estão fora de nosso
controle, como atrito, vento, partı́culas em suspensão no ar, etc, fatores que estão em desalinho
com a teoria.
Para estimar os parâmetros a e v0 , que denotaremos por â e vˆ0 , podemos utilizar os
estimadores de Mı́nimos Quadráticos Ordinários que conhecemos, neste caso, dados por (mais
detalhes serão fornecidos adiante)
Pn
(v − v̄)(ti − t̄)
â = i=1Pn i 2
e vˆ0 = v̄ − ât̄,
i=1 (ti − t̄)
onde v̄ denota a média das velocidades e t̄ denota a média dos tempos observados. Note que,
fornecidos os dados para o estimador, ele retorna dois valores sendo eles a estimativa dos
1.4. PROPRIEDADES DE VARIÁVEIS ALEATÓRIAS 11
parâmetros a e v0 baseados nos dados. Note que mudando os dados, o estimador continua
sendo o mesmo, mas os valores retornados por ele, as estimativas, mudarão. À partir dessas
estimativas obtemos a reta apresentada na Figura 1.5(c)
Na resolução do problema aparecem 3 objetos eminentemente diferentes, cada um deles
fundamental na solução do problema e que devem ser entendidos com clareza. Primeiramente
temos os parâmetros populacionais, que são os valores de interesse, mas que nos são desconhe-
cidos. Baseado numa amostra, gostarı́amos, de alguma forma identificar, esses parâmetros.
Segundo temos um estimador, que é uma função dos dados. Quando alimentado de dados
estes estimadores retornam valores. Os valores retornados pelo estimador compreendem o
terceiro objeto mencionado: são os valores estimados dos parâmetros populacionais.
Esta distinção entre parâmetro, estimador e valor estimado é essencial e está no coração
das aplicações de estatı́stica à dados reais.
(a) (b)
(c)
Figura 1.5
1.4 Propriedades de Variáveis Aleatórias
1.4.1 Média, Valor Esperado ou Esperança Matemática
A Média ou valor esperado, ou ainda a esperança matemática de uma variável aleatória

representa o valor médio assumido pela variável em questão. Esta pode ser interpretada como
a média ponderada de cada valor assumido pela variável ponderado pela sua probabilidade
de ocorrência.
Definição 1.4.1. Média, valor esperado ou esperança matemática de variáveis

aleatórias discretas. Suponha que X seja uma variável aleatória discreta assumindo n
valores diferentes x1 , · · · xn com probabilidades p1 , · · · , pn , respectivamente. Então a média,
ou valor esperado ou anda a esperança da variável X é definida por
n
X
E(X) = x1 p1 + x2 p2 + · · · + xn pn = xi p i .
i=1
Observe que, no caso discreto, a esperança de uma variável X nada mais é do que a média
ponderada de cada valor assumido pela variável pela sua probabilidade de ocorrência.
Exemplo 1.5. Seja X o valor da face superior obtida no lançamento de um dado equilibrado.
Neste caso temos P (X = 1) = P (X = 2) = P (X = 3) = P (X = 4) = P (X = 5) = P (X =
6) = 61 , ou seja p1 = p2 = p3 = p4 = p5 = p6 = 16 . Segue que
6
X 1 1 1 1 1 1
E(X) = pi xi = .1 + .2 + .3 + .4 + .5 + .6
6 6 6 6 6 6
i=1
1 1 6(6 + 1)
= (1 + 2 + 3 + 4 + 5 + 6) = .
6 6 2
21 7
= = = 3, 5.
6 2
O valor 3,5 obtido no resultado deve ser interpretado da seguinte forma: se jogarmos um dado
equilibrado um número grande de vezes e calcularmos a média dos valores obtidos, ele será
próximo à 3,5. De fato, se fosse possı́vel repertir o experimento um número infinito de vezes,
a média dos resultados convergiria para 3,5.
Definição 1.4.2. Valor Esperado de g(X). Seja X uma variável aleatória discreta assu-
mindo n valores diferentes x1 , · · · xn com probabilidades p1 , · · · , pn , respectivamente. Seja g
uma função definida na imagem da variável aleatória de X. Então E(g(X)) é dado por
n
X
E(g(X)) = g(x1 )p1 + · · · + g(xn )pn = g(xi )pi .
i=1
Exemplo 1.6. Para o Exemplo considere g(X) = X 2 . Obtemos

6
X 1 1 1 1 1 1
E(X 2 ) = pi x2i = .1 + .4 + .9 + .16 + .25 + .36
6 6 6 6 6 6
i=1
1 1 6(6 + 1)(12 + 1)
= (1 + 4 + 9 + 16 + 25 + 36) = .
6 6 6
91
= = 15, 16666.
6
Note que E(X 2 ) 6= E(X)2 .
Definição 1.4.3. Esperança de variáveis aleatórias contı́nuas.

Supondo que X seja uma variável aleatória contı́nua com função de densidade de proba-
bilidade f , definimos a esperança de X por
Z ∞
E(X) = xf (x)dx.
−∞
O valor esperado de uma função integrável qualquer de X, digamos g(X) é definido por
Z ∞
E(g(X)) = g(x)f (x)dx.
−∞
Exemplo 1.7. Se X ∼ N (µ, σ 2 ), então E(X) = µ, como pode ser facilmente computado.
Propriedades da Esperança
No que segue, assumimos que X, Y são variáveis aleatórias e a, b, c são constantes reais.
E1) E(a) = a;
E2) E(a + X) = a + E(X);
E3) E(bX) = bE(X);
E4) E(a + bX) = a + bE(X);
E5) E(X + Y ) = E(X) + E(Y );
E6) E(a + bX + cY ) = a + bE(X) + cE(Y );
Estas propriedades podem ser generalizadas para qualquer número de variáveis aleatórias.
Em particular, segue a esperança de uma combinação linear de variáveis aleatórias é a com-
binação linear das suas esperança, isto é, se X1 , · · · , Xn são variáveis aleatórias e a1 , · · · , an
são constantes reais,
n
X Xn
E7) E ai Xi = ai E(Xi ).
i=1 i=1
Por esse motivo, a função E(·) que associa a cada variável aleatória o seu valor esperado
é um operador linear, chamado de operador esperança.
Em geral, temos que E(XY ) 6= E(X)E(Y ). Porém, no caso particular em que X e Y são
variáveis aleatórias independentes, a igualdade é válida, isto é,
E(XY ) = E(X)E(Y ) se, e somente se, X e Y são independentes.
1.4.2 Variância
Seja X uma variável aleatória (contı́nua ou discreta)e defina µ = E(X). Então a variância
de X é definida por
Var(X) = E[(X − µ)2 )] = E(X 2 ) − [E(X)]2 . (1.2)
Podemos interpretar a variância como sendo o valor esperado do quadrado do desvio de

X da sua própria média. Em linguagem comum isto pode ser expresso como A média do
quadrado da distância de cada ponto até a média. É assim a média do quadrado dos desvios.
2 , ou simplesmente
A variância da variável aleatória X é geralmente designada por Var(X), σX
σ 2 . A variância é uma medida de dispersão dos dados e sua unidade é a unidade dos dados
elevada ao quadrado. Lembramos que a raiz quadrada positiva da variância determina o
chamado desvio padrão de X.
1.4.3 Covariância
A covariância entre duas variáveis aleatórias X e Y com E(X) = µX e E(Y ) = µY é

definida por
Cov(X, Y ) = E[(X − µX )(Y − µY )].
Desenvolvendo a expressão para a covariância, temos:

Cov(X, Y ) = E (X − µX )(Y − µY )

= E (X − E(X))(Y − E(Y ))

= E XY − XE(Y ) − Y E(X) + E(X)E(Y ) .
Usando a propriedade de que a esperança da soma entre duas variáveis aleatórias é igual a
soma das esperanças, segue que

Cov(X, Y ) = E(XY ) − E XE(Y ) − E Y E(X) + E E(X)E(Y )
= E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y ) (1.3)
Note que quando X e Y são independentes, temos que E(XY ) = E(X)E(Y ) de onde segue
que Cov(X, Y ) = 0. A recı́proca, porém, não é verdadeira pois existem exemplos de variáveis
dependentes que possuem covariância nula. Observe ainda que da expressão (1.3) podemos
concluir que a covariância é uma forma de medir o quão “distante” X e Y estão de ser
independentes.
1.4.4 Correlação
A correlação, também chamada de coeficiente de correlação, indica a força e a direção

do relacionamento linear entre duas variáveis aleatórias, se existir. A correlação entre duas
variáveis X e Y com 0 < Var(X) < ∞ e 0 < Var(Y ) < ∞, denotado por Cor(X, Y ) ou ρX,Y ,
é definida como
Cov(X, Y ) E(XY ) − E(X)E(Y )
Cor(X, Y ) = ρX,Y = p =p p .
Var(X)Var(Y ) E(X ) − E2 (X) E(Y 2 ) − E2 (Y )
2
Note que a correlação entre X e Y nada mais é do que a covariância entre X e Y normalizada
por seus desvios padrões. Esta normalização acaba dando à correlação uma interpretabilidade
ausente na covariância como veremos a seguir.
Observe ainda que, quando Cov(X, Y ) = 0, temos Cor(X, Y ) = 0 também e X e Y são
ditos ser variáveis não-correlacionadas.
1.4.5 Propriedades da Variância, Covariância e Correlação
Se a e b forem constantes reais e X uma variável aleatória cuja variância está definida,
então:
V1) Var(aX + b) = a2 Var(X);
V2) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).
Da propriedade V1 segue que a variância de uma constante é zero. Além disso, se a

variância de uma variável aleatória é zero, então esta variável assume um único valor com
probabilidade 1. Da propriedade V2 segue que se X e Y são não-correlacionados, então a
variância da soma é a soma das variâncias.
Suponha agora que X e Y são variáveis aleatórias e a, b, c e d são constantes reais. Então
Cv1) Cov(X, X) = Var(X);
Cv2) Cov(X, Y ) = Cov(Y, X);
Cv3) Cov(aX + b, cY + d) = acCov(X, Y );

Xn m
X X n Xm
Cv4) Cov Xi , Yj = Cov(Xi , Yj ).
i=1 j=1 i=1 j=1
Como mencionado anteriormente, se X e Y são independentes, então Cov(X, Y ) = 0.

A correlação, por sua vez, possui as seguintes propriedades:

Cr1) Cor(X, Y ) ≤ 1;
Cr2) Cor(X, Y ) = 1 se, e somente se, X é diretamente proporcional a Y no sentido de

que X = a + bY para a ∈ R e b > 0;
Cr3) Cor(X, Y ) = −1 se, e somente se, X é inversamente proporcional a Y no sentido de

que X = a + bY para a ∈ R e b < 0;
Cr4) Cor(X, Y ) = Cor(Y, X);
Cr5) Cor(aX + b, cY + d) = sign(ac)Cor(X, Y ), onde a função sign(x) é a função sinal de

x, sendo igual a −1, se x < 0, 1 se x > 0 e 0 se x = 0;
Cr6) Se X e Y são independentes, então Cor(X, Y ) = 0. A reciproca, porém, não é

verdadeira.
1.5 Estimadores
Dada uma amostra x1 , x2 , · · · , xn de uma variável aleatória X, o estimador de E(X) é

simplesmente a média aritmética dos dados:
n
1X
X= xi .
n
i=1
Com relação à variância de X, existem dois estimadores muito utilizados na prática. O

estimador da variância de X obtido pelo método de máxima verossimilhança é dado por
n n
X
2 1X 1
σ̂X = (xi − x)2 = x2i − nx .2
n n
i=1 i=1
Pode-se mostrar que, embora consistente, este estimador é viesado em amostras finitas.
Um estimador consistente e não-viesado em amostras finitas é dado por
n n
X
2 1 X 1
SX = (xi − x)2 = x2i − nx .2
n−1 n−1
i=1 i=1
Observe que para n grandes, a diferença entre os estimadores σ̂ 2 e S 2 é irrelevante. Em

amostras pequenas, porém, o estimador S 2 apresenta uma performance melhor.
Seja x1 , x2 , · · · , xn e y1 , y2 , · · · , yn amostras aleatórias das variáveis aleatórias X e Y .
Então um estimador para a covariância entre X e Y é dado por
n n
X
1 X 1
γ̂X,Y = (xi − x)(yi − y) = xi yi − nxy .
n−1 n−1
i=1 i=1
Um estimador para a correlação entre X e Y é dado por

γ̂X,Y
ρ̂X,Y = .
SX SY
1.5.1 Propriedades dos Estimadores
Dado que temos alguns estimadores definidos acima, é interessante estudar algumas das
propriedades qualitativas dos estimadores que nos permitam determinar qual estimador é
“bom” e qual não é. É também importante definir critérios para compar diversos estimadores.
1.5.2 Vı́cio/Viés
Seja θ̂ um estimador do parâmetro θ. o vı́cio/viés (bias, em inglês) é definido como
b(θ̂) = E(θ̂) − θ. (1.4)

1.5. ESTIMADORES 17
Se b(θ̂) = 0 segue que E(θ̂) − θ e, neste caso, dizemos que θ̂ é não-viciado ou não-viesado
para o parâmetro θ.
1.5.3 Consistência
Em estatı́stica, uma seqüência de estimadores para o parâmetro θ é dito ser consistente

(ou assintoticamente consistente) se esta sequência converge em probabilidade para θ. Isso
significa que as distribuições dos estimadores tornar-se mais e mais concentrados perto do
verdadeiro valor do parâmetro a ser estimado, de modo que a probabilidade do estimador ser
arbitrariamente perto θ converge para um.
1.5.4 Eficiência
Um estimador de θ é dito ser eficiente se for não viesado e sua variância for menor ou
igual a variância de qualquer outro estimador θ̂, ou seja,
Var(θ̂0 ) ≤ Var(θ̂), para qualquer outro estimador θ̂ de θ.
Na figura abaixo podemos observar a diferença entre vı́cio e eficiência. Estes conceitos
estão relacionados à média e à variância, respectivamente.
Figura 1.6: Diferença entre vı́cio e eficiência
1.5.5 Erro Quadrático Médio (EQM)
O erro quadrático médio de um estimador θ̂ de θ é definido como
EQM (θ̂) = E(θ̂ − θ)2 . (1.5)

Podemos reescrever esta ultima expressão como
EQM (θ̂) = Var(θ) + [E(θ) − θ]2 = Var(θ̂) + b(θ̂).
Assim, o erro quadrático médio é definido como a variância do estimador mais o quadrado
do seu viés. Podemos entender o EQM como sendo uma medida da performance de um
estimador em relação ao seu vı́cio e variância. Note que EQM(θ) = Var(θ) sempre que o
estimador for não-viciado.
1.5.6 Vı́cio versus Variância Mı́nima
O erro quadrático médio utilizado na comparação entre um ou mais estimadores para um

mesmo parâmetro θ. Podemos observar de (1.5) que, no cálculo do EQM, existe um balanço
entre vı́cio e variância. Naturalmente, estimadores eficientes apresentarão um EQM mı́nimo
dentre os estimadores não-viciados de θ. Muitas vezes, porém, pode ser mais vantajoso do
ponto de vista prático a utilização de um estimador viciado mas com variância pequena em
detrimento a um estimador de maior variância, mas que seja não-viciado. Isto ocorre por que
se a variância de um estimador é muito grande, é grande a chance de uma estimativa esteja
longe do verdadeiro valor do parâmetro, mesmo que o estimador seja não-viciado. Este é um
ponto importante a ser observado quando da escolha de um estimador para um determinado
problema.
1.6 Método de Mı́nimos Quadrados (MQO)
Considere o modelo
Y = α + βX + U
onde Y é a variável dependente, X é a vaiável independente e U denota o termo de erro do
modelo. Suponhamos que temos uma amostra (x1 , y1 ), · · · , (xn , yn ) provindo deste modelo.
Qual critério devo utilizar para obter os estimadores dos parâmetros α e β?
Podemos minimizar:
1. Soma dos erros: não é um bom critério pois pode anular positivos e negativos.
2. Soma Absoluta dos Resı́duos: é um critério válido e intuitivo, porém seu estudo é de
alta complexidade. Devido a isso, o estimador obtido por este critério, denominado
LAD (Least Absolute Deviations), é pouco utilizado na prática.
3. Soma dos Quadrados dos Erros: possui propriedades estatı́sticas de simples utilização
e interpretação o que o tornam bastante atrativo. É este o critério que dá origem ao
estimador de mı́nimos quadráticos ordinários (MQO).
Utilizando a soma dos quadrados dos erros como critério, devemos resolver o seguinte
problema de optimização:
n
X n
X
min u2i = min 2
(yi − α − βxi ) . (1.6)
{α,β} {b
α,β}
b
i=1 i=1
1.6. MÉTODO DE MÍNIMOS QUADRADOS (MQO) 19
As condições de primeira ordem (CPO’s) são obtidas difereciando-se o argumento do lado

direito de (1.6) em relação à α e β. Em α, a solução do problema de optimização será o valor
α̂ ∈ R que satisfaz
n
X n
X
−2 (yi − α
b − βxi ) = 0 =⇒
b u
bi = 0.
i=1 i=1
Esta CPO nos mostra que a escolha do intercepto ótimo implica que a soma dos resı́duos
será zero. Continuando com essa CPO
n
X
(yi − α b i ) = 0 ⇐⇒ ny − nb
b − βx α − βnx
b =0
i=1
⇐⇒ α
bM QO = y − βx.
b (1.7)
Assim, o estimador de MQO do intercepto α é dado por (1.7).

Difereciando-se o argumento do lado direito de (1.6) em relação à β obtemos que a solução
do problema de optimização será o valor β̂ ∈ R que satisfaz
n
X n
X n
X n
X
(yi − α b i )2 = 0
b − βx ⇐⇒ yi xi − α
b xi − βb x2i = 0
i=1 i=1 i=1 i=1
n
X n
X n
X
⇐⇒ yi xi = (y − βx)
b xi + βb x2i
i=1 i=1 i=1
Xn n
X n
X n
X
2
⇐⇒ yi x i = y xi + βb xi − x xi ,
i=1 i=1 i=1 i=1
onde a última gualdade obtém-se dividindo-se o numerador e denominador por n − 1.
1.6.1 Regressão Liner Múltipla (RML)
Considere o modelo de regressão linear múltipla
yi = β0 + β1 x1i + β2 x2i + · · · + βk xki + ui

em que temos k variáveis explicativas x1 , · · · , xk . Definindo
   
y1 1 x11 x21 · · · xk1
 y2   1 x12 x22 · · · xk2 
Y = , X= ,
   
.. .. .. .. .. ..
 .   . . . . . 
yn 1 x1n x2n · · · xkn
e    
β0 u1
 β1   u2 
β= U =
   
..  .. 
 .   . 
βk un
obtemos o modelo de regressão em forma matricial Y = Xβ + U . A matriz X é chamada de
matriz de design do modelo. Pode-se mostrar que o estimador de MQO para β é dado por:
β̂ = (X 0 X)−1 X 0 Y.
1.6.2 Hipóteses do modelo de regressão
Hipótese 1 (Linearidade dos Parâmetros): A relação entre a variável dependente Y e

as explicativas X1 , · · · , Xk é linear
Y = β0 + β1 X1 + · · · + βk Xk + U.
Definição 1.6.1. Um modelo de regressão é linear nos parâmetros se as CPOs associadas

ao problema de obtenção dos EMQ (Estimadores de MQO) gerarem um sistema linear nos
parâmetros.
Exemplo 1.8. Seja o seguinte modelo
Y = α + βX + U.
e (xi , yi ), para i = 1, · · · , n, uma amostra do modelo. De acordo com o que foi visto anterior-
mente, o problema de optimização a ser resolvido para a obtenção dos estimadores de MQO
para α e β será
n
X
2
min (yi − α − βxi ) .
{α,β}
i=1
As CPOs serão
n
X n
X n
X
b : −2
α (yi − α
b − βx
b i) = 0 =⇒ yi = nb
α + βb xi
i=1 i=1 i=1
n
X n
X n
X n
X
βb : −2 (yi − α
b − βx
b i )xi = 0 =⇒ yi x i = α
b xi + βb x2i
i=1 i=1 i=1 i=1
Pn Pn
α
Pnn Pni=1 x2i i=1 yi
b
= P n .
i=1 xi i=1 xi βb i=1 yi xi
Logo é o sistema linear e o modelo é linear nos parâmetros.

Y = α + βX γ + U
e seja (xi , yi ), para i = 1, · · · , n, uma amostra do modelo. O problema de minimização neste

caso resume-se a Xn
γ 2
min (yi − α − βxi ) .
{α,β,γ}
i=1
A CPO em α é dada por

(yi − α − βxγi ) = 0,
X
α : −2
i
que não é linear por causa do γ.

Y = αX1β1 X2β2 eU .
Este modelo é claramente não-linear, porém, ao tomarmos o logaritmo obtemos
ln(Y ) = ln(α) + β1 ln(X1 ) + β2 ln(X2 ) + U,

que é linear nos parâmetros.
Hipótese 2 (Amostragem Aleatória): Podemos extrair uma amostra aleatória
{(x1i , · · · , xki , yi ), i = 1, · · · , n}
da população.
Observação 1.6.1. Nos livros-texto esta hipótese é geralmente substituı́da por uma hipótese
de que X é determinı́stico (não aleatório) e seus valores podem ser escolhido de antemão.
Hipótese 3 (Média Condicional Zero): E(U |X) = 0

Hipótese 4 (Não há Multicolinearidade Perfeita): As variáveis explicativas X1 , · · · , Xk
são linearmente independentes. Logo, Xj , j = 1, · · · , k não podem ser constantes. Lembrando
que o posto de uma matriz X é a dimensão do subspaço gerado pelas colunas da matriz, esta
hipótese implica que a matriz de design associada ao modelo,
 
1 x11 x21 · · · xk1
 1 x12 x22 · · · xk2 
X= .
 
.. .. .. .. 
 .. . . . . 
1 x1n x2n · · · xkn n×(k+1)
tem posto máximo, isto é, posto(X) = k + 1, pois n ≥ k + 1. Relembre das propriedades de
álgebra matricial que
posto(X 0 X) = posto(X) = k + 1,
e assim, (X 0 X) é uma matriz invertı́vel.
Hipótese 5 (Homocedasticidade): Se U1 , · · · , Un é a sequência de erros relativa ao modelo

linear Y = Xβ + U baseado numa amostra de tamanho n do modelo. Então Var(Ui |X) = σ 2 ,
para todo i, ou seja, a variância do erro é constante.
Hipótese 6 (Ausência de (Auto)Correlação (Serial) Condicional): Cov(Ui , Uj |X) =

0, para todo i e j com i 6= j.
Hipótese 7 (Normalidade): Ui ∼ N (0, σ 2 ) para todo i. Tal hipótese será necessária para
inferência.
Teorema 1.6.1. (de Gauss-Markov) Dentro da classe dos estimadores lineares e não-viesados,
e dadas as hipóteses do MCRL, os EMQs são estimadores que possuem a menor variância
(BLUE - Best Linear Unbiased Estimator).
1.6.3 O Coeficiente de Determinação
Existe alguma medida que mostre que um determinado modelo apresenta um bom poder
preditivo? Ou seja, se o regressor (X) que eu inclui no meu modelo explica bem a variável
dependente (Y )? Para construirmos tal medida, primeiramente definimos
n
X
(yi∗ )2 = Soma dos Quadrados Totais (SQT )
i=1
n
X
yi∗ )2 = Soma dos Quadrados Explicados (SQE)
(b
i=1
n
X
b2i = Soma dos Quadrados dos Resı́duos (SQR)
u
i=1
Pode-se mostrar facilmente que
SQT = SQE + SQR.
Dividindo a expressão por SQT , teremos

SQE SQR
1= + .
SQT SQT
| {z }
R2
O R2 mede o quanto (em porcentagem) da variação da variável dependente pode ser

explicado pela introdução do regressor no modelo. Pode-se mostrar que R2 ∈ [0, 1]. Expressões
alterntivas para R2 são as que segue:

P ∗ 2 Pn
yi − y)2
P c2
2 SQE SQR (b
yi ) (b u
R = =1− i
= P ∗ 2 = Pni=1
2
= 1 − Pn i i 2
,
SQT SQT i (yi ) i=1 (yi − y) i=1 (yi − y)
Uma deficiência do R2 é que este nunca diminui quando adicionamos regressores, o que
implica que o R2 favorece modelos mais complexos. Para minimizar esta deficiência, uma al-
ternativa é penalizar, em certo grau, a inclusão de regressores. Um coeficiente muito utilizado
na prática e que faz exatamente isso é o chamado R2 ajustado definido por
2 [SQR/(n − k − 1)]
R = 1−
[SQT /(n − 1)]
σ2

2 SQR
= 1− , σ = .
[SQT /(n − 1)] n−k−1
O R2 ajustado também recebe o nome de R2 corrigido ou, em inglês, de R-bar squared

Pode-se mostrar que SQR/(n − k − 1) é um estimador não-viesado de σ 2 , a variância
populacional do erro, e SQT /(n − 1) é um estimador não-viesado de σY2 , a variância de Y .
2
Proposição 1.6.1. Se adicionamos um novo regressor à regressão, então R aumenta e a
estatı́stica t deste novo regressor é maior que 1, em módulo.
2
Proposição 1.6.2. Adicionando um grupo de variáveis à regressão, então R aumenta e a
estatı́stica F deste novo grupo de regressores é maior que 1.
2
Uma fórmula alternativa para o R é
2 (1 − R2 )(n − 1)
R =1− .
(n − k − 1)
2
Além de permitir a comparação entre modelos ao se incluir/excluir regressores, o R serve
também para a escolha dentre modelos nonnested (não encaixantes). Por exemplo, o modelo
1 que tem X1 , X2 e X3 como variáveis exlicativas e um outro modelo 2 que tem X1 , X2 e X4 .
2
Mas o R não serve para escolher dentre formas funcionais diferentes da variável dependente.
Propriedade de Não-Viés dos Estimadores MQO
Assumindo X não estocástico, tomando a esperança dos estimadores MQO em versão

matricial, obtemos:
E(β̂) = E[(X 0 X)−1 X 0 y] = E[(X 0 X)−1 X 0 (Xβ + U )]

= E[(X 0 X)−1 X 0 Xβ] + E[(X 0 X)−1 X 0 U ]
= β + (X 0 X)−1 E[X 0 U ] = β,
pois E[X 0 U ] = 0 por hipótese. Ou seja, se as variáveis regressoras são não-correlacionadas

com U , o estimador MQO será não-viesado.
Variância dos Estimadores MQO
Para um modelo de regressão linear múltipla, a variância do estimador de cada βj é dado

por
 2
σu

 Var(X j)
, se a variância de U , σU2 é conhecida;
Var(β̂j ) = Pn 2
1 i=1 (ŷi −y)
, se σU2 é desconhecida.


n−1 Var(Xj )
1.6.4 Testes de Hipóteses
Teste t
Se queremos testar individualmente a significância (H0 : βj = 0) do modelo
yi = β0 + β1 x1i + · · · + βk xki + ui
, a estatı́sticade teste é dada por
β̂j − βj
t= q ∼ tn−k−1
Varβ̂j
Observação 1.6.2. Se houver problema de multicolineariedade, Rj2 será alto, a variância

será alta, e a estatı́stica de teste t será baixa, e os estimadores serão pouco significativos
(neste caso assumindo βj = 0).
Teste F
A estatı́stica F para um modelo com intercepto, que serve para testar se o modelo é
significante, ou seja se todos os regressores são conjuntamente significantes, i.e. H0 : β0 =
β1 = · · · = βk = 0 vs. H1 : pelo menos um βj 6= 0, é dada por
R2 /k
F = ∼ Fk,n−k−1 .
(1 − R2 )/n − k − 1
Observação 1.6.3. Se temos um problema de multicolineariedade, ainda assim a estatı́stica

F e R2 do modelo de y contra x não depende da correlação entre os regressores(apenas do
SQR e SQT, ou seja, da soma dos quadrados dos resı́duos e da variável dependente) e, assim,
se tivermos regressores relevantes para explicar y, então F e R2 indicarão que o modelo como
um todo terá um alto poder explicativo.
1.7 Formas Funcionais Logarı́tmicas
Considere o seguinte modelo:

1.7. FORMAS FUNCIONAIS LOGARÍTMICAS 25
[y = β̂0 + β̂1 log x1 + βˆ2 x2 .

log
Ele é log-log de y em relação a x1 e é log-linear em relação a x2 .

β1 mede a elasticidade de y em relação a x1 , fixado x2 .
A interpretação de β̂1 é que para o aumento de 1% em x1 temos um aumento de β1 % em y.
β̂2 pode ser interpretado como: um aumento de uma unidade em x2 dá um aumento exato de
100[exp β2 − 1]% em y.
Uma medida aproximada, para uma mudança pequena em x2 seria 100β̂2 %. Este coeficiente
é denominado muitas vezes como semi-elasticidade.
1.8 Exercı́cios
Exercı́cio 1.1. O custo de produção de certo bem é uma variável aleatória com função den-
sidade de probabilidade:
f (x) = kx2 , 1 ≤ x ≤ 4.
(a) Calcule o valor de k;
(b) Calcule o custo médio do produto;
(c) Calcule a probabilidade do custo ser menor do que 2;
(d) Calcule a variância do custo do produto;
(e) Calcule a probabilidade do custo ser maior do que 3;
Exercı́cio 1.2. Sejam X e Y duas variáveis aleatórias independentes com média µX =

E(X) = 4,
2 = Var(X) = 1 e σ 2 = Var(Y ) = 2.
µY = E(Y ) = 5, σX Y
(a) Calcule E(X 2 ) e E(Y 2 );
(b) Calcule Var(4X − 2Y );
(c) Calcule Cov(X, Y );
(d) Calcule Cov(X, 2X − 3Y )
(e) Suponha que X1 , X2 , · · · , Xn são variáveis aleatórias independentes entre si e independen-

tes de X, mas com a mesma distribuição de probabilidade de X, ou seja, X1 , X2 , · · · , Xn
e X são variáveis aleatórias independentes e identicamente distribuı́das (i.i.d) com média
µ = 4 e variância σ 2 = 1. Calcule:
• E(X) = E n1 ni=1 Xi ;
P
• Var(X);
• Cov(X, X).
Exercı́cio 1.3. Suponha o seguinte modelo linear: y = Xβ + ε, em que y e ε são vetores

n × 1, X < ∞ é uma matriz n × k e β é um vetor k × 1.
(a) Determine a(s) hipótese(s) necessária(s) para estimar esse modelo por MQO.
(b) Determine a(s) hipótese(s) necessária(s) para que o β estimado, β̂, exista e seja único.
(c) Determine a(s) hipótese(s) necessária(s) para que β̂ seja não viesado.
1.8. EXERCÍCIOS 27
(d) Determine a(s) hipótese(s) necessária(s) para que β̂ seja eficiente.
(e) Determine a(s) hipótese(s) necessária(s) para que se possa fazer inferência estatı́stica.
Exercı́cio 1.4. Os dados da tabela relacionam o peso de plantas, Y (em gramas) com o
percentual de matéria orgânica na terra, X1 e os Kilogramas de nitrogênio suplementares
agregados a terra por 1000m2 , X2 :
y x1 x2
78.5 7 2.6
74.3 1 2.9
104.3 11 5.6
87.6 11 3.1
95.9 7 5.2
109.2 11 5.5
102.7 3 7.1
Soma: 652.5 51 32.0
média: 93.21 7.29 4.57
(a) Defina a equação de regressão com intercepto em que y é a variável dependente e x1 e x2

são variáveis explicativas. Não esqueça da suposição para o termo de erro do modelo.
(b) Se
   
1.80 −0.07 −0.25 652.50
(X T X)−1 =  −0.07 0.01 −0.00  , e X T Y =  4915.30  ,
−0.25 −0.00 0.06 3103.66
determine β̂ via MQO.

Resposta: β̂ = (51.56, 1.49, 6.72).
(c) Se SQres = 27.58 e SQtotal = 28.30, calcule o coeficiente de determinação.

Resposta:R2 = 0.9745,
(d) Teste β0 = β1 = β2 = 0, ou seja, a significância do modelo.
(e) Se dp(βˆ1 ) = 0.2636, (dp=desvio padrão), teste se a variável X1 é relevante para o modelo.
(f ) Se dp(βˆ2 ) = 0.6274, teste a hipótese H0 : β2 = 1.
Exercı́cio 1.5. Adão Ismiti queria verificar se a produtividade aumentava com a divisão do
trabalho. Para isso, fez a seguinte experiência: regrediu a produtividade (p) de n trabalhadores
de fábricas de alfinetes contra o número de funções exercidas pelo trabalhador (F ), os anos
de escolaridade (E), o salário (w) e o número de filhos (N ). Formalmente, a regressão foi:
pi = β1 + β2 Fi + β3 Ei + β4 ωi + β5 Ni + ui
Usando o teste t-Student, Ismiti não rejeitou a hipótese nula de parâmetro igual a zero
para β3 . Retirou a variável E da regressão e estimou o modelo restrito, observando que βˆ5
se tornou também, estatisticamente não significativo. Finalmente, retirou N da regressão e
estimou o modelo novamente.
(a) Por que não foi preciso fazer o teste F em βˆ3 para retirar E do modelo?
(b) Justifique se o procedimento adotado por Ismiti está correto ou equivocado, para ter eli-
minado a variável N do modelo.
Exercı́cio 1.6. Suponha um modelo de regressão linear múltiplo em que β̂ exista, seja não
viesado e eficiente, pois u é homocedástico. Suponha que você imponha falsas restrições sobre
os parâmetros do modelo.
(a) Mostre que as estimativas nesse caso são viesadas.
(b) Mostre que a variância das estimativas do modelo com restrições é menor que a variância
das estimativas do modelo sem restrições.
(c) Qual é a implicação desse resultado em termos de previsão? Qual é a intuição desse
resultado?
Sugestão: Lembre o que é o EQM, ou seja, o erro quadrático médio.
Exercı́cio 1.7. Responda:
(a) Cite pelo menos dois testes para a hipótese de homocedasticidade.
(b) Cite pelo menos um teste para a hipótese de autocorrelação dos resı́duos.
(c) Em caso de rejeição da hipótese nula em (a), por qual método você estimaria o modelo?
(d) Em caso de rejeição da hipótese nula em (b), por qual método você estimaria o modelo?
Exercı́cio 1.8. Desafio: Faça os seguinte exercı́cios.
P∞
< ∞. Mostre que ∞ 2
P
(a) Suponha que i=0 |xi | i=0 xi < ∞.
(b) Prove (ou não) que limn→∞ nx=1 x1 = ∞.

P
(c) Prove (ou não) que limn→∞ nx=1 x12 = ∞.

P
(d) Prove (ou não) que, se ∞

P 2
P∞
i=0 xi < ∞, então i=0 |xi | < ∞.
Capı́tulo 2
Séries Temporais no Contexto de Regressão
Neste capı́tulo abordamos regressão no contexto de séries temporais. Começamos definindo

o que é uma série temporal e introduzimos algumas propriedades teóricas.
2.1 Introdução
Uma série temporal é qualquer conjunto de observações ordenadas no tempo. Alguns

exemplos são citados abaixo:
a) Estimativas trimestrais do Produto Interno Bruto (PIB);
b) Valores diários da temperatura em Campo Bom;
c) Índices diários da bolsa de valores de São Paulo;
d) Quantidade anual de chuva na cidade do Recife;
e) Um registro de marés no porto de Santos.
Nos exemplos de a) a d) temos séries temporais discretas, enquanto que e) é um exemplo

de série contı́nua. Podemos obter uma série temporal discreta a partir da amostragem de uma
série temporal contı́nua considerando intervalos de tempos iguais, ∆t. Assim para analisar
a série e) será necessário amostrá-la, convertendo-a e observando-a no intervalo de tempo
[0, T ], supondo uma série discreta com N pontos, em que N = ∆t/T (T horas). Existem dois
enfoques utilizados na análise de séries temporais. Em ambos, o objetivo é construir modelos
para estas séries. No primeiro enfoque, a análise é feita no domı́nio temporal e os modelos
propostos são modelos paramétricos (com um número finito de parâmetros). No segundo,
a análise é conduzida no domı́nio de frequências e os modelos propostos são modelos não-
paramétricos. Dentre os modelos paramétricos temos, por exemplo, os modelos ARIMA, que
serão estudados neste curso nos próximos capı́tulos. No domı́nio de frequências temos a análise
espectral, que tem inúmeras aplicações em ciências fı́sicas e engenharia, principalmente na
engenharia elétrica, e que consiste em decompor a série dada em componentes de frequências
e onde a existência do espectro é a caracterı́stica fundamental. Este tipo de análise não será
estudado nestas notas de aulas, para detalhes o aluno deve consultar Jenkins e Watts (1968),
Koopmans (1974), Morettin (1979), Marple (1987) e Kay (1988).
29
30 CAPÍTULO 2. SÉRIES TEMPORAIS NO CONTEXTO DE REGRESSÃO
2.1.1 Exemplos de Séries Temporais
Exemplo 2.1. Vamos supor que desejamos medir a temperatura máxima do ar, de um local,
durante 24 horas, poderı́amos obter um gráfico semelhante a figura abaixo:
Figura 2.1: Temperatura máxima diária medidas em pontos diferentes durante o ano de 2008
Cada curva do gráfico é chamada de trajetória ou série temporal ou função amostral. No

gráfico acima Z(j) (t) é o valor da temperatura no instante t, para a j-ésima trajetória (j-ésimo
ponto de observação). Para cada t fixo, teremos os valores de uma variável aleatória Z(t) que
terá certa distribuição de probabilidade. Na realidade o que chamamos de série temporal, é
uma parte de uma trajetória, dentre muitas que poderiam ter sido observadas. O parâmetro
t pode ser função de algum outro parâmetro fı́sico como por exemplo: espaço e volume.
2.1.2 Objetivos
Dada uma série temporal {Z(t1 ), . . . , Z(tN )}, observada nos instantes t1 , . . . , tN , podemos
estar interessados em:
i) Investigar o mecanismo gerador da série temporal;

ii) Fazer previsões de valores futuros da série; podendo ser a curto ou longo prazo;
iii) Descrever apenas o comportamento da série através de gráficos;
iv) Procurar periodicidades relevantes nos dados. Em todos estes casos podemos construir
modelos probabilı́sticos ou estocásticos, tanto no domı́nio do tempo como no domı́nio da
freqüência, por exemplo: um sinal aleatório com frequência medida em Hz. Devemos
construir modelos simples e com menor número de parâmetros possı́veis.
2.2. SÉRIES TEMPORAIS: DEFINIÇÃO FORMAL 31
2.2 Séries Temporais: Definição Formal
Neste capı́tulo vamos descrever os conceitos básicos utilizados dentro da teoria dos modelos
de séries temporais. Inicialmente vamos introduzir os conceitos de processos estocásticos,
média e função de covariância, processo estacionário, e função de autocorrelação.
2.2.1 Processos Estocásticos
Seja T um conjunto arbitrário de ı́ndices. Um processo estocástico é uma famı́lia Z =

{Zt , t ∈ T } tal que, para cada t ∈ T , Zt é uma variável aleatória (v.a.) definida num espaço de
probabilidades (Ω, A, P ). O conjunto T é normalmente tomado como o conjunto dos inteiros
Z = {0, ±1, ±2, . . .} ou o conjunto dos reais R. Como, para t ∈ T , Zt é uma v.a. definida
sobre Ω, na realidade Zt é uma função de dois argumentos, Z(t, ω), t ∈ T , ω ∈ Ω.
Especificação de um Processo Estocástico
Sejam t1 , t2 , . . . , tn elementos quaisquer de T e consideremos
F (Z1 , . . . , Zn ; t1 , . . . , tn ) = P {Z(t1 ) ≤ z1 , . . . , Z(tn ) ≤ zn } (2.1)
então, o processo estocástico Z = {Z(t), t ∈ T } estará especificado se as distribuições finito-

dimensionais de (2.1), são conhecidas para todo n ≥ 1. Contudo, em termos práticos, não
conhecemos todas essas distribuições finito- dimensionais. Estudaremos então certas carac-
terı́sticas associadas a (2.1) e que sejam simples de calcular e interpretar. Uma maneira de
especificar o processo Z seria determinar todos os produtos dos momentos, ou seja,
µ(r1 , . . . , rn ; t1 , . . . , tn ) = EZ r1 (t1) . . . Z rn (tn) (2.2)
ou Z ∞ Z ∞
µ(r, t) = ... Z1r1 . . . Z1rn f (z1 , . . . , zn ; t1 , . . . , tn )dz1 . . . dzn (2.3)
−∞ −∞
em que f (Z, t) é a função de densidade de F (Z, t). Porém o que vai nos interessar são
os momentos de baixa ordem, ou seja, os chamados processos estacionários de 2a ordem.
Consideramos somente os momentos de primeira e segunda ordem, que serão apresentados a
seguir.
2.3 Médias e Covariâncias
Para um processo estocástico {Zt : t = 0, ±1, ±2, . . .} a função média (f.m.) é definida por
µt = E(Zt ), para t = 0, ±1, ±2, . . . (2.4)
e a função de autocovariância (facov) como
γ(t, s) = Cov(Zt , Zs ) = E[(Zt − µt )(Zs − µs )], para t, s = 0, ±1, ±2, . . . (2.5)

em que E[(Zt − µt )(Zs − µs )] = E(Zt Zs ) − µt µs .
A função de autocorrelação (fac) é dada por
γ(t, s)
ρ(t, s) = Corr(Zt , Zs ) = , (2.6)
γ(t, t)γ(s, s)
em que γ(t, s) = Cov(Zt, Zs), γ(t, t) = V ar(Zt ) e γ(s, s) = V ar(Zs ).
2.3.1 Propriedades Importantes
1. γ(t, t) = V ar(Zt ), ρ(t, t) = 1;

2. γ(t, s) = γ(s, t), ρ(t, s) = ρ(s, t).
p
3. |γ(t, s)| ≤ γ(t, t)γ(s, s), |ρ(t, s)| ≤ 1, ou −1 ≤ ρ(t, s) ≤ 1.
Na correlação podemos verificar que valores próximos de ±1 indicam forte dependência

(linear) e valores próximos de 0 indicam fraca dependência (linear). Se ρ(t, s) = 0, Zt e Zs
são não-correlacionadas. Agora se Zt e Zs são independentes, então ρ(t, s) = 0.
Para analisar as propriedades da covariância de vários modelos de séries temporais, o
seguinte resultado será utilizado: se c1 , c2 , . . . , cm e d1 , d2 , . . . , dn são constantes e t1 , t2 , . . . , tm
e s1 , s2 , . . . , sn são pontos no tempo, então
 
Xm n
X m X
X n
Cov  ci Z(ti ), dj Z(sj ) = ci dj Cov[Z(ti ), Z(sj )] (2.7)
i=1 j=1 i=1 j=1
podemos dizer que, a covariância entre duas combinações lineares é a soma de todas as co-
variâncias entre termos de suas combinações lineares. Esta expressão pode ser verificada
utilizando as propriedades de esperança e covariância. Como caso especial, podemos obter o
seguinte resultado
" n # n n n−1
X X X X
V ar ci Z(ti ) = c2i V ar[Z(ti )] + 2 ci cj Cov[Z(ti ), Z(tj )]. (2.8)
i=1 i=1 i=2 j=1
2.4 Regressão com dados de Séries Temporais
Nesta seção estudaremos modelos de regressão cujas variáveis são séries temporais. O
interesse principal recai sobre as condições necessárias para que o estimador de MQO apresente
boas propriedades.
2.4.1 Diferença entre Dados de Séries Temporais e Dados de Corte Transversal
A primeira diferença entre dados de séries temporais e dados de corte transversal é que
uma série temporal tem uma ordenação temporal. Outra caracterı́stica, é que não temos
mais independência entre as observações, ou seja, não temos mais uma amostra aleatória de
indivı́duos. Logo, para estimar um modelo do tipo
yt = β0 + β1 + β2 xt1 + xt2 + . . . + βk xtk + ut , (2.9)

2.4. REGRESSÃO COM DADOS DE SÉRIES TEMPORAIS 33
são necessárias novas suposições para que o estimador de MQO tenha boas propriedades.
2.4.2 Modelos de Regressão de Séries Temporais
Modelos Estáticos
Suponha que temos dados de séries temporais disponı́veis para duas variáveis, digamos y
e z, em que yt e zt são datadas contemporaneamente. Um modelo que relaciona y a z é:
yt = β0 + β1 zt + ut , t = 1, 2, . . . , n. (2.10)
O nome “Modelo Estático” deriva do fato de relacionar as variáveis de forma contemporânea.
Exemplo 2.2. Um exemplo de modelo estático é a curva de Phillips estática, representada

por:
inft = β0 + β1 desempt + ut , (2.11)
em que inft é a inflação anual e desempt é a taxa de desemprego.
Este modelo é usado para estudar a relação de trocas contemporânea entre inft e desempt
pressupondo uma taxa natural de desemprego e expectativas inflacionárias constantes.
Modelos de Defasagem Distribuı́da Finita
Em um modelo de defasagem distribuı́da finita (MDD) permite-se que uma ou mais

variáveis afetem y com defasagens
yt = α0 + δ0 zt + δ1 zt−1 + δ2 zt−2 + ut , (2.12)
que é um MDD de ordem 2. De modo mais geral, um modelo de defasagem distribuı́da de

ordem q incluirá q defasagens de z.
Para interpretar os coeficientes em (2.12) suponha que z seja constante igual a c, em todos
os perı́odos de tempo antes de t (. . . , zt−2 = c, zt−1 = c). Em t, z aumenta em uma unidade,
ou seja, zt = c + 1, e, em seguida, retorna ao seu nı́vel anterior em t + 1, isto é, zt+1 = c.
Para enfatizar o efeito ceteris paribus de z sobre y, suponhamos que o termo de erro em
cada perı́odo seja zero. Então,
yt−1 = α0 + δ0 c + δ1 c + δ2 c
yt = α0 + δ0 (c + 1) + δ1 c + δ2 c
yt+1 = α0 + δ0 c + δ1 (c + 1) + δ2 c
yt+2 = α0 + δ0 c + δ1 c + δ2 (c + 1)
yt+3 = α0 + δ0 c + δ1 c + δ2 c,
e assim por diante. Das duas primeiras equações temos
yt − yt−1 = δ0 ,
mostra que δ0 é a mudança imediata em y em razão do aumento de uma unidade em z no

tempo t. Denomina-se δ0 como propensão de impacto ou multiplicador de impacto.
Da mesma forma,
δ1 = yt+1 − yt−1 ,
é a mudança em y após a mudança temporária e
δ2 = yt+2 − yt−1 ,
é a mudança em y dois perı́odos após a mudança. Em t + 3, y retornou ao seu nı́vel inicial

yt+3 = yt−1 . Isso ocorre porque presumimos que apenas duas defasagens de z aparecem em
(2.12).
Quando traçamos um gráfico de δj como uma função de j obtemos a distribuição de
defasagem, que resume o efeito dinâmico que um aumento temporário em z tem em y.
No entanto, o aumento em z pode ser permanente. Suponhamos que antes do tempo t z é
constante igual a c, ou seja, zs = c, para s < t, e no tempo t, z sofre um aumento permanente
de uma unidade no tempo t, ou seja, zs = c + 1 para s ≥ t. Novamente, fazendo os erros
iguais a zero, temos
yt−1 = α0 + δ0 c + δ1 c + δ2 c
yt = α0 + δ0 (c + 1) + δ1 c + δ2 c
yt+1 = α0 + δ0 (c + 1) + δ1 (c + 1) + δ2 c
yt+2 = α0 + δ0 (c + 1) + δ1 (c + 1) + δ2 (c + 1)
e assim por diante. Com o aumento permanente em z, depois de um perı́odo y aumentou

δ0 + δ1 , e depois de dois perı́odos, y aumentou δ0 + δ1 + δ2 . Isso mostra que a soma dos
coeficientes de z atual e defazadas,
δ0 + δ1 + δ2 (2.13)
é a mudança de longo prazo em y quando há um aumento permanente em z. A equação (2.13)
é chamada propensão de longo prazo (PLP).
A generalização para q defasagens é imediata.
2.5 Suposições para Modelos com Séries Temporais
Nesta seção o objetivo é mostrar como as hipóteses clássicas devem ser alteradas para
cobrir regressão de séries temporais.
2.5.1 Inexistência de Viés do MQO
Para que as estimativas via MQO dos parâmetros de um modelo de regressão com séries
temporais não sejam viesadas são necessárias a seguintes hipóteses:
2.5. SUPOSIÇÕES PARA MODELOS COM SÉRIES TEMPORAIS 35
Suposição TS.1 (linearidade nos parâmetros).

O processo estocástico {(xt1 , xt2 , . . . , yt ) : t = 1, 2, . . . , n}
segue o modelo linear:
yt = β0 + β1 xt1 + · · · + βk xtk + ut ,
em que {ut : t = 1, 2, . . . , n} é a sequência de erros ou perturbações.
Suposição TS.2 (Inexistência de colineariedade Perfeita).

Na amostra, nenhuma das variáveis independentes é constante ou
combinação linear perfeita das outras.
As hipóteses TS.1 e TS.2 são essencialmente as mesmas daquelas usadas no contexto de

dados de cortes transversais.
Suposição TS.3 (Média condicional zero ou exogeneidade estrita).

O termo de erro em qualquer dado perı́odo é não correlacionado com
as variáveis explicativas em todos os perı́odos de tempo, ou seja
E(ut |X) = 0, para t = 1, 2, . . . , n.
Analisando-se a hipótese TS.3, percebemos que ela difere da hipótese clássica. Observe
que a hipótese TS.3 exige que o erro no tempo t, ut seja não correlacionado com cada variável
explicativa em todos os perı́odos de tempo.
Se em termos de média condicional, temos somente a condição de não correlação somente
no tempo t, da forma
E(ut |x1t , . . . , xtk ) = E(ut |Xt ) = 0, (2.14)
diz-se que vale a exogeneidade contemporânea das variáveis explicativas. Exogeneidade con-
temporânea só será suficiente em grandes amostras.
A hipótese TS.3 é muito forte e muitas vezes não verificada. Nos seguintes exemplos
podemos ver como ela pode ser verificada na prática.
Exemplo 2.3. Suponha que a taxa de homicı́dios (homit ) em uma cidade em termos do
número de policiais per capita (polpct )
homit = β0 + β1 polpct + ut .
O termo de erro u precisaria ser não correlacionados com os valores atuais, os valores
passados e futuros de polpct . Podemos aceitar que u não é correlacionado com valores corrente
e valores passados do regressor. Mas é evidente que um aumento em u hoje, provavelmente,
levará a polı́ticas que tentem aumentar polpct no futuro. Logo TS.3 falha.
Quando u é correlacionado com o passado dos regressores, podemos resolver o problema

incluindo defasagens dos regressores e utilizando um modelo de defasagem distribuı́da. Mas
não podemos ter, de forma alguma, a influência de u no futuro dos regressores.
Teorema 2.5.1. Sob as Hipóteses ST.1, ST.2 e ST.3 os estimadores de MQO são não vie-
sados condicionados a X e, portanto, também incondicionalmente:
E(β̂j ) = βj , j = 1, . . . , k. (2.15)
2.5.2 Variância dos Estimadores MQO
É necessário mais duas hipóteses para completar o conjunto de hipóteses de Gauss-Markov

para regressões de séries temporais. A primeira delas é familiar da análise de corte transversal.
Suposição TS.4 (Homoscedasticidade).

Condicional a X, a variância de ut é a mesma para todo t:
V ar(ut |X) = V ar(ut ) = σ 2 , para t = 1, 2, . . . , n.
Suposição TS.5 (Inexistência de Correlação Serial).

Condicional a X, os erros em dois perı́odos de tempos diferentes
são não correlacionados:
Corr(ut , us |X) = 0, para todo t 6= s.
Com este conjunto de condições podemos enunciar o teorema de Gauss-Markov no contexto

de séries temporais.
Teorema 2.5.2. (Teorema de Gauss-Markov). Sob as Hipóteses ST.1 a ST.5 os estimadores

de MQO são os melhores estimadores lineares não viesados condicionais a X, ou seja, são
BLUE.
2.5.3 Inferência sob as Hipóteses do Modelo Linear Clássico
Para que sejam válidos os testes t, F e outros testes estatı́sticos baseadas nos erros padrões
é necessário adicionar mais uma hipótese a respeito da distribuição dos erros. Esta hipótese
é análoga à hipótese de normalidade usada para análise de corte transversal.
Suposição TS.6 (Normalidade).

Os erros ut são independentes de X e são i.i.d. com distribuição
normal com média zero e variância σ 2
ut ∼ N (0, σ 2 ), para t = 1, 2, . . . , n.
Teorema 2.5.3. Sob as hipóteses TS.1 a TS.6, as hipóteses do modelo linear clássico para
séries temporais, os estimadores MQO são normalmente distribuı́dos, condicional em X.
Além disso, a estatı́stica t tem uma distribuição t, e cada estatı́stica F tem uma distribuição
F.
2.5.4 Tendência
Quando trabalhamos com séries temporais é necessário saber reconhecer se estas séries
contém uma tendência temporal. Ignorar o fato de que duas séries temporais podem ser
correlacionadas somente porque ambas estão apresentando uma mesma tendência ao longo do
tempo, em vez de uma relação causal, pode levar a conclusões errôneas e a possibilidade de
uma regressão espúria. Vejamos o exemplo de uma série temporal com tendência temporal:
Um modelo que captura tendência temporal é:
yt = α0 + α1 t + et , t = 1, 2, . . . , (2.16)
em que assume-se que {et } é i.i.d. com E(et ) = 0 e var(et ) = σ 2 . Observe que o parâmetro α1
multiplica o tempo, resultando em uma tendência temporal linear. Assim, α1 mede a mudança
em yt , de um perı́odo para o próximo, motivado pela passagem do tempo, mantendo-se todos
os outros fatores fixos.
Outros modelos podem ser usados para capturar tendências temporais, dependendo da
situação. No modelo em que o logaritmo natural de yt (presumindo que yt > 0) apresenta
uma tendência temporal linear,
log(yt ) = β0 + β1 t + et , t = 1, 2, . . . , (2.17)
diz-se que yt tem uma tendência exponencial .
Figura 2.2: Consumo mensal aparente de álcool carburante (média das quantidades diárias)
em milhares de Barris. Fonte: Agência Nacional do Petróleo (ANP).
Outra possibilidade é que em vez de uma tendência temporal linear, poderı́amos ter uma
tendência temporal quadrática,
yt = β0 + β1 t + βt2 + et , t = 1, 2, . . . . (2.18)
Usando variáveis de tendência na análise de regressão
Suponha que existam dois fatores observados, xt1 e xt2 que afetam yt . Além disso, existem
fatores não observados que estão sistematicamente crescendo ou decrescendo ao longo do
tempo. Um modelo que captura isso é:
yt = β0 + β1 xt1 + β2 xt2 + β3 t + ut . (2.19)
Permitindo uma tendência temporal no modelo, reconhece-se que yt pode estar crescendo ou
decrescendo ao longo do tempo por razões essencialmente não relacionadas a xt1 e xt2 .
A omissão da variável t pode levar ao viés por omissão de variável, especialmente se xt1
ou xt2 apresentarem algum tipo de tendência, pois elas podem ser altamente correlacionadas
com t.
Adicionando um termo de tendência linear em um modelo de regressão é a mesma coisa
que usar série ”destendenciada”numa regressão. Os estimadores β1 e β2 do modelo (2.19)
podem ser obtidos através de um procedimento de ”remoção da tendência temporal”das séries
originais:
Destendenciar uma série envolve regredir cada variável do modelo em t e uma constante
(no caso de (2.19), regredir yt , xt1 e xt2 contra t e uma constante).
Os resı́duos destas regressões, ÿt , ẍt1 e ẍt2 , constituem uma série temporal sem tendência.
Em seguida, realizar a regressão com variáveis retificada,
ÿt = δ1 ẍt1 + δ2 ẍt2 + v, (2.20)
(não precisa intercepto, será igual a 0). As estimativas via MQO, δ̂1 e δ̂2 serão iguais as
estimativas β̂1 e β̂2 da regressão (2.19).
2.5.5 Sazonalidade
Sazonalidade ocorre quando uma série exibe comportamentos semelhantes em determina-

dos perı́odos. Um exemplo é o PIB trimestral (industria)
Figura 2.3: PIB trimestral: dados observados industria. Fonte: IBGE.
É comum que as séries de dados mensais e trimestrais exibam padrões sazonais, mas isso
não é uma regra. Por exemplo, não existe padrão sazonal observável nas taxas de juros ou
de inflação. Além disso, séries que exibem padrões sazonais são ajustadas sazonalmente
antes de serem informadas para o público.
Uma série ajustada sazonalmente é a série que teve os fatores sazonais removidos. Existem
vários métodos para isso. Um dos métodos mais simples é incluir um conjunto de variáveis
dummies sazonais. Seja o seguinte modelo para dados mensais:
yt = β0 + δ1 f evt + δ2 mart + · · · + δ11 dezt + β1 xt1 + · · · + βk xtk + ut . (2.21)

em que f evt , mart , · · · , dezt são variáveis dummy indicando se o perı́odo de tempo t corres-
pondo ao mês apropriado. Nesta formulação, janeiro é o mês-base e β0 seu intercepto. Se
colocarmos janeiro no modelo e um intercepto, teremos um problema de multicolineariedade.
Se não existir sazonalidade em yt , dado que controlamos os regressores xtj , então os
coeficientes δ1 ; . . . ; δ11 devem ser todos iguais a zero, o que pode ser testado através de um
teste F .
Considere o modelo (2.21), para k = 2, ou seja 2 regressores. Podemos obter os seus
estimadores, β̂1 e β̂2 , através do seguinte procedimento:
1. Regrida a variável dependente, e cada um dos regressores, separadamente, contra uma

constante e as dummies mensais e guarde os resı́duos, digamos ÿt , ẍt1 e ẍt2 . Po exemplo,
ÿt = yt − α̂0 − α̂1 f evt − α̂2 mart − · · · − α̂11 dezt .
Este é o método para dessazonalizar uma série temporal mensal.
2. Roda a regressão de ÿt contra ẍt1 e ẍt2 sem as dummies mensais.
2.5.6 Processos de covariância estacionária
Um processo estocástico é covariância estacionária se E(xt ) é constante, V ar(xt ) é cons-

tante e para qualquer t, h ≥ 1, Cov(xt , xt+h ) depende apenas em h, e não em t. Mais adiante
abordaremos essa definição com maior profundidade.
2.5.7 Processos Fracamente Dependente
Uma série temporal estacionária é fracamente dependente se xt e xt+h são “quase inde-
pendentes”, quando h aumenta.
Se, para um processo de covariância estacionária Corr(xt , xt+h ) → 0 quando h → ∞,
dizemos que este processo de covariância estacionária é fracamente dependente.
Essa definição é necessária para usar Leis dos Grandes Números e Teorema Central do
Limite.
Exemplo: MA(1) pg 356 Wooldridge.

Exemplo: AR(1) pg 356 Wooldridge.

2.6 Exercı́cios
Exercı́cio 2.1. Sobre regressão com séries temporais responda:
a) Quais as principais diferenças entre dados transversais e séries temporais?
b) Explique o que é exogeneidade contemporânea e exogeneidade estrita.
c) Comente sobre a diferença entre homocedasticidade e correlação serial.
d) A suposição de normalidade dos erros é necessária para se obter estimadores consistentes

via MQO? Qual é o objetivo ao se fazer uma suposição para distribuição dos erros?
Exercı́cio 2.2. (anpec-2010) Considere o modelo de regressão linear múltipla com regressores
estocásticos yt = β1 x1t +β2 x2t +εt , no qual εt não é autocorrelacionado e tem média e variância
condicionais a x1t e x2t iguais a zero e s2 , respectivamente. Por simplicidade, suponha que
as variáveis são expressas como desvios com relação às respectivas médias. Responda:
a) Se β2 = 0 e incluirmos x2t na regressão, o estimador de mı́nimos quadrados ordinários de

β1 será viesado?
b) Se não conseguirmos observar x1t , mas apenas x∗1t = x1t + ut , em que ut é um erro de
medida, e se substituirmos x1t por x1t na regressão, o estimador de mı́nimos quadrados
ordinários de β1 ainda assim será consistente?
c) Se x2t = yt−1 e relaxarmos a hipótese de que os erros εt ’s não são autocorrelacionados,

o estimador de mı́nimos quadrados ordinários de β2 será consistente, porém não será
eficiente?
d) Seja c uma constante diferente de zero. Defina ỹ = cyt , x̃1t = cx1t e x̃2t = cx2t . Os
estimadores de mı́nimos quadrados ordinários (MQO) em uma regressão de ỹ contra x̃1t e
x̃2t coincidem com os estimadores de MQO em uma regressão de yt contra x1t e x2t ?
e) A variância do estimador de mı́nimos quadrados ordinários diverge para infinito à medida

que a correlação entre x1t e x2t aproxima-se de 1;
f ) Denote por εbt o resı́duo da regressão de mı́nimos quadrados ordinários. A hipótese de que
o erro é correlacionado com x1t pode ser testada utilizando a estatı́stica T1 Ti=1 x1i εbi ?
P
Exercı́cio 2.3. Em uma equação de dados anuais, supondo que
jurt = 1, 6 + 0, 48inft − 0, 15inft−1 + 0, 32inft−2 + ut ,
em que jur é a taxa de juros e inf é a taxa de inflação.

a) Supondo válida a hipótese de exogeneidade estrita, como deve ter sido estimado o modelo
acima? Justifique?
b) Qual é o efeito de curto prazo (propensão de impacto) da taxa de inflação sobre a taxa
juros? Qual é o efeito de longo prazo da taxa de inflação sobre a taxa de juros?
Exercı́cio 2.4.
Considere uma série temporal de 10 anos contendo PIB (em R$) e número de homicı́dios (em
unidades) em um determinado paı́s. O primeiro modelo estimado foi pibt = β0 +β1 homict +ut .
Os resultados da estimação se encontram na tabela 1. Um segundo modelo foi pibt = β0 +
β1 homict + β2 t + ut , em que t é um termo de tendência. Os resultados da estimação desse
modelo se encontram na tabela 2:
Tabela 1
Estimate Std. Error t-value Pr(¿—t—)
(Intercept) -3461194.26 314948.06 -10.99 0.00
homic 102.63 6.12 16.76 0.00
Tabela 2
Estimate Std. Error t-value Pr(¿—t—)
(Intercept) 5564710.45 2539866.04 2.19 0.06
homic -123.64 63.59 -1.94 0.09
t 423054.01 118647.95 3.57 0.01
a) O coeficiente de homic é significativo no primeiro modelo a 5% de significância? Interprete

o valor desse coeficiente.
b) O coeficiente de homic é significativo no segundo modelo a 5% de significância? Interprete

o valor desse coeficiente.
c) O coeficiente de t é significativo no segundo modelo a 5% de significância? Interprete o

valor desse coeficiente.
d) Explique o resultado (surpreendente) encontrado no primeiro modelo, ressaltando a im-

portância do procedimento adotado no segundo modelo.
Exercı́cio 2.5. Considere uma série do PIB brasileiro com inı́cio no primeiro trimestre 1996
e fim no segundo bimestre de 2010. Essa série foi decomposta em sua tendência (t) e variáveis
dummy para a sazonalidade, em que Si = 1, se a observação pertence ao trimestre i e Si = 0,
caso contrário.
a) Se tentarmos estimar o modelo pibt = β0 + β1 S1 + β2 S2 + β3 S3 + β4 S4 + γt + ut , qual

problema encontraremos? Explique porque isso ocorre.
b) No modelo pibt = β1 S1 + β2 S2 + β3 S3 + β4 S4 + γt + ut , o que mede cada um dos β 0 s?
c) No modelo pibt = β0 + β2 S2 + β3 S3 + β4 S4 + γt + ut , o que mede β2 ?
d) No modelo pibt = β0 + γt + β2 S2 + β3 S3 + β4 S4 + ut , foi estimado e apresentou a se-

guinte tabela ANOVA (Tabela 3). Faça um teste F para a hipótese nula de que não há
sazonalidade. Use α = 5%
Tabela 3. ANOVA
Df Sum Sq Mean Sq
t 1 2287298699531.79 2287298699531.79
s2 1 1216754395.49 1216754395.49
s3 1 31129772.60 31129772.60
s4 1 5037536508.88 5037536508.88
Residuals 53 106216397798.70 2004082977.33
Exercı́cio 2.6. Considere o modelo yt = α0 + δ0 zt + δ1 zt−1 + δ2 zt−2 + ut .
a) Por que devemos considerar a possibilidade de multicolinearidade nesse modelo?
b) Reparametrize o modelo de modo a isolar o efeito de longo prazo como coeficiente da

variável zt .
c) Qual o benefı́cio dessa reparametrização se estivermos interessados em testar a signi-

ficância do efeito de LP da z sobre y?
Exercı́cio 2.7. Considere o seguinte modelo estático crimet = β0 + β1 + polt + ut , em que

crimet é um ı́ndice de criminalidade no perı́odo t e polt é o número de policiais em t.
a) Supondo que pol seja estritamente exógeno na equação, como você estimaria β0 e β1 . Quais
as propriedades do estimador proposto em termos de viés e consistência?
b) Suponha agora que o número de policiais em t seja definido em função do ı́ndice de crimina-
lidade do perı́odo anterior. A hipótese de exogeneidade estrita continua válida? Justifique.
Exercı́cio 2.8. Um modelo de ajustamento parcial é dado por:
yt∗ = β0 + β1 xt + et
yt − yt−1 = λ(yt∗ − yt−1 ),

em que yt∗ é o nı́vel desejável ou ótimo de y, e yt é o nı́vel efetivo (observado). Por exemplo,
yt∗ é o crescimento desejável nos estoques de uma firma e xt é o crescimento de vendas da
firma. O parâmetro λ mede a velocidade do ajustamento e satisfaz 0 < λ < 1.
a) Insira a primeira equação na segunda equação e mostre que podemos escrever yt = α0 +

α1 yt−1 + α2 xt + ut . Quem são os α0 s em termos dos β 0 s e λ? Quem é ut em termos de
et ?
b) Supondo que E(et |xt , yt−1 ) = 0 e todas as séries sejam fracamente dependentes, como você
estimaria os α0 s? É consistente? Justifique sua resposta. O estimador proposto é viciado?
c) Seja α̂1 = 0, 7 e α̂2 = 0, 2. (i) Qual o coeficiente de ajustamento estimado? (ii) Qual o
efeito de CP (curto prazo) de um crescimento das vendas da firma sobre o crescimento de
estoques da firma? (iii) Qual é o efeito de LP (longo prazo)?
Exercı́cio 2.9. Imagine o seguinte modelo: Yt = β0 + β1 Xt + ut , onde Y é a demanda por

moeda, X ∗ é a taxa de juros esperada no longo prazo e u é um termo de erro clássico, não
correlacionado com X ∗ . Como a variável de expectativa X ∗ não é diretamente observável,
proporemos a seguinte hipótese para formação de expectativas (adaptativas): Xt∗ − Xt−1
∗ =
γ(Xt − Xt−1 ), em que γ, tal que 0 < γ < 1, é conhecido como coeficiente de expectativas.
a) Mostre que podemos escrever esse modelo como Yt = α0 + α1 Xt + α2 Yt−1 + vt . Quem são
os α0 s em termos dos β 0 s e γ? Quem é vt em termos de ut ?
b) O que podemos dizer a respeito dos estimadores de MQO nesse caso? Justifique.
c) Imagine que no modelo original ut siga o esquema auto-regressivo de primeira ordem, i.e.,
ut = ρut−1 + εt , em que ρ é o coeficiente de autocorrelação e onde εt satisfaz as premissas
clássicas. Se ρ = λ, como você estimaria o modelo? Justifique.
d) As estimativas obtidas no item anterior são não-viciadas? Consistentes? Justifique sua

resposta.
Exercı́cio 2.10. Seja o processo yt = et + α1 et−1 , em que et ∼ iid(0, σ 2 ).
1. Calcule E(yt ), V ar(yt ) e Cov(yt , yt−h ), h = 1, 2, 3, . . .. O processo yt é de covariância

estacionária?
2. Calcule as autocorrelações de primeira ordem e de segunda ordem para esse processo.

Podemos dizer que o processo é fracamente dependente? Justifique.
3. Faça o correlograma (gráfico da função de autocorrelação em função das defasagens)

para esse processo.
Exercı́cio 2.11. Seja o processo yt = c + ρyt−1 + et , em que et ∼ iid(0, σ 2 ).
a) Qual é a condição de estabilidade para esse processo? Calcule E(yt ) e V ar(yt ) considerando
válida a condição de estabilidade.
ρh σ 2
b) Para o processo yt acima temos que Cov(yt , yt−h ) = 1−ρ2
, h = 1, 2, 3, . . .. O processo yt é
de covariância estacionária? Justifique.
c) Calcule a autocorrelação de ordem h para o processo yt . Faça o correlograma até quatro

defasagens para esse processo considerando ρ = 0, 5.
Capı́tulo 3
Séries Temporais
O estudo de séries temporais tem por objetivos principais definir o processo gerador de
dados, fazer previsões futuras da série, identificar ciclos, tendências e/ou sazonalidades de
forma que a decisão que envolve as variáveis em questão seja a mais acurada possı́vel.
3.1 Séries Temporais: Definição Formal
Neste capı́tulo vamos descrever os conceitos básicos utilizados dentro da teoria dos modelos
de séries temporais. Inicialmente vamos introduzir os conceitos de processos estocásticos,
média e função de covariância, processo estacionário, e função de autocorrelação.
3.1.1 Processos Estocásticos
Seja T um conjunto arbitrário de ı́ndices. Um processo estocástico é uma famı́lia de

variáveis aleatórias {Zt }t∈T definidas num mesmo espaço de probabilidades, que denotaremos
genericamente por (Ω, A, P ). O conjunto de ı́ndices T pode ser o conjunto dos números
inteiros Z = {0, ±1, ±2, · · · }, dos naturais N = {1, 2, · · · } ou o conjunto dos números reais R.
Observe ainda que, para cada t ∈ T , Zt é uma variável aleatória definida sobre Ω, sendo assim
de fato uma função de dois argumentos, do ı́ndice t ∈ T e do ponto ω ∈ Ω que determina o
valor do processo no tempo t dado por Zt (ω).
Uma série temporal, do ponto de vista teórico, nada mais é do que um processo estocástico
para o qual o ı́ndice T é Z ou um subconjunto deste. Do ponto de vista prático porém, uma
série temporal é um conjunto de dados indexados no tempo. Esta dualidade de nomencla-
tura será utilizado em todo o trabalho. Invariavemente, letras maiúsculas, como Z1 , Z2 , · · ·
denotarão a série temporal do ponto de vista teórico, isto é, como variáveis aleatórias em um
processo estocástico indexado pelo tempo, enquanto letras minúsculas como z1 , z2 , · · · deno-
tarão a série temporal do ponto de vista prático, isto é, como uma observação das variáveis
aleatórias que compõem o processo estocástico. Assim, se do ponto de vista teórico temos a
série temporal {Zt }t∈Z , um processo estocástico indexado pelo tempo, uma série temporal do
ponto de vista prático significa uma realização z1 , · · · , zn do processo {Zt }, observados nos
tempos t = 1, · · · , n. Neste caso, observamos z1 = Z1 (ω), · · · , zn = Zn (ω), para um deter-
minado ω ∈ Ω fixo. Embora existam maneiras mais formais e precisas de definir uma série
temporal, o ponto de vista aqui adotado, embora aparentemente ambı́guo na nomenclatura,
servirá bem a nossos propósitos sem causar confusões.
47
48 CAPÍTULO 3. SÉRIES TEMPORAIS
Chamamos atenção ainda que existem condições para que um processo estocástico exista.
Estes resultados dependem de uma discussão bastante técnica, bem além das intenções de
nossa exposição.
3.2 Médias e Covariâncias
Naturalmente, quando estamos trabalhando com um processo estocástico, cada variável

aleatória que o compõe possui sua própria distribuição, assim como sua própria massa/densidade
de probabilidade e sua própria média/variância. Para um processo estocástico {Zt }t∈Z defi-
nimos, para cada t ∈ Z, a função média µt e a função variância σt2 respectivamente por
µt = E(Zt ) e σt2 = Var(Zt ), (3.1)
desde que as esperanças envolvidas existam. Chamamos a atenção de que embora as espe-
ranças e variâncias de um processo estocástico existam, estas podem ser infinitas. Este fato
trás diversos problemas técnicos na análise de séries temporais e requerem técnicas avançadas
de análise que estão fora do escopo deste trabalho. Por este motivo, neste trabalho assumire-
mos tacitamente que todos os processos estocásticos e variáveis aleatórias possuem esperança
e variância finitas.
Outra estrutura importante relacionada a um processo estocástico é o que chamamos
de estrutura de dependência do processo. Dependência entre variáveis aleatórias pode ser
definida de diversas maneiras diferentes. Neste trabalho estamos especialmente interessados
na estutura de dependência relacionadas com a covariância e a correlção entre as variáveis do
processo. Observe que num processo estocástico podemos definir a covariância e a correlação
entre quaisquer pares Zi e Zj de variáveis, para i, j ∈ Z. No caso de processos, estas funções
recebem o prefixo “auto” para enfatizar o fato de que as covariâncias/correlações estão sendo
calculadas entre as variáveis do processo. Definimos a função de autocovariância, abreviada
FACV , como
γZ (t, s) = Cov(Zt , Zs ) = E[(Zt − µt )(Zs − µs )] = E(Zt Zs ) − µt µs , para t, s ∈ Z. (3.2)
Analogamente. definimos a função de autocorrelação, abreviada FAC , por
Cov(Zt , Zs ) γ(t, s)
ρZ (t, s) = Cor(Zt , Zs ) = p =p . (3.3)
Var(Zt )Var(Zs ) γ(t, t)γ(s, s)
O subscrito “Z” nas definições acima são utilizados para reforçar à qual processo estamos nos
referindo. Porém, quando não houver perigo de confusão, podemos eliminar a referência ao
processo associado e escrever simplesmente γ(t, s) e ρ(t, s).
Observe que, em princı́pio, as funções γ(t, s) e ρ(t, s) dependem tanto de t quanto de s. Nos
casos em que isto acontece, qualquer tipo de inferência baseada em autocovariâncias/autocor-
relações se torna impossı́vel sem tomarmos medidas para tornar esta estrutura de dependência
mais simples. Algumas técnicas relevantes para isso serão estudadas adiante. De qualquer
forma, a teoria clássica de séries temporais lida com casos em que essas quantidades pos-
suem uma dependência temporal simplificada, permitindo o seu estudo. Processos com estas
caracterı́sticas são de grande importância e serão estudados em detalhes mais adiante. Isto
3.3. ESTACIONARIEDADE 49
por que, do ponto de vista matemático, tal estrutura é conveniente e permite um trata-
mento rigoroso e aprofundado da teoria enquanto que do ponto de vista prático, é de fácil
percepção, permite a modelagem, inferência, previsão e outros aspectos aplicados relevantes
de maneira simples e rápida. Tudo isso contribuiu para a difusão de métodos baseado em
autocovariâncias/autocorrelações.
Propriedades Importantes
As seguintes propriedades da função de autocovariancia e autocorrelação são análogas às

da covariância e correlação ordinárias, mas merecem destaque. Para todo t, s ∈ Z, com t 6= s,
1. γ(t, t) = Var(Zt ), ρ(t, t) = 1;
2. γ(t, s) = γ(s, t), ρ(t, s) = ρ(s, t).

p
3. |γ(t, s)| ≤ γ(t, t)γ(s, s), −1 ≤ ρ(t, s) ≤ 1.
A propriedade 3 em particular mostra que a covariância entre duas variáveis está bem definida
caso estas tenham variância finita.
Como sabemos a correlação é uma medida da dependência linear entre duas variáveis. Se
Cor(X, Y ) = ±1, isto significa que existem constantes β0 e β1 tais que Y = β0 + β1 X. Ou
seja, uma variável é exatamente uma função linear da outra. Valores próximos de ±1 indicam
forte dependência (linear) e valores próximos de 0 indicam fraca dependência (linear). Se
ρ(t, s) = 0, Zt e Zs são ditas não-correlacionadas, mas note que isso não quer dizer que elas
são necessariamentes independentes. Agora, se Zt e Zs são independentes, então ρ(t, s) = 0.
Por fim, obviamente Cov(Zt , Zs ) = 0 se, e somente se, Zt e Zs são não-correlacionadas.
Para analisar as propriedades da covariância de vários modelos de séries temporais, o
seguinte resultado será utilizado: se c1 , c2 , · · · , cm e d1 , d2 , · · · , dn são constantes reais e
t1 , t2 , · · · , tm e s1 , s2 , · · · , sn são ı́ndices temporais, então
m
X n
X m X
X n
Cov ci Zti , dj Zsj = ci dj Cov(Zti , Zsj ) (3.4)
i=1 j=1 i=1 j=1
podemos dizer que, a covariância entre duas combinações lineares é a soma de todas as co-
variâncias entre termos de suas combinações lineares. Esta expressão pode ser verificada
utilizando as propriedades de esperança e covariância. Como caso especial, podemos obter o
seguinte resultado
n
X Xn n−1
X X n
Var ci Zti = c2i Var(Zti ) + 2 ci cj Cov(Zti , Ztj ). (3.5)
i=1 i=1 i=1 j=i+1
3.3 Estacionariedade
Nesta seção definiremos o fundamental conceito da estacionariedade de uma série tempo-

ral. Existem diversas maneiras de se definir o conceito de estacionariedade, de acordo com as
técnicas que se pretendem utilizar na análise das séries temporais. Em poucas palavras, uma
série temporal é estacionária quando, com o passar do tempo, a série se desenvolve aleatori-
amente em torno de uma média constante, refletindo alguma forma de equilı́brio estável. A
ideia é de que uma série temporal estacionária Y tende a “flutuar” aleatóriamente ao redor
de uma média constante. A Figura 3.1 apresenta duas séries estacionárias.
(a) (b)
Figura 3.1: Séries estacionárias: (a) Ruı́do branco, (b) ARMA(1,2).
Entretanto, a maior parte das séries que encontramos na prática apresenta alguma forma
de não-estacionariedade. A Figura 3.2 apresenta algumas séries que apresentam algum tipo de
não-estacionariedade que podem resultar de diversas fontes. Algumas das fontes mais comuns
de não-estacionariedade de uma série temporal são:
(a) a presença de uma tendência determinı́stica (linear, logaritmica, exponencial, etc.) ao re-
dor da qual a série se desenvolve. Geralmente a presença de uma tendência determinı́stica
é facilmente reconhecı́vel através do gráfico. Na Figura 3.2(a) apresentamos o gráfico de
uma série apresentando uma tendência linear.
(b) quebra estrutural na série, que pode ser decorrente de uma mudança na média, como
representado na Figura 3.2(b), ou uma mudança mais sutil, difı́cil de ser detectada, como
por exemplo mudanças na distribuição da série, na variância, no modelo da série, etc.
(c) presença do que chamamos de tendência estocástica, como representado na Figura 3.2(c).
Neste caso a série parece “vagar” por um caminho que apresenta mudanças aleatórias de
trajetória, sendo que fica difı́cil determinar o seu comportamento.
(d) presença de sazonalidade. Neste caso a sazonalidade provoca uma mudança de nı́vel local
fazendo com que a média da série se altere nos perı́odos sazonais. Um exemplo de série
sazonal é dado na Figura 3.2(d).
Mais detalhes serão apresentados adiante. A maior parte das séries que encontramos na prática
apresenta alguma forma de não-estacionariedade. As séries econômicas apresentam em geral
tendências lineares e muito comumente, tendência estocástica. Podemos ter, também, uma
forma de não-estacionariedade explosiva, como o crescimento de uma colônia de bactérias.
3.3.1 Estacionariedade forte ou estrita
Um processo estocástico Zt é dito ser um processo fortemente (ou estritamente) esta-

cionário se a distribuição conjunta de Zt1 , · · · , Ztn é a mesma de Zt1 −k , Zt2 −k , · · · , Ztn −k ,
(a) (b)
(c) (d)
Figura 3.2: Séries não-estacionárias apresentando: (a) Tendência linear, (b) quebra estrutural
representada pela mudança de nı́vel da série, (c) tendência estocástica e (d) sazonalidade.
para todas as combinações de tempos t1 , · · · , tn e para todo k ∈ Z. Observe que este con-
ceito se traduz em dizer que fixados os tempos t1 , · · · , tn , ao andarmos k passos à frente
homogeneamente no tempo, a distribuição das variáveis não se altera.
Quando n = 1, a distribuição de Zt é igual a distribuição de Zt−k para qualquer k, ou seja,
os Zt ’s são identicamente distribuı́dos. Isto implica que num processo fortemente estacionário,
as funções média (µt ) e variância (σt2 ) são constantes para todo t, isto é, σ 2 = Var(Zt ) =
Var(Zt−k ) e µ = E(Zt ) = E(Zt−k ), independentemente de t e k. Quando n = 2, a distribuição
de (Zt , Zs ) é a mesma de (Zt−k , Zs−k ), de onde segue que Cov(Zt , Zs ) = Cov(Zt−k , Zs−k ),
para todo t, s e k.
Fazendo k = s temos:
γ(t, s) = Cov(Zt , Zs ) = Cov(Zt−k , Zs−k ) = Cov(Zt−s , Zs−s ) = Cov(Zt−s , Z0 ) = γ(t − s, 0);
e se k = t,
γ(t, s) = Cov(Zt−t , Zs−t ) = Cov(Z0 , Zs−t ) = Cov(Z0 , Zt−s ) = γ(0, s − t),
de onde podemos concluir que

(
t − s, para t > s;
γ(t, s) = γ(0, |t − s|), lembrando que |t − s| =
s − t, para s > t.
Analogamente para a função de autocorrelação. Ou seja, num processo fortemente esta-

cionário a covariância entre Zt e Zs depende somente da diferença temporal |t − s| e não dos
tempos t e s. Ou ainda, podemos dizer que a Cov(Zt , Zt+h ) depende apenas da distância
temporal h entre as variáveis (chamada de defasagem ou “lag” entre as variáveis), e não do

tempo t. Isto permite simplificar a notação:
γ(h) = Cov(Zt , Zt−h ) = Cov(Zt , Zt+h ) ρ(h) = Cor(Zt , Zt−h ) = Cor(Zt , Zt+h ),
para todo t, h ∈ Z. As propriedades gerais da FAC e FACV para um processo estacionário

são:
1. γ(0) = Var(Zt ), ρ(0) = 1;
2. γ(h) = γ(−h), ρ(h) = ρ(−h);
3. |γ(h)| ≤ γ(0), |ρ(h)| ≤ 1.
Se um processo é estritamente estacionário e tem variância finita, então a FACV depende

somente do lag h.
3.3.2 Estacionariedade fraca ou de segunda ordem
A estacionariedade forte é um conceito na maioria das vezes difı́cil de ser identificado na

prática, mas muito conveniente do ponto de vista matemático. Uma outra maneira de se
definir a estacionariedade de uma série de forma que a teoria é matematicamente tratável e
de fácil detecção em problemas práticos é a seguinte: um processo estocástico Zt é dito ser
fracamente estacionário ou estacionário de segunda-ordem se:
1. a função média é constante para todo tempo t;
2. γ(t, t − h) = γ(0, h) = γ(h) para todo tempo t e lag h.
A condição γ(t, t − k) = γ(k) para todo tempo t e lag k é equivalente a ρ(t, t − k) =

ρ(k). Além disso, Var(Zt ) = γ(0) não depende de t. Como veremos adiante, em processos
fracamente estacionários as funções de autocovariância e autocorrelação desempenham papel
central no seu estudo. Neste trabalho, sempre que nos referirmos a um processo estacionário,
estaremos nos referindo à processos fracamente estacionários.
3.3.3 Teste para significância das autocorrelações
Mais adiante quando estudarmos modelagem ARIMA, precisaremos de ferramentas para

decidir se uma dada série é não-correlacionada. Para testar as hipóteses
H0 : ρ(1) = · · · = ρ(m) = 0 vs. H1 : ρ(k) 6= 0 para pelo menos um k ∈ {1, · · · , m}
pode-se usar a estatı́stica QBP desenvolvida por Box e Pierce, ou a estatı́stica QLB desenvol-
vida por Ljung-Box , definidas, respectivamente, por:
Box e Pierce Ljung-Box

m m
X ρ̂2k (ε̂)
ρ̂2k (ε̂)
X
QBP (m) = n QLB (m) = n(n + 2)
k=1 n−k
k=1
em que n é o tamanho da amostra (série) e m é a qual se distribui como uma qui-quadrado com
o maior lag considerado na hipótese. A estatı́stica m graus de liberdade em grandes amostras. A es-
QBP em grandes amostras tem distribuição qui- tatı́stica QLB possui maior poder para amostras
quadrado com m graus de liberdade. pequenas que a estatı́stica QBP .
Observe que a hipótese nula do teste é que todas as correlações de lag 1, · · · , m são nulas,
para algum m predeterminado, desta forma a escolha do valor de m é fundamental. Quanto
maior o m, caso não seja possı́vel rejeitar a hipótese nula, menor é a evidencia de que a série
testada é correlacionada. Porém, se m for muito grande, dois problemas poderão acontecer:
primeiro, se m é muito próximo de n haverão poucos pontos amostrais com distância temporal
m o que torna a estimação de ρ̂k (ε̂) problemática, deteriorando a qualidade do teste; segundo,
o poder do teste decresce com o aumento de m. Embora não haja consenso na literatura sobre
o valor ideal de m, sugerimos utilizar m = 20 para séries com n ≥ 50. Se a série for curta, na
literatura encontra-se a sugestão m = min(10, n/5).
3.3.4 Função de autocorrelação parcial (FACP)
A função de autocorrelação parcial (FACP) entre as variáveis Yt e Yt+k , denotada por α(k)
em processos estacionários, é a correlação entre as variáveis Yt e Yt+k removida a influência das
variáveis intermediárias Yt+1 , Yt+2 , · · · , Yt+k−1 . Dada uma série temporal {Yt }∞
t=1 estacionária
e uma variável aleatória X, denotemos por Πr,s (X) a projeção de X no subespaço gerado pelas
variáveis Yr+1 , · · · , Yr+s−1 . A FACP entre Yt e Yt+k é dada por

α(k) = Cor Yt − Πt,k (Yt ), Yt+k − Πt,k (Yt+k ) , para k ≥ 2,
e α(1) = ρ(1).
A FACP para um processo estacionário com média zero pode ser calculada a partir da
regressão
yt+k = φk1 yt+k−1 + φk2 yt+k−2 + · · · + φkk yt + εt+k , (3.6)
da qual podem ser obtidas as equações de Yule-Walker.
Multiplicando ambos os lados por yt+k−j e calculando o valor dividindo pela variância,
tem-se
ρj = φk1 ρj−1 + φk2 ρj−2 + · · · + φkk ρk−j .

Então para j = 1, 2, · · · , k, temos:
ρ1 = φk1 ρ0 + φk2 ρ1 + · · · + φkk ρk−1 ;

ρ2 = φk1 ρ1 + φk2 ρ0 + · · · + φkk ρk−2 ;
..
.
ρk = φk1 ρk−1 + φk2 ρk−2 + · · · + φkk ρ0 ;
Para k = 1 → φ̂11 = ρ1 .
Para k = 2 → ρ1 = φ21 + φ22 ρ1 e ρ2 = φ21 ρ1 + φ22 . A última equação pode ser escrita em
notação matricial:

ρ1 1 ρ1 φ21
= .
ρ2 ρ1 1 φ22
cuja solução para o estimador de φ22 é dada pela regra de Cramer:

1 ρ1

ρ1 ρ2
φ̂22 =
1 ρ1

ρ1 1
Para k = 3 temos as equações:
ρ1 = φ31 + φ32 ρ1 + φ33 ρ2

ρ2 = φ31 ρ1 + φ32 + φ33 ρ1
ρ3 = φ31 + φ32 ρ1 + φ33 .
Em notação matricial temos:

    
ρ1 1 ρ1 ρ2 φ31
ρ2  = ρ1 1 ρ1  φ32  .
ρ3 ρ2 ρ1 1 φ33
cuja solução para o estimador de φ33 é dada por:

1 ρ1 ρ1

ρ1 1 ρ2

ρ2 ρ1 ρ3
φ̂33 = ,
1 ρ1 ρ2

ρ1 1 ρ1

ρ2 ρ1 1
e assim sucessivamente.
3.3.5 Operador de defasagem ou operador lag
Em séries temporais é usual trabalhar com operadores que defasam a variável. Definimos
então o operador de defasagem L como um operador linear tal que:
Operador defasagem
Lj Yt = Yt−j
As seguintes propriedades do operador L serão úteis no que segue:
1. O operador lag aplicado a uma constante resulta na própria constante, isto é, Lc = c;
2. O operador lag segue a propriedade distributiva em relação à soma
(Li + Lj )Yt = Li Yt + Lj Yt = Yt−i + Yt−j ;
3. É válida a propriedade associativa da multiplicação
Li Lj Yt = Li (Lj Yt ) = Li (Yt−j ) = Yt−i−j .
Ou ainda Li Lj Yt = Li+j Yt = Yt−i−j ;
4. Potências negativas de L significam um operador de avanço, L−i Yt = Lj Yt , fazendo

j = −i. Então L−i Yt = Lj Yt = Yt−j = Yt+i ;
5. Se |a| < 1 definimos o operador inverso

∞
X
(1 − aL)−1 = 1 + aL + a2 L2 + · · · = (aL)j .
j=0
A ação do operador (1 − aL)−1 em uma variável Yt é a seguinte:

∞
X
−1 2 2 2
(1 − aL) (Yt ) = (1 + aL + a L + · · · )(Yt ) = Yt + aYt−1 + a Yt−2 + · · · = aj Yt−j .
j=1
Note ainda que, para uma constante c ∈ R

∞
X c
(1−aL)−1 (c) = (1+aL+a2 L2 +· · · )(c) = (c+aL(c)+a2 L2 (c)+· · · ) = c aj = .
1−a
j=1
6. Se |a| > 1, definimos o operador
−aL(1 − aL)−1 = (1 + (aL)−1 + (aL)−2 + · · · )

A ação do operador −aL(1 − aL)−1 em uma variável Yt é a seguinte:

1 1
(−aL(1 − aL)−1 )(Yt ) = (1 + (aL)−1 + (aL)−2 + · · · )(Yt ) = Yt + Yt+1 + 2 Yt+2 + · · ·
a a
∞
X 1
= Yt+j .
aj
j=1
Para uma constante c ∈ R, a ação do operador −aL(1 − aL)−1 é dada por

c c ca
(−aL(1 − aL)−1 )(c) = (1 + (aL)−1 + (aL)−2 + · · · )(c) = c + + 2 + ··· = .
a a 1−a
3.3.6 Ruı́do Branco
Um importante exemplo de processo estacionário é o ruı́do branco, o qual é definido como

uma sequência de variáveis aleatórias {εt }∞
t=−∞ com as seguintes propriedades:
Ruı́do Branco
1. E(εt ) = 0, para todo t ∈ R;
2. E(ε2t ) = σ 2 para todo t ∈ R;
3. E(εt εs ) = 0, para todo t 6= s, com t, s ∈ R.
Em outras palavras, um ruı́do branco é uma sequência de variáveis não-correlacionadas com

média constante. Denotaremos um processo ruı́do branco por RB(0, σ 2 ). Escrevere-
mos ainda εt ∼ RB(0, σε2 ) para dizer que {εt }t é um processo ruı́do branco com média 0 e
variância σε2
Para um ruı́do branco εt ∼ RB(0, σε2 ), µt = E(εt ) = 0 é constante com FACV e FAC
dadas por
σε2 ,

se h = 0; 1, se h = 0;
γε (h) = ρε (h) =
0, 6 0.
se h = 0, 6 0.
se h =
O termo ruı́do branco resulta do fato que em uma análise de frequência do modelo, po-
demos mostrar que todas as frequências são iguais. As caracteristicas de um processo ruı́do
branco ficam explı́citas quando analisamos o seguinte gráfico
Exemplo 3.1. (Média-Móvel de ordem 1) Este é um exemplo simples de um processo

estacionário que não é um ruı́do branco. Suponha que
Figura 3.3: Ruı́do branco gaussiano simulado,FAC amostral e FACP amostral
Processo MA(1)
Yt = εt − 0.5εt−1 ,
onde εt é um RB(0, σε2 ).
Um processo MA(1) possui média e variância dadas por
µt = E(Yt ) = E(εt ) − 0.5E(εt−1 ) = 0
Var(Yt ) = Var(εt − 0.5εt−1 ) = σε2 + 0.5σε2 = 1.25σε2 .

Quanto à estrutura de covariância/correlação de um MA(1), temos
Cov(Yt ,Yt+h ) = Cov(εt − 0.5εt−1 , εt+h − 0.5εt+h−1 )

= Cov(εt , εt+h ) − 0.5Cov(εt , εt+h−1 ) − 0.5Cov(εt−1 , εt+h ) + 0.25Cov(εt−1 , εt+h−1 )
= γε (h) − 0.5γε (h − 1) − 0.5γε (h + 1) + 0.25γε (h), (3.7)
onde γε denota a função de autocovariancia de εt . Da equação (3.7), percebemos que Cov(Yt , Yt+h )
só é diferente de zero quando algum dos argumentos das funções à direita da igualdade em
(3.7) é zero. Isto ocorre somente quando h = 0 (resultando em Var(Yt ) = 1.25σε2 ) e quando
|h| = 1 (resultando −0.5σε2 ). Em outras palavras, Cov(Yt , Yt+h ) não depende de t e
( (
−0.5σε2 , se |k| = 1; −0.4, se |k| = 1;
γ(k) = e ρ(k) =
0, se |k| > 1. 0, se |k| > 1.
Concluimos que um MA(1) é estacionário.

3.4 Metodologia de Box-Jenkins - Modelagem ARIMA
Na análise de séries temporais, a metodologia de Box-Jenkins, nomeada em homenagem

ao estatı́sticos George Box e Gwilym Meirion Jenkins, é uma metodologia pensada para a
modelagem de séries temporais que é suficientemente simples de forma a atingir um grande
público e suficientemente flexı́vel para se aplicar a uma gama grande de problemas. Centrais
à metodologia Box-Jenkins são os modelos “Autorregressivos Integrados de Média Móvel”,
abreviados modelos ARIMA, que representam uma classe grande de modelos capazes de mo-
delar uma variedade de tipos de séries temporais. O intuito é modelar os valores da série
temporal em função dos seus valores passados (admitindo um termo de erro) de forma que
seja possı́vel fazer previsões para esta série. O procedimento pode ser resumido em três etapas:
1. Identificação e seleção do modelo. Nesta etapa verificamos se as variáveis são esta-

cionárias, identificando possı́veis tendências e/ou sazonalidades na série, removendo-as
quando detectadas. Fazemos o uso das funções de autocorrelação e autocorrelação par-
cial para decidir qual modelo da classe ARIMA é adequado para uma primeira tentativa
de modelagem.
2. Estimação dos parâmetros usando algoritmos computacionais para chegar a coeficientes

que melhor se adaptam ao modelo ARIMA selecionado. Os métodos mais comuns são
a máxima verossimilhança e os mı́nimos quadráticos não-lineares.
3. Verificação do ajuste do modelo por meio de testes. Nesta fase, verificamos se o modelo
estimado está em conformidade com as especificações do modelo teórico proposto. De
suma importância é a análise residual na qual o objetivo é verificar se os resı́duos satisfa-
zem a hipótese de serem não-correlacionados. De grande utilidade é o teste Ljung-Box.
Se o modelo proposto é inadequado, devemos voltar para a primeira etapa e propor um
modelo alternativo.
Um dos modelos mais simples, útil e intuitivo é o modelo autorregressivo. Consideremos

o caso mais simples.
3.4.1 Modelo Autorregressivo de Ordem 1 AR(1)
Processo AR(1)
Yt = c + φYt−1 + εt ,
em que εt é um RB(0, σε2 ).
Para calcularmos a média e a variância do processo, assumiremos primeiramente que os

momentos incondicionais sejam iguais, de forma que EYt = EYt−1 . Com esta simplificação,
fica fácil calcular a média de um processo AR(1):
c
µ = E(Yt ) = E(c) + φE(Yt−1 ) + E(εt ) ⇐⇒ µ = c + φµ + 0 ⇐⇒ µ= ,
1−φ
3.4. METODOLOGIA DE BOX-JENKINS - MODELAGEM ARIMA 59
desde que φ 6= 1. Se φ = 1 a equação não possui solução1 . Desta forma procedemos assumindo
que φ 6= 1. Observe ainda que µ = 0, quando c = 0. Para φ 6= 1, a variância de um AR(1),
por sua vez, é dada por
σ2
Var(Yt ) = E(Yt2 ) − µ2 = .
1 − φ2
Observe que se |φ| > 1, a variância será negativa, o que é um absurdo. Neste caso as
equações não são compatı́veis com nenhum processo. Quando |φ| = 1, a variância de Yt não
está definida pois a média não está.
Deste exemplo, é possı́vel concluir que é necessário estabelecer algumas restrições sobre o
modelo para que se possa estimá-lo. Em particular, uma condição necessária para estimar os
coeficientes do modelo é que |φ| < 1.
Com um pouco mais de trabalho, podemos encontrar o mesmo resultado sem a suposição
de que os momentos incondicionais sejam iguais. Para isso usamos o operador defasagem L e
suas propriedades para obtermos
Yt = c + φYt−1 + εt ⇐⇒ (1 − φL)Yt = c + εt ⇐⇒ Yt = (1 − φL)−1 (c) + (1 − φL)−1 (εt )

X∞
⇐⇒ Yt = µ + φj εt−j , (3.8)
j=0
onde escrevemos µ = c/(1 − φ) por simplicidade. A partir desta representação podemos

facilmente obter
X∞
EYt = µ + φj E(εt−j ) = µ
j=0
e
∞
X 2 ∞ X
X ∞
2 j k j
Var(Yt ) = E(Yt − µ) = E φ εt−j =E φ φ εt−j εt−k
j=0 j=0 k=0
∞ X
∞ ∞
X X σε2
= φk+j E(εt−j εt − k) = φ2j E(ε2t−j ) = ,
1 − φ2
j=0 k=0 j=0
onde a última igualdade segue do fato de que E(εt−j εt−k ) = γε (j − k) que é igual a zero se
j 6= k, e σε2 , se j = k. Para h > 0, a função de autocovariância de lag h é dada por
∞
X ∞
X
s k
γ(h) = E[(Yt − µ)(Yt−h − µ)] = E φ εt−s φ εt−k−h
s=0 k=0
∞ X
X ∞ ∞ X
X ∞
= φk+s E(εt−s εt−k−h ) = φk+s γε (s − k − h).
s=0 k=0 s=0 k=0
1
mais tarde veremos que para φ = 1 o processo é não estacionário e de fato a média varia com t, sendo,
portanto, falsa a hipótese inicial de que a média do processo é constante, utilizada para derivar as equações.
Observe que γε (s − k − h) só é diferente de zero quando s − k − h = 0, o que é equivalente a

s = k + h, assim
∞
X φh
γ(h) = σε2 φ2k+h = σε2 (φh + φh+2 + φh+4 + · · · ) = σ2,
1 − φ2 ε
k=0
Para h < 0, analogamente obtemos
φ−h 2
γ(h) = σ ,
1 − φ2 ε
ou seja, para h 6= 0,
φ|h| 2
γ(h) = σ .
1 − φ2 ε
Como a média e as covariâncias não são funções do tempo o processo é fracamente estacionário,
independente do valor de φ ∈ (−1, 1). A função de autocorrelação de lag h é dada por
φ| h| 2
1−φ2
σ
ρ(h) = σ 2 = φ|h| .
1−φ2
Além disso, como |φ| < 1, a função de autocorrelação é decrescente em |h|.
3.4.2 Passeio Aleatório (Random Walk)
Quando φ = 1 no caso anterior, temos o processo chamado passeio aleatório. Seja {εt }t∈N
um RB(0, σε2 ). Defina
Zt = Zt−1 + εt ,
que pode ser reescrito de uma maneira bem simples. Defina inicialmente
Z 1 = ε1 , Z2 = ε1 + ε2 ↔ Z2 = Z1 + ε2
e sucessivamente
Zk−1 = ε1 + · · · + εk−1 , Zk = ε1 + · · · + εk−1 + εk = Zk−1 + εk .
Com esta representação, o cálculo da média e da variancia de Zt se tornam simples:
µt = E(Zt ) = E(ε1 + ε2 + · · · + εt ) = E(ε1 ) + E(ε2 ) + · · · + E(εt ) = 0 + 0 + · · · + 0 = 0,
Var(Zt ) = Var(ε1 + ε2 + · · · + εt ) = Var(ε1 ) + · · · + Var(εt ) = σε2 + σε2 + · · · + σε2 = tσε2 .
Assim concluimos que a variância de um passeio aleatório cresce linearmente com o tempo,
sendo portanto um processo não-estacionário. Observe ainda que se 1 ≤ t ≤ s, a função de
autocovariância de um passeio aleatório é dada por
γ(t, s) = Cov(Zt , Zs )
= Cov(ε1 + ε2 + · · · + εt , ε1 + ε2 + · · · + εs )
Xt Xs
= Cov(εi , εj )
i=1 j=1
= Cov(ε1 , ε1 ) + Cov(ε2 , ε2 ) + · · · + Cov(εt , εt )
= σε2 + σε2 + · · · + σε2 = tσε2
onde Cov(εi , εj ) = 0 para i 6= j. O mesmo argumento mostra que se 1 ≤ s ≤ t, teremos

γ(t, s) = sσε2 , de forma que podemos escrever compactamente γ(s, t) = min(s, t)σ 2 . A função
de autocorrelação de um passeio aleatório é facilmente obtida

√ s√ =
ps
γ(s, t) min(s, t)σ 2 min(s, t) , se 1 ≤ s ≤ t;
qt

t s
ρ(t, s) = p =p p ε = √√ =
 √ t√ = st , se 1 ≤ t ≤ s
p
Var(Xt ) Var(Xs ) tσε2 sσε2 t s t s
s
min(s, t)
= .
max(s, t)
Em resumo, a FACV e a FAC de um passeio aleatório são dadas por
FACV do passeio aleatório FAC do passeio aleatório

s
γ(t, s) = min(s, t)σε2 , min(s, t)
ρ(t, s) =
max(s, t)
O passeio aleatório é um exemplo simples que serve de aproximação para diversas situações
reais, tais como como o movimento comum de preços e tı́tulos e também a posição de pequenas
partı́culas suspensas dentro de um fluı́do, chamado movimento Browniano.
3.4.3 Modelos Autorregressivos de Ordem p, AR(p)
O processo autorregressivo de ordem p é definido como
p
X
Yt = φ1 Yt−1 + · · · + φp Yt−p + εt = φj Yt−j + εt .
j=1
Escrevendo Yt em função do operador lag, obtemos
Yt = φ1 L(Yt ) + φ2 L2 (Yt ) · · · + φp Lp (Yt ) + εt ⇐⇒ (1 − φ1 L − φ2 L2 − · · · − φp Lp )Yt = εt

⇐⇒ Φp (L)Yt = εt ,
Figura 3.4: Passeio aleatório simulado, FAC amostral e FACP amostral
onde Φp (L) = 1 − φ1 L − φ2 L2 − · · · − φp Lp . O polinômio Φp (·) será importante no estudo da

estacionariedade e causalidade de processos ARMA, que veremos adiante.
Alguns processos simulados:
Figura 3.5: AR(1) simulado com coeficiente φ1 = 0.5, FAC amostral e FACP amostral.
Figura 3.6: AR(1) simulado com coeficiente φ1 = −0.5, FAC amostral e FACP amostral.
Figura 3.7: AR(1) simulado com coeficiente φ1 = 0.8, FAC amostral e FACP amostral.
Figura 3.8: AR(2) simulado com coeficientes φ1 = 0.5 e φ2 = −0.7, FAC amostral e FACP
amostral.
Figura 3.9: AR(2) simulado com coeficientes φ1 = 0.5, φ2 = −0.7 e φ3 = 0.6, FAC amostral
e FACP amostral.
3.4.4 Modelo de Médias-Móveis (MA(q))
Chamamos de médias-móveis de ordem q o processo definido por:
MA(q)
Yt = εt + θ1 εt−1 + θ2 εt−2 + · · · + θq εt−q
em que εt é um RB(0, σε2 ).
Esta terminologia vem do fato que Yt é obtido aplicando-se os pesos

1, −θ1 , −θ2 , · · · , −θq , às variáveis εt − εt−1 − εt−2 − · · · − εt−q e então movendo os mesmos
pesos 1 unidade do tempo a frente e aplicando-lhes a εt+1 − εt − εt−1 − · · · − εt−q+1 para obter
Yt+1 .
Usando o operador L, podemos reescrever o modelo MA(q) como
MA(q)
Yt = Θq (L)εt , (3.9)
em que
Θq (L) = 1 + θ1 L + θ2 L2 + · · · + θq Lq . (3.10)
3.4.5 O modelo MA(1)
Para q = 1, obtemos o modelo:
Yt = εt + θ1 εt−1 , (3.11)
onde εt é um RB(0, σε2 ). Segue que
E(Yt ) = E(εt + θ1 εt−1 ) = E(εt ) + θ1 E(εt−1 ) = 0,
e a variância é igual a:
Var(Yt ) = Var(εt + θ1 εt−1 ) = σε2 + θ12 σε2 = (1 + θ12 )σε2 .
Temos ainda que a função de autocovariância de lag h é:
γ(h) = Cov(Yt , Yt+h )

= Cov(εt + θ1 εt−1 , εt+h + θ1 εt+h−1 )
= Cov(εt , εt+h ) + θ1 Cov(εt , εt+h−1 ) + θ1 Cov(εt−1 , εt+h ) + θ12 Cov(εt−1 , εt+h−1 )
= γε (h) + θ1 γε (h − 1) + θ1 γε (h + 1) + θ12 γε (h).
Neste caso γ(h) só é diferente de 0 quando algum dos argumentos de γε for igual a 0, o que
acontece somente quando h = 0 ou h = 1 ou h = −1. Para h = 0 obtemos a variância. Para
h = 1 e h = −1 obtemos γ(1) = γ(−1) = θ1 e para |h| ≥ 2 teremos γ(h) = 0. Desta forma,

 
2 2
(1 + θ1 )σε se h = 0;
 1
 se k = 0;
θ
γ(h) = θ1 se |k| = 1; ρ(h) = 1+θ 2 se |k| = 1;
 
0 se |k| ≥ 2, 0 se |k| ≥ 2.
 
3.4.6 Propriedades do modelo MA(q)
Seja εt ∼ RB(0, σε2 ) e considere o modelo MA(q)
Yt = εt + θ1 εt−1 + θ2 εt−2 + · · · + θq εt−q .
Definindo θ0 = 1, podemos reescrever o modelo MA(q) compactamente como

q
X
Yt = θk εt−k .
k=0
A partir daı́ podemos obter facilmente a média e a variância de Yt , assim como sua
estrutura de autocovariancia e autocorrelação. Primeiramente
q
X Xq
E(Yt ) = E θk εt−k = θk E(εt−k ) = 0
k=0 k=0
e a variância é dada por

q
X q
X q
X
Var(Yt ) = Var θk εt−k = θk2 Var(εt−k ) = σε2 θk2
k=0 k=0 k=0
= (1 + θ12 + ··· + 2 2
θq )σε .
A função de autocovariância é dada por
γ(h) = Cov(Yt , Yt−h )

X q q
X
= Cov θk εt−k , θj εt−h−j
k=0 j=0
q
XXq
= θk θj Cov(εt−k , εt−h−j )
k=0 j=0
q X
X q
= θk θj γε (k − h − j)
k=0 j=0
note que γε (k − h − j) 6= 0 somente quando k − h − j = 0, ou seja, se j = k − h. Além disso,

se |h| > q, não é possı́vel acontecer k − h − j = 0. Desta forma, se |h| ≤ q,
q
X q
X
γ(h) = θk θk−h γε (0) = σε2 θk θk−h .
k=0 k=0
Concluimos que
q
  Pq
k=0 θk θk−h
X
 σε2

θk θk−h , se |h| ≤ q; , se |h| ≤ q;
 
q

2
P
γ(h) = k=0 e ρ(h) = j=0 θj
 
0, se |h| > q.
 
0, se |h| > q,

Figura 3.10: MA(1) simulado com coeficiente θ1 = 1, FAC amostral e FACP amostral.
Figura 3.11: MA(1) simulado com coeficiente θ1 = −0.8, FAC amostral e FACP amostral.
Figura 3.12: MA(2) simulado com coeficientes θ1 = −0.8 e θ2 = 0.4, FAC amostral e FACP
amostral.
Figura 3.13: MA(2) simulado com coeficientes θ1 = −0.8, θ2 = 0.4 e θ3 = 1.4, FAC amostral
e FACP amostral.
3.4.7 Modelo ARMA(p,q)
Um modelo mais geral é dado pela aglutinação dos modelos AR e MA em um único

modelos, ao qual chamamos Modelos Autoregressivos de Média Móveis, abreviado ARMA.
Um processo {Yt }t é um ARMA(p, q) se pode ser escrito como
Yt = φ1 Yt−1 + · · · + φp Yt−p + θ1 εt−1 + · · · + θq εt−q + εt (3.12)
onde εt ∼ RB(0, σε2 ), φ1 , · · · , φp ∈ R são os coeficientes da parte AR e θ1 , · · · θq ∈ R são os

coeficientes da parte MA do processo. Utilizando os polinômios AR e MA vistos anteriormente,
podemos escrever um processo ARMA(p, q) de uma forma compacta e elegante.
ARMA(p, q)
Φp (L)Yt = Θq (L)εt ,
em que εt é um RB(0, σε2 ), Φp (L) e Θp (L) são polinômios da parte AR e MA (respec-
tivamente) dados por
Φp (L) = 1 − φ1 L − φ2 L2 − · · · − φp Lp e Θq (L) = 1 + θ1 L + θ2 L2 + · · · + θq Lq .
Por exemplo, o modelo ARMA(2,3) é escrito como
Φ2 (L)Yt = Θ3 (L)εt
(1 − φ1 L − φ2 L2 )Yt = (1 + θ1 L + θ2 L2 + θ3 L3 )εt
Yt = φ1 Yt−1 + φ2 Yt−2 + εt + θ1 εt−1 + θ2 εt−2 + θ3 εt−3 .
Exemplos de modelos ARMA simulados

Figura 3.14: ARMA(1,1) simulado com coeficientes φ1 = 0.5 e θ1 = −0.8, FAC amostral e
FACP amostral.
Figura 3.15: ARMA(1,3) simulado com coeficientes φ1 = 0.5, θ1 = −0.8, θ2 = 0.4 e θ3 = 1.4,
FAC amostral e FACP amostral.
Figura 3.16: ARMA(3,1) simulado com coeficientes φ1 = 0.5, φ2 = −0.7, φ3 = 0.6 e θ1 = −0.8,
FAC amostral e FACP amostral.
3.4.8 Causalidade, Invertibilidade e Estacionariedade
O conceito de causalidade consiste em escrever um processo AR(q) como um MA(∞).
Um processo linear {Yt } é CAUSALP(estritamente, uma função causal de {εt }) se

existem reais ψ0 , ψ1 , · · · satisfazendo ∞
j=0 |ψj | < ∞ e tais que
∞
X
Yt = ψ0 εt + ψ1 εt−1 + ψ2 εt−2 + · · · = ψk εt−k = Ψ(L)εt , (3.13)
k=0
onde denotamos
∞
X
2
Ψ(L) = ψ0 + ψ1 L + ψ2 L + · · · = ψk Lk .
k=0
O modelo AR(1) é dado por:
Yt = φYt−1 + εt ,
para |φ| < 1 e εt ∼ RB(0, σε2 ). Na Seção 3.4.1 obtivemos a representação (com c = 0)
∞
X
Yt = φj εt−j .
j=0
Identificando-se ψj = φj , obtemos que Yt possui a representação (3.13) e observando que,

como |φ| < 1,
∞ ∞
X X 1
|ψj | = |φ|j = < ∞,
1 − |φ|
j=0 j=0
segue que um AR(1) com |φ| < 1 é causal.

Obviamente todo modelo MA(q) é causal, dado que se
Yt = εt + θεt−1 + · · · + θq εt−q ,
com εt ∼ RB(0, σε2 ), tomamos ψ0 = 1, ψj = θj , para j =P 1, · · · , q e ψj = 0 para j > q, temos

que a representação (3.13) é satisfeita e, evidentemente, ∞j=0 |ψ|j = 1 + |θ1 | + · · · + |θq | < ∞.
3.4.9 Invertibilidade
Mostramos que um processo AR pode ser reescrito como um processo MA de ordem infinita
através de pesos ψj ’s. Podemos nos perguntar quando (e se) é possı́vel escrever um processo
MA como um autorregressivo.
Um processo linear {Yt } é dito ser INVERTÍVELP (estritamente, uma função invertı́vel
de {εt }) se existem reais ϕ1 , ϕ2 , · · · satisfazendo ∞j=0 |ϕj | < ∞ e tais que
∞
X
εt = ϕ0 Yt + ϕ1 Yt−1 + ϕ2 Yt−2 + · · · = ϕk Yt−k = Φ(L)Yt , (3.14)
k=0
onde denotamos
∞
X
Φ(L) = ϕ0 + ϕ1 L + ϕ2 L2 + · · · = ϕk Lk .
k=0
Considere o modelo MA(1)

Yt = εt − θεt−1 ,
em que εt é um RB(0, σ 2 ). Reescrevendo a equação acima como
εt = Yt + θεt−1
e substituindo t por t − 1 e εt−1 na equação modificada, temos:
εt = Yt + θ(Yt−1 + θεt−2 )
= Yt + θYt−1 + θ2 Yt−2
Se |θ| < 1, podemos continuar a substituição e obter:

∞
X
εt = Yt + θYt−1 + θ2 Yt−2 + · · · = θj Yt−j .
j=0
Assim, da mesma forma como foi feito para o AR(1), tomando ϕj = θj , segue que, se
P∞ 1
|θ| < 1, a representação (3.14) é satisfeita e j=0 |ϕj | = 1−|θ| < ∞ de onde concluimos
que o modelo MA(1) é invertı́vel. Em outras palavras, um modelo MA(1) pode ser invertido
(transformado) para um AR(∞), sempre que |θ| < 1.
3.4.10 Polinômio Caracterı́stico
Nos exemplos mostrados acima tratamos da causalidade e invertibilidade dos casos AR(1)
e MA(1) em particular. Para os casos mais gerais AR(p) e MA(q) utilizamos os chamados
polinômios caracterı́sticos para decidir se os processos são causais e/ou invertı́veis.
Para um modelo geral AR(p), definimos o polinômio caracterı́stico AR como
Φ(z) = 1 − φ1 z − φ2 z 2 − · · · − φp z p , z ∈ C
Teorema
Uma (única) solução estacionária para Φ(L)Yt = εt existe se, e somente, as raı́zes de
Φ(z) não pertencem ao cı́rculo de raio unitário, ou seja,
z ∈ C : |z| = 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
O processo AR(p) é causal se, e somente se as raı́zes de Φ(z) estão fora do cı́rculo
unitário, ou seja,
z ∈ C : |z| ≤ 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
Para um modelo geral MA(q), definimos o polinômio caracterı́stico MA como
Θ(z) = 1 + θ1 z + θ2 z 2 + · · · + θq z q .
Teorema Um processo MA(q) é invertı́vel se, e somente se, as raı́zes de Θ(z) estão fora
do cı́rculo unitário, isto é,
z ∈ C : |z| ≤ 1 ⇒ Θ(z) = 1 + θ1 z + θ2 z 2 + · · · + θq z q 6= 0.
Um processo ARMA será invertı́vel e estacionário se a parte AR o for, e será invertı́vel se

a parte MA o for.
3.4.11 Estacionariedade e causalidade de um processo ARMA
Para um processo ARMA, as condições para causalidade, invertibilidade e estacionariedade

são dadas no seguinte teorema.
Teorema 3.4.1. Se Φ(·) e Θ(·) não possuem fatores em comum, existe uma única solução
estacionária {Yt } para Φ(L)Yt = Θ(L)εt se, e somente se,
z ∈ C : |z| = 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
Esse processo ARMA(p, q) é causal se, e somente se,
z ∈ C : |z| ≤ 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
Será invertı́vel se, e somente se
z ∈ C : |z| ≤ 1 ⇒ Θ(z) = 1 + θ1 z + θ2 z 2 + · · · + θq z q 6= 0.
3.5 Exercı́cios sobre séries temporais estacionárias
Exercı́cio 3.1. Defina processo estocástico e ilustre graficamente. Explique o que é a rea-
lização de um processo estocástico e por que séries econômicas podem ser entendidas como
geradas por um processo estocásticos.
Exercı́cio 3.2. Seja {yt }Tt=1 uma série temporal. Quais caracterı́sticas essa série deve apre-
sentar para ser considerada uma série de covariância estacionária?
Exercı́cio 3.3. Faça os seguintes items:
(a) Defina o que é um processo ruı́do branco.
(b) Defina o que é um processo independente e identicamente distribuı́do (i.i.d.).
(c) Defina ruı́do branco Gaussiano.
(d) Qual a relação entre ruı́do branco, ruı́do branco Gaussiano e processo i.i.d.?
(e) Esses processos são estacionários?
Exercı́cio 3.4. Considere um processo MA(1): yt = et + α1 et−1 ; onde et ∼ RB(0, σe2 ).
(a) Calcule a média e variância de yt .
(b) Calcule as autocovariâncias de lags 1 e 2 para a série yt .
(c) Esse processo é estacionário? (Justifique sua resposta usando os valores encontrados nos
itens anteriores juntamente com o conceito de estacionariedade definido na Questão 1).
(d) Comente a afirmativa: “Todo processo MA(q), onde q < ∞, é estacionário”.
(e) Suponha que α1 = 0.5. O processo é invertı́vel?
(f ) Calcule a autocorrelação de ordem 1 para o processo do item anterior e faça o gráfico da

FAC com 5 lags.
Exercı́cio 3.5. Considere um processo MA(2): yt = et +α1 et−1 +α2 et−2 ; onde et ∼ RB(0, σe2 ).
(a) Calcule a média e variância de yt .
(b) Calcule as autocovariâncias de lags 1, 2 e 3 para a série yt .
(c) Esse processo é estacionário? (Justifique sua resposta usando os valores encontrados nos
itens anteriores juntamente com o conceito de estacionariedade definido na Questão 1).
3.5. EXERCÍCIOS SOBRE SÉRIES TEMPORAIS ESTACIONÁRIAS 77
(d) Suponha que α1 = 0.65 e que α2 = −0.20. O processo é invertı́vel?
(e) Calcule a autocorrelação de ordem 1 e 2 para o processo do item anterior e faça o gráfico
da FAC com 5 lags.
Exercı́cio 3.6. Considere os seguintes processos

1
yt = et + θet−1 e yt = et + et−1 ,
θ
onde et ∼ iid(0, σe2 ) e θ 6= 0.
(a) Os processos acima possuem as mesmas autocorrelações? Verifique.
(b) Os processos acima são invertı́veis? Verifique.
Exercı́cio 3.7. Considere um processo AR(1): yt = 5 + 0.9yt−1 + et , onde et ∼ RB(0, σe2 ).
(a) Esse processo é estacionário? Verifique.
(b) Calcule as autocorrelações de ordem 1, 2 e 3 para esse processo. Faça um esboço do

gráfico da FAC para esse processo com 5 lags.
(c) O que significa o coeficiente de yt−1 num processo AR(1)?
(d) Faça um gráfico da FACP desse processo com 5 lags.
Exercı́cio 3.8. (a) Explique como se comportam os gráficos da FAC e da FACP em processos
AR(p) e em processos MA(q).
(b) Esboce os gráficos da FAC e FACP para os seguintes processos: AR(1), AR(3), MA(2)
e MA(3).
Exercı́cio 3.9. (a) Supondo que E(yt ) = µ e que yt = c0 + β1 yt−1 + et + α1 et−1 , calcule o
valor de c0 em termos de µ e β1 .
(b) Explique como se comportam os gráficos da FAC e da FACP em processos ARMA(p, q).
(c) Esboce os gráficos da FAC e FACP para um processos ARMA(1,1).
Exercı́cio 3.10. Explique os passos que devem ser seguidos para a modelagem de uma série
temporal na metodologia ARMA.
Exercı́cio 3.11. (2014-5) Suponha que Yt seja representado pelo seguinte processo auto-
regressivo de primeira ordem:
Yt = 10 + 0, 6Yt−1 + et ,
em que et é um ruı́do branco que satisfaz as condições: E(et ) = 0, E(e2t ) = σ 2 , E(et es ) = 0
para t 6= s. Suponha também que Y0 = 0. Obtenha E(Yt ) para t = 2.
Exercı́cio 3.12. (2014-10) Considere o seguinte processo:
Yt = ρYt−1 + et , t = 1, 2, · · · ,
em que Y0 = 0 e et é um ruı́do branco que satisfaz as condições: E(et ) = 0, E(e2t ) = σ 2 ,

E(et es ) = 0 para t 6= s. São corretas as afirmativas:
O) Se ρ = 1, E(Yt ) = 0 para todo t;
1) Se ρ = 1, Var(Yt ) = t para todo t;
2) Se ρ = 1, E(Yt+h /Yt ) > Yt para todo h ≥ 1;
3) Se |ρ| < 1, Var(Yt ) = 1;
4) Se |ρ| < 1, E(Yt+h /Yt ) = ρh Yt para todo h ≥ 1.
Exercı́cio 3.13. (2013-13) Considere o seguinte processo xt = µ + et + α1 et−1 , para t =

1, 2, · · · , no qual et é uma sequência i.i.d com média 0 e variância σe2 . Julgue as seguintes
afirmativas:
O) Var[xt ] = (1 + α12 )σe2 .
1) Cov(xt , xt+h ) = 0, h > 1.
2) E[xt ] = µ + t.
3) O processo descrito acima é estacionário em covariância.

α1
4) A função de autocorrelação deste processo é: ρ1 = 1+α21
e ρj = 0 para j > 1.
Exercı́cio 3.14. (2012-08) Suponha que Y t seja descrito por um processo auto-regressivo de
ordem 3, isto é,
Yt = Yt−1 − 0, 50Yt−3 + εt
e que
εt |Yt−j ∼ N (0, σ 2 ), ∀j > 0.
Calcule a correlação entre Yt e Yt−2 . Multiplique o resultado por 100.
Exercı́cio 3.15. (2011-11) Julgue as seguintes afirmativas:
O) O processo AR(2), yt = ρ1 yt−1 + ρ2 yt−2 + εt , em que εt é um ruı́do branco com média

zero e variância σ 2 , é estacionário de segunda ordem se e somente se as raı́zes do polinômio
x2 − ρ1 x + ρ2 estão fora do cı́rculo unitário.
1) No processo MA(2), yt = εt + θ1 εt−1 + θ2 εt−2 , em que εt é um ruı́do branco com média

zero e variância σ 2 , a covariância entre yt e yt−3 é igual a zero.
2) No passeio aleatório com drift, yt = c + yt−1 + εt , y0 = 0, em que εt é um ruı́do branco

com média zero e variância σ 2 , a média de yt varia com t.
3) No processo MA(1), yt = εt + θ1 εt−1 , em que εt é um ruı́do branco com média zero e

variância σ 2 , a correlação entre yt e yt − 1 é menor ou igual a 0,5 em valor absoluto.
4) O processo ARMA(1,1), yt = ρyt−1 + εt + θεt−1 , em que εt é um ruı́do branco com média

zero e variância σ 2 , é estacionário de segunda ordem se e somente se |ρ| < 1 e |θ| < 1.
Exercı́cio 3.16. (2009-15)

É correto afirmar que:
O) No processo AR(1), yt = φ0 + φ1 yt−1 + et , em que φ1 < 1 e et é um ruı́do branco de média

nula e variância σ 2 , a média de yt será igual a φ0 .
1) O processo MA(1), yt = et + θet−1 , em que et é um ruı́do branco de média nula e variância

constante, será estacionário mesmo que θ > 1.
2) Seja a função de autocorrelação do processo AR(1) definido no item (0) dada por ρj . É
correto afirmar que ρj = φj1 .
3) O processo AR(2), yt = φ0 + φ1 yt−1 + φ2 yt−2 + et , em que et é um ruı́do branco de média

nula e variância σ 2 , será estacionário de segunda ordem se, e somente se, φ1 < 1 e φ2 < 1.
4) No modelo ARMA(1,1), yt = φ0 + φ1 yt−1 + et + θet−1 , em que et é um ruı́do branco de

2 (1+θ 2 )
média nula e variância constante (σ 2 ), a variância de yt é dada por σ 1−φ 2
Exercı́cio 3.17. Considere uma série temporal com 200 observações. A figura 1 mostra a
evolução da série ao longo do tempo. A tabela 1 fornece as autocorrelações, ρ’s, e autocor-
relações parciais, φ’s, estimados a partir dessa série.
Figura 3.17: série temporal simulada
Tabela 1
k 1 2 3 4 5 6 7 8 9 10
ρk 0.51 0.13 0.01 0.04 0.03 0.00 0.04 0.02 0.08 0.01
φk,k 0.51 -0.18 0.03 0.06 -0.03 -0.00 0.07 -0.05 0.13 -0.11
(a) Analisando a Figura 1 a série parece ser estacionária? Explique.
(b) Faça o gráfico da FAC e FACP para esse processo.
(c) Calcule o critério para decisão quanto à significância das autocorrelações estimadas e
represente esse critério nos gráficos da FAC e FACP.
(d) Qual(is) modelo(s) você propõe para ajustar essa série temporal? Justifique.
Exercı́cio 3.18. Usando a esperança condicional, calcule as previsões 1, 2 e 3 passos a frente

(b
yT (1), ybT (2), ybT (3)) para os seguintes processos:
(a) AR(1);
(b) AR(2);
(c) MA(1);
(d) MA(3);
(e) ARMA(1,1);
(f ) ARMA(2,2).
Exercı́cio 3.19. Abaixo (Figura 2) encontram-se os gráficos da FAC e FACP calculados para
uma série {yt }200
t=1 .
Figura 3.18: lag’s de ACF e PACF
(a) Analisando a Figura 2 a série parece ser estacionária? Explique.
(b) Usando os gráficos da FAC e FACP, qual(is) modelo(s) você propõe para ajustar essa
série temporal? Justifique. (Note que o primeiro lag é o 1 em ambos os gráficos).
3.6 Séries temporais não estacionárias
Nas sessões anteriores estudamos processos estacionários, ou seja, processos satisfazendo


 E(Zt ) = 0;
Var(Zt ) = σ 2 , para todo t;
γ(k) = Cov(Zt , Zt−k ) não depende de t, somente de k.

No entanto muitas séries temporais econômicas são claramente não estacionárias no sen-
tido de que a média, variância e/ou estrutura de covariancia dependem do tempo. Uma série
com estas caracterı́sticas tende a se afastar permanentemente de qualquer valor à medida que
o tempo passa. Fontes comuns de não estacionariedade em séries temporais são tendências, sa-
zonalidades e quebras estruturais diversas. Destas, as mais simples de lidar são as tendências e
sazonalidades. Uma série é dita apresentar uma tendência determinı́stica se esta se desenvolve
ao redor de uma função determinı́stica, geralmente simples. A Figura 3.19 apresenta alguns
diferentes tipos de tendências determinı́sticas: linear, logaritmica, quadrática e exponencial
(veja também a Figura 3.2).
(a) (b)
(c) (d)
Figura 3.19: Séries não-estacionárias apresentando tendências determinı́sticas: (a) Tendência

linear, (b) tendência logarı́tmica, (c) tendência quadrática e (d) tendência exponencial.
Da Figura 3.19 fica clara que uma série apresentando tendência determinı́stica é não-
estacionária: de imediato percebe-se que a média varia com o tempo em todos os casos apre-
sentados. Antes que qualquer tipo de análise adicional possa ser feita, em especial, qualquer
tipo de modelagem e previsão utilizando os modelos vistos até aqui, é obrigatória a remoção
de tendências. Existem dois tipos fundamentais de tendências que serão estudadas adiante.
Nos concentraremos inicialmente na remoção de tendências determinı́sticas.
3.6. SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 83
3.6.1 Como lidar com tentências determinı́sticas
Existem várias maneiras de eliminarmos tendências determinı́sticas. Neste trabalho apre-

sentaremos uma metodologia paramétrica de estimação da tendência deterministica em uma
série. Primeiramente é importante observar que, neste contexto, a forma funcional da tendência
determinı́stica deve ser identificada e especificada a priori. Uma maneira muito simples e útil
para a remoção da tendência é a inclusão de uma função da variável tempo no modelo,
geralmente carregando informações sobre o formato da tendência que se quer remover. As-
sumiremos que a forma funcional da tendência determinı́stica depende de certos parâmetros
de forma linear. Podemos dar alguns exemplos de modelos com tendência deteminı́stica: o
modelo
Yt = a + bt + εt (3.15)
em que εt ∼ RB(0, σε2 ), torna-se um ruı́do branco com tendência determinı́stica. O modelo
AR(1) com tendênca logarı́tmica pode ser escrito da segunte forma
Yt = a + b ln(t) + φYt−1 + εt . (3.16)
Nestes casos, acrescentamos uma tendência funcional ao processo, linear nos parâmetros, e
procedemos a estimação desta tendência via MQO. Vejamos alguns exemplos.
Exemplo 3.2. Os dados referentes à receita nominal mensal de vendas do varejo nacional no
ramo de combustı́veis e lubrificantes (ı́ndice de base fixa, sendo o ano de referência 2003 com
valor 100) no perı́odo de janeiro de 2000 à dezembro de 2011 estão apresentados na Figura
3.20(a) (fonte: IBGE, Pesquisa Mensal do Comércio 2000/jan-2011/dez). Observe que a
série apresenta uma nı́tida tendência linear crescente. Para removê-la, vamos assumir que a
série é da forma
Yt = α0 + α1 t + Xt ,
onde Yt denota o receita nominal no tempo t e Xt é a série residual após removida a tendência
determinı́stica. Denotando por x1 , · · · , x144 os dados, procedemos com a estimação de α0 e
α1 utilizando MQO que, neste caso, resulta α̂0 = 68.668 e α̂1 = 0.568 ambos altamente
significativos (p-valores muito próximos de zero). Na Figura 3.20(b) apresentamos os dados
e a reta ajustada (o eixo x foi reescalado para para refletir os meses). Para obtermos a
série residual Xt tomamos, naturalmente, X̂t = Yt − (68.668 + 0.568t). Na Figura 3.20(c)
apresentamos a reta resı́dual, com o eixo x reescalado para refletir as datas da série.
(a) (b)
(c)
Figura 3.20: Séries da receita nominal mensal de vendas do varejo nacional no ramo de
combustı́veis e lubrificantes. (a) Série, (b) série e reta ajustada e (c) residual.
Utilizando MQO podemos ainda remover qualquer tipo de função do tempo que seja linear
nos parâmetros, como mostra o exemplo abaixo.
Exemplo 3.3. Os dados referentes à série mensal de pessoas desocupadas com idade superior
a 11 anos em Porto Alegre entre março de 2002 e outubro de 2015 estão apresentados na
Figura 3.21(a). Os dados apresentam o coeficiente de variação mensal relativo para o número
de pessoas sem trabalho mas que estavam disponı́veis para assumir um trabalho e que tomaram
alguma providência efetiva para conseguir trabalho no perı́odo de referência de 30 dias, sem
terem tido qualquer trabalho ou após terem saı́do do último emprego que tiveram nesse perı́odo
(fonte: IBGE, Pesquisa Mensal de Emprego). A série apresenta uma distinta tendência
logarı́tmica ao longo do tempo, que pode ser modelada por
Yt = α0 + α1 ln(t) + Xt ,
onde Yt denota o coeficiente de variação do número de pessoas desocupadas no tempo t e Xt

é a série residual após removida a tendência determinı́stica. A estimação dos coeficientes
via MQO fornecem α̂0 = 28, 5875 e α̂1 = 5, 7317, altamente significativos (p-valor próximo
a zero). A reta ajustada (função) é dada por 28, 5875 + 5, 7317 ln(t) e está apresentada na
Figura 3.21(b), junto com a série original. Na Figura 3.21(c) apresentamos o residual.
(a) (b)
(c)
Figura 3.21: Séries do número de pessoas desocupadas em Porto Alegre. (a) Série, (b) série
e reta ajustada e (c) residual.
3.6.2 Testes de raı́z unitária - Identificando tendência estocástica
Uma série com uma tendência estocástica se diferencia de outra com uma tendência de-
terminı́stica, pois as mudanças na mesma deixam de ter um caráter transitório e passam
a apresentar um caráter permanente [(Pereira, 1988) e (Gujarati, 2000)]. “A presença de
uma tendência estocástica implica que flutuações em uma série temporal são o resultado de
choques não somente no componente transitório ou cı́clico, mas também no componente de
tendência.” [Balke (1991) apud Gujarati (2000, p. 730)]
Como vimos nas sessões anteriores, para um processo ARMA ser estacionário, o polinômio
caracterı́stico da parte AR não pode conter raı́zes de módulo igual a um, chamadas de raı́zes
unitárias. Acontece que a presença de raı́zes unitárias no polinômio AR resulta na presença
de tendência estocástica na série. A identificação de raı́zes unitárias é de grande importância
na análise de séries temporais, e este fato se reflete na literatura relativamente longa tratando
do assunto. Várias abordagens para a detecção de raı́zes unitárias estão a nosso dispor. Um
dos testes mais utilizados na literatura é o teste de Dickey Fuller que veremos a seguir.
3.6.3 Teste de Dickey Fuller (DF)
Considere o modelo autorregessivo de ordem 1, AR(1)
Yt = a0 + ρYt−1 + εt (3.17)
em que Yt é a variável de interesse, t é o ı́ndice temporal, ρ é coeficente e εt é o termo de erro.
Uma raı́z unitária está presente se ρ = 1 implicando que o modelo será não estacionário.
Nota-se que, quando ρ = 1
Yt = a0 + Yt−1 + εt
pode ser reescrito como
t
X
Yt = Y0 + εi + a 0 t
i=1
com
Pt uma tendência determinı́stica vindo de a0 t e um intercepto estocástico vindo de Y0 +
i=1 εi , resultando no que chamamos de tendência estocástica. O teste de Dickey Fuller
consiste em fazer um “teste t” (mas com distribuição de Dickey-Fuller) para a significância
do seguinte modelo
Teste de Dickey Fuller
∆Yt = (ρ − 1)Yt−1 + εt = δYt−1 + εt ,
H0 : δ = 0 (Não estacionário)
H1 : δ < 0 (Estacionário)
em que ∆ é a operador de diferenciação, dado por ∆Yt = Yt − Yt−1 . Testar a presença

de raı́z unitária neste modelo (ρ = 1) é equivalente a atestar se δ = ρ − 1 = 0. Como o
teste é feito sobre os resı́duos, a distribuição de um teste t usual não será usual, nem mesmo
assintoticamente. Para isso existe uma estatı́stica de teste especı́fica, τ , cujos valores crı́ticos
estão dispostos na tabela de Dickey Fuller.
Existem três versões principais do teste:
• Teste para raı́z unitária:

∆Yt = δYt−1 + εt → τ ;
• Teste para raı́z unitária com drift:
∆Yt = µ + δYt−1 + εt → τµ ;
• Teste de raı́z unitária com drift e tendêcia temporal determinı́stica:
∆Yt = µ + at + δYt−1 + εt → ττ
o teste de Dickey Fuller é um teste unilateral a esquerda (veja figura)

A estatı́stica τ̂ para cada um dos modelos pode ser obtida da seguinte forma:
δ̂
τ̂ = (3.18)
s(δ̂)
em que s(δ̂) é o desvio padrão de
Pn
Yt−1 Yt
δ̂ = Pt=2
n 2 − 1,
t=2 Yt−1
que é a estimativa de mı́nimos quadráticos de ρ menos 1, para garantir que, sob H0 , tenhamos
δ = 0. O desvio padrão pode ser obtido a partir do cálculo da variância residual, que no caso
mais simples se torna
n
1X
2
S = (∆Yt − δ̂Yt−1 )2 .
n
t=1
Cada versão do teste (τ , τµ e ττ ) tem sua própria estatı́stica de teste e portanto tem seu
próprio valor crı́tico o qual depende do tamanho amostral. Esses valores foram obtidos a
partir e simulações de Monte Carlo.
Em cada caso, a hipótese nula de que existe raı́z unitária é representada por δ = 0.
Para estes testes é conhecido que eles tem baixo poder no sentido de que frequentemente
não conseguem distinguir entre processos com raı́z unitária (δ = 0) de processos com raı́z
quase-unitária (δ próximo de zero), ou até mesmo com tendências não lineares.
A tabela a seguir apresenta alguns valores crı́ticos para o teste de Dickey Fuller
Estatı́stica n 1% 2.5% 5% 10%

25 -2.66 -2.26 -1.95 -1.60
50 -2.62 -2.25 -1.95 -1.61
τ 100 -2.60 -2.24 -1.95 -1.61
250 -2.58 -2.23 -1.95 -1.61
500 -2.58 -2.23 -1.95 -1.61
>500 -2.58 -2.23 -1.95 -1.61
25 -3.75 -3.33 -3.00 -2.62
50 -3.58 -3.22 -2.93 -2.60
τµ 100 -3.51 -3.17 -2.89 -2.58
250 -3.46 -3.14 -2.88 -2.57
500 -3.44 -3.13 -2.87 -2.57
>500 -3.43 -3.12 -2.86 -2.57
25 -4.38 -3.95 -3.60 -3.24
50 -4.15 -3.80 -3.50 -3.18
ττ 100 -4.04 -3.73 -3.45 -3.15
250 -3.99 -3.69 -3.43 -3.13
500 -3.98 -3.68 -3.42 -3.13
3.6.4 Dickey-Fuller Aumentado
Existe uma extenção do teste de Dickey-Fuller (DF) chamado de Teste de Dickey-Fuller au-
mentado (ADF) o qual remove todos os efeitos estuturais (autocorrelações) da série temporal
e então testa usando o mesmo procedimento.
Existem outro testes bem reconhecidos, que surgiram para resolver o problema de baixo
poder do teste de Dickey Fuller. Estes testes devem ser também utilizados em caso de dúvida
na hora da modelagem. São os testes de Phillips-Perron, KPSS, ERS, NG e Perron
entre outros. Alguns estão disponı́veis no Gretl, na opção variável – testes de raı́z unitária.
3.6.5 Eliminando tendência estocástica - Diferenças sucessivas
O método de diferenciação sucessivas é utilizado para eliminar tendência estocástica.

Considere o
Operador Diferença
∆=1−L
em que L é o operador de defasagem.
Na figura a seguir temos uma aplicação do operador diferença.
Figura 3.22: Passeio Aleatório e sua diferença
Obs: No Gretl tem uma opção para acrescentar uma variável diferença.
3.7. MODELAGEM ARIMA 89
3.7 Modelagem ARIMA
Quando uma séries temporal apresenta tendência estocática (não estacionária) diz-se que
está é integrada (I(·)). É necessário retirar a tendência para então analisar o ruı́do. Esse ruı́do
não necessáriamente é um ruı́do branco. Pode ser um modelo ARMA, por exemplo. Como
visto anteriormente, a maneira de retirar a tendência estocástica de uma série temporal é
diferencindo-á. Algumas vezes, é necessário diferenciar mais do que uma vez a série temporal
até torná-la estacionária.
Diz que uma série sem nenhuma raı́z unitária é I(0).

A série é dita I(1) se for necessário diferenciá-la uma vez para torná-la estacionária.
A série é dita I(d) se for necessário diferenciá-la d vezez para torná-la estacionária.
Na figura 3.23 são apresentados a série sobre dados de vendas BJsales de Box & Jankins.
0 10 20 30 40 50 60
Vendas
0 50 100 150
4
2
diff(diff(Vendas))
diff(Vendas)
2
0
0
−2
−2
−4
0 50 100 150 0 50 100 150

Time Time
Figura 3.23: Série de vendas, primeira e segunda diferenças
Exercı́cio 3.20. (2012-07)

Suponha que ∆Yt pode ser representado pelo seguinte processo:
∆Yt = εt − 0, 6εt−1 , para t = 1

∆Yt = ∆Yt−1 + εt − 0, 6εt−1 , para t ≥ 2
em que εt , t = 1, 2, · · · é uma sequência de variáveis aleatórias independentes e identicamente

distribuı́das com média igual a 0. Se Yt = 0, quando t = 0, calcule o valor da E[Y3 ].
3.8 Previsão
Um dos objetivos finais na análise de séries temporais é a previsão. Assim, pode-se usar
informações do passado para tomar decisões para o futuro. Existem outros métodos de pre-
visão para séries temporais, como o de Média Móveis Sı́mples (MMS), Suavizamento
Exponencial (SE), entre outros, mas estes métodos não dependem de um ajuste de um
modelo e não são considerados agora. Para uma boa previsão é fundamental que o modelo
esteja bem ajustado e por isso deixamos este tópico para o final. Como é feita a previsão na
prática?
6,8
A ideia da previsão é utilizar o conheci- lg
previsão
6,6 Intervalo a 95 por cento
mento/observações que se tem até o tempo
6,4
t, (digamos que temos observações para uma
6,2
certa variável durante os últimos 20 anos
6
e, assim, t seria o último ano observado e
· · · , Yt−2 , Yt−1 , Yt as observações). É conve- 5,8
5,6
niente definir
5,4
5,2
1955 1956 1957 1958 1959 1960 1961 1962
Et (Ys ) = E(Ys |Yt , Yt−1 , · · · , Y2 , Y1 ),

Previsão para o log da série de passageiros das companhias
aéreas americanas
Asesim,
Et (Ys ) = Ys , se s ≤ t
Parea um exemplo de previsão, consideremos o modelo AR(1): e
Yt+1 = c + φYt + εt .
Assim,
Et (Yt+1 ) = c + φYt = Yt+1 − εt+1

Et (Yt+2 ) = c + φEt (Yt+1 ) = c + φ(c + φYt )
..
.
h−1
X
Et (Yt+h ) = c φi−1 + φh Yt .
i=1
Assim,
3.8. PREVISÃO 91
Previsão
ŷt (h) = Et (Yt+h )
representa previsão h-passos a frente, dado que observamos até o tempo t.
3.8.1 Erro de previsão
O erro de previsão é definido como sendo o valor observado menos o valor previsto. Para
um perı́odo h, εt (h) é dado por:
Erro de previsão
εt (h) = Yt+h − Et (Yt+h )
os quais são não viesados, isto é, E(εt (h)) = 0;
εt (1) = Yt+1 − Et (Yt+1 ) = εt+1

εt (2) = Yt+2 − Et (Yt+2 ) = c + ρYt+1 + εt+2 − c − ρEt (Yt+1 )
= ρεt+1 + εt+2
εt (3) = Yt+3 − Et (Yt+3 ) = c + ρYt+2 + εt+3 − c − ρEt (Yt+2 )
= ρ2 εt+1 + ρεt+2 + εt+3
..
.
εt (h) = Yt+h − Et (Yt+h ) = ρh−1 εt+1 + ρh−2 εt+2 · · · + ρεt+h−1 + εt+h
Tomando-se a esperança do erro de previsão, podemos observar que estes são não viesados,
E(εt (h)) = 0; A variância do erro de previsão é dada por:

Var(εt (h)) = Var ρh−1 εt+1 + ρh−2 εt+2 · · · + ρεt+h−1 + εt+h

= σε2 φ2(h−1) + φ2(h−2) + · · · + φ2 + 1
σε2
Note que a variância converge para uma constante, quando h → ∞, que é 1−ρ2
que é a
variância não condicional da série Yt .
Se a distribuição dos resı́duos εt é a Normal, então o intervalo de confiânça para os resı́duos
é dado portanto
h−1
X 1
2
c ρi−1 + ρh y ± 2σε φ2(h−1) + φ2(h−2) + · · · + φ2 + 1
i=1
Medidas de desempenho
Diferentes modelos produzem previsões distintas, o que torna necessários avaliar essas
previsões. Para isso são utilizadas algumas medidas de desempenho. As estatı́sticas mais
conhecidas são:
1. MSE- Mean Square Error (erro quadrático médio)

s
PH 2
h=1 εt (h)
M SEt,H =
H
Para calculá-los, deve-se deixar algumas observações fora da amostra. Por exemplo, em
uma série com n observações , deixa-se as H últimas observações fora da amostra e
estima-se o modelo agora com n − H observações restantes.
2. MAE- Mean Absolute Error (erro absoluto médio)

PH
h=1 |εt (h)|
M AEt,H =
H
3. MAPE- Mean Absolute Percentual Error (erro absoluto percentual médio)

H
X εt (h)
M AP Et,H =
Hyt+h

h=1
Previsão dinâmica e estática
Quando faz-se previsões h passos a frente, ŷt (h), usando somente a informação até o tempo
t, tem-se a previsão dinâmica cuja variância acaba sendo maior. Quando, para prever algum
passo a frente usa-se as observações até o tempo imediatamente anterior, tem-se a previsão
estática. A previsão estática só é útil para efeito de comparação de modelos. Na prática, a
previsão dinâmica é a única que interessa de fato.
3.9. REGRESSÃO ESPÚRIA - COINTEGRAÇÃO 93
3.9 Regressão Espúria - Cointegração
A utilização dos modelos de regressão envolvendo séries temporais não estacionárias pode
conduzir ao problema que se convencionou chamar de regressão espúria, isto é quando temos
um alto R2 sem uma relação significativa entre as variáveis (Harris, 1995). Assim, na presença
de raı́z unitária podem-se encontrar relações econométricas entre duas variáveis econômicas
sem qualquer relação de causalidade entre uma e outra por puro acaso. Por exemplo, a
regressão de uma variável I(1) com outra I(1) obtida independentemente gera alto R2 e es-
tatı́stica t significante. No entanto o resultado não tem significado econômico.
Fizemos a seguinte esperiência. Geramos duas séries I(1) independentes entre si e regre-
dimos um contra a outra. O resultado segue.
Call:
lm(formula = Y ∼ X)
Residuals:
Min 1Q Median 3Q Max
-25.861 -7.875 0.179 6.713 30.970
Coefficients:
Estimate Std. Error t value Pr(¿—t—)
(Intercept) -6.971267 0.538128 -12.96 ¡2e-16 ***
X 0.527969 0.005861 90.08 ¡2e-16 ***
—
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 10.69 on 2498 degrees of freedom

Multiple R-squared: 0.7646, Adjusted R-squared: 0.7645
F-statistic: 8115 on 1 and 2498 DF, p-value: ¡ 2.2e-16
Como podemos observar, econtramos um R2 = 0.76 alto e estatı́sticas significativas. No

entanto, as séries são independentes. O resultado disso, é que quando colocamos no mesmo
gráfico, a série Y e o predito, podemos observar que o predito não é nem de perto razoável.
Veja figura ??.
Isto ocorre devido ao fato de que a presença de uma tendência, decrescente ou crescente,
em ambas as séries leva a um alto valor do R2 mas não necessariamente, a presença de uma
relação verdadeira entre séries (Gujarati, 2000).
Dectada a presença de raiz unitária, então deve-se trabalhar com as séries temporais
diferenciadas e não em nı́vel, ou seja, a tendência precisa ser removida. Assim, quando uma
série econômica apresentar uma tendência estocástica tornar-se-á estacionária após a aplicação
de uma ou mais diferenças, pois terá pelo menos uma raiz unitária. No entanto, ao se remover
a tendência, elementos de longo prazo entre as variáveis são eliminados.
A interpretação econômica da cointegração é que se duas (ou mais) variáveis possuem
uma relação de equilı́brio de longo prazo, então mesmo que as séries possam conter tendências
estocásticas (isto é, serem não estacionárias), elas irão mover-se juntas no tempo e a diferença
entre elas será estável (isto é, estacionária). Em suma, o conceito de cointegração indica
a existência de um equilı́brio de longo prazo, para o qual o sistema econômico converge no

tempo (Harris, 1995).
3.9.1 Quando é possı́vel regredir duas séries I(d)
Para que a regressão entre duas séries temporais não seja espúria, elas devem satisfazer
uma das seguintes situações:
Séries que cointegram
1. {Yt } e {Xt } devem ser estacionárias.
2. {Yt } e {Xt } devem ser integradas de mesma ordem e o resı́duo deve ser esta-
cionário.
Se {Yt } e {Xt } são integrados de ordens diferentes ou se {Yt } e {Xt } são integrados de
mesma ordem e o resı́duo não é estacionário, então a regressão é espúria.
Um teste utilizado para detectar cointegração é o teste de Durbin-Watson.
3.10 Exercı́cios para séries temporais não estacionárias
Exercı́cio 3.21. (2013-05) Um pesquisador corretamente postula o seguinte modelo de re-

gressão:
yt = β1 + β2 t + ut , t = 1, · · · , T ; (3.19)
em que ut é uma variável aleatória independente e identicamente distribuı́da ao longo do
tempo, com média zero e variância finita. Julgue as afirmativas:
O) yt é um processo estacionário.
1) ∆yt = yt − yt−1 é um processo estacionário de segunda ordem.
2) Mı́nimos quadrados ordinários aplicado à equação (3.19) produz uma estimativa não viesada
de β2 .
3) Seja β̂2 = Tt=2 (yt − yt−1 )/(T − 1). β̂2 é um estimador consistente de β2 .
P
4) Suponha que ut = ρut−1 + εt , ρ < 1 e que εt seja uma variável aleatória independente e
identicamente distribuı́da ao longo do tempo, com média zero e variância finita. O estimador
de mı́nimos quadrados ordinários de β2 na equação (3.19) é não viesado.
Exercı́cio 3.22. (2007-07) Sejam Yt e Xt duas séries temporais. Considere os resultados dos
seguintes modelos de regressão estimados por mı́nimos quadrados ordinários (MQO):
∆Yt = 4, 8788 − 0, 1512Yt−1 e∆Xt = 0, 1094 − 0, 1807Xt−1

(1,70) (−1,97) (1,26) (−2,21)
3.10. EXERCÍCIOS PARA SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 95
Considere também os resultados da regressão de Yt em Xt
Yt = 23, 3924 + 14, 4006Xt + ebt ,

(1,70) −1,97
em que ebt é o resı́duo. Finalmente, considere a seguinte regressão:
et = 0, 0730 − 0, 4157ebt−1 .
∆b
(0,06) (−3,43)
Os números entre parênteses são os valores do teste t de significância individual dos

parâmetros. Dado que o valor crı́tico a 5% da estatı́stica de Dickey-Fuller é -2,938, é correto
afirmar que:
0) Yt e Xt são séries temporais integradas de ordem 1.
1) A regressão de Yt em Xt é espúria.
2) A hipótese de cointegração entre Yt e Xt é rejeitada pois os resı́duos da regressão de Yt em

Xt são não-estacionários.
3) Para que duas variáveis sejam cointegradas é necessário que ambas tenham a mesma ordem
de integração.
4) A rejeição da hipótese nula do teste Dickey-Fuller implica que a variável em questão é não-
estacionária.
Exercı́cio 3.23. (2007-09) Julgue as proposições:
O) A soma de dois processos estocásticos independentes e estacionários de segunda ordem

será estacionária de segunda ordem.
1) A soma de dois processos estocásticos não-estacionários será não-estacionária.
2) Seja L o operador defasagem tal que LYt = Yt−1 . Se Yt segue um processo AR(1) esta-
cionário de segunda ordem, então (1 − L)2 Yt é um processo ARMA(2,2).
3) O processo ARMA(2,2) definido na forma (1 − L − 0, 25L2 )Yt = (1 − 0, 5L − 0, 06L2 )ut é

não estacionário, em que ut é o erro aleatório com média nula e variância constante.
4) Todo processo MA é estacionário de segunda ordem.
Exercı́cio 3.24. Para este exercı́cio consideremos uma série temporal de taxa de câmbio da
Itália (EXRIT L). Foram realizados testes de raı́z unitária para a série EXRIT L e para a
sua primeira diferença d EXRIT L.
Teste Aumentado de Dickey-Fuller para EXRITL

incluindo 5 defasagens de (1-L)EXRITL teste com constante
dimensão de amostragem 196 modelo: (1-L)y = b0 + (a-1)*y(-1) + ... + e
hipótese nula de raiz unitária: a = 1 coeficiente de 1a ordem para e: -0,002
diferenças defasadas: F(5, 189) = 5,488 [0,0001]

valor estimado de (a - 1): -0,00802367 teste com constante
estatı́stica de teste: τc (1) = -1,46078 modelo: (1-L)y = b0 + (a-1)*y(-1) + e
p-valor assintótico 0,5537 coeficiente de 1a ordem para e: -0,006
valor estimado de (a - 1): -0,685419
com constante e tendência estatı́stica de teste: τc (1) = -10,1243
modelo: (1-L)y = b0 + b1*t + (a-1)*y(-1) + ... + e p-valor 2,166e-16
coeficiente de 1a ordem para e: -0,003
diferenças defasadas: F(5, 188) = 5,557 [0,0001] com constante e tendência
valor estimado de (a - 1): -0,0140724 modelo: (1-L)y = b0 + b1*t + (a-1)*y(-1) + e
estatı́stica de teste: τct (1) = -1,4575 coeficiente de 1a ordem para e: -0,005
p-valor assintótico 0,8439 valor estimado de (a - 1): -0,690473
estatı́stica de teste: τct (1)= -10,1693
Teste de Dickey-Fuller para d EXRIT L p-valor 1,241e-15
dimensão de amostragem 200
hipótese nula de raiz unitária: a = 1
a) O que podemos afirmar a respeito da tendência da série EXRIT L? Use os resultados dos
testes de hipóteses para justificar a sua resposta.
b) O que podemos afirmar a respeito da tendência da primeira diferença da série EXRIT L?

Use os resultados dos testes de hipóteses para justificar a sua resposta.
c) Dos gráficos apresentados na figura 3.24, qual(is) pode(m) representar a série EXRIT L?
E qual(is) pode(m) representar a primeira diferença da série EXRIT L? Explique.
5 7.8
4
7.6
3
7.4
2
7.2
1
S1
S2
0 7
-1
6.8
-2
6.6
-3
6.4
-4
-5 6.2
1974 1976 1978 1980 1982 1984 1986 1988 1990 1974 1976 1978 1980 1982 1984 1986 1988 1990
(a) (b)
150
100
50
S3
-50
-100
-150
1974 1976 1978 1980 1982 1984 1986 1988 1990
(c)
Figura 3.24: Séries Temporais S1,S2 e S3
d) Na figura 3.25 qual(is) dos gráficos de FAC e FACP pode(m) corresponder à FAC e FACP
de um ruı́do branco? Justifique.
e) Na figura 3.25 qual(is) dos gráficos de FAC e FACP pode(m) corresponder à FAC e FACP
de um ruı́do branco? Justifique.
ACF para X1 ACF para X2 ACF para X3

0,2 1
0,15 +- 1,96/T0,5 0,3 +- 1,96/T0,5 +- 1,96/T0,5
0,1 0,2 0,5
0,05 0,1
0 0 0
-0,05 -0,1
-0,1 -0,2 -0,5
-0,15 -0,3
-0,2 -1
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
defasagem defasagem defasagem
PACF para X1 PACF para X2 PACF para X3

0,2 1
0,15 +- 1,96/T0,5 0,3 +- 1,96/T0,5 +- 1,96/T0,5
0,1 0,2 0,5
0,05 0,1
0 0 0
-0,05 -0,1
-0,1 -0,2 -0,5
-0,15 -0,3
-0,2 -1
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
(a) (b) (c)
Figura 3.25: FAC e FACP para três séries temporais distintas X1 , X2 e X3 .
f ) Na figura 3.25 qual(is) dos gráficos de FAC e FACP pode(m) corresponder à FAC e FACP
da Série EXRIT L? Justifique.
g) Dos seguintes modelos: AR(1), MA(1), ARMA(1,1), ARIMA(1,1,1), ARIMA(3,1,2) e

ARIMA(1,2,1), qual(is) poderiam ajustar corretamente a série temporal EXRIT L? Jus-
tifique.
h) Foram ajustados 3 modelos para a série EXRIT L: ARMA(1,1) (AIC =417,1), ARIMA(2,1,3)(AIC
=422,12) e ARIMA(1,1,2) (AIC =417,5). A FAC e FACP dos resı́duos dos ajustes são
apresentados na figura 3.26. Qual é o melhor modelo? Justifique.
ACF para dY11 ACF para Z2 ACF para Z3

0.2
0.4 +- 1.96/T0.5 0.15 +- 1.96/T0.5 0.4 +- 1.96/T0.5
0.3
0.1 0.2
0.2 0.05 0.1
0 0 0
-0.05 -0.1
-0.2 -0.2
-0.1
-0.4 -0.3
-0.15 -0.4
-0.2
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
PACF para dY11 PACF para Z2 PACF para Z3

0.2
0.4 +- 1.96/T0.5 0.15 +- 1.96/T0.5 0.4 +- 1.96/T0.5
0.3
0.1 0.2
0.2 0.05 0.1
0 0 0
-0.05 -0.1
-0.2 -0.2
-0.1
-0.4 -0.3
-0.15 -0.4
-0.2
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
(a) (b) (c)
Figura 3.26: FAC e FACP dos resı́duos do ajuste de três modelos a série EXRIT L.
i) Faça a correspondência da tabela 1 com a figura 3.26 explicando o seu raciocı́nio.

j) Escreva a equação do modelo para a seguinte saı́da do gretl:
Modelo 2: ARIMA, usando as observações 1973:04–1989:10 (T = 199)

Variável dependente: (1 − L)S 3
Erros padrão baseados na Hessiana
Tabela 3.1: Teste LJUNG-BOX

Teste 1 Teste 2 Teste 3
Def ACF PACF Q-stat [p-valor] ACF PACF Q-stat [p-valor] ACF PACF Q-stat [p-va
1 -0.483 *** -0.483 *** 47.49 [0.00] -0.406 *** -0.406 *** 31.42 [0.00] -0.031 -0.031 0.19 [0.6
2 -0.079 -0.408 *** 48.77 [0.00] 0.044 -0.145 ** 31.79 [0.00] -0.121 * -0.122 * 3.22 [0.1
3 0.089 -0.254 *** 50.40 [0.00] 0.016 -0.026 31.85 [0.00] 0.089 0.082 4.88 [0.1
4 -0.029 -0.216 *** 50.58 [0.00] 0.030 0.042 32.03 [0.00] 0.038 0.029 5.19 [0.2
5 0.044 -0.098 50.98 [0.00] 0.008 0.052 32.04 [0.00] 0.066 0.091 6.12 [0.2
6 -0.095 -0.189 *** 52.87 [0.00] -0.020 0.008 32.12 [0.00] 0.034 0.040 6.37 [0.3
7 0.072 -0.121 * 53.99 [0.00] 0.027 0.023 32.27 [0.00] 0.053 0.070 6.96 [0.4
8 -0.002 -0.100 53.99 [0.00] 0.045 0.075 32.68 [0.00] -0.031 -0.035 7.18 [0.5
9 -0.108 -0.249 *** 56.49 [0.00] -0.096 -0.056 34.52 [0.00] 0.043 0.045 7.58 [0.5
10 0.167 ** -0.090 62.44 [0.00] 0.122 * 0.073 37.54 [0.00] 0.048 0.023 8.09 [0.6
Coeficiente Erro Padrão z p-valor

const −0.00586445 0.0315017 −0.1862 0.8523
φ1 −0.350312 0.0665472 −5.2641 0.0000
θ1 −1.00000 0.0124930 −80.0449 0.0000
Média var. dependente −0.303518 D.P. var. dependente 60.82785
Média de inovações −0.280781 D.P. das inovações 34.59412
Log da verossimilhança −990.5755 Critério de Akaike 1989.151
Critério de Schwarz 2002.324 Hannan–Quinn 1994.482
Exercı́cio 3.25. Seja {yt }440

t=1 uma série temporal. Essa série foi ajustada de acordo com um
modelo AR(2). A equação estimada foi: yt = 14.62 − 0.61yt−1 + 0.15yt−2 . Os seguintes dados
estão disponı́veis:
t 436 437 438 439 440

yt 9.88 10.42 11.08 8.12 11.71
ebt -0.21 0.40 1.33 -1.30 0.38
(a) Calcule a previsão um passo a frente e dois passos a frente para a série yt , ou seja, yb440 (1)
e yb440 (2). R: yb440 (1) = 8.6949 e yb440 (2) = 11.07261.
(b) Calcule o erro de previsão um e dois passos a frente, e440 (1) e e440 (2), sabendo-se que
y441 = 8.83 e y442 = 12.24. R: e440 (1) = 0.1351 e e440 (2) = 1.167389.

modelo MA(2). A equação estimada foi: yt = 10.01 + et − 0.64et−1 + 0.22et−2 . Os seguintes
dados estão disponı́veis:
t 446 447 448 449 450

yt 9.79 10.22 7.43 12.41 8.35
ebt -0.52 0.21 -2.34 0.87 -0.60
(a) Calcule a previsão um, dois e três passos a frente para a série yt , ou seja, yb450 (1), yb450 (2)
e yb450 (3). R: yb450 (1) = 10.5854, yb450 (2) = 9.878 e yb450 (3) = 10.01.
(b) Calcule o erro de previsão um, dois e três passos a frente, e450 (1), e450 (2) e e450 (3),
sabendo-se que y451 = 9.80, y452 = 8.78 e y453 = 9.33. R: e450 (1) = −0.7767, e450 (2) =
−1.098 e e450 (3) = −0.68.
Exercı́cio 3.27. Escreva cada um dos seguintes processos usando o operador de defasagem
B.
(a) Xt = 0.3Xt−1 + at ;
(b) Xt = tj=1 at , t ≥ 1;
P
(c) Xt = at + 0.4at−1 − 0.2at−2 + 0.17at−3 ;
(d) Xt = 1.5Xt−1 − 0.75Xt−2 + at + 4.0;
(e) Xt = 0.5Xt−1 + at + 0.4at−1 − 0.2at−2 ;
(f ) Xt − Xt−1 = −0.3Xt−1 + at + 0.4at−1 ;

modelo ARMA(2,2). A equação estimada foi: yt = 1.61 + 1.39yt−1 − 0.55yt−2 + et − 0.81et−1 +
0.25et−2 . Os seguintes dados estão disponı́veis:
t 446 447 448 449 450

yt 12.16 11.69 11.56 10.32 10.87
ebt 0.56 -0.07 0.19 -0.75 0.62
(a) Calcule a previsão um, dois e três passos a frente para a série yt , ou seja, yb450 (1), yb450 (2)
e yb450 (3). R: yb450 (1) = 10.3536, yb450 (2) = 10.178 e yb450 (3) = 10.06295.
(b) Calcule o erro de previsão um, dois e três passos a frente, e450 (1), e450 (2) e e450 (3),
sabendo-se que y451 = 9.80, y452 = 8.78 e y453 = 9.33. R: e450 (1) = 1.5264, e450 (2) =
2.051996 e e450 (3) = 0.6870544.
Exercı́cio 3.29. Considere o modelo autorregressivo de primeira ordem, AR(1), definido por
Yt = a + bYt−1 + ut ,
em que a e b são parâmetros e ut é uma sequência de variáveis aleatórias independentes e
igualmente distribuı́das, com média nula e variância σ 2 . Suponha que |b| < 1. A previsão n
passos-à-frente para a variável Y convergirá para
(a) a.
(b) a média de ut .
a
(c) 1−b .
(d) E(Yt ).
(e) ∞.
Exercı́cio 3.30. As vendas mensais de um certo produto são representadas pelo modelo
Zt = 3 + at + 0.5at−1 − 0.25at−2 , σa2 = 4.
(a) Obtenha Ẑ(`), ` = 1, 2, 3, 100;
(b) Calcule Var[et (`)], ` = 1, 2, 3, 100;
(c) Dados Z1 = 3.25, Z2 = 4.75, Z3 = 2.25 e Z4 = 1.75, calcule Ẑ4 (`) para ` = 1, 2, 3, 100;
Exercı́cio 3.31. Explique os passos que devem ser seguidos para a modelagem de uma série
temporal na metodologia ARIMA. Considere a possibilidade de não-estacionariedade da série.
Exercı́cio 3.32. Usando a esperança condicional, calcule as previsões 1, 2 e 3 passos a frente

(b
yT (1), ybT (2), ybT (3)) para os seguintes processos:
(a) ARIMA(1,1,0)
(b) ARIMA(1,1,1)
(c) ARIMA(1,2,1)
(d) ARIMA(2,1,2)

modelo ARIMA(1,1,1). O coeficiente estimado para o componente auto-regressivo foi 0,6347
e o coeficiente estimado referente à parte MA foi 0,3711. As seguintes informações estão
disponı́veis:
t 436 437 438 439 440

yt 20.52 20.04 20.52 19.64 16.13
ebt -0.092 -1.29 1.27 -1.66 -2.33
(a) Escreva o modelo usando a notação do operador lag.
(b) Calcule a previsão um passo a frente e dois passos a frente para a série yt , ou seja, yb440 (1)
e yb440 (2). R: yb440 (1) = 13.05 e yb440 (2) = 11.09.
(c) Calcule o erro de previsão um e dois passos a frente, e440 (1) e e440 (2), sabendo-se que
y441 = 12.57 e y442 = 9.93. R: e440 (1) = 0.478 e e440 (2) = −1.157.

modelo ARIMA(1,2,1). O coeficiente estimado para o componente auto-regressivo foi 0,6364
e o coeficiente estimado referente a parte MA foi 0,3599. As seguintes informações estão
disponı́veis:
t 436 437 438 439 440

yt 782.78 803.30 823.34 843.86 863.50
ebt 1.34 -0.08 -1.30 1.26 -1.65
(a) Escreva o modelo usando a notação do operador lag.
(b) Calcule a previsão um passo a frente e dois passos a frente para a série yt , ou seja, yb440 (1)
e yb440 (2). R: yb440 (1) = 881.99 e yb440 (2) = 899.74.
(c) Calcule o erro de previsão um e dois passos a frente, e440 (1) e e440 (2), sabendo-se que
y441 = 879.64 e y442 = 892.21. R: e440 (1) = −2.35 e e440 (2) = −7.53.
Exercı́cio 3.35. Seja yt o logaritmo de taxa de câmbio iene/US$. A seguinte regressão foi
proposta: ∆yt = β0 + β1 yt−1 + ut . As estimativas seguem abaixo:
Estimativa dp(·)
βb0 0.162 0.435
βb1 0.099 0.025
Sabendo-se que n = 777, faça o teste DF e responda se a série inf apresenta raiz unitária.
Nota: A tabela com os valores crı́ticos para o teste de DF se encontra no final da lista. Note
que τ se refere ao modelo sem constante, τµ ao modelo com constante e ττ ao modelo com
tendência.
Exercı́cio 3.36. Utilizando os dados anuais (1959-1995) de log(P IB) norte americano, a
seguinte regressão foi proposta: ∆log(P IB)t = β0 + β1 t + β2 log(P IB)t−1 + β3 ∆log(P IB)t−1 +
ut . As estimativas seguem abaixo:
Estimativa dp(·)
βb0 1.650 0.670
βb1 0.0059 0.003
βb2 -0.320 0.087
βb3 0.264 0.126
n = 35
(a) Faça o teste ADF e responda se a série inf apresenta raiz unitária.
(b) A inclusão da variável ∆log(P IB)t−1 no modelo acima parece ser necessária? Justifique.
Exercı́cio 3.37. Utilizando os dados anuais (1948-1996) de inflação norte americana, a

seguinte regressão foi proposta: ∆inft = β0 + β1 inft−1 + β2 ∆inft−1 + ut . As estimativas
seguem abaixo:
Estimativa dp(·)
βb0 1.360 0.517
βb1 -0.310 0.103
βb2 0.138 0.126
n = 47
(a) Faça o teste ADF e responda se a série inf apresenta raiz unitária.
(b) A inclusão da variável ∆inft−1 no modelo acima parece ser necessária? Justifique.
Exercı́cio 3.38. Responda V ou F, justificando sua resposta: Seja o processo auto-regressivo:

yt = φ1 yt−1 + εt . Pode-se afirmar que:
(a) O processo é estacionário para φ1 < 1. F
(b) Se φ1 = 1, o processo é dito um passeio aleatório. V
(c) O estimador de MQO do parâmetro φ1 é não-viciado. F
(d) A estatı́stica t-Student pode ser usada para testar a presença de raiz unitária. F
(e) O processo pode ser escrito em uma forma alternativa como ∆yt = δyt−1 + εt em que
δ = φ1 − 1 e ∆yt = yt − yt−1 . V
Exercı́cio 3.39. Responda V ou F, justificando sua resposta: Um econometrista estimou uma

função consumo usando 25 observações anuais da renda pessoal disponı́vel e consumo, a partir
do modelo: Ct = β0 + β1 Yt + ut em que Ct representa consumo em t; Yt representa renda
pessoal disponı́vel em t e ut é um erro aleatório. O econometrista fez o teste de Dickey-Fuller
aumentado (ADF) para as séries de renda e de consumo, obtendo estimativas para a estatı́stica
do teste menores que os valores crı́ticos tabelados, a 1%, 5% e 10%. Consequentemente, o
econometrista:
(a) Aceitou a hipótese nula do teste ADF, concluindo que as séries de renda e consumo são
não-estacionárias. V
(b) Concluiu que o teste t não é válido. V
(c) Concluiu que a regressão estimada é espúria. F
(d) Necessita fazer mais outros testes para verificar se a regressão estimada é espúria. V
Exercı́cio 3.40. Responda V ou F, justificando sua resposta. Considere o modelo de regressão

linear Ct = β0 + β1 Yt + ut . As variáveis são definidas como na questão anterior.
(a) se Ct e Yt são I(1), então ut será obrigatoriamente estacionário. F
(b) se Ct e Yt são integradas, mas com ordens de integração diferentes, então a regressão
será inválida. V
(c) se Ct e Yt são I(1), então o teste ADF aplicado aos resı́duos da regressão poderá identificar
a presença de co-integração entre as variáveis. V
(d) se Ct e Yt são I(1), mas os resı́duos são I(0), então há co-integração entre as variáveis.
V
(e) se Ct e Yt são I(1) e os resı́duos também são I(1), então a regressão de ∆Ct em ∆Yt é
inválida. F
Exercı́cio 3.41. Responda V ou F, justificando sua resposta. Considere a seguinte regressão

entre yt e zt : yt = αzt + ut , em que ut é o erro. São corretas as afirmativas:
(a) se yt for I(1) e zt for I(0), então yt e zt são co-integradas. F
(b) se yt for I(0) e zt for I(1), então yt e zt são co-integradas. F
(c) se yt for I(1) e zt for I(1), então yt e zt são co-integradas. F
(d) se yt for I(1), zt for I(1) e ut for I(0), então yt e zt são co-integradas. V
Exercı́cio 3.42. Responda V ou F, justificando sua resposta. Com respeito à teoria das séries
temporais, são corretas as afirmativas:
(a) Considere uma série temporal Yt auto-regressiva de ordem 1 com parâmetro ρ. No modelo:
Yt − Yt−1 = δYt−1 + ut , em que ut é um ruı́do branco e δ = ρ − 1, se δ for de fato igual
a zero, a série Yt será não estacionária. V
(b) Numa regressão linear simples de duas séries temporais não estacionárias de ordem 1, o
teste usual t de Student ainda é válido. F
(c) Numa regressão linear múltipla de séries temporais de ordem 1, mas cointegráveis, não
se corre o risco de os resultados serem espúrios. V
(d) Numa regressão linear múltipla de séries temporais de ordem 1, mas cointegráveis, os
resı́duos da regressão são estacionários. V
(e) Se uma série temporal tiver que ser diferenciada n vezes antes de se tornar estacionária,
a série original é integrada de ordem n − 1. F
Exercı́cio 3.43. Sejam Yt e Xt duas séries temporais. Considere os resultados dos seguintes
modelos de regressão estimados por mı́nimos quadrados ordinários (MQO):
∆Ŷt = 4, 8788 − 0, 1512Yt−1 e ∆X̂t = 0, 1094 − 0, 1807Xt−1 .

(1,70) (−1,97) (1,26) (2,21)
Considere também os resultados da regressão de Yt em Xt .
Yt = 23, 3924 + 14, 4006Xt + êt ,

(1,70) (−1,97)
em que êt é o resı́duo. Finalmente, considere a seguinte regressão:
∆êt = 0, 0730 − 0, 4157êt−1

(0,06) (−3,43)
Os números entre parênteses são os valores do teste t de significância individual dos

parâmetros. Dado que o valor crı́tico a 5% da estatı́stica de Dickey-Fuller é -2,938, é correto
afirmar que:
(a) Yt e Xt são séries temporais integradas de ordem 1.
(b) A regressão de Yt em Xt é espúria.
(c) A hipótese de cointegração entre Yt e Xt é rejeitada pois os resı́duos da regressão de Yt

em Xt são não-estacionários.
(d) Para que duas variáveis sejam cointegradas é necessário que ambas tenham a mesma
ordem de integração.
(e) A rejeição da hipótese nula do teste Dickey-Fuller implica que a variável em questão é
não-estacionária.
Exercı́cio 3.44. (2013-10) Julgue as seguintes afirmativas:
O) O passeio aleatório com drift, yt = c + yt−1 + εt , y0 = 0, em que εt é um ruı́do branco,

com média zero e variância σ 2 , é um processo estacionário de segunda ordem se c = 0.
1) O processo MA(1), yt = εt + θ1 εt−1 , em que εt é um ruı́do branco, com média zero e

variância σ 2 , é estacionário de segunda ordem se, e somente se, a raiz do polinômio 1 + θ1 x
cair fora do cı́rculo unitário.
2) O processo MA(1), yt = εt − θ1 εt−1 , em que εt é um ruı́do branco, com média zero e

variância σ 2 , é inversı́vel se, e somente se, |θ1 | < 1.
3) O processo AR(2), yt = φ1 yt−1 + φ2 yt−2 + εt , em que εt é um ruı́do branco, com média

zero e variância σ 2 , é estacionário de segunda ordem se
|φ2 | < 1, φ2 − φ1 < 1 e φ2 + φ1 < 1.
4) No passeio aleatório, yt = yt−1 + εt , y0 = 0, em que εt é um ruı́do branco, com média zero

e variância σ 2 , a variância de yt varia com t.
Capı́tulo 4
Modelos com Variáveis Instrumentais (VI)
4.1 Variáveis Instrumentais
Em estatı́stica, econometria, epidemiologia e áreas relacionadas, o método de variáveis

instrumentais é usado para estimar relações causais, quando experimentos controlados não
são viáveis. O método VI permite estimações consistentes quando as variáveis explicativas
são endógenas.
4.1.1 Conceito da exogeneidade dos regressores
Nos modelos econométricos estruturais de uma equação a variável dependente (endógena)

é explicada através de um conjunto de variáveis explicativas (não estocásticas) e do termo
de erro. Nos modelos econométricos estruturais de uma equação, as variáveis explicativas
são a causa que explicam a variação da variável dependente e a variável endógena reflete o
efeito provocado pela variação das variáveis explicativas. Uma das hipóteses básicas iniciais
da regressão MQO admite a ausência de correlação das variáveis explicativas X1 , · · · , Xk com
o termo de erro, isto é Cov(Xi , ε) = 0, para todo i = 1, · · · , k. Desta forma as variáveis
explicativas são condsideradas exógenas no modelo tradicional de regressão. Contudo, a
hipótese da exogeneidade das variáveis explicativas é muitas vezes infringida. Entre as causas
mais comuns da endogeneidade das variáveis explicativas podemos citar erros de mensuração
das variáveis, variável omitida e simultaneidade.
Quando temos um problema de endogeneidade causado por uma variável não-observável,
uma possı́vel solução é a utilização de uma variável proxy.
4.1.2 Variável proxy
Considere a regressão para explicar a renda em função do nı́vel de escolaridade (educ) e a

aptidão para determinada tarefa (aptid),
log(salario) = β0 + β1 educ + β2 aptid + u. (4.1)

Observe que aptid é uma variável inata, não observável. Podemos esperar que aptid seja
correlacionada com educ e, nesse caso, a omissão da variável aptid da regressão (4.1) (por mo-
107
108 CAPÍTULO 4. MODELOS COM VARIÁVEIS INSTRUMENTAIS (VI)
tivos que veremos logo mais) torna a estimativa via MQO de β1 viciada e inconsistente. Uma
maneira de contornar este problema é substituir a variável aptid por uma variável observável
altamente correlacionada com aptid que será usada como proxy para aptidão. Tal variável é
denominada variável proxy e idealmente deve satisfazer as seguintes condições:
(a) Ser altamente correlacionada com a variável não observada que pretende substituir;
(b) Não ser correlacionada com o termo de erro da regressão.
Com uma boa proxy, podemos estimar o modelo por MQO e obter “boas” estimativas para
β1 (4.1). No que segue assumiremos que variáveis proxys não estão à disposição.
4.1.3 Variável Omitida
O modelo (4.1) pode ser reescrito como
Y = β0 + β1 X1 + β2 X2 + ε, (4.2)
Y representa o logaritmo do salário, X1 representa a variável educação, X2 a aptidão e ε

representa o termo de erro do modelo, com Cov(Xi , ε) = 0, i=1,2. Como já discutimos, a
variável aptidão, não é observável e vamos assumir que uma variável proxy para aptidão não
está disponı́vel. Omitindo a variável X2 no modelo obtemos
Y = β0 + β1 X1 + ξ (4.3)
onde ξ = β2 X2 + ε representa o erro na regressão acima. Estimando β = (β0 , β1 ) por MQO

obtemos

Cov(X1 , Y ) Cov(X1 , β0 + β1 X1 + ξ)
E(β̂) = E =E
Var(X1 ) Var(X1 )

β1 Var(X1 ) + Cov(X1 , ξ) β1 Var(X1 ) + Cov(X1 , ξ)
=E =E
Var(X1 ) Var(X1 )

Cov(X1 , ξ)
= β1 + E ,
Var(X1 )
de onde segue que o estimador de MQO é não viciado se, e somente se, Cov(X1 , ξ) = 0.
Pode-se mostrar ainda que se Cov(X1 , ξ) 6= 0, o estimador de MQO será inconsistente. Agora
observe que
Cov(X1 , ξ) = Cov(X1 , β2 X2 + ε) = β2 Cov(X1 , X2 ) + Cov(X1 , ε) = β2 Cov(X1 , X2 )
que é zero se, e somente se, Cov(X1 , X2 ) = 0, o que nem sempre acontece na prática. Em
outras palavras, olhando (4.2) como um modelo geral de onde foi omitida a variável X2
resultando no modelo (4.3), se X1 e X2 são correlacionados então o estimador de MQO é
viciado e inconsistente! No entanto estimativas consistentes ainda podem ser obtidas, como
veremos adiante. Uma outra alternativa é dada no seguinte exemplo:
4.1. VARIÁVEIS INSTRUMENTAIS 109
Exemplo 4.1. Suponha que um pesquisador deseja estimar o efeito causal do tabagismo
sobre a saúde geral, como em Leigh e Schembri 2004 [1]). Em princı́pio, a existência de
correlação entre a saúde e o hábito de fumar não implica necessariamente que o fumo piora
a saúde, porque outras variáveis podem afetar tanto a saúde quanto o hábito de fumar. Por
exemplo, pode ocorrer por acaso que pessoas de uma certa cidade exposta à poluição radioativa
fumem muito, mas é a poluição que realmente causa problemas de saúde à esta população em
estudo. Mesmo que o tabagismo cause realmente problemas, a saúde em si pode afetar o
hábito de fumar (digamos, um paciente muito doente pode se sentir instigado a fumar mais).
Fazer estudos controlados (por exemplo, colocar uma pessoa num laboratório, sem exposição
à poluição, fumando quantidades controladas) pode ser difı́cil, caro ou anti-ético. Uma opção
alternativa, portanto, seria o pesquisador tentar estimar o efeito causal do tabagismo sobre a
saúde a partir de dados observacionais, utilizando, por exemplo, a alı́quota de imposto sobre
o tabaco como um instrumento para fumar em uma regressão de saúde. Se as alı́quotas de
imposto sobre o tabaco afetam apenas (positivamente, imagina-se) a saúde porque eles afetam
o hábito de fumar (mantendo as outras variáveis do modelo fixas), a correlação entre impostos
sobre o tabaco e a saúde é uma evidência de que o tabagismo provoca alterações na saúde.
Uma estimativa do efeito do tabagismo sobre a saúde podem ser feita também fazendo uso da
correlação entre os impostos e os hábitos de fumar.
4.1.4 Erros de Mensuração
O problema de erros de mensuração em estudos práticos é bastante comum. Porém,

dependendo da natureza do problema pode trazer consequências nefastas a estimação via
MQO.
Exemplo 4.2. Para explicar o rendimento de um aluno da UFRGS, podemos estar interes-
sados em usar como variáveis explicativas (dentre outras): renda familiar, número de horas
dedicadas ao estudo, tempo necessário para o trajeto casa-UFRGS, etc. Todas essas variáveis
estão sujeitas a erros de mensuração, pois os alunos podem errar (deliberadamente ou não)
ao responder à pesquisa. Se os erros forem puramente aleatórios, isto é, não estiverem corre-
lacionados com outras variáveis relevantes, as hipóteses do modelo acima serão satisfeitas.
Exemplo 4.3. A Meta-análise é uma técnica que visa agregar a informação contida em várias
fontes. Em áreas como música, cinema e televisão são muito comuns os sites que apresentam
resumos das crı́ticas de um determinado álbum/filme/série em uma única avaliação agre-
gada. Exemplos são os sites Rotten Tomatoes, Metacritic, Allmusic, dentre muitos outros.
A idéia estatı́stica destes sites é obter uma avaliação para um determinado assunto a partir
da análise agragada de avaliações dadas por crı́ticos, espectadores, mı́dia, blogs, sites, etc.
Cada avaliação obtida é agregada ao total, de onde uma avaliação única é calculada. Para
exemplificar vamos supor que estamos interessados na avaliação do último álbum do Metallica
(Hard Wired... to Self-Destruct, 2016). Para isso, estabelecemos uma escala a avaliação do
álbum e passamos a vasculhar a internet por informações a respeito do álbum. Vamos supor
que encontramos 20 sites com avaliações do álbum. Cada uma dessas avaliações é baseada
em diversas avaliações individuais de pessoas que visitaram o site. Por exemplo, a avaliação
final de um determinado site é dada pela média das avaliações dos visitantes do site. No final,
teremos coletado 20 avaliações de sites especializados, onde cada avaliação representa a média
dos indivı́duos que avaliaram o álbum. Desta forma os dados que coletamos não representam
a opinião de ouvintes individuais (a população neste caso), mas a média dessas opiniões,
que pode ser diferente de todas as avaliações dadas e que certamente varia de site pra site.
Esta avaliação, portanto, considerada como uma observação de indivı́duos da população, traz
consigo um erro aleatório de medição gerada pelo agregamento das informações individuais.
Considere o modelo de regressão simples:
Y = β0 + β1 X + ε, (4.4)
em que Cov(X, ε) = 0 e Var(ε) = σε2 . A princı́pio, nesse contexto a estimação por MQO
deveria gerar estimadores consistentes dos parâmetros. Vamos supor que, por algum motivo,
a variável X seja observada com um erro aleatório. Isto é, suponha que observamos na prática
observamos
X ∗ = X + e, (4.5)
onde assumimos que
E(e) = 0; Cov(X, e) = 0; Cov(e, ε) = 0; e Var(e) = σe2 > 0.
A aleatóriedade dos erros é fundamental na análise que segue. Reescrevendo o modelo (4.4)
em função da variável observada X ∗ :
Y = β0 + β1 X + ε = β0 + β1 (X ∗ − e) + ε = β0 + β1 X ∗ + ξ, (4.6)
onde ξ = ε − β1 e faz o papel de erro na regressão. Observe que os estimadores via MQO de
β0 e β1 em (4.6) são exatamanente os mesmos de (4.4), embora seja esta última regressão que
estamos efetivamente estimando dada a presença de erros aleatrórios nas observações. Agora
Cov(X ∗ , ξ) = Cov(X + e, ε − β1 e) = Cov(X, ε) − β1 Cov(X, e) + Cov(e, ε) − β1 Var(e)

= −β1 σe2 6= 0.
Em outras palavras, a estimação via MQO na presença de variáveis com erro (aleatório) de
medição resulta em estimativas inconsistentes. Observe ainda que, dada uma amostra de
tamanho n do modelo (4.4),
Pn Pn
i=1 (xi − x)yi (xi − x)εi
β̂ = Pn 2
= β + Pi=1
n 2
,
i=1 (xi − x) i=1 (xi − x)
e note que Var(X ∗ ) = Var(X) + Var(e) = σX 2 + σ 2 , de onde segue que

e
Cov(X ∗ , ε) β1 σe2 σe2

Plim(β̂1 ) = β1 + = β 1 − = β 1 1 − 6= 0.
Var(X ∗ ) 2 + σ2
σX e
2 + σ2
σX e
4.1.5 Variável Instrumental
Considere o modelo
Y = β0 + β1 X + ε, (4.7)
em que Cov(X, ε) 6= 0. Neste caso, os estimadores de MQO para β0 e β1 são viciados

e inconsistentes e o problema é obter um estimador para estes parâmetros que apresentem
propriedades melhores que o estimador de MQO. Para isso estudaremos o método de Variáveis
Instrumentais.
Suponha que temos uma variável Z satisfazendo
Cov(Z, ε) = 0 (4.8)
Cov(Z, X) 6= 0. (4.9)
Uma variável Z satisfazendo (4.8) e (4.9) é chamada de Variável Instrumental, ou ainda,

um instrumento para a variável X. Por razões que ficarão claras na prática, é desejável que
|Cor(Z, X)| seja a mais alta possı́vel.
A condição (4.9) é chamada de relevância do intrumento enquanto (4.8) é chamada de
exogeneidade do instrumento.
Uma das maiores crı́ticas em relação ao método de variáveis instrumentais é que a condição
(4.8) não pode ser testada diretamente, pois o erro é não-observável. Desta forma, para
justificarmos a validade da condição (4.8) precisamos recorrer à introspecção econômica e/ou
argumentos filosóficos. A condição (4.9), porém, pode ser testada indiretamente via uma
regressão de X em Z (teste de significância de qual coeficiente?) ou ainda de um teste de
hipótese direto do tipo H0 : Cor(Z, X) = 0 vs. H1 : Cor(Z, X) 6= 0
Infelizmente, é muito difı́cil encontrar instrumentos válidos para as variáveis de um deter-
minado problema. Uma das razões dessa dificuldade reside no fato de que as duas condições
requeridas de um instrumento são muitas vezes conflitantes, pois temos 3 variáveis X, Z e ε
tais que Z é correlacionado com X que por sua vez é correlacionado com ε, mas Z não pode
ser correlacionado com ε.
Exemplo 4.4. Estimação de equação de salário em função da educação
Variável omitida: “aptidão” do indivı́duo - torna viesado e inconsistente o coeficiente da

educação.
Possı́vel instrumento: educação da mãe (correlacionada com a educação do indivı́duo).
Mas, educação da mãe também deve ser correlacionada com a habilidade do indivı́duo, pre-
sente no erro? Nesse caso, não seria um bom instrumento.
Um possı́vel instrumento seria o número de irmãos - não correlacionado com aptid
- correlacionado com educ (negativamente).
4.1.6 Diferença entre Proxy e VI
A variável proxy é caracterizada por:
1. não ser correlacionada com o termo de erro do modelo;
2. correlacionada com a variável não observada.

A variável instrumental é caracterizada por
1. não ser correlacionada com o termo de erro do modelo, ou seja, não correlacionada com
aptid no exemplo 4.4;
2. correlacionada com a variável endógena, ou seja, no caso do exemplo 4.4, ela deve ser
correlacionada com educ.
No exemplo 4.4 uma boa proxy seria:

(
correlacionada com aptid;
QI=
não correlacionada com o erro,
e um bom instrumento é o número de irmãos (nir), como visto anteriormente.

(
não correlacionada com aptid e, portanto, não correlacionada com o erro;
nir=
correlacionada com educação (negativamente),
4.1.7 O Método de Estimação por VI
Para descrever o método de estimação por variável instrumental, considere o seguinte

modelo:
Y = β0 + β1 X + ε. (4.10)
em que Cov(X, ε) 6= 0 e seja Z um instrumento para X. Para obtermos os estimadores de
Variável Instrumental para β0 e β1 , começamos calculando a covariância entre Z e Y como
segue:
Cov(Z, Y ) = Cov(Z, β0 + β1 X + ε) = Cov(Z, β0 ) +Cov(Z, β1 X) + Cov(Z, ε)

| {z } | {z }
=0 =0
= β1 Cov(Z, X)
de onde segue que
Cov(Z, Y )
β1 = . (4.11)
Cov(Z, X)
Dada uma amostra de tamanho n de X, Y e Z, obtemos o estimador de VI para β1 substituindo-

se as covariâncias que aparecem em (4.11) por suas versões amostrais, isto é,
Pn Pn
i=1 (zi − z̄)(yi − ȳ) zi yi − nz̄ ȳ
β̂1V I = Pn = Pni=1 .
i=1 (zi − z̄)(xi − x̄) i=1 zi xi − nz̄ x̄
Da mesma maneira como procedemos no caso de MQO, o estimador de VI para β0 é dado por
β̂0V I = Y − β̂1V I X.
Inferência com o Estimador VI
Pode-se mostrar que para n grande
σ2

β̂1V I ≈ N β1 , 2 ε 2 , (4.12)
nσX ρXZ
ou seja, para n grande a variância do estimador é dada por
Var(ε) σε2
Var(β̂1V I ) = = . (4.13)
nVar(X)Cor(X, Z) 2 nσX ρ2XZ
2
A equação (4.13) nos revela algo fundamental na escolha de um bom instrumento: quanto
maior a correlação entre o instrumento e a variável, menor é a variância do estimador de VI.
Por esta razão, devemos procurar um instrumento que tenha a mais alta correlação possı́vel
com X. Sabemos que
σ2
Var(β̂1M QO ) = ε2 , (4.14)
nσX
e desta forma obtemos que
σε2 Var(β̂1M QO )
Var(β̂1V I ) = 2 2 =
nσX ρXZ ρ2XZ
de onde concluı́mos que Var(β̂1V I ) ≥ Var(β̂1M QO ) com igualdade ocorrendo se, e somente se,
|Cor(X, Z)| = 1. Ou seja, a menos que Z seja um instrumento perfeito para X (o que não
ocorre na prática), o estimador de MQO sempre possui menor variância que o estimador de
VI.
O viés assintótico de VI e MQO pode ser estudado usando os respectivos limites de pro-
babilidade, que são:
Cor(z, ε) σε
plim(β̂1V I ) = β1 + (4.15)
Cor(X, Z) σX
e
σε
plim(β̂1M QO ) = β1 + Cor(X, ε) . (4.16)
σX
Teste de Hipóteses neste Caso
Consideremos o seguinte problema
log(salário) = β0 + β1 educ + u, (4.17)

em que Cov(educ, u) 6= 0. Seja o número de irmãos, (nir) um instrumento. Queremos testar
a significância de β̂1V I . Os passos para esse teste são:
1. Obter Pn
(niri − nir)(yi − y)
β̂1V I = Pni=1 ;
i=1 (niri − nir)(xi − x)
2. Obter Pn 2
2 i=1 ûiV I
σ̂ = ,
n−2
em que ûVi I = yi − β̂0V I − β̂1V I educ;
2
3. Obter Reduc,nir , que é o R2 de
educ = α0 + α1 nir + v;
4. Obter a estimativa do desvio padrão

s
σ̂ 2
S(β̂1V I ) = Pn 2 2
;
i=1 (xi − x) Reduc,nir
(
H0 : β1V I = 0;
5. Teste:
H1 : β1V I 6= 0.
Um exemplo para ver a diferença entre as estimativas obtidas pelos dois métodos de
estimação (MQO e VI), é o exemplo abaixo, reproduzido com pequenas adaptações do exemplo
15.1 do Wooldridge.
Exemplo 4.5. Utilizamos os dados sobre mulheres casadas que trabalham contidos no arquivo
MROZ.RAW para estimar o retorno da educação no modelo de regressão simples
Y = β0 + β1 X + ε,
onde Y é o logaritmo do salário das mulheres casadas por hora e X representa a educação.
Para comparação, obtemos a reta estimada via MQO para Y ,
Ŷ = − 0.185 + 0.109X (4.18)

(0.185) (0.014)
onde n = 428. Obtemos ainda R2 = 0.118. A estimativa de β1 implica um retorno de

perto de 11% para um ano a mais de educação. Em seguida utilizaremos a variável Z =
educação dos pais como variável instrumental para X. Primeiramente, para determinarmos
que Cov(Z, X) 6= 0, fazemos uma regressão simples de X em Z de onde obtemos a reta de
ajustada
X̂ =10.24 + 0.269Z
(0.28) (0.029)
com R2 = 0.173. A utilização de Z como uma VI para X produz
Ŷ = − 0.441 + 0.059X (4.19)

(0.446) (0.035)
com R2 = 0.093. A estimativa de VI do retorno da educação é de 5.9%, que é pouco mais

da metade da estimativa de MQO. Isso sugere que a estimativa de MQO é alta demais.
Porém devemos lembrar que como as estimativas são baseadas em dados amostrais, não temos
como saber qual está mais próximo do verdadeiro valor. Note ainda que o erro padrão da
estimativa de VI para β1 é duas vezes maior que a de MQO. O intervalo de confiança à 95%
de β1 utilizando MQO é muito mais estreito do que utilizando VI; de fato, o intervalo de
confiança da VI contém a estimativa de MQO. Portanto, embora as diferenças entre (4.18)
e (4.19) sejam grandes na prática, não podemos afirmar com certeza que as diferenças são
estatı́sticamente significantes. O fato de o intervalo de VI conter a estimativa de MQO é uma
evidência contra essa hipótese.
4.1.8 VI em Modelos de Regressão Múltipla
O estimador de VI para o modelo de regressão simples é facilmente extendido para o caso

de regressão múltipla. Consideremos inicialmente o caso em que somente um dos regressores
é endógeno. A equação estrutural do modelo linear padrão com duas variáveis explicativas é
Y1 = β0 + β1 Y2 + β2 Z + ε. (4.20)
Usamos essa notação para identificar as variáveis endógenas (Y ’s) e as variáveis exógenas
(Z’s). Um exemplo para (4.20) é
log(salario) = β0 + β1 educ + β2 exper + ε, (4.21)

em que Y1 = logaritmo do salário, Y2 = educ e Z1 = exper. Assim, estamos supondo que
exper é exógeno e, por razões habituais, presumimos que educ seja correlacionado com ε.
Se estimarmos (4.20) por MQO, todos os estimadores serão viesados e inconsistentes.
Assim, seguimos a estratégia da seção anterior para encontrar uma VI para Y2 . Como Z1
aparece como variável explicativa, devemos procurar outra variável exógena (vamos chamá-la
de Z2 ) que seja correlacionada com Y2 .
A correlação de Z2 e Y2 pode ser afetada por Z1 que aparece na regressão (4.20). Devemos
nos certificar que na presença de Z1 , Y2 e Z2 ainda são correlacionados. Essa condição pode
ser verificada a partir da regressão
Y2 = π0 + π1 Z1 + π2 Z2 + , (4.22)
em que E() = 0, Cov(Z1 , ) = 0, Cov(Z2 , ) = 0 e os πj são parâmetros desconhecidos. A
condição de identificação fundamental é que
π2 6= 0,
a qual pode ser testada usando-se um teste t.
Observação 4.1.1. A equação (4.22) é um exemplo de uma equação na forma reduzida,

significando que escrevemos uma variável endógena em função de exógenas. O nome ajuda a
distingui-lá da equação estrutural (4.20).
A adição de mais variáveis explicativas exógenas ao modelo é direta. O modelo estrutural

com k − 1 variáveis exógenas (Z1 , Z2 , . . . , Zk−1 ) e uma variável endógena (Y2 ) é
Y1 = β0 + β1 Y2 + β2 Z1 + β3 Z2 + . . . + βk Zk−1 + ε. (4.23)
Se Zk é uma variável exógena e queremos usá-la como uma VI para Y2 , devemos proceder de
forma semelhante a (4.22), escrevendo a equação na forma reduzida
Y2 = π0 + π1 Z1 + π2 Z2 + · · · + πk−1 Zk−1 + πk Zk + v2 , (4.24)

para a qual é necessário que exista alguma correlação parcial entre Zk e Y2 :
πk 6= 0.
4.1.9 O Estimador VI como Mı́nimos Quadrados em Dois Estágios (MQ2E)
Nesta subseção vamos mostrar a equivalência do estimador VI com MQ2E. Para isso
consideremos a equação estrutural com uma variável endógena
Y = β0 + β1 X + ε, (4.25)
em que Cov(X, ε) 6= 0. Seja Z um instrumento para X.
O procedimento MQ2E consiste em:
1. Estimar a equação reduzida

X = α0 + α1 Z + , (4.26)
encontrando as estimativas de α0 e α1 via MQO.
2. Obter a reta ajustada

x̂i = α̂0 + α̂1 zi .
3. Estimar β0 e β1 via MQO no seguinte modelo:
yi = β0 + β1 x̂i + ηi , (4.27)
para i = 1, . . . , n, ou seja, usar X̂ como uma VI para X.
Esse procedimento resulta em uma estimativa para β1 equivalente a β̂1V I , como será
demonstrado a seguir.
Note que:
x̂i = α̂0 + α̂1 zi

= x − α̂1 z + α̂1 zi
= x + α̂1 (zi − z).
De (4.27), segue que Pn

(x̂i − x̂)(yi − y)
βˆ1 = i=1
Pn 2
.
i=1 (x̂i − x̂)
Pode-se mostrar facilmente que x̂ = x. Logo,

Pn
α̂ (z − z)(yi − y)
ˆ
β1 = Pn 1 i
i=1
(α̂1 (zi − z))2
Pni=1
(z − z)(yi − y)
= α̂1 i=1 2
Pni
α̂1 i=1 (zi − z)2
Pn
i=1 (zi − z)(yi − y)
= Pn (z −z)(x
i −x)
i
Pn 2
i=1 (zi − z)
i=1
Pn
(z −z)2
i=1 i
Pn
(zi − z)(yi − y)
= Pni=1
i=1 (zi − z)(xi − x)
= β̂1V I .
Quando existir mais de uma VI disponı́vel, digamos Z1 , Z2 Z3 , qualquer combinação linear

destas VI’s também será uma VI válida. Devemos escolher a combinação linear com a mais
alta correlação com a variável endógena Y2 . Isto acaba sendo fornecido pela equação na forma
reduzida de Y2 , que é dada por
Y2 = π0 + π1 Z1 + π2 Z2 + π3 Z3 + , (4.28)
em que E() = 0, Cov(Z1 , ) = 0, Cov(Z2 , ) = 0 e Cov(Z3 , ) = 0. Portanto, a melhor VI de
Y2 é a combinação linear dos Zj , que denotaremos por
Y2∗ = π0 + π1 Z1 + π2 Z2 + π3 Z3 . (4.29)
Para que esta VI não seja perfeitamente correlacionada com Z1 , precisamos que
π2 6= 0 ou π3 6= 0. (4.30)
Se essa hipótese de identificação, a qual pode ser testada usando-se um teste F , for satisfeita,
então podemos usar Y2∗ como VI para Y2 .
Observação 4.1.2. Quando o problema é a existência de variáveis explicativas endógenas
múltiplas, será necessária que existam pelo menos tantas variáveis exógenas excluı́das do
modelo quantas forem as endógenas incluı́das.
Observação 4.1.3. Se para cada endógena existe uma única exógena, então podemos chamar
o método de estimação de VI ou MQ2E.

Observação 4.1.4. Os testes de hipóteses múltiplas em um modelo estimado por MQ2E
devem ser feitos com bastante cuidado. É possı́vel que na estimação por VI ou MQ2E o
R2 seja negativo. Isso influencia diretamente a estatı́stica F e consequentemente qualquer
conclusão a respeito das hipóteses.
4.1.10 Testes de Endogeneidade
Como visto anteriormente, a condição (4.8) não pode ser testada, logo não podemos ter
certeza se os regressores (variáveis explicativas) estão ou não correlacionados com o erro. Se
não houver correlação, é melhor utilizar mı́nimos quadrados ordinários que o estimador de
variáveis instrumentais ou MQ2E. No entanto, pela estimação pura e simples é impossı́vel
descobrir se há correlação entre os regressores e o erro.
Teste de Hausmann
O teste de especificação proposto por Hausmann em 1978 é um teste utilizado para avaliar a
consistência de um estimador comparado a um outro estimador alternativo e pode ser utilizado
no contexto de endogeneidade.
A lógica de Hausmann é a seguinte: sob a hipótese nula (ausência de correlação entre os
regressores e o termo de erro), o econometrista tem em mãos dois estimadores consistentes para
a matriz de parâmetros: o estimador de mı́nimos quadrados ordinários β̂M QO e o estimador de
variáveis instrumentais β̂V I . Sob a hipótese alternativa, no entanto, somente um destes, β̂V I ,
é consistente. Portanto, a sugestão foi examinar a diferença d = β̂V I − β̂M QO . O resultado
desta diferença converge em probabilidade para zero apenas sob a hipótese nula. Podemos
testar esta hipótese usando o teste de Wald.
Teste de Regressão
Para ilustrar, suponha que temos uma única variável suspeita de ser endógena,
Y1 = β0 + β1 Y2 + β2 Z1 + β3 Z2 + ε, (4.31)
em que Z1 e Z2 são exógenos. Temos duas outras variáveis exógenas, Z3 e Z4 , que não
aparecem no modelo (4.31). Se y2 for não correlacionado com ε, devemos estimar (4.31) por
MQO. Wooldridge 2011 sugere que é mais fácil usar um teste de regressão para testar se Y2
é endógena. Isto é feito com base na estimação da forma reduzida de Y2 , que neste caso é
Y2 = π0 + π1 Z1 + π2 Z2 + π3 Z3 + π4 Z4 + . (4.32)
Agora, como cada Zj é não correlacionado com ε, Y2 será não correlacionado com ε se, e
somente se, for correlacionado com ε; isso é o que queremos testar. Deverı́amos escrever o
modelo
ε = δ1 + η1 (4.33)
e testar se δ1 = 0. No entanto, não temos ε nem . A sugestão é usar ˆ2 como um regressor
em (4.31).
O método pode ser resumido da seguinte forma:
1. Obter via MQO os resı́duos
ˆ = Y2 − π̂0 + π̂1 Z1 + π̂2 Z2 + π̂3 Z3 + π̂4 Z4 ;
2. Estimar via MQO a regressão
Y1 = β0 + β1 Y2 + β2 Z1 + β3 Z2 + δ1 Ŷ2 + e;
3. Testar H0 : δ1 = 0 via teste t (robusto a heterocedasticidade). Se rejeitamos H0 a

um pequeno nı́vel de significância, concluı́mos que Y2 é endógeno porque e ε são
correlacionados.
4.2 Exercı́cios
Exercı́cio 4.1. Qual a motivação para o uso da estimação por variáveis instrumentais? Como
se pode definir um bom instrumento?
Exercı́cio 4.2. O que são variáveis endógenas e exógenas?
Exercı́cio 4.3. Quais são as caracterı́sticas de uma boa variável proxy e um bom instrumento?
Exercı́cio 4.4. Seja X a matriz cujas colunas são compostas pelas variáveis x1 , . . . , xk . As
condições E[u/X] = 0 e Cov(u, xj ) = 0, para todo j = 1, . . . , k, são equivalentes? Explique o
que estas condições significam na prática.
Exercı́cio 4.5. Dê um exemplo em que a condição E[u/X] não é válida.
Exercı́cio 4.6. Quais as propriedades do estimador de variáveis instrumentais quando se

possui uma variável instrumental fraca (fraco instrumento)?
Exercı́cio 4.7. Qual a diferença da estimação de variáveis instrumentais para a estimação

de mı́nimos quadrados em dois estágios? Explique e mostre as hipóteses de identificação
necessárias.
Exercı́cio 4.8. Em um modelo com duas variáveis regressoras,
y = β0 + β1 x1 + β2 x2 + u,
em que Cov(x1 , x2 ) 6= 0, as estimativas dos parâmetros β1 e β2 obtidas via MQO serão

viesadas?
Exercı́cio 4.9. Suponha que você queira estimar o efeito da frequência às aulas sobre o
desempenho dos alunos (respad - resultado padronizado em um exame final). Um modelo
básico é
respad = β0 + β1 taxaf req + β2 prsGP A + β3 ACT + u,
em que taxafreq é a taxa de frequência, prsGP A é a média geral das notas em curso superior
no último semestre.
a) Defina dist como a distância da residência do aluno até o local de estudos. Você considera
que dist é não correlacionada com u?
b) Suponha que dist e u não sejam correlacionadas, que outra hipótese dist terá que satisfazer
para ser uma VI válida de taxaf req?
c) Suponha que adicionemos o termo de interação prsGP A.taxaf req
respad = β0 + β1 taxaf req + β2 prsGP A + β3 ACT + β4 prsGP A.taxaf req + u.
Se taxaf req for correlacionada com u, então em geral, prsGP A.taxaf req também será.
O que poderia ser uma boa VI para prsGP A.taxaf req?
Exercı́cio 4.10. Em um modelo com duas variáveis regressoras,
y = β0 + β1 x1 + β2 x2 + u,
em que x2 é endógena, a estimativa do parâmetro β1 obtida via MQO é viesada mesmo que
Cov(x1 , x2 ) = 0?
Exercı́cio 4.11. No modelo

y = β0 + β1 x1 + β2 x2 + u,
a omissão de uma variável explicativa relevante x2 , para explicar a variável dependente y
torna a estimativa dos coeficientes β0 e β1 obtidas via MQO viesadas?
Exercı́cio 4.12. Experimento de Monte Carlo. Este exercı́cio relata um experimento de

Monte Carlo que investiga o desempenho dos métodos MQO e IV ao estimar a equação de
inflação dos preços no modelo de inflação de preços/inflação do salário. Valores numéricos

foram atribuı́dos aos parâmetros das equações da seguinte forma:
p = 1.5 + 0.5w + up (4.34)
w = 2.5 + 0.5p − 0.4U + uw ,

em que para U foi atribuı́do os valores 2, 2.25, 2.50, · · · aumentando em passos de 0.25 até
6.75. uw foi gerado como uma variável aleatória normal com média 0 e variância unitária,
escalado por um fator 0.8. O termo distúrbio uw foi gerado de forma independente, como uma
variável aleatória normal com média 0 e variância unitária. Cada repetição do experimento
utilizou uma amostra de 20 observações. A tabela a seguir mostra as estimativas via MQO
e VI do intercepto, b1 , e do coeficiente de w, b2 , da equação (4.34), e os respectivos erros
padrões (e.p.).
MQO VI
Sample b1 e.p.(b1 ) b2 e.p.(b2 ) b1 e.p.(b1 ) b2 e.p.(b2 )
1 0.36 0.39 1.11 0.22 2.33 0.97 0.16 0.45
2 0.45 0.38 1.06 0.17 1.53 0.57 0.53 0.26
3 0.65 0.27 0.94 0.12 1.13 0.32 0.70 0.15
4 0.41 0.39 0.98 0.19 1.55 0.59 0.37 0.30
5 0.92 0.46 0.77 0.22 2.31 0.71 0.06 0.35
6 0.26 0.35 1.09 0.16 1.24 0.52 0.59 0.25
7 0.31 0.39 1.00 0.19 1.52 0.62 0.33 0.32
8 1.06 0.38 0.82 0.16 1.95 0.51 0.41 0.22
9 -0.08 0.36 1.16 0.18 1.11 0.62 0.45 0.33
10 1.12 0.43 0.69 0.20 2.26 0.61 0.13 0.29
Compare as estimativas via MQO e VI em termos de vı́cio e variância.
Exercı́cio 4.13. (ANPEC 2008)Suponha que o modelo abaixo descreva as relações entre
quatro variáveis aleatórias escalares: y,X,Z, e V .
E(y/X, Z) = β0 + β1 X + β2 Z
X = α0 + α1 Z + v, E(v/Z, X) = E(v/Z) = E(v/X) = E(v) = 0.

Suponha, ainda, que β0 6= 0, β1 6= 0, β2 6= 0, α0 6= 0 e α1 6= 0.
(a) Calcule E(y/Z).

(b) Seja y = β0 + β1 X + β2 Z + u. Calcule E(u/X, Z).
(c) Calcule E(X/Z).
(d) Seja
y = θ0 + θ1 Z + ε
em que θ0 = β0 + β1 α0 e θ1 = β1 α1 + β2 . Calcule E(ε/Z).
(e) Considere uma amostra de tamanho n das variáveis y, X e Z. O estimador

P
nyi (zi − z)
T = Pi=1 2
i=1 n(zi − z)
é um estimador não tendencioso para θ1 = β1 α1 + β2 ?
Exercı́cio 4.14. Mostre que o R2 da estimativa via VI pode ser negativo.
Exercı́cio 4.15. Suponha que o modelo
y = β0 + β1 x + u,
em que x é endógena e z é um instrumento para x. Para comparar a variância de VI com

MQO suponha que σx = σu , ou seja, a variação populacional contida no termo de erro seja a
mesma contida em x. Suponha que a variável instrumental z seja levemente correlacionada
com u, Corr(z, u) = 0, 1. Suponha também que z e x tenha uma correlação um pouco maior:
Corr(z, x) = 0, 2.
(a) Qual será o viés assintótico no estimador de VI?
(b) Quanta correlação deverá existir entre x e u antes que o MQO tenha mais viés assintótico
que o MQ2E?
Capı́tulo 5
Equações Simultâneas
Outra forma importante de endogeneidade de variáveis explicativas é a simultaneidade.

Ela ocorre quando uma ou mais das variáveis explicativas são determinadas conjuntamente
com a variável dependente, em geral por meio de um mecanismo de equilibrio (como veremos a
seguir). Um exemplo pode ser encontrado em Macedo e Carvalho (2010) em que o aumento da
penetração do serviço de acesso à internet em banda larga e seu possı́vel impacto econômico
é analisado através de sistema de equações simultâneas de oferta e demanda. O objetivo
principal deste capı́tulo é estudar modelos simples de equações simultâneas e alguns métodos
de estimação dos coeficientes presentes em modelos de equações simultâneas.
5.1 Equações de Oferta e Demanda
Um exemplo de simultaneidade é a equação de oferta e demanda. No modelo de oferta

e demanda (de um determinado produto) encontramos duas variáveis endógenas, o preço Pt
e as quantidades Qt , que são simultaneamente determinadas pela interação entre a oferta
e a demanda. Assim, a equação de oferta, a equação de demanda a condição de equilibrio
determinam o preço do mercado e a quantidade de oferta (demanda) quando o mercado está
em equilı́brio.
5.1.1 Exemplos de Equações de Oferta e Demanda
Exemplo 5.1. Modelo de oferta e demanda
Demanda: Qdt = α0 + α1 Pt + α2 Rt + ut
Oferta: Qst = β0 + β1 Pt + vt
Equilı́brio: Qdt = Qst .
Nesse modelo encontramos duas variáveis endógenas, o preço Pt e as quantidades Qt , que

são simultaneamente determinadas pela interação entre a oferta e a procura. A variável Yt
(rendimento) é a única variável predeterminada (exógena).
123
124 CAPÍTULO 5. EQUAÇÕES SIMULTÂNEAS
Exemplo 5.2. Modelo Keynesiano de equilı́brio macroeconômico
Função de Consumo: Ct = α0 + α1 Yt + α2 Ct−1 + εt

Função de Investimento: It = β0 + β1 Rt + β2 (Yt − Yt−1 ) + ξt
Condição de Equilı́brio: Yt = Ct + It + Gt .
onde Ct , It , Yt e Rt denotam o consumo, investimento, renda e a taxa de juros no tempo t,

respectivamente. A primeira função modela o consumo de forma autoregressiva, baseado na
renda governamental.
No modelo Keynesiano encontramos três variáveis endógenas: o consumo Ct , o investi-
mento It e o rendimento Yt , que são simultaneamente determinadas. As variáveis Ct−1 , Yt−1
e Gt (gastos públicos) são as predeterminadas.
No modelo Keynesiano, a função do consumo possui um termo autoregressivo
Exemplo 5.3. Modelo de Phillips
Função de Crescimento dos Salários: Wt = α0 + α1 Ut + α2 Pt + εt

Função de Crescimento dos Preços: Pt = β0 + β1 Wt + β2 It + β3 Mt + ξt .
No modelo de Phillips encontramos duas variáveis endógenas: a taxa de crescimento dos

salários nominais Wt e a taxa de crescimento dos preços internos Pt , que são simultanea-
mente determinadas. As variáveis Ut , (taxa de desemprego), It (taxa de juro) e Mt (taxa de
crescimento dos preços de bens importados) são as exógenas.
Nos sistemas de equações simultâneas distinguimos os seguintes tipos de variáveis:
• as variáveis endógenas, cujos valores são determinados dentro do sistema;

• as variáveis predeterminadas, cujos valores são determinados fora do sistema.
As variáveis predeterminadas podem ser:
• variáveis exógenas;
• variáveis defasadas;
• Constantes;
Considere o seguinte modelo para a oferta e demanda para uma commodity em função do
preço e do rendimento:
Demanda: Qdt = α0 + α1 Pt + α2 Rt + εt
Oferta: Qst = β0 + β1 Pt + ξt (5.1)
Equilı́brio: Qdt = Qst .
onde, no tempo t, Pt denota o preço da commodity, Qdt e Qst denotam a quantidade deman-
dada e ofertada da commodity, e Rt é uma variável exógena relacionada ao rendimento da
5.1. EQUAÇÕES DE OFERTA E DEMANDA 125
população. Assumimos que Cov(εt , ξt ) = 0, Cov(Rt , εt ) = 0, Cov(Rt , ξt ) = 0 E(εt ) = 0,

E(ξt ) = 0, 0 < Var(εt ) = σε2 < ∞ e 0 < Var(ξt ) = σξ2 < ∞. Utilizando a condição de
equilı́brio, e assumindo que β1 6= α1 temos
α0 + α1 Pt + α2 Rt + εt = β0 + β1 Pt + ξt
⇐⇒ (α1 − β1 )Pt = β0 − α0 + α2 Rt + ξt − εt
β0 − α0 α2 ξ t − εt
⇐⇒ Pt = + Rt + = π0 + π1 Rt + ηt .
α1 − β1 α1 − β1 α1 − β1
| {z } | {z } | {z }
=π0 =π1 =ηt
Observe que se β1 = α1 então Rt obrigatoriamente seria não-correlacionada com Qdt , sendo

um termo desnecessário na equação da demanda. Substituindo a expressão obtida para Pt na
equação da oferta e aplicando a condição de equilı́brio Qdt = Qst := Qt
Qt = β0 + β1 (π0 + π1 Rt + ηt ) + ξt = β0 + β1 π0 + β1 π1 Rt + β1 ηt + ηt = θ0 + θ1 Rt + ζt
onde

β0 − α0 α1 β0 − α0 β1
θ 0 = β0 + β1 π0 = β0 + β1 =
α1 − β 1 α1 − β1
β1 (β0 − α0 ) β1 (ξt − εt ) α 1 ξ t − β 1 εt
θ1 = β 1 π 1 = e ζt = + ξt = .
α1 − β1 α1 − β1 α1 − β1
As equações Pt = π0 + π1 Rt + ηt e Qt = θ0 + θ1 Rt + ζt com os coeficientes dados acima são
chamadas de equações na forma reduzida de Pt e Qt . Segue que
Cov(Pt , εt ) = Cov(π0 + π1 Rt + ηt , εt ) = 0 + π1 Cov(Rt , εt ) + Cov(ηt , εt )

1
= Cov(ξt , εt ) − Cov(εt , εt )
α1 − β1
1
=− σ 2 < 0.
α1 − β1 ε
Em outras palavras, a variável explicativa Pt e o termo de erro εt são correlacionados. Ana-
logamente obtemos
1
Cov(Pt , ξt ) = σ 2 > 0. (5.2)
α1 − β1 ξ
Observação 5.1.1. Como α1 < 0 e β1 > 0, temos que o preço Pt é positivamente correlaci-
onado com ξt , ou seja, com deslocamentos na demanda.
Já vimos que não podemos estimar o modelo via MQO. Temos uma segunda questão: Se
regredirmos Qt em Pt , estaremos captando a reta estimada de oferta ou de demanda?
5.1.2 Mı́nimos Quadráticos Indiretos (MQI)
Podemos nos deparar com situações mais complexas, como por exemplo despesas e pou-
pança familiares. Suponhamos que, para uma famı́lia escolhida aleatoriamente na população,
presumimos que os gastos e poupança familiares anuais sejam conjuntamente determinados
por
gastof = α1 poupf + β0 + β1 renda + β2 educ + β3 idade + u,

poupf = π1 gastof + θ0 + θ1 renda + θ2 educ + θ3 idade + v,
onde renda é a renda anual e educ e idade são indicadas em anos e são variáveis exógenas.
Essa suposição, baseada na maximização da utilidade, é bem razoável indicando que poupf
e gastof são cada uma função da renda, educação, idade e outras variáveis que afetem o
problema da maximização da utilidade, tais como as diferentes taxas de retorno sobre gastos
familiares e outras poupanças.
Para motivarmos o método MQI vamos considerar o seguinte sistema de equações si-
multâneas que serve como modelo para a oferta e demanda de uma commodity agrı́cola em
função do preço, rendimento populacional e condições climáticas de produção
Demanda: Qdt = α0 + α1 Pt + α2 Rt + εt ;
Oferta: Qst = β0 + β1 Pt + β2 Ct + ξt ; (5.3)
Equilı́brio: Qdt = Qst = Qt ,
onde Qdt , Qst e Pt são endógenas, Ct e Rt são exógenas (condições climáticas e rendimento)
e εt e ξt denotam os respectivos erros não correlacionados entre si e nem com as variáveis
exógenas.
Procedendo como anteriormente, a condição de equilı́brio implica
α0 + α1 Pt + α2 Rt + ε = β0 + β1 Pt + β2 Ct + ξt
β0 − α0 β2 α2 ξ−ε
⇐⇒ Pt = + Ct − Rt + = π0 + π1 Ct + π2 Rt + ηt ,
α1 − β1 α1 − β1 α1 − β 1 α1 − β1
onde
β 0 − α0 β2 α2 ξ t − εt
π0 = , π1 = , π2 = − , e ηt = .
α1 − β1 α1 − β 1 α1 − β 1 α1 − β 1
Substituido na equação da oferta obtemos
Qt = β0 + β1 (π0 + π1 Ct + π2 Rt + η) + β2 Ct + ξt ;
= β0 + β1 π0 + (β1 π1 + β2 )Ct + β1 π2 Rt + β1 ηt + ξt ;
= θ0 + θ1 Ct + θ2 Rt + ζt ,
onde

β0 − α0 α1 β 0 − α0 β 1
θ0 = β0 + β1 π0 = β0 + β1 = ;
α1 − β1 α1 − β 1

β2 α1 β2
θ1 = β1 π1 + β2 = β1 + β2 = ;
α1 − β1 α1 − β 1

α2 β1 ξ t − εt α 1 ξ t − β 1 εt
θ2 = − ; e ζt = β 1 η t + ξt = β 1 + ξt = .
α1 − β 1 α1 − β 1 α1 − β 1
Com isso, obtemos o sistema de equações na forma reduzida
Pt = π0 + π1 Ct + π2 Rt + ηt , (5.4)
Qt = θ0 + θ1 Ct + θ2 Rt + ζt .
Observe que Rt e Ct são exógenas e, portanto, podemos estimar as equações via MQO e obter
estimativas consistentes.
Note também que temos seis parâmetros estruturais em (5.3) e seis parâmetros nas
equações reduzidas (5.4). Após a estimação teremos um sistema com seis equações e seis
incógnitas. Assim, é possı́vel estimar, consistentemente, os parâmetros estruturais mas de
forma indireta. Esse procedimento é chamado mı́nimos quadrados indiretos (MQI). Primei-
ramente formamos o sistema de 6 equações e 6 incógnitas obtidas a partir das equações na
forma reduzidas:
β0 − α0 β2 α2
π0 = , π1 = , π2 = − ,
α1 − β1 α1 − β1 α1 − β 1
α1 β0 − α0 β1 α1 β 2 α2 β1
θ0 = , θ1 = , θ2 = − .
α1 − β1 α1 − β1 α1 − β 1
O objetivo é obter a solução deste sistema em função dos πj ’s e θj ’s. Note que
θ1 θ2
θ1 = α1 π1 ⇐⇒ α1 = e θ2 = β1 π2 ⇐⇒ β1 =
π1 π2
subtituindo estes dois resultados sobre α1 e β1 nas equações de π1 e π2 obtemos

θ1 θ2 θ2 θ1
β2 = π1 (α1 − β1 ) = π1 − e α2 = −π2 (α1 − β1 ) = π2 − .
π1 π2 π2 π1
Agora, isolando β0 na expressão para π0 obtemos β0 = π0 (α1 − β1 ) + α0 que substituindo na

expressão para θ0 resulta
θ0 (α1 − β1 ) = α1 β0 − α0 β1 = α1 [π0 (α1 − β1 ) + α0 ] − α0 β1 = α1 π0 (α1 − β1 ) + (α1 − β1 )α0

π 0 θ1
⇐⇒ θ0 = α1 π0 + α0 ⇐⇒ α0 = θ0 − .
π1
Finalmente, substituindo as expressões obtidas na expressão para β0 obtemos

θ1 θ2 π 0 θ1 π0 θ2
β0 = π0 (α1 − β1 ) + α0 = π0 − + θ0 − = θ0 − .
π1 π2 π1 π2
Desta forma a solução do sistema é dada por

π0 θ2 θ2 θ1 θ2
β0 = θ 0 − , β1 = , β2 = π1 −
π2 π2 π1 π2

π0 θ1 θ1 θ2 θ1
α0 = θ 0 − , α1 = e α2 = π 2 − (5.5)
π1 π1 π2 π1
Sejam agora π̂0 , π̂1 , π̂2 , θ̂0 , θ̂1 , θ̂2 os estimadores de MQO obtidos a partir de (5.4). Os estima-
dores de MQI para α0 , α1 α2 , β1 , β2 , β3 são obtidos substituindo-se as respectivas estimativas
π̂i e θ̂i nas soluções (5.5). As estimativas para α0 , α1 α2 , β1 , β2 , β3 assim obtidas são chamadas
de estimativas por Mı́nimos Quadráticos Indiretos.
Exemplo 5.4. Considere o modelo para a oferta e demanda em função do preço e de uma
variável exógena Rt
(demanda) Qdt = α0 + α1 Pt + α2 Rt + εt ;
(oferta) Qst = β0 + β1 Pt + ξt , (5.6)
(equilı́brio) Qst = Qdt = Qt ,
onde εt e ξt são erros aleatórios satisfazendo E(εt ) = E(ξt ) = 0, Cov(εt , ξt ) = 0, Cov(εt , Rt ) =

Cov(ξt , Rt ) = 0, i = 1, 2. A forma reduzida do sistema é facilmente obtida resultando
α0 − β0 α2 ε t − ξt
Pt = + Rt +
β1 − α1 β1 − α1 β1 − α1
α0 β1 − β0 α1 α2 β 1 β1 εt − α1 ξt
Qt = + Rt + ,
β1 − α1 β1 − α1 β 1 − α1
que pode ser reescrita como
Pt = θ0 + θ1 Rt + ηt
Qt = γ0 + γ1 Rt + ζt .
Como ηt e ζt são funções de εt e ξt , estas não são correlacionadas com Rt , sendo possı́vel
obter estimadores consistentes via MQO. Observe, porém, que após obtermos as estimativas de
MQO teremos 5 parâmetros estruturais e 4 equações (parâmetros na forma reduzida). Assim,
não é possı́vel estimar todos os parâmetros estruturais. Mas é possı́vel obter as estimativas
dos parâmetros estruturais da equação de oferta. De fato, temos que resolver o sistema
α0 − β 0 α2 α0 β 1 − α1 β 0 α2 β 1
θ0 = , θ1 = , γ0 = , γ1 = . (5.7)
β1 − α1 β1 − α1 β 1 − α1 β1 − α1
Substituindo a expressão para θ1 em γ1 em (5.7) obtemos

γ1
γ 1 = θ1 β 1 ⇐⇒ β1 = .
θ1
Isolando α0 na equação de θ0 , obtemos α0 = β0 + (β1 − α1 )θ0 que quando substituido na
expressão de γ0 resulta

(β1 − α1 )γ0 = α0 β1 − α1 β0 = β1 (β1 − α1 )θ0 + β0 − α1 β0
= β1 θ0 (β1 − α1 ) + β0 (β1 − α1 )
γ 1 θ0
⇐⇒ γ0 = β1 θ0 + β0 ⇐⇒ β 0 = γ 0 − β 1 θ0 = γ 0 − .
θ1
Denotando por γ̂i e θ̂i as estimativas de MQO obtidas das equações reduzidas, para i = 0, 1,
as estimativas de MQI para β0 e β1 são dadas por
γ̂1 θ̂0 γ̂1

β̂0 = γ̂0 − e β̂1 = .
θ̂1 θ̂1
Dizemos, neste caso, que a equação de oferta é identificada, mas a equação de demanda não
é identificada.
Como mostrou o exemplo 5.4, nem sempre temos o mesmo números de parâmetros estru-
turais e incógnitas nas equações estruturais, e assim nem sempre poderemos utilizar o MQI
para estimar todos os parâmetros da equação estrutural. Então, antes de proceder com a
estimação via MQI, temos que primeiramente resolver o problema da identificação.
5.1.3 O Problema da Identificação
O problema pode ser descrito como sendo a possibilidade de estimar os parâmetros estru-
turais a partir dos coeficientes estimados na forma reduzida. Uma equação pode ser



 Não identificada (ou subidentificada)


(
 Exatamente Identificada
Identificada −→



Sobredentificada (ou super identificada)
No sistema de equações estruturais (5.3), as equações para a oferta e demanda são am-
bas exatamente identificadas. No exemplo 5.4, a equação da demanda é não identificada e a
equação da oferta é exatamente identificada. Para exemplificar o caso em que há sobreiden-
tificação, considere o modelo
(demanda) Qdt = α0 + α1 Pt + α2 Yt + α3 Wt + εt ;
(oferta) Qst = β0 + β1 Pt + β2 Rt + ξt ,
em que Yt , Wt e Rt denotam variáveis exógenas não correlacionadas com os erros εt e ξt e

Cov(εt , ξt ) = 0. A forma reduzida é facilmente obtida resultando
Pt = γ0 + γ1 Yt + γ2 Rt + γ3 Wt + ηt
Qt = θ0 + θ1 Yt + θ2 Rt + θ3 Wt + ζt .
Neste caso temos sete parâmetros estruturais e oito equações. Assim, com mais equações do
que incógnitas é possı́vel encontrar mais de uma solução, ou seja, mais do que uma estimativa
para cada parâmetro estrutural.
5.1.4 Condição de Ordem para Identificação
Nas subseções anteriores estudamos casos em que é necessário um prévio conhecimento

do estado das equações antes que se aplique qualquer método de estimação. A condição de
ordem é uma condição necessária para que exista a possibilidade de estimação. A condição
determina que o número de variáveis exógenas excluı́das em que a equação deve ser pelo
menos tão grande quanto o número de variáveis endógenas incluı́das, menos um.
Podemos escrever a condição de ordem da seguinte forma:
• m: endógenas incluı́das na equação;
• K: exógenas incluı́das no sistema;
• η: exógenas incluı́das na equação.
Para que uma equação seja identificada é necessário que:
K − η ≥ m − 1. (5.8)
A igualdade deve ser satisfeita para que o sistema seja exatamente identificado e a desigualdade
deve valer para que o sistema seja sobreidentificado. No caso em que existe um termo constante
na equação, esta é considerada uma variável exógena na equação. Embora as constantes sejam
possivelmente diferentes entre equações, consideraremos que estas são o coeficiente de uma
variável X0 que assume o valor constante X0 = 1 com probabilidade 1. Caso todas as equações
possuam intercepto, incluir a constante como variável exógena, ou não, não afeta o resultado.
Caso contrário, fará diferença.
Exemplo 5.5. Considere o seguinte sistema de equações simultâneas
Y1 = α0 + α1 Y2 + α2 Y3 + α3 X1 + ε1 ,
Y2 = β0 + β1 Y3 + β2 X2 + ε2 ,
Y3 = γ0 + γ1 Y1 + γ2 Y2 + γ3 X1 + ε3 .
Neste sistema as variáveis Y1 , Y2 , Y3 são endógenas enquanto X1 , X2 são exógenas. Conside-

ramos ainda uma variável X0 assumindo valor constante 1 tomada como sendo exógena para
acomodar os interceptos. Desta forma, K = 3. Agora
Equação 1 η = 2, m = 3 K − η = 1 < 2 = m − 1 não identificada

Equação 2 η = 2, m = 2 K − η = 1 = m − 1 exatamente identificada
Equação 3 η = 2, m = 3 K − η = 1 < 2 = m − 1 não identificada
Ressaltamos que a condição de ordem é somente necessária, sendo que existem casos em
que a condição de ordem é satisfeita, mas a equação é de fato não identificada. A condição de
ordem é muito difundida devido principalmente a sua simplicidade de aplicação. Uma condição
necessária e suficiente para a identificação é a chamada condição de posto. Acontece, porém,
que a condição de posto é geralmente difı́cil de verificar quando o sistema é muito grande.
5.1.5 Condição de Posto (“Rank Condition”)
Em termos simples, em um sistema de equações contendo G variáveis endógenas, uma

equação é identificada se o posto da submatriz de coeficientes construı́da a partir dos coe-
ficientes das variáveis endógenas e exógenas excluı́dos da equação analisada e incluı́dos em
alguma das demais equações do modelo for igual a G − 1.
Considere o sistema de equações simultâneas do Exemplo 5.5
Y1 = α0 + α1 Y2 + α2 Y3 + α3 X1 + ε1 ;
Y2 = β0 + β1 Y3 + β2 X2 + ε2 ;
Y3 = γ0 + γ1 Y1 + γ2 Y2 + γ3 X1 + ε3 .
Neste sistema as variáveis Y1 , Y2 , Y3 são endógenas enquanto X1 , X2 são exógenas. O sistema

pode ser reescrito isolando-se os termos de erro
ε1 = Y1 − α0 − α1 Y2 − α2 Y3 − α3 X1 ;
ε2 = Y2 − β0 − β1 Y3 − β2 X2 ; (5.9)
ε3 = Y3 − γ0 − γ1 Y1 − γ2 Y2 − γ3 X1 .
A partir do sistema (5.9) criamos uma matriz de coeficientes onde cada coluna contém os
coeficientes de cada uma das equações que aparecem no sistema:
Y1 Y2 Y3 X0 X1 X2
Equação 1 1 −α1 α2 −α0 −α3 0
Equação 2 0 1 −β1 −β0 0 −β2
Equação 3 −γ1 γ2 1 γ0 −γ3 0
onde lembramos que X0 representa a variável relativa aos interceptos em cada equação. O
próximo passo é, para cada variávela ausente na equação, formar uma submatriz com os
coeficientes de cada uma das outras equações para o respectivo coeficiente. Esta matriz é
denotada por Ai onde i indica a qual equação a submatriz pertence. Como na primeira
equação apenas a variável X2 está ausente, temos

−β2
A1 =
0
Agora seja G o número de variáveis endógenas no sistema. Para decidirmos se uma deter-
minada equação é identificada ou não, comparamos o posto da submatriz obtida com G − 1
através da seguinte regra

 <G−1 =⇒ a i-ésima equação não é identificada;
Posto(Ai ) =G−1 =⇒ a i-ésima equação é exatamente identificada;
>G−1 =⇒ a i-ésima equação é sobreidentificada.

Neste caso, temos G = 3 e como Posto(A1 ) = 1 < 2 = G − 1, segue que a primeira equação
não é identificada. Agora para a segunda equação

1 −α3
A2 = .
−γ1 −γ3
Observe que o posto de A2 pode ser 1 ou 2 dependendo se γ3 = −α3 γ1 (neste caso a segunda
coluna é −α3 vezes a primeira coluna) ou não. Porém, a determinação da identificação
ou não de uma equação tem por objetivo decidir se os coeficientes da equação podem ser
estimados (ou não). Neste caso não sabemos exatamente qual é o valor das variáveis do
sistema, mas como pretendemos utilizar estimativas, estas variam aleatoriamente de acordo
com a amostra que utilizamos para calculá-las. Consideraremos, assim, que as estimativas dos
parâmetros são variáveis aleatórias contı́nuas de forma que a probabilidade de que γ̂3 = −α̂3 γ̂1 ,
(chapéu denota que o valor é obtido pelo estimador), ocorre com probabilidade 0. Em outras
palavras, consideramos que γ3 6= −α3 γ1 com probabilidade 1 e, portanto, Posto(A2 ) = 2 (com
probabilidade 1). Esta abordagem conduzirá a análise de todas as equações. Concluı́mos,
portanto que Posto(A2 ) = 2 = G − 1 e que a segunda equação é exatamente identificada.
Para a equação 3 temos
0
A3 = ,
−β2
de onde concluı́mos que a equação 3 também é não identificada.
Exemplo 5.6. Considere o modelo para a oferta e demanda em função do preço e de uma
variável exógena Rt do Exemplo 5.4
(demanda) Qdt = α0 + α1 Pt + α2 Rt + εt ;
(oferta) Qst = β0 + β1 Pt + ξt ,
Utilizando a condição de equilı́brio e reescrevendo o sistema em função dos erros, obtemos
εt = Qt − α0 − α1 Pt − α2 Rt ;
ξt = Qt − β0 − β1 Pt ;
Utilizando a condição de ordem, temos K = 2 e para a primeira equação temos m = 2 e η = 1,

e para a segunda equação m = 2 e η = 2, de forma que a primeira equação é exatamente
identificada e a segunda é não identificada. Utilizando o método do posto, temos G = 2 e a
matriz de coeficientes é dada por
1 −α1 −α0 0
A=
1 −β1 −β0 −β2 .
para a primeira equação A1 = [−β2 ] e Posto(A1 ) = 1 de forma que a primeira equação é exa-
tamente identificada. Quanto à segunda, como a segunda equação contém todas as variáveis
do sistema, segue que a submatriz A2 não está definida, assim atribuimos ao posto de A2 o
valor 0. Como 0 < 1 = G − 1, segue que a segunda equação é não identificada.
Estimação
Se a equação é exatamente identificada pode-se utilizar MQI ou MQ2E para a estimação

e estes serão equivalentes. No entanto, se a equação é sobreidentificada somente poderá ser
estimada via MQ2E.
5.2 Exercı́cios
Exercı́cio 5.1. Quando usamos modelos de equação simultâneas? O que é o viés de simul-
taneidade em MQO? Como identificar e estimar a equação estrutural?
Exercı́cio 5.2. Detalhe a estimação de equações simultâneas quando se tem sistemas com
mais de duas equações.
Exercı́cio 5.3. Considere o seguinte modelo de equação simultânea.
y1 = α1 y2 + α2 x1 + u1 ;
y2 = α3 y1 + α4 x2 + u2 ,
em que x1 e x2 são exógenas e independente dos termos de perturbação u1 e u2 . A forma

reduzida do modelo é:
y1 = π1 x1 + π2 x2 + u1 ;
y2 = π3 x1 + π4 x2 + u2 ,
(a) Se π1 = 1, π2 = 4, π3 = −2 e π4 = 2, determine os valores de α1 , α2 , α3 e α4 .
(b) Se x1 , x2 , u1 e u2 são variáveis aleatórias com distribuição N(0,1), encontre o valor

predito para y1 dado que y2 = x1 = 1.
Exercı́cio 5.4. Um modelo macroeconômico simples consiste de uma função consumo e uma
identidade de renda:
C = β1 + β2 Y + u
Y = C + I,
em que C é o consumo agregado, I é o investimento agregado, Y é a renda agregada, e u é
um termo de perturbação. Supondo que I é exógena, derive as equações de forma reduzida
para C e Y .
Exercı́cio 5.5. Um pesquisador está investigando o impacto da publicidade sobre as vendas

usando “cross-section data” de empresas produtoras de bens de lazer. Para cada empresa
há dados sobre as vendas, S e despesas com publicidade, A, ambos medidos em unidades
apropriadas, para um ano recente. O pesquisador propõe o seguindo o modelo:
S = β1 + β2 A + uS
A = α1 + α2 S + uA ,
em que uS e uA são termos de perturbação. A primeira relação reflete o efeito positivo
da publicidade sobre as vendas, e o segundo, o fato de grandes empresas, quando medidas
pelas vendas, tendem a gastar mais em publicidade. Faça uma análise matemática do que
aconteceria se o pesquisador tentasse ajustar o modelo usando MQO.
Exercı́cio 5.6. Considere o modelo:
Ct = α1 + α2 Yt + t
It = β1 + β2 Yt + β3 Gt−1 + ut
Yt = Ct + It + Gt
(a) Construa o sistema na forma reduzida.

(b) Considerando a condição de ordem, a equação da função consumo é identificada? É
sobreidentificada?
(c) Considerando a condição de ordem, a equação de investimento é identificada? É sobrei-
dentificada?
(d) O que aconteceria com a propensão marginal a consumir se ela tivesse sido estimada por
mı́nimos quadrados ordinários com uma equação da forma Ct = a + bYt + t ?
Exercı́cio 5.7. Considere o modelo de oferta e demanda:
Qot = α1 + α2 Pt + t
Qdt = β1 + β2 Pt + β3 Yt + β4 Pt−1 + ut
Qdt = Qot
(a) A equação de oferta está identificada? O que acontece se a equação de oferta for estimada
por MQO?
(b) A equação de demanda está identificada? O que acontece se a equação de oferta for
estimada por MQO?
(c) Se você fosse solicitado a estimar a equação de oferta usando variáveis instrumentais, o
que você faria?
(d) Se você fosse solicitado a estimar a equação de oferta usando MQ2E, o que você faria?
(e) Você usaria MQI para estimar a equação de demanda? Por que sim ou por que não?
Exercı́cio 5.8. Considere o sistema de três equações:
Y1 = α1 + α2 Y2 + α4 X1 + α5 X2 + u1
Y2 = β1 + β3 Y3 + β5 X2 + u2
Y3 = γ1 + γ2 Y2 + u3
(a) Usando a condição de ordem, qual das equações acima (se é que há uma) não é identifi-
cada? Qual é exatamente identificada? Qual é sobreidentificada?
(b) Verifique a condição de posto para cada equação. Qual a conclusão final sobre a identi-
ficação de cada uma das equações acima?
Exercı́cio 5.9. A teoria econômica sugere que a evolução do crescimento dos salários nomi-
nais (w) pode ser explicada pela taxa de inflação (p), da taxa de desemprego (u), da taxa de
crescimento do produto real (y) e da taxa de crescimento do emprego (l). Considere o seguinte
sistema:
ωt = α0 + α1 pt + α2 ut + 1t
pt = β0 + β1 ωt + β2 yt + 2t
(a) Verifique se o sistema é identificado pela condição de ordem e pela condição de posto.
(b) Apresente a forma reduzida do modelo.
(c) Suponha agora que a produtividade (q) faça parte da primeira equação.
ωt = α0 + α1 pt + α2 ut + α3 qt + 1t
pt = β0 + β1 ωt + β2 yt + 2t
Verifique novamente se o sistema é identificado (especificando que tipo de soluções existem

para os coeficientes estruturais). Indique o método de estimação mais adequado para o
modelo.
(d) Considere uma forma alternativa do item anterior:
ωt = α0 + α1 pt + α2 ut + α3 qt + 1t
pt = β0 + β1 ωt + 2t
Verifique se o sistema é identificado e, conforme sua resposta, indique o método de es-

timação mais adequado.
[1] Macedo e Carvalho (2010) - http : //www.ipea.gov.br/portal/images/stories/P DF s/T Ds/td1 495.pdf

Apostila ECO Principal PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Apostila ECO Principal PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila ECO Principal PDF

Enviado por

Direitos autorais:

Formatos disponíveis

i

1.2 Variável Aleatória

Denomina-se variável uma propriedade (caracterı́stica) qualquer das unidades da popula-

Todo subconjunto de um espaço amostral é chamado evento. Os subconjuntos de um

Figura 1.2: Variável aleatória

No que segue precisamos do conceito de cardinalidade de um conjunto. Em palavras

Definição 1.2.3. Variável Aleatória Discreta. Se o conjunto dos possı́veis valores da

Definição 1.2.4. Variável Aleatória Contı́nua Se o conjunto dos possı́veis valores da

1.2.1 Distribuição de Probabilidade

A função que descreve as probabilidades da variável aleatória discreta X assumir os di-

seja uma densidade de probabilidade é necessário que

f (x) ≥ 0 para todo x ∈ R,

Como a probabilidade de ocorrência de um valor em particular de uma variávela aleatória

Analogamente, para um conjunto A ⊆ R qualquer,

A probabilidade de que a variável aleatória X assuma valores inferiores ou igual a um

e a função assim definida F : R → [0, 1] é chamada de função de distribuição acumulada

Distribuições conjunta, marginal e condicional

FX,Y (x, y) = P (X ≤ x, Y ≤ y).

Se X e Y são ambas contı́nuas, podemos definir a densidade conjunta de X e Y denotada por

A função de distribuição conjunta de um par de variáveis aleatórias X e Y caracteriza também

FX (x) = lim FX,Y (x, y) e FY (y) = lim FX,Y (x, y)

1. As densidades condicionais são:

(a) fX|Y (x|y), que é a densidade de X dado Y = y.

Formalmente, temos a relação

fX,Y (x, y) = fX (x)fY |X (y|x)

fX|Y (x|y) = fX (x) e fY |X (y|x) = fY (y),

1.2.2 A Distribuição Normal e Distribuições Relacionadas

Existem algumas distribuições de probabilidade cujas probabilidades que, devido à sua

Os parâmetros µ e σ 2 são também chamados de parâmetros de locação e escala, respectiva-

Uma propriedade importante propriedade da distribuição normal é que qualquer com-

X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 )

µ=−3 µ=0 µ=3

0.25 0.25 σ2=2.25

e a correlação entre X1 e X2 é ρ, então

a1 X1 + a2 X2 ∼ N (a1 µ1 + a2 µ2 , a21 σ12 + a22 σ22 + 2ρa1 a2 σ1 σ2 ).

X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 + 2ρσ1 σ2 )

A distribuição χ2 é bastante importante em aplicações e é definida a partir da soma

A distribuiçãoχ2 também satisfaz uma determinada “propriedade de adição”, no seguinte

Se X ∼ N (0, 1), Y ∼ χ2n , e X e Y são independentes, a variável

possui distribuição t com n g.l. Escrevemos isso como T ∼ tn . O subscrito n novamente

Se Y1 ∼ χ2n1 , Y2 ∼ χ2n2 e Y1 e Y2 são independentes, a variável

1.3 Parâmetros, Estimadores e Valores Estimados

Considere o deslocamento de uma partı́cula no vácuo, em superfı́cie sem atrito. Aprende-

Figura 1.4: Função densidade χ2 , t-Student e F-Snedecor. Em parênteses os graus de liber-

1.4 Propriedades de Variáveis Aleatórias

1.4.1 Média, Valor Esperado ou Esperança Matemática

A Média ou valor esperado, ou ainda a esperança matemática de uma variável aleatória

Definição 1.4.1. Média, valor esperado ou esperança matemática de variáveis

Exemplo 1.6. Para o Exemplo considere g(X) = X 2 . Obtemos

Definição 1.4.3. Esperança de variáveis aleatórias contı́nuas.

E2) E(a + X) = a + E(X);

E3) E(bX) = bE(X);

E4) E(a + bX) = a + bE(X);

E5) E(X + Y ) = E(X) + E(Y );

E6) E(a + bX + cY ) = a + bE(X) + cE(Y );

E(XY ) = E(X)E(Y ) se, e somente se, X e Y são independentes.

Var(X) = E[(X − µ)2 )] = E(X 2 ) − [E(X)]2 . (1.2)

Podemos interpretar a variância como sendo o valor esperado do quadrado do desvio de

A covariância entre duas variáveis aleatórias X e Y com E(X) = µX e E(Y ) = µY é