Apostila ECO Principal PDF
Apostila ECO Principal PDF
Apostila ECO Principal PDF
Apostila
ECONOMETRIA
MAT02208
Marcio Valk
Guilherme Pumi
Porto Alegre
2017
ii
Capı́tulo 1
Revisão
1.1 Introdução
Para iniciar qualquer curso em que são utilizadas técnicas estatı́sticas, é necessário escla-
recer/fundamentar bem o conceito de aleatoriedade.
“Na história antiga, os conceitos de chance e de aleatoriedade eram interligados ao con-
ceito que era atribuı́do a destino. Várias pessoas da antigüidade jogavam dados para deter-
minarem o destino, e posteriormente isso se desenvolveu em jogos de azar. A maioria das
culturas usaram vários métodos de adivinhações para tentarem contornar a aleatoriedade e o
destino, ou mesmo a dita sorte. A palavra aleatoriedade é utilizada para exprimir quebra de
ordem, propósito, causa, ou imprevisibilidade em uma terminologia não cientı́fica. Um pro-
cesso aleatório é o processo repetitivo cujo resultado não descreve um padrão determinı́stico,
mas segue uma distribuição de probabilidade. ” (Wikipedia).
Figura 1.1
As técnicas estatı́sticas surgem para encontrar algum padrão de variação. Para tal tarefa
é necessário formalizar e definir alguns conceitos, como são os casos de variável aleatória e
distribuição de probabilidade.
1
2 CAPÍTULO 1. REVISÃO
Definição 1.2.1. Espaço amostral de um experimento aleatório (fenômeno que, mesmo repe-
tidos várias vezes sob condições semelhantes, apresentam resultados imprevisı́veis) é qualquer
conjunto contendo todos os possı́veis resultados do experimento. Aqui, sempre que não houver
perigo de confusão, o espaço amostral de um experimento em questão será denotado por Ω,
Exemplo 1.1. No seguinte experimento: lançar uma moeda e verificar a face voltada para
cima, o espaço amostral é o conjunto {cara, coroa}.
Exemplo 1.2. Se o experimento é lançar um dado de seis faces, o espaço amostral é {1, 2, 3,
4, 5, 6}.
Exemplo 1.3. Poderá perfeitamente existir mais de um espaço amostral adequado para um
determinado experimento. No Exemplo 1.2, o conjunto {1, 2, 3, 4, 5, 6, 7} contém todos os
possı́veis resultados do experimento em questão (lançar um dado de seis faces). Assim, pela
definição 1.2.1, este conjunto é tão adequado como espaço amostral quanto o conjunto mais
intuitivo {1, 2, 3, 4, 5, 6}. Até mesmo o conjunto dos números reais R é adequado. Obvia-
mente, sempre que possı́vel é recomendável utilizar o conjunto mais “natural” como espaço
amostral, porém, do ponto de vista teórico, desde que o conjunto escolhido efetivamente con-
tenha todos os possı́veis resultados do experimento, não faz diferença alguma qual conjunto se
está utilizando.
Exemplo 1.4. Nos exemplos anteriores, é possı́vel (e muito fácil) determinar exatamente
quais são todos os possı́veis resultados dos experimentos em questão. Porém nem sempre este
é o caso. Considere o experimento em que uma pessoa é escolhida ao acaso e sua altura (em
metros) medida. Neste caso é difı́cil determinar precisamente o conjunto contendo exatamente
todos os possı́veis resultados do experimento. Com certeza o conjunto [0, 10] contém todas as
possı́veis alturas a serem registradas. O conjunto [0, 3] também. Por outro lado, será que o
conjunto [0, 2.7] é apropriado? E (0.3, 2.7)?
no qual anotamos a face superior do dado e a face da moeda. Neste caso, é fácil determinar
um espaço amostral associado ao experimento que contenha exatamente todos os resultados
possı́veis. Este constituirá de pares contendo um número inteiro de 0 à 6, correspondente ao
lançamento do dado e um elemento do conjunto {cara, {coroa}, correspondente ao lançamento
da moeda, ou seja, Ω = {(1, cara), (1, coroa), · · · , (6, cara), (6, coroa)}. Uma outra maneira
de representar isto é a partir do produto cartesiano dos espaços amostrais de cada um dos
experimentos individuais, neste caso Ω = {1, 2, 3, 4, 5, 6} × {cara, coroa}.
Espaços amostrais são importantes na definição de um espaço de probabilidade. Um espaço
de probabilidade (Ω, F, P) onde Ω denota um espaço amostral qualquer, F é um conjunto de
eventos associado à Ω satisfazendo certas propriedades (σ-algebra de eventos), e P : F → [0, 1]
uma medida de probabilidade atribuindo valores em [0, 1] para cada evento de interesse em
F (a probabilidade dos eventos).
Uma variável aleatória é uma função do espaço amostral Ω nos reais, para a qual é possı́vel
calcular a probabilidade de ocorrência de seus valores. Em geral, as variáveis aleatórias são
representadas por letras maiúsculas do fim do alfabeto. Temos, para cada elemento ω ∈ Ω,
um número real X(ω) conforme a Figura 1.2.
Garantimos o cálculo de probabilidades com variáveis aleatórias ao exigir que, para qual-
quer I ⊂ R, o conjunto X −1 (I) seja um evento. Em outras palavras, o conjunto X −1 (I)
é um elemento de F, ou seja, X −1 (I) ∈ F. Lembremos que apenas os elementos de F
têm atribuição de probabilidade. Em linguagem mais matemática, dizemos que uma variável
aleatória é qualquer função mensurável em (Ω, F). Isto justifica dizer que a variável X é F-
mensuravel. Com frequência, faz-se menção ao espaço de probabilidade (Ω, F, P), para deixar
claro o espaço amostral, a σ-álgebra e a probabilidade envolvidas. Formalmente, definimos
Definição 1.2.2. Seja (Ω, F, P) um espaço de probabilidade. Denominamos de variável
aleatória, qualquer função X : Ω → R tal que
X −1 (I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F,
para todo intervalo I ⊂ R. Em palavras, X é tal que sua imagem inversa de intervalos I ⊂ R
4 CAPÍTULO 1. REVISÃO
pertencem a σ-álgebra F.
Na prática, é comum a utilização de variáveis aleatórias contı́nuas pois estas são matema-
ticamente mais simples de se tratar. Quando, por exemplo, falamos que a renda é uma v.a.
contı́nua (na verdade ela é discreta) é pela conveniência da aproximação.
F (x) = P (X ≤ x)
Geralmente estamos interessados não apenas numa variável aleatória mas na relação entre
algumas variáveis aleatórias. Suponha que temos duas variáveis aleatórias, X e Y . Agora
além do comportamento probabilı́stico individual de X e Y , caracterizado por suas funções
de distribuições, digamos FX e FY , respectivamente, precisamos alguma forma de descrever o
comportamento probabilı́stico conjunto de X e Y . Para isso definimos a função de distribuição
acumulada de X e Y , denotada por FX,Y , por
e também Z Z
fX (x) = fX,Y (x, y)dy e fY (y) = fX,Y (x, y)dx.
R R
Quando temos a função de distribuição conjunta de um par X e Y de variáveis aleatórias,
dizemos que as densidades/distribuições individuais de X e Y são as densidades/distribuições
marginais de X e Y .
A função de distribuição condicional de X dado Y = y é descrita por
P (X≤x,Y =y)
P (Y =y) , se X é discreta e P (Y = y) 6= 0
FX|Y (x|y) = P (X ≤ x|Y = y) = Rx
−∞ fX,Y (t,y)dt ,
se X é contı́nua e fY (y) 6= 0
fy (y)
no caso em que X e Y são contı́nuas. Relações parecidas valem no caso em que X e Y são
discretas, trocando-se integrais por somas e densidades por função massa de probabilidade.
A densidade conjunta pode ser escrita como o produto das densidades marginal e condi-
cional da seguinte forma:
Se fX,Y (x, y) = fX (x)fY (y) para todo x e y, então X e Y são chamadas de variáveis inde-
pendentes. Note que, se eles são independentes,
isto é, as distribuições condicionais são as mesmas que as marginais. Intuitivamente, quando
X e Y são independentes X não carrega nenhuma informação útil a respeito de Y , assim o
fato de Y ser ou não conhecido é irrelevante para a determinação de X.
A Distribuição Normal
A distribuição normal, cuja densidade possui um formato que lembra um sino, é a distri-
buição mais amplamente utilizada em aplicações estatı́sticas numa grande variedade de áreas.
Dizemos que X tem distribuição normal com média µ ∈ R e variância σ 2 > 0, denotado
compactamente por X ∼ N (µ, σ 2 ), se sua função de densidade de probabilidade for dada por
1 1 2
f (x) = √ exp − 2 (x − µ) , para x ∈ R.
σ 2π 2σ
Figura 1.3: Função densidade Normal com diferentes parâmetros de locação e escala.
Locação Escala
0.4 0.4
0.3 0.3
0.2 0.2
σ2=4
0.15 0.15
0.1 0.1
0.05 0.05
0 0
−6 −4 −2 0 2 4 6 −10 −5 0 5 10
Em particular,
Distribuições Relacionadas
Além da distribuição normal, há outras distribuições de probabilidade que usaremos com
frequência. São elas as distribuições χ2 , t e F , tabuladas no apêndice. Estas distribuições são
derivadas da distribuição normal e definidas como descrito a seguir.
Distribuição χ2
tem distribuição χ2 com n graus de liberdade (g.l.), e escrevemos isso compactamente como
Q ∼ χ2n .
Se Xi ∼ N (µ, σ 2 ), então Q deve ser definido por
n
X (Xi − µ)2
Q= .
σ2
i=1
Distribuição t
Distribuição F
Y1 /n1 n2 Y1
F = =
Y2 /n2 n1 Y2
é dita possuir distribuição F com n1 e n2 g.l. Escrevemos isso como F ∼ Fn1 ,n2 . O primeiro
subscrito n1 , refere-se aos g.l. do numerador, e o segundo subscrito, n2 , refere-se aos g.l. do
denominador.
0.25 0.4 1
0.9
0.35
0.2 0.8
0.3
0.7
0.25
0.15 0.6
0.2 0.5
0.1 0.4
0.15
0.3
0.1
0.05 0.2
0.05
0.1
0 0 0
0 5 10 15 −5 0 5 0 2 4 6 8
caso assumida constante. Neste modelo idealizado, a velocidade de uma partı́cula é uma
função linear do tempo, cujo gráfico é apresentado na Figura 1.5(a).
Um grupo de pesquisadores realizou o seguinte experimento: numa superfı́cie lisa, porém
não absolutamente sem atrito, ao ar livre (isto é, na presença de vento, partı́culas de poeira,
etc.) uma partı́cula foi acelerada à uma determinada aceleração desconhecida, mas constante
em cada repetição do experimento, à partir de uma velocidade inicial desconhecida, mas
também constante em cada repetição do experimento. Após um determinado tempo t a
velocidade da partı́cula foi medida. Como resultados obtemos pares (vi , ti ) representando
a i-ésima observação da velocidade da partı́cula, medida no tempo ti . Os resultados estão
apresentados na Figura 1.5(b). Nosso interesse é determinar a velocidade inicial da partı́cula
e a aceleração, que são chamados de parâmetros populacionais. Note que devido às condições
não serem ideais, os dados não estão perfeitamente alinhados em uma reta como o estipulado
na teoria, mas estão aproximadamente alinhados. Os desvios da reta “esperada” podem ser
interpretados como sendo aleatórios, e são devidos aos vários fatores que estão fora de nosso
controle, como atrito, vento, partı́culas em suspensão no ar, etc, fatores que estão em desalinho
com a teoria.
Para estimar os parâmetros a e v0 , que denotaremos por â e vˆ0 , podemos utilizar os
estimadores de Mı́nimos Quadráticos Ordinários que conhecemos, neste caso, dados por (mais
detalhes serão fornecidos adiante)
Pn
(v − v̄)(ti − t̄)
â = i=1Pn i 2
e vˆ0 = v̄ − ât̄,
i=1 (ti − t̄)
onde v̄ denota a média das velocidades e t̄ denota a média dos tempos observados. Note que,
fornecidos os dados para o estimador, ele retorna dois valores sendo eles a estimativa dos
1.4. PROPRIEDADES DE VARIÁVEIS ALEATÓRIAS 11
parâmetros a e v0 baseados nos dados. Note que mudando os dados, o estimador continua
sendo o mesmo, mas os valores retornados por ele, as estimativas, mudarão. À partir dessas
estimativas obtemos a reta apresentada na Figura 1.5(c)
Na resolução do problema aparecem 3 objetos eminentemente diferentes, cada um deles
fundamental na solução do problema e que devem ser entendidos com clareza. Primeiramente
temos os parâmetros populacionais, que são os valores de interesse, mas que nos são desconhe-
cidos. Baseado numa amostra, gostarı́amos, de alguma forma identificar, esses parâmetros.
Segundo temos um estimador, que é uma função dos dados. Quando alimentado de dados
estes estimadores retornam valores. Os valores retornados pelo estimador compreendem o
terceiro objeto mencionado: são os valores estimados dos parâmetros populacionais.
Esta distinção entre parâmetro, estimador e valor estimado é essencial e está no coração
das aplicações de estatı́stica à dados reais.
(a) (b)
(c)
Figura 1.5
Observe que, no caso discreto, a esperança de uma variável X nada mais é do que a média
ponderada de cada valor assumido pela variável pela sua probabilidade de ocorrência.
Exemplo 1.5. Seja X o valor da face superior obtida no lançamento de um dado equilibrado.
Neste caso temos P (X = 1) = P (X = 2) = P (X = 3) = P (X = 4) = P (X = 5) = P (X =
6) = 61 , ou seja p1 = p2 = p3 = p4 = p5 = p6 = 16 . Segue que
6
X 1 1 1 1 1 1
E(X) = pi xi = .1 + .2 + .3 + .4 + .5 + .6
6 6 6 6 6 6
i=1
1 1 6(6 + 1)
= (1 + 2 + 3 + 4 + 5 + 6) = .
6 6 2
21 7
= = = 3, 5.
6 2
O valor 3,5 obtido no resultado deve ser interpretado da seguinte forma: se jogarmos um dado
equilibrado um número grande de vezes e calcularmos a média dos valores obtidos, ele será
próximo à 3,5. De fato, se fosse possı́vel repertir o experimento um número infinito de vezes,
a média dos resultados convergiria para 3,5.
Definição 1.4.2. Valor Esperado de g(X). Seja X uma variável aleatória discreta assu-
mindo n valores diferentes x1 , · · · xn com probabilidades p1 , · · · , pn , respectivamente. Seja g
uma função definida na imagem da variável aleatória de X. Então E(g(X)) é dado por
n
X
E(g(X)) = g(x1 )p1 + · · · + g(xn )pn = g(xi )pi .
i=1
Supondo que X seja uma variável aleatória contı́nua com função de densidade de proba-
bilidade f , definimos a esperança de X por
Z ∞
E(X) = xf (x)dx.
−∞
O valor esperado de uma função integrável qualquer de X, digamos g(X) é definido por
Z ∞
E(g(X)) = g(x)f (x)dx.
−∞
Exemplo 1.7. Se X ∼ N (µ, σ 2 ), então E(X) = µ, como pode ser facilmente computado.
Propriedades da Esperança
No que segue, assumimos que X, Y são variáveis aleatórias e a, b, c são constantes reais.
E1) E(a) = a;
Estas propriedades podem ser generalizadas para qualquer número de variáveis aleatórias.
Em particular, segue a esperança de uma combinação linear de variáveis aleatórias é a com-
binação linear das suas esperança, isto é, se X1 , · · · , Xn são variáveis aleatórias e a1 , · · · , an
são constantes reais,
n
X Xn
E7) E ai Xi = ai E(Xi ).
i=1 i=1
Por esse motivo, a função E(·) que associa a cada variável aleatória o seu valor esperado
é um operador linear, chamado de operador esperança.
Em geral, temos que E(XY ) 6= E(X)E(Y ). Porém, no caso particular em que X e Y são
variáveis aleatórias independentes, a igualdade é válida, isto é,
1.4.2 Variância
Seja X uma variável aleatória (contı́nua ou discreta)e defina µ = E(X). Então a variância
de X é definida por
14 CAPÍTULO 1. REVISÃO
1.4.3 Covariância
Usando a propriedade de que a esperança da soma entre duas variáveis aleatórias é igual a
soma das esperanças, segue que
Cov(X, Y ) = E(XY ) − E XE(Y ) − E Y E(X) + E E(X)E(Y )
= E(XY ) − E(Y )E(X) − E(X)E(Y ) + E(X)E(Y )
= E(XY ) − E(X)E(Y ) (1.3)
Note que quando X e Y são independentes, temos que E(XY ) = E(X)E(Y ) de onde segue
que Cov(X, Y ) = 0. A recı́proca, porém, não é verdadeira pois existem exemplos de variáveis
dependentes que possuem covariância nula. Observe ainda que da expressão (1.3) podemos
concluir que a covariância é uma forma de medir o quão “distante” X e Y estão de ser
independentes.
1.4.4 Correlação
Note que a correlação entre X e Y nada mais é do que a covariância entre X e Y normalizada
por seus desvios padrões. Esta normalização acaba dando à correlação uma interpretabilidade
ausente na covariância como veremos a seguir.
Observe ainda que, quando Cov(X, Y ) = 0, temos Cor(X, Y ) = 0 também e X e Y são
ditos ser variáveis não-correlacionadas.
Se a e b forem constantes reais e X uma variável aleatória cuja variância está definida,
então:
1.5 Estimadores
n
1X
X= xi .
n
i=1
n n
X
2 1X 1
σ̂X = (xi − x)2 = x2i − nx .2
n n
i=1 i=1
Pode-se mostrar que, embora consistente, este estimador é viesado em amostras finitas.
Um estimador consistente e não-viesado em amostras finitas é dado por
n n
X
2 1 X 1
SX = (xi − x)2 = x2i − nx .2
n−1 n−1
i=1 i=1
Dado que temos alguns estimadores definidos acima, é interessante estudar algumas das
propriedades qualitativas dos estimadores que nos permitam determinar qual estimador é
“bom” e qual não é. É também importante definir critérios para compar diversos estimadores.
1.5.2 Vı́cio/Viés
Se b(θ̂) = 0 segue que E(θ̂) − θ e, neste caso, dizemos que θ̂ é não-viciado ou não-viesado
para o parâmetro θ.
1.5.3 Consistência
1.5.4 Eficiência
Um estimador de θ é dito ser eficiente se for não viesado e sua variância for menor ou
igual a variância de qualquer outro estimador θ̂, ou seja,
Na figura abaixo podemos observar a diferença entre vı́cio e eficiência. Estes conceitos
estão relacionados à média e à variância, respectivamente.
Assim, o erro quadrático médio é definido como a variância do estimador mais o quadrado
do seu viés. Podemos entender o EQM como sendo uma medida da performance de um
estimador em relação ao seu vı́cio e variância. Note que EQM(θ) = Var(θ) sempre que o
estimador for não-viciado.
Considere o modelo
Y = α + βX + U
onde Y é a variável dependente, X é a vaiável independente e U denota o termo de erro do
modelo. Suponhamos que temos uma amostra (x1 , y1 ), · · · , (xn , yn ) provindo deste modelo.
Podemos minimizar:
1. Soma dos erros: não é um bom critério pois pode anular positivos e negativos.
2. Soma Absoluta dos Resı́duos: é um critério válido e intuitivo, porém seu estudo é de
alta complexidade. Devido a isso, o estimador obtido por este critério, denominado
LAD (Least Absolute Deviations), é pouco utilizado na prática.
3. Soma dos Quadrados dos Erros: possui propriedades estatı́sticas de simples utilização
e interpretação o que o tornam bastante atrativo. É este o critério que dá origem ao
estimador de mı́nimos quadráticos ordinários (MQO).
Utilizando a soma dos quadrados dos erros como critério, devemos resolver o seguinte
problema de optimização:
n
X n
X
min u2i = min 2
(yi − α − βxi ) . (1.6)
{α,β} {b
α,β}
b
i=1 i=1
1.6. MÉTODO DE MÍNIMOS QUADRADOS (MQO) 19
n
X n
X
−2 (yi − α
b − βxi ) = 0 =⇒
b u
bi = 0.
i=1 i=1
Esta CPO nos mostra que a escolha do intercepto ótimo implica que a soma dos resı́duos
será zero. Continuando com essa CPO
n
X
(yi − α b i ) = 0 ⇐⇒ ny − nb
b − βx α − βnx
b =0
i=1
⇐⇒ α
bM QO = y − βx.
b (1.7)
e
β0 u1
β1 u2
β= U =
.. ..
. .
βk un
obtemos o modelo de regressão em forma matricial Y = Xβ + U . A matriz X é chamada de
matriz de design do modelo. Pode-se mostrar que o estimador de MQO para β é dado por:
β̂ = (X 0 X)−1 X 0 Y.
Y = β0 + β1 X1 + · · · + βk Xk + U.
Y = α + βX + U.
e (xi , yi ), para i = 1, · · · , n, uma amostra do modelo. De acordo com o que foi visto anterior-
mente, o problema de optimização a ser resolvido para a obtenção dos estimadores de MQO
para α e β será
n
X
2
min (yi − α − βxi ) .
{α,β}
i=1
As CPOs serão
n
X n
X n
X
b : −2
α (yi − α
b − βx
b i) = 0 =⇒ yi = nb
α + βb xi
i=1 i=1 i=1
n
X n
X n
X n
X
βb : −2 (yi − α
b − βx
b i )xi = 0 =⇒ yi x i = α
b xi + βb x2i
i=1 i=1 i=1 i=1
Pn Pn
α
Pnn Pni=1 x2i i=1 yi
b
= P n .
i=1 xi i=1 xi βb i=1 yi xi
Y = α + βX γ + U
Y = αX1β1 X2β2 eU .
{(x1i , · · · , xki , yi ), i = 1, · · · , n}
da população.
Observação 1.6.1. Nos livros-texto esta hipótese é geralmente substituı́da por uma hipótese
de que X é determinı́stico (não aleatório) e seus valores podem ser escolhido de antemão.
tem posto máximo, isto é, posto(X) = k + 1, pois n ≥ k + 1. Relembre das propriedades de
álgebra matricial que
posto(X 0 X) = posto(X) = k + 1,
22 CAPÍTULO 1. REVISÃO
Hipótese 7 (Normalidade): Ui ∼ N (0, σ 2 ) para todo i. Tal hipótese será necessária para
inferência.
Teorema 1.6.1. (de Gauss-Markov) Dentro da classe dos estimadores lineares e não-viesados,
e dadas as hipóteses do MCRL, os EMQs são estimadores que possuem a menor variância
(BLUE - Best Linear Unbiased Estimator).
Existe alguma medida que mostre que um determinado modelo apresenta um bom poder
preditivo? Ou seja, se o regressor (X) que eu inclui no meu modelo explica bem a variável
dependente (Y )? Para construirmos tal medida, primeiramente definimos
n
X
(yi∗ )2 = Soma dos Quadrados Totais (SQT )
i=1
n
X
yi∗ )2 = Soma dos Quadrados Explicados (SQE)
(b
i=1
n
X
b2i = Soma dos Quadrados dos Resı́duos (SQR)
u
i=1
Uma deficiência do R2 é que este nunca diminui quando adicionamos regressores, o que
implica que o R2 favorece modelos mais complexos. Para minimizar esta deficiência, uma al-
ternativa é penalizar, em certo grau, a inclusão de regressores. Um coeficiente muito utilizado
na prática e que faz exatamente isso é o chamado R2 ajustado definido por
2 [SQR/(n − k − 1)]
R = 1−
[SQT /(n − 1)]
σ2
2 SQR
= 1− , σ = .
[SQT /(n − 1)] n−k−1
2
Uma fórmula alternativa para o R é
2 (1 − R2 )(n − 1)
R =1− .
(n − k − 1)
2
Além de permitir a comparação entre modelos ao se incluir/excluir regressores, o R serve
também para a escolha dentre modelos nonnested (não encaixantes). Por exemplo, o modelo
1 que tem X1 , X2 e X3 como variáveis exlicativas e um outro modelo 2 que tem X1 , X2 e X4 .
2
Mas o R não serve para escolher dentre formas funcionais diferentes da variável dependente.
Teste t
yi = β0 + β1 x1i + · · · + βk xki + ui
β̂j − βj
t= q ∼ tn−k−1
Varβ̂j
Teste F
A estatı́stica F para um modelo com intercepto, que serve para testar se o modelo é
significante, ou seja se todos os regressores são conjuntamente significantes, i.e. H0 : β0 =
β1 = · · · = βk = 0 vs. H1 : pelo menos um βj 6= 0, é dada por
R2 /k
F = ∼ Fk,n−k−1 .
(1 − R2 )/n − k − 1
1.8 Exercı́cios
Exercı́cio 1.1. O custo de produção de certo bem é uma variável aleatória com função den-
sidade de probabilidade:
f (x) = kx2 , 1 ≤ x ≤ 4.
• E(X) = E n1 ni=1 Xi ;
P
• Var(X);
• Cov(X, X).
(a) Determine a(s) hipótese(s) necessária(s) para estimar esse modelo por MQO.
(b) Determine a(s) hipótese(s) necessária(s) para que o β estimado, β̂, exista e seja único.
(c) Determine a(s) hipótese(s) necessária(s) para que β̂ seja não viesado.
1.8. EXERCÍCIOS 27
(e) Determine a(s) hipótese(s) necessária(s) para que se possa fazer inferência estatı́stica.
Exercı́cio 1.4. Os dados da tabela relacionam o peso de plantas, Y (em gramas) com o
percentual de matéria orgânica na terra, X1 e os Kilogramas de nitrogênio suplementares
agregados a terra por 1000m2 , X2 :
y x1 x2
78.5 7 2.6
74.3 1 2.9
104.3 11 5.6
87.6 11 3.1
95.9 7 5.2
109.2 11 5.5
102.7 3 7.1
Soma: 652.5 51 32.0
média: 93.21 7.29 4.57
(b) Se
1.80 −0.07 −0.25 652.50
(X T X)−1 = −0.07 0.01 −0.00 , e X T Y = 4915.30 ,
−0.25 −0.00 0.06 3103.66
(e) Se dp(βˆ1 ) = 0.2636, (dp=desvio padrão), teste se a variável X1 é relevante para o modelo.
Exercı́cio 1.5. Adão Ismiti queria verificar se a produtividade aumentava com a divisão do
trabalho. Para isso, fez a seguinte experiência: regrediu a produtividade (p) de n trabalhadores
de fábricas de alfinetes contra o número de funções exercidas pelo trabalhador (F ), os anos
de escolaridade (E), o salário (w) e o número de filhos (N ). Formalmente, a regressão foi:
pi = β1 + β2 Fi + β3 Ei + β4 ωi + β5 Ni + ui
28 CAPÍTULO 1. REVISÃO
Usando o teste t-Student, Ismiti não rejeitou a hipótese nula de parâmetro igual a zero
para β3 . Retirou a variável E da regressão e estimou o modelo restrito, observando que βˆ5
se tornou também, estatisticamente não significativo. Finalmente, retirou N da regressão e
estimou o modelo novamente.
(a) Por que não foi preciso fazer o teste F em βˆ3 para retirar E do modelo?
(b) Justifique se o procedimento adotado por Ismiti está correto ou equivocado, para ter eli-
minado a variável N do modelo.
Exercı́cio 1.6. Suponha um modelo de regressão linear múltiplo em que β̂ exista, seja não
viesado e eficiente, pois u é homocedástico. Suponha que você imponha falsas restrições sobre
os parâmetros do modelo.
(b) Mostre que a variância das estimativas do modelo com restrições é menor que a variância
das estimativas do modelo sem restrições.
(c) Qual é a implicação desse resultado em termos de previsão? Qual é a intuição desse
resultado?
Sugestão: Lembre o que é o EQM, ou seja, o erro quadrático médio.
(b) Cite pelo menos um teste para a hipótese de autocorrelação dos resı́duos.
(c) Em caso de rejeição da hipótese nula em (a), por qual método você estimaria o modelo?
(d) Em caso de rejeição da hipótese nula em (b), por qual método você estimaria o modelo?
P∞
< ∞. Mostre que ∞ 2
P
(a) Suponha que i=0 |xi | i=0 xi < ∞.
2.1 Introdução
29
30 CAPÍTULO 2. SÉRIES TEMPORAIS NO CONTEXTO DE REGRESSÃO
Exemplo 2.1. Vamos supor que desejamos medir a temperatura máxima do ar, de um local,
durante 24 horas, poderı́amos obter um gráfico semelhante a figura abaixo:
Figura 2.1: Temperatura máxima diária medidas em pontos diferentes durante o ano de 2008
2.1.2 Objetivos
Dada uma série temporal {Z(t1 ), . . . , Z(tN )}, observada nos instantes t1 , . . . , tN , podemos
estar interessados em:
Neste capı́tulo vamos descrever os conceitos básicos utilizados dentro da teoria dos modelos
de séries temporais. Inicialmente vamos introduzir os conceitos de processos estocásticos,
média e função de covariância, processo estacionário, e função de autocorrelação.
ou Z ∞ Z ∞
µ(r, t) = ... Z1r1 . . . Z1rn f (z1 , . . . , zn ; t1 , . . . , tn )dz1 . . . dzn (2.3)
−∞ −∞
em que f (Z, t) é a função de densidade de F (Z, t). Porém o que vai nos interessar são
os momentos de baixa ordem, ou seja, os chamados processos estacionários de 2a ordem.
Consideramos somente os momentos de primeira e segunda ordem, que serão apresentados a
seguir.
Para um processo estocástico {Zt : t = 0, ±1, ±2, . . .} a função média (f.m.) é definida por
γ(t, s)
ρ(t, s) = Corr(Zt , Zs ) = , (2.6)
γ(t, t)γ(s, s)
podemos dizer que, a covariância entre duas combinações lineares é a soma de todas as co-
variâncias entre termos de suas combinações lineares. Esta expressão pode ser verificada
utilizando as propriedades de esperança e covariância. Como caso especial, podemos obter o
seguinte resultado
" n # n n n−1
X X X X
V ar ci Z(ti ) = c2i V ar[Z(ti )] + 2 ci cj Cov[Z(ti ), Z(tj )]. (2.8)
i=1 i=1 i=2 j=1
Nesta seção estudaremos modelos de regressão cujas variáveis são séries temporais. O
interesse principal recai sobre as condições necessárias para que o estimador de MQO apresente
boas propriedades.
A primeira diferença entre dados de séries temporais e dados de corte transversal é que
uma série temporal tem uma ordenação temporal. Outra caracterı́stica, é que não temos
mais independência entre as observações, ou seja, não temos mais uma amostra aleatória de
indivı́duos. Logo, para estimar um modelo do tipo
são necessárias novas suposições para que o estimador de MQO tenha boas propriedades.
Modelos Estáticos
Suponha que temos dados de séries temporais disponı́veis para duas variáveis, digamos y
e z, em que yt e zt são datadas contemporaneamente. Um modelo que relaciona y a z é:
yt = β0 + β1 zt + ut , t = 1, 2, . . . , n. (2.10)
Este modelo é usado para estudar a relação de trocas contemporânea entre inft e desempt
pressupondo uma taxa natural de desemprego e expectativas inflacionárias constantes.
yt−1 = α0 + δ0 c + δ1 c + δ2 c
yt = α0 + δ0 (c + 1) + δ1 c + δ2 c
yt+1 = α0 + δ0 c + δ1 (c + 1) + δ2 c
yt+2 = α0 + δ0 c + δ1 c + δ2 (c + 1)
yt+3 = α0 + δ0 c + δ1 c + δ2 c,
yt − yt−1 = δ0 ,
34 CAPÍTULO 2. SÉRIES TEMPORAIS NO CONTEXTO DE REGRESSÃO
δ2 = yt+2 − yt−1 ,
yt−1 = α0 + δ0 c + δ1 c + δ2 c
yt = α0 + δ0 (c + 1) + δ1 c + δ2 c
yt+1 = α0 + δ0 (c + 1) + δ1 (c + 1) + δ2 c
yt+2 = α0 + δ0 (c + 1) + δ1 (c + 1) + δ2 (c + 1)
Nesta seção o objetivo é mostrar como as hipóteses clássicas devem ser alteradas para
cobrir regressão de séries temporais.
Para que as estimativas via MQO dos parâmetros de um modelo de regressão com séries
temporais não sejam viesadas são necessárias a seguintes hipóteses:
2.5. SUPOSIÇÕES PARA MODELOS COM SÉRIES TEMPORAIS 35
yt = β0 + β1 xt1 + · · · + βk xtk + ut ,
Analisando-se a hipótese TS.3, percebemos que ela difere da hipótese clássica. Observe
que a hipótese TS.3 exige que o erro no tempo t, ut seja não correlacionado com cada variável
explicativa em todos os perı́odos de tempo.
Se em termos de média condicional, temos somente a condição de não correlação somente
no tempo t, da forma
E(ut |x1t , . . . , xtk ) = E(ut |Xt ) = 0, (2.14)
diz-se que vale a exogeneidade contemporânea das variáveis explicativas. Exogeneidade con-
temporânea só será suficiente em grandes amostras.
A hipótese TS.3 é muito forte e muitas vezes não verificada. Nos seguintes exemplos
podemos ver como ela pode ser verificada na prática.
Exemplo 2.3. Suponha que a taxa de homicı́dios (homit ) em uma cidade em termos do
número de policiais per capita (polpct )
homit = β0 + β1 polpct + ut .
36 CAPÍTULO 2. SÉRIES TEMPORAIS NO CONTEXTO DE REGRESSÃO
O termo de erro u precisaria ser não correlacionados com os valores atuais, os valores
passados e futuros de polpct . Podemos aceitar que u não é correlacionado com valores corrente
e valores passados do regressor. Mas é evidente que um aumento em u hoje, provavelmente,
levará a polı́ticas que tentem aumentar polpct no futuro. Logo TS.3 falha.
Teorema 2.5.1. Sob as Hipóteses ST.1, ST.2 e ST.3 os estimadores de MQO são não vie-
sados condicionados a X e, portanto, também incondicionalmente:
E(β̂j ) = βj , j = 1, . . . , k. (2.15)
Para que sejam válidos os testes t, F e outros testes estatı́sticos baseadas nos erros padrões
é necessário adicionar mais uma hipótese a respeito da distribuição dos erros. Esta hipótese
é análoga à hipótese de normalidade usada para análise de corte transversal.
ut ∼ N (0, σ 2 ), para t = 1, 2, . . . , n.
Teorema 2.5.3. Sob as hipóteses TS.1 a TS.6, as hipóteses do modelo linear clássico para
séries temporais, os estimadores MQO são normalmente distribuı́dos, condicional em X.
Além disso, a estatı́stica t tem uma distribuição t, e cada estatı́stica F tem uma distribuição
F.
2.5.4 Tendência
Quando trabalhamos com séries temporais é necessário saber reconhecer se estas séries
contém uma tendência temporal. Ignorar o fato de que duas séries temporais podem ser
correlacionadas somente porque ambas estão apresentando uma mesma tendência ao longo do
tempo, em vez de uma relação causal, pode levar a conclusões errôneas e a possibilidade de
uma regressão espúria. Vejamos o exemplo de uma série temporal com tendência temporal:
yt = α0 + α1 t + et , t = 1, 2, . . . , (2.16)
em que assume-se que {et } é i.i.d. com E(et ) = 0 e var(et ) = σ 2 . Observe que o parâmetro α1
multiplica o tempo, resultando em uma tendência temporal linear. Assim, α1 mede a mudança
em yt , de um perı́odo para o próximo, motivado pela passagem do tempo, mantendo-se todos
os outros fatores fixos.
Outros modelos podem ser usados para capturar tendências temporais, dependendo da
situação. No modelo em que o logaritmo natural de yt (presumindo que yt > 0) apresenta
uma tendência temporal linear,
log(yt ) = β0 + β1 t + et , t = 1, 2, . . . , (2.17)
diz-se que yt tem uma tendência exponencial .
38 CAPÍTULO 2. SÉRIES TEMPORAIS NO CONTEXTO DE REGRESSÃO
Figura 2.2: Consumo mensal aparente de álcool carburante (média das quantidades diárias)
em milhares de Barris. Fonte: Agência Nacional do Petróleo (ANP).
Outra possibilidade é que em vez de uma tendência temporal linear, poderı́amos ter uma
tendência temporal quadrática,
yt = β0 + β1 t + βt2 + et , t = 1, 2, . . . . (2.18)
Suponha que existam dois fatores observados, xt1 e xt2 que afetam yt . Além disso, existem
fatores não observados que estão sistematicamente crescendo ou decrescendo ao longo do
tempo. Um modelo que captura isso é:
Permitindo uma tendência temporal no modelo, reconhece-se que yt pode estar crescendo ou
decrescendo ao longo do tempo por razões essencialmente não relacionadas a xt1 e xt2 .
A omissão da variável t pode levar ao viés por omissão de variável, especialmente se xt1
ou xt2 apresentarem algum tipo de tendência, pois elas podem ser altamente correlacionadas
com t.
Adicionando um termo de tendência linear em um modelo de regressão é a mesma coisa
que usar série ”destendenciada”numa regressão. Os estimadores β1 e β2 do modelo (2.19)
podem ser obtidos através de um procedimento de ”remoção da tendência temporal”das séries
originais:
2.5. SUPOSIÇÕES PARA MODELOS COM SÉRIES TEMPORAIS 39
Destendenciar uma série envolve regredir cada variável do modelo em t e uma constante
(no caso de (2.19), regredir yt , xt1 e xt2 contra t e uma constante).
Os resı́duos destas regressões, ÿt , ẍt1 e ẍt2 , constituem uma série temporal sem tendência.
Em seguida, realizar a regressão com variáveis retificada,
(não precisa intercepto, será igual a 0). As estimativas via MQO, δ̂1 e δ̂2 serão iguais as
estimativas β̂1 e β̂2 da regressão (2.19).
2.5.5 Sazonalidade
É comum que as séries de dados mensais e trimestrais exibam padrões sazonais, mas isso
não é uma regra. Por exemplo, não existe padrão sazonal observável nas taxas de juros ou
de inflação. Além disso, séries que exibem padrões sazonais são ajustadas sazonalmente
antes de serem informadas para o público.
Uma série ajustada sazonalmente é a série que teve os fatores sazonais removidos. Existem
vários métodos para isso. Um dos métodos mais simples é incluir um conjunto de variáveis
dummies sazonais. Seja o seguinte modelo para dados mensais:
40 CAPÍTULO 2. SÉRIES TEMPORAIS NO CONTEXTO DE REGRESSÃO
Uma série temporal estacionária é fracamente dependente se xt e xt+h são “quase inde-
pendentes”, quando h aumenta.
Se, para um processo de covariância estacionária Corr(xt , xt+h ) → 0 quando h → ∞,
dizemos que este processo de covariância estacionária é fracamente dependente.
Essa definição é necessária para usar Leis dos Grandes Números e Teorema Central do
Limite.
2.6 Exercı́cios
Exercı́cio 2.2. (anpec-2010) Considere o modelo de regressão linear múltipla com regressores
estocásticos yt = β1 x1t +β2 x2t +εt , no qual εt não é autocorrelacionado e tem média e variância
condicionais a x1t e x2t iguais a zero e s2 , respectivamente. Por simplicidade, suponha que
as variáveis são expressas como desvios com relação às respectivas médias. Responda:
b) Se não conseguirmos observar x1t , mas apenas x∗1t = x1t + ut , em que ut é um erro de
medida, e se substituirmos x1t por x1t na regressão, o estimador de mı́nimos quadrados
ordinários de β1 ainda assim será consistente?
d) Seja c uma constante diferente de zero. Defina ỹ = cyt , x̃1t = cx1t e x̃2t = cx2t . Os
estimadores de mı́nimos quadrados ordinários (MQO) em uma regressão de ỹ contra x̃1t e
x̃2t coincidem com os estimadores de MQO em uma regressão de yt contra x1t e x2t ?
f ) Denote por εbt o resı́duo da regressão de mı́nimos quadrados ordinários. A hipótese de que
o erro é correlacionado com x1t pode ser testada utilizando a estatı́stica T1 Ti=1 x1i εbi ?
P
a) Supondo válida a hipótese de exogeneidade estrita, como deve ter sido estimado o modelo
acima? Justifique?
b) Qual é o efeito de curto prazo (propensão de impacto) da taxa de inflação sobre a taxa
juros? Qual é o efeito de longo prazo da taxa de inflação sobre a taxa de juros?
Exercı́cio 2.4.
Considere uma série temporal de 10 anos contendo PIB (em R$) e número de homicı́dios (em
unidades) em um determinado paı́s. O primeiro modelo estimado foi pibt = β0 +β1 homict +ut .
Os resultados da estimação se encontram na tabela 1. Um segundo modelo foi pibt = β0 +
β1 homict + β2 t + ut , em que t é um termo de tendência. Os resultados da estimação desse
modelo se encontram na tabela 2:
Tabela 1
Estimate Std. Error t-value Pr(¿—t—)
(Intercept) -3461194.26 314948.06 -10.99 0.00
homic 102.63 6.12 16.76 0.00
Tabela 2
Estimate Std. Error t-value Pr(¿—t—)
(Intercept) 5564710.45 2539866.04 2.19 0.06
homic -123.64 63.59 -1.94 0.09
t 423054.01 118647.95 3.57 0.01
Exercı́cio 2.5. Considere uma série do PIB brasileiro com inı́cio no primeiro trimestre 1996
e fim no segundo bimestre de 2010. Essa série foi decomposta em sua tendência (t) e variáveis
dummy para a sazonalidade, em que Si = 1, se a observação pertence ao trimestre i e Si = 0,
caso contrário.
a) Supondo que pol seja estritamente exógeno na equação, como você estimaria β0 e β1 . Quais
as propriedades do estimador proposto em termos de viés e consistência?
b) Suponha agora que o número de policiais em t seja definido em função do ı́ndice de crimina-
lidade do perı́odo anterior. A hipótese de exogeneidade estrita continua válida? Justifique.
yt∗ = β0 + β1 xt + et
b) Supondo que E(et |xt , yt−1 ) = 0 e todas as séries sejam fracamente dependentes, como você
estimaria os α0 s? É consistente? Justifique sua resposta. O estimador proposto é viciado?
c) Seja α̂1 = 0, 7 e α̂2 = 0, 2. (i) Qual o coeficiente de ajustamento estimado? (ii) Qual o
efeito de CP (curto prazo) de um crescimento das vendas da firma sobre o crescimento de
estoques da firma? (iii) Qual é o efeito de LP (longo prazo)?
a) Mostre que podemos escrever esse modelo como Yt = α0 + α1 Xt + α2 Yt−1 + vt . Quem são
os α0 s em termos dos β 0 s e γ? Quem é vt em termos de ut ?
b) O que podemos dizer a respeito dos estimadores de MQO nesse caso? Justifique.
c) Imagine que no modelo original ut siga o esquema auto-regressivo de primeira ordem, i.e.,
ut = ρut−1 + εt , em que ρ é o coeficiente de autocorrelação e onde εt satisfaz as premissas
clássicas. Se ρ = λ, como você estimaria o modelo? Justifique.
a) Qual é a condição de estabilidade para esse processo? Calcule E(yt ) e V ar(yt ) considerando
válida a condição de estabilidade.
46 CAPÍTULO 2. SÉRIES TEMPORAIS NO CONTEXTO DE REGRESSÃO
ρh σ 2
b) Para o processo yt acima temos que Cov(yt , yt−h ) = 1−ρ2
, h = 1, 2, 3, . . .. O processo yt é
de covariância estacionária? Justifique.
Séries Temporais
O estudo de séries temporais tem por objetivos principais definir o processo gerador de
dados, fazer previsões futuras da série, identificar ciclos, tendências e/ou sazonalidades de
forma que a decisão que envolve as variáveis em questão seja a mais acurada possı́vel.
Neste capı́tulo vamos descrever os conceitos básicos utilizados dentro da teoria dos modelos
de séries temporais. Inicialmente vamos introduzir os conceitos de processos estocásticos,
média e função de covariância, processo estacionário, e função de autocorrelação.
47
48 CAPÍTULO 3. SÉRIES TEMPORAIS
Chamamos atenção ainda que existem condições para que um processo estocástico exista.
Estes resultados dependem de uma discussão bastante técnica, bem além das intenções de
nossa exposição.
desde que as esperanças envolvidas existam. Chamamos a atenção de que embora as espe-
ranças e variâncias de um processo estocástico existam, estas podem ser infinitas. Este fato
trás diversos problemas técnicos na análise de séries temporais e requerem técnicas avançadas
de análise que estão fora do escopo deste trabalho. Por este motivo, neste trabalho assumire-
mos tacitamente que todos os processos estocásticos e variáveis aleatórias possuem esperança
e variância finitas.
Outra estrutura importante relacionada a um processo estocástico é o que chamamos
de estrutura de dependência do processo. Dependência entre variáveis aleatórias pode ser
definida de diversas maneiras diferentes. Neste trabalho estamos especialmente interessados
na estutura de dependência relacionadas com a covariância e a correlção entre as variáveis do
processo. Observe que num processo estocástico podemos definir a covariância e a correlação
entre quaisquer pares Zi e Zj de variáveis, para i, j ∈ Z. No caso de processos, estas funções
recebem o prefixo “auto” para enfatizar o fato de que as covariâncias/correlações estão sendo
calculadas entre as variáveis do processo. Definimos a função de autocovariância, abreviada
FACV , como
Cov(Zt , Zs ) γ(t, s)
ρZ (t, s) = Cor(Zt , Zs ) = p =p . (3.3)
Var(Zt )Var(Zs ) γ(t, t)γ(s, s)
O subscrito “Z” nas definições acima são utilizados para reforçar à qual processo estamos nos
referindo. Porém, quando não houver perigo de confusão, podemos eliminar a referência ao
processo associado e escrever simplesmente γ(t, s) e ρ(t, s).
Observe que, em princı́pio, as funções γ(t, s) e ρ(t, s) dependem tanto de t quanto de s. Nos
casos em que isto acontece, qualquer tipo de inferência baseada em autocovariâncias/autocor-
relações se torna impossı́vel sem tomarmos medidas para tornar esta estrutura de dependência
mais simples. Algumas técnicas relevantes para isso serão estudadas adiante. De qualquer
forma, a teoria clássica de séries temporais lida com casos em que essas quantidades pos-
suem uma dependência temporal simplificada, permitindo o seu estudo. Processos com estas
caracterı́sticas são de grande importância e serão estudados em detalhes mais adiante. Isto
3.3. ESTACIONARIEDADE 49
por que, do ponto de vista matemático, tal estrutura é conveniente e permite um trata-
mento rigoroso e aprofundado da teoria enquanto que do ponto de vista prático, é de fácil
percepção, permite a modelagem, inferência, previsão e outros aspectos aplicados relevantes
de maneira simples e rápida. Tudo isso contribuiu para a difusão de métodos baseado em
autocovariâncias/autocorrelações.
Propriedades Importantes
A propriedade 3 em particular mostra que a covariância entre duas variáveis está bem definida
caso estas tenham variância finita.
Como sabemos a correlação é uma medida da dependência linear entre duas variáveis. Se
Cor(X, Y ) = ±1, isto significa que existem constantes β0 e β1 tais que Y = β0 + β1 X. Ou
seja, uma variável é exatamente uma função linear da outra. Valores próximos de ±1 indicam
forte dependência (linear) e valores próximos de 0 indicam fraca dependência (linear). Se
ρ(t, s) = 0, Zt e Zs são ditas não-correlacionadas, mas note que isso não quer dizer que elas
são necessariamentes independentes. Agora, se Zt e Zs são independentes, então ρ(t, s) = 0.
Por fim, obviamente Cov(Zt , Zs ) = 0 se, e somente se, Zt e Zs são não-correlacionadas.
Para analisar as propriedades da covariância de vários modelos de séries temporais, o
seguinte resultado será utilizado: se c1 , c2 , · · · , cm e d1 , d2 , · · · , dn são constantes reais e
t1 , t2 , · · · , tm e s1 , s2 , · · · , sn são ı́ndices temporais, então
m
X n
X m X
X n
Cov ci Zti , dj Zsj = ci dj Cov(Zti , Zsj ) (3.4)
i=1 j=1 i=1 j=1
podemos dizer que, a covariância entre duas combinações lineares é a soma de todas as co-
variâncias entre termos de suas combinações lineares. Esta expressão pode ser verificada
utilizando as propriedades de esperança e covariância. Como caso especial, podemos obter o
seguinte resultado
n
X Xn n−1
X X n
Var ci Zti = c2i Var(Zti ) + 2 ci cj Cov(Zti , Ztj ). (3.5)
i=1 i=1 i=1 j=i+1
3.3 Estacionariedade
técnicas que se pretendem utilizar na análise das séries temporais. Em poucas palavras, uma
série temporal é estacionária quando, com o passar do tempo, a série se desenvolve aleatori-
amente em torno de uma média constante, refletindo alguma forma de equilı́brio estável. A
ideia é de que uma série temporal estacionária Y tende a “flutuar” aleatóriamente ao redor
de uma média constante. A Figura 3.1 apresenta duas séries estacionárias.
(a) (b)
Entretanto, a maior parte das séries que encontramos na prática apresenta alguma forma
de não-estacionariedade. A Figura 3.2 apresenta algumas séries que apresentam algum tipo de
não-estacionariedade que podem resultar de diversas fontes. Algumas das fontes mais comuns
de não-estacionariedade de uma série temporal são:
(a) a presença de uma tendência determinı́stica (linear, logaritmica, exponencial, etc.) ao re-
dor da qual a série se desenvolve. Geralmente a presença de uma tendência determinı́stica
é facilmente reconhecı́vel através do gráfico. Na Figura 3.2(a) apresentamos o gráfico de
uma série apresentando uma tendência linear.
(b) quebra estrutural na série, que pode ser decorrente de uma mudança na média, como
representado na Figura 3.2(b), ou uma mudança mais sutil, difı́cil de ser detectada, como
por exemplo mudanças na distribuição da série, na variância, no modelo da série, etc.
(c) presença do que chamamos de tendência estocástica, como representado na Figura 3.2(c).
Neste caso a série parece “vagar” por um caminho que apresenta mudanças aleatórias de
trajetória, sendo que fica difı́cil determinar o seu comportamento.
(d) presença de sazonalidade. Neste caso a sazonalidade provoca uma mudança de nı́vel local
fazendo com que a média da série se altere nos perı́odos sazonais. Um exemplo de série
sazonal é dado na Figura 3.2(d).
Mais detalhes serão apresentados adiante. A maior parte das séries que encontramos na prática
apresenta alguma forma de não-estacionariedade. As séries econômicas apresentam em geral
tendências lineares e muito comumente, tendência estocástica. Podemos ter, também, uma
forma de não-estacionariedade explosiva, como o crescimento de uma colônia de bactérias.
(a) (b)
(c) (d)
Figura 3.2: Séries não-estacionárias apresentando: (a) Tendência linear, (b) quebra estrutural
representada pela mudança de nı́vel da série, (c) tendência estocástica e (d) sazonalidade.
para todas as combinações de tempos t1 , · · · , tn e para todo k ∈ Z. Observe que este con-
ceito se traduz em dizer que fixados os tempos t1 , · · · , tn , ao andarmos k passos à frente
homogeneamente no tempo, a distribuição das variáveis não se altera.
Quando n = 1, a distribuição de Zt é igual a distribuição de Zt−k para qualquer k, ou seja,
os Zt ’s são identicamente distribuı́dos. Isto implica que num processo fortemente estacionário,
as funções média (µt ) e variância (σt2 ) são constantes para todo t, isto é, σ 2 = Var(Zt ) =
Var(Zt−k ) e µ = E(Zt ) = E(Zt−k ), independentemente de t e k. Quando n = 2, a distribuição
de (Zt , Zs ) é a mesma de (Zt−k , Zs−k ), de onde segue que Cov(Zt , Zs ) = Cov(Zt−k , Zs−k ),
para todo t, s e k.
Fazendo k = s temos:
e se k = t,
γ(h) = Cov(Zt , Zt−h ) = Cov(Zt , Zt+h ) ρ(h) = Cor(Zt , Zt−h ) = Cor(Zt , Zt+h ),
pode-se usar a estatı́stica QBP desenvolvida por Box e Pierce, ou a estatı́stica QLB desenvol-
vida por Ljung-Box , definidas, respectivamente, por:
3.3. ESTACIONARIEDADE 53
em que n é o tamanho da amostra (série) e m é a qual se distribui como uma qui-quadrado com
o maior lag considerado na hipótese. A estatı́stica m graus de liberdade em grandes amostras. A es-
QBP em grandes amostras tem distribuição qui- tatı́stica QLB possui maior poder para amostras
quadrado com m graus de liberdade. pequenas que a estatı́stica QBP .
Observe que a hipótese nula do teste é que todas as correlações de lag 1, · · · , m são nulas,
para algum m predeterminado, desta forma a escolha do valor de m é fundamental. Quanto
maior o m, caso não seja possı́vel rejeitar a hipótese nula, menor é a evidencia de que a série
testada é correlacionada. Porém, se m for muito grande, dois problemas poderão acontecer:
primeiro, se m é muito próximo de n haverão poucos pontos amostrais com distância temporal
m o que torna a estimação de ρ̂k (ε̂) problemática, deteriorando a qualidade do teste; segundo,
o poder do teste decresce com o aumento de m. Embora não haja consenso na literatura sobre
o valor ideal de m, sugerimos utilizar m = 20 para séries com n ≥ 50. Se a série for curta, na
literatura encontra-se a sugestão m = min(10, n/5).
A função de autocorrelação parcial (FACP) entre as variáveis Yt e Yt+k , denotada por α(k)
em processos estacionários, é a correlação entre as variáveis Yt e Yt+k removida a influência das
variáveis intermediárias Yt+1 , Yt+2 , · · · , Yt+k−1 . Dada uma série temporal {Yt }∞
t=1 estacionária
e uma variável aleatória X, denotemos por Πr,s (X) a projeção de X no subespaço gerado pelas
variáveis Yr+1 , · · · , Yr+s−1 . A FACP entre Yt e Yt+k é dada por
α(k) = Cor Yt − Πt,k (Yt ), Yt+k − Πt,k (Yt+k ) , para k ≥ 2,
e α(1) = ρ(1).
A FACP para um processo estacionário com média zero pode ser calculada a partir da
regressão
yt+k = φk1 yt+k−1 + φk2 yt+k−2 + · · · + φkk yt + εt+k , (3.6)
da qual podem ser obtidas as equações de Yule-Walker.
Multiplicando ambos os lados por yt+k−j e calculando o valor dividindo pela variância,
tem-se
Para k = 1 → φ̂11 = ρ1 .
Para k = 2 → ρ1 = φ21 + φ22 ρ1 e ρ2 = φ21 ρ1 + φ22 . A última equação pode ser escrita em
notação matricial:
ρ1 1 ρ1 φ21
= .
ρ2 ρ1 1 φ22
cuja solução para o estimador de φ22 é dada pela regra de Cramer:
1 ρ1
ρ1 ρ2
φ̂22 =
1 ρ1
ρ1 1
Em séries temporais é usual trabalhar com operadores que defasam a variável. Definimos
então o operador de defasagem L como um operador linear tal que:
Operador defasagem
Lj Yt = Yt−j
1. O operador lag aplicado a uma constante resulta na própria constante, isto é, Lc = c;
Ruı́do Branco
σε2 ,
se h = 0; 1, se h = 0;
γε (h) = ρε (h) =
0, 6 0.
se h = 0, 6 0.
se h =
O termo ruı́do branco resulta do fato que em uma análise de frequência do modelo, po-
demos mostrar que todas as frequências são iguais. As caracteristicas de um processo ruı́do
branco ficam explı́citas quando analisamos o seguinte gráfico
Processo MA(1)
Yt = εt − 0.5εt−1 ,
onde εt é um RB(0, σε2 ).
onde γε denota a função de autocovariancia de εt . Da equação (3.7), percebemos que Cov(Yt , Yt+h )
só é diferente de zero quando algum dos argumentos das funções à direita da igualdade em
(3.7) é zero. Isto ocorre somente quando h = 0 (resultando em Var(Yt ) = 1.25σε2 ) e quando
|h| = 1 (resultando −0.5σε2 ). Em outras palavras, Cov(Yt , Yt+h ) não depende de t e
( (
−0.5σε2 , se |k| = 1; −0.4, se |k| = 1;
γ(k) = e ρ(k) =
0, se |k| > 1. 0, se |k| > 1.
3. Verificação do ajuste do modelo por meio de testes. Nesta fase, verificamos se o modelo
estimado está em conformidade com as especificações do modelo teórico proposto. De
suma importância é a análise residual na qual o objetivo é verificar se os resı́duos satisfa-
zem a hipótese de serem não-correlacionados. De grande utilidade é o teste Ljung-Box.
Se o modelo proposto é inadequado, devemos voltar para a primeira etapa e propor um
modelo alternativo.
Processo AR(1)
Yt = c + φYt−1 + εt ,
em que εt é um RB(0, σε2 ).
desde que φ 6= 1. Se φ = 1 a equação não possui solução1 . Desta forma procedemos assumindo
que φ 6= 1. Observe ainda que µ = 0, quando c = 0. Para φ 6= 1, a variância de um AR(1),
por sua vez, é dada por
σ2
Var(Yt ) = E(Yt2 ) − µ2 = .
1 − φ2
Observe que se |φ| > 1, a variância será negativa, o que é um absurdo. Neste caso as
equações não são compatı́veis com nenhum processo. Quando |φ| = 1, a variância de Yt não
está definida pois a média não está.
Deste exemplo, é possı́vel concluir que é necessário estabelecer algumas restrições sobre o
modelo para que se possa estimá-lo. Em particular, uma condição necessária para estimar os
coeficientes do modelo é que |φ| < 1.
Com um pouco mais de trabalho, podemos encontrar o mesmo resultado sem a suposição
de que os momentos incondicionais sejam iguais. Para isso usamos o operador defasagem L e
suas propriedades para obtermos
onde a última igualdade segue do fato de que E(εt−j εt−k ) = γε (j − k) que é igual a zero se
j 6= k, e σε2 , se j = k. Para h > 0, a função de autocovariância de lag h é dada por
∞
X ∞
X
s k
γ(h) = E[(Yt − µ)(Yt−h − µ)] = E φ εt−s φ εt−k−h
s=0 k=0
∞ X
X ∞ ∞ X
X ∞
= φk+s E(εt−s εt−k−h ) = φk+s γε (s − k − h).
s=0 k=0 s=0 k=0
1
mais tarde veremos que para φ = 1 o processo é não estacionário e de fato a média varia com t, sendo,
portanto, falsa a hipótese inicial de que a média do processo é constante, utilizada para derivar as equações.
60 CAPÍTULO 3. SÉRIES TEMPORAIS
φ−h 2
γ(h) = σ ,
1 − φ2 ε
ou seja, para h 6= 0,
φ|h| 2
γ(h) = σ .
1 − φ2 ε
Como a média e as covariâncias não são funções do tempo o processo é fracamente estacionário,
independente do valor de φ ∈ (−1, 1). A função de autocorrelação de lag h é dada por
φ| h| 2
1−φ2
σ
ρ(h) = σ 2 = φ|h| .
1−φ2
Quando φ = 1 no caso anterior, temos o processo chamado passeio aleatório. Seja {εt }t∈N
um RB(0, σε2 ). Defina
Zt = Zt−1 + εt ,
que pode ser reescrito de uma maneira bem simples. Defina inicialmente
Z 1 = ε1 , Z2 = ε1 + ε2 ↔ Z2 = Z1 + ε2
e sucessivamente
Assim concluimos que a variância de um passeio aleatório cresce linearmente com o tempo,
sendo portanto um processo não-estacionário. Observe ainda que se 1 ≤ t ≤ s, a função de
3.4. METODOLOGIA DE BOX-JENKINS - MODELAGEM ARIMA 61
γ(t, s) = Cov(Zt , Zs )
= Cov(ε1 + ε2 + · · · + εt , ε1 + ε2 + · · · + εs )
Xt Xs
= Cov(εi , εj )
i=1 j=1
= Cov(ε1 , ε1 ) + Cov(ε2 , ε2 ) + · · · + Cov(εt , εt )
= σε2 + σε2 + · · · + σε2 = tσε2
O passeio aleatório é um exemplo simples que serve de aproximação para diversas situações
reais, tais como como o movimento comum de preços e tı́tulos e também a posição de pequenas
partı́culas suspensas dentro de um fluı́do, chamado movimento Browniano.
p
X
Yt = φ1 Yt−1 + · · · + φp Yt−p + εt = φj Yt−j + εt .
j=1
Figura 3.5: AR(1) simulado com coeficiente φ1 = 0.5, FAC amostral e FACP amostral.
3.4. METODOLOGIA DE BOX-JENKINS - MODELAGEM ARIMA 63
Figura 3.6: AR(1) simulado com coeficiente φ1 = −0.5, FAC amostral e FACP amostral.
Figura 3.7: AR(1) simulado com coeficiente φ1 = 0.8, FAC amostral e FACP amostral.
64 CAPÍTULO 3. SÉRIES TEMPORAIS
Figura 3.8: AR(2) simulado com coeficientes φ1 = 0.5 e φ2 = −0.7, FAC amostral e FACP
amostral.
Figura 3.9: AR(2) simulado com coeficientes φ1 = 0.5, φ2 = −0.7 e φ3 = 0.6, FAC amostral
e FACP amostral.
3.4. METODOLOGIA DE BOX-JENKINS - MODELAGEM ARIMA 65
MA(q)
Yt = εt + θ1 εt−1 + θ2 εt−2 + · · · + θq εt−q
em que εt é um RB(0, σε2 ).
MA(q)
Yt = Θq (L)εt , (3.9)
em que
Θq (L) = 1 + θ1 L + θ2 L2 + · · · + θq Lq . (3.10)
Yt = εt + θ1 εt−1 , (3.11)
e a variância é igual a:
Neste caso γ(h) só é diferente de 0 quando algum dos argumentos de γε for igual a 0, o que
acontece somente quando h = 0 ou h = 1 ou h = −1. Para h = 0 obtemos a variância. Para
66 CAPÍTULO 3. SÉRIES TEMPORAIS
A partir daı́ podemos obter facilmente a média e a variância de Yt , assim como sua
estrutura de autocovariancia e autocorrelação. Primeiramente
q
X Xq
E(Yt ) = E θk εt−k = θk E(εt−k ) = 0
k=0 k=0
q
X q
X
γ(h) = θk θk−h γε (0) = σε2 θk θk−h .
k=0 k=0
Concluimos que
q
Pq
k=0 θk θk−h
X
σε2
θk θk−h , se |h| ≤ q; , se |h| ≤ q;
q
2
P
γ(h) = k=0 e ρ(h) = j=0 θj
0, se |h| > q.
0, se |h| > q,
Figura 3.10: MA(1) simulado com coeficiente θ1 = 1, FAC amostral e FACP amostral.
68 CAPÍTULO 3. SÉRIES TEMPORAIS
Figura 3.11: MA(1) simulado com coeficiente θ1 = −0.8, FAC amostral e FACP amostral.
Figura 3.12: MA(2) simulado com coeficientes θ1 = −0.8 e θ2 = 0.4, FAC amostral e FACP
amostral.
3.4. METODOLOGIA DE BOX-JENKINS - MODELAGEM ARIMA 69
Figura 3.13: MA(2) simulado com coeficientes θ1 = −0.8, θ2 = 0.4 e θ3 = 1.4, FAC amostral
e FACP amostral.
70 CAPÍTULO 3. SÉRIES TEMPORAIS
ARMA(p, q)
Φp (L)Yt = Θq (L)εt ,
em que εt é um RB(0, σε2 ), Φp (L) e Θp (L) são polinômios da parte AR e MA (respec-
tivamente) dados por
Φp (L) = 1 − φ1 L − φ2 L2 − · · · − φp Lp e Θq (L) = 1 + θ1 L + θ2 L2 + · · · + θq Lq .
Φ2 (L)Yt = Θ3 (L)εt
(1 − φ1 L − φ2 L2 )Yt = (1 + θ1 L + θ2 L2 + θ3 L3 )εt
Yt = φ1 Yt−1 + φ2 Yt−2 + εt + θ1 εt−1 + θ2 εt−2 + θ3 εt−3 .
Figura 3.14: ARMA(1,1) simulado com coeficientes φ1 = 0.5 e θ1 = −0.8, FAC amostral e
FACP amostral.
Figura 3.15: ARMA(1,3) simulado com coeficientes φ1 = 0.5, θ1 = −0.8, θ2 = 0.4 e θ3 = 1.4,
FAC amostral e FACP amostral.
72 CAPÍTULO 3. SÉRIES TEMPORAIS
Figura 3.16: ARMA(3,1) simulado com coeficientes φ1 = 0.5, φ2 = −0.7, φ3 = 0.6 e θ1 = −0.8,
FAC amostral e FACP amostral.
3.4. METODOLOGIA DE BOX-JENKINS - MODELAGEM ARIMA 73
∞
X
Yt = ψ0 εt + ψ1 εt−1 + ψ2 εt−2 + · · · = ψk εt−k = Ψ(L)εt , (3.13)
k=0
onde denotamos
∞
X
2
Ψ(L) = ψ0 + ψ1 L + ψ2 L + · · · = ψk Lk .
k=0
Yt = φYt−1 + εt ,
para |φ| < 1 e εt ∼ RB(0, σε2 ). Na Seção 3.4.1 obtivemos a representação (com c = 0)
∞
X
Yt = φj εt−j .
j=0
Yt = εt + θεt−1 + · · · + θq εt−q ,
3.4.9 Invertibilidade
Mostramos que um processo AR pode ser reescrito como um processo MA de ordem infinita
através de pesos ψj ’s. Podemos nos perguntar quando (e se) é possı́vel escrever um processo
MA como um autorregressivo.
74 CAPÍTULO 3. SÉRIES TEMPORAIS
Um processo linear {Yt } é dito ser INVERTÍVELP (estritamente, uma função invertı́vel
de {εt }) se existem reais ϕ1 , ϕ2 , · · · satisfazendo ∞j=0 |ϕj | < ∞ e tais que
∞
X
εt = ϕ0 Yt + ϕ1 Yt−1 + ϕ2 Yt−2 + · · · = ϕk Yt−k = Φ(L)Yt , (3.14)
k=0
onde denotamos
∞
X
Φ(L) = ϕ0 + ϕ1 L + ϕ2 L2 + · · · = ϕk Lk .
k=0
εt = Yt + θεt−1
εt = Yt + θ(Yt−1 + θεt−2 )
= Yt + θYt−1 + θ2 Yt−2
Assim, da mesma forma como foi feito para o AR(1), tomando ϕj = θj , segue que, se
P∞ 1
|θ| < 1, a representação (3.14) é satisfeita e j=0 |ϕj | = 1−|θ| < ∞ de onde concluimos
que o modelo MA(1) é invertı́vel. Em outras palavras, um modelo MA(1) pode ser invertido
(transformado) para um AR(∞), sempre que |θ| < 1.
Nos exemplos mostrados acima tratamos da causalidade e invertibilidade dos casos AR(1)
e MA(1) em particular. Para os casos mais gerais AR(p) e MA(q) utilizamos os chamados
polinômios caracterı́sticos para decidir se os processos são causais e/ou invertı́veis.
Para um modelo geral AR(p), definimos o polinômio caracterı́stico AR como
Φ(z) = 1 − φ1 z − φ2 z 2 − · · · − φp z p , z ∈ C
3.4. METODOLOGIA DE BOX-JENKINS - MODELAGEM ARIMA 75
Teorema
Uma (única) solução estacionária para Φ(L)Yt = εt existe se, e somente, as raı́zes de
Φ(z) não pertencem ao cı́rculo de raio unitário, ou seja,
z ∈ C : |z| = 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
O processo AR(p) é causal se, e somente se as raı́zes de Φ(z) estão fora do cı́rculo
unitário, ou seja,
z ∈ C : |z| ≤ 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
Θ(z) = 1 + θ1 z + θ2 z 2 + · · · + θq z q .
Teorema Um processo MA(q) é invertı́vel se, e somente se, as raı́zes de Θ(z) estão fora
do cı́rculo unitário, isto é,
z ∈ C : |z| ≤ 1 ⇒ Θ(z) = 1 + θ1 z + θ2 z 2 + · · · + θq z q 6= 0.
Teorema 3.4.1. Se Φ(·) e Θ(·) não possuem fatores em comum, existe uma única solução
estacionária {Yt } para Φ(L)Yt = Θ(L)εt se, e somente se,
z ∈ C : |z| = 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
z ∈ C : |z| ≤ 1 ⇒ Φ(z) = 1 − φ1 z − · · · − φp z p 6= 0.
z ∈ C : |z| ≤ 1 ⇒ Θ(z) = 1 + θ1 z + θ2 z 2 + · · · + θq z q 6= 0.
76 CAPÍTULO 3. SÉRIES TEMPORAIS
Exercı́cio 3.1. Defina processo estocástico e ilustre graficamente. Explique o que é a rea-
lização de um processo estocástico e por que séries econômicas podem ser entendidas como
geradas por um processo estocásticos.
Exercı́cio 3.2. Seja {yt }Tt=1 uma série temporal. Quais caracterı́sticas essa série deve apre-
sentar para ser considerada uma série de covariância estacionária?
(d) Qual a relação entre ruı́do branco, ruı́do branco Gaussiano e processo i.i.d.?
(c) Esse processo é estacionário? (Justifique sua resposta usando os valores encontrados nos
itens anteriores juntamente com o conceito de estacionariedade definido na Questão 1).
Exercı́cio 3.5. Considere um processo MA(2): yt = et +α1 et−1 +α2 et−2 ; onde et ∼ RB(0, σe2 ).
(c) Esse processo é estacionário? (Justifique sua resposta usando os valores encontrados nos
itens anteriores juntamente com o conceito de estacionariedade definido na Questão 1).
3.5. EXERCÍCIOS SOBRE SÉRIES TEMPORAIS ESTACIONÁRIAS 77
(e) Calcule a autocorrelação de ordem 1 e 2 para o processo do item anterior e faça o gráfico
da FAC com 5 lags.
Exercı́cio 3.8. (a) Explique como se comportam os gráficos da FAC e da FACP em processos
AR(p) e em processos MA(q).
(b) Esboce os gráficos da FAC e FACP para os seguintes processos: AR(1), AR(3), MA(2)
e MA(3).
Exercı́cio 3.9. (a) Supondo que E(yt ) = µ e que yt = c0 + β1 yt−1 + et + α1 et−1 , calcule o
valor de c0 em termos de µ e β1 .
(b) Explique como se comportam os gráficos da FAC e da FACP em processos ARMA(p, q).
Exercı́cio 3.10. Explique os passos que devem ser seguidos para a modelagem de uma série
temporal na metodologia ARMA.
78 CAPÍTULO 3. SÉRIES TEMPORAIS
Exercı́cio 3.11. (2014-5) Suponha que Yt seja representado pelo seguinte processo auto-
regressivo de primeira ordem:
Yt = 10 + 0, 6Yt−1 + et ,
em que et é um ruı́do branco que satisfaz as condições: E(et ) = 0, E(e2t ) = σ 2 , E(et es ) = 0
para t 6= s. Suponha também que Y0 = 0. Obtenha E(Yt ) para t = 2.
Yt = ρYt−1 + et , t = 1, 2, · · · ,
2) E[xt ] = µ + t.
Exercı́cio 3.14. (2012-08) Suponha que Y t seja descrito por um processo auto-regressivo de
ordem 3, isto é,
Yt = Yt−1 − 0, 50Yt−3 + εt
e que
εt |Yt−j ∼ N (0, σ 2 ), ∀j > 0.
Calcule a correlação entre Yt e Yt−2 . Multiplique o resultado por 100.
3.5. EXERCÍCIOS SOBRE SÉRIES TEMPORAIS ESTACIONÁRIAS 79
2) Seja a função de autocorrelação do processo AR(1) definido no item (0) dada por ρj . É
correto afirmar que ρj = φj1 .
Exercı́cio 3.17. Considere uma série temporal com 200 observações. A figura 1 mostra a
evolução da série ao longo do tempo. A tabela 1 fornece as autocorrelações, ρ’s, e autocor-
relações parciais, φ’s, estimados a partir dessa série.
80 CAPÍTULO 3. SÉRIES TEMPORAIS
Tabela 1
k 1 2 3 4 5 6 7 8 9 10
ρk 0.51 0.13 0.01 0.04 0.03 0.00 0.04 0.02 0.08 0.01
φk,k 0.51 -0.18 0.03 0.06 -0.03 -0.00 0.07 -0.05 0.13 -0.11
(c) Calcule o critério para decisão quanto à significância das autocorrelações estimadas e
represente esse critério nos gráficos da FAC e FACP.
(d) Qual(is) modelo(s) você propõe para ajustar essa série temporal? Justifique.
(a) AR(1);
(b) AR(2);
(c) MA(1);
(d) MA(3);
(e) ARMA(1,1);
(f ) ARMA(2,2).
Exercı́cio 3.19. Abaixo (Figura 2) encontram-se os gráficos da FAC e FACP calculados para
uma série {yt }200
t=1 .
3.5. EXERCÍCIOS SOBRE SÉRIES TEMPORAIS ESTACIONÁRIAS 81
(b) Usando os gráficos da FAC e FACP, qual(is) modelo(s) você propõe para ajustar essa
série temporal? Justifique. (Note que o primeiro lag é o 1 em ambos os gráficos).
82 CAPÍTULO 3. SÉRIES TEMPORAIS
No entanto muitas séries temporais econômicas são claramente não estacionárias no sen-
tido de que a média, variância e/ou estrutura de covariancia dependem do tempo. Uma série
com estas caracterı́sticas tende a se afastar permanentemente de qualquer valor à medida que
o tempo passa. Fontes comuns de não estacionariedade em séries temporais são tendências, sa-
zonalidades e quebras estruturais diversas. Destas, as mais simples de lidar são as tendências e
sazonalidades. Uma série é dita apresentar uma tendência determinı́stica se esta se desenvolve
ao redor de uma função determinı́stica, geralmente simples. A Figura 3.19 apresenta alguns
diferentes tipos de tendências determinı́sticas: linear, logaritmica, quadrática e exponencial
(veja também a Figura 3.2).
(a) (b)
(c) (d)
Da Figura 3.19 fica clara que uma série apresentando tendência determinı́stica é não-
estacionária: de imediato percebe-se que a média varia com o tempo em todos os casos apre-
sentados. Antes que qualquer tipo de análise adicional possa ser feita, em especial, qualquer
tipo de modelagem e previsão utilizando os modelos vistos até aqui, é obrigatória a remoção
de tendências. Existem dois tipos fundamentais de tendências que serão estudadas adiante.
Nos concentraremos inicialmente na remoção de tendências determinı́sticas.
3.6. SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 83
Nestes casos, acrescentamos uma tendência funcional ao processo, linear nos parâmetros, e
procedemos a estimação desta tendência via MQO. Vejamos alguns exemplos.
Exemplo 3.2. Os dados referentes à receita nominal mensal de vendas do varejo nacional no
ramo de combustı́veis e lubrificantes (ı́ndice de base fixa, sendo o ano de referência 2003 com
valor 100) no perı́odo de janeiro de 2000 à dezembro de 2011 estão apresentados na Figura
3.20(a) (fonte: IBGE, Pesquisa Mensal do Comércio 2000/jan-2011/dez). Observe que a
série apresenta uma nı́tida tendência linear crescente. Para removê-la, vamos assumir que a
série é da forma
Yt = α0 + α1 t + Xt ,
onde Yt denota o receita nominal no tempo t e Xt é a série residual após removida a tendência
determinı́stica. Denotando por x1 , · · · , x144 os dados, procedemos com a estimação de α0 e
α1 utilizando MQO que, neste caso, resulta α̂0 = 68.668 e α̂1 = 0.568 ambos altamente
significativos (p-valores muito próximos de zero). Na Figura 3.20(b) apresentamos os dados
e a reta ajustada (o eixo x foi reescalado para para refletir os meses). Para obtermos a
série residual Xt tomamos, naturalmente, X̂t = Yt − (68.668 + 0.568t). Na Figura 3.20(c)
apresentamos a reta resı́dual, com o eixo x reescalado para refletir as datas da série.
84 CAPÍTULO 3. SÉRIES TEMPORAIS
(a) (b)
(c)
Figura 3.20: Séries da receita nominal mensal de vendas do varejo nacional no ramo de
combustı́veis e lubrificantes. (a) Série, (b) série e reta ajustada e (c) residual.
Utilizando MQO podemos ainda remover qualquer tipo de função do tempo que seja linear
nos parâmetros, como mostra o exemplo abaixo.
Exemplo 3.3. Os dados referentes à série mensal de pessoas desocupadas com idade superior
a 11 anos em Porto Alegre entre março de 2002 e outubro de 2015 estão apresentados na
Figura 3.21(a). Os dados apresentam o coeficiente de variação mensal relativo para o número
de pessoas sem trabalho mas que estavam disponı́veis para assumir um trabalho e que tomaram
alguma providência efetiva para conseguir trabalho no perı́odo de referência de 30 dias, sem
terem tido qualquer trabalho ou após terem saı́do do último emprego que tiveram nesse perı́odo
(fonte: IBGE, Pesquisa Mensal de Emprego). A série apresenta uma distinta tendência
logarı́tmica ao longo do tempo, que pode ser modelada por
Yt = α0 + α1 ln(t) + Xt ,
(a) (b)
(c)
Figura 3.21: Séries do número de pessoas desocupadas em Porto Alegre. (a) Série, (b) série
e reta ajustada e (c) residual.
Uma série com uma tendência estocástica se diferencia de outra com uma tendência de-
terminı́stica, pois as mudanças na mesma deixam de ter um caráter transitório e passam
a apresentar um caráter permanente [(Pereira, 1988) e (Gujarati, 2000)]. “A presença de
uma tendência estocástica implica que flutuações em uma série temporal são o resultado de
choques não somente no componente transitório ou cı́clico, mas também no componente de
tendência.” [Balke (1991) apud Gujarati (2000, p. 730)]
Como vimos nas sessões anteriores, para um processo ARMA ser estacionário, o polinômio
caracterı́stico da parte AR não pode conter raı́zes de módulo igual a um, chamadas de raı́zes
unitárias. Acontece que a presença de raı́zes unitárias no polinômio AR resulta na presença
de tendência estocástica na série. A identificação de raı́zes unitárias é de grande importância
na análise de séries temporais, e este fato se reflete na literatura relativamente longa tratando
do assunto. Várias abordagens para a detecção de raı́zes unitárias estão a nosso dispor. Um
dos testes mais utilizados na literatura é o teste de Dickey Fuller que veremos a seguir.
Yt = a0 + ρYt−1 + εt (3.17)
em que Yt é a variável de interesse, t é o ı́ndice temporal, ρ é coeficente e εt é o termo de erro.
Uma raı́z unitária está presente se ρ = 1 implicando que o modelo será não estacionário.
Nota-se que, quando ρ = 1
86 CAPÍTULO 3. SÉRIES TEMPORAIS
Yt = a0 + Yt−1 + εt
pode ser reescrito como
t
X
Yt = Y0 + εi + a 0 t
i=1
com
Pt uma tendência determinı́stica vindo de a0 t e um intercepto estocástico vindo de Y0 +
i=1 εi , resultando no que chamamos de tendência estocástica. O teste de Dickey Fuller
consiste em fazer um “teste t” (mas com distribuição de Dickey-Fuller) para a significância
do seguinte modelo
H0 : δ = 0 (Não estacionário)
H1 : δ < 0 (Estacionário)
∆Yt = µ + δYt−1 + εt → τµ ;
∆Yt = µ + at + δYt−1 + εt → ττ
δ̂
τ̂ = (3.18)
s(δ̂)
em que s(δ̂) é o desvio padrão de
Pn
Yt−1 Yt
δ̂ = Pt=2
n 2 − 1,
t=2 Yt−1
que é a estimativa de mı́nimos quadráticos de ρ menos 1, para garantir que, sob H0 , tenhamos
δ = 0. O desvio padrão pode ser obtido a partir do cálculo da variância residual, que no caso
mais simples se torna
n
1X
2
S = (∆Yt − δ̂Yt−1 )2 .
n
t=1
Cada versão do teste (τ , τµ e ττ ) tem sua própria estatı́stica de teste e portanto tem seu
próprio valor crı́tico o qual depende do tamanho amostral. Esses valores foram obtidos a
partir e simulações de Monte Carlo.
Em cada caso, a hipótese nula de que existe raı́z unitária é representada por δ = 0.
Para estes testes é conhecido que eles tem baixo poder no sentido de que frequentemente
não conseguem distinguir entre processos com raı́z unitária (δ = 0) de processos com raı́z
quase-unitária (δ próximo de zero), ou até mesmo com tendências não lineares.
A tabela a seguir apresenta alguns valores crı́ticos para o teste de Dickey Fuller
Existe uma extenção do teste de Dickey-Fuller (DF) chamado de Teste de Dickey-Fuller au-
mentado (ADF) o qual remove todos os efeitos estuturais (autocorrelações) da série temporal
e então testa usando o mesmo procedimento.
Existem outro testes bem reconhecidos, que surgiram para resolver o problema de baixo
poder do teste de Dickey Fuller. Estes testes devem ser também utilizados em caso de dúvida
na hora da modelagem. São os testes de Phillips-Perron, KPSS, ERS, NG e Perron
entre outros. Alguns estão disponı́veis no Gretl, na opção variável – testes de raı́z unitária.
Operador Diferença
∆=1−L
em que L é o operador de defasagem.
Obs: No Gretl tem uma opção para acrescentar uma variável diferença.
3.7. MODELAGEM ARIMA 89
Quando uma séries temporal apresenta tendência estocática (não estacionária) diz-se que
está é integrada (I(·)). É necessário retirar a tendência para então analisar o ruı́do. Esse ruı́do
não necessáriamente é um ruı́do branco. Pode ser um modelo ARMA, por exemplo. Como
visto anteriormente, a maneira de retirar a tendência estocástica de uma série temporal é
diferencindo-á. Algumas vezes, é necessário diferenciar mais do que uma vez a série temporal
até torná-la estacionária.
Na figura 3.23 são apresentados a série sobre dados de vendas BJsales de Box & Jankins.
0 10 20 30 40 50 60
Vendas
0 50 100 150
4
2
diff(diff(Vendas))
diff(Vendas)
2
0
0
−2
−2
−4
3.8 Previsão
Um dos objetivos finais na análise de séries temporais é a previsão. Assim, pode-se usar
informações do passado para tomar decisões para o futuro. Existem outros métodos de pre-
visão para séries temporais, como o de Média Móveis Sı́mples (MMS), Suavizamento
Exponencial (SE), entre outros, mas estes métodos não dependem de um ajuste de um
modelo e não são considerados agora. Para uma boa previsão é fundamental que o modelo
esteja bem ajustado e por isso deixamos este tópico para o final. Como é feita a previsão na
prática?
6,8
A ideia da previsão é utilizar o conheci- lg
previsão
6,6 Intervalo a 95 por cento
mento/observações que se tem até o tempo
6,4
t, (digamos que temos observações para uma
6,2
certa variável durante os últimos 20 anos
6
e, assim, t seria o último ano observado e
· · · , Yt−2 , Yt−1 , Yt as observações). É conve- 5,8
5,6
niente definir
5,4
5,2
1955 1956 1957 1958 1959 1960 1961 1962
Asesim,
Et (Ys ) = Ys , se s ≤ t
Yt+1 = c + φYt + εt .
Assim,
Assim,
3.8. PREVISÃO 91
Previsão
ŷt (h) = Et (Yt+h )
representa previsão h-passos a frente, dado que observamos até o tempo t.
O erro de previsão é definido como sendo o valor observado menos o valor previsto. Para
um perı́odo h, εt (h) é dado por:
Erro de previsão
εt (h) = Yt+h − Et (Yt+h )
os quais são não viesados, isto é, E(εt (h)) = 0;
Tomando-se a esperança do erro de previsão, podemos observar que estes são não viesados,
E(εt (h)) = 0; A variância do erro de previsão é dada por:
Var(εt (h)) = Var ρh−1 εt+1 + ρh−2 εt+2 · · · + ρεt+h−1 + εt+h
= σε2 φ2(h−1) + φ2(h−2) + · · · + φ2 + 1
σε2
Note que a variância converge para uma constante, quando h → ∞, que é 1−ρ2
que é a
variância não condicional da série Yt .
Se a distribuição dos resı́duos εt é a Normal, então o intervalo de confiânça para os resı́duos
é dado portanto
92 CAPÍTULO 3. SÉRIES TEMPORAIS
h−1
X 1
2
c ρi−1 + ρh y ± 2σε φ2(h−1) + φ2(h−2) + · · · + φ2 + 1
i=1
Medidas de desempenho
Diferentes modelos produzem previsões distintas, o que torna necessários avaliar essas
previsões. Para isso são utilizadas algumas medidas de desempenho. As estatı́sticas mais
conhecidas são:
Para calculá-los, deve-se deixar algumas observações fora da amostra. Por exemplo, em
uma série com n observações , deixa-se as H últimas observações fora da amostra e
estima-se o modelo agora com n − H observações restantes.
Quando faz-se previsões h passos a frente, ŷt (h), usando somente a informação até o tempo
t, tem-se a previsão dinâmica cuja variância acaba sendo maior. Quando, para prever algum
passo a frente usa-se as observações até o tempo imediatamente anterior, tem-se a previsão
estática. A previsão estática só é útil para efeito de comparação de modelos. Na prática, a
previsão dinâmica é a única que interessa de fato.
3.9. REGRESSÃO ESPÚRIA - COINTEGRAÇÃO 93
A utilização dos modelos de regressão envolvendo séries temporais não estacionárias pode
conduzir ao problema que se convencionou chamar de regressão espúria, isto é quando temos
um alto R2 sem uma relação significativa entre as variáveis (Harris, 1995). Assim, na presença
de raı́z unitária podem-se encontrar relações econométricas entre duas variáveis econômicas
sem qualquer relação de causalidade entre uma e outra por puro acaso. Por exemplo, a
regressão de uma variável I(1) com outra I(1) obtida independentemente gera alto R2 e es-
tatı́stica t significante. No entanto o resultado não tem significado econômico.
Fizemos a seguinte esperiência. Geramos duas séries I(1) independentes entre si e regre-
dimos um contra a outra. O resultado segue.
Call:
lm(formula = Y ∼ X)
Residuals:
Min 1Q Median 3Q Max
-25.861 -7.875 0.179 6.713 30.970
Coefficients:
Estimate Std. Error t value Pr(¿—t—)
(Intercept) -6.971267 0.538128 -12.96 ¡2e-16 ***
X 0.527969 0.005861 90.08 ¡2e-16 ***
—
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Para que a regressão entre duas séries temporais não seja espúria, elas devem satisfazer
uma das seguintes situações:
2. {Yt } e {Xt } devem ser integradas de mesma ordem e o resı́duo deve ser esta-
cionário.
Se {Yt } e {Xt } são integrados de ordens diferentes ou se {Yt } e {Xt } são integrados de
mesma ordem e o resı́duo não é estacionário, então a regressão é espúria.
Um teste utilizado para detectar cointegração é o teste de Durbin-Watson.
O) yt é um processo estacionário.
2) Mı́nimos quadrados ordinários aplicado à equação (3.19) produz uma estimativa não viesada
de β2 .
3) Seja β̂2 = Tt=2 (yt − yt−1 )/(T − 1). β̂2 é um estimador consistente de β2 .
P
4) Suponha que ut = ρut−1 + εt , ρ < 1 e que εt seja uma variável aleatória independente e
identicamente distribuı́da ao longo do tempo, com média zero e variância finita. O estimador
de mı́nimos quadrados ordinários de β2 na equação (3.19) é não viesado.
Exercı́cio 3.22. (2007-07) Sejam Yt e Xt duas séries temporais. Considere os resultados dos
seguintes modelos de regressão estimados por mı́nimos quadrados ordinários (MQO):
et = 0, 0730 − 0, 4157ebt−1 .
∆b
(0,06) (−3,43)
1) A regressão de Yt em Xt é espúria.
3) Para que duas variáveis sejam cointegradas é necessário que ambas tenham a mesma ordem
de integração.
4) A rejeição da hipótese nula do teste Dickey-Fuller implica que a variável em questão é não-
estacionária.
2) Seja L o operador defasagem tal que LYt = Yt−1 . Se Yt segue um processo AR(1) esta-
cionário de segunda ordem, então (1 − L)2 Yt é um processo ARMA(2,2).
Exercı́cio 3.24. Para este exercı́cio consideremos uma série temporal de taxa de câmbio da
Itália (EXRIT L). Foram realizados testes de raı́z unitária para a série EXRIT L e para a
sua primeira diferença d EXRIT L.
a) O que podemos afirmar a respeito da tendência da série EXRIT L? Use os resultados dos
testes de hipóteses para justificar a sua resposta.
c) Dos gráficos apresentados na figura 3.24, qual(is) pode(m) representar a série EXRIT L?
E qual(is) pode(m) representar a primeira diferença da série EXRIT L? Explique.
5 7.8
4
7.6
3
7.4
2
7.2
1
S1
S2
0 7
-1
6.8
-2
6.6
-3
6.4
-4
-5 6.2
1974 1976 1978 1980 1982 1984 1986 1988 1990 1974 1976 1978 1980 1982 1984 1986 1988 1990
(a) (b)
150
100
50
S3
-50
-100
-150
1974 1976 1978 1980 1982 1984 1986 1988 1990
(c)
d) Na figura 3.25 qual(is) dos gráficos de FAC e FACP pode(m) corresponder à FAC e FACP
de um ruı́do branco? Justifique.
e) Na figura 3.25 qual(is) dos gráficos de FAC e FACP pode(m) corresponder à FAC e FACP
de um ruı́do branco? Justifique.
3.10. EXERCÍCIOS PARA SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 97
f ) Na figura 3.25 qual(is) dos gráficos de FAC e FACP pode(m) corresponder à FAC e FACP
da Série EXRIT L? Justifique.
h) Foram ajustados 3 modelos para a série EXRIT L: ARMA(1,1) (AIC =417,1), ARIMA(2,1,3)(AIC
=422,12) e ARIMA(1,1,2) (AIC =417,5). A FAC e FACP dos resı́duos dos ajustes são
apresentados na figura 3.26. Qual é o melhor modelo? Justifique.
Figura 3.26: FAC e FACP dos resı́duos do ajuste de três modelos a série EXRIT L.
(a) Calcule a previsão um passo a frente e dois passos a frente para a série yt , ou seja, yb440 (1)
e yb440 (2). R: yb440 (1) = 8.6949 e yb440 (2) = 11.07261.
(b) Calcule o erro de previsão um e dois passos a frente, e440 (1) e e440 (2), sabendo-se que
y441 = 8.83 e y442 = 12.24. R: e440 (1) = 0.1351 e e440 (2) = 1.167389.
(a) Calcule a previsão um, dois e três passos a frente para a série yt , ou seja, yb450 (1), yb450 (2)
e yb450 (3). R: yb450 (1) = 10.5854, yb450 (2) = 9.878 e yb450 (3) = 10.01.
(b) Calcule o erro de previsão um, dois e três passos a frente, e450 (1), e450 (2) e e450 (3),
sabendo-se que y451 = 9.80, y452 = 8.78 e y453 = 9.33. R: e450 (1) = −0.7767, e450 (2) =
−1.098 e e450 (3) = −0.68.
3.10. EXERCÍCIOS PARA SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 99
Exercı́cio 3.27. Escreva cada um dos seguintes processos usando o operador de defasagem
B.
(a) Xt = 0.3Xt−1 + at ;
(b) Xt = tj=1 at , t ≥ 1;
P
(a) Calcule a previsão um, dois e três passos a frente para a série yt , ou seja, yb450 (1), yb450 (2)
e yb450 (3). R: yb450 (1) = 10.3536, yb450 (2) = 10.178 e yb450 (3) = 10.06295.
(b) Calcule o erro de previsão um, dois e três passos a frente, e450 (1), e450 (2) e e450 (3),
sabendo-se que y451 = 9.80, y452 = 8.78 e y453 = 9.33. R: e450 (1) = 1.5264, e450 (2) =
2.051996 e e450 (3) = 0.6870544.
Exercı́cio 3.29. Considere o modelo autorregressivo de primeira ordem, AR(1), definido por
Yt = a + bYt−1 + ut ,
em que a e b são parâmetros e ut é uma sequência de variáveis aleatórias independentes e
igualmente distribuı́das, com média nula e variância σ 2 . Suponha que |b| < 1. A previsão n
passos-à-frente para a variável Y convergirá para
(a) a.
(b) a média de ut .
a
(c) 1−b .
(d) E(Yt ).
100 CAPÍTULO 3. SÉRIES TEMPORAIS
(e) ∞.
Exercı́cio 3.30. As vendas mensais de um certo produto são representadas pelo modelo
(c) Dados Z1 = 3.25, Z2 = 4.75, Z3 = 2.25 e Z4 = 1.75, calcule Ẑ4 (`) para ` = 1, 2, 3, 100;
Exercı́cio 3.31. Explique os passos que devem ser seguidos para a modelagem de uma série
temporal na metodologia ARIMA. Considere a possibilidade de não-estacionariedade da série.
(a) ARIMA(1,1,0)
(b) ARIMA(1,1,1)
(c) ARIMA(1,2,1)
(d) ARIMA(2,1,2)
(b) Calcule a previsão um passo a frente e dois passos a frente para a série yt , ou seja, yb440 (1)
e yb440 (2). R: yb440 (1) = 13.05 e yb440 (2) = 11.09.
(c) Calcule o erro de previsão um e dois passos a frente, e440 (1) e e440 (2), sabendo-se que
y441 = 12.57 e y442 = 9.93. R: e440 (1) = 0.478 e e440 (2) = −1.157.
3.10. EXERCÍCIOS PARA SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 101
(b) Calcule a previsão um passo a frente e dois passos a frente para a série yt , ou seja, yb440 (1)
e yb440 (2). R: yb440 (1) = 881.99 e yb440 (2) = 899.74.
(c) Calcule o erro de previsão um e dois passos a frente, e440 (1) e e440 (2), sabendo-se que
y441 = 879.64 e y442 = 892.21. R: e440 (1) = −2.35 e e440 (2) = −7.53.
Exercı́cio 3.35. Seja yt o logaritmo de taxa de câmbio iene/US$. A seguinte regressão foi
proposta: ∆yt = β0 + β1 yt−1 + ut . As estimativas seguem abaixo:
Estimativa dp(·)
βb0 0.162 0.435
βb1 0.099 0.025
Sabendo-se que n = 777, faça o teste DF e responda se a série inf apresenta raiz unitária.
Nota: A tabela com os valores crı́ticos para o teste de DF se encontra no final da lista. Note
que τ se refere ao modelo sem constante, τµ ao modelo com constante e ττ ao modelo com
tendência.
Exercı́cio 3.36. Utilizando os dados anuais (1959-1995) de log(P IB) norte americano, a
seguinte regressão foi proposta: ∆log(P IB)t = β0 + β1 t + β2 log(P IB)t−1 + β3 ∆log(P IB)t−1 +
ut . As estimativas seguem abaixo:
Estimativa dp(·)
βb0 1.650 0.670
βb1 0.0059 0.003
βb2 -0.320 0.087
βb3 0.264 0.126
n = 35
102 CAPÍTULO 3. SÉRIES TEMPORAIS
(a) Faça o teste ADF e responda se a série inf apresenta raiz unitária.
(b) A inclusão da variável ∆log(P IB)t−1 no modelo acima parece ser necessária? Justifique.
Estimativa dp(·)
βb0 1.360 0.517
βb1 -0.310 0.103
βb2 0.138 0.126
n = 47
(a) Faça o teste ADF e responda se a série inf apresenta raiz unitária.
(b) A inclusão da variável ∆inft−1 no modelo acima parece ser necessária? Justifique.
(d) A estatı́stica t-Student pode ser usada para testar a presença de raiz unitária. F
(e) O processo pode ser escrito em uma forma alternativa como ∆yt = δyt−1 + εt em que
δ = φ1 − 1 e ∆yt = yt − yt−1 . V
(a) Aceitou a hipótese nula do teste ADF, concluindo que as séries de renda e consumo são
não-estacionárias. V
3.10. EXERCÍCIOS PARA SÉRIES TEMPORAIS NÃO ESTACIONÁRIAS 103
(d) Necessita fazer mais outros testes para verificar se a regressão estimada é espúria. V
(b) se Ct e Yt são integradas, mas com ordens de integração diferentes, então a regressão
será inválida. V
(c) se Ct e Yt são I(1), então o teste ADF aplicado aos resı́duos da regressão poderá identificar
a presença de co-integração entre as variáveis. V
(d) se Ct e Yt são I(1), mas os resı́duos são I(0), então há co-integração entre as variáveis.
V
(e) se Ct e Yt são I(1) e os resı́duos também são I(1), então a regressão de ∆Ct em ∆Yt é
inválida. F
(d) se yt for I(1), zt for I(1) e ut for I(0), então yt e zt são co-integradas. V
Exercı́cio 3.42. Responda V ou F, justificando sua resposta. Com respeito à teoria das séries
temporais, são corretas as afirmativas:
(a) Considere uma série temporal Yt auto-regressiva de ordem 1 com parâmetro ρ. No modelo:
Yt − Yt−1 = δYt−1 + ut , em que ut é um ruı́do branco e δ = ρ − 1, se δ for de fato igual
a zero, a série Yt será não estacionária. V
(b) Numa regressão linear simples de duas séries temporais não estacionárias de ordem 1, o
teste usual t de Student ainda é válido. F
104 CAPÍTULO 3. SÉRIES TEMPORAIS
(c) Numa regressão linear múltipla de séries temporais de ordem 1, mas cointegráveis, não
se corre o risco de os resultados serem espúrios. V
(d) Numa regressão linear múltipla de séries temporais de ordem 1, mas cointegráveis, os
resı́duos da regressão são estacionários. V
(e) Se uma série temporal tiver que ser diferenciada n vezes antes de se tornar estacionária,
a série original é integrada de ordem n − 1. F
Exercı́cio 3.43. Sejam Yt e Xt duas séries temporais. Considere os resultados dos seguintes
modelos de regressão estimados por mı́nimos quadrados ordinários (MQO):
(d) Para que duas variáveis sejam cointegradas é necessário que ambas tenham a mesma
ordem de integração.
(e) A rejeição da hipótese nula do teste Dickey-Fuller implica que a variável em questão é
não-estacionária.
107
108 CAPÍTULO 4. MODELOS COM VARIÁVEIS INSTRUMENTAIS (VI)
tivos que veremos logo mais) torna a estimativa via MQO de β1 viciada e inconsistente. Uma
maneira de contornar este problema é substituir a variável aptid por uma variável observável
altamente correlacionada com aptid que será usada como proxy para aptidão. Tal variável é
denominada variável proxy e idealmente deve satisfazer as seguintes condições:
(a) Ser altamente correlacionada com a variável não observada que pretende substituir;
Com uma boa proxy, podemos estimar o modelo por MQO e obter “boas” estimativas para
β1 (4.1). No que segue assumiremos que variáveis proxys não estão à disposição.
Y = β0 + β1 X1 + β2 X2 + ε, (4.2)
Y = β0 + β1 X1 + ξ (4.3)
de onde segue que o estimador de MQO é não viciado se, e somente se, Cov(X1 , ξ) = 0.
Pode-se mostrar ainda que se Cov(X1 , ξ) 6= 0, o estimador de MQO será inconsistente. Agora
observe que
que é zero se, e somente se, Cov(X1 , X2 ) = 0, o que nem sempre acontece na prática. Em
outras palavras, olhando (4.2) como um modelo geral de onde foi omitida a variável X2
resultando no modelo (4.3), se X1 e X2 são correlacionados então o estimador de MQO é
viciado e inconsistente! No entanto estimativas consistentes ainda podem ser obtidas, como
veremos adiante. Uma outra alternativa é dada no seguinte exemplo:
4.1. VARIÁVEIS INSTRUMENTAIS 109
Exemplo 4.1. Suponha que um pesquisador deseja estimar o efeito causal do tabagismo
sobre a saúde geral, como em Leigh e Schembri 2004 [1]). Em princı́pio, a existência de
correlação entre a saúde e o hábito de fumar não implica necessariamente que o fumo piora
a saúde, porque outras variáveis podem afetar tanto a saúde quanto o hábito de fumar. Por
exemplo, pode ocorrer por acaso que pessoas de uma certa cidade exposta à poluição radioativa
fumem muito, mas é a poluição que realmente causa problemas de saúde à esta população em
estudo. Mesmo que o tabagismo cause realmente problemas, a saúde em si pode afetar o
hábito de fumar (digamos, um paciente muito doente pode se sentir instigado a fumar mais).
Fazer estudos controlados (por exemplo, colocar uma pessoa num laboratório, sem exposição
à poluição, fumando quantidades controladas) pode ser difı́cil, caro ou anti-ético. Uma opção
alternativa, portanto, seria o pesquisador tentar estimar o efeito causal do tabagismo sobre a
saúde a partir de dados observacionais, utilizando, por exemplo, a alı́quota de imposto sobre
o tabaco como um instrumento para fumar em uma regressão de saúde. Se as alı́quotas de
imposto sobre o tabaco afetam apenas (positivamente, imagina-se) a saúde porque eles afetam
o hábito de fumar (mantendo as outras variáveis do modelo fixas), a correlação entre impostos
sobre o tabaco e a saúde é uma evidência de que o tabagismo provoca alterações na saúde.
Uma estimativa do efeito do tabagismo sobre a saúde podem ser feita também fazendo uso da
correlação entre os impostos e os hábitos de fumar.
Exemplo 4.2. Para explicar o rendimento de um aluno da UFRGS, podemos estar interes-
sados em usar como variáveis explicativas (dentre outras): renda familiar, número de horas
dedicadas ao estudo, tempo necessário para o trajeto casa-UFRGS, etc. Todas essas variáveis
estão sujeitas a erros de mensuração, pois os alunos podem errar (deliberadamente ou não)
ao responder à pesquisa. Se os erros forem puramente aleatórios, isto é, não estiverem corre-
lacionados com outras variáveis relevantes, as hipóteses do modelo acima serão satisfeitas.
Exemplo 4.3. A Meta-análise é uma técnica que visa agregar a informação contida em várias
fontes. Em áreas como música, cinema e televisão são muito comuns os sites que apresentam
resumos das crı́ticas de um determinado álbum/filme/série em uma única avaliação agre-
gada. Exemplos são os sites Rotten Tomatoes, Metacritic, Allmusic, dentre muitos outros.
A idéia estatı́stica destes sites é obter uma avaliação para um determinado assunto a partir
da análise agragada de avaliações dadas por crı́ticos, espectadores, mı́dia, blogs, sites, etc.
Cada avaliação obtida é agregada ao total, de onde uma avaliação única é calculada. Para
exemplificar vamos supor que estamos interessados na avaliação do último álbum do Metallica
(Hard Wired... to Self-Destruct, 2016). Para isso, estabelecemos uma escala a avaliação do
álbum e passamos a vasculhar a internet por informações a respeito do álbum. Vamos supor
que encontramos 20 sites com avaliações do álbum. Cada uma dessas avaliações é baseada
em diversas avaliações individuais de pessoas que visitaram o site. Por exemplo, a avaliação
final de um determinado site é dada pela média das avaliações dos visitantes do site. No final,
teremos coletado 20 avaliações de sites especializados, onde cada avaliação representa a média
dos indivı́duos que avaliaram o álbum. Desta forma os dados que coletamos não representam
110 CAPÍTULO 4. MODELOS COM VARIÁVEIS INSTRUMENTAIS (VI)
a opinião de ouvintes individuais (a população neste caso), mas a média dessas opiniões,
que pode ser diferente de todas as avaliações dadas e que certamente varia de site pra site.
Esta avaliação, portanto, considerada como uma observação de indivı́duos da população, traz
consigo um erro aleatório de medição gerada pelo agregamento das informações individuais.
Y = β0 + β1 X + ε, (4.4)
em que Cov(X, ε) = 0 e Var(ε) = σε2 . A princı́pio, nesse contexto a estimação por MQO
deveria gerar estimadores consistentes dos parâmetros. Vamos supor que, por algum motivo,
a variável X seja observada com um erro aleatório. Isto é, suponha que observamos na prática
observamos
X ∗ = X + e, (4.5)
onde assumimos que
A aleatóriedade dos erros é fundamental na análise que segue. Reescrevendo o modelo (4.4)
em função da variável observada X ∗ :
Y = β0 + β1 X + ε = β0 + β1 (X ∗ − e) + ε = β0 + β1 X ∗ + ξ, (4.6)
onde ξ = ε − β1 e faz o papel de erro na regressão. Observe que os estimadores via MQO de
β0 e β1 em (4.6) são exatamanente os mesmos de (4.4), embora seja esta última regressão que
estamos efetivamente estimando dada a presença de erros aleatrórios nas observações. Agora
Em outras palavras, a estimação via MQO na presença de variáveis com erro (aleatório) de
medição resulta em estimativas inconsistentes. Observe ainda que, dada uma amostra de
tamanho n do modelo (4.4),
Pn Pn
i=1 (xi − x)yi (xi − x)εi
β̂ = Pn 2
= β + Pi=1
n 2
,
i=1 (xi − x) i=1 (xi − x)
Considere o modelo
Y = β0 + β1 X + ε, (4.7)
4.1. VARIÁVEIS INSTRUMENTAIS 111
Cov(Z, ε) = 0 (4.8)
Cov(Z, X) 6= 0. (4.9)
1. não ser correlacionada com o termo de erro do modelo, ou seja, não correlacionada com
aptid no exemplo 4.4;
2. correlacionada com a variável endógena, ou seja, no caso do exemplo 4.4, ela deve ser
correlacionada com educ.
Cov(Z, Y )
β1 = . (4.11)
Cov(Z, X)
Da mesma maneira como procedemos no caso de MQO, o estimador de VI para β0 é dado por
β̂0V I = Y − β̂1V I X.
4.1. VARIÁVEIS INSTRUMENTAIS 113
σ2
β̂1V I ≈ N β1 , 2 ε 2 , (4.12)
nσX ρXZ
ou seja, para n grande a variância do estimador é dada por
Var(ε) σε2
Var(β̂1V I ) = = . (4.13)
nVar(X)Cor(X, Z) 2 nσX ρ2XZ
2
A equação (4.13) nos revela algo fundamental na escolha de um bom instrumento: quanto
maior a correlação entre o instrumento e a variável, menor é a variância do estimador de VI.
Por esta razão, devemos procurar um instrumento que tenha a mais alta correlação possı́vel
com X. Sabemos que
σ2
Var(β̂1M QO ) = ε2 , (4.14)
nσX
e desta forma obtemos que
σε2 Var(β̂1M QO )
Var(β̂1V I ) = 2 2 =
nσX ρXZ ρ2XZ
de onde concluı́mos que Var(β̂1V I ) ≥ Var(β̂1M QO ) com igualdade ocorrendo se, e somente se,
|Cor(X, Z)| = 1. Ou seja, a menos que Z seja um instrumento perfeito para X (o que não
ocorre na prática), o estimador de MQO sempre possui menor variância que o estimador de
VI.
O viés assintótico de VI e MQO pode ser estudado usando os respectivos limites de pro-
babilidade, que são:
Cor(z, ε) σε
plim(β̂1V I ) = β1 + (4.15)
Cor(X, Z) σX
e
σε
plim(β̂1M QO ) = β1 + Cor(X, ε) . (4.16)
σX
1. Obter Pn
(niri − nir)(yi − y)
β̂1V I = Pni=1 ;
i=1 (niri − nir)(xi − x)
2. Obter Pn 2
2 i=1 ûiV I
σ̂ = ,
n−2
em que ûVi I = yi − β̂0V I − β̂1V I educ;
2
3. Obter Reduc,nir , que é o R2 de
educ = α0 + α1 nir + v;
(
H0 : β1V I = 0;
5. Teste:
H1 : β1V I 6= 0.
Um exemplo para ver a diferença entre as estimativas obtidas pelos dois métodos de
estimação (MQO e VI), é o exemplo abaixo, reproduzido com pequenas adaptações do exemplo
15.1 do Wooldridge.
Exemplo 4.5. Utilizamos os dados sobre mulheres casadas que trabalham contidos no arquivo
MROZ.RAW para estimar o retorno da educação no modelo de regressão simples
Y = β0 + β1 X + ε,
onde Y é o logaritmo do salário das mulheres casadas por hora e X representa a educação.
Para comparação, obtemos a reta estimada via MQO para Y ,
X̂ =10.24 + 0.269Z
(0.28) (0.029)
4.1. VARIÁVEIS INSTRUMENTAIS 115
Y1 = β0 + β1 Y2 + β2 Z + ε. (4.20)
Usamos essa notação para identificar as variáveis endógenas (Y ’s) e as variáveis exógenas
(Z’s). Um exemplo para (4.20) é
Y2 = π0 + π1 Z1 + π2 Z2 + , (4.22)
em que E() = 0, Cov(Z1 , ) = 0, Cov(Z2 , ) = 0 e os πj são parâmetros desconhecidos. A
condição de identificação fundamental é que
π2 6= 0,
116 CAPÍTULO 4. MODELOS COM VARIÁVEIS INSTRUMENTAIS (VI)
Y1 = β0 + β1 Y2 + β2 Z1 + β3 Z2 + . . . + βk Zk−1 + ε. (4.23)
Se Zk é uma variável exógena e queremos usá-la como uma VI para Y2 , devemos proceder de
forma semelhante a (4.22), escrevendo a equação na forma reduzida
πk 6= 0.
Nesta subseção vamos mostrar a equivalência do estimador VI com MQ2E. Para isso
consideremos a equação estrutural com uma variável endógena
Y = β0 + β1 X + ε, (4.25)
em que Cov(X, ε) 6= 0. Seja Z um instrumento para X.
O procedimento MQ2E consiste em:
yi = β0 + β1 x̂i + ηi , (4.27)
para i = 1, . . . , n, ou seja, usar X̂ como uma VI para X.
Esse procedimento resulta em uma estimativa para β1 equivalente a β̂1V I , como será
demonstrado a seguir.
Note que:
4.1. VARIÁVEIS INSTRUMENTAIS 117
Y2 = π0 + π1 Z1 + π2 Z2 + π3 Z3 + , (4.28)
em que E() = 0, Cov(Z1 , ) = 0, Cov(Z2 , ) = 0 e Cov(Z3 , ) = 0. Portanto, a melhor VI de
Y2 é a combinação linear dos Zj , que denotaremos por
Y2∗ = π0 + π1 Z1 + π2 Z2 + π3 Z3 . (4.29)
Para que esta VI não seja perfeitamente correlacionada com Z1 , precisamos que
π2 6= 0 ou π3 6= 0. (4.30)
Se essa hipótese de identificação, a qual pode ser testada usando-se um teste F , for satisfeita,
então podemos usar Y2∗ como VI para Y2 .
Observação 4.1.2. Quando o problema é a existência de variáveis explicativas endógenas
múltiplas, será necessária que existam pelo menos tantas variáveis exógenas excluı́das do
modelo quantas forem as endógenas incluı́das.
Observação 4.1.3. Se para cada endógena existe uma única exógena, então podemos chamar
118 CAPÍTULO 4. MODELOS COM VARIÁVEIS INSTRUMENTAIS (VI)
Como visto anteriormente, a condição (4.8) não pode ser testada, logo não podemos ter
certeza se os regressores (variáveis explicativas) estão ou não correlacionados com o erro. Se
não houver correlação, é melhor utilizar mı́nimos quadrados ordinários que o estimador de
variáveis instrumentais ou MQ2E. No entanto, pela estimação pura e simples é impossı́vel
descobrir se há correlação entre os regressores e o erro.
Teste de Hausmann
O teste de especificação proposto por Hausmann em 1978 é um teste utilizado para avaliar a
consistência de um estimador comparado a um outro estimador alternativo e pode ser utilizado
no contexto de endogeneidade.
A lógica de Hausmann é a seguinte: sob a hipótese nula (ausência de correlação entre os
regressores e o termo de erro), o econometrista tem em mãos dois estimadores consistentes para
a matriz de parâmetros: o estimador de mı́nimos quadrados ordinários β̂M QO e o estimador de
variáveis instrumentais β̂V I . Sob a hipótese alternativa, no entanto, somente um destes, β̂V I ,
é consistente. Portanto, a sugestão foi examinar a diferença d = β̂V I − β̂M QO . O resultado
desta diferença converge em probabilidade para zero apenas sob a hipótese nula. Podemos
testar esta hipótese usando o teste de Wald.
Teste de Regressão
Para ilustrar, suponha que temos uma única variável suspeita de ser endógena,
Y1 = β0 + β1 Y2 + β2 Z1 + β3 Z2 + ε, (4.31)
em que Z1 e Z2 são exógenos. Temos duas outras variáveis exógenas, Z3 e Z4 , que não
aparecem no modelo (4.31). Se y2 for não correlacionado com ε, devemos estimar (4.31) por
MQO. Wooldridge 2011 sugere que é mais fácil usar um teste de regressão para testar se Y2
é endógena. Isto é feito com base na estimação da forma reduzida de Y2 , que neste caso é
Y2 = π0 + π1 Z1 + π2 Z2 + π3 Z3 + π4 Z4 + . (4.32)
Agora, como cada Zj é não correlacionado com ε, Y2 será não correlacionado com ε se, e
somente se, for correlacionado com ε; isso é o que queremos testar. Deverı́amos escrever o
modelo
ε = δ1 + η1 (4.33)
e testar se δ1 = 0. No entanto, não temos ε nem . A sugestão é usar ˆ2 como um regressor
em (4.31).
4.2. EXERCÍCIOS 119
Y1 = β0 + β1 Y2 + β2 Z1 + β3 Z2 + δ1 Ŷ2 + e;
4.2 Exercı́cios
Exercı́cio 4.1. Qual a motivação para o uso da estimação por variáveis instrumentais? Como
se pode definir um bom instrumento?
Exercı́cio 4.3. Quais são as caracterı́sticas de uma boa variável proxy e um bom instrumento?
Exercı́cio 4.4. Seja X a matriz cujas colunas são compostas pelas variáveis x1 , . . . , xk . As
condições E[u/X] = 0 e Cov(u, xj ) = 0, para todo j = 1, . . . , k, são equivalentes? Explique o
que estas condições significam na prática.
y = β0 + β1 x1 + β2 x2 + u,
Exercı́cio 4.9. Suponha que você queira estimar o efeito da frequência às aulas sobre o
desempenho dos alunos (respad - resultado padronizado em um exame final). Um modelo
básico é
respad = β0 + β1 taxaf req + β2 prsGP A + β3 ACT + u,
em que taxafreq é a taxa de frequência, prsGP A é a média geral das notas em curso superior
no último semestre.
a) Defina dist como a distância da residência do aluno até o local de estudos. Você considera
que dist é não correlacionada com u?
b) Suponha que dist e u não sejam correlacionadas, que outra hipótese dist terá que satisfazer
para ser uma VI válida de taxaf req?
Se taxaf req for correlacionada com u, então em geral, prsGP A.taxaf req também será.
O que poderia ser uma boa VI para prsGP A.taxaf req?
y = β0 + β1 x1 + β2 x2 + u,
em que x2 é endógena, a estimativa do parâmetro β1 obtida via MQO é viesada mesmo que
Cov(x1 , x2 ) = 0?
MQO VI
Sample b1 e.p.(b1 ) b2 e.p.(b2 ) b1 e.p.(b1 ) b2 e.p.(b2 )
1 0.36 0.39 1.11 0.22 2.33 0.97 0.16 0.45
2 0.45 0.38 1.06 0.17 1.53 0.57 0.53 0.26
3 0.65 0.27 0.94 0.12 1.13 0.32 0.70 0.15
4 0.41 0.39 0.98 0.19 1.55 0.59 0.37 0.30
5 0.92 0.46 0.77 0.22 2.31 0.71 0.06 0.35
6 0.26 0.35 1.09 0.16 1.24 0.52 0.59 0.25
7 0.31 0.39 1.00 0.19 1.52 0.62 0.33 0.32
8 1.06 0.38 0.82 0.16 1.95 0.51 0.41 0.22
9 -0.08 0.36 1.16 0.18 1.11 0.62 0.45 0.33
10 1.12 0.43 0.69 0.20 2.26 0.61 0.13 0.29
Exercı́cio 4.13. (ANPEC 2008)Suponha que o modelo abaixo descreva as relações entre
quatro variáveis aleatórias escalares: y,X,Z, e V .
E(y/X, Z) = β0 + β1 X + β2 Z
y = β0 + β1 x + u,
(b) Quanta correlação deverá existir entre x e u antes que o MQO tenha mais viés assintótico
que o MQ2E?
Capı́tulo 5
Equações Simultâneas
Demanda: Qdt = α0 + α1 Pt + α2 Rt + ut
Oferta: Qst = β0 + β1 Pt + vt
Equilı́brio: Qdt = Qst .
123
124 CAPÍTULO 5. EQUAÇÕES SIMULTÂNEAS
• variáveis exógenas;
• variáveis defasadas;
• Constantes;
Considere o seguinte modelo para a oferta e demanda para uma commodity em função do
preço e do rendimento:
Demanda: Qdt = α0 + α1 Pt + α2 Rt + εt
Oferta: Qst = β0 + β1 Pt + ξt (5.1)
Equilı́brio: Qdt = Qst .
onde, no tempo t, Pt denota o preço da commodity, Qdt e Qst denotam a quantidade deman-
dada e ofertada da commodity, e Rt é uma variável exógena relacionada ao rendimento da
5.1. EQUAÇÕES DE OFERTA E DEMANDA 125
α0 + α1 Pt + α2 Rt + εt = β0 + β1 Pt + ξt
⇐⇒ (α1 − β1 )Pt = β0 − α0 + α2 Rt + ξt − εt
β0 − α0 α2 ξ t − εt
⇐⇒ Pt = + Rt + = π0 + π1 Rt + ηt .
α1 − β1 α1 − β1 α1 − β1
| {z } | {z } | {z }
=π0 =π1 =ηt
Qt = β0 + β1 (π0 + π1 Rt + ηt ) + ξt = β0 + β1 π0 + β1 π1 Rt + β1 ηt + ηt = θ0 + θ1 Rt + ζt
onde
β0 − α0 α1 β0 − α0 β1
θ 0 = β0 + β1 π0 = β0 + β1 =
α1 − β 1 α1 − β1
β1 (β0 − α0 ) β1 (ξt − εt ) α 1 ξ t − β 1 εt
θ1 = β 1 π 1 = e ζt = + ξt = .
α1 − β1 α1 − β1 α1 − β1
As equações Pt = π0 + π1 Rt + ηt e Qt = θ0 + θ1 Rt + ζt com os coeficientes dados acima são
chamadas de equações na forma reduzida de Pt e Qt . Segue que
Já vimos que não podemos estimar o modelo via MQO. Temos uma segunda questão: Se
regredirmos Qt em Pt , estaremos captando a reta estimada de oferta ou de demanda?
Podemos nos deparar com situações mais complexas, como por exemplo despesas e pou-
pança familiares. Suponhamos que, para uma famı́lia escolhida aleatoriamente na população,
presumimos que os gastos e poupança familiares anuais sejam conjuntamente determinados
126 CAPÍTULO 5. EQUAÇÕES SIMULTÂNEAS
por
onde renda é a renda anual e educ e idade são indicadas em anos e são variáveis exógenas.
Essa suposição, baseada na maximização da utilidade, é bem razoável indicando que poupf
e gastof são cada uma função da renda, educação, idade e outras variáveis que afetem o
problema da maximização da utilidade, tais como as diferentes taxas de retorno sobre gastos
familiares e outras poupanças.
Para motivarmos o método MQI vamos considerar o seguinte sistema de equações si-
multâneas que serve como modelo para a oferta e demanda de uma commodity agrı́cola em
função do preço, rendimento populacional e condições climáticas de produção
Demanda: Qdt = α0 + α1 Pt + α2 Rt + εt ;
Oferta: Qst = β0 + β1 Pt + β2 Ct + ξt ; (5.3)
Equilı́brio: Qdt = Qst = Qt ,
onde Qdt , Qst e Pt são endógenas, Ct e Rt são exógenas (condições climáticas e rendimento)
e εt e ξt denotam os respectivos erros não correlacionados entre si e nem com as variáveis
exógenas.
Procedendo como anteriormente, a condição de equilı́brio implica
α0 + α1 Pt + α2 Rt + ε = β0 + β1 Pt + β2 Ct + ξt
β0 − α0 β2 α2 ξ−ε
⇐⇒ Pt = + Ct − Rt + = π0 + π1 Ct + π2 Rt + ηt ,
α1 − β1 α1 − β1 α1 − β 1 α1 − β1
onde
β 0 − α0 β2 α2 ξ t − εt
π0 = , π1 = , π2 = − , e ηt = .
α1 − β1 α1 − β 1 α1 − β 1 α1 − β 1
Substituido na equação da oferta obtemos
Qt = β0 + β1 (π0 + π1 Ct + π2 Rt + η) + β2 Ct + ξt ;
= β0 + β1 π0 + (β1 π1 + β2 )Ct + β1 π2 Rt + β1 ηt + ξt ;
= θ0 + θ1 Ct + θ2 Rt + ζt ,
5.1. EQUAÇÕES DE OFERTA E DEMANDA 127
onde
β0 − α0 α1 β 0 − α0 β 1
θ0 = β0 + β1 π0 = β0 + β1 = ;
α1 − β1 α1 − β 1
β2 α1 β2
θ1 = β1 π1 + β2 = β1 + β2 = ;
α1 − β1 α1 − β 1
α2 β1 ξ t − εt α 1 ξ t − β 1 εt
θ2 = − ; e ζt = β 1 η t + ξt = β 1 + ξt = .
α1 − β 1 α1 − β 1 α1 − β 1
Pt = π0 + π1 Ct + π2 Rt + ηt , (5.4)
Qt = θ0 + θ1 Ct + θ2 Rt + ζt .
Observe que Rt e Ct são exógenas e, portanto, podemos estimar as equações via MQO e obter
estimativas consistentes.
Note também que temos seis parâmetros estruturais em (5.3) e seis parâmetros nas
equações reduzidas (5.4). Após a estimação teremos um sistema com seis equações e seis
incógnitas. Assim, é possı́vel estimar, consistentemente, os parâmetros estruturais mas de
forma indireta. Esse procedimento é chamado mı́nimos quadrados indiretos (MQI). Primei-
ramente formamos o sistema de 6 equações e 6 incógnitas obtidas a partir das equações na
forma reduzidas:
β0 − α0 β2 α2
π0 = , π1 = , π2 = − ,
α1 − β1 α1 − β1 α1 − β 1
α1 β0 − α0 β1 α1 β 2 α2 β1
θ0 = , θ1 = , θ2 = − .
α1 − β1 α1 − β1 α1 − β 1
O objetivo é obter a solução deste sistema em função dos πj ’s e θj ’s. Note que
θ1 θ2
θ1 = α1 π1 ⇐⇒ α1 = e θ2 = β1 π2 ⇐⇒ β1 =
π1 π2
subtituindo estes dois resultados sobre α1 e β1 nas equações de π1 e π2 obtemos
θ1 θ2 θ2 θ1
β2 = π1 (α1 − β1 ) = π1 − e α2 = −π2 (α1 − β1 ) = π2 − .
π1 π2 π2 π1
Sejam agora π̂0 , π̂1 , π̂2 , θ̂0 , θ̂1 , θ̂2 os estimadores de MQO obtidos a partir de (5.4). Os estima-
dores de MQI para α0 , α1 α2 , β1 , β2 , β3 são obtidos substituindo-se as respectivas estimativas
π̂i e θ̂i nas soluções (5.5). As estimativas para α0 , α1 α2 , β1 , β2 , β3 assim obtidas são chamadas
de estimativas por Mı́nimos Quadráticos Indiretos.
Exemplo 5.4. Considere o modelo para a oferta e demanda em função do preço e de uma
variável exógena Rt
(demanda) Qdt = α0 + α1 Pt + α2 Rt + εt ;
(oferta) Qst = β0 + β1 Pt + ξt , (5.6)
(equilı́brio) Qst = Qdt = Qt ,
α0 − β0 α2 ε t − ξt
Pt = + Rt +
β1 − α1 β1 − α1 β1 − α1
α0 β1 − β0 α1 α2 β 1 β1 εt − α1 ξt
Qt = + Rt + ,
β1 − α1 β1 − α1 β 1 − α1
que pode ser reescrita como
Pt = θ0 + θ1 Rt + ηt
Qt = γ0 + γ1 Rt + ζt .
Como ηt e ζt são funções de εt e ξt , estas não são correlacionadas com Rt , sendo possı́vel
obter estimadores consistentes via MQO. Observe, porém, que após obtermos as estimativas de
MQO teremos 5 parâmetros estruturais e 4 equações (parâmetros na forma reduzida). Assim,
não é possı́vel estimar todos os parâmetros estruturais. Mas é possı́vel obter as estimativas
dos parâmetros estruturais da equação de oferta. De fato, temos que resolver o sistema
α0 − β 0 α2 α0 β 1 − α1 β 0 α2 β 1
θ0 = , θ1 = , γ0 = , γ1 = . (5.7)
β1 − α1 β1 − α1 β 1 − α1 β1 − α1
5.1. EQUAÇÕES DE OFERTA E DEMANDA 129
Denotando por γ̂i e θ̂i as estimativas de MQO obtidas das equações reduzidas, para i = 0, 1,
as estimativas de MQI para β0 e β1 são dadas por
Como mostrou o exemplo 5.4, nem sempre temos o mesmo números de parâmetros estru-
turais e incógnitas nas equações estruturais, e assim nem sempre poderemos utilizar o MQI
para estimar todos os parâmetros da equação estrutural. Então, antes de proceder com a
estimação via MQI, temos que primeiramente resolver o problema da identificação.
O problema pode ser descrito como sendo a possibilidade de estimar os parâmetros estru-
turais a partir dos coeficientes estimados na forma reduzida. Uma equação pode ser
Não identificada (ou subidentificada)
(
Exatamente Identificada
Identificada −→
Sobredentificada (ou super identificada)
No sistema de equações estruturais (5.3), as equações para a oferta e demanda são am-
bas exatamente identificadas. No exemplo 5.4, a equação da demanda é não identificada e a
equação da oferta é exatamente identificada. Para exemplificar o caso em que há sobreiden-
tificação, considere o modelo
(demanda) Qdt = α0 + α1 Pt + α2 Yt + α3 Wt + εt ;
(oferta) Qst = β0 + β1 Pt + β2 Rt + ξt ,
(equilı́brio) Qst = Qdt = Qt ,
130 CAPÍTULO 5. EQUAÇÕES SIMULTÂNEAS
Pt = γ0 + γ1 Yt + γ2 Rt + γ3 Wt + ηt
Qt = θ0 + θ1 Yt + θ2 Rt + θ3 Wt + ζt .
Neste caso temos sete parâmetros estruturais e oito equações. Assim, com mais equações do
que incógnitas é possı́vel encontrar mais de uma solução, ou seja, mais do que uma estimativa
para cada parâmetro estrutural.
K − η ≥ m − 1. (5.8)
A igualdade deve ser satisfeita para que o sistema seja exatamente identificado e a desigualdade
deve valer para que o sistema seja sobreidentificado. No caso em que existe um termo constante
na equação, esta é considerada uma variável exógena na equação. Embora as constantes sejam
possivelmente diferentes entre equações, consideraremos que estas são o coeficiente de uma
variável X0 que assume o valor constante X0 = 1 com probabilidade 1. Caso todas as equações
possuam intercepto, incluir a constante como variável exógena, ou não, não afeta o resultado.
Caso contrário, fará diferença.
Y1 = α0 + α1 Y2 + α2 Y3 + α3 X1 + ε1 ,
Y2 = β0 + β1 Y3 + β2 X2 + ε2 ,
Y3 = γ0 + γ1 Y1 + γ2 Y2 + γ3 X1 + ε3 .
Ressaltamos que a condição de ordem é somente necessária, sendo que existem casos em
que a condição de ordem é satisfeita, mas a equação é de fato não identificada. A condição de
ordem é muito difundida devido principalmente a sua simplicidade de aplicação. Uma condição
necessária e suficiente para a identificação é a chamada condição de posto. Acontece, porém,
que a condição de posto é geralmente difı́cil de verificar quando o sistema é muito grande.
Y1 = α0 + α1 Y2 + α2 Y3 + α3 X1 + ε1 ;
Y2 = β0 + β1 Y3 + β2 X2 + ε2 ;
Y3 = γ0 + γ1 Y1 + γ2 Y2 + γ3 X1 + ε3 .
ε1 = Y1 − α0 − α1 Y2 − α2 Y3 − α3 X1 ;
ε2 = Y2 − β0 − β1 Y3 − β2 X2 ; (5.9)
ε3 = Y3 − γ0 − γ1 Y1 − γ2 Y2 − γ3 X1 .
A partir do sistema (5.9) criamos uma matriz de coeficientes onde cada coluna contém os
coeficientes de cada uma das equações que aparecem no sistema:
Y1 Y2 Y3 X0 X1 X2
Equação 1 1 −α1 α2 −α0 −α3 0
Equação 2 0 1 −β1 −β0 0 −β2
Equação 3 −γ1 γ2 1 γ0 −γ3 0
onde lembramos que X0 representa a variável relativa aos interceptos em cada equação. O
próximo passo é, para cada variávela ausente na equação, formar uma submatriz com os
coeficientes de cada uma das outras equações para o respectivo coeficiente. Esta matriz é
denotada por Ai onde i indica a qual equação a submatriz pertence. Como na primeira
132 CAPÍTULO 5. EQUAÇÕES SIMULTÂNEAS
Agora seja G o número de variáveis endógenas no sistema. Para decidirmos se uma deter-
minada equação é identificada ou não, comparamos o posto da submatriz obtida com G − 1
através da seguinte regra
<G−1 =⇒ a i-ésima equação não é identificada;
Posto(Ai ) =G−1 =⇒ a i-ésima equação é exatamente identificada;
>G−1 =⇒ a i-ésima equação é sobreidentificada.
Neste caso, temos G = 3 e como Posto(A1 ) = 1 < 2 = G − 1, segue que a primeira equação
não é identificada. Agora para a segunda equação
1 −α3
A2 = .
−γ1 −γ3
Observe que o posto de A2 pode ser 1 ou 2 dependendo se γ3 = −α3 γ1 (neste caso a segunda
coluna é −α3 vezes a primeira coluna) ou não. Porém, a determinação da identificação
ou não de uma equação tem por objetivo decidir se os coeficientes da equação podem ser
estimados (ou não). Neste caso não sabemos exatamente qual é o valor das variáveis do
sistema, mas como pretendemos utilizar estimativas, estas variam aleatoriamente de acordo
com a amostra que utilizamos para calculá-las. Consideraremos, assim, que as estimativas dos
parâmetros são variáveis aleatórias contı́nuas de forma que a probabilidade de que γ̂3 = −α̂3 γ̂1 ,
(chapéu denota que o valor é obtido pelo estimador), ocorre com probabilidade 0. Em outras
palavras, consideramos que γ3 6= −α3 γ1 com probabilidade 1 e, portanto, Posto(A2 ) = 2 (com
probabilidade 1). Esta abordagem conduzirá a análise de todas as equações. Concluı́mos,
portanto que Posto(A2 ) = 2 = G − 1 e que a segunda equação é exatamente identificada.
Para a equação 3 temos
0
A3 = ,
−β2
de onde concluı́mos que a equação 3 também é não identificada.
Exemplo 5.6. Considere o modelo para a oferta e demanda em função do preço e de uma
variável exógena Rt do Exemplo 5.4
(demanda) Qdt = α0 + α1 Pt + α2 Rt + εt ;
(oferta) Qst = β0 + β1 Pt + ξt ,
(equilı́brio) Qst = Qdt = Qt ,
εt = Qt − α0 − α1 Pt − α2 Rt ;
ξt = Qt − β0 − β1 Pt ;
5.1. EQUAÇÕES DE OFERTA E DEMANDA 133
1 −α1 −α0 0
A=
1 −β1 −β0 −β2 .
para a primeira equação A1 = [−β2 ] e Posto(A1 ) = 1 de forma que a primeira equação é exa-
tamente identificada. Quanto à segunda, como a segunda equação contém todas as variáveis
do sistema, segue que a submatriz A2 não está definida, assim atribuimos ao posto de A2 o
valor 0. Como 0 < 1 = G − 1, segue que a segunda equação é não identificada.
Estimação
5.2 Exercı́cios
Exercı́cio 5.1. Quando usamos modelos de equação simultâneas? O que é o viés de simul-
taneidade em MQO? Como identificar e estimar a equação estrutural?
Exercı́cio 5.2. Detalhe a estimação de equações simultâneas quando se tem sistemas com
mais de duas equações.
y1 = α1 y2 + α2 x1 + u1 ;
y2 = α3 y1 + α4 x2 + u2 ,
y1 = π1 x1 + π2 x2 + u1 ;
y2 = π3 x1 + π4 x2 + u2 ,
Exercı́cio 5.4. Um modelo macroeconômico simples consiste de uma função consumo e uma
identidade de renda:
C = β1 + β2 Y + u
Y = C + I,
em que C é o consumo agregado, I é o investimento agregado, Y é a renda agregada, e u é
um termo de perturbação. Supondo que I é exógena, derive as equações de forma reduzida
para C e Y .
S = β1 + β2 A + uS
A = α1 + α2 S + uA ,
em que uS e uA são termos de perturbação. A primeira relação reflete o efeito positivo
da publicidade sobre as vendas, e o segundo, o fato de grandes empresas, quando medidas
pelas vendas, tendem a gastar mais em publicidade. Faça uma análise matemática do que
aconteceria se o pesquisador tentasse ajustar o modelo usando MQO.
5.2. EXERCÍCIOS 135
Ct = α1 + α2 Yt + t
It = β1 + β2 Yt + β3 Gt−1 + ut
Yt = Ct + It + Gt
Qot = α1 + α2 Pt + t
Qdt = β1 + β2 Pt + β3 Yt + β4 Pt−1 + ut
Qdt = Qot
(a) A equação de oferta está identificada? O que acontece se a equação de oferta for estimada
por MQO?
(b) A equação de demanda está identificada? O que acontece se a equação de oferta for
estimada por MQO?
(c) Se você fosse solicitado a estimar a equação de oferta usando variáveis instrumentais, o
que você faria?
(d) Se você fosse solicitado a estimar a equação de oferta usando MQ2E, o que você faria?
(e) Você usaria MQI para estimar a equação de demanda? Por que sim ou por que não?
Y1 = α1 + α2 Y2 + α4 X1 + α5 X2 + u1
Y2 = β1 + β3 Y3 + β5 X2 + u2
Y3 = γ1 + γ2 Y2 + u3
(a) Usando a condição de ordem, qual das equações acima (se é que há uma) não é identifi-
cada? Qual é exatamente identificada? Qual é sobreidentificada?
136 CAPÍTULO 5. EQUAÇÕES SIMULTÂNEAS
(b) Verifique a condição de posto para cada equação. Qual a conclusão final sobre a identi-
ficação de cada uma das equações acima?
Exercı́cio 5.9. A teoria econômica sugere que a evolução do crescimento dos salários nomi-
nais (w) pode ser explicada pela taxa de inflação (p), da taxa de desemprego (u), da taxa de
crescimento do produto real (y) e da taxa de crescimento do emprego (l). Considere o seguinte
sistema:
ωt = α0 + α1 pt + α2 ut + 1t
pt = β0 + β1 ωt + β2 yt + 2t
(a) Verifique se o sistema é identificado pela condição de ordem e pela condição de posto.
(c) Suponha agora que a produtividade (q) faça parte da primeira equação.
ωt = α0 + α1 pt + α2 ut + α3 qt + 1t
pt = β0 + β1 ωt + β2 yt + 2t
ωt = α0 + α1 pt + α2 ut + α3 qt + 1t
pt = β0 + β1 ωt + 2t