Peso No Stata

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 56

1

AULAS 20 E 21
Modelo de regressão simples
Ernesto F. L. Amaral

22 e 24 de outubro de 2013
Metodologia de Pesquisa (DCP 854B)

Fonte:
Wooldridge, Jeffrey M. “Introdução à econometria: uma abordagem moderna”. São Paulo: Cengage
Learning, 2008. Capítulo 2 (pp.19-63).
2

ESTRUTURA DO LIVRO

– Introdução: principais conceitos em econometria (capítulo


1).

– Parte 1: trata de análise de regressão com dados de corte


transversal (capítulos 2 ao 9).

– Parte 2: análise de regressão com dados de séries


temporais (capítulos 10 ao 12).

– Parte 3: tópicos avançados (capítulos 13 ao 19).


3

DOCUMENTAÇÃO DO LIVRO

– UCLA Academic Technology Services:

http://www.ats.ucla.edu

– Introductory Econometrics: A Modern Approach


by Jeffrey M. Wooldridge:

http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge.html
4

DOCUMENTAÇÃO PARA EXEMPLIFICAÇÕES


– Vamos utilizar a Pesquisa Nacional por Amostra de
Domicílios (PNAD) de 2007 de Minas Gerais para as
demonstrações em sala de aula.

– Os bancos de dados, questionário, livro de códigos e demais


arquivos estão disponíveis no site do Instituto Brasileiro de
Geografia e Estatística (IBGE):
http://www.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2011/microdados.shtm
5

MODELO DE REGRESSÃO SIMPLES


– O modelo de regressão linear simples explica uma variável
(y) com base em modificações em outra variável (x).

– Ou seja, é usado para avaliar a relação entre duas variáveis.

– Esse tipo de regressão não é muito utilizada em ciências


sociais aplicadas, devido à sua simplicidade.

– No entanto, serve como ponto de partida, já que sua álgebra


e interpretações são fáceis de entender.

– O entendimento do modelo de regressão simples é


importante para estudar a regressão múltipla.
6

PREMISSA E EXEMPLOS
– Premissa da análise econométrica:
– y e x são duas variáveis que representam uma
população.
– Estamos interessados em explicar y em termos de x.
– Ou seja, queremos estudar como y varia com variações
em x.

– Exemplos:
– y é o rendimento do trabalhador, e x são os anos de
escolaridade.
– y é a escala ideológica esquerda/direita, e x é o partido
político do deputado.
– y é o índice de tradicionalismo/secularismo, e x é o nível
de escolaridade.
7

PERGUNTAS IMPORTANTES
– Como nunca há uma relação exata entre duas variáveis,
como consideramos outros fatores que afetam y?

– Qual é a relação funcional entre y e x?

– Como podemos estar certos de que estamos capturando


uma relação ceteris paribus (outros fatores constantes) entre
y e x?
8

MODELO DE REGRESSÃO LINEAR SIMPLES


– Também chamado de modelo de regressão linear de duas
variáveis ou modelo de regressão linear bivariada.

– Terminologia:
y x Uso
Variável Dependente Variável Independente Econometria
Variável Explicada Variável Explicativa
Variável de Resposta Variável de Controle Ciências Experimentais
Variável Prevista Variável Previsora
Regressando Regressor
Covariável
9
VOLTANDO ÀS PERGUNTAS IMPORTANTES
– Como nunca há uma relação exata entre duas variáveis,
como consideramos outros fatores que afetam y?

– Variável u é o termo erro ou perturbação da relação.

– Na análise de regressão simples, todos fatores (além de


x) que afetam y são tratados como não-observados.
10
OUTRA PERGUNTA
– Qual é a relação funcional entre y e x?

– Se os outros fatores em u são mantidos fixos, de modo


que a variação em u é zero (∆u=0), então x tem um efeito
linear sobre y, tal como: ∆y=β1∆x; se ∆u=0.

– A linearidade do modelo de regressão linear simples


implica que uma variação de uma unidade em x tem o
mesmo efeito sobre y, independentemente do valor inicial
de x.

– Isso não é realista. Por exemplo, o próximo ano de


escolaridade teria um efeito maior sobre os salários, em
relação ao anterior. Esse problema será tratado adiante.
11

E O PROBLEMA DO CETERIS PARIBUS?


– Estamos capturando uma relação ceteris paribus
(outros fatores constantes) entre y e x?
– A variação em y é β1 multiplicado pela variação em x.
– β1: parâmetro de inclinação da relação entre y e x,
mantendo fixos os outros fatores em u.
– β0: parâmetro de intercepto é raramente analisado.
– β1 mede o efeito de x sobre y, mantendo todos os outros
fatores (em u) fixos.
– No entanto, estamos ignorando todos os outros fatores.
– Os estimadores de β0 e β1 serão confiáveis em uma
amostra aleatória, se o termo não-observável (u) estiver
relacionado à variável explicativa (x) de modo que o valor
médio de u na população seja zero: E(u)=0.
12

HIPÓTESE SOBRE A RELAÇÃO ENTRE x E u


– Se u e x não estão correlacionados, então (como variáveis
aleatórias) não são linearmente relacionados.
– No entanto, a correlação mede somente a dependência
linear entre u e x.
– Na correlação, é possível que u seja não-correlacionado
com x e seja correlacionado com funções de x, tal como x2.
– Melhor seria pensar na distribuição condicional de u, dado
qualquer valor de x.
– Para um valor de x, podemos obter o valor esperado (ou
médio) de u para um grupo da população.
– A hipótese é que o valor médio de u não depende de x:
E(u|x) = E(u) = 0
– Ou seja, para qualquer valor de x, a média dos fatores não-
observáveis é a mesma e, portanto, é igual ao valor médio
de u na população (hipótese de média condicional zero).
13

FUNÇÃO DE REGRESSÃO POPULACIONAL


– Quando E(u|x)=E(u)=0 é verdadeiro, é útil dividir y em:
– Parte sistemática (parte de y explicada por x): β0 + β1x
– Parte não-sistemática (parte de y não explicada por x): u

– Considerando o valor esperado de y=β0+β1x+u condicionado


a x, e usando E(u|x)=0, temos a função de regressão
populacional (FRP), que é uma função linear de x:
E(y|x) = β0 + β1x

– Linearidade: o aumento de uma unidade em x faz com que


o valor esperado de y varie segundo a magnitude de β1.

– Para qualquer valor de x, a distribuição de y está centrada


ao redor de E(y|x).
14
15

ESTIMATIVA DE MÍNIMOS QUADRADOS ORDINÁRIOS


– Para a estimação dos parâmetros β0 e β1, é preciso
considerar uma amostra da população:

{(xi, yi): i=1, ..., n}


– A equação do modelo de regressão simples é escrito como:

– ui é o termo erro para a observação i, já que contém todos


os fatores, além de xi, que afetam yi.

– Um exemplo é a poupança anual para a família i (yi),


dependendo da renda anual desta família (xi), em um
determinado ano.
16
17

ESTIMATIVA DE MÍNIMOS QUADRADOS ORDINÁRIOS


– Como obter estimativas do intercepto (β0) e da inclinação
(β1) na regressão populacional da poupança sobre a renda?
– Na população, u tem média zero. O valor esperado de u é
zero: E(u)=0
– Além disso, u é não-correlacionado com x. A covariância
entre x e u é zero: Cov(x,u)=E(xu)=0
– E(u)=0 pode ser escrita como: E(y-β0-β1x)=0
– Cov(x,u)=E(xu)=0 pode ser escrita como: E[x(y-β0-β1x)]=0
– Como há dois parâmetros desconhecidos para estimar (β0 e
β1), é possível utilizar uma amostra de dados para calcular
as estimativas:

e
18

EQUAÇÕES DA POPULAÇÃO E AMOSTRA


– Média de u na população:

– Média de u na amostra:

– Covariância entre x e u na população:

– Covariância entre x e u na amostra:


19

ESTIMATIVAS DE E
20

ESTIMATIVAS DE MQO DE E

Covariância amostral entre x e y


Variância amostral de x
– Se x e y são positivamente correlacionados na amostra,
é positivo e vice-versa.
21

VARIÂNCIA DE x DEVE SER MAIOR QUE ZERO


– A hipótese necessária para calcular estimativas de mínimos
quadrados ordinários (MQO) é que a variância amostral de x
seja maior que zero.

– Ou seja, os valores de xi na amostra não devem ser todos


iguais a um mesmo valor.
22
23

VALORES ESTIMADOS E RESÍDUOS


– Encontrados o intercepto e a inclinação, teremos um valor
estimado para y para cada observação (x) na amostra:

– O resíduo é a diferença entre o valor verdadeiro de yi e seu


valor estimado:
24
25

MINIMIZANDO A SOMA DOS RESÍDUOS QUADRADOS


– Suponha que escolhemos o intercepto e a inclinação
estimados com o propósito de tornar a soma dos resíduos
quadrados:

– O nome “mínimos quadrados ordinários” é utilizado porque


as estimativas do intercepto e da inclinação minimizam a
soma dos resíduos quadrados.

– Não é utilizada a minimização dos valores absolutos dos


resíduos, porque a teoria estatística para isto seria muito
complicada.
26

MINIMIZANDO A SOMA DOS RESÍDUOS QUADRADOS


– Reta de regressão de MQO ou função de regressão
amostral (FRA) é a versão estimada da função de regressão
populacional (FRP):

– O coeficiente de inclinação indica o quanto o valor estimado


(previsto) de y varia quando x aumenta em uma unidade:

– Da mesma forma, dada qualquer variação em x, podemos


calcular a variação prevista em y:
27
28

Fonte: Hamilton, 1992: 52.


29

Fonte: Hamilton, 1992: 53.


30

PROPRIEDADES ALGÉBRICAS DAS ESTATÍSTICAS


– A soma dos resíduos de MQO é zero, já que as estimativas
de MQO de e são escolhidas para fazer com que a
soma dos resíduos seja zero:

– A covariância amostral entre os regressores e os resíduos


de MQO é zero:

– Se inserirmos a média de x no lugar de xi, o valor estimado


é a média de y (este ponto está sempre sobre a reta):
31

SOMAS DOS QUADRADOS


– Soma dos quadrados total (SQT) é uma medida da variação
amostral total em yi (mede a dispersão dos yi na amostra):

– Soma dos quadrados explicada (SQE) mede a variação


amostral em:

– Soma dos quadrados dos resíduos (SQR) mede a variação


amostral em:

–Variação total em y é a soma da variação explicada e da


variação não-explicada:
SQT = SQE + SQR
32

GRAU DE AJUSTE
– Visa mensurar o quanto a variável independente (x) explica
a variável dependente (y).
– É um número que resume o quão bem a reta de regressão
de MQO se ajusta aos dados.
– R2: razão entre a variação explicada (SQE) e a variação
total (SQT).
– R2: fração da variação amostral em y que é explicada por x.
SQT = SQE + SQR
SQT /SQT = (SQE + SQR)/SQT
1 = SQE/SQT + SQR/SQT
SQE/SQT = 1 - SQR/SQT
– Usar o R2 como principal padrão de medida de sucesso de
uma análise econométrica pode levar a confusões.
33

MUDANÇAS DAS UNIDADES DE MEDIDA


– Ao mudar unidades de medida das variáveis dependente
e/ou independente, estimativas de MQO são afetadas.
– Se a variável dependente é multiplicada pela constante c
(cada valor na amostra é multiplicado por c), então as
estimativas de MQO de intercepto e de inclinação também
são multiplicadas por c.
– Se a variável independente é dividida (ou multiplicada) por
alguma constante diferente de zero (c) então o coeficiente de
inclinação de MQO é multiplicado (ou dividido) por c,
respectivamente.
– Mudar as unidades de medida da variável independente não
afeta o intercepto.
– O grau de ajuste do modelo (R2) não depende das unidades
de medida das variáveis.
34

NÃO-LINEARIDADE NA REGRESSÃO SIMPLES


– Formas funcionais populares usadas em economia e outras
ciências sociais aplicadas podem ser incorporadas à análise
de regressão.

– Até agora foram analisadas relações lineares entre as


variáveis dependente e independente.

– No entanto, relações lineares não são suficientes para todas


as aplicações econômicas e sociais.

– É fácil incorporar não-linearidade na análise de regressão


simples.
35

EXEMPLO DE NÃO-LINEARIDADE
– Para cada ano adicional de educação, há um aumento fixo
no salário. Esse é o aumento tanto para o primeiro ano de
educação quanto para anos mais avançados:

– Suponha que o aumento percentual no salário é o mesmo,


dado um ano a mais de educação formal. Um modelo que
gera um efeito percentual constante é dado por:

– Se , então:

– Para cada ano adicional de educação, há um aumento de


?% sobre o salário.
36
– Como a variação percentual no salário é a mesma para
cada ano adicional de educação, a variação no salário
aumenta quando a educação formal aumenta.
37

INTERPRETAÇÃO DOS COEFICIENTES


– Aumento de uma unidade em x aumenta y em β1 unidades:

– Aumento de 1% em x aumenta y em (β1/100) unidades:

– Aumento de uma unidade em x aumenta y em (100*β1)%. O


cálculo da semi-elasticidade {[exp(β1) – 1]*100} indica a
diferença percentual exata:

– Aumento de 1% em x aumenta y em β1% (modelo de


elasticidade constante):

– Elasticidade é a razão entre o percentual de mudança em


uma variável e o percentual de mudança em outra variável.
38

FORMAS FUNCIONAIS ENVOLVENDO LOGARITMOS

Variável Variável Interpretação


Modelo
Dependente Independente de β1

nível-nível y x ∆y=β1∆x

nível-log y log(x) ∆y=(β1/100)%∆x

log-nível log(y) x %∆y=(100β1)∆x

log-log log(y) log(x) %∆y=β1%∆x


39

SIGNIFICADO DE REGRESSÃO LINEAR


– O modelo de regressão linear permite relações não-lineares.

– Esse modelo é linear nos parâmetros: β0 e β1.

– Não há restrições de como y e x se relacionam com as


variáveis dependente e independente originais, já que
podemos utilizar: logaritmo natural, quadrado, raiz
quadrada...

– A interpretação dos coeficientes depende das definições de


como x e y são construídos.

– “É muito mais importante tornar-se proficiente em interpretar


coeficientes do que eficiente no cálculo de fórmulas.”
(Wooldridge, 2008: 45)
40

UTILIZAÇÃO DE PESOS
41

DIFERENTES PESOS

Peso para Peso para


Número de
expandir para o manter o
observações
Indivíduo tamanho da tamanho da
coletadas
população amostra
na amostra
(N) (n)

João 1 4 0,8

Maria 1 6 1,2

Total 2 10 2

EXEMPLO:
Peso amostral do João =
Peso de frequência do João * (Peso amostral total / Peso de frequência total)
42

PESO DE FREQUÊNCIA NO STATA


– FWEIGHT:
– Expande os resultados da amostra para o tamanho
populacional.
– Utilizado em tabelas para gerar frequências.
– O uso desse peso é importante na amostra do Censo
Demográfico e na Pesquisa Nacional por Amostra de
Domicílios (PNAD) do Instituto Brasileiro de Geografia e
Estatística (IBGE) para expandir a amostra para o
tamanho da população do país, por exemplo.
– Somente pode ser usado em tabelas de frequência
quando o peso é uma variável discreta (não decimal).

tab x [fweight = peso]


43

PESO AMOSTRAL PARA PROGRAMADORES NO STATA


– IWEIGHT:
– Não tem uma explicação estatística formal.
– Esse peso é utilizado por programadores que precisam
implementar técnicas analíticas próprias.
– Pode ser utilizado em tabelas de frequência, mesmo que
o peso seja decimal.

tab x [iweight = peso]


44

PESO AMOSTRAL ANALÍTICO NO STATA


– AWEIGHT:
– Inversamente proporcional à variância da observação.
– Número de observações na regressão é escalonado para
permanecer o mesmo que o número no banco.
– Utilizado para estimar uma regressão linear quando os
dados são médias observadas, tais como:
group x y n
1 3.5 26.0 2
2 5.0 20.0 3

– Ao invés de:
group x y
1 3 22
1 4 30
2 8 25
2 2 19
2 5 16
45

UM POUCO MAIS SOBRE O AWEIGHT


– De uma forma geral, não é correto utilizar o AWEIGHT como
um peso amostral, porque as fórmulas utilizadas por esse
comando assumem que pesos maiores se referem a
observações medidas de forma mais acurada.
– Uma observação em uma amostra não é medida de forma
mais cuidadosa que nenhuma outra observação, já que
todas fazem parte do mesmo plano amostral.
– Usar o AWEIGHT para especificar pesos amostrais fará com
que o Stata estime valores incorretos de variância e de erros
padrões para os coeficientes, assim como valores incorretos
de "p" para os testes de hipótese.
regress y x1 x2 [aweight = peso]
46

PESO AMOSTRAL NAS REGRESSÕES DO STATA


– PWEIGHT:
– Ideal para ser usado nas regressões do Stata.
– Usa o peso amostral como o número de observações na
população que cada observação representa.
– São estimadas proporções, médias e parâmetros da
regressão corretamente.
– Há o uso de uma técnica de estimação robusta da
variância que automaticamente ajusta para as
características do plano amostral, de tal forma que
variâncias, erros padrões e intervalos de confiança são
calculados de forma mais precisa.
– É o inverso da probabilidade da observação ser incluída
no banco, devido ao desenho amostral.
regress y x1 x2 [pweight = peso]
47

OUTRAS OBSERVAÇÕES SOBRE PESOS NO STATA

PESOS EM TABELAS DE FREQUÊNCIA

Expandir para o Manter o


Tipo do peso tamanho da população tamanho da amostra
(N) (n)
Discreto fweight
aweight
Decimal iweight

PESOS EM MODELOS DE REGRESSÃO


devem manter o tamanho da amostra (n)

R2 ajustado,
Erro padrão robusto
SQT, SQE, SQR

pweight aweight

reg y x, robust outreg2


48

PLANO AMOSTRAL COMPLEXO


– Estatísticas descritivas e modelos de regressão devem levar
em consideração a estrutura de planos amostrais complexos.
– PNAD tem amostra complexa (Silva, Pessoa, Lila, 2002):
– Considerar variáveis de estrato de município
autorrepresentativo e não autorrepresentativo (v4617) e
de unidade primária de amostragem (v4618), do banco de
domicílios.
– Agregar variáveis acima ao banco de pessoas, o qual
possui peso da pessoa (v4729).
– Lidar com problema de alguns estratos terem somente
uma unidade primária de amostragem. Pode-se
especificar média deste estrato como sendo a média
geral, ao invés da média do próprio estrato.
svyset [pweight=v4729], strata(v4617) psu(v4618) singleunit(centered)

– Tabelas e regressões devem ser precedidas de “svy:”.


49

EXEMPLOS COM PNAD DE MINAS GERAIS DE 2007


– O banco de dados de pessoas possui informação de anos
de escolaridade (anest), rendimento no trabalho principal
(renpri), logaritmo do rendimento no trabalho principal
(lnrenpri) e peso da pessoa (v4729):

...
50

EXEMPLO 1: PNAD DE MINAS GERAIS DE 2007


– Escolaridade explicando rendimento:
. reg renpri anest [aweight=v4729]
(sum of wgt is 8.7563e+06)

Source SS df MS Number of obs = 16232


F( 1, 16230) = 1710.07
Model 2.5086e+09 1 2.5086e+09 Prob > F = 0.0000
Residual 2.3809e+10 16230 1466951.75 R-squared = 0.0953
Adj R-squared = 0.0953
Total 2.6317e+10 16231 1621416.61 Root MSE = 1211.2

renpri Coef. Std. Err. t P>|t| [95% Conf. Interval]

anest 94.24418 2.279019 41.35 0.000 89.77705 98.71131


_cons 65.81278 20.36991 3.23 0.001 25.88551 105.7401
51

EXEMPLO 1: PNAD DE MINAS GERAIS DE 2007


– Renda predita por anos de escolaridade:

30000
1500

20000
1000
renpre

10000
500

0
0 5 10 15
0

anest
0 5 10 15
anest renpri renpre
52

EXEMPLO 1: PNAD DE MINAS GERAIS DE 2007


– Resíduos por renda predita:

30000
20000
Residuals

10000

0 500 1000 1500


renpre
53

EXEMPLO 2: PNAD DE MINAS GERAIS DE 2007


– Escolaridade explicando logaritmo do rendimento:
. reg lnrenpri anest [aweight=v4729]
(sum of wgt is 8.7563e+06)

Source SS df MS Number of obs = 16232


F( 1, 16230) = 3565.81
Model 2204.86541 1 2204.86541 Prob > F = 0.0000
Residual 10035.5653 16230 .618334278 R-squared = 0.1801
Adj R-squared = 0.1801
Total 12240.4307 16231 .754139039 Root MSE = .78634

lnrenpri Coef. Std. Err. t P>|t| [95% Conf. Interval]

anest .088355 .0014796 59.71 0.000 .0854548 .0912552


_cons 5.565065 .0132249 420.80 0.000 5.539142 5.590987
54

EXEMPLO 2: PNAD DE MINAS GERAIS DE 2007


– Renda predita por anos de escolaridade:

10
7

8
6.5
lnrenpre

6
4
6

2
0 5 10 15
5.5

anest
0 5 10 15 lnrenpri lnrenpre
anest

30000
1000
800

20000
explnrenpre

600

10000
400

0 5 10 15
200

anest
0 5 10 15 renpri explnrenpre
anest
55

EXEMPLO 2: PNAD DE MINAS GERAIS DE 2007


– Resíduos por renda predita:
4

4
2

2
Residuals

Residuals
0

0
-2

-2
-4

-4
5.5 6 6.5 7 200 400 600 800 1000
lnrenpre explnrenpre
56

GRÁFICOS FORAM GERADOS COM ESTAS VARIÁVEIS


– Cálculo do valor predito: y-predito = β0 + β1x
– Cálculo do resíduo: u = y-observado – y-predito
– Na 2ª regressão, calculamos ainda o exponencial do predito.

...

Você também pode gostar