UD5 Distribuicao Amostral e Estimacao

Inferência estatística · Visão geral
Prof. Wagner Hugo Bonat
Departamento de Estatística
Universidade Federal do Paraná
Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 1

Inferência estatística
População
I População → distribuição de
probabilidade.
I Intuição → Como que a v.a. deve se
comportar na população. Parâmetros:
I Variável → variável aleatória. µ, σ 2 , θ, ρ,
P(Y ≤ y), etc.
I Parâmetros da distribuição de Amostragem Estatística

Descritiva
probabilidade → parâmetros
populacionais.
Inferência
I Como obter a amostra? Estatística
I Como a partir da amostra estimar os Estatísticas:

ȳ, S 2 , θ̂, r,
Amostra Freq(Y ≤ y), etc.
parâmetros populacionais?
Figura 1. Processo de inferência estatística.

I Problema prático: Qual a proporção da população que desenvolveu anticorpos

contra uma doença?


contra uma doença?
I Formalizando o problema:
I Qual é a variável aleatória e quais valores ela pode assumir?


contra uma doença?
I Y : desenvolveu anticorpos. Opções SIM ou NÃO.
I Qual a distribuição de probabilidade adequada para esta v.a.?


contra uma doença?
I Bernoulli com função de probabilidade
P(Y = y) = py (1 − p)1−y .
I Qual o parâmetro de interesse e o que ele significa?


contra uma doença?
P(Y = y) = py (1 − p)1−y .

I p: proporção de pessoas que desenvolveram anticorpos.

Pensamento Estatístico
I Como determinar o valor de p?

I Examinar todos os membros da população e verificar a proporção que desenvolveu
anticorpos.
I Examinar apenas alguns membros da população (amostra) e calcular a proporção que
desenvolveu anticorpos.
I Problema: A proporção obtida na amostra não é a mesma obtida na população.
I Incerteza associada ao valor da proporção devido a termos apenas uma amostra.
I Como quantificar essa incerteza?
I Como tomar uma decisão baseada apenas na amostra?
I Descrição probabilística da estatística de interesse → Distribuição amostral.

Especificação do problema de Inferência
I Y : desenvolveu anticorpos (v.a.).

I Especificação do modelo Y ∼ Ber(p).
I Parâmetro p.
I Informação sobre p através de uma amostra da população.
I Denotamos as amostras por y1 , . . . , yn .
I Objetivos da inferência estatística:
I Estimar p baseado apenas na amostra (valor pontual)! Quanto é p na população?
I Informar o quanto preciso ou creditável é o valor estimado (intervalo de confiança).
I Decidir sobre possíveis valores de p baseado apenas na amostra.
I A proporção da população com anticorpos atingiu um patamar desejável?

I Suponha que coletamos uma amostra (aleatória) de tamanho n = 10 e que y = 7

pessoas apresentaram anticorpos.
I Qual valor você acha que o parâmetro p assume na população?
I Assumindo observações independentes, sabemos que a soma de v.a. Bernoulli é
binomial com n = 10 e um parâmetro p desconhecido.
I Podemos calcular a probabilidade de observar y = 7 para um valor de p, por
exemplo, p = 0.8

10
P(Y = 7|n = 10, p = 0,80) = 0,807 (1 − 0,80)10−7 = 0,2013.
7

I Para qualquer outro valor de p

10 7
P(Y = 7|n = 10, p) = p (1 − p)10−7 ,
7
variando p temos a função de verossimilhança

10 7
L(p) ≡ P(Y = 7|n = 10, p) = p (1 − p)10−7 .
7
I Ideia: Se p for um determinado valor, qual a probabilidade de observar o que eu

realmente observei na amostra.

Pensamento frequentista
População Amostras
Amostragem
p̂1
p̂2
I Se o experimento for repetido um
p̂3
número grande de vezes e a cada
realização p̂ for obtido, o que
p̂4
aconteceria? p̂5
p̂6
I p̂ é uma variável aleatória.
p̂7
I Se é variável aleatória, então tem p̂8
distribuição de probabilidade que p̂9

descreve o seu comportamento. p̂10
I Qual é a sua distribuição? p̂11
I Qual o seu valor esperado? p̂12
I Qual a sua variância? Estatística amostral
Figura 2. Ilustração da distribuição amostral.

Ilustração computacional
0.3
Frequência relativa
0.2
0.1
0.0
0.4 0.6 0.8 1.0

Proporção estimada (p
^)
Figura 3. Distribuição amostral da proporção.

Distribuição amostral
I Veja que mesmo se o valor verdadeiro for p = 0,8 existe uma probabilidade não
desprezível de observarmos 7 pessoas com anticorpos entre as 10 avaliadas.
I A incerteza associada ao valor de p no caso de apenas 10 observações é grande.
I Como podemos diminuir esta incerteza?

I Solução: Aumentar o número de observações.

n =5 n = 10 n = 20
500
400
300
200
100
Frequência
0
n = 50 n = 100 n = 500
500
400
300
200
100
0
0.25 0.50 0.75 1.00 0.25 0.50 0.75 1.00 0.25 0.50 0.75 1.00
^)
Figura 4. Efeito de aumentar o tamanho da amostra na distribuição amostral da proporção estimada.

Estatística frequentista
I Temos o procedimento, mas e como faremos as replicações do experimento em

termos práticos?


termos práticos?
I Não faremos!!
I Estimador é função da variável aleatória.
I Portanto, tem distribuição de probabilidade.
I A distribuição amostral do estimador pode ser usada para estudar o que
aconteceria caso o estudo fosse replicado um número muito grande de vezes.
I Distribuição exata de um estimador é dificil de se obter.
I O Teorema Central do Limite oferece uma aproximação para amostras grandes
(assintótica).

Reforçando os conceitos
I Problema prático: Qual o tamanho ideal de carteiras escolares para os alunos da

UFPR?
I Precisamos saber como a altura dos alunos se distribui.


UFPR?
I Formalizando o problema.


UFPR?
I Y ∈ <+ - Altura dos alunos da UFPR.


UFPR?
I Normal, Gama, Lognormal, Normal Inversa, Weibul, etc.


UFPR?
I Altura média e variabilidade da altura dos alunos da UFPR.

Juntando dados e probabilidades Normal
0.08
I Suponha que uma amostra (AAS) de
Densidade
0.04
tamanho n = 293 foi obtida.
0.00
120 140 160 180 200 220
0.04
x
Log−normal
0.08
0.03
Densidade
0.04
Density
0.02
0.00
0.01
120 140 160 180 200 220

x
0.00
Gama
0.030
150 160 170 180 190
Densidade
quest$altura
0.015
Figura 5. Histograma da altura dos alunos UFPR.
0.000
Qual modelo é o mais provável de ter
120 140 160 180 200 220
I x
gerado essa amostra? Figura 6. Distribuições de probabilidades candidatas.

Escolhendo o modelo
0.04
I Modelo Normal
0.01 0.02 0.03

Notação Y ∼ N(µ, σ 2 );
Densidade
I
n 2
o
I f (y) = √ 1 exp − (y−µ) ;
2πσ 2 2σ 2
I E(Y ) = µ e V(Y ) = σ 2 .
0.00
Quais os valores de µ e σ 2 devo usar?
120 140 160 180 200 220
I Altura
Podemos usar os equivalentes
1.0
I
amostrais?
0.8
1
Pn 1
Pn
yi e σ̂ 2 = − µ̂)2 .
0.4 0.6
µ̂ = i=1 (yi
Fn(x)
I
n i=1 n
I Como medir a incerteza em µ̂ e σ̂ 2 ,
0.2
sendo que temos apenas uma
0.0
amostra? → Distribuição amostral. 150 160 170 180 190
Altura
I E para os outros modelos? → Métodos
Figura 7. Ajuste da distribuição Normal para a
para estimação de parâmetros. variável altura.
I Objeto de inferência (frequentista).

θ
I A estimativa pontual é um resumo
desta distribuição.
I Intervalos entre quantis representam a
incerteza sobre o valor estimado.
I Compara-se estimadores concorrentes
pelas características de suas
distribuições amostrais.
I E para tudo isto: Figura 8. Distribuição amostral de diferentes
é preciso saber como estimar. estimadores de um parâmetro.

Resumo
População
I Modelo → comportamento da
natureza.
I Parâmetros do modelo → parâmetros
populacionais de interesse.
I Qual modelo melhor descreve os Parâmetros:
µ, σ 2 , θ, ρ,
dados? P(Y ≤ y), etc.
I Assumimos um modelo → parâmetros Amostragem Estatística

Descritiva
são desconhecidos.
I Baseado na amostra → encontrar os Inferência
parâmetros compatíveis com a Estatística
amostra. Estatísticas:
ȳ, S 2 , θ̂, r,
I Descrever a incerteza → distribuição Amostra Freq(Y ≤ y), etc.
amostral.
Distribuição amostral e estimação
Prof. Wagner Hugo Bonat Distribuição amostral e estimação 1

Onde estamos?
1. Estatística descritiva e exploratória

(UD1).
2. Probabilidades e variáveis aleatórias
(UD2, UD3 e UD4).
3. Inferência estatística (UD5, UD6 e UD7).
4. Métodos estatísticos (UD8).
Figura 1. Foto de Andrea Piacquadio no Pexels.

Resumo
Estatística
Estatística Descritiva Probabilidades Inferência Estatística
Coleta, organização, Análise de situações Métodos para reali-

tratamento, análise, que lidam com o acaso zação de inferência
apresentação e inter- para determinação estatística a partir de
pretação de dados. de probabilidades. dados observados.
Métodos de Estimação
Probabilidades
amostragem pontual e intervalar
Análise gráfica Variáveis aleatórias Testes de hipótese
Distribuições de
Medidas resumo Métodos estatísticos
probabilidade
Figura 2. Organização modular da disciplina de estatística básica.

Estrutura da unidade
I Inferência estatística · Visão geral.

I Distribuição amostral de médias.
I Distribuição amostral de estatística
importantes.
I Estimação pontual e intervalar.
I Determinação do tamanho da amostra.
I Resolução de exercícios.
I Adicionais
I Propriedades de estimadores. Figura 3. Foto de Andrea Piacquadio no Pexels.
I Métodos de estimação.

Visão geral da parte III
Prof. Wagner Hugo Bonat Visão geral da parte III 1

Onde estamos?
1. Estatística descritiva e exploratória

(UD1).
2. Probabilidades e variáveis aleatórias
(UD2, UD3 e UD4).
3. Inferência estatística (UD5, UD6 e UD7).
4. Métodos estatísticos (UD8).
Figura 1. Foto de Andrea Piacquadio no Pexels.

Resumo
Estatística
Estatística Descritiva Probabilidades Inferência Estatística
Coleta, organização, Análise de situações Métodos para reali-

tratamento, análise, que lidam com o acaso zação de inferência
apresentação e inter- para determinação estatística a partir de
pretação de dados. de probabilidades. dados observados.
Métodos de Estimação
Probabilidades
amostragem pontual e intervalar
Análise gráfica Variáveis aleatórias Testes de hipótese
Distribuições de
Medidas resumo Métodos estatísticos
probabilidade
Figura 2. Organização modular da disciplina de estatística básica.

População
I População → distribuição de
probabilidade.
I Intuição → Como que a v.a. deve se
comportar na população. Parâmetros:
I Variável → variável aleatória. µ, σ 2 , θ, ρ,
P(Y ≤ y), etc.
I Parâmetros da distribuição de Amostragem Estatística

Descritiva
probabilidade → parâmetros
populacionais.
Inferência
I Como obter a amostra? Estatística
I Como a partir da amostra estimar os Estatísticas:

ȳ, S 2 , θ̂, r,
Amostra Freq(Y ≤ y), etc.
parâmetros populacionais?


contra uma doença?


contra uma doença?


contra uma doença?


contra uma doença?
P(Y = y) = py (1 − p)1−y .


contra uma doença?
P(Y = y) = py (1 − p)1−y .

I p: proporção de pessoas que desenvolveram anticorpos.

Pensamento Estatístico
I Como determinar o valor de p?

I Examinar todos os membros da população e verificar a proporção que desenvolveu
anticorpos.
I Examinar apenas alguns membros da população (amostra) e calcular a proporção que
desenvolveu anticorpos.
I Problema: A proporção obtida na amostra não é a mesma obtida na população.
I Incerteza associada ao valor da proporção devido a termos apenas uma amostra.
I Como quantificar essa incerteza?
I Como tomar uma decisão baseada apenas na amostra?
I Descrição probabilística da estatística de interesse → Distribuição amostral.

I Y : desenvolveu anticorpos (v.a.).

I Especificação do modelo Y ∼ Ber(p).
I Parâmetro p.
I Informação sobre p através de uma amostra da população.
I Denotamos as amostras por y1 , . . . , yn .
I Objetivos da inferência estatística:
I Estimar p baseado apenas na amostra (valor pontual)! Quanto é p na população?
I Informar o quanto preciso ou creditável é o valor estimado (intervalo de confiança).
I Decidir sobre possíveis valores de p baseado apenas na amostra.
I A proporção da população com anticorpos atingiu um patamar desejável?

I Suponha que coletamos uma amostra (aleatória) de tamanho n = 10 e que y = 7

pessoas apresentaram anticorpos.
I Qual valor você acha que o parâmetro p assume na população?
I Assumindo observações independentes, sabemos que a soma de v.a. Bernoulli é
binomial com n = 10 e um parâmetro p desconhecido.
I Podemos calcular a probabilidade de observar y = 7 para um valor de p, por
exemplo, p = 0.8

10
P(Y = 7|n = 10, p = 0,80) = 0,807 (1 − 0,80)10−7 = 0,2013.
7

I Para qualquer outro valor de p

10 7
P(Y = 7|n = 10, p) = p (1 − p)10−7 ,
7
variando p temos a função de verossimilhança

10 7
L(p) ≡ P(Y = 7|n = 10, p) = p (1 − p)10−7 .
7
I Ideia: Se p for um determinado valor, qual a probabilidade de observar o que eu

realmente observei na amostra.

Pensamento frequentista
Amostragem
p̂1
p̂2
I Se o experimento for repetido um
p̂3
número grande de vezes e a cada
realização p̂ for obtido, o que
p̂4
aconteceria? p̂5
p̂6
I p̂ é uma variável aleatória.
p̂7
I Se é variável aleatória, então tem p̂8
distribuição de probabilidade que p̂9

descreve o seu comportamento. p̂10
I Qual é a sua distribuição? p̂11
I Qual o seu valor esperado? p̂12
I Qual a sua variância? Estatística amostral
Figura 4. Ilustração da distribuição amostral.

0.3
0.2
0.1
0.0
0.4 0.6 0.8 1.0

^)
Figura 5. Distribuição amostral da proporção.


I Solução: Aumentar o número de observações.

n =5 n = 10 n = 20
500
400
300
200
100
Frequência
0
n = 50 n = 100 n = 500
500
400
300
200
100
0
0.25 0.50 0.75 1.00 0.25 0.50 0.75 1.00 0.25 0.50 0.75 1.00
^)
Figura 6. Efeito de aumentar o tamanho da amostra na distribuição amostral da proporção estimada.


termos práticos?


termos práticos?
I Não faremos!!
I Estimador é função da variável aleatória.
I Portanto, tem distribuição de probabilidade.
I A distribuição amostral do estimador pode ser usada para estudar o que
aconteceria caso o estudo fosse replicado um número muito grande de vezes.
I Distribuição exata de um estimador é dificil de se obter.
I O Teorema Central do Limite oferece uma aproximação para amostras grandes
(assintótica).


UFPR?


UFPR?


UFPR?


UFPR?


UFPR?
I Altura média e variabilidade da altura dos alunos da UFPR.

Juntando dados e probabilidades Normal
0.08
I Suponha que uma amostra (AAS) de
Densidade
0.04
tamanho n = 293 foi obtida.
0.00
120 140 160 180 200 220
0.04
x
Log−normal
0.08
0.03
Densidade
0.04
Density
0.02
0.00
0.01
120 140 160 180 200 220

x
0.00
Gama
0.030
150 160 170 180 190
Densidade
quest$altura
0.015
Figura 7. Histograma da altura dos alunos UFPR.
0.000
Qual modelo é o mais provável de ter
120 140 160 180 200 220
I x
gerado essa amostra? Figura 8. Distribuições de probabilidades candidatas.

Escolhendo o modelo
0.04
I Modelo Normal
0.01 0.02 0.03

Notação Y ∼ N(µ, σ 2 );
Densidade
I
n 2
o
I f (y) = √ 1 exp − (y−µ) ;
2πσ 2 2σ 2
I E(Y ) = µ e V(Y ) = σ 2 .
0.00
Quais os valores de µ e σ 2 devo usar?
120 140 160 180 200 220
I Altura
Podemos usar os equivalentes
1.0
I
amostrais?
0.8
1
Pn 1
Pn
yi e σ̂ 2 = − µ̂)2 .
0.4 0.6
µ̂ = i=1 (yi
Fn(x)
I
n i=1 n
I Como medir a incerteza em µ̂ e σ̂ 2 ,
0.2
sendo que temos apenas uma
0.0
amostra? → Distribuição amostral. 150 160 170 180 190
Altura
I E para os outros modelos? → Métodos
Figura 9. Ajuste da distribuição Normal para a
para estimação de parâmetros. variável altura.
I Objeto de inferência (frequentista).

θ
é preciso saber como estimar. estimadores de um parâmetro.

Resumo
População
I Modelo → comportamento da
natureza.
I Parâmetros do modelo → parâmetros
populacionais de interesse.
I Qual modelo melhor descreve os Parâmetros:
µ, σ 2 , θ, ρ,
dados? P(Y ≤ y), etc.
I Assumimos um modelo → parâmetros Amostragem Estatística

Descritiva
são desconhecidos.
I Baseado na amostra → encontrar os Inferência
parâmetros compatíveis com a Estatística
amostra. Estatísticas:
ȳ, S 2 , θ̂, r,
I Descrever a incerteza → distribuição Amostra Freq(Y ≤ y), etc.
amostral.
Distribuição amostral de médias
Prof. Wagner Hugo Bonat Distribuição amostral de médias 1

Definições (mais detalhadas)
I População ou Universo: Conjunto de todos as unidades elementares.
U = {1, 2, . . . , N},
onde N é o tamanho da população.

I Unidade elementar: refere-se a qualquer elemento i ∈ U.
I Variável: característica a ser observada em cada unidade elementar → variável
aleatória. Notação Yi , i ∈ U.
I Todos os valores de uma variável denotamos por D = (Y1 , . . . , YN ).
I Função paramétrica populacional: característica numérica qualquer da população,
ou seja, uma expressão que condensa os Yi ’s. Notação,
θ(D).
Exemplos: total, médias, quocientes, etc.

I É comum utilizar a expressão parâmetro populacional.
Exemplo: População de domicílios
Considere a população formada por três domicílios U = {1,2,3} e que estão sendo
observadas as seguintes variáveis: nome (do chefe), sexo, idade, fumante ou não, renda
bruta (mensal em salários mínimos) familiar e número de trabalhadores.
Variável Valores Notação
unidade 1 2 3 i
nome do chefe Ada Beto Ema Ai
sexo1 0 1 0 Xi
idade 20 30 40 Ii
fumante 0 1 1 Gi
renda bruta 12 30 18 Fi
no trabalhadores 1 3 2 Ti
1 0: feminino; 1: masculino.
2 0: não fumante; 1: fumante.

Exemplos de funções paramétricas populacionais
I Idade média
20 + 30 + 40
θ(D) = = 30.
3
I Média das variáveis renda e número de trabalhadores
12+30+18
θ(D) = .
3 20
1+3+2 =
3
2
I Renda média por trabalhador
12 + 30 + 18
θ(D) = = 10.
1+3+2

Parâmetros populacionais mais usados
I Total populacional
N
X
θ(D) = τ = Yi .
i=1
I Média populacional
N
1 X
θ(D) = µ = Y = Yi .
N
i=1
I Variância populacional,
N
1 X
σ 2 = θ(D) = (Yi − µ)2 ,
N
i=1
ou às vezes
N
1 X
θ(D) = S 2 = (Yi − µ)2 .
N −1
i=1
Amostra
I Uma sequência qualquer de n unidades de U é uma amostra ordenada de U,
s = (1, . . . ,i, . . . , n) tal que i ∈ U.
I O rótulo i é chamado de i-ésimo componente de s.

I Exemplos: Seja U = {1,2,3}, os vetores s1 = (1,2), s2 = (2,1) e s3 = (2,2,1,3,2) são
amostras de U.
I Chama-se de tamanho de amostra o número de elementos em s.
I Chama-se de dados da amostra s a matriz ou vetor de observações pertencentes à
amostra, notação
ds = (Y1 , . . . , Yn ) = (Yi , i ∈ s).

Amostragem aleatória simples (AAS)
I Definição: De uma população U com N unidades elementares, sorteiam-se com
igual probabilidade n unidades.
Amostragem aleatória simples
Figura 1. Amostragem aleatória simples.

Estatísticas
I Qualquer característica numérica dos dados correspondentes à amostra s é
chamada de estatística, ou seja, qualquer função h(ds ) que relaciona as
observações da amostra s.
I Exemplo: Populações de domicílios (cont.): Considere a amostra s = (1,2). Para as
variáveis renda bruta F e número de trabalhadores T , temos os seguintes dados da
amostra:

ds = .
12 30
1 3
I As médias (estatísticas) amostrais
12 + 30
f= = 21
2
e
1+3
t= = 2.
2
I A distribuição amostral de uma estatística h(ds ) é a distribuição de probabilidade
da variável aleatória H(ds ).
I Exemplo: População de domicílios (cont.): Determine a distribuição amostral da
estatística h(ds ) definida como a razão entre o total da renda familiar e o número de
trabalhadores.
I População
Fi
D= .
12 30 18
Ti
=
1 3 2
I Plano amostral AASc: Possíveis amostras

S = {(1,1), (1,2), (1,3), (2,1),(2,2),(2,3),(3,1),(3,2),(3,3)}.
I Calculando a estatística para a amostra s = (3,1),
18 + 12
r= = 10.
2+1
Exemplo: População de domicílios (cont.)
I Calculando para todas as amostras temos,
s (1,1) (1,2) (1,3) (2,1) (2,2) (2,3) (3,1) (3,2) (3,3)
P(s) 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
h(ds ) = r 12 10,5 10 10,5 10 9,6 10 9,6 9
I Distribuição amostral de r
r 9 9,6 10 10,5 12
pr 1/9 2/9 3/9 2/9 1/9
I Podemos resumir a distribuição amostral da v.a. R, por exemplo
1 2 3 2 1
E(R ) = 9 · + 9,6 · + 10 · + 10,5 · + 12 · ≈ 10,13.
9 9 9 9 9
V(R ) ≈ 0,6289.

Exemplo: Distribuição amostral
Considerando os dados do exemplo População de domicílios, encontre a distribuição de

probabilidade das estatísticas Y e S 2 relacionadas a v.a. renda familiar para uma
amostra de tamanho 2 obtida pelo plano AASc.
s (1,1) (1,2) (1,3) (2,1) (2,2) (2,3) (3,1) (3,2) (3,3)
P(s) 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
Y 12 21 15 21 30 24 15 24 18
s2 0 162 18 162 0 72 18 72 0

Exemplo: Distribuição amostral (cont.) Distribuição amostral da média
E(Y)
0.20
0.15
Probabilidade
I Distribuição amostral de Y .
0.10
Y
0.05
12 15 18 21 24 30
0.00
P(y) 1/9 2/9 1/9 2/9 2/9 1/9
15 20 25 30
y
Distribuição amostral da variância
0.30
^2
E(S )
Probabilidade
0.20
I Distribuição amostral de S 2 .
0.10
S2 0 18 72 162
2
0.00
P(s ) 3/9 2/9 2/9 2/9
0 50 100 150
s2
Figura 2. Distribuição amostral.

Exemplo: Distribuição amostral (cont.)
I Note que E(Y ) = 20 e Var(Y ) = 56

2 = 28.
I Note ainda que E(S 2 ) = 504
9 = 56.
I Tanto E(Y ) como E(S 2 ) coincidem com os parâmetros populacionais, ou seja,
(12 − 20)2 + (30 − 20)2 + (18 − 20)2

= 20 e σ 2 =
12 + 30 + 18
µ= = 56.
3 3
I Esperança do estimador coincide com o valor populacional → estimador
não-viciado.

Comentários
I A distribuição amostral caracteriza
probabilisticamente a estatística de
interesse.
I Pode ser resumida da mesma forma
que qualquer outra distribuição de
probabilidade (esperança, variância,
covariância, etc).
I Para populações pequenas é fácil de
ser obtida. E para populações grandes?
I Nenhuma suposição foi feita sobre a
distribuição de probabilidade da v.a.
I Estratégia vista até aqui é impraticável! Figura 3. Photo by Anna Shvets from Pexels.
I Precisamos de algo mais geral e
flexível em termos práticos!!!
Distribuição amostral da média: V.a. Normal
I Seja Yi ∼ N(µ, σ 2 ) para i = 1, . . . , N. Suponha que uma amostra aleatória de
tamanho n, com valores observados denotados por y1 , . . . , yn foi obtida. A
distribuição amostral da média Y é dada por

σ2
Y ∼ N µ, .
n
I Segue do fato de que combinação linear de Normal é Normal e de que

n
1X nµ
E(Y) = E(Yi ) = = µ.
n n
i=1
n
1 X nσ 2 σ2
V(Y ) = 2 V(Yi ) = 2 = .
n n n
i=1

Exemplo: Salário de pilotos
O salário anual médio dos pilotos de avião pode ser modelado por uma distribuição
Normal com média de R$41979,00 e desvio padrão de R$5000,00. Suponha que uma
amostra aleatória simples de 50 pilotos seja selecionada.
I Qual é o desvio padrão da média amostral?
I Qual é a probabilidade da média amostral ser maior que R$41979,00?
I Qual é a probabilidade da média amostral não diferir da média populacional em até
R$1000,00?
I Como a probabilidade do item anterior seria alterada caso a amostra fosse de
tamanho 100?

Exemplo: Salário de pilotos (cont.)
I Qual é o desvio padrão da média amostral?
σ2
n. Assim, a variância é e o desvio padrão da média
V(Y ) = 50002 √ .
5000
50 50
I Qual é a probabilidade da média amostral ser maior que R$41979,00?

41979 − 41979
P(Y > 41979) = P Z > √ = P(Z > 0) = 0,5.
5000/ 50
I Qual é a probabilidade da média amostral não diferir da média populacional em até

R$1000,00?

40979 − 41979 42979 − 41979
P(40979 < Y < 42979) = P √ <Z < √
5000/ 50 5000/ 50
= P(−1.414 < Z < 1.414) ≈ 0,842.

Exemplo: Salário de pilotos (cont.)
I Como a probabilidade do item anterior seria alterada caso a amostra fosse de

tamanho 100?

40979 − 41979 42979 − 41979
P(40979 < Y < 42979) = P √ <Z < √
5000/ 100 5000/ 100
= P(−2 < Z < 2) ≈ 0,954.

Exemplo: Acesso à internet
Uma pesquisa divulgou que 56% das famílias brasileiras têm acesso à internet. Suponha
que esta seja a verdadeira proporção populacional p = 0,56 e suponha que uma amostra
de 300 famílias seja selecionada.
I Apresente a distribuição amostral de p̂, em que p̂ é a proporção amostral de famílias
com acesso à internet.
I Qual a probabilidade de a proporção amostral não diferir da populacional em mais
de 0,03?
I Responda o item anterior considerando amostras de tamanho 600 e 1000.

Exemplo: Acesso à internet (comentários)
I Note que agora temos que a distribuição da v.a. não é Normal.
I Y - acesso à internet (SIM ou NÃO).
I Y ∼ Ber(p) com p sendo a probabilidade de ter acesso à internet.
I Sabemos que E(Y ) = p e V(Y ) = p(1 − p).
Sendo p̂ = n1 ni=1 Yi , podemos facilmente obter
P
I
n
1X np
E(p̂) = E(Yi ) = = p.
n n
i=1
n
1 X np(1 − p) p(1 − p)
V(p̂) = V(Yi ) = = .
n 2 n 2 n
i=1
I Conseguimos obter a média e a variância de p̂, mas e a distribuição?

Teorema do Limite Central
Teorema Lindeberg-Levy: Seja Y1 , . . . , Yn uma amostra aleatória independente e

idênticamente distribuída com E(Yi ) = µ e V(Yi ) = σ 2 < ∞. Então,
√

Y −µ D
n → Z ∼ N(0,1), para n → ∞.
σ
Forma alternativa: Y ∼ N(µ, σ 2 /n).

n = 10 n = 50 n = 100
10
7
6
8
5
2 3 4 5
Densidade
Densidade
Densidade
2 3 4
4 2 6
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
^
p ^
p ^
p
n = 250 n = 500 n = 1000
15
25
20
10 15 20
10
Densidade
Densidade
Densidade
10 15
5
5
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
^
p ^
p ^
p
Figura 4. Distribuição amostral da proporção conforme tamanho da amostra.

Exemplo: Acesso à internet (cont.)
I Apresente a distribuição amostral de p̂, em que p̂ é a proporção amostral de famílias
com acesso à internet.
I Usando o TLC, temos

p(1 − p)
p̂ ∼ N p, .
n
I Qual a probabilidade de a proporção amostral não diferir da populacional em mais

de 0,03?
P(0,53 < p̂ < 0,59) = P(−1,046 < Z < 1,046) ≈ 0,704.
!
0,53 − 0,56 p̂ − p 0,59 − 0,56
P p <p <p .
0,56(1 − 0,56)/300 p(1 − p)/n 0,56(1 − 0,56)/300

Exemplo: Acesso à internet (cont.)
I Responda o item anterior considerando amostras de tamanho 600 e 1000.

I n = 600 → P(0,53 < p̂ < 0,59) = P(−1,480 < Z < 1,480) ≈ 0,861.
!
0,53 − 0,56 p̂ − p 0,59 − 0,56
P p <p <p .
0,56(1 − 0,56)/600 p(1 − p)/n 0,56(1 − 0,56)/600
I n = 1000 → P(0,53 < p̂ < 0,59) = P(−1,911 < Z < 1,911) ≈ 0,944.
!
0,53 − 0,56 p̂ − p 0,59 − 0,56
P p <p <p .
0,56(1 − 0,56)/1000 p(1 − p)/n 0,56(1 − 0,56)/1000

Resumo
I Distribuição amostral da média.

I Distribuição amostral aproximada da
proporção.
I Teorema Central do Limite.
Figura 5. Retirada do Google imagens.

Distribuição amostral de estatísticas importantes
Prof. Wagner Hugo Bonat Distribuição amostral de estatísticas importantes 1

Distribuição amostral da média
I Sejam Y1 , . . . , Yn v.a.’s independentes e identicamente distribuídas (iid) com

distribuição desconhecida, porém com média E(Yi ) = µ e variância V(Yi ) = σ 2 < ∞.
Para amostras grandes o TLC nos diz que

σ2
Y ∼ N µ, .
n
I E para outras estatísticas de interesse?

Distribuição amostral da média
I Sejam Y1 , . . . , Yn v.a.’s independentes e identicamente distribuídas (iid) com

distribuição desconhecida, porém com média E(Yi ) = µ e variância V(Yi ) = σ 2 < ∞.
Para amostras grandes o TLC nos diz que

σ2
Y ∼ N µ, .
n
I E para outras estatísticas de interesse?

I De forma geral é dificil obter a distribuição amostral de outras estatísticas.
I Porém para v.a.’s Normais temos alguns resultados importantes.

Amostragem de v.a.’s Normais e estatísticas relacionadas
Sejam Y1 , . . . , Yn v.a.’s iid com distribuição N(µ, σ 2 ).

Algumas estatísticas relacionadas são:
Pn
I Média amostral → Y = 1
n i=1 Yi .
Pn Pn
I Variância amostral → σ̂ =
i=1 (Yi − Y ) ou S = − Y )2 .
1 1
i=1 (Yi
2 2 2
n n−1
Y −µ
I Estatística t-Student → t = √ .
S/ n
SY2 1
I Sendo duas v.a.’s Normais com variância SY2 1 e SY2 2 , respectivamente. A razão SY2 2
é
chamada de estatística F .

Distribuição χ 2
I Sendo Yi ∼ N(µ, σ 2 ), então
S2
(n − 1) ∼ χn−1
2
, onde n − 1 são os graus de liberdade.
σ2
I Função densidade probabilidade Ys ∼ χk2

k
−1 − ys
ys2 e 2
f (ys ; k) = k
para k ∈ N e ys > 0.
2 2 Γ( k2 )
I Cálculo de probabilidades → tabelas (só para as caudas) ou softwares estatísticos.

n = 10 n = 25
0.100
0.075
0.050
0.025
Densidade
0.000
n = 50 n = 100
0.100
0.075
0.050
0.025
0.000
0 50 100 150 0 50 100 150
(n − 1)S2 σ2
Figura 1. Distribuição amostral da estatística qui-quadrado.

Aplicações e propriedades da distribuição χ 2
1.2
k1
k2
1.0
k3
k4
k5
0.8
k6
Densidade
k7
I Muito comum em testes de hipóteses:
0.6
k8
k9
0.4
I Independência em tabelas de
0.2
contingência.
0.0
I Bondade de ajuste. 0 2 4 6 8 10
ys
I Razão de verossimilhanças.
1.0
I Log-rank.
0.8
I Cochran-Mantel-Haenszel.
Probabilidade
0.6
I Soma de quadrados de n − 1 Normais
0.4
padrão independentes.
0.2
I Caso particular da distribuição Gama.
0.0
0 2 4 6 8 10
ys
Figura 2. Distribuição qui-quadrado.

Exemplo: Bateria para celular
Uma empresa desenvolveu uma nova bate-
ria para celular. Em média a bateria dura 60
horas com desvio-padrão de 4 horas. Supo-
nha que o fabricante efetua um controle da
qualidade das baterias onde são seleciona-
das aleatóriamente 7 baterias. Supondo que
a duração das baterias pode ser adequada-
mente modelada pela distribuição Normal.
Calcule
I Probabilidade da variância amostral
ser maior que 16 horas.
estar entre 4 e 36 horas. Figura 3. Foto de Tyler Lastovich no Pexels.

ser menor do que 4 horas.
Exemplo: Bateria para celular (cont.)
I Probabilidade da variância amostral ser maior que 16 horas.

s2
P(S > 16) = P (n − 1) 2 > (7 − 1) = P(χ7−1 > 6) ≈ 0,423.
2 16 2
σ 16
I Probabilidade da variância amostral estar entre 4 e 36 horas.

P(4 < S < 36) = P (7 − 1) < χ7−1 < (7 − 1) = P(1,5 < χ7−1 < 13,5) ≈ 0,923.
2 4 2 36 2
16 16
I Probabilidade da variância amostral ser menor do que 4 horas.

P(S < 4) = P χ7−1 < (7 − 1) = P(χ7−1 < 1,5) ≈ 0,040.
2 2 4 2
16

Consulta da tabela χ 2
ν = 10, α = 0.05
f (X 2 )
0.1
··· 0.1 0.05 ···
..
.
9
2
5 · 10−2 χα;ν 10 18.307
11
α ..
.
0
0 5 10 15 20 25 30 X2
P(X 2 > χα;ν

2
)=α
Pontos percentuais da distribuição χ 2 com áreas na calda direita.

ν/α α = 0.995 0.99 0.975 0.95 0.9 0.5 0.1 0.05 0.025 0.01 0.005
ν=1 0.000 0.000 0.001 0.004 0.016 0.455 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 1.386 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 2.366 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 3.357 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 4.351 9.236 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 5.348 10.645 12.592 14.449 16.812 18.548
7 0.989
Figura
1.239
4. Consulta
1.690 2.167
da tabela
2.833 6.346
qui-quadrado.
12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 7.344 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 8.343 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 9.342 15.987 18.307 20.483 23.209 25.188
11 Hugo2.603
Prof. Wagner Bonat 3.053 3.816amostral
Distribuição 4.575 de estatísticas
5.578 10.341 17.275
importantes 19.675 21.920 24.725 26.757 9
Distribuição t-Student
I Sendo Yi ∼ N(µ, σ 2 ) e Y e S 2 a média e a variância amostral a v.a.
Y −µ
t= √ ∼ tn−1 ,
S/ n
tn−1 denota a distribuição t-Student com n − 1 graus de liberdade.

I Função densidade probabilidade
− ν+1
Γ( ν+1 )

t2 2
f (t) = √ 2 ν ,
νπΓ( 2 ) ν
1+
onde ν ∈ N é o número de graus de liberdade e Γ(·) é a função gama.

I Cálculo de probabilidades → tabelas similares a da distribuição Normal ou
softwares estatísticos.

n =5 n = 10
0.4
0.3
0.2
0.1
Densidade
0.0
n = 25 n = 50
0.4
0.3
0.2
0.1
0.0
−5 0 5 −5 0 5
t
Figura 5. Distribuição amostral da estatística t-Student.

Aplicações e propriedades da distribuição t-Student
k1
0.4
k2
k6
k 10
k 14
0.3
k 18
Densidade
I Teste t e suas variações.
0.2
I Intervalo de confiança para a média.
0.1
Simétrica em forma de sino (igual a
0.0
I
−4 −2 0 2 4
Normal). t
1.0
I Caudas mais pesadas que a Normal.
0.8
I Descreve o comportamento da razão
Probabilidade
0.6
de algumas v.a.’s.
0.4
I Desenvolvida por William Sealy Gosset
0.2
(sob o pseudo nome de Student).
0.0
−4 −2 0 2 4
t
Figura 6. Distribuição t-Student.

Exemplo: Acumputura
Suponha que um experimento foi realizado

para avaliar a efetividade do uso da acum-
putura para aliviar a dor. A taxa sensorial de
15 pacientes foi medida resultando em uma
média de 8,22 e um desvio-padrão de 1,67.
Supondo que a distribuição Normal é ade-
quada para a variável de interesse obtenha
um intervalo t1 e t2 , tal que a probabilidade
deste intervalo conter a média populacional Figura 7. Extraído de www.health.harvard.edu.
seja de aproximadamente 0,95.

Exemplo 2 (cont.)
I Precisamos obter valores yli e yls , tal que
P(yli < µ < yls ) = 0,95.
I Vamos padronizar

yli − µ y−µ yls − µ y−µ
P √ < √ < √ = P t1 < √ < t2 = 0,95
s/ n s/ n s/ n s/ n
I Note que a distribuição t−Student é simétrica, então vamos focar apenas em
intervalos simétricos, o que implica que t = t2 = −t1 . Assim os limites são dados por
s
y ± t0,05/2 √ ,
n
onde t0,05/2 é o valor da distribuição t-Student com n − 1 graus de liberdade.
I Usando a tabela da distribuição t-Student com 14 graus de liberdade, temos
8,22 ± 2,14 √ ≈ [7,30; 9,14].

1,67
15
Consulta da tabela t-Student
ν = 10, α = 0.05
f (t)
0.4
··· 0.1 0.05 ···
..
.
tα;ν 9
0.2 10 1.8125
11
α ..
.
0
−4 −2 0 2 4 t
P(T > tα;ν ) = α
Pontos percentuais da distribuição t de Student com áreas na calda direita.

ν/α α = 0.4 0.25 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005
ν=1 0.3249 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.3213 318.3088 636.6192
2 0.2887 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248 14.0890 22.3271 31.5991
3 0.2767 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409 7.4533 10.2145 12.9240
4 0.2707 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041 5.5976 7.1732 8.6103
5 0.2672 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 5.8934 6.8688
6 0.2648 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074 4.3168 5.2076 5.9588
7 0.2632 0.7111 Figura
1.4149 8.1.8946 2.3646da 2.9980
Consulta tabela 3.4995
t-Student. 4.0293 4.7853 5.4079
8 0.2619 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554 3.8325 4.5008 5.0413
9 0.2610 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498 3.6897 4.2968 4.7809
10 0.2602 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
Distribuição F de Snedecor
I Sejam Y1i ∼ N(µ1 , σ12 ) e Y2i ∼ N(µ2 , σ22 ). Com média e variância amostrais Y 1 , Y 2 , S12 e
S22 . Suponha ainda que amostras de tamanho n1 e n2 estão disponíveis de Y1 e Y2 .
Se σ12 = σ22 , então temos que a v.a.
S12
F= ∼ Fn1 −1,n2 −1 ,
S22
em que Fn1 −1,n2 −1 denota a distribuição F com n1 − 1 e n2 − 1 graus de liberdade.

I Função densidade probabilidade
s
(d1 y)d1 d2d2

d1 d2
f (y) = yB , para y > 0,
(d1 y + d2 )d1 +d2 2 2
onde d1 e d2 são os graus de liberdade do numerador e denominador e B(·) é a

função beta.
I Cálculo de probabilidades → tabelas ou softwares estatísticos.
d f 1 = 10 e d f 2 = 10 d f 1 = 20 e d f 2 = 10 d f 1 = 50 e d f 2 = 10
1.25
1.00
0.75
0.50
0.25
Densidade
0.00
d f 1 = 10 e d f 2 = 25 d f 1 = 20 e d f 2 = 25 d f 1 = 50 e d f 2 = 25
1.25
1.00
0.75
0.50
0.25
0.00
0 2 4 6 8 0 2 4 6 8 0 2 4 6 8
F
Figura 9. Distribuição amostral da estatística F .

Aplicações e propriedades da distribuição F
2.0
d1
d2
d6
1.5
d 10
d 14
d 18
Densidade
1.0
I Teste F para igualdade de variâncias.
0.5
I ANOVA - Analise de variância.
0.0
I Modelos de regressão. 0 1 2
F
3 4 5
I Razão entre v.a.’s qui-quadrado.
1.0
0.8
I Também conhecida como distribuição
Probabilidade
de Fisher-Snedecor’s.
0.4 0.6
I Se σY21 6= σY22 a estatística F ainda tem
distribuição F , porém não central.
0.2
0.0
0 2 4 6 8 10
F
Figura 10. Distribuição F de Snedecor.

Consulta da tabela F de Snedecor
ν1 = 8, ν2 = 10, α = 0.1
f (F )
3
··· 9 10 ···
..
.
2
7
8 2.377
1 Fα,ν1 ,ν2 9
..
.
0
0 1 2 3 4 5 F
P(Fobs > Fα,ν1 ,ν2 ) = α

Pontos percentuais da distribuição F com áreas na calda direita para α = 0.1.
ν2 = 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120
ν1 = 1 39.863 8.526 5.538 4.545 4.060 3.776 3.589 3.458 3.360 3.285 3.177 3.073 2.975 2.927 2.881 2.835 2.791 2.748
2 49.500 9.000 5.462 4.325 3.780 3.463 3.257 3.113 3.006 2.924 2.807 2.695 2.589 2.538 2.489 2.440 2.393 2.347
3 53.593 9.162 5.391 4.191 3.619 3.289 3.074 2.924 2.813 2.728 2.606 2.490 2.380 2.327 2.276 2.226 2.177 2.130
4 55.833 9.243 5.343 4.107 3.520 3.181 2.961 2.806 2.693 2.605 2.480 2.361 2.249 2.195 2.142 2.091 2.041 1.992
5 57.240 9.293 5.309 4.051 3.453 3.108 2.883 2.726 2.611 2.522 2.394 2.273 2.158 2.103 2.049 1.997 1.946 1.896
6 58.204 9.326 5.285 4.010 3.405 3.055 2.827 2.668 2.551 2.461 2.331 2.208 2.091 2.035 1.980 1.927 1.875 1.824
7 58.906 9.349 5.266 3.979 3.368 3.014 2.785 2.624 2.505 2.414 2.283 2.158 2.040 1.983 1.927 1.873 1.819 1.767
8 59.439 9.367 5.252 3.955 3.339 2.983 2.752 2.589 2.469 2.377 2.245 2.119 1.999 1.941 1.884 1.829 1.775 1.722
9 59.858 9.381 5.240 3.936 3.316 2.958 2.725 2.561 2.440 2.347 2.214 2.086 1.965 1.906 1.849 1.793 1.738 1.684
Figura 11. Consulta da tabela F de Snedecor
10 60.195 9.392 5.230 3.920 3.297 2.937 2.703 2.538 2.416 2.323 2.188 2.059 1.937 1.877 1.819 1.763 1.707 1.652
12 60.705 9.408 5.216 3.896 3.268 2.905 2.668 2.502 2.379 2.284 2.147 2.017 1.892 1.832 1.773 1.715 1.657 1.601
15 61.220 9.425 5.200 3.870 3.238 2.871 2.632 2.464 2.340 2.244 2.105 1.972 1.845 1.783 1.722 1.662 1.603 1.545
20 61.740 9.441 5.184 3.844 3.207 2.836 2.595 2.425 2.298 2.201 2.060 1.924 1.794 1.730 1.667 1.605 1.543 1.482
24 62.002 9.450 5.176 3.831 3.191 2.818 2.575 2.404 2.277 2.178 2.036 1.899 1.767 1.702 1.638 1.574 1.511 1.447
30 62.265 9.458 5.168 3.817 3.174 2.800 2.555 2.383 2.255 2.155 2.011 1.873 1.738 1.672 1.606 1.541 1.476 1.409
40 62.529 9.466 5.160 3.804 3.157 2.781 2.535 2.361 2.232 2.132 1.986 1.845 1.708 1.641 1.573 1.506 1.437 1.368
60 62.794 9.475 5.151 3.790 3.140 2.762 2.514 2.339 2.208 2.107 1.960 1.817 1.677 1.607 1.538 1.467 1.395 1.320
120 63.061 9.483 5.143 3.775 3.123 2.742 2.493 2.316 2.184 2.082 1.932 1.787 1.643 1.571 1.499 1.425 1.348 1.265
Exemplo: Acumputura
Suponha que um experimento foi realizado com dois grupos para avaliar a efetividade
do uso da acumputura para aliviar a dor. A taxa sensorial foi medida para o grupo 1 em 5
pacientes e para o 2 em 8 pacientes. Suponha que as variâncias amostrais foram
s21 = 4,44 e o s22 = 1,5. Assumindo que as variâncias populacionais são iguais, qual a
s21
probabilidade de ocorrer a razão s22
ou uma mais extrema?

s21
P > = P(F5−1,8−1 > 2,96) ≈ 0,1.
4,44
s22 1,5
Você considera a suposição de igualdade de variâncias plausível dado o resultado do

experimento?

Relações entre as distribuições
I Uma v.a. Normal padrão ao quadrado tem distribuição χ 2 com gl = 1.

I Uma v.a. t-Student ao quadrado tem distribuição F com gl = 1.
I Razão de duas v.a. χ 2 divida pelos seus gl’s tem distribuição Fn1 ,n2 .
I Distribuição F converge para a χ 2 com n → ∞.
I Existem extensões não-centrais (modelo de locação e escala).
I Distribuição t-Student é uma alternativa robusta a Normal.
I Todas são relacionadas a Normal e quando gl cresce vão convergir para a Normal.

Resumo
I Distribuição amostral de estatísticas

importantes.
I Distribuição χ 2 ;
I Distribuição t−Student;
I Distribuição F .
Figura 12. Retirada do Google imagens.

Estimação
Prof. Paulo Justiniano R. Jr
Prof. Paulo Justiniano R. Jr Estimação 1

Estimação estatística
Falar sobre população a partir da observação da amostra.
Mas só temos uma flexa!
I Amostra? De qual tamanho?

I Como estimar?
I Como expressar incerteza?
I O que é “estimar bem”?
Figura 1. Analogia ao processo de estimação.

Extraído de bestbowreviews.com.

Um exemplo: cardápio vegano
I Um restaurante deseja caracterizar o
perfil de seus clientes.
I Questionário para uma amostra de
clientes.
I Q1: Há interesse por opções veganas?
I Qual a proporção que prefere pratos
veganos?
1. Dados (0/1) do questionário podem

indicar um valor, por ex., 0.12 e sua
incerteza: 0.12 ± 0.035 ou
Figura 2. Foto de Pexels.
(0.085, , 0.155).
2. Quantos questionários?

Exemplo: caracterização dos clientes
Q2: Qual será a idade média dos clientes?
1. Dados de idades nos questionários:

distribuição normal(?)
2. Pode-se estimar, por ex., 32 anos com
alguma incerteza: 32 ± 2.5 ou
(29.5 , 34.5).
4. Diferentes opções para estimar o valor
de idade “típica” dos clientes:
média, mediana, ponto médio, etc.
Figura 3. Foto de Adrienn no Pexels.
Qual as características de cada
estimador?

Exemplo: tempo de refeição
Q3: Qual a duração média das refeições?
1. Dados do questionário: Distribuição

para o tempo de permanência:
(Normal(?), Gama(?))
2. Pode-se estimar, por ex., 25 min e sua
incerteza: (22, 30).
4. Qual as características de cada
estimador? Figura 4. Foto de Andrea Piacquadio no Pexels.
5. Mas, qual(ais) estimador(es)?

Elementos da estimação
I Contexto do estudo: a(s) variável(eis)

envolvidas.
I Comportamento (distribuição) desta
variável.
I Característica (parâmetro) de interesse.
I Definição da amostra.
I Obtenção dos dados.
I Estimação do parâmetro.
I Expressão da incerteza.
I Interpretação e conclusões. Figura 5. Roadmap.
https://getnave.com/blog/kanban-roadmap/

Inferência frequentista
I Objeto de inferência: distribuição

amostral. θ
estimadores de um parâmetro.
é preciso saber como estimar.

Estrutura da unidade
Falar sobre população Y ∼ Dist.y (θ)
a partir da observação da amostra
θ̂(y1 , . . . , yn ) ∼ Dist.Am.θ̂ (θ).
θ
1. Como expressar incerteza?
Estimação pontual e intervalar.
2. Amostra? De qual tamanho?
Determinação do tamanho da
amostra.
3. O que é “estimar bem”?
Propriedades dos estimadores.
4. Como estimar? Figura 7. Distribuição amostral de diferentes
Métodos de estimação. estimadores de um parâmetro.
Idéias válidas em contextos mais gerais.

Estimação pontual e intervalo de confiança
Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança 1

Conteúdo
Estimação pontual e intervalar
I Terminologia.
I Intervalo de confiança para a
proporção.
I Intervalo de confiança para a variância.Figura 1. Analogia ao processo de estimação.
Extraído de pixabay.

Noções iniciais

Notação e definições
I Y = (Y1 , . . . , Yn ) denota um vetor de v.a.’s independentes e identicamente

distribuídas.
I Cada Yi ∼ f (θ) onde f denota a função densidade de probabilidade ou função de
probabilidade e θ = (θ1 , . . . , θp ) é um vetor de p parâmetros populacionais.
I y = (y1 , . . . , yn ) denota o vetor de valores observados da v.a. Y .
I Estatística: uma estatística T é uma v.a. T = t(Y), definida como função da amostra,
que não depende do vetor de parâmetros θ.
I Uma estatística T é um estimador para θ se o valor realizado t = t(y) é usado como
uma estimativa para o valor de θ, então denotado por θ̂.
I A distribuição de probabilidade de T (Y) → Distribuição amostral.

Exemplo: idade média dos frequentadores do restaurante
Vai se tomar uma amostra de n = 5.
I Y = (Y1 , . . . , Yn ) é definida pelas idades dos frequentadores.

I Cada idade vem de uma distribuição da v.a. observada
Yi ∼ f (θ) = N(µ, 42 ) com θ = (µ).
Pn
Yi
I A estatística: T = t(Y) = i=1
n = Y = µ̂ é um estimador da média.
Coletam-se os dados y = (y1 = 31, y2 = 30, y3 = 32, y4 = 37, y5 = 30)
I A estimativa obtida com esta amostra µ̂ = y = 32,

I Se a amostra é aleatória então esta estimativa é uma v.a. que tem uma A
distribuição de probabilidade chamada de distribuição amostral.

42 Y −µ
Y ∼ N µ, ou, equivalentemente, √ ∼ N (0, 1) .
5 4/ 5
Exemplo: estimadores para distribuição Normal
I Modelo de probabilidade: Yi ∼ N(µ, σ 2 ) → θ = (µ, σ 2 ).
I Estimadores e estimativas
1X 1X
n n
Y = Yi → y= yi
n n
i=1 i=1
1 X
n
1 X
n
S2 = (Yi − Y )2 → s2 = (yi − y)2 .
n−1 n−1
i=1 i=1
I Distribuições amostrais

σ2 Y −µ
σ 2 conhecido: Y ∼ N µ, ou √ ∼ N (0, 1)
n σ/ n
Y −µ S2
σ 2 desconhecido: √ ∼ tn−1 e (n − 1) 2
∼ χn−1 .
S/ n σ2
Exemplo: estimadores para distribuição de Bernoulli
I Modelo de probabilidade: Yi ∼ Ber(p) → θ = p.

I Estimadores e estimativas
1X 1X
n n
p̂ = Yi → p̂ = yi .
n n
i=1 i=1
I Distribuição amostral (aproximada TLC)

aprox p(1 − p)
p̂ ∼ N p, .
n

A incerteza na estimação
Amostragem
p̂1
A estimativa pontual
p̂2
I Fornece apenas um valor plausível de p̂3
ser o verdadeiro valor do parâmetro. p̂4
Não considera a incerteza devido a

p̂5
I
termos apenas uma amostra.
p̂6
Isso não é
feito na p̂7
prática.
p̂8
Como expressar a incerteza? p̂9
Baseado na distribuição amostral pode-se p̂10
obter uma faixa de valores com determi- p̂11
nada probabilidade de conter o parâmetro p̂12
→ intervalo de confiança.
Figura 2. Processo de inferência na prática.

Intervalo de confiança para a média

Intervalos de confiança para a média quando σ 2 é conhecido
I Seja Yi ∼ N(µ, σ 2 ) e suponha que σ 2 é
conhecido.
I Neste caso, temos que

σ2 Y −µ
Y ∼ N µ, ou √ ∼ N (0, 1) .
n σ/ n
1−α
yLI yLS
I Fixando uma probabilidade 1 − α α/2 α/2
podemos encontrar yLI e yLS , tal que
P(yLI < µ < yLS ) = 1 − α.
ȳ
4 √σ
3 √σ
2 √σ
1 √σ
1 √σ
2 √σ
3 √σ
4 √σ
n
n
−
+
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
ȳ
I Vários pares yLI e yLS existem, então
prefere-se aqueles que dão intervalo Figura 3. Intervalo de confiança para a média.
simétrico em relação a µ.

Obtenção do intervalo para µ
I Definimos limites Z na distribuição amostral padronizada

y−µ
P zLI < √ < zLS = 1 − α.
σ/ n
I Agora deixamos apenas µ no centro para obtermos,

σ σ
P y − zLI √ < µ < y + zLS √ = 1 − α.
n n
I Como deseja-se intervalos simétricos, então abs(zLI ) = abs(zLS ) = zα/2 . Assim,

σ σ
P y − zα/2 · √ < µ < y + zα/2 √ = 1 − α.
n n
I zα/2 é o quantil da distribuição Normal padrão para o valor de 1 − α fixado.

Margem de erro e nível de confiança
I Chamamos de erro máximo provável I zα/2 é chamado de valor crítico. É o
ou margem de erro a quantidade valor z que produz uma área de α/2
σ na cauda superior da distribuição
e = zα/2 · √ . Normal padrão.
n
I Chamamos a quantidade 1 − α de
coeficiente de confiança ou nível
de confiança do intervalo.
2e
√
e = zα/2 · σ / n
√ √
y − zα/2 · σ / n y y + zα/2 · σ / n
1−α
yLI yLS
Figura 4. Margem de erro do intervalo de confiança.
α/2 α/2
ȳ
4 √σ
3 √σ
2 √σ
1 √σ
1 √σ
2 √σ
3 √σ
4 √σ
n
−
+
Exemplo: idade média dos frequentadores do restaurante
Y : idade dos frequentadores
Y ∼ N(µ, σ 2 = 42 )
Dados: y = (31, 30, 32, 37, 30)
I estimativa: µ̂ = y = 32
I escolha do nível de confiança: 95% (1 − α = 0,95 e α/2 = 0.025)
I valor-z: zα/2 = 1.96
I erro máximo provável: e = zα/2 · √σ = 1.96 · √4 = 3.51
n 5
I intervalo de confiança (95%): y ± zα/2 · √σ = 32 ± 3.51
n
IC0,95 (µ) : (28.5 , 35.5)

Construção do intervalo usando a distribuição amostral
1 2 3 4 5 6 7 8 9 10
Distribuição da média amostral de Y
11 12 13 14 15 16 17 18 19 20
Figura 6. Construção do intervalo de confiança a partir da distribuição amostral.

Interpretação frequentista
Valores da v.a. Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número da amostra
Média amostral de Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número da amostra
Figura 7. Interpretação frequentista do intervalo de confiança.

Interpretação do intervalo de confiança
Suponha que obtivemos um intervalo de 95% de confiança: IC95% (µ) = [yLI , yLS ].
Interpretação ERRADA de IC Interpretação CERTA de IC

Temos 95% de confiança de que a Temos 95% de confiança de que o
média populacional µ se encontra intervalo entre yLI e yLS contém a
entre yLI e yLS . média populacional µ.
Semanticamente as afirmações podem parecer equivalentes, mas a segunda sentença

enfatiza o que é crucial: o intervalo é aleatório e o parâmetro é fixo.

Interpretação de um intervalo de confiança
I Como o intervalo de confiança é calculado a partir de uma amostra aleatória, este

intervalo também é aleatório!
I Isso significa que para cada amostra aleatória que tivermos, um intervalo diferente
será calculado.
I Como o valor de µ é fixo, é o intervalo que deve conter o valor de µ, e não o
contrário.
I Isso significa que se pudessemos obter 100 amostras diferentes, e calcularmos um
intervalo de confiança de 95% para cada uma das 100 amostras, esperariamos que 5
destes intervalos não contenham o verdadeiro valor da média populacional µ.

Exercício: performance no TOEFL
Uma escola on-line de idiomas preparató-

ria para o TOEFL afirma possuir uma exce- Figura 8. Extraído de elacademy.co.uk.
lente pontuação média dos seus alunos no
exame. Em uma amostra de aleatória de 50
alunos, a pontuação média foi de 560 pon-
tos. Por estudos anteriores, sabe-se que o f (z)
desvio-padrão é 25 pontos. Obtenha inter-

0.4
valos de confiança com 90%, 95% e 99% de −z0.05 = −1.645 z0.05 = 1.645
0.2 −z0.025 = −1.960 z0.025 = 1.960
confiança. Discuta as diferenças. −z0.005 = −2.576 z0.005 = 2.576
0
z
−4 −3 −2 −1 0 1 2 3 4
Prof. Paulo Justiniano R. Jr Figura

Estimação pontual e intervalo de confiança 9. Quantis da distribuição Normal Padrão. 18
Solução
1. 1 − α = 0.9 → zα/2 = z0.05 = 1.645, então

25 25
IC0.9 (µ) = 560 − 1.645 · √ , 560 + 1.645 · √ , = (554.2, 565.8).
50 50
2. 1 − α = 0.95 → zα/2 = z0.025 = 1.96, então

25 25
IC0.95 (µ) = 560 − 1.96 · √ , 560 + 1.96 · √ , = (553.1, 566.9).
50 50
3. 1 − α = 0.99 → zα/2 = z0.005 = 2.576, então

25 25
IC0.99 (µ) = 560 − 2.576 · √ , 560 + 2.576 · √ , = (550.9, 569.1).
50 50

RESUMO: Intervalos de confiança para média com σ conhecido
1. Verifique se as suposições necessárias estão satisfeitas.

I Temos uma amostra aleatória simples.
I σ é conhecido.
I A população tem distribuição Normal ou n > 30 (regra empírica para usar o TLC).
2. Determine o nível de confiança 1 − α, e encontre o valor crítico zα/2 .

√
3. Calcule a margem de erro e = zα/2 · (σ / n).
4. Calcule IC1−α (µ).

Intervalos de confiança para a média quando σ 2 é desconhecido
I Seja Yi ∼ N(µ, σ 2 ) e suponha que σ 2 é desconhecido.

I Neste caso, temos que
Y −µ
t= √ ∼ tn−1 ,
S/ n
em que tn−1 denota a distribuição t-Student com n − 1 graus de liberdade.
I Argumentos análogos ao caso em que σ 2 é conhecido levam a

s s
P y − tα/2 · √ < µ < y + tα/2 · √ = 1 − α.
n n
I tα/2 é o valor da distribuição t-Student que produz uma área de α/2 na cauda
superior da distribuição.

Exercício: gastos com cartão de crédito
Um estudo foi idealizado para estimar a mé-
dia anual dos débitos de cartão de crédito f (t)
da população de famílias brasileiras. Uma 0.4

ν = 15 − 1
amostra de n = 15 famílias forneceu os sal- −t0.025 = −2.145 t0.025 = 2.145
dos de cartões de crédito. A média amostral 0.2
foi de R$ 5.900,00 e o desvio padrão foi de

R$ 3.058,00. Obtenha um intervalo com 95% 0
t
de confiança. −4 −3 −2 −1 0 1 2 3 4
Figura 10. Quantis da distribuição t-Student.

Neste caso tα/2 = t0.025 = 2.145 com 15 − 1 =
14 graus de liberdade. Assim, o intervalo de
confiança é dado por

3058 3058
IC1−0.95 (µ) = 5900 − 2.145 · √ , 5900 + 2.145 · √ ≈ (4206.4, 7593.6).
15 15

RESUMO: Intervalos de confiança para média com σ 2 desconhecido

I Temos uma estimativa de s.
I A população tem distribuição normal ou n > 30 (regra empírica para usar o TLC).
2. Determine o nível de confiança 1 − α, e encontre o valor crítico tα/2 .

√
3. Calcule a margem de erro e = tα/2 · (s/ n).
4. Calcule IC1−α (µ).

Intervalo de confiança para a
proporção

Intervalos de confiança para a proporção
I Seja Yi ∼ Ber(p). Neste caso, temos que pelo TLC

aprox p(1 − p)
p̂ ∼ N p, .
n
I Argumentos análogos ao caso da média levam a

r r !
p(1 − p) p(1 − p)
P p̂ − zα/2 · < p < p̂ + zα/2 · = 1 − α.
n n
I Note que p aparece na expressão da margem de erro, o que na prática impossibilita

o uso desta equação. Uma opção é substituir p por sua estimativa p̂ e assim
r r !
p̂(1 − p̂) p̂(1 − p̂)
P p̂ − zα/2 · < p < p̂ + zα/2 · = 1 − α.
n n

Intervalo de confiança para proporção
p (1 − p) p(1 − p)
0.1 0.9 0.09
0.3 0.7 0.21
Uma possível dificuldade nessa abordagem
0.5 0.5 0.25
é que em geral não conhecemos o verda-
0.6 0.4 0.24
deiro valor de p para calcular o IC.
0.8 0.2 0.16
Quando não conhecemos a proporção po-
pulacional p, temos duas alternativas:
1. Usar p̂ no lugar de p (estimativa

otimista).
0.20
2. Usar p = 0.5 (estimativa
p ⋅ (1 − p)
conservadora). Porque quando
0.10
p = 0.5, o termo p(1 − p) terá valor
máximo.
0.00
0.0 0.2 0.4 0.6 0.8 1.0
Prof. Paulo Justiniano R. Jr Estimação pontual e intervalo de confiança p 26

Exercício: existe aquecimento global?
Uma pesquisa realizada com 1500 adul-
tos foram selecionados aleatoriamente para
responder à pergunta se acreditam ou não
no aquecimento global. 1050 entrevistados
respoderam que sim. Com isso:
1. Para um nível de confiança de 95%,

calcule o intervalo de confiança para a
verdadeira proporção de pessoas que
acreditam no aquecimento global,
utilizando: i) p = p̂ e ii) p = 0.5 e
compare os resultados.
2. Com base nesses resultados, podemos
concluir que a maioria dos adultos Figura 11. Foto de Markus Spiske no Pexels.
acredita no aquecimento global?

Solução
1050
I Estimativa pontual: p̂ = 1500 = 0.7
I Intervalo otimista
r r !
0.7(1 − 0.7) 0.7(1 − 0.7)
IC0.95 (p) = 0.7 − 1.96 , 0.7 + 1.96 ≈ (0.677, 0.723).
1500 1500
I Intervalo conservador
r r !
0.5(1 − 0.5) 0.5(1 − 0.5)
IC0.95 (p) = 0.7 − 1.96 , 0.7 + 1.96 ≈ (0.675, 0.725).
1500 1500
I Intervalo conservador será ligeiramente mais largo quando p̂ 6= 0.5.

RESUMO: Intervalo de confiança para proporção
I Há dois resultados possíveis (“sucesso”, “fracasso”).
I As condições para a distribuição binomial são satisfeitas:
I As tentativas são independentes.
I A probabilidade de sucesso p permanece constante.
I A distribuição normal pode ser usada como aproximação para a distribuição binomial,
ou seja, np ≥ 5 e np(1 − p) ≥ 5.
2. Determine o nível de confiança 1 − α, e encontre o valor crítico zα/2 .

q
3. Calcule a margem de erro e = zα/2 · p(1−p)
n ,
com p = p̂ ou p = 0.5.
4. Calcule IC1−α (p).

Intervalo de confiança para a variância

Intervalo de confiança para variância
I Sendo Yi ∼ N(µ, σ 2 ), então a v.a.
S2 2
(n − 1) ∼ χn−1 , em que n − 1 são os graus de liberdade.
σ2
I Argumentos análogos ao caso da média, levam a

!
2 (n − 1)s2 (n − 1)s2
IC1−α (σ ) = 2
, 2 ,
χα/2,n−1 χ1−α/2,n−1
2
em que χα/2,n−1 2
e χ1−α/2,n−1 são os quantis da cauda direita e esquerda da
2
distribuição χ com n − 1 graus de liberdade.
I Note que neste caso o intervalo não é simétrico.

Exercício: variabilidade no diâmetro de parafusos
Uma amostra aleatória de 20 parafusos e

seus diâmetros são medidos. As medidas
em milímetros foram as seguintes.
2.02 1.98 2.08 1.99 2.03

1.94 2.00 2.07 1.95 2.05
2.09 2.03 1.99 1.99 2.01
1.95 2.04 1.96 1.99 2.03
Encontre um intervalo com 90% de confi- Figura 12. Foto de Pexels.
ança para σ 2 .

Solução
I Média e variância amostral ·10−2
ν = 20 − 1
s2 = 0.0019.
6
y = 2.0095 e 2
χ0.1/2 = 10.117 2
χ1−0.1/2 = 30.143
4
I Quantis da distribuição χ 2 2
2
χ19,0.95 = 30.1435 0
0 10 20 30 40 50
2
χ19,0.05 = 10.117.
Figura 13. Quantis da distribuição χ 2 .
I Assim, o intervalo de confiança é

2 (20 − 1) · 0.0019 (20 − 1) · 0.0019
IC0.9 (σ ) = , = (0.0012, 0.0035) .
30.14353 10.11701

Considerações finais

Comentários finais
Em resumo Alguns tópicos adicionais

I Intervalos de confiança são formas de I Expressões de outros intervalos.
expressar incerteza.
I Intervalos unilaterais.
I Os intervalos são obtidos através de
I Intervalos conjuntos.
quantis com base na distribuição
amostral. I Intervalos com diferentes
probabilidades nas causas.
I Esta forma de raciocínio (paradigma) é
chamada de frequentista. I Outros paradigmas de inferência.

Resumo
Estimação pontual e intervalar
I Terminologia.
I Intervalo de confiança para a
proporção.
I Intervalo de confiança para a variância.
Figura 14. Foto de Karolina Grabowska no Pexels.

Tamanho de amostra
Prof. Paulo Justiniano Ribeiro Jr
Prof. Paulo Justiniano Ribeiro Jr Tamanho de amostra 1

Por que dimensionar amostras?
I Dimensionar esforço, economizar recursos.

I Planejar pesquisas de opinião pública.
I Controle de qualidade.
I Estudos demográficos.
I Inspeções de qualidade de água.
I Volume de madeira em florestas cultivadas.
I Biodiversidade.
I Estoque de peixes.
I Testes de medicamentos. Figura 1. Foto de fauxels no
Pexels.

Exemplos básicos
I Exemplos (simples) discutidos aqui

1. Tamanho da amostra para estimar a
média.
proporção.
variância.
I Outros contextos
I Teoria e prática

Tamanho da amostra para a média

Tamanho da amostra para estimar a média
Nosso objetivo é coletar dados para estimar a média populacional µ.

A questão é:
Quantos elementos (itens, objetos, pessoas, ...) devemos amostrar?
A resposta pode ser:
Uma quantidade que permita obter estimativas com uma incerteza aceitável.

Amplitude do intervalo de confiança para a média
O intervalo de confiança para média é

σ σ
IC(µ) : ȳ − zα/2 · √ ; ȳ + zα/2 · √ .
n n
Logo, a amplitude do intervalo dada pela diferença entre o limite superior e inferior é
√
AIC(µ) = 2 · zα/2 · (σ / n).
2e
√
e = zα/2 · σ / n
√ √
y − zα/2 · σ / n y y + zα/2 · σ / n
Figura 3. Margem de erro do intervalo de confiança para a média.

Componentes do intervalo de confiança para a média
A amplitude do intervalo de confiança depende de três componentes:

√
AIC(µ) = 2 · zα/2 · (σ / n)
1. Coeficiente de confiança 1 − α, que determina o valor crítico zα/2 .

2. Desvio-padrão populacional σ .
3. Tamanho da amostra n.

Efeitos na amplitude do intervalo de confiança para a média
↑ σ ⇒↑ AIC(µ)
↑ 1 − α ⇒↑ zα/2 ⇒↑ AIC(µ)
σ
AIC(µ) = 2 · z α/2 · √
n
↑ n ⇒↓ AIC(µ)
1. zα/2 : cada vez que aumentamos a confiança 1 − α, o valor de zα/2 fica maior e,
consequentemente, a amplitude do intervalo aumenta.
2. σ : um grande desvio padrão indica a possibilidade de um considerável
distanciamento dos valores amostrais em relação à média populacional.
3. n: quanto maior for o tamanho da amostra, maior será a quantidade de informação
disponível. Com isso, valores maiores de n produzem intervalos mais informativos
(estreitos).
Invertendo a equação da margem de erro
A partir da equação do erro máximo provável,

σ
e = zα/2 · √ ,
n
e fixando e, podemos obter n a partir da seguinte equação

z · σ 2
α/2
n= .
e

Tamanho da amostra para estimar a média
Note que, em
↑ 1 − α ⇒↑ zα/2 ⇒↑ n ↑ σ ⇒↑ n
z · σ 2
α/2
n=
e
↑ e ⇒↓ n
I O tamanho da amostra (n) depende do

I nível de confiança (1 − α) desejado (expresso pelo valor crítico zα/2 ).
I desvio-padrão (σ ) (embora veremos que não é estritamente necessário).
I erro máximo admitido (e).
I Como o tamanho da amostra precisa ser um número inteiro, usamos o número
inteiro logo acima, denotado por dne.
Exercício: cálculo de tamanho de amostra para a média
Considere uma característica Y ∼ N(µ, σ 2 = 36).
1. Calcule o tamanho da amostra, para que com 95% de probabilidade, a média

amostral não difira da média populacional por mais de
1.1 0.5 unidades e 2 unidades.
1.2 Qual o impacto do erro máximo assumido para o tamanho da amostra?

Solução do item 1
I Temos σ = 6, e = 0.5 e z0.025 = 1.96.
Assim,
z 2
· σ 2
f (z)
α/2 1.96 · 6
n= = ≈ 554. 0.4
e 0.5
−z0.05 = −1.645 z0.05 = 1.645
0.2 −z0.025 = −1.960 z0.025 = 1.960
I Temos σ = 6, e = 2 e z0.025 = 1.96. −z0.005 = −2.576 z0.005 = 2.576
Assim,
0
z 2 z
· σ 2
−4 −3 −2 −1 0 1 2 3 4
α/2 1.96 · 6
n= = ≈ 35.
e 2 Figura 4. Quantis da distribuição Normal Padrão.
I Quanto menor o erro admitido, maior

o tamanho da amostra.

Exercício: cálculo de tamanho de amostra para a média
Considere uma característica Y ∼ N(µ, σ 2 = 36).
1. Calcule o tamanho da amostra, para que com 95% de probabilidade, a média

amostral não difira da média populacional por mais de
1.1 0.5 unidades e 2 unidades.
1.2 Qual o impacto do erro máximo assumido para o tamanho da amostra?
2. Calcule o tamanho da amostra, para que a diferença da média amostral para a

média populacional (em valor absoluto) seja menor ou igual a 2 unidades, com
níveis de confiança de
2.1 90% e 99%.
2.2 Compare as estimativas do item anterior e analise o impacto do nível de confiança
para a determinação do tamanho amostral.

Solução do item 2
I Temos σ = 6, e = 2 e z0.05 = 1.645. Assim,

z 2
α/2 · σ 2 1.645 · 6
n= = ≈ 25.
e 2
I Temos σ = 6, e = 2 e z0.005 = 2.576. Assim,

z 2
α/2 · σ 2 2.576 · 6
n= = ≈ 60.
e 2
I Quanto maior o nível de confiança, maior o tamanho da amostra.

Quando a variância é desconhecida
Se σ for desconhecido? 0.4

f (z)
1. Estime o valor de σ com base em 0.2

algum estudo feito anteriormente.
2. Faça uma amostra piloto e estime o
0
z
−4 −3 −2 −1 0 1 2 3 4
desvio-padrão amostral s, e use-o P(−1 < Z < 1) ≈ 0.6826
como uma aproximação para o P(−2 < Z < 2) ≈ 0.9546
desvio-padrão populacional σ . P(−3 < Z < 3) ≈ 0.9973
µ − 3σ µ − 2σ µ − 1σ µ µ + 1σ µ + 2σ µ + 3σ
3. Use a regra empírica da amplitude
para dados com distribuição Figura 5. Áreas simétricas na distribuição
(aproximadamente) Normal. Normal para a regra empírica.

A regra empírica da amplitude
Define-se como valores usuais aqueles que são típicos (não extremos).
Como sabemos que em uma distribuição (aproximadamente) Normal praticamente 95%
dos valores encontram-se a 2 desvios-padrões acima e abaixo da média, temos que
4σ = (µ + 2σ ) − (µ − 2σ )
4σ = Y(n) − Y(1)
Y(n) − Y(1)
σ̃ =
4
pode ser utilizado como uma estimador para σ . Y(n) é maior valor da amostra e Y(1) é o
menor.

Exercício: gasto com educação dos filhos
Um cientista social deseja estimar o gasto

mensal com educação dos filhos nas famí-
lias de uma cidade. Quantas famílias devem
ser selecionados para termos 90% de confi-
ança que a média amostral esteja a menos
de R$ 30.00 da média populacional? Apura-
se que gastos estão entre R$ 800.00 e R$
1200.00. Assume-se que isto ocorre 95% das
vezes.
Figura 6. Foto de August de Richelieu no Pexels.

Solução
Para confiança de 1 − α de 0.90,

temos que zα/2 = 1.645, e = 30 e o desvio padrão pode ser aproximado por
σ̃ = (1200 − 800)/4 = 100.
Usando a equação apresentada, temos

2
1.645 · 100
n= ≈ 31.
30

Tamanho da amostra para proporção

Tamanho da amostra para estimar a proporção
Seguindo o mesmo raciocínio do tamanho de amostra para a média, a partir da equação

do erro máximo provável para a distribuição amostral (aproximada pela Normal) da
proporção, r
p(1 − p)
e = zα/2 · ,
n
podemos isolar n e chegar na seguinte equação
z 2
α/2
n= · p(1 − p).
e
Quando não conhecemos p, usamos p̂ (estimativa otimista) ou p = 0.5 (estimativa

conservadora) como valores para p.

Exemplo: proporção de troncos defeituosos
Um engenheiro florestal deseja estimar a
verdadeira proporção de troncos defeituo-
sos (impróprios para a marcenaria por te-
rem rachaduras ou nós), com um erro má-
ximo de 3% e nível de confiança de 99%. Cal-
cule o tamanho da amostra necessário para
se estimar esta proporção se:
1. O engenheiro tem uma estimativa de

que, em uma amostra anterior,
aproximadamente 10% dos troncos
eram defeituosos.
2. O fabricante não tem nenhuma Figura 7. Foto de Pexels.
informação prévia sobre a proporção
de troncos defeituosos.

Solução
1. Temos p = 0.1, e = 0.03 e zα/2 = z0.005 = 2.576. Assim,

2
2.576
n= 0.1 · (1 − 0.1) ≈ 664.
0.03
2. Temos p = 0.5, e = 0.03 e zα/2 = z0.005 = 2.576. Assim,

2
2.576
n= 0.5 · (1 − 0.5) ≈ 1844.
0.03

Tamanho da amostra para a variância

I O intervalo de confiança para σ 2 é
!
2 (n − 1)s2 (n − 1)s2
IC1−α (σ ) = 2
, 2 ,
χα/2,n−1 χ1−α/2,n−1
2
em que χα/2,n−1 2
e χ1−α/2,n−1 são os valores da cauda direita e esquerda da
2
distribuição χ com n − 1 graus de liberdade.
I Queremos determinar o tamanho da amostra n para que a amplitude do intervalo
seja uma fração ρ de σ 2 .
ρσ 2
σ2
0 (n − 1)s2 (n − 1)s2
σ2
2 2
χα/2,n−1 χ1−α/2,n−1

I Note que neste caso queremos um intervalo de amplitude tal que satisfaça
(n − 1)s2 (n − 1)s2
AIC σ 2 = 2
− 2
≤ ρs2 .
χα/2,n−1 χ1−α/2,n−1
I Simplificando os termos, precisamos encontrar n tal que

!
1 1
(n − 1) 2
− 2 ≤ ρ.
χα/2,n−1 χ1−α/2,n−1
I Neste caso, a margem de erro é definida como um percentual de σ 2 .

I Após simplificação, o valor particular de s2 não entra diretamente no cálculo.
I Neste caso não é possível expressar n por uma fórmula. Cálculo feito por algum
algorítmo.

Curvas de tamanho amostra
Nível de 5000 Nível de

confiança confiança
2500
0.75 0.75
Tamanho de amostra (log10 n )

0.9 0.9
Tamanho de amostra (n )
4000
1000
0.95 0.95
0.99 500 0.99
250
2000
100
50
25
0.25 0.50 0.75 1.00 0.1 0.2 0.3 0.4 0.5 0.6 0.70.80.9
Erro relativo (ρ) Erro relativo (log10 ρ)
Figura 8. Curvas para determinar o tamanho da amostra para estimação da variância.

Considerações práticas sobre tamanho de amostra
I Para média e proporção, é simples determinar o tamanho de amostra.

I Para outros parâmetros populacionais, pode não ser de fácil obtenção.
I Em algumas situações é possível empregar de simulação computacional para
determinar tamanho de amostra.
I Para esquemas complexos de amostragem ou delineamentos experimentais, todas
as características do plano amostral/experimental devem ser consideradas.
I Quase sempre os tamanhos de amostra determinados superam a capacidade
logística/operacional disponível para a sua execução.

Propriedades dos estimadores
Prof. Paulo Justiniano R. Jr Propriedades dos estimadores 1

Falar sobre população Y ∼ Dist.y (θ)
a partir da observação da amostra
θ̂(y1 , . . . , yn ) ∼ Dist.Am.θ̂ (θ). θ
1. Como expressar incerteza?

Estimação pontual e intervalar.
2. Amostra? De qual tamanho?
Determinação do tamanho da
amostra.
3. O que é “estimar bem”?
Propriedades dos estimadores.
Figura 1. Distribuição amostral de diferentes
4. Como estimar?
Métodos de estimação.

1. Estimação pontual e intervalar.

2. Determinação do tamanho da amostra.
3. Propriedades dos estimadores.
I Vício (ou não tendenciosidade).
I Variância.
I Erro quadrático médio.
I Consistência.
4. Métodos de estimação.

Notação e definições

Notação e definições (relembrando)
I Y = (Y1 , . . . , Yn ): v.a.’s independentes e identicamente distribuídas.

I Yi ∼ f (θ) onde f denota a função densidade de probabilidade ou função de
I Uma estatística T (Y) pode ser um estimador θ̂ de um parâmetro θ da população.
I A distribuição de probabilidade de T (Y) é a distribuição amostral.
Objeto de inferência (frequentista).
I Objetivo: O que caracteriza bons estimadores? → Propriedades dos estimadores.

Questões
I O que torna um estimador “bom” em

termos práticos?
I Existe “erro” na estimação? Como
medir?
I Quais as propriedades desejáveis de
um estimador?
I Como comparar dois (ou mais)
estimadores?
Figura 3. Foto de cottonbro no Pexels.

Vício de um estimador

Estimadores não viciados
I Um estimador deve fornecer valores

próximos do valor verdadeiro do
parâmetro que está sendo estimado.
I Um estimador é não viciado para θ se
o valor esperado de θ̂ for igual a θ.
I Isso quer dizer que a média da
distribuição amostral de θ̂ é θ.
I Em certos casos, é possivel determinar
o vício de um estimador de forma
analítica.
I Em situações mais complexas, pode-se Figura 4. Foto de icon0.com no Pexels.
determinar de forma computacional,
por meio de simulação.

Definição
Não viciado
O estimador pontual θ̂ = Tθ (y1 , y2 , . . . , yn ) é

um estimador não viciado para o parâmetro θ^
θ se θ
E(θ̂) = θ.
Viciado
Se o estimador for viciado ou tendencioso,

então a diferença
B(θ̂) = E(θ̂) − θ θ^
θ
é chamada de vício (bias) do estimador θ̂.
Figura 5. Exemplo de estimador viciado e não
viciado.

Exemplo: vício da variância amostral (analítico)
Pn ! !
− Y )2 X n
2 i=1 (Yi 1 2
E(S ) = E = ·E (Yi − Y )
n−1n−1
i=1
! !
1 X n
2 1 Xn
2
= ·E (Yi2 − 2Yi Y + Y ) = ·E Yi2 − nY
n−1 n−1
i=1 i=1
!
1 X n
2
= E(Yi2 ) − nE(Y )
n−1
i=1
!
1 X n
= (µ 2 + σ 2 ) − n(µ 2 + σ 2 /n)
n−1
i=1
1 (n − 1)σ 2
= nµ 2 + nσ 2 − nµ 2 − σ 2 = = σ 2.
n−1 n−1

Sobre os estimadores da variância
I Em Estatística Descritiva, apresentou-se duas expressões para a variância
Pn 2
Pn
i=1 (Yi − Y ) (Yi − Y )2
2
S = e σ̂ = i=1
2
n−1 n
I O denominador n − 1 na expressão da variância amostral (S 2 ) é o que o torna um

estimador não viciado para σ 2 .
I Portanto, σ̂ 2 é um estimador viciado.
I Neste caso, o vício depende do tamanho da amostra
n−1 2 1
B(σ̂ 2 ) = · σ − σ 2 = − · σ 2.
n n
I Pode não ser possível determinar o vício do estimador de forma analítica.

Exemplo: vício de estimadores da variância (computacional)
Também é possível determinar o vício de es-
timadores por simulação. ^2
σ S2
Neste caso, procedeu-se da seguinte forma: 100
75
Número da amostra
1. Extraiu-se k = 100 amostras de 50
tamanho n = 6 de uma população com

variância conhecida σ 2 = 1. 25
2. Para cada amostra i ∈ {1, . . . , k}, 0

determinou-se a estimativa da σ2
^2
σ
σ2
S2
variância usando: S 2 e σ̂ 2 . 0 1 2 0 1 2
Valor das estimativas pontuais de cada estimador
3. Obteve-se a média das estimativas ao
longo das k amostras que é o Figura 6. Simulação computacional para o vício
dos estimadores da variância.
equivalente computacional da
esperança do estimador.
Exemplo: estimador da média com mediana e média aparada
I A distribuição Normal é simétrica, Mediana Media 10% aparada
então média e mediana coincidem.

I A mediana e a média aparada são
menos influenciadas por valores
extremos.
I Seriam então bons estimadores?
I Qual o vício de cada um destes
estimadores?
I Ao lado, simulação computacional
com k = 500 amostras aleatórias de Valor das estimativas pontuais de cada estimador
tamanho n = 20. Figura 7. Simulação computacional para o vício

dos estimadores da média: mediana e média
10% aparada.

Variância de um estimador

Variância de um estimador
I Sejam θ̂1 e θ̂2 estimadores não

viciados de θ. θ
I Então, E(θ̂1 ) = E(θ̂2 ) = θ.
I No entanto, as variâncias destas θ̂1
distribuições amostrais podem ser
diferentes. θ̂2
I É razoável escolher o estimador que

apresente a menor variância.
Figura 8. Distribuição amostral de dois

estimadores não viciados.

Exemplo: estimador da média com mediana e média aparada
I Na simulação computacional, Mediana Media 10% aparada
Y ∼ N(µ = 0, σ 2 = 1) e amostras de
tamanho n = 20.
I Os estimadores média 10% aparada
(θ̂1 ) e mediana (θ̂2 ) para µ tem
variâncias
V(θ̂1 ) = 0.0477 e V(θ̂2 ) = 0.0673.
I Na simulação obteve-se V(y) = 0.0465.

I A variância teórica da média amostral
é Figura 9. Simulação computacional para o vício
σ2 1 dos estimadores da média: mediana e média
V(Y ) = = = 0.05. 10% aparada.
n 20

Exemplo: estimadores da média para v.a. Uniforme Contínua
I Nem sempre o estimador “óbvio” é o Estimador Média Ponto médio
melhor estimador.
Y ~ Normal(0, 1 3)
I O melhor estimador pode depender
da distribuição da v.a.
I Estimadores concorrentes:
Y ~ Uniforme(− 1, 1)
I Média amostral
1X
n
θ̂1 = Y = Yi .
n
i=1
−0.8 −0.4 0.0 0.4
I Valor médio
Figura 10. Simulação computacional para a
Y(1) + Y(n) variância de estimadores da média.
θ̂2 = .
2

Erro-padrão
É o desvio-padrão da distribuição amostral do estimador.
I O erro-padrão de um estimador é a raiz quadrada
da variância do estimador.
p
v.a.: Y ↔ Variância: V(Y ) ↔ Desvio-padrão: V(Y )
q
Estimador: θ̂ ↔ Variância: V(θ̂) ↔ Erro-padrão: V(θ̂)
I É frequente reportado acompanhando estimativas Figura 11. Tabela

pontuais para representar sua incerteza. reportando estimativas
aprox e seus erros-padrões.
I Como visto, quando θ̂ ∼ Normal, o erro-padrão
Extraído de
multiplicado por um fator (por exemplo ±2) define stackoverflow.com.
o intervalo de confiança.

Combinando propriedades
Estimador não viciado de variância mínima (ENVVM)

Se considerarmos todos os estimadores não viciados de θ, aquele com a menor
variância será chamado de estimador não viciado de variância mínima (ENVVM).
A média amostral
Se Y1 , Y2 , . . . , Yn for uma amostra aleatória de tamanho n, proveniente
P de uma v.a.
aleatória de distribuição Normal, então a média amostral Y = ni=1 Yi /n é um ENVVM
para µ.

Erro quadrático médio

Erro quadrático médio
I Nem sempre se dispõe de estimadores

não viciados. θ
I Há situações em que estimadores
viciados tem distribuição amostral
com menor variância. θ̂1
I Como escolher o estimador neste caso θ̂2
conciliando ambos aspectos, vício e
variância?
Figura 12. Distribuição amostral de dois

estimadores.

Decomposição em vício e variância
I O erro quadrático médio (EQM) é uma medida que concilia vício e variância.
I O EQM de um estimador θ̂ do parâmetro θ é definido como
EQM(θ̂) = E(θ̂ − θ)2 .
I Ele pode ser reescrito como função da variância e vício
EQM(θ̂) = E[θ̂ − E(θ̂)]2 + [E(θ̂) − θ]2

= V(θ̂) + B2 (θ̂).
I Portanto, o EQM de um estimador não viciado é a própria variância.

Analogia do tiro ao alvo
×
θ̂i
×
ˆ
E(θ) P
Variância: V(θ̂) = 1/n (θ̂i − E(θ̂))2
θ
× ×
× ×
P
EQM(θ̂) = 1/n (θ̂i − θ)2
×
×
EQM(θ̂) = V(θ̂) − B(θ̂)2 Vício: B(θ̂) = E(θ̂) − θ
Figura 13. Analogia do tiro ao alvo para o erro quadrático médio e sua decomposição.

Ilustração da decomposição do erro quadrático médio
θ θ E(θ̂)
θ̂i
EQM(θ̂) = V(θ̂) − B(θ̂)2

θ̂1
θ̂2 P
EQM(θ̂) = (1/n) (θ̂i − θ)2
P
Variância: V(θ̂) = (1/n) (θ̂i − E(θ̂))2
Vício: B(θ̂) = E(θ̂) − θ
Figura 14. A decomposição do erro quadrático médio.

Eficiência relativa de um estimador
I O erro quadrático médio é uma métrica importante para comparar estimadores.

I Ele é usado para definir a eficiência relativa de um estimador comparado a outro,
EQM(θ̂1 )
Efr(θ̂1 , θ̂2 ) = .
EQM(θ̂2 )
I Se a Efr(θ̂1 , θ̂2 ) < 1, conclui-se que θ̂1 é um estimador superior à θ̂2 e vice-versa.

Consistência de um estimador

θ̂1
I Não viés é uma propriedade
desejável.
I Pode ser restrita em situações θ
mais gerais.
I O viés de um estimador pode n
θ̂2
“sumir” quando a amostra
aumenta de tamanho.
I Consistência é uma propriedade
θ
mais geral.
I Verifica o que acontece com o
estimador quando a amostra n
aumenta de tamanho.
Figura 15. Consistência para dois estimadores.

I Verificar a consistência de um I Para consistência em probabilidade, a

estimador não é trivial. Desigualdade de Chebyshev permite
I Precisam da idéia de convergência de dizer que
v.a.
V(θ̂) → 0, para n → ∞,
I Um estimador é consistente em
probabilidade se então θ̂ é consistente em
probabilidade para θ.
P(|θ̂ − θ| ≥ ε) → 0 quando n → ∞.
I Existem outras formas de consistência
→ Fisher consistency.
I Um estimador é erro quadrático
médio consistente se I Mais detalhes estão fora do escopo
deste curso.
E(θ̂ − θ)2 → 0 quando n → ∞.

Consistência do estimador σ̂ 2 da variância
n
^ = ∑ (yi − y)2 n com Y ~ Normal(0, 1)
2
Estimador da variância usando σ
1
n=3 n=5 n=8 n = 13 n = 20 n = 50

5
3
S2
Figura 16. Ilustração por simulação computacional da consistência para o estimador σ̂ 2 da variância.

Inconsistência do estimador σ̃ do desvio-padrão
~ = (y(n) − y(1)) 4 com Y ~ Normal(0, 1)
Estimador da variância usando σ
n = 10 n = 20 n = 50 n = 100 n = 200 n = 500
2.0
1.5
σ
~
1.0
0.5
Figura 17. Ilustração por simulação computacional da inconsistência do estimador σ̃ do desvio-padrão

baseado na regra empírica da amplitude.


Notas finais
I O estimador ideal é aquele que
captura a informação da amostra da
forma mais eficiente. θ
I Deseja-se que seja não viciado, com a
menor variância possível e
consistente.
I A maioria dos estimadores vistos aqui
apresentam tais características.
I Estimadores “empíricos” podem não
apresentá-las.
I Há situações em que estimadores Figura 18. Distribuição amostral de diferentes
“óbvios” são superados por outros
devidamente formulados.

Métodos de estimação
Prof. Paulo Justiniano Ribeiro Junior
Prof. Paulo Justiniano Ribeiro Junior Métodos de estimação 1

1. Estimação pontual e intervalar.

2. Determinação do tamanho da amostra.
3. Propriedades dos estimadores.
4. Métodos de estimação.
I Método dos momentos.
I Método da máxima verossimilhança.
Figura 1. Foto de Kaique Rocha no Pexels.

Porbabilidades versus estimação
Tabela 1. Objeto das distribuições de probabilidades e da inferência estatística.

Distribuição de probabilidades Inferência Estatística
1 Distribuição conhecida. Distribuição desconhecida.
2 Parâmetros conhecidos. Parâmetros desconhecidos.
3 Obter probabilidades para valores da Obter estimativas dos parâmetros
v.a.. usando dados observados.
Estimação: Especificar a distribuição e estimar parâmetros a partir dos dados observados.

Notação e definições (relembrando)
I Y = (Y1 , . . . , Yn ): v.a.’s independentes e identicamente distribuídas.

I Yi ∼ f (θ) onde f denota a função densidade de probabilidade ou função de
I Uma estatística T (Y) pode ser um estimador θ̂ de um parâmetro θ da população.
I A distribuição de probabilidade de T (Y) é a distribuição amostral.
Objeto de inferência (frequentista).
I Objetivo: Como obter estimadores? → Métodos de estimação.

Como o obter um estimador?
I Existem estimadores “óbvios”.

I y → µ.
I p̂ → p.
I S 2 → σ 2.
I Existem estimadores baseados em

regras físicas, geométricas, etc.
Figura 2. Foto de Marko Blazevic no Pexels.


I y → µ.
I p̂ → p.
I S 2 → σ 2.


Exemplo: estimador do comprimento de raízes
A determinação exata do comprimento de
raízes (C ) de plantas é laborioso.
Figura 4. Extraído de Liao Chengsong no Figura 5. Exemplo da determinação de

ResearchGate. comprimento de raízes pelo método da
intersecção.

Um estimador para o comprimento das raízes
I Um estimador usado na prática é o
seguinte
π
Ĉ = · l · n,
4
em que n é o número de interseções
das raízes (linhas sólidas) com a
malha (pontos vermelhos), l é a
distância entre linhas da malha (linhas
tracejadas).
I Para o exemplo didático ao lado,
n = 84 e l = 0.1 que dá a estimativa
ĉ = 6.597.
I O comprimento real é 7.072.

Reconhecendo os componentes para a inferência
I População: as raízes.
I Parâmetro: comprimento total das
raízes.
I Amostra: a forma como as raízes
ficaram dispostas na malha.
I Estatística: o número de intersecções.
I Estimador: a fórmula Ĉ = π
4 ·l·n
I Estimativa: o resultado de aplicar o
estimador aos dados observados na
amostra, no caso ĉ = 6.597.


I y → µ.
I p̂ → p.
I S 2 → σ 2.

I De forma mais geral, existem
parâmetros que não possuem
estimadores “imediatos”.

Método dos momentos

Método dos momentos
I Método proposto por volta de 1887 por

Pafnuty Chebyshev.
I Ideia básica é atribuída a Karl Pearson.
I Método dos momentos: igualar os
momentos da população, que são
definidos em termos de valores
esperados, aos correspondentes
momentos da amostra.
I Os momentos da população são
funções de parâmetros desconhecidos.
I Solução da(s) equação(ões) são os
estimadores dos parâmetros.
Figura 7. Karl Pearson. Retirado da Wikipedia.

Momentos
Sejam Y1 , Y2 , . . . , Yn v.a’s com fdp ou fp f (y; θ).
O k-ésimo momento da população (ou momento de distribuição) é
X
E(Y k ) = yk · f (y; θ) → v.a. discreta.
y∈Ry
Z
= yk · f (y; θ) dy → v.a. contínua.
y∈Ry
O correspondente k-ésimo momento amostral é

n
1X k
mk = yi , k ∈ {1, 2, . . .}.
n
i=1

Estimador de momentos
I Sejam Y1 , Y2 , . . . , Yn v.a.’s com fdp ou fp
f (y; θ) com p parâmetros
θ = (θ1 , . . . , θp ).
I Os estimadores Tθ1 , . . . , Tθp são
encontrados igualando os primeiros p
momentos populacionais aos
primeiros p momentos amostrais.
I Tal procedimento resulta em um
conjunto de equações que deve ser
resolvido.



E(Y ) = m1

E(Y 2 ) = m
2
E(Y m Figura 8. Pafnuty Lvovich Chebyshev. Retirado da
 3
 ) = 3
Wikipedia.


. . .
Exemplo: distribuição de Poisson e Exponencial
Poisson Exponencial
e−λ λy
P[Y = y] =
y! f (y) = λexp{−λy}
I Número de parâmetros: p = 1 I Número de parâmetros: p = 1

I 1º momento populacional: I 1º momento populacional:
E(Y 1 ) = µ = λ. E(Y 1 ) = µ = 1/λ.
I 1º momento amostral: m1 = y. I 1º momento amostral: m1 = y.
I Dessa forma, I Dessa forma,
λ̂ = m1 = Y . λ̂ = 1/m1 = 1/Y .
I A média amostral é o estimador de I O recíproco da média amostral é o
momentos do parâmetro λ (média) da estimador de momentos do
Poisson. parâmetro λ (taxa) da Exponencial.
Exemplo: distribuição Normal
1ª Equação 2ª Equação
I Número de I 2º momento populacional: E(Y 2 ) = µ 2 + σ 2 .

parâmetros: p = 2. I 2º momento amostral: m2 = (1/n) ni=1 y2i .
P
I 1º momento I Dessa forma,
populacional:
n
E(Y 1 ) = µ. 1X 2
µ2 + σ 2 = Yi ,
I 1º momento amostral: n
i=1
m1 = y.
I Dessa forma, e resolvendo em σ 2 usando o fato que µ̂ = Y ,
 !2  P
n n n
µ̂ = Y . X X (Yi − Y )2
σ̂ 2 =  Yi2 − n Yi  = i=1 .
1 1
n n n
i=1 i=1

Exemplo: distribuição Gama
λr r−1
f (y) = y exp{−λy}
Γ(r)
I Suponha que I Os estimadores de momentos são encontrados

Y1 , Y2 , . . . , Yn v.a’s com resolvendo o sistema de equações
distribuição Gama de r
parâmetros r e λ. ( 
λ
 =y
E(Y ) = m1 n
I Os p = 2 primeiros −→ r(r + 1) 1X 2
momentos E(Y 2 ) = m2  yi
 λ2 n
 =
i=1
populacionais da
Gama são
I Com a solução do sistema, os estimadores são
r
E(Y ) =
λ Y
2
Y
r(r + 1) r̂ = e λ̂ =
E(Y 2 ) =
Pn Pn
. i=1 Yi −Y i=1 Yi −Y
2 2 2 2
λ2
(1/n) (1/n)
Exemplo: tempo de atendimento
Acredita-se que o tempo de atendimento

seja uma distribuição adequada para des-
1.0
crever o tempo de atendimento de clientes
0.8
no caixa de um supermercado. Uma amos-
0.6
tra aleatória de n = 20 atendimentos foi ob-
0.4
tida. Os tempos são os seguintes.
0.2
0.0
2.34 4.03 4.85 5.68 7.41
2.39 4.04 4.90 5.76 7.48
2 4 6 8
2.96 4.17 5.20 5.88 7.64
3.30 4.61 5.24 6.62 8.62 Tempo de atendimento (min)
Estime os parâmetros da distribuição Gama Figura 9. Gráfico de distribuição acumulada

pelo método dos momentos. empírica com os dados de tempo de
atendimento no caixa.

Solução
1.0
0.8
0.6
Aplicando as expressões, obtém-se
0.4
0.2
I r̂ = 8.9.
0.0
I λ̂ = 1.73.
2 4 6 8
Tempo de atendimento (min)
Figura 10. A curva da função de distribuição da

Gama como parâmetros estimados sobreposta
ao gráfico da distribuição empírica.

Recomendações e limitações
Vantagens Desvantagens
I Concepção simples e intuitiva. I Difícil de expressar a incerteza

I Fácil de obter (desde que os associada as estimativas.
momentos populacionais estejam I Difícil de generalizar para modelos
disponíveis). e/ou estruturas de dados complexas.
I Em geral, oferece estimadores I Não viés em geral não é garantido.
consistentes. I Eficiência é dificil de medir e não é
I Suposições distribucionais não são garantida mesmo para grandes
essenciais. amostras.
I Pode ser usado como guia inicial para I Pode resultar em estimativas fora do
outros métodos. espaço paramétrico.
I É a base do método dos momentos I Precisa que os momentos
generalizados. populacionais sejam passíveis de
calcular.
Método de máxima verossimilhança

Método de máxima verossimilhança
I Proposto por Ronald Fisher em 1922.

I É o método mais popular em
estatística aplicada.
I Ideia geral: Encontrar o conjunto de
valores para os parâmetros θ de uma
distribuição de probabilidade f (y; θ)
que maximize a “chance” de observar
a amostra de fato observada.
Figura 11. Ronald Fisher. Retirado do Google imagens.

Função de verossimilhança
I Configuração: Sejam dados y uma realização de um v.a. Y com fp ou fdp f (y; θ).
I Função de verossimilhança
L(θ) ≡ f (y; θ),
em que f (y; θ) é a função de distribuição conjunta de Y.
I Supondo que as observações são independentes
n
Y
L(θ) ≡ f (yi ; θ).
i=1
I Notação para enfatizar que a verossimilhança é com o y já observado
L(θ|y).

Estimação de população por captura e recaptura
Biólogos foram a campo, capturaram e mar-
caram 21 macacos (m) em uma reserva eco-
lógica. Após 1 mês, eles retornaram e fize-
ram outra captura igual à primeira. Dos 49
(r) macacos capturados, 5 (y) apresentam a
marca. Qual o tamanho da população de
macacos (m + n)?
m = 21, r = 49, y = 5, n=?

Parâmetro desconhecido: θ = n
E se n fosse. . . qual a probabilidade de ob-
servar este resultado y = 5?
Figura 12. Foto de Pexels.

Exemplo da estimação da população de macacos (cont)
0.20
m n

y · r−y
L(n|y) = m+n

0.15
r
n

·
L(m|y)
21
0.10
5 49−5
= 21+n

49
0.05
0.00 100 150 200 250 300
Figura 13. Função de verossimilhança para o problema de estimação

do tamanho da população para o problema de captura e recaptura
dos macacos.

Função de Probabilidade versus de verossimilhança
Interpretações da função conforme o argumento em uso
0.20
0.15
f(y, θ)
0.10
0.05
240 15
220
200 10 Figura 14. Função de verossimilhança com o eixo
m + n 180 5
y para y (função de probabilidade) e um eixo para
160
0 m + n (função de verossimilhança).

Função de log-verossimilhança e escore
I A função de log-verossimilhança é
l(θ; y) = ln (L(θ; y)) .
I No caso de observações independentes, tem-se

n
X
l(θ; y) = ln (L(θ; yi )) .
i=1
I Função escore: Caso de observações independentes

n
X ∂
U(θ; Y) = ln f (θ, Yi ), para j ∈ {1, . . . , p}.
∂θj
i=1

Estimativa e estimador de máxima verossimilhança
I Estimativa de máxima verossimilhança: O valor
θ̂ = θ̂(y)
é a estimativa de máxima verossimilhança para θ se L(θ̂) ≥ L(θ), ∀θ.

I Estimador de máxima verossimilhança: Se θ̂(y) é a estimativa de máxima
verossimilhança, então
θ̂(Y)
é o estimador de máxima verossimilhança (EMV).

Exemplo: distribuição de Poisson
I Se Yi ∼ P(λ), então a fp
λy exp{−λ}
f (y; λ) = .
y!
I Assumindo observações independentes, a verosssimilhança
n
Y λyi exp{−λ}
L(λ) = .
yi !
i=1
I E, dessa forma, a função de log-verossimilhança

n
X n
X
l(λ) = ln(λ) yi − nλ − ln(yi !).
i=1 i=1

Exemplo: distribuição de Poisson (cont.)
I Função escore (derivada de l(λ) em relação a λ)

n
1X
U(λ) = yi − n.
λ
i=1
I Resolvendo em λ, temos
n
X yi
λ̂ = .
n
i=1
I O estimador de máxima verossimilhança do parâmetro λ da distribuição Poisson é a

média amostral.

Exemplo: distribuição exponencial
Se Yi ∼ Exp(λ) e a amostra é iid, então
f (y; λ) = λ exp{−λy}
Yn
L(λ) = λ exp{−λyi }
i=1
n
X
l(λ) = n ln(λ) − λ yi
i=1
n
n X
U(λ) = − yi = 0
λ
i=1
n
λ̂ = Pn .
1
i=1 yi y
=
O estimador de máxima verossimilhança do parâmetro λ é recíproco da média amostral.

Exemplo: Distribuição Normal
I Se Yi ∼ N(µ, σ 2 ), então a fdp

(y − µ)2
f (y; θ = (µ, σ )) = √ exp − .
2 1
2πσ 2 2σ 2

n
Y
L(θ) = √ exp − 2 (yi − µ) .
1 1 2
i=1 2πσ 2 2σ
I Log-verossimilhança
n
n n 1 X
l(θ) = − ln(2π) − ln(σ ) − 2
2
(yi − µ)2 .
2 2 2σ
i=1

Exemplo: distribuição Normal (cont.)
I Função escore (derivada de l(θ) em relação a µ)

n n
1 X 1X
Uµ (θ) = (yi − µ), que resolvendo µ̂ = yi .
σ2 n
i=1 i=1
I Função escore (derivada de l(θ) em relação a σ 2 )

n n
n 1 X 1X
Uσ 2 (θ) = − (yi − µ)2 , que resolvendo σ̂ 2 = (yi − µ)2 .
n
+
2σ 2 2(σ 2 )2
i=1 i=1

Exemplo: distribuição Gama
I Se Yi ∼ Gama(r, λ), então a fdp
λr r−1
f (y; θ = (r, λ)) = y exp {−λy} .
Γ(r)

n
Y λr r−1
L(θ) = y exp {−λyi } .
Γ(r) i
i=1
I Log-verossimilhança
n
X n
X
l(θ) = nr ln(λ) − n ln(Γ(r)) − λ yi + (r − 1) ln(yi ).
i=1 i=1

Exemplo: distribuição Gama (cont.)
I Função escore (derivada de l(θ) em relação a r)
n
n X
Ur (θ) = n ln(λ) − r ln(yi ) → Não tem solução analítica.
Γ0 (r)
+
i=1
I Função escore (derivada de l(θ) em relação a λ)

n
nr X nr
Uλ (θ) = − yi , que resolvendo λ̂ = Pn .
λ i=1 yi
i=1
I Conclusão: não se tem expressão analítica para os estimadores de máxima

verossimilhança da Gama.
Métodos numéricos devem ser utilizados.

Exemplo: tempo de atendimento (cont.)
Acredita-se que o tempo de atendimento
seja uma distribuição adequada para des-
1.0
crever o tempo de atendimento de clientes
0.8
no caixa de um supermercado. Uma amos-
tra aleatória de n = 20 atendimentos foi ob-
0.6
tida. Os tempos são os seguintes:
0.4
0.2
2.34 4.03 4.85 5.68 7.41
0.0
2.39 4.04 4.90 5.76 7.48
2.96 4.17 5.20 5.88 7.64 2 4 6 8
3.30 4.61 5.24 6.62 8.62 Tempo de atendimento (min)
Estime os parâmetros da distribuição Gama

pelo método da máxima verossimilhança Figura 15. Gráfico de distribuição acumulada
empírica com os dados de tempo de
(use software).
atendimento no caixa.

Solução
1.0
0.8
0.6
Usando um algorítio numérico ou software
0.4
estatístico, obtém-se
0.2
I r̂ = 8.288015.
0.0
I λ̂ = 1.61. 2 4 6 8
Tempo de atendimento (min)
Figura 16. A curva da função de distribuição da

Gama como parâmetros estimados sobreposta
ao gráfico da distribuição empírica.

Recomendações e limitações
Vantagens Desvantagens
I Concepção intuitiva. I Pode ser difícil de obter em termos

I Propriedades assintóticas desejáveis: práticos.
não-viés e eficiência. I De forma geral, requer métodos
I Estimadores consistentes. numéricos.
I Metodologia completa para estimação I Suposição explícita de uma
e inferência (IC e TH). distribuição de probabilidade.
I É o método de estimação mais
popular em estatística.

Inferência completa com a função de verossimilhança
m + n = 205
0.30
164 268
m  n  m + n
p(y) =   ⋅    , y ∈ {0, 1, ..., r}
 y  r − y  r 
0.20
L(m|y)
0.10
0.00
100 150 200 250 300
Valores para o parâmetro m
Figura 17. Função de verossimilhança usada para obter intervalo de confiança.


Comentário finais sobre estimação estatística
I Estimação de parâmetros emprega I Existem ainda outros métodos de

álgebra, cálculo e métodos numéricos. estimação.
I No entanto, os métodos são I Método de mínimos quadrados.
conceitualmente fáceis de I Método da Inferência Bayesiana.
compreender. I Métodos de estimação robustos.
I Momentos: igualar momentos e I Equações de estimação
resolver. generalizadas.
I Máxima verossimilhança: maximizar a I Etc.
chance de observar a amostra.
I Implementados em softwares
I Os estimadores já foram determinados estatísticos.
para os principais parâmetros e
distribuições .

UD5 Distribuicao Amostral e Estimacao

Enviado por

Direitos autorais:

Formatos disponíveis

UD5 Distribuicao Amostral e Estimacao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

UD5 Distribuicao Amostral e Estimacao

Enviado por

Direitos autorais:

Formatos disponíveis

Inferência estatística · Visão geral

Prof. Wagner Hugo Bonat

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 1

I Parâmetros da distribuição de Amostragem Estatística

I Como a partir da amostra estimar os Estatísticas:

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 2

I Problema prático: Qual a proporção da população que desenvolveu anticorpos

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 3

I Problema prático: Qual a proporção da população que desenvolveu anticorpos

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 3

I Problema prático: Qual a proporção da população que desenvolveu anticorpos

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 3

I Problema prático: Qual a proporção da população que desenvolveu anticorpos

I Qual o parâmetro de interesse e o que ele significa?

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 3

I Problema prático: Qual a proporção da população que desenvolveu anticorpos

I Qual o parâmetro de interesse e o que ele significa?

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 3

I Como determinar o valor de p?

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 4

I Y : desenvolveu anticorpos (v.a.).

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 5

I Suponha que coletamos uma amostra (aleatória) de tamanho n = 10 e que y = 7

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 6

I Para qualquer outro valor de p

variando p temos a função de verossimilhança

I Ideia: Se p for um determinado valor, qual a probabilidade de observar o que eu

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 7

distribuição de probabilidade que p̂9

I Qual o seu valor esperado? p̂12

I Qual a sua variância? Estatística amostral

Figura 2. Ilustração da distribuição amostral.

0.4 0.6 0.8 1.0

Figura 3. Distribuição amostral da proporção.

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 10

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 10

Figura 4. Efeito de aumentar o tamanho da amostra na distribuição amostral da proporção estimada.

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 11

I Temos o procedimento, mas e como faremos as replicações do experimento em

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 12

I Temos o procedimento, mas e como faremos as replicações do experimento em

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 12

I Problema prático: Qual o tamanho ideal de carteiras escolares para os alunos da

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 13

I Problema prático: Qual o tamanho ideal de carteiras escolares para os alunos da

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 13

I Problema prático: Qual o tamanho ideal de carteiras escolares para os alunos da

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 13

I Problema prático: Qual o tamanho ideal de carteiras escolares para os alunos da

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 13

I Problema prático: Qual o tamanho ideal de carteiras escolares para os alunos da

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 13

120 140 160 180 200 220

gerado essa amostra? Figura 6. Distribuições de probabilidades candidatas.

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 14

0.01 0.02 0.03

Podemos usar os equivalentes

I Objeto de inferência (frequentista).

Prof. Wagner Hugo Bonat Inferência estatística · Visão geral 16