Estatística - Aula 08
Estatística - Aula 08
Estatística - Aula 08
Introdução a Inferência
Sistemas de Informação
prof. Rayner Gomes - rayner@ufpi.edu.br/raynergomes@gmail.com
Aviso: As videoaulas gravadas e
disponibilizadas aos alunos da UFPI são
estritamente reservados aos alunos da
UFPI, sendo proibido qualquer
divulgação e distribuição. A reprodução
só é permitida aos alunos matriculados
na disciplina.
Tópicos
1. Nível de Confiança
2. Erro Amostral
3
Questões iniciais
4
Questões iniciais
● Como os resultados da pesquisa podem ser usados para se estimar os
parâmetros populacionais?
○ Especificamente, se uma amostra de 1.007 adultos é entrevistada e se encontram 85% deles
que sabem o que é o Twitter, o que a porcentagem amostral nos diz sobre a porcentagem
para toda a população de adultos?
5
Questões iniciais
● Qual a precisão provável do resultado de 85%?
significativo?
resultados?
6
Revisão e Visão Geral
Nas aulas anteriores, usamos a estatística descritiva ao resumir dados por meio
de ferramentas como gráficos, e estatísticas, tais como a média e o
desvio-padrão.
Nas próximas aulas, apresentaremos métodos de inferência estatística, que
envolve o uso de dados amostrais para serem feitas generalizações ou
inferências sobre uma população.
7
Revisão e Visão Geral
8
Por que precisamos de Intervalos de Confiança?
No Exemplo 1, vimos que 0,85 era nossa melhor estimativa pontual da proporção
populacional p, mas uma estimativa pontual é um valor único que não dá
nenhuma indicação de quão boa é aquela melhor estimativa.
9
Definições
● Um intervalo de confiança (ou estimativa intervalar) é uma faixa (ou um
intervalo) de valores usada para se estimar o verdadeiro valor de um
parâmetro populacional.
○ Um intervalo de confiança é, algumas vezes, abreviado como IC.
10
Interpretação do Intervalo de Confiança
Correta:
● “Estamos 95% confiantes em que o intervalo de 0,828 a 0,872 realmente contém o verdadeiro
valor da proporção populacional p.”
○ Isto significa que, se selecionássemos muitas diferentes amostras de tamanho 1.007 e
construíssemos os intervalos de confiança correspondentes, 95% deles realmente conteriam
o valor da proporção populacional p.
Errada:
● “Há uma chance de 95% de que o verdadeiro valor de p esteja entre 0,828 e 0,872.”
● “95% das proporções amostrais estarão entre 0,828 e 0,872.”
11
Interpretação do Intervalo de Confiança
12
Valor Crítico = Escore Z
Definição: Um valor crítico é um número na fronteira que separa estatísticas
amostrais que têm chance de ocorrer daquelas que não têm. O número zα/2 é um
valor crítico que é um escore z com a propriedade de separar uma área de a/2 na
cauda direita da distribuição normal padronizada.
13
Encontrando zα/2 para o Nível de Confiança de 95%
14
Padronização dos Valores
Score Z - Z Escore - Pontuação Z
Por exemplo, suponha que você tenha uma pontuação de 190 em um teste. O teste tem
uma média (μ) de 150 e um desvio padrão (σ) de 25. Esperando uma transmissão
típica, a sua pontuação z seria:
z = (x – μ)/σ
15
Porque o Z-Score de 95% é 1,96?
Tabela da Distribuição Normal Padronizada – Valores de P(-∞ ≤ Z ≤ z0 )
Fonte: http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf
16
Curiosidade
Como calcular o z-score de um valor porcentual em Python?
:~$ python3
>>> from scipy.stats import norm
>>> norm.ppf(0.95)
1.6448536269514722
17
Curiosidade
Como calcular o z-score de uma lista de valores, ou seja, da média e do desvio
padrão em Python?
:~$ python3
>>> import numpy as np
>>> import scipy.stats as stats
>>> data = np.array([6, 7, 7, 12, 13, 13, 15, 16, 19, 22])
>>> stats.zscore(data)
>>> output: [-1.394, -1.195, -1.195, -0.199, 0, 0, 0.398, 0.598, 1.195, 1.793]
18
Valores mais comum do Valor Crítico
19
Margem de Erro
Quando os dados de uma amostra aleatória simples são usados para se estimar uma
proporção populacional p, a margem de erro, representada por E, é a diferença
máxima provável (com probabilidade 1 – α, tal como 0,95) entre a proporção amostral
observada e o verdadeiro valor da proporção populacional p. A margem de erro E é
também chamada de erro máximo da estimativa, e pode ser encontrada pela
multiplicação do valor crítico pelo desvio-padrão das proporções amostrais,
conforme mostrado na Fórmula:
20
Intervalo de Confiança
Notação
● p = proporção populacional
● p̂ = proporção amostral
Requisito 1
A amostra é uma amostra aleatória simples.
(Atenção: Se os dados amostrais tiverem sido obtidos de maneira não adequada,
a estimativa da proporção populacional pode ser errada.)
22
Requisitos para construção dos intervalos
Requisito 2
As condições para a distribuição binomial são satisfeitas.
Isto é, há um número fixo de tentativas, as tentativas são independentes, há duas
categorias de resultados, e as probabilidades permanecem constantes para cada
tentativa.
23
Requisitos para construção dos intervalos
Requisito 3
Há pelo menos 5 sucessos e pelo menos 5 fracassos.
Com as proporções p e q desconhecidas, estimamos seus valores usando a
proporção amostral, de modo que esse requisito é uma maneira de se verificar se
np ≥ 5 e nq ≥ 5 são ambas satisfeitas, de modo que a distribuição normal seja
uma aproximação adequada para a distribuição binomial.
24
Exemplo
Vimos que a pesquisa do Pew Research Center com 1.007 adultos americanos selecionados
aleatoriamente mostrou que 85% dos respondentes sabiam o que é o Twitter. Os resultados
amostrais são n = 1.007 e p̂ = 0,85.
25
Verificação dos Requisitos
1) Os métodos de pesquisa usados pelo Pew Research Center resultam em amostras que
podem ser consideradas amostras aleatórias simples. 🆗
2) As condições para um experimento binomial são satisfeitas, pois há um número fixo de
tentativas (1.007), as tentativas são independentes (porque a resposta de uma pessoa não
afeta a probabilidade da resposta de outra pessoa), há duas categorias de resultado (o
sujeito sabe o que é o Twitter, ou não), e a probabilidade permanece constante. 🆗
3) Com 85% dos respondentes sabendo o que é o Twitter, o número dos que sabem é 856 (ou
85% de 1.007) e o número dos que não sabem é 151, de modo que o número de sucessos
(856) e o número de fracassos (151) são ambos pelo menos 5.🆗
26
Resposta
1. A margem de erro é encontrada usando-se a Fórmula com zα/2 = 1,96
(conforme visto anteriormente), p = 0,85, q= 0,15 e n = 1.007.
27
Resposta
b) A construção do intervalo de confiança é, agora, muito fácil, uma vez que
temos os valores de e de E. Simplesmente substituímos esses valores para obter
este resultado:
28
Resposta
c) Com base no intervalo de confiança obtido na parte (b), parece que mais de
75% dos adultos sabem o que é o Twitter.
Como os limites de 0,828 e 0,872, provavelmente, contêm a verdadeira
proporção populacional, parece que a proporção populacional é um valor
maior do que 0,75.
29
Análise Estatística do Exercício
Eis uma afirmativa que resume os resultados: 85% dos adultos dos Estados
Unidos sabem o que é o Twitter. Essa porcentagem se baseia em uma pesquisa
de opinião do Pew Research Center com 1.007 adultos selecionados
aleatoriamente nos Estados Unidos. Teoricamente, em 95% de tais pesquisas, a
porcentagem deve diferir por não mais do que 2,2 pontos percentuais em ambas
as direções da porcentagem que seria encontrada entrevistando-se todos os
adultos nos Estados Unidos.
30
Determinando o Tamanho Amostral
31
Determinando o Tamanho Amostral
p = proporção populacional
p̂ = proporção amostral
32
Determinando o Tamanho Amostral
Papel do Tamanho Populacional N
33
Exemplo 2: Determinando o Tamanho Amostral
Gap, Banana Republic, J. Crew, Yahoo e America OnLine são apenas algumas das
muitas companhias interessadas em saber a porcentagem de adultos que compram
roupas pela Internet. Quantos adultos devem ser entrevistados para se ter 95% de
confiança em que a porcentagem amostral esteja em erro não superior a três pontos
percentuais?
A. Use este resultado recente do Census Bureau: 66% dos adultos compram roupas
pela Internet.
34
Exemplo 2: Determinando o Tamanho Amostral
Resolução A: O estudo anterior sugere que p = 0,66 de modo que q = 0,34
(encontrado como = 1 – 0,66). Com um nível de confiança de 95%, temos α =
0,05,de modo que zα/2 = 1,96. Também, a margem de erro é E = 0,03 (o
equivalente decimal de “três pontos percentuais”)
35
Exemplo 2: Determinando o Tamanho Amostral
Resolução B: Como na parte (a), de novo usamos zα/2 = 1,96 e E = 0,03, mas,
sem nenhum conhecimento prévio de p (ou de q)
36
Interpretação do Exercício 2
37
ATENÇÃO
Tente evitar estes dois erros comuns no cálculo do tamanho da amostra:
II. Certifique-se de substituir o zα/2 pelo escore z crítico. Por exemplo, se você
está trabalhando com 95% de confiança, substitua zα/2 por 1,96. Não cometa
o erro de substituir zα/2 por 0,95 ou 0,05.
38
tempo
progresso
Image source 39
https://www.tumgir.com/