Teste Hipoteseb

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 59

Testes de Hipótese

Cláudio Tadeu Cristino1


1 Universidade Federal Rural de Pernambuco, Recife, Brasil

Primeiro Semestre, 2023

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 1 / 59


Conteúdo
1 Estatı́sticas e Parâmetros
2 Teste de Hipóteses
3 Hipóteses: simples e compostas, nula e alternativa
4 O teste
Erros do Tipo I e II
Nı́vel de Significância
5 O teste para a média populacional
6 Teste para a média com variância desconhecida
7 Intervalo de confiança p/ média com variância desconhecida
8 Nı́vel Descritivo
9 Testes Qui-Quadrado
Teste de aderência
Teste de independência
Teste de homogeneidade
C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 2 / 59
Estatı́sticas e Parâmetros

Estatı́sticas e Parâmetros

Definição
Qualquer função de variáveis aleatórias que tenham sido observadas,
digamos tn (X1 , . . . , Xn ), é chamada uma estatı́stica. Se as variáveis
dependem de um parâmetro θ desconhecido, então uma estatı́stica
também é dita ser um estimador de θ. Como X1 , . . . , Xn são variáveis
aleatórias, temos que tn também é uma variável aleatória . Um valor de
um estimador, digamos tn (x1 , . . . , xn ), é chamado uma estimativa de θ.

Definição
Estimadores não-viciados Dizemos que tn (X1 , . . . , Xm ) é um estimador
não-viciado de θ se

Eθ tn (X1 , . . . , Xn ) ≡ θ, para todo θ.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 3 / 59


Estatı́sticas e Parâmetros

Estimadores

Definição
Um estimador é dito ser consistente se sua variância tende a zero,
quando o número de variáveis aleatórias observadas, ou seja, o
tamanho da amostra, cresce consideravelmente. Isso garante que nosso
estimador está próximo do seu valor esperado, escolhendo um tamanho
de amostra suficientemente grande.

Exemplo
a média amostral, x = (x1 + · · · + xn )/n, é um estimador não
viciado e consistente para a média populacional, µ.
a variância amostral, S 2 (X) = (xi − x)2 /(n − 1), é um estimador
P
não viciado e consistente para a variância populacional, σ 2 .

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 4 / 59


Teste de Hipóteses

Teste de Hipóteses

A técnica que passaremos a discutir, refere-se ao fato de como


podemos, a partir de uma questão, decidir cientificamente se uma
afirmação pode ser verdadeira ou não.
Em qualquer área, Cientistas e não-Cientistas formulam questões cujas
respostas de caráter mais ou menos prático buscam atender a interesses
diversos. Por exemplo:
Fumar causa câncer?
A ordem de colocar café ou leite numa xı́cara altera o sabor da
bebida?
A liberação do consumo de drogas diminui a violência?
A televisão é um fator alienante para as crianças?
Em todos os casos, são formuladas hipóteses, cuja verificação ajudam a
responder àquelas questões.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 5 / 59


Teste de Hipóteses

Teste de Hipóteses

Em linguagem estatı́stica, temos um parâmetro θ (nos exemplos: taxa


de câncer, sabor, taxa de violência, ou, evolução cognitiva de uma
criança, respectivamente) e desejamos determinar se a mudança de
determinado procedimento (“o quanto aumenta”) quando um elemento
de um sistema é modificado (por exemplo, fumar é adicionado, ou a
ordem das bebidas é alterada, ou o cinto de segurança é adicionado,
etc).

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 6 / 59


Teste de Hipóteses

Testes paramétricos
Afirmação

Suponha que X é uma variável aleatória com função de distribuição


F (x|θ), em que θ é desconhecido, θ ∈ Θ (aqui X e θ podem ser
multidimensionais).

F (x|θ) é a função de distribuição de X que depende do parâmetro θ,


no sentido que o conhecimento de θ implica no conhecimento de X
(mais precisamente, de seu comportamento enquanto variável
aleatória). Θ é o espaço de parâmetros: um conjunto que contém todos
os possı́veis valores de cada parâmetro.
Os testes aqui apresentados são comumente ditos testes paramétricos,
pois se preocupam em formular hipóteses sobre os parâmetros. Existem
outros testes chamados não paramétricos, ver
1 Z. Govindarajulu. Nonparametric Inference. N. Jersey: World Scientific, 2007.
2 A. Pagan and A. Ullah. Nonparametric Econometrics. Cambridge: Cambridge
Univ. Press, 1999.
C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 7 / 59
Hipóteses: simples e compostas, nula e alternativa

Hipóteses

Definição
Suponha que a afirmação 1 seja válida. Qualquer H ⊆ Θ é chamada
uma hipótese. Duas classes de hipóteses serão distinguidas: hipóteses
nulas e hipótese alternativas. As hipóteses nulas, denotadas por H0 são
aquelas que não têm efeito sobre a questão (por exemplo, fumar não
aumenta os ı́ndices de câncer, a ordem de café e leite não altera o
sabor da bebida,etc). As hipótese alternativas formam o complementar
das nulas.

Definição
Uma hipótese H ⊆ Θ é chamada simples se conhecendo θ ∈ H
especifica completamente F (x|θ). Caso contrário, H é chamada de
hipótese composta.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 8 / 59


O teste

O teste

Suponha que tenhamos uma hipótese nula H0 e outra alternativa H1 .


Inferimos se H0 ou H1 contém o θ verdadeiro que será baseado em
observações.
Assim, para algum resultado X = x, decidiremos se θ ∈ H0 ou se
θ ∈ H1 .
Um teste é a especificação destes subconjuntos de possı́veis resultados
H para algum determinado conjunto (H0 , H1 , Θ, X).

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 9 / 59


O teste

Definição
Suponha que X é uma variável aleatória com função de distribuição
F (x|θ), com θ ∈ Θ desconhecido e que H0 e H1 sejam especificadas. O
problema de decidir (após observar X) que θ ∈ H0 (chamado aceitação
da hipótese nula), ou que θ ∈ H1 (chamado rejeição da hipótese nula) é
chamado problema de teste de hipótese. H0 é chamado verdadeiro, se
θ ∈ H0 , e falso caso contrário, ou seja, θ ∈
/ H0 .

H0 versus H1
Se o conjunto de possı́veis resultados de X é denotado por X, então
uma divisão de X e, dois subconjuntos disjuntos e exaustivos A (região
de aceitação de H0 ) e R (região de rejeição de H0 ), tal que se
encontrarmos X ∈ A aceitamos H0 e se encontrarmos X ∈ R,
rejeitamos H0 é chamado teste de H0 versus H1 .

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 10 / 59


O teste

Um exemplo

A questão
Fumar causa câncer?

As hipóteses
H0 : fumar não aumenta as taxas de incidência de câncer
(numa determinada população)
H1 : fumar aumenta as taxas de incidência de câncer.

As hipóteses (matemáticas)
H0 : µ = µ0 , em que µ0 é a incidência média de câncer
(numa determinada população) e µ é a incidência
média de câncer, quando introduzimos o fator fumar
H1 : µ > µ0 .

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 11 / 59


O teste

Um exemplo (continuação)

Observações
A região crı́tica (região de rejeição de H0 ) é {x : x > µ0 }.
Como podemos obter µ? Veremos que a partir de uma amostra,
devemos usar um estimador para o parâmetro que estamos
investigando (neste caso é a média ou esperança da incidência de
câncer, que pode ser modelado por uma variável aleatória
binomial). Qual é o “melhor” estimador?

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 12 / 59


O teste

Note que se ϕ(x) é a probabilidade de se rejeitar H0 após observar


X = x, ϕ(x) = 1, se x ∈ R e ϕ(x) = 0, se x ∈ / R.
Definição
Um teste (aleatório) para o problema de teste de hipótese é a função
(chamada função teste) ϕ(x) definida para x ∈ X, tal que 0 ≤ ϕ(x) ≤ 1,
para todo x ∈ X. Se observarmos X, “jogamos uma moeda” com
probabilidade ϕ(x) de sair “cara” e, então, rejeitar (aceitar) H0 . A
função ϕ é chamada função crı́tica.

Um teste é chamado unilateral ou bilateral se a região crı́tica é


composta por uma ou duas semi-retas, respectivamente (Figura).

x x
Região crítica x0
Região crítica

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 13 / 59


O teste Erros do Tipo I e II

Erros do Tipo I e II

Como H0 e H1 são mutuamente excludentes e binárias, ou seja, ou uma


ou outra ocorre exclusivamente e são falsas ou verdadeiras, temos:

Assim o erro do tipo I é o erro cometido em se rejeitar H0 , sendo H0


verdadeira. O erro do tipo II é o aquele cometido em se não rejeitar
H0 , sendo H0 falsa.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 14 / 59


O teste Nı́vel de Significância

Nı́vel de significância de um teste

Qual é o critério para decidirmos pela rejeição ou não de H0 ?


Definição
Define-se:

α = P (erro do tipo I) = P (rejeitar H0 | H0 verdadeira);


β = P (erro do tipo II) = P (não rejeitar H0 | H0 falsa).

A probabilidade α é chamada nı́vel de significância do teste.

Por várias razões, testes de hipóteses são delineados tentando se


minimizar a probabilidade α (evitar o falso negativo).

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 15 / 59


O teste Nı́vel de Significância

Falso negativo versus falso positivo

Questão: Uma determinada pessoa NÃO contraiu AIDS a partir


de um ato inseguro?
Hipótese nula: Não! a pessoa está DOENTE.
Hipótese alternativa: Sim! a pessoa está SAUDÁVEL.
Qual é o erro do tipo I?
Bem, o erro do tipo I é quando rejeitamos a hipótese nula, sendo ela
verdadeira. Logo, a pessoa estaria doente, mas seria mandada para
casa sem o diagnóstico da doença! Dizemos que foi anunciado um falso
negativo
O erro do tipo II seria cometido se a pessoa estivesse saudável, mas
seus exames indicassem um falso positivo. Neste caso o procedimento
padrão é refazer os exames que detectariam o erro!!!

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 16 / 59


O teste para a média populacional

O teste para a média populacional

Vamos ver agora como podemos proceder um teste para a média


populacional. Usaremos um exemplo para isso.
Exemplo
Suponha que entre pessoas sadias a concentração de certa substância
no sangue se comporta segundo um modelo Normal com média 14
unidades/ml e desvio padrão 6 unidades/ml. Pessoas sofrendo de uma
doença especı́fica têm a concentração média da substância alterada
para 18 unidades/ml. Admite-se o modelo Normal, com desvio padrão
6 unidades/ml, continua representando de forma adequada a
concentração da substância em pessoas com a doença (veja figura a
seguir).

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 17 / 59


O teste para a média populacional

Note que as curvas que


representam as concen-
trações irão se cruzar
em alguma ponto, fa-
zendo com que uma
certa proporção de in-
divı́duos na população
sadia possa apresentar
valores de concentração
tão altos quanto aqueles
observados para pessoas
doentes ainda que este
evento ocorra com baixa
14 18 probabilidade.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 18 / 59


O teste para a média populacional

Exemplo (continuação)
Desejamos testar se um certo tratamento proposto para a doença é
eficaz. Uma amostra aleatória de tamanho n = 30 é selecionada entre
os indivı́duos doentes que foram submetidos ao tratamento.
Representamos as concentrações dos indivı́duos da amostra por
X1 , X2 , . . . , X30 . Sabe-se que para i = 1, 2, . . . , 30, tem-se
Xi ∼ N (µ, 36), sendo µ = 14 ou µ = 18 dependendo se o tratamento é
eficaz ou não.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 19 / 59


O teste para a média populacional

Vamos formular o problema:


Hipóteses
H0 : o tratamento não é eficaz, H0 : µ = 18
ou
H1 : o tratamento é eficaz H1 : µ < 18 .

Neste caso,
Probabilidades de erros

α = P (concluir que o tratamento é eficaz, mas ele não é);


β = P (concluir que o tratamento não é eficaz, mas ele é)

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 20 / 59


O teste para a média populacional

Para concluirmos o teste devemos decidir com base no nı́vel de


significância (α = P (erro do tipo I)):

Sadio (H1) Doente (H0)

14 xc 18
Região Crítica Região de Aceitação

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 21 / 59


O teste para a média populacional

Supondo α conhecido (ou fixado), vamos descrever como determinar o


valor crı́tico xc que limita as regiões crı́tica e de aceitação:

α = P (erro do tipo I) = P (rejeitar H0 | H0 verdadeira)


 
X −µ xc − 18
= P (X < xc | µ = 18) = P √ < √
σ/ n 6/ 30
= P (Z < zc ),

com Z ∼ N (0, 1). Portanto, dado α obtemos zc na tabela da Normal e


calculamos xc da seguinte forma:
xc − 18 6
zc = √ ⇒ xc = 18 + zc √ .
6/ 30 30

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 22 / 59


O teste para a média populacional

Resumo

Passos para realização de um teste de hipóteses


1 Estabelecer as hipótese nula e alternativa.

2 Definir a forma da região crı́tica, com base na hipótese alternativa.


3 Identificar a distribuição do estimador e obter sua estimativa.
4 Fixar α e obter a região crı́tica.
5 Concluir o teste com base na estimativa e na região crı́tica.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 23 / 59


O teste para a média populacional

Exemplo - Teste para a média

O número de consultas ao Serasa/Experience . é considerado nos ©


últimos anos como sendo uniforme entre 1 e 100 consultas diárias.
Foram anotados os números de chamadas nos últimos três meses:

25 46 76 49 69 19 80 16 80 62
33 86 49 93 67 10 89 33 4 76
37 72 96 84 90 2 15 75 42 83
10 17 29 37 65 31 20 9 70 72
75 57 71 9 32 11 70 89 96 69
73 77 15 74 24 16 85 6 67 30
15 82 56 100 97 54 88 68 73 33
29 66 12 75 29 67 44 30 52 82
80 73 28 53 43 46 82 47 77 25

Pergunta-se: o número consultas está alterado?

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 24 / 59


O teste para a média populacional

Exemplo – Continuação
Como o modelo do número de consultas é considerado como Uniforme
entre 1 e 100. Sua média é µ = 50, 5. Neste caso, poderı́amos promover
uma comparação entre a média do número de chamadas dos últimos 3
meses e verificar se ela está “próxima” da média usual.
Temos que:
n
1X 25 + 46 + 76 + 49 + · · · + 47 + 77 + 25
X= Xi = = 53.
n 90
i=1

A fim de se verificar se o número de consultas foi alterado, pode-se


promover um teste de hipóteses, considerando:
Hipóteses
H0 : o número de consultas não se alterou, H0 : µ = 50, 5
ou
H1 : o número de consultas se alterou, H1 : µ ̸= 50, 5 .
C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 25 / 59
O teste para a média populacional

Como a média dos últimos 3 meses é 53, poderı́amos dizer que houve
uma pequena alteração no número de consultas. Mas esta alteração
viria do fato de estamos trabalhando como uma variável aleatória ou
por que de fato há uma alteração? Vamos fixar o nı́vel de significância
em 5%. Neste caso,

α = “nı́vel de significância” = P (erro do tipo I)


= P (rej.H0 | H0 é verdadeira) = P (rej.H0 | µ = 50, 5)
= P (µ ̸= 50, 5) = P (µ < 50, 5 ou µ > 50, 5) ← relaxando
simetria
“=”P (µ < xc1 ou µ > xc2 ) = 2 × P (µ < xc1 ) ≈ 2 × P (X < xc1 )
 
X −µ xc1 − 50, 5
=2×P √ ≤ √
σ/ n 28, 86/ 90

Assim temos que para α = 0, 05, P (Z ≤ zc ) = 0, 025 em que


xc − 50, 5
Z ∼ N (0, 1) e zc = 1 √ .
28, 86/ 90

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 26 / 59


O teste para a média populacional

Exemplo – Continuação

Da tabela da Normal padrão temos que zc = −1, 96 e


28, 86
xc1 = 50, 5 − 1, 96 √ = 44, 53 (xc2 = 56, 46).
90

Região crítica

Como a média dos últimos 3 meses é 53, ou seja X ∈/ R.C., não

©
rejeitamos H0 a um nı́vel de significância de 5%, ou seja não houve
alteração no número de atendimentos ao Serasa-Experience .

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 27 / 59


Teste para a média com variância desconhecida

Teste para a Média com Variância desconhecida

Se o desvio padrão é desconhecido, ele precisa ser estimado. Supondo


que nossa amostra aleatória seja representada pelo vetor de variáveis
aleatórias (X1 , . . . , Xn ), todas elas com densidade Normal de média µ e
variância σ 2 . Vamos utilizar o “melhor” estimador que conhecemos
para σ 2 que a variância amostral
n
!
1 X 2
S2 = Xi2 − nX
n−1
i=1

Agora, define-se a variável padronizada:

X −µ
T =p ,
S 2 /n

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 28 / 59


Teste para a média com variância desconhecida

Um grande cientista

William Sealy Gosset


(13 de Junho de 1876
- 16 de Outubro de
1937) era um quı́mico
e matemático inglês,
mais conhecido pelo
pseudônimo Student
e pelo seu trabalho
na distribuição t de
Student.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 29 / 59


Teste para a média com variância desconhecida

A distribuição t-Student

Formalmente, a variável aleatória T é dita seguir a distribuição t de


Student com n graus de liberdade e para inteiros n > 0 sua função
densidade de probabilidade é dada por:
− n+1
Γ n+1
 
2 t2 2
fT (t) = √ n
 1+ , −∞ < t < ∞.
nπΓ 2 n
Z ∞
em que a função gama é dada por Γ(n) = xn−1 e−x dx. Assim como
0
a distribuição Normal, a função de distribuição da t de Student é
obtida numericamente e cujos valores são apresentados em uma tabela.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 30 / 59


Teste para a média com variância desconhecida

Note que as curvas


que representam a
função densidade de
probabilidade da t-
distribuição tendem
para a densidade de
probabilidade da Nor-
mal (0, 1), quando n
cresce.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 31 / 59


Teste para a média com variância desconhecida

Tabela (parcial) da distribuição t de Student.

Distribuição t de Student - tn
Os valores tabelados correspondem aos pontos x tais que: P(tn≤x)

P(tn≤x)
n 0,600 0,750 0,900 0,950 0,975 0,990 0,995 0,9995
1 0,325 1,000 3,078 6,314 12,706 31,821 63,657 636,619
2 0,289 0,816 1,886 2,920 4,303 6,965 9,925 31,598
3 0,277 0,765 1,638 2,353 3,182 4,541 5,841 12,924
4 0,271 0,741 1,533 2,132 2,776 3,747 4,604 8,610
5 0,267 0,727 1,476 2,015 2,571 3,365 4,032 6,869
6 0,265 0,718 1,440 1,943 2,447 3,143 3,707 5,959
7 0,263 0,711 1,415 1,895 2,365 2,998 3,499 5,408
8 0,262 0,706 1,397 1,860 2,306 2,896 3,355 5,041
9 0,261 0,703 1,383 1,833 2,262 2,821 3,250 4,781
10 0,260 0,700 1,372 1,812 2,228 2,764 3,169 4,587
11 0,260 0,697 1,363 1,796 2,201 2,718 3,106 4,437
12 0,259 0,695 1,356 1,782 2,179 2,681 3,055 4,318

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 32 / 59


Teste para a média com variância desconhecida

Exemplo

Suponha que desejemos obter uma resposta à seguinte questão: a


utilização de uma determinada ração aumenta o ganho de peso do
gado? Sabe-se que para animais da mesma raça e idade, a distribuição
do peso segue o modelo Normal com média de 210kg e variância
desconhecida. Foram tomados os pesos de 5 animais (em kg):

215 222,4 208 232,1 212,5

Qual seria a conclusão, ao nı́vel de significância de 1%?

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 33 / 59


Teste para a média com variância desconhecida

Exemplo (cont.)

Em termos da média populacional, estamos testando as hipóteses:

H0 : µ = 210 versus H1 = µ > 210.

e a região crı́tica é da forma

RC = {t ∈ R : t > t1 }.

Sendo σ 2 desconhecido, utilizaremos o estimador


n
!
1 X 2
S2 = Xi2 − nX (a variância amostral),
n−1
i=1

e a quantidade t discutida anteriormente.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 34 / 59


Teste para a média com variância desconhecida

Exemplo (cont.)

Sendo H0 verdadeira, temos:

X − 12
T = √ ∼ t(4) .
S/ n

Logo,
tab.
P (T > t1 ) = 0, 01 ⇒ t1 = 3, 747.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 35 / 59


Teste para a média com variância desconhecida

Exemplo (conclusão)

Sendo o valor 3,747 obtido na tabela da distribuição t-Student, com 4


graus de liberdade. Assim a região crı́tica será dada por;

RC = {t ∈ R : t > 3, 747}.

Como X = 218kg e S 2 = 89, 355kg2 , calculamos o valor padronizado


xobs − 210 218 − 210
tobs = √ = √ = 1, 892.
sobs / 5 9, 4527/ 5

Portanto, como tobs ∈ / RC, decidimos não rejeitar a hipótese nula, ou


seja, a ração utilizada NÃO aumenta o peso do gado ao nı́vel de 1%. □

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 36 / 59


desconhecida

Intervalo de Confiança para µ com variância


desconhecida
Quando a variância é desconhecida, construı́mos intervalos de confiança
para a média usando a distribuição t-Student. Seja (X1 , . . . , Xn ) uma
amostra aleatória de uma população Normal com médias e variâncias
desconhecidas, então
X −µ
√ ∼ t(n−1) ,
S/ n
ou seja, a grandeza do lado direito segue o modelo t de Student com
n − 1 graus de liberdade, em que n é o tamanho da amostra.
Desta forma, fixando a “confiança” γ, (0 < γ < 1), podemos obter o
valor tγ/2 tal que
 
X −µ
P −tγ/2 < √ < tγ/2 =γ
S/ n

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 37 / 59


desconhecida

Logo, o intervalo com coeficiente de confiança γ para µ, com variância


desconhecida é dado por:
 
S S
I.C.(µ, γ) = X − tγ/2 √ ; X + tγ/2 √ .
n n

Exemplo
Considerando o exemplo anterior, poderı́amos ter rejeitado a hipótese
nula. Nesse caso uma pergunta natural seria qual é o intervalo de
confiança para a média populacional. Naquele exemplo, tı́nhamos
xobs = 218 e s2obs = 89, 355. Com γ = 90% da tabela t-Student com 4
graus de liberdade, tγ/2 = 2, 132. Logo,
 
9, 4527 9, 4527
I.C.(µ, 90%) = 218 − 2, 132 − √ ; 218 + 2, 132 − √
5 5
= [208, 98; 227, 01].

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 38 / 59


Nı́vel Descritivo

Nı́vel Descritivo

Ao realizarmos um teste de hipóteses, um certo valor fixo α é tomado


para se construir a R.C.. Mas poderı́amos deixar a cargo da pessoa que
utilizará a conclusão do teste, fixar esse valor. Supondo que a H0 é
verdadeira, a ideia é se calcular a probabilidade de se obter estimativas
mais desfavoráveis ou extremas (tendo como prisma H1 ) do que a que
está sendo fornecida pela amostra. Esta probabilidade é chamada nı́vel
descritivo, denotada por α∗ (ou P -valor): valores “pequenos” de α∗
evidenciam que H0 é falsa.

Unilateral α∗ = P (X < xobs |H0 verd.) para H1 : µ < µ0


α∗ = P (X > xobs |H0 verd.) para H1 : µ > µ0

Bilateral α∗ = P (X < xobs ou X > xobs |H0 verd.)


para H1 : µ ̸= µ0

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 39 / 59


Nı́vel Descritivo

Exemplo - Nı́vel Descritivo


Uma associação de defesa do consumidor desconfia que embalagens de
450 gramas de um certo tipo de biscoito estão abaixo do peso. Para
verificar tal afirmação, foram coletados ao caso 80 pacotes em várias
lojas, obtendo a média de peso de 447 gramas. Admitindo-se que o
peso nos pacotes segue uma distribuição normal com desvio padrão de
10 gramas, qual é a conclusão que pode ser obtida do nı́vel descritivo?
O teste:
H0 : µ = 450. Peso médio conforme o previsto.
H1 : µ < 450. Peso médio abaixo do previsto.
O valor observado na amostra foi xobs = 447 e as suposições feitas sobre
a normalidade da variável peso implicam que X ∼ N (µ, 100/80). Logo,

α∗ = P (X < xobs |H0 verd.) = P (X < 447|µ = 450)


tab.
= P (Z < −2, 68) = 0, 003681 (muito “pequeno”)

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 40 / 59


Testes Qui-Quadrado

A distribuição qui-quadrado

Passaremos a apresentar testes de hipótese que utilizam uma grandeza


que segue o modelo χ2 (dizemos qui-quadrado). Uma variável aleatória
segue o modelo com n graus de liberdade, denotado por χ2n (0) se (para
algum inteiro n > 0):
(
n/2
1
x(n/2)−1 e−x/2 , 0 ≤ x ≤ ∞
fX (x) = 2 Γ(n/2)
0, caso contrário.
R∞
Novamente, a função Gama é dada por Γ(α) = 0 xα−1 e−x e se n é
inteiro positivo Γ(n) = (n − 1)!.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 41 / 59


Testes Qui-Quadrado

A distribuição qui-quadrado

Figura: Gráficos da f.d.p. de variáveis seguindo o modelo χ2k .


C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 42 / 59
Testes Qui-Quadrado

A distribuição qui-quadrado

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 43 / 59


Testes Qui-Quadrado Teste de aderência

Teste 1: teste de aderência

Considere uma variável aleatória X para a qual temos uma amostra de


valores e deseja-se verificar a adequação ou não de em certo modelo
probabilı́stico, ou seja, X segue ou não um modelo de distribuição. Os
valores observados da variável aleatória foram divididos em k
categorias contendo, cada uma, um ou mais valores:
Categoria 1 2 3 ··· k
Freq. Observada o1 o2 o3 ··· ok
Se X for uma variável aleatória discreta, as categorias podem ser os
próprios valores da variável, eventualmente agregando mais de um
valor na mesma categoria. No caso contı́nuo, as categorias podem ser
definidas a partir de intervalos de valores da variável.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 44 / 59


Testes Qui-Quadrado Teste de aderência

Teste 1: teste de aderência

Suponho algum modelo, podemos calcular os valores esperados para a


ocorrência de cada categoria. Assim podemos obter:
Categoria 1 2 3 ··· k
Freq. Esperada e1 e2 e3 ··· ek
Se X seguir o modelo proposto, estas das tabelas não devem ser muito
diferentes. O teste de aderência cria o critério para decidir se podemos
aceitar ou não o modelo indicado. Em outras palavras, decidimos se os
dados amostrais aderem ao modelo ou não. As hipóteses do teste são:
H0 : X segue o modelo proposto;
H1 : X não segue o modelo proposto.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 45 / 59


Testes Qui-Quadrado Teste de aderência

Teste 1: teste de aderência

A quantidade que usaremos para tomar nossa decisão será baseada na


diferença entre os valores esperados sob H0 e aqueles observados na
amostra. Podemos dizer que a diferença oi − ei da uma idéia da
compatibilidade entre os valores observados e o modelo proposto.
Assim, se as diferenças forem meio grandes, é razoável admitir que o
modelo não deva ser adequado. Por outro lado, pequenas diferenças
podem ser aceitas, pois flutuações são esperadas para variáveis
aleatórias. Baseando-se nessa ideia intuitiva, a quantidade utilizada no
teste será :
k
X (oi − ei )2
Q2 = .
ei
i=1

Não é difı́cil mostrar que para uma amostra de tamanho


suficientemente grande Q2 segue o modelo qui-quadrado com k − 1
graus de liberdade.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 46 / 59


Testes Qui-Quadrado Teste de aderência

Teste 1: teste de aderência


Uma observação: se o valor esperado para uma categoria for menor do
que 5, deve-se combinar tal categoria com a mais próxima de modo que
tenhamos uma melhor representatividade no teste.
O teste, passo a passo
1 Categorizar as frequências observadas.

2 Calcular as frequências esperadas usando o modelo proposto.


2 =
Pk 2
Calcular a quantidade qobs i=1 (oi − ei ) /ei .
3

4 Escolher um nı́vel para o teste α. Usá-lo para determinar na


tabela o valor de qc tal que

P (Q2 ≥ qc | H0 ) = α.

5 2 > q , neste caso,


Verificar se para os valores observados qobs c
REJEITA-SE H0 .

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 47 / 59


Testes Qui-Quadrado Teste de aderência

Aplicação teste de aderência

Exemplo
A partir da observação das faltas dos alunos durante 300 dias letivos, o
diretor de uma escola quer saber se para uma turma de 15 alunos o
número de faltas no mesmo dia pode ser modelado pela distribuição
4
Binomial, com p = 15 ≈ 0, 2667. Os dados observados foram:

Faltas 0 1 2 3 4 5 6 7
Dias 4 16 36 66 72 50 31 12

Faltas 8 9 10 11 12 13 14 15
Dias 7 2 2 0 0 0 1 1

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 48 / 59


Testes Qui-Quadrado Teste de aderência

Exemplo - Continuação

Se fizermos X = número de faltas em um mesmo dia, a suposição é que


X ∼ B(15, 4/14). CLIQUE AQUI PARA OS CÁLCULOS.
Se fixarmos o nı́vel de significância em 5% temos que:
tab.
α = P (erro tipo I) = P (Q2 > qc | H0 verd.) = 0, 05 ⇒ qc = 14, 067.

(o valor de qc foi tomado da tabela da qui-quadrado com 7 graus de


liberdade e p = 0, 05). Como o qobs foi de 5,940 que, obviamente, é
menor que qc , devemos NÃO-REJEITAR H0 a um nı́vel de
significância de 5% e concluir que o número de faltas segue o modelo
binomial proposto.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 49 / 59


Testes Qui-Quadrado Teste de independência

Teste 2: teste de independência

Como a mesma linha de pensamento que o teste anterior, vamos


propor outro teste que tentará responder se duas grandezas são ou não
independentes. Neste caso, se X e Y são duas variáveis aleatórias sobre
as quais queremos detectar (ou não) a independência, propomos:

H0 : X e Y são independentes.
H1 : X e Y são dependentes.
Lembre-se que um critério para se verificar se duas variáveis aleatórias
são independentes é que sua distribuição conjunta é igual ao produto
de suas distribuições marginais. Aqui, como estamos trabalhando com
observações, a ideia será a de se verificar se a conjunta é
aproximadamente igual ao produto das marginais.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 50 / 59


Testes Qui-Quadrado Teste de independência

Teste 2: teste de independência

Sejam X e Y duas grandezas para as quais se deseja saber se são ou


não independentes. Uma amostra aleatória é selecionada
(X, Y ) = [(x1 , y1 ), . . . , (xm , ym )] e organizada em uma tabela conjunta
de frequências:

X Y y1 y2 · · · ys Total Linha
x1 o11 o12 · · · o1s L1
x2 o21 o22 · · · o2s L2
.. .. .. .. .. ..
. . . . . .
xr or1 or2 ··· ors Lr
Total Coluna C1 C2 ··· Cs Total Geral

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 51 / 59


Testes Qui-Quadrado Teste de independência

Teste 2: teste de independência

Supondo que as grandezas X e Y sejam independentes, esperamos que


os valores observados se aproximem dos valores esperados dados por:
Total da linha i × Total da Coluna j
eij = .
Total geral
Para medir a diferença entre os valores esperados e observados, usamos:
r X
s
2
X (oij − eij )2
Q = ,
eij
i=1 j=1

com r representando o número de linhas e s o número de colunas. A


distribuição de Q2 se comporta como um modelo qui-quadrado com
(r − 1) × (s − 1) graus de liberdade.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 52 / 59


Testes Qui-Quadrado Teste de independência

Teste 2: teste de independência - cont.

A região crı́tica contém valores grandes de Q2 , isto é,

RC = {w : w ≥ qc },

com qc sendo determinado pelo nı́vel de significância do teste, ou seja,


 
α = P Q2 ≥ qc | H0 é verdadeiro .

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 53 / 59


Testes Qui-Quadrado Teste de independência

Aplicação teste de independência

Exemplo
Deseja-se saber se há para os alunos do curso de Economia alguma
relação com o desempenho nas disciplinas de Cálculo e Estatı́stica.
Uma amostra foi coletada e após sua classificação obtivemos a seguinte
tabela:

Estatística
Alta Média Baixa Total
Alta 56 71 12 139
Cálculo

Média 47 163 38 248


Baixa 14 42 85 141
Total 117 276 135 528

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 54 / 59


Testes Qui-Quadrado Teste de independência

Exemplo – Continuação

Com base nos cálculos (CLIQUE AQUI), temos que qobs = 145, 781.
Para um nı́vel de significância de 10% temos que:
tab.
α = P (erro tipo I) = P (Q2 > qc | H0 verd.) = 0, 10 ⇒ qc = 7, 779.

Como qobs é muito maior que qc , o primeiro pertence à região crı́tica e,


assim, REJEITAMOS H0 a um nı́vel de 10%, o que leva à conclusão
que o desempenho dos alunos em Cálculo e em Estatı́stica são
dependentes.
Observação
Note que para valor de qobs de 145,781, rejeitarı́amos a hipótese nula
para qualquer valor do nı́vel de significância, o que indica de fato uma
forte grau de dependência das variáveis envolvidas

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 55 / 59


Testes Qui-Quadrado Teste de homogeneidade

Teste 3: teste de homogeneidade


O teste de homogeneidade consiste em verificar se uma variável
aleatória se comporta de maneira semelhante, ou homogênea, em várias
subpopulações. Apesar da mecânica de realização do teste ser similar
ao do teste de independência, uma distinção importante se refere à
forma como as amostras são coletadas. No teste de homogeneidade,
fixamos o tamanho da amostra em cada uma das subpopulações e,
então, selecionamos uma amostra de cada uma delas. Na tabela a
seguir, as linhas representam as subpopulações e, as colunas, os
diferentes valores ou categorias da variável.

Subpopulação Valores da variável Total Linha


1 o11 o12 ··· n1
2 o21 o22 ··· n2
.. .. .. .. ..
. . . . .
Total Coluna C1 C2 ··· Total Geral

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 56 / 59


Testes Qui-Quadrado Teste de homogeneidade

Teste 3: teste de homogeneidade

Supondo a homogeneidade entre as subpopulações, ou seja, de que a


ocorrência da variável é igual para toda subpopulação, utilizamos para
o cálculo do valor esperado da entra (ij) a seguinte expressão:

total da coluna j
eij = ni ×
total geral
O total da linha i, ni , indica o tamanho da amostra da subpopulação i,
ao passo que o quociente, total da coluna j dividido pelo total geral,
representa a proporção de ocorrência da valor da variável
correspondente à coluna j. Caso haja homogeneidade de
comportamento da variável, espera-se que essa proporção seja a mesma,
em todas as subpopulações. O teste segue como o de independência.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 57 / 59


Testes Qui-Quadrado Teste de homogeneidade

Teste homogeneidade - Exemplo


Deseja-se saber se há ou não uma semelhança dos meios de
hospedagem em algumas capitais do nordeste brasileiro. Para isso,
fez-se uma pesquisa que classificou os meios de hospedagem das
capitais conforme sua faixa de preços (Tabela 1):
Faixa de preço hospedagem (R$)
Capital 0 7→ 100 100 7→ 200 200 7→ 300 ≥ 300 Total
Natal 50 42 35 20 147
João Pessoa 41 40 20 10 111
Recife 150 91 55 40 336
Maceió 51 30 30 15 126
Aracaju 61 29 30 12 132
Total Faixa 353 232 170 97 852

Tabela: Frequência das classes de hospedagem em algumas capitais (dados


fictı́cios).

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 58 / 59


Testes Qui-Quadrado Teste de homogeneidade

Exemplo – Continuação

Novamente, recorrendo aos cálculos (CLIQUE AQUI), temos que


qobs = 16, 0515. Fixado um nı́vel de significância, p.ex., α = 5%, temos:
tab.
α = P (erro tipo I) = P (Q2 > qc | H0 verd.) = 0, 05 ⇒ qc = 21, 026,

em que o número de graus de liberdade é 12 (número de subpopulações


menos 1 × número de classes menos 1). Ou seja, a região crı́tica é dada
por R.C. = {q : q > 21, 026}. Como qobs ∈
/ R.C., NÃO REJEITAMOS
H0 a um nı́vel de 5% e concluı́mos que os meios de hospedagem nas
capitais investigadas possuem semelhança na distribuição das classes de
preços.

C.T.Cristino (DEINFO-UFRPE) Inferência Estatı́stica 2023.1 59 / 59

Você também pode gostar