Curso1Estatistica Corina
Curso1Estatistica Corina
Curso1Estatistica Corina
ESTATÍSTICA - CURSO 1
INPE
São José dos Campos
Março de 2003
SUMÁRIO
Pág.
LISTA DE FIGURAS
LISTA DE TABELAS
CAPÍTULO 1 – INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . 11
CAPÍTULO 2 – PROBABILIDADE . . . . . . . . . . . . . . . . . . 27
4.1 – Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.1.1 – Parâmetros de uma distribuição . . . . . . . . . . . . . . . . . . . . . 97
4.1.2 – Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.1.3 – Estimação Pontual e por Intervalo . . . . . . . . . . . . . . . . . . . 97
4.2 – Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2.1 – Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.2.2 – Método da Máxima Verossimilhança . . . . . . . . . . . . . . . . . . 99
4.3 – Estimadores Não Tendenciosos . . . . . . . . . . . . . . . . . . . . . . 101
2
4.4 – A Distribuição χ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.5 – A Distribuição t-student . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.5.1 – Distribuição da Média Amostral . . . . . . . . . . . . . . . . . . . . . 105
4.5.2 – Distribuição da diferença de médias amostrais . . . . . . . . . . . . . 106
4.6 – Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.6.1 – Distribuição da Razão entre duas Variâncias Amostrais . . . . . . . . 107
4.7 – Estimação por Intervalos - Intervalos de Confiança . . . . . . . . . . . 108
4.7.1 – Intervalo de Confiança para a Média Populacional µ . . . . . . . . . 108
2
4.7.2 – Intervalo de Confiança para a Variância Populacional σ . . . . . . . 111
4.7.3 – Intervalo de Confiança para a diferença de médias de duas Populações 112
4.7.4 – Intervalo de Confiança para Razão das Variâncias σ12 /σ22 . . . . . . . 114
4.7.5 – Intervalo de Confiança para uma Proporção . . . . . . . . . . . . . . 114
4.7.6 – Intervalo de Confiança para Diferença de Proporções . . . . . . . . . 115
Pág.
3.2 Gráfico de f dp de f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3 Gráfico F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1 Distribuições normais com mesma variância (σ 2 ) para todas as populações 142
6.2 Distribuições normais com mesma média (µ) para todas as populações 142
Pág.
INTRODUÇÃO
Este conceito tem um significado mais amplo do que aquele que usualmente se
dá à palavra "estatística", isto é, o resultado de contagens sobre a ocorrência de
determinados eventos e a sua representação através de gráficos e tabelas, como,
por exemplo, as estatísticas de ocorrência de chuvas numa certa época do ano; as
estatísticas sobre os ganhadores de prêmios de loteria; as estatísticas de renda média
por região etc.
É evidente que, para que a Estatística Indutiva possa deduzir conclusões válidas, é
necessário que se tomem alguns cuidados para a escolha da amostra a ser utilizada.
Esses cuidados, mais propriamente chamados de critérios, são estabelecidos por uma
técnica chamada de amostragem.
11
Descritiva e as técnicas corretas de amostragem. Fica ainda faltando uma última
ferramenta que é o cálculo de probabilidades. O cálculo de probabilidades é um
conjunto de técnicas matemáticas que visa determinar as chances de ocorrência de
eventos regidos pelas leis do acaso.
12
estatístico em questão. Esta característica (variável) poderá ser qualitativa ou
quantitativa.
• e) População Brasileira
Variável: cor da pele (branca, preta, amarela, vermelha, parda).
A variável será quantitativa quando seus valores forem expressos em números. Pode
ser subdivida em:
13
• c) População: aparelhos produzidos em uma linha de montagem.
Variável: número de defeitos por unidade.
14
experimentais. Usaremos a notação f i para representar a freqüência do i-ésimo valor
observado.
k
X
fi = n (1.1)
i=0
Exemplo
Seja o conjunto de dados abaixo (Tabela 1.1), que representa o número filhos de
funcionários da empresa Fictícia S.A..
As freqüências são:
• f0 = 15 (corresponde ao valor 0)
• f1 = 10 (corresponde ao valor 1)
• f2 = 13 (corresponde ao valor 2)
• f3 = 6 (corresponde ao valor 3)
• f4 = 3 (corresponde ao valor 4)
• f5 = 3 (corresponde ao valor 5)
15
Chamamos de distribuição de freqüências à associação das freqüências aos
respectivos valores observados. Portanto, a representação acima caracteriza uma
distribuição de freqüências. Do mesmo modo, podemos definir freqüência relativa de
um valor observado como sendo a relação:
0 fi
pi = (1.2)
n
k
X 0
pi = 1 (1.3)
i=0
16
e freqüências relativas acumuladas. Tomando-se os dados do exemplo anterior
podemos calcular as freqüências, freqüências acumuladas e freqüências relativas
acumuladas dos diversos valores. Esse cálculo está ilustrado na Tabela 1.2.
17
Fig. 1.4 – Histograma de freqüências relativas acumuladas
18
Exemplo: 151 − 158
Além disto, o gráfico, neste caso, é chamado de histograma (Figura 1.5) que consiste
em um conjunto de retângulos, com centro no ponto médio e larguras iguais aos
intervalos das classes, e áreas proporcionais às freqüências das classes.
19
O próximo gráfico é o polígono de freqüências acumuladas. Ele é construído unindo-se
as freqüências acumuladas ao final de cada classe de freqüências (Tabela 1.4). Pode
ser construído também com as freqüências relativas acumuladas e, neste caso, ele se
chama polígono de freqüências relativas acumuladas. O primeiro está mostrado na
Figura 1.6.
20
Fig. 1.7 – Histograma freqüência
1.7.1 Média
X1 + X2 + ... + XN
X̄ =
N
PN
i=1 Xi
= (1.4)
N
fi
onde: xi é o ponto médio da classe i; N
é a freqüência relativa da classe i; e m é
número de classes.
1.7.2 Mediana
Exemplos:
21
{5, 6, 7, 9, 11, 12, 13, 17} tem mediana 10
1.7.3 Moda
A moda é o valor que ocorre com mais freqüência. A moda pode não existir e, mesmo
que exista, pode não ser única.
Exemplos:
As medidas mais comuns são: amplitude total, desvio médio, desvio padrão e
variância.
Exemplos:
Exemplo:
22
Para dados agrupados (em tabelas de freqüência) o desvio padrão é computado por:
m
∼ 1 X
DM = | Xi − X̄ | fi (1.7)
N i=1
Disp. absoluta
DR =
M edia
s
CV = (1.8)
X̄
Obs: O Coeficiente de variação deixa de ser útil quando o X̄ está próximo de zero.
1.8.4 Variância (σ 2 )
23
1.8.5 Desvio Padrão (σ)
1.9.1 Momentos
Observação:
0
X̄ = m1
0 ¡ 0 ¢2
σ 2 = m2 − m1
m1 = 0
σ 2 = m2
24
Para dados agrupados os momentos podem ser calculados por:
Pm ¡ ¢r
i=1 xi − X̄ fi
mr = (1.14)
N
1.9.2 Assimetria
X̄ − moda
Assimetria = (1.15)
s
m3 m3
a3 = 3
=p 3 (1.16)
s m2
1.9.3 Curtose
25
Uma medida de curtose é o coeficiente do momento de curtose definido por:
m4 m4
a4 = 4
= 2 (1.17)
s m2
26
CAPÍTULO 2
PROBABILIDADE
lim n1
P (e1 ) =n → ∞ (2.1)
n
Onde:
e1 é o resultado;
n é o número total de vezes que se repete o experimento;
n1 é o número de vezes que o resultado e1 ocorre;
n1
n
é portanto a freqüência relativa de e1 .
0 ≤ P (ei ) ≤ 1 i = 1, 2, ..., N
P (e1 ) + P (e2 ) + ... + P (eN ) = 1 (2.2)
27
Exemplos:
b) Lançamento de um dado;
a) S = {c, r}
b) S = {1, 2, 3, 4, 5, 6}
e) S = {t ∈ R/t ≥ 0}
2.4 Eventos
28
Exemplos:
1. No lançamento de um dado, onde S = {1, 2, 3, 4, 5, 6}, temos:
Um evento é sempre definido por uma sentença. Assim os eventos acima podem ser
definidos pelas sentenças: a) "Obter um número par"; b) "Obter um número menor
ou igual a seis"; c) "Obter um número maior que três e menor que cinco"; d) "Obter
um número maior que seis".
Neste caso, o espaço amostral pode ser representado por uma tabela de dupla
entrada:
D2 1 2 3 4 5 6
D1
1 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
2 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
S=
3 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
4 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
5 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
6 (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
29
a) A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)};
c) C = ∅ (evento impossível);
d) D = S (evento certo);
e) E = {(1, 2), (2, 1), (2, 4), (3, 6), (4, 2), (6, 3)}.
Dado um experimento aleatório, sendo S o seu espaço amostral, vamos admitir que
todos os elementos de S tenham a mesma chance de acontecer, ou seja, que S é um
conjunto eqüiprovável.
Exemplo:
Considerando o lançamento de um dado, pede-se:
30
b) A probabilidade do evento B "obter um número menor ou igual a 6 na
face superior".
Temos:
S = {1, 2, 3, 4, 5, 6} ⇒ n(S) = 6
B = {1, 2, 3, 4, 5, 6} ⇒ n(B) = 6.
6
Logo, P (B) = 6
= 1.
Exercícios Complementares:
31
6 - Dois dados são lançados conjuntamente. Determine a probabilidade de a
soma ser 10 ou maior que 10.
Observação:
1) A ∪ B = B ∪ A
2) A ∪ A = A
3) A ∪ φ = A
4) Se A ⊂ B ⇒ A ∪ B = B (em particular A ∪ S = S).
32
A representação da união de n eventos A1 , A2 , ..., An (A1 ∪ A2 ∪ ... ∪ An ) é dada por:
n
[
Ai (2.4)
i=1
Observação:
1) A ∩ B = B ∩ A
2) A ∩ A = A
3) A ∩ φ = φ
4) Se A ⊂ B ⇒ A ∩ B = A (em particular A ∩ S = A)
5) (A ∩ B) ∩ C = A ∩ (B ∩ C).
33
por:
n
\
Ai (2.5)
i=1
2.7.3 Complemento
Definição: S − A = A = Ac = {ei ∈ S / ei ∈
/ A} , i = 1, . . . , n. O complemento de
um evento A é, portanto, o evento contendo todos os resultados no espaço amostral
S que não pertençam a A. O complemento de A pode ser visto na Figura 2.3.
Observação:
1) (Ac )c = A
2) A ∪ Ac = S
3) φc = S
4) A ∩ Ac = φ
5) S c = φ.
34
Exemplo: Lançam-se duas moedas. Sejam os eventos
A: saída de faces iguais e
B: saída de cara na primeira moeda.
Determinar os eventos:
A ∪ B, A ∩ B, A, B,(A ∪ B),(A ∩ B), (A ∩ B), (A ∪ B), B − A, A − B, A ∩ B, e
B ∩ A.
Resolução:
S = {(c, c), (c, r), (r, c), (r, r)}
A = {(c, c), (r, r)}
B = {(c, c), (c, r)} .
A ∪ B = {(c, c), (c, r), (r, r)}
A ∩ B = {(c, c)}
A = {(c, r), (r, c)}
B = {(r, c), (r, r)}
(A ∪ B) = {(r, c)}
(A ∩ B) = {(c, r), (r, c), (r, r)}
(A ∩ B) = {(r, c)}
(A ∪ B) = {((c, r), (r, c), (r, r)}
B − A = {(c, r)}
A − B = {(r, r)}
A ∩ B = {(c, r)}
B ∩ A = {(r, r)} .
Obs: Note que (A ∪ B) = (A ∩ B) e (A ∩ B) = (A ∪ B)
Axioma 2: P (S) = 1
35
Axioma 3: Para qualquer seqüência infinita de eventos disjuntos A1 , A2 , ...
∞
[ ∞
X
P( Ai ) = P (Ai ) (2.6)
i=1 i=1
Teorema 1: P (φ) = 0
n
[ n
X
P( Ai ) = P (Ai ) (2.7)
i=1 i=1
Observação:
1.
36
2. Se dois eventos são mutuamente exclusivos, então P (A ∪ B) = P (A) + P (B).
Exercícios Complementares:
37
de sua mulher é de 2/3. Determinar a probabilidade de que daqui a 30
anos:
a) Mutuamente exclusivos
b) Independentes.
Por definição 0! = 1
2.10.1 Permutação
n!
Pnr = n(n − 1)(n − 2)...(n − r + 1) = (2.12)
(n − r)!
Em particular Pnn = n!
38
iguais, n2 são iguais, ... nk são iguais, é:
n!
onde n1 + n2 + ... + nk = n (2.13)
n1 !n2 !...nk !
Exemplo:
2. Suponha que seis livros diferentes serão arrumados em uma estante. O número de
possíveis permutações dos livros é 6! = 720.
11!
3. O número de permutações da palavra estatistica é 3!2!2!2!1!1!
= 831.600.
2.10.2 Combinações
Uma combinação de n objetos tomados r de cada vez, é uma escolha dos n objetos,
não se levando em consideração a ordem de sua posição. O número
³ n ´de combinações
k
de n objetos, tomados k de cada vez, é representado por Cn ou k .
O cálculo (ou fórmula) para combinações pode ser obtido através de uma permutação
que pode ser construida da seguinte maneira: Sabe-se que o número de permutações
de n elementos tomados k de cada vez é Pnk . Primeiro uma combinação particular de
k elementos é selecionada. Cada diferente permutação desses k elementos levará
a uma permutação na lista. Como há k! permutações desses k elementos, esta
combinação particular produzirá k! permutações na lista. Quando uma combinação
diferente de k elementos é selecionada, k! outras permutações na lista são obtidas.
Como cada combinação de k elementos produzirá k! permutações, o número total
39
de permutações na lista será de k! · Cnk , isto é Pnk = k! · Cnk . Portanto
Pnk n!
Cnk = = (2.14)
k! k!(n − k)!
Neste caso, a probabilidade do evento A muda após se ter aprendido que o evento
B ocorreu. Como se sabe que o evento B ocorreu, então sabemos que o resultado
do evento A será um dos incluídos em B. Então, para calcular a probabilidade
que A ocorrerá, devemos considerar o conjunto dos possíveis resultados de B que
também resultariam na ocorrência de A. Este conjunto é precisamente A ∩ B. É
portanto natural definir-se a probabilidade condicional P (A/B) como a proporção
da probabilidade total P (B) que é representadoa pela probabilidade P (A ∩ B).
Portanto, tem-se a seguinte definição:
P (A ∩ B)
P (A/B) = dado P (B) > 0 (2.15)
P (B)
P (A) · P (B)
P (A/B) = = P (A) (2.16)
P (B)
Da mesma forma,
P (B) · P (A)
P (B/A) = = P (B) (2.17)
P (A)
40
P (A1 ) > 0, P (A1 ∩ A2 ) > 0, ..., P (A1 ∩ A2 ∩ A3 ... ∩ An−1 ) > 0. Então
P (A1 ∩ A2 ∩ ... ∩ An ) =
= P (A1 ) · P (A2 /A1 ) · P (A3 /A1 ∩ A2 )...
P (An /A1 ∩ A2 ∩ ...An−1 ). (2.18)
Exemplo:
Suponha que 4 bolas sejam selecionadas, uma de cada vez, sem reposição, de uma
urna contendo v bolas vermelhas e a azuis. (v ≥ 2, a ≥ 2). Qual a probabilidade de
se obter uma sequência de resultados vermelho, azul, vermelho, azul?
onde j=1,2,3,4
P (v1 , a2 , v3 , a4 ) =
= P (v1 ) · P (a2 /v1 ) · P (v3 /v1 ∩ a2 ) · P (a4 /v1 ∩ a2 ∩ v3 )
v a v−1 a−1
= v+a
· v+a−1
· v+a−2
· v+a−3
k
X
P (B) = P (Aj ∩ B) (2.19)
j=1
41
Mas P (Aj ∩ B) = P (Ai ) · P (B/Aj ) onde j = 1, 2, ..., k. Então
k
X
P (B) = P (Aj ) · P (B/Aj ) (2.20)
j=1
Aqui, temos que considerar o seguinte: o pixel pode ser classificado em A1 (CA1 ) e ser
realmente de A1 ou pode ser classificado em A1 (CA1 ) e ser realmente de A2 . Então
podemos escrever que:
Logo,
42
ou
X X
P (CA1 ) = P (CA1 ∩ Ai ) = P (CA1 /Ai )P (Ai ) (2.21)
i i
Sejam os eventos A1 , A2 , ..., Ak que formam uma partição do espaço S tal que
P (Aj ) > 0 para todo j = 1, 2, ..., k, e seja B qualquer evento tal que P (B) > 0.
Então, para i = 1, 2, ..., k, temos:
P (Ai )P (B/Ai )
P (Ai /B) = Pk (2.22)
j=1 P (Aj )P (B/Aj )
P (Ai ∩ B)
P (Ai /B) = (2.23)
P (B)
P (A1 ∩ CA1 )
P (A1 /CA1 ) = (2.24)
P (CA1 )
43
expressar
Esta formulação pode obviamente ser generalizada para uma situação onde os
eventos A1 , A2 , ..., An formam um sistema completo de resultados de alguma
operação e onde K denota um resultado arbitrário desta operação. Neste caso tem-se
que:
que é conhecida como a fórmula de Bayes e que tem aplicações diversas na área de
sensoriamento remoto.
Suponha que seja medida alguma característica x de uma cena (por exemplo, o
nível de cinza de cada pixel ) e que tenha que se decidir a qual de duas classes (por
exemplo, vegetação ou solo) um pixel pertence. Este é um problema unidimensional,
de classificação em duas classes, no domínio de característica da imagem. Se um
número grande de pixels está disponível, que pode ser considerado representativo
de cada classe (isto é, dados de treinamento) podemos calcular um histograma da
frequência relativa da característica para cada classe, conforme mostrado na Figura
2.4.
44
Fig. 2.4 – A probabilidade a priori nas f.d.p. das classes
P (x/Ai )P (Ai )
P (Ai /x) = (2.27)
P (x)
Onde
2
X
P (x) = P (x/Ai )P (Ai ) (2.28)
1
Uma regra de decisão pode agora ser formada com as probabilidades a posteriori da
equação 2.27. Se um pixel tem valor x na característica, uma abordagem intuitiva
satisfatória é designar o pixel à classe A1 se P (A1 /x) é maior que P (A2 /x).
Semelhantemente, o pixel seria designado à classe A2 se P (A2 /x) é maior que
P (A1 /x). Sendo P (x) igual para as duas classes na equação 2.28 ela pode ser ignorada
numa comparação dos dois e podemos escrever a regra de decisão de Bayes
45
- um pixel pertence à classe A1 se P (x/A1 )P (A1 ) > P (x/A2 )P (A2 )
Numa situação atípica onde as duas probabilidades a posteriori são extamente iguais,
isto é
ou
uma decisão não pode ser tomada a partir das probabilidades de classe. Um processo
de desempate deve ser empregado, tal como escolher aleatoriamente classe 1 ou
classe 2. Pode ser mostrado que a regra de decisão de Bayes minimiza a probabilidade
média de erro sobre todo o conjunto de dados classificados, se todas as classes tem
f.d.p. normal.
46
CAPÍTULO 3
X : S −→ <
Exemplo:
Suponha o experimento "lançar três moedas". Seja X: número de ocorrências da
face cara . O espaço amostral do experimento é:
S = {(c, c, c), (c, c, r), (c, r, c), (c, r, r), (r, c, c), (r, c, r), (r, r, c), (r, r, r)} .
Se X é o número de caras, X assume os valores 0, 1, 2 e 3. Podemos associar
a esses números eventos que correspondem a nenhuma, uma, duas ou três caras
respectivamente, como segue:
X Evento Correspondente
0 A1 = {(r, r, r)}
1 A2 = {(c, r, r), (r, c, r), (r, r, c)}
2 A3 = {(c, c, r), (c, r, c), (r, c, c)}
3 A4 = {(c, c, c)}
47
possível resultdo xi , associaremos um número p(xi ) = P (X = xi ), i = 1, 2, 3, ...,
denominado probabilidade de xi . Os números p(xi ) devem satisfazer às seguintes
condições:
a) p(xi ) ≥ 0 ∀i,
P∞
b) i=1 p(xi ) = 1
Exemplos:
X 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
p(X) 36 36 36 36 36 36 36 36 36 36 36
48
valores de X são 0,1, 2, ..., 10, e
³n´ 1
P (X = x) = , x = 0, 1, 2, . . . , 10. (3.1)
x 210
a) f (x) ≥ 0 x ∈ <X ,
R
b) <X
f (x)dx = 1
Obs:
Exemplo:
49
Fig. 3.2 – Gráfico de f dp de f
R∞ R1
Evidentemente, f (x) ≥ 0 e f (x)dx = 2xdx = 1. Para calcular
R−∞
1
0
P (X ≤ 1/2) deve-se calcular 02 (2x)dx = 14 .
R∞
Para calcular a constante a, recorre-se à condição −∞ f (x)dx = 1, que
R 2500
significa, neste caso 1500 xa3 dx = 1, obtendo-se a = 7.031.250.
FX (x) = P (X ≤ x) (3.2)
Observação:
50
b) A função FX (x) é não-decrescente quando x aumenta, isto é, se x1 < x2 ,
então FX (x1 ) ≤ FX (x2 ).
Teoremas:
Exemplos:
51
Fig. 3.3 – Gráfico F
Suponha que um certo experimento envolve duas v.a. X e Y , cada qual com uma
distribuição discreta.
52
Fig. 3.4 – Meyer, página 75.
p(x, y) = P (X = x e Y = y) (3.5)
Observação:
P
a) p(xi , yi ) = 1.
b) Se X e Y forem independentes
p(xi , yi ) = P (X = xi ) · P (Y = yi )
Exemplo:
Suponha que a variável aleatória X possa assumir somente of valores 1, 2, e 3, que
a variável aleatória Y possa assumir somente os valores 1, 2, 3 e 4, e que a função
de probabilidade conjunta de X e Y seja dada pela tabela:
Y 1 2 3 4
X
1 0,1 0 0,1 0
2 0,3 0 0,1 0,2
3 0 0,2 0 0
53
a) P (X ≥ 2 e Y ≥ 2);
b) P (X = 1).
54
e
Z ∞ Z ∞
f (x, y)dxdy = 1 (3.7)
−∞ −∞
A probabilidade que o par (X, Y ) pertença a uma região do plano xy pode ser
encontrada integrando a f.d.p. conjunta sobre esta região. A Figura 3.5 mostra um
exemplo de f.d.p. conjunta.
Caso Discreto
Se X e Y são v.a. discretas com f.p. conjunta p(x, y), então a f.p. marginal de X é
obtida por:
X
PX (x) = P (X = x) = p(x, y) (3.8)
y
55
Similarmente, a f.p. marginal de Y é:
X
PY (y) = P (Y = y) = p(x, y) (3.9)
x
Exemplo:
Y 1 2 3 4 Marginal
X de X
1 0,1 0 0,1 0 0,2
2 0,3 0 0,1 0,2 0,6
3 0 0,2 0 0 0,2
Marginal de Y 0,4 0,2 0,2 0,2 1,0
Caso Contínuo
Se X e Y possuem uma distribuição conjunta com f.d.p. conjunta f (x, y), então a
f.d.p. marginal fX (x) de X é obtida por:
Z ∞
fX (x) = f (x, y)dy (3.10)
−∞
Observação
56
Se X e Y forem independentes
Exemplo:
b) X e Y são independentes?
c) Determine P (X ≥ 12 ) e P (Y ≥ 12 )..
Solução:
a) Tem-se que:
Z 1
3 2 y3 1 1
y dy = |= .
0 2 2 0 2
(
1
2
0≤x≤2
fX (x) =
0 caso contrário.
Tem-se que:
Z 2
3 2 3
y dx = y 2 x |20 = 3y 2
0 2 2
57
Logo, a p.d.f. marginal de Y é dada por:
(
3y 2 0 ≤ y ≤ 1
fY (y) =
0 caso contrário.
c)
Z 2 µ ¶
1 1 1 1 1 3
P (X ≥ ) = dx = x |21 = 2− = .
2 1
2
2 2 2 2 2 4
Z 1
1 1 7
P (Y ≥ ) = 3y 2 dy = y 3 x |11/2 = 1 − = .
2 1/2 8 8
Suponha que uma variável aleatória (v.a.) X possua uma distribuição discreta cuja
f.d.p. é p(x). A esperança de X, denotada por E(X), é um número definido por
X
µ = E(X) = xp(x) (3.12)
x
Exemplo
Suponha que uma v.a. X possa assumir somente quatro valores: −2, 0, 1, e4, e que
P (X = −2) = 0.1; P (X = 0) = 0.4; P (X = 1) = 0.3; P (X = 4) = 0.2
Então
58
3.6.2 Distribuições Contínuas
Se uma variável aleatória (v.a.) X possui uma distribuição contínua com f.d.p. f (x),
então a esperança E(X) é definida por
Z ∞
µ = E(X) = xf (x)dx (3.13)
−∞
Exemplo
Suponha que a f.d.p. de uma v.a. X com uma distribuição contínua seja:
(
2x para 0 < x < 1
f (x) =
0 caso contrário
Então
Z 1
E(X) = x · (2x)dx
0
Z 1
= 2x2 dx
0
2x3 1
= |
3 0
2
=
3
Observação
O número E(X) é também denominado valor esperado de X, ou a média de X.
P1.
Se a é uma constante qualquer
E(X ± a) = E(X) ± a
P2.
59
Se a é uma constante qualquer
E(aX) = a · E(X)
P3.
Se X1 , X2 , ..., Xn são n variáveis aleatórias tais que E(Xi ) existe (i = 1, 2, ..., n),
então
P4.
Se X1 , X2 , ..., Xn são n variáveis aleatórias independentes, tais que E(Xi ) existe
(i = 1, 2, ..., n), então
à n ! n
Y Y
E Xi = E(Xi )
i=1 i=1
Exemplos:
60
E(Xi2 = 1), para i = 1, 2, 3. Determinar E[X12 (X2 − 4X3 )2 ]
Definição
Suponha que X é uma v.a. com média µ = E(X). A variância de x, representada
por V ar(X) é definida por
£ ¤
V ar(X) = E (x − µ)2 , onde µ = E(X) (3.14)
Suponha que uma v.a. X possua uma distribuição discreta, cuja f.d.p. é p(x). Então
X
V ar(X) = (x − µ)2 · p(x)
x
X
= x2 · p(x) − µ2 (3.15)
x
Exemplo:
Suponha que uma v.a. X possa assumir somente quatro valores: −2, 0, 1, e 4, e que
P (X = −2) = 0, 1; P (X = 0) = 0, 4; P (X = 1) = 0, 3; P (X = 4) = 0, 2
61
ou
X
V ar(X) = x2 · p(x) − µ2
x
= (−2)2 · (0, 1) + (0)2 · (0, 4) + (1)2 · (0.3) + (4)2 · (0, 2) − (0, 9)2
= 0, 4 + 0, 3 + 3, 2 − 0, 81
= 3, 09
Suponha que uma v.a. X possua uma distribuição contínua, cuja f.d.p. é f (x). Então
Z ∞
V ar(X) = (x − µ)2 · f (x)dx
Z−∞
∞
= x2 · f (x)dx − µ2 (3.16)
−∞
Exemplo
Suponha que a f.d.p. de uma v.a. X com uma distribuição contínua seja:
(
2x para 0 < x < 1
f (x) =
0 caso contrário
P1.
V ar(X) = 0 se e somente se existe uma constante c tal que P (X = c) = 1
62
P2.
V ar(aX) = a2 V ar(X)
P3.
V ar(X + a) = V ar(X)
P4.
V ar(X) = E(X 2 ) − [E(X)]2
P5.
Se X1 , X2 , ..., Xn são v.a. independentes, então
V ar(X1 ± X2 ± ... ± Xn ) = V ar(X1 ) + V ar(X2 ) + ... + V ar(Xn )
Exemplo:
Seja uma v.a. com média µ e desvio padrão σ. Calcular a média e variância de:
a) Z = 3X − 7
X−7
b) Z = 2
X−µ
c) Z = σ
a) E(Z) = 3µ − 7
V ar(Z) = 9σ 2
µ 7
b) E(Z) = 2
− 2
σ2
V ar(Z) = 4
µ µ
c) E(Z) = σ
− σ
=0
σ2
V ar(Z) = σ2
=1
3.8 Momentos
Definição
Para qualquer variável aleatória (v.a.) X e qualquer inteiro positivo k, a esperança
E(X k ) é denominado k-ésimo momento de X, ou momento de ordem k
63
3.8.1 Momentos Centrais
Suponha que Xh seja umai v.a. com E(X) = µ. Para qualquer inteiro positivo k,
a esperança E (X − µ)k é denominado k-ésimo momento central de X, ou
k-ésimo momento em torno da média.
Observação
Se a distribuição
h dei X é simétrica com respeito à sua média µ, e se oh momentoi
central E (X − µ)k existe para um dado k ímpar, então o valor de E (X − µ)k
será igual a zero.
Definição
Considere uma v.a. X, e para cada número real t, seja Mx (t) a função
£ ¤
Mx (t) = E etx (3.17)
A partir da f.g.m. pode-se gerar todos os momentos. Seja Mxk (t) a k-ésima derivada
de Mx (t). Então:
· ¸
d ¡ tx ¢
Mx1 (0) = E e
dt
·µ ¶t=0 ¸
d tx
= E e
dt
£¡ ¢ t=0
¤
= E Xetx t=0
= E(X) (3.18)
Analogamente, temos
· ¸
dk ¡ tx ¢
Mxk (0) = E e
dtk
·µ k ¶t=0 ¸
d tx
= E e
dtk
£¡ k tx ¢ t=0
¤
= E X e t=0
£ ¤
= E Xk (3.19)
64
Portanto:
Mx1 (0) = E(X), Mx2 (0) = E(X 2 ), Mx3 (0) = E(X 3 ), ...
Exemplo:
Suponha que X seja uma v.a. com f.d.p. dada por
(
e−x para x > 0
f (x) =
0 caso contrario
Solução:
Z ∞ Z ∞
£ tx
¤ tx e(t−1)x ∞
Mx (t) = E e = e dx = e(t−1)x dx = |
0 0 t−1 0
1
MX (t) =
1−t
0 1
MX (t) = ⇒ E(X) = 1
(1 − t)2
00 2
MX (t) = ⇒ E(X 2 ) = 2
(1 − t)3
Logo, V ar(X) = 2 − 12 = 1
P1.
Seja X uma v.a. com f.g.m. MX , e seja Y = aX + b, onde a e b são constantes, e
seja MY a f.g.m. de Y . Então, para qualquer valor de t tal que MX (at) exista,
P2.
Suponha que X1 , X2 , ..., Xn sejam n v.a. independentes, e que Mi (i = 1, 2, ..., n)
seja a f.g.m. de Xi . Seja Y = X1 + X2 + ... + Xn , e seja MY a f.g.m. de Y . Então
65
para qualquer valor de t tal que Mi (t) exista,
n
Y
MY (t) = Mi (t) (3.21)
i=1
Exemplo:
Suponha que X e Y sejam independentes e identicamente distribuidas (i.i.d.) e que
a f.g.m. de cada uma seja dada por:
2 −3
M (t) = et − ∞ < t < ∞.
Encontre a f.g.m. de Z = 3X − Y + 4.
Solução:
Sejam
2
X1 = 3X ⇒ M1 (t) = M (3t) = e9t −3
2
X2 = Y ⇒ M2 (t) = M (−t) = et −3
MZ = M (X1 + X2 + 4) = e4t M1 (t)M2 (t)
2 2
= e4t (e9t −3 )(et −3 )
2 +4t−6
= e10t
Suponha que uma v.a. X possua uma distribuição discreta, cuja função de
probabilidade (f.p.) seja p(x), e que outra v.a. Y = r(X) seja definida como uma
certa função de X. Então a f.p. (g) de Y pode ser calculada de p de maneira direta:
g(y) = P (Y = y)
= P [r(X) = y]
X
= p(x) (3.22)
x:r(x)=y
Exemplo:
Suponha que X seja uma v.a. com f.p. dada por:
P (X = −2) = 0, 2; P (X = −1) = 0, 1; P (X = 0) = 0, 3; P (X = 1) = 0, 2;
P (X = 2) = 0, 1 e P (X = 3) = 0, 1.
Suponha que Y seja outra v.a. tal que Y = 2X 2 − 3. Qual a f.p. de Y?
66
Solução:
Como X só pode assumir os valores -2,1, 0, 2 e 3, então Y = 2X 2 − 3 poderá assumir
os valores -3 (quando X = 0), -1 (quando X = −1 ou 1), 5 (quando X = −2 ou 2),
e 15(quando X = 3).Logo, a f.p. de Y é dada por:
P (Y = −3) = P (X = 0) = 0, 3; P (Y = −1) = P (X = −1) + P (X = 1) = 0, 3;
P (Y = 5) = P (X = 2) + P (X = −2) = 0, 3 e P (Y = 15) = P (X = 3) = 0, 1.
Suponha que X seja uma v.a. com distribuição contínua, cuja f.d.p. seja f (x).
Suponha que Y seja outra v.a. definida com uma função de X, isto é, Y = r(X).
G(y) = P (Y ≤ y)
= P [r(X) ≤ y]
Z
= f (x)dx. (3.23)
{x:r(x)≤y}
dG(y)
g(y) = (3.24)
dy
Exemplo:
Suponha que X possua uma distribuição uniforme no intervalo (-1,1), isto é:
(
1
2
para −1 < x < 1
f (x) =
0 caso contrário
Determine a f.d.p. de Y = X 2 .
Solução:
67
Como Y = X 2 ⇒ 0 ≤ Y < 1. Então para qualquer número y tal que 0 ≤ y < 1,
G(y) = P (Y ≤ y) = P (X 2 ≤ y) =
√ √
= P (− y ≤ x ≤ y) =
R y
√ R √y
= −√y f (x)dx = −√y 21 dx =
√
= y
Logo,
√
d( y)
g(y) = dy
1
= √
2 y
para 0 ≤ y < 1
Observação:
Em alguns casos, para algumas funções r(X) a f.d.p. de Y pode ser calculada
diretamente, sem ter que derivar primeiro a sua função de distribuição G(y). Para
tal, algumas condições devem ser satisfeitas, como enunciado abaixo:
• Seja uma v.a. com f.d.p. f e para qual P (a < X < b) = 1. Seja Y = r(X),
e suponha que r(x) seja contínua e estritamente crescente ou estritamente
decrescrente para a < x < b. Suponha tambem que a < X < b se e
somente se α < Y < β, e seja X = s(Y ) a função inversa para α < Y < β
Exemplo:
Suponha que X seja uma v.a. com distribuição exponencial, isto é:
(
1
µ
e−x/µ para x > 0
f (x) =
0 caso contrário
√
Determinar a f.d.p. de Y = X.
Solução:
68
√ dx
Como Y = X, então X = Y 2 . Logo, dy
= 2y. Portanto,
1 −y2 /µ
f (y) = e · 2y.
µ
Logo,
( 2 /µ
2y
µ
e−y para y > 0
f (y) =
0 caso contrário
Suponha que certa máquina produza um item defeituoso com probabilidade p (0 <
p < 1) e produza um item não defeituoso com probabilidade q = 1 − p. Suponha
que n itens independentes produzidos por essa máquina sejam examinados, e faça X
representar o número de itens que são defeituosos. A v.a. X terá uma distribuição
discreta, e os possíveis valores de X serão 0, 1, 2, 3, ..., n.
Exemplo:
Solução:
Seja X a v.a. que representa o número de válvulas que funcionam mais
69
de 500 horas. X possui uma distribuição binomial. Portanto,
µ ¶
20
P (X = k) = (0, 2)k (0, 8)20−k para k = 0, 1, 2, 3, ..., 20
k
µ ¶
5
P (X = 3) = (0, 6)3 (0, 4)2 = 0, 3456
3
70
3.10.1.1 Média de uma v.a. com Distribuição Binomial
³n´
Onde p(x) = x px q n−x
Fazendo y = x − 1 tem-se
n−1 µ
X ¶
n−1
E(X) = np y py q n−1−y (3.26)
y=0
Mas, pela fórmula binomial (ver por exemplo Wonnacott, pag. 153)
µ ¶ µ ¶
k k k k−1 k
(p + q) = q + pq + p2 q k−2 + . . . + pk
1 2
Xk µ ¶
k
= pi q k−i
i=0
i
(3.27)
Portanto,
Como p + q = 1, temos
E(X) = np (3.29)
71
3.10.1.2 Variância de uma v.a. com Distribuição Binomial
Assim,
72
Como:
³n´
De fato f (x) = x px · q n−x é de fato uma função de probabilidade. Para tanto
temos que ter
X ³n´
x px · q n−1 = 1 (3.35)
que por sua vez é igual a (p + q)n , e como p + q = 1 fica demonstrado que f (x) é de
fato uma função de probabilidade.
Exemplo
Em 100 lances de uma moeda honesta, a média do número de caras é
1
µ = N p = 100 · = 50 (3.36)
2
Observação
A função geratriz de momentos de uma distribuição binomial é
¡ ¢n
Mx (t) = p · et + q (3.38)
73
3.10.2 Distribuição Hipergeométrica
Suponha que uma urna contenha A bolas verdes e B bolas azuis. Suponha que se
retire n bolas sem reposição. Seja X v.a. que indica o número de bolas verdes obtidas.
Então
n·A
E(X) = (3.40)
A+B
nAB A+B−n
V ar(X) = 2
· (3.41)
(A + B) A + B − 1
Exemplo:
Pequenos motores elétricos são expedidos em lotes de 50 unidades. Antes que
uma remessa seja aprovada, um inspetor escolhe 5 desses motores e o inspeciona.
Se nenhum dos motores inspecionados for defeituosos, o lote é aprovado. Se
um ou mais forem verificados defeituosos, todos os motores da remessa são
inspecionados. Suponha que existam, de fato, três motores defeituosos no lote. Qual
é a probabilidade de que a inspeção 100 por cento seja necessária?
Solução:
Seja X a v.a. que representa o número de motores defeituosos enecontrado. A
inspeção de todo o lote será necessária se X ≥ 1. Logo,
¡ 3 ¢ ¡ 47 ¢
0
P (X ≥ 1) = 1 − P (X = 0) = 1 − ¡ 50 ¢5 = 0, 28
5
74
3.10.3 Distribuição Binomial Negativa
Seja X a v.a. que denota o número de falhas que ocorrem antes que exatamente r
sucessos sejam obtidos. Então:
µ ¶
r+x−1
P (X = x) = pr q x x = 0, 1, 2... (3.42)
x
rq
E(X) = (3.43)
p
rq
V ar(X) = (3.44)
p2
Exemplo:
Suponha que a probabilidade de sair cara em uma moeda seja de 1/3. Suponha
também que esta moeda seja jogada até que apareçam 5 caras.
Solução:
Seja X a v.a. que representa o número de coroas que aparecem antes de que a quinta
cara apareça. X possui uma distribuição binomial negativa.
a)
µ ¶ µ ¶5 µ ¶7
11 1 2
P (X = 7) =
7 3 3
75
b)
5. 23
E(X) = 1 = 10
3
P (X = x) = pq x (3.45)
q
E(X) = ; (3.46)
p
q
V ar(X) = (3.47)
p2
Exemplos:
Solução:
Chamando de X o número de dias (começando em 1o. de dezembro) até
a primeira tormenta. Portanto, X possuirá uma distribuição geométrica,
e a probabilidade desejada é:
76
b) O custo de realização de um experimento é de R$ 1500,00. Se o
experimento não tiver sucesso, há um custo adicional de R$ 400,00 para
que sejam executadas as correções necessárias. Suponha que as provas
sejam independentes, e que os experimentos sejam executados até que
o primeiro sucesso ocorra. Sendo a probabilidade de sucesso em uma
tentativa qualquer de 0,1, qual será o custo esperado do procedimento
completo?
Solução:
Seja X a v.a. que representa o número de provas necessárias para alcançar
o primeiro sucesso. Temos que X possuirá uma distribuição geométrica,
com média
q 0, 9
E(X) = = = 9.
p 0, 1
Logo,
Seja X uma v.a. com distribuição discreta, e suponha que X assuma valores inteiros
não negativos. É dito que X possui uma distribuição de Poisson com média λ
onde (λ > 0) se a função de probabilidade de X é dada por:
λx
P (X = x) = e−λ x = 0, 1, 2, 3, ... (3.48)
x!
Observação
O símbolo e representa uma constante que é aproximadamente igual a 2, 7183. O
seu nome é uma homenagem ao matemático suiço I. Euler, e constitui a base do
chamado logaritmo natural.
77
determinar a sua função geradora de momento (f.g.m.),
£ ¤
M (t) = E etX
X∞
λx
= etx e−λ
x=0
x!
∞
X x
−λ (λet )
= e
x=0
x!
−λ λet
= e e
= eλ(e −1)
t
Diferenciando teremos
¡ ¢2
M (t) = λet e{λ(e −1)} + λet e{λ(e −1)}
00 t t
Para t = 0 temos
0
E(X) = m (0) = λ (3.49)
00
V ar(X) = m (0) − (E [X])2
= λ2 + λ − λ2
= λ (3.50)
78
binomial com parâmetros (n, p) e seja λ = np. Então
n!
P (X = x) = px (1 − p)n−x
(n − x)!x!
µ ¶x µ ¶n−x
n! λ λ
= 1−
(n − x)!x! n n
n(n − 1)...(n − x + 1) λx (1 − λ/n)n
= · ·
nx x! (1 − λ/n)x
(3.51)
λx
P (X = x) ≈ e−λ (3.53)
x!
79
Solução:
Seja X a v.a. que representa o número de pessoas que sofrem a reação
nociva após injerir o soro. Então,
λx
P (X = x) = e−λ x = 0, 1, 2, 3, ..,
x!
1)
23
P (X = 3) = e−2 = 0, 18
3!
2)
P (X ≥ 3) = 1 − {P
n (X 0= 0) + P (X = 1)o+ P (X = 2)}
1 2
= 1 − e−2 20! + e−2 21! + e−2 22!
© ª
= 1 − e12 + e22 + e22 = 1 − e52
= 0, 323
e−0,7 0, 7x
P (X = x) = x = 0, 1, 2, 3, ..,
x!
80
Logo,
P (X ≥ 3) = 1 − {P
n (X = 0) + P (X = 1) +oP (X = 2)}
0,72 e−0,7
= 1 − e−0,7 + 0, 7e0,7 + 2
= 1 − e−0,7 (1 + 0, 7 + 0, 245)
= 0, 341
1) distribuição binomial
2) distribuição de Poisson
Solução:
1)
µ ¶
10
P (X = 2) = (0, 1)2 (0, 9)8 = 0, 1937
2
2)
λ = N p = 10(0, 1) = 1
12 e−1 1
P (X = 2) = = −1 = 0, 1839
2! 2e
Definição
Dizemos que uma v.a. X possui uma distribuição Normal (ou Gaussiana) com
média µ e variância σ 2 (−∞ < µ < ∞ e σ > 0) se X possuir uma distribuição
contínua com f.d.p. dada por:
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) para − ∞ < x < ∞ (3.54)
σ 2π
81
Média
E(X) = µ (3.55)
Variância
V ar(X) = σ 2 (3.56)
σ 2 t2
Mx (t) = eµt+ 2 −∞<x<∞ (3.57)
Teorema 1
Se X possui uma distribuição normal com média µ e variância σ 2 , e se Y = aX + b,
onde a e b são constantes, com a 6= 0, então Y terá uma distribuição normal com
média aµ + b e variância a2 σ 2
Prova
A função geratriz de momentos de Y será
que é a função geratriz de momentos de uma distribuição com média aµ+b e variância
a2 σ 2 .
82
é em geral representada por φ(x) e dada por
1 x2
φ(x) = √ e− 2 −∞<x<∞ (3.59)
2π
Segue do Teorema 1 que se uma variável X tem uma distribuição normal com média
µ e variância σ 2 , então a variável
X −µ
Z= (3.60)
σ
Exemplos:
v) P (| Z |≤ 2) = P (−2 ≤ Z ≤ 2)
= P (Z ≤ 2) − P (Z < −2)
= P (Z ≤ 2) − P (Z > 2)
= P (Z ≤ 2) − (1 − P (Z ≤ 2))
= 2 · P (Z ≤ 2) − 1
= 2 · 0, 9773 − 1 = 0, 9546
83
b) Suponha que X possua uma distribuição normal com média 5 e desvio
padrão 2. Então:
P (1 ≤ X ≤ 8) = P ( 1−5
2
≤ X−µ
σ
≤ 8−5
2
)
= P (−2 ≤ Z ≤ 1, 5)
= P (Z ≤ 1, 5) − P (Z < −2)
= P (Z ≤ 1, 5) − P (Z > 2)
= P (Z ≤ 1, 5) − (1 − P (Z ≤ 2))
= P (Z ≤ 1, 5) + P (Z ≤ 2) − 1
= 0, 9332 + 0, 9772 − 1 = 0, 9104
Teorema 2
Se as v.a. X1 , X2 , ..., Xk são independentes e se Xi é normalmente distribuida com
média µi e variância σi2 com (i = 1, 2, 3, ..., k), então a soma X1 + X2 + ... + Xk terá
uma distribuição normal com média µ1 + µ2 + ... + µk e variância σ12 + σ22 + ... + σk2 .
Prova:
Seja Mi (t) a f.g.m. de Xi para (i = 1, 2, ..., k) e seja M (t) a f.g.m. de X1 + X2 +
84
... + Xk . Como as variáveis X1 , X2 , ..., Xk são independentes, então
k
Y
M (t) = Mi (t)
i=1
µ ¶
Yk σi2 t
µi t+ 2
= e
i=1
Pk P
= e( i=1 µi )t+ 12 ( ki=1 σi2 )t
para − ∞ < x < ∞
Esta f.g.m.
³P pode ´ ser identificada
³P como´ a f.g.m. de uma distribuição normal com
k k 2
média i=1 µi e variância i=1 σi . Logo, é essa a distribuição de X1 + X2 +
... + Xk
Exemplo:
Suponha que a altura, em inches, de mulheres de uma certa população segue uma
distribuição normal com média 65 e desvio padrão 1, e que as alturas dos homens
segue uma distribuição normal com média 68 e desvio padrão 2. Supor também que
uma mulher seja selecionada aleatoriamente e independentemente um homem seja
selecionado aleatoriamente. Determinar a probabilidade que a mulher seja mais alta
que o homem.
Solução:
Sejam M e H as v.a. que representem as alturas da mulher e do homem,
respectivamente. Então
M ~ N (65, 12 )
H ~ N (68, 22 )
Logo, (M − H) ~ N (65 − 68, 12 + 22 ), isto é, (M − H) ~ N (−3, 5).
M −H+3
Portanto Z = √
5
~ N (0, 1). Logo,
³ ´
P (M > H) = P (M − H > 0) = P M −H+3
√ > √3
³ ´ 5 5
3
= P Z > 5 = P (Z > 1, 342) = 1 − P (Z < 1, 342)
√
= 1 − 0, 9099 = 0, 09
85
Corolário 1
Se as v.a. X1 , X2 , ..., Xk são independentes, se Xi possui uma distribuição normal
com média µi e variância σi2 onde (i = 1, 2, ..., k), e se a1 , a2 , ..., ak e b são constantes
para as quais pelo menos um dos valores de a1 , a2 , ..., ak é diferente de zero, então
a variável a1 X1 + a2 X2 + ... + ak Xk + b tem uma distribuição normal com média
a1 µ1 + a2 µ2 + ... + ak µk + b e variância a21 σ12 + a22 σ22 + ... + a2k σk2
Corolário 2
Suponha que as v.a. X1 , X2 , ..., Xk formem uma amostra aleatória de uma
distribuição com média µ e variância σ 2 , e seja X̄ a média amostral. Então X̄ terá
σ2
uma distribuição normal com média µ e variância n
Exemplo:
86
3.11.3 Teorema do Limite Central
Exemplo:
Suponha que uma moeda honesta seja jogada 900 vezes. Qual a probabilidade de se
obter mais de 495 caras?
Solução:
Para i = 1, 2, . . . , 900, seja Xi = 1 se cara é obtida na i-ésima jogada e Xi = 0 caso
contrário (distribuição de Bernoulli).
1
Então E(Xi ) = 2
e V ar(Xi ) = 41 . Portanto os valores X1 , X2 , X3 , . . . , X900 formam
1
uma amostra aleatória de tamanho n = 900 de um distribuição com média 2
e
variância 14 . Segue, pelo Teorema do Limite Central, que a distribuição do número
P
de caras H = 900 i=1 Xi será aproximadamente uma normal com média e variância
dadas respectivamente por
1
E(H) = 900 · 2
= 450
1
V ar(H) = 900 · 4
= 225 (e, consequentemente desvio padrão igual a 15).
H−450
Portanto a variável Z = 15
terá aproximadamente uma distribuição normal
padrão. Logo,
¡ ¢
P (H > 495) = P H−450
15
> 495−450
15
= P (Z > 3) = 0, 0013
87
Distribuição Amostral das Proporções:
Admita-se que uma população é infinita e que a probabilidade de ocorrência de
um evento (denominado sucesso) é p, enquanto a sua não ocorrência é q = 1 − p.
Suponha que este experimento seja realizado n vezes e que para cada uma das
tentativas i, seja definido a v.a. Xi , tal que Xi = 1 se ocorrer sucesso na i-ésima
tentativa e Xi = 0 se ocorrer insucesso (i = 1, 2, . . . , n)(Xi é dito possuir uma
distribuição de Bernoulli, com média E(Xi ) = p e variância V ar(Xi ) = pq). Seja P
a proporção de sucessos, isto é:
Pn
i=1 Xi
P = .
n
Para grandes valores de n segue, pelo Teorema Central do Limite, que P será
aproximadamente normalmente distribuído com média e variância dadas por:
E(P ) = p
pq
V ar(P ) = .
n
Exemplo:
Suponha que a proporção de itens defeituosos em um grande lote de peças seja 0,1.
Qual é o menor número de itens que deve ser retirado do lote para que a probabilidade
seja de pelo menos 0,99 que a proporção de itens defeituosos na amostra seja menor
que 0,13.
Solução: Seja P a proporção de defeituosos na amostra. Para n grande tem-se que
P será aproximadamente normalmente distribuído com média µ = 0, 1 e variância
(0,1)(0,9) 0,09
σ2 = n
= n
. Quer-se determinar n para que
P (P < 0, 13) ≥ 0, 99
88
Portanto,
P −µ 0, 13 − 0, 1
P < q ≥ 0, 99
σ 0,09
n
Ou seja,
à !
0, 03 ¡ √ ¢
P Z< 0,3 = P Z < 0, 1 n ≥ 0, 99
√
n
Sejam α e β dois números reais tais que (α < β), e considere um experimento no
qual um ponto X é selecionado do intervalo S = {x : α ≤ x ≤ β} de tal maneira que
a probabilidade de que X pertença a qualquer subintervalo de S é proporcional ao
comprimento desse intervalo. A distribuição da v.a. X é denominada distribuição
uniforme no intervalo (α, β) e é dada por
(
1
β−α
para α ≤ x ≤ β
f (x) =
0 caso contrário
Esta f.d.p. está representada pela Figura 3.7. Observe que a função anterior satisfaz
os requisitos para ser uma f.d.p., já que
Z β
1
dx = 1 (3.62)
β−α α
89
Fig. 3.7 – Gráfico de f (x) de uma função uniforme
ocorre devido a que, quando [a, b] é um subintervalo de [α, β] (ver Figura 3.8).
Z b
1
P {a < X < b} = dx
β−α a
b−a
= (3.63)
β−α
90
Exemplo:
Um ponto é escolhido ao acaso no segmento de reta [0,2]. Qual será a a probabilidade
de que o ponto escolhido esteja entre 1 e 1,5?
Seja X a v.a. que representa a coordenada do ponto escolhido. Tem-se que a f.d.p.
de X é dada por:
(
1
2
para 0 ≤ x ≤ 2
f (x) =
0 caso contrário
Portanto,
0, 5 1
P (1 ≤ X ≤ 1, 5) = =
2 4
Média
A média de uma v.a. uniforme [α, β] é
Z β
x
E(X) = dx
α β −α
β 2 − α2
=
2 (β − α)
(β − α)(β + α)
=
2 (β − α)
(3.64)
ou
α+β
E(X) = (3.65)
2
Ou, em outras palavras, o valor esperado de uma v.a. uniforme [α, β] é igual ao
ponto médio do intervalo [α, β].
Variância
O cálculo da variância é dado por:
91
mas
Z β
2 1
E[X ] = x2 dx
β−α α
β 3 − α3
=
3 (β − α)
(β 2 + αβ + α2 )
=
3
(3.66)
Assim
µ ¶2
(β 2 + αβ + α2 ) α+β
V ar[X] = −
3 2
(β 2 + β 2 − 2αβ)
=
12
(β − α)2
= (3.67)
12
É dito que uma v.a. X possui uma distribuição exponencial com média µ onde
(µ > 0) se X possui uma distribuição contínua para a qual a f.d.p. f (x) é dada por
( x
1 −µ
µ
e para x > 0
f (x) =
0 para x ≤ 0
A média e variância de uma v.a. X com distribuição exponencial são dadas por:
E(X) = µ (3.68)
V ar(X) = µ2 (3.69)
92
Observação
√
Se X possui uma distribuição exponencial então a v.a. Y = X possui uma
distribuição Rayleigh, cuja f.d.p. é dada por:
2y − yµ2
f (y) = e (3.70)
µ
1√
E(X) = µπ (3.71)
2
4−π
V ar(X) = µ (3.72)
4
Exemplo:
Suponha que um fusível tenha uma duração de vida X, a qual pode ser considerada
uma v.a. contínua com uma distribuição exponencial. Existem dois processos pelos
quais o fusível pode ser fabricado. O processo I apresenta uma duração de vida
esperada de 100 horas, enquanto o processo II apresenta uma duração de vida
esperada de 150 horas. Suponha que o processo II seja duas vezes mais custoso
(por fusível) que o processo I, que custa C dólares por fusível. Admita-se, além
disso, que se um fusível durar menos que 200 horas, uma multa de K dólares seja
lançada sobre o fabricante. Qual processo deve ser empregado?
Soluçao:
O custo esperado por fusível para o processo I é dado por:
(
C se X > 200
CI =
C +K se X ≤ 200
Logo,
4
E(CII ) = 2C + K(1 − e− 3 )
93
Portanto,
4
E(CII ) − E(CI ) = C + K(e−2 − e− 3 ) = C − 0, 13K
É dito que uma v.a. X possui uma distribuição Gama com parâmetro α e β se X
possui uma distribuição contínua cuja f.d.p. é dada por:
(
β α α−1 −βx
Γ(α)
x e para x > 0
f (x) =
0 para x ≤ 0
A média e variância de uma v.a. X que possui uma distribuição Gama são dadas
por:
α
E(X) = (3.73)
β
α
V ar(X) = (3.74)
β2
Observação 1
A distribuição exponencial é um caso particular da distribuição Gama, quando α =
1.
Observação 2
Se as v.a. X1 , X2 , ..., Xk são independentes e se Xi possui uma distribuição Gama
com parâmetros αi e β (i = 1, 2, ..., k), então a soma de X1 + X2 + ... + Xk possui
uma distribuição Gama com parâmetros α1 + α2 + ... + αk e β.
94
onde:
= Cor(X1 , X2 )
Observação
X1 e X2 são independentes se e somente se forem não correlacionadas.
Diz-se que:
X1
X2
X=
..
.
Xn
onde:
µ é o vetor médias;
X
é a matriz de covariancia;
−1
X X
é a inversa de ;e
X X
| | é o determinante de .
95
e
µ = E(X)
X £ ¤
= E (X − µ)(X − µ)T
ou seja:
µi = E(Xi )
σij = E [(Xi − µi )(Xj − µj )]
96
CAPÍTULO 4
INFERÊNCIA ESTATÍSTICA
4.1 Introdução
4.1.2 Estatística
97
4.2.1 Método dos Momentos
0 0
Seja µr = E(X 4 ) o r-ésimo momento de X. Em geral, µr será uma função conhecida
dos parâmetros desconhecidos θ1 , θ2 , ..., θk .
0
Seja mr o r-ésimo momento amostral,i.e.,
k
0 1X r
mr = x (4.1)
n i=1 i
0
mj = µ0 j j = 1, 2, ..., k.
0
Obs: O primeiro momento amostral m1 é representado por x̄.
Exemplos:
2x − xµ2
f (x) = e para x > 0
µ
1√
E(X) = µπ
2
1p
µ̂π = x̄
2
Logo,
4x̄
µ̂ =
π
98
b) Determinar os estimadores dos momentos para os parâmetros µ e σ 2 da
distribuição Normal.
Solução
Sabemos que se uma v.a. X possui distriubição Normal com parâmetros
µ e σ 2 , então:
E(X) = µ
V ar(X) = σ 2
Como V ar(X) = E(X 2 ) − [E(X)]2 , seu segundo momento será
E(X 2 ) = σ 2 + µ2
µ̂ = x̄
Pn Pn
x2i i=1 (xi − x̄)2
σˆ2 = i=1 2
− x̄ =
n n
99
Os casos mais importantes que consideraremos são aqueles que X1 , X2 , ..., Xn
formam uma amostra aleatória de uma densidade f (x; θ), de tal modo que:
dL(θ)
=0 (4.2)
dθ
Além disso, L(θ) e log L(θ) possuem seus máximos para o mesmo valor de θ, e muitas
vezes é mais fácil encontrar o máximo do logaritmo da função de verossimilhança.
∂L(θ1 , θ2 , ..., θk )
= 0
∂θ1
∂L(θ1 , θ2 , ..., θk )
= 0
∂θ2
.. .. ..
. . .
∂L(θ1 , θ2 , ..., θk )
= 0
∂θk
Exemplo:
Determinar os estimadores dos parâmetros µ e σ 2 da distribuição Normal pelo
método de Máxima Verossimilhança.
Solução:
n
( µ ¶2 )
n n X 1 xi − µ
ln L(µ, σ 2 ) = − ln σ 2 − ln(2π) −
2 2 i=1
2 σ
100
n Pn
∂L(µ, σ 2 ) 1 X xi − nµ
= 2 (xi − µ) = i=1 2
∂µ σ i=1 σ
Analogamente,
Pn Pn
∂L(µ, σ 2 ) n i=1 (xi − µ)2 −nσ 2 + i=1 (xi − nµ)2
2
=− 2 + = =0
∂σ 2σ 2σ 4 2σ 4
Exemplo:
Vimos que os estimadores dos momentos e de máxima verossimilhança de µ e σ 2 da
distribuição normal são dados por:
µ̂ = x̄
Pn
i=1 (xi − x̄)2
σˆ2 =
n
101
4.4 A Distribuição χ2
0 para x ≤ 0
A média e variância de uma v.a. X que possui uma distribuição χ2 são dadas por:
E(X) = n (4.3)
V ar(X) = 2n (4.4)
Teorema 1:
Se as variáveis X1 , X2 , ..., Xk são independentes e se Xi possui uma distribuição χ2
com ni graus de liberdade (i = 1, 2, ..., k), então a soma X1 + X2 + ... + Xk possui
uma distribuição χ2 com n1 , n2 , ..., nk graus de liberdade.
Teorema 2:
Se as v.a. X1 , X2 , ..., Xk são independentes e identicamente distribuidas, cada uma
delas com distribuição normal padrão então a soma X12 + X22 +, ..., Xk2 possui uma
distribuição χ2 com k graus de liberdade.
Exemplo:
Suponha que X1 , X2 , ..., Xn formem uma amostra aleatória de uma distribuição
normal com média µ e variância σ 2 . Encontre a distribuição de
n(X̄ − µ)2
a)
σ2
Pn
i=1 (Xi − µ)2
b) .
σ2
Solução
102
a) Sabemos que
X̄ − µ
√ ~ N (0, 1)
σ/ n
Portanto,
(X̄ − µ)2
~ χ21
σ 2 /n
b) Temos que
Xi − µ
~ N (0, 1)
σ
Portanto,
(Xi − µ)2
~ χ21
σ2
Observação:
1. Se µ for substituido por X̄, então temos que
Pn
i=1 (Xi − X̄)2
~ χ2n−1 .
σ2
Ou seja,
Pn
(n − 1)s2 − X̄)2
i=1 (Xi
~ χ2n−1 , onde s = 2
σ2 n−1
103
da variãncia populacional. Além disto,
µ ¶
(n − 1)s2 (n − 1)2 2 2 2σ 4
V ar = 2(n − 1) ⇒ V ar(s ) = 2(n − 1) ⇒ V ar(s ) =
σ2 σ4 n−1
Exemplo:
Suponha que X1 , X2 , ..., Xn formem uma amostra aleatória de uma distribuição
normal com média µ e variância σ 2 . Supondo que n = 16, determine of valores
das seguintes probabilidades:
à n
!
σ2 1X
a) P ≤ (Xi − µ)2 ≤ 2σ 2
2 n i=1
à n
!
σ2 1X
b) P ≤ (Xi − X̄)2 ≤ 2σ 2
2 n i=1
Solução:
à n
! µ Pn ¶
σ2 1X n i=1 (Xi − µ)2
a) P ≤ (Xi − µ)2 ≤ 2σ 2 = P ≤ ≤ 2n
2 n i=1 2 σ2
¡ ¢
= P 8 ≤ χ216 ≤ 32
= 0, 99 − 0, 05 = 0, 94
à n
! µ Pn ¶
σ2 1X n i=1 (Xi − X̄)2
b) P ≤ (Xi − X̄)2 ≤ 2σ 2 = P ≤ ≤ 2n
2 n i=1 2 σ2
¡ ¢
= P 8 ≤ χ215 ≤ 32
= 0, 995 − 0, 10 = 0, 985
Considere duas v.a. independentes Y e Z tais que Y possua uma distribuição normal
padrão, e Z possua uma distribuição χ2 com n graus de liberdade. Suponha que uma
104
v.a. X seja definida por
Y
X = ¡ ¢1 (4.5)
Z 2
n
X̄ − µ
∼ ℵ(0, 1)
√σ
n
e
Pn
(Xi − X̄)2
∼ χ2n−1
σ2
Logo,
X̄−µ √
√σ
n n(X̄ − µ)
³ Pn 2
´ 21 = s
∼ tn−1 (4.6)
(Xi −X̄)
σ 2 (n−1)
Exemplo:
Suponha que X1 , X2 , ..., Xn formem uma amostra aleatória de uma distribuição
normal com média µ e variância σ 2 desconhecidos. Sejam X̄ e s2 respectivamente
a média e a variância amostral dos Xi ´s. Para um tamanho de amostra n = 16,
encontre o valor de k tal que:
µ √ ¶
(X̄ − µ) n √
P > k n = 0, 05
s
105
√
P (tn−1 > k n) = P (t15 > 4k) = 0, 05
Portanto,
Logo,
106
Pela definição da distribuição t-student, e considerando σA2 = σB2 = σ 2 , temos que:
4.6 Distribuição F
Considere duas v.a. independentes Y e Z tais que Y possua uma distribuição χ2 com
m graus de liberdade, e Z possua uma distribuição χ2 com n graus de liberdade.
Suponha que uma v.a. X seja definida por
Y /m nY
X= = (4.7)
Z/n mZ
Propriedade da distribuição F:
Se uma variável aleatória X possui uma distribuição F com com m e n graus de
liberdade, então 1/X possui uma distribuição F com com n e m graus de liberdade.
e
Pn
i=1 (Yi − Ȳ )2 (n − 1)s22
= ∼ χ2n−1
σ22 2
σ2
107
Logo,
s21 /σ12
∼ Fm−1,n−1 (4.8)
s22 /σ22
s21
∼ Fm−1,n−1 (4.9)
s22
Exemplo:
Suponha que uma amostra de tamanho 6 seja retirada de uma população
normalmente distribuída com média µ1 e variância 30, e que uma amostra de
tamanho 3 seja retirada de uma outra população normalmente distrbuída com
média µ2 e variância 76. Qual é a probabilidade de s21 > s22 ?
Solução:
µ ¶ µ 2 2 ¶
s21 s1 /σ1 σ22
P (s21 > s22 ) = P >1 =P > 2
s22 s22 /σ22 σ1
76
= P (F5,29 > ) = P (F5,29 > 2, 5) = 0, 05
30
X̄ − µ
√ ∼ ℵ(0, 1), (4.10)
σ/ n
108
ou seja
· ¸
σ σ
P X̄ − z α2 √ ≤ µ ≤ X̄ + z α2 √ = 1 − α. (4.11)
n n
σ
L1 = X̄ − z α2 · √ (4.12)
n
σ
L2 = X̄ + z α2 · √ , (4.13)
n
Exemplo:
Suponha que se extraia uma amostra de tamanho 35 de uma população com média
µ e desvio padrão conhecido e iqual a 3,90. Suponha que a média amostral seja 44,8.
Determinar um intervalo com 95% de confiança para µ.
Solução:
Temos que:
3, 90
L1 = 44, 8 − 1, 96 · √ = 43, 51 (4.14)
35
3, 90
L2 = 44, 8 + 1, 96 · √ = 46, 09. (4.15)
35
Logo, o intervalo com 95% de confiança para µ é [43, 51; 46, 09]
X̄ − µ
√ ∼ tn−1 , (4.16)
s/ n
109
ou seja
· ¸
s s
P X̄ − t α2 (n−1) √ ≤ µ ≤ X̄ + t α2 (n−1) √ = 1 − α. (4.17)
n n
Portanto o intervalo
µ ¶
s s
X̄ − t α2 (n−1) √ , X̄ + t α2 (n−1) √
n n
Exemplo:
Suponha que se extraia uma amostra de tamanho 25 de uma população com média
µ e desvio padrão desconhecido. Suponha que a média amostral seja 4,004 e o desvio
padrão amostral seja 0,366. Determinar intervalos com 95% e 99%de confiança para
µ.
Solução:
Temos que t0,025; 24 = 2, 064:
0, 366
L1 = 4, 004 − 2, 064 · √ = 3, 853 (4.18)
25
0, 366
L2 = 4, 004 + 2, 064 · √ = 4, 155 (4.19)
25
(4.20)
0, 366
L1 = 4, 004 − 2, 797 · √ = 3, 799 (4.21)
25
0, 366
L2 = 4, 004 + 2, 797 · √ = 4, 209 (4.22)
25
(4.23)
110
4.7.2 Intervalo de Confiança para a Variância Populacional σ 2
Vimos que
(n − 1)s2
∼ χ2n−1 . (4.24)
σ2
· ¸
2 (n − 1)s2 2
P χ(1− α ),[n−1] ≤ ≤ χ α ,[n−1] = 1 − α,
2 σ2 2
ou seja
" #
(n − 1)s2 2 (n − 1)s2
P ≤ σ ≤ = 1 − α. (4.25)
χ2α ,[n−1] χ2(1− α ),[n−1]
2 2
Portanto o intervalo
à !
(n − 1)s2 (n − 1)s2
,
χ2α ,[n−1] χ2(1− α ),[n−1]
2 2
Exemplo:
Suponha que seja retirada uma amostra de tamanho cinco de uma população
normalmente distribuida, e que se tenha encontrado uma variância amostral de 13,52.
Construa um intervalo com 95% de confiança para a variância populacional.
Solução:
Temos que χ20,975; 4 = 0, 484 e χ20,025; 4 = 11, 143. Portanto, os limites inferior e
superior do I.C. de 95% para σ 2 são:
111
(n − 1)s2 4(13, 52)
L2 = 2
= = 111, 74
χ(1− α ),[n−1] 0, 484
2
X̄1 − µ1
∼ ℵ(0, 1)
√σ1
n1
e
X̄2 − µ2
∼ ℵ(0, 1). (4.26)
√σ2
n2
Logo
112
confiança 1 − α é dado por
s
r
(x̄1 − x̄2 ) ± tα/2,[n1 +n2 −2] · (n1 − 1)s21
+ (n2 − 1)s22 1 1
· +
n1 + n2 − 2 n1 n2
Exemplo:
Uma amostra de 10 lâmpadas elétricas, da marca A, apresentou a vida média de
1400 horas e desvio padrão de 120 horas. Uma amostra de 20 lâmpadas elétricas,
da marca B, apresentou a vida média de 1200 horas e o desvio padrão de 100 horas.
Supondo que σA = σB , determinar os limites de confiança de a) 95% e b) 99% para
a diferença entre as vidas médias das populações das marcas A e B.
Solução:
a) Para 1 − α = 0, 95 tem-se que t0,025,28 = 2, 048. Portanto, o I.C. de 95% para
µA − µB será:
à r r !
9(120)2 + 19(100)2 1 1
(1400 − 1200) ± 2, 048 · · + = (200 ± 67, 77)
28 10 20
Ou seja,
Ou seja,
113
4.7.4 Intervalo de Confiança para Razão das Variâncias σ12 /σ22
Vimos que
s22 /σ22
∼ Fn2 −1,n1 −1 (4.29)
s21 /σ12
ou
· ¸
1 s2 σ2 s2
P · 12 ≤ 12 ≤ Fα/2,[n2 −1],[n1 −1] · 12 ∼ 1−α (4.31)
Fα/2,[n1 −1],[n2 −1] s2 σ2 s2
Exemplo:
Duas máquinas A e B produzem parafusos com o mesmo tamanho médio. Duas
amostras de tamanho nA = 61 e nB = 41 dos parafusos de A e B foram analisadas
e os desvios padrões amostrais foram s2A = 3, 5 mm e s2B = 4, 5 mm. Determine um
2
σA
intervalo de 95% de confiança para 2
σB
.
Solução:
Tem-se que F0,975,40,60 = 1/F0,025,60,40 = 1/1, 80 = 0, 556 e F0,025,40,60 = 1, 74.Logo,
· ¸
3, 5 σA2 3, 5
P 0, 556 · ≤ 2 ≤ 1, 74 · = 0, 95
4, 5 σB 4, 5
· ¸
σA2
P 0, 432 ≤ 2 ≤ 1, 353 = 0, 95
σB
114
Vimos que:
E(p̂) = p (4.32)
p(1 − p)
V ar(p̂) = (4.33)
n
115
CAPÍTULO 5
TESTES DE HIPÓTESES
H0 : θ ∈ Ω 0
H1 : θ ∈ Ω 1
Como Ω0 e Ω1 são disjuntos (Ω0 ∪ Ω1 = Ω), somente umas das hipóteses são
verdadeiras. O estatístico deve decidir se aceita H0 ou se aceita H1 . Um problema
desse tipo é chamado um problema de teste de hipóteses.
Suponha que antes de decidir se aceita ou não a hipótese nula, ele observa
~ =
uma amostra aleatória X1 , X2 , ..., Xn . Seja S o espaço amostral do vetor X
(X1 , X2 , ..., Xn ), isto é, S é o conjunto de todos os possíveis resultados da amostra.
117
O subconjunto para o qual H0 será rejeitada é chamada região crítica do teste.
O complemento da região crítica contem portanto todos os possíveis valores para o
qual H0 será aceita.
. H0 é verdadeira H0 é falsa
5.4.1 σ conhecido
H0 : µ = µ0
H1 : µ 6= µ0
118
1. Retira-se uma amostra de tamanho n e calcula-se X̄.
X̄ − µ0
Z= √
σ/ n
3. Sob a hipótese nula, tem-se que Z possui uma distribuição normal padrão.
Portanto,
5.4.2 σ desconhecido
H0 : µ = µ0
H1 : µ 6= µ0
Calcula-se a estatística
X̄ − µ0
t= √
s/ n
Sob a hipótese nula, tem-se que t possui uma distribuição t-Student com n − 1 graus
de liberdade. Portanto,
Aceita-se H0 se | t |≤ tα/2,[n−1]
Observação
Se os testes das seções (5.4.1 e 5.4.2) tiverem uma hipótese alternativa unilateral
(i.e. se H1 : µ > µ0 , ou H1 : µ < µ0 ) o teste deverá rejeitar unilateralmente (i.e. se
t > tα,[n−1] , ou t < −tα,[n−1] , respectivamente.)
119
Exemplos:
1. Uma máquina automática para encher pacotes de café enche-os segundo uma
distribuição normal, com média µ e variância sempre igual a 400 g 2 . A máquina
foi regulada para µ = 500g. Colhe-se, periodicamente uma amostra de 16 pacotes
para verificar se a produção está sob controle, isto é, se µ = 500g ou não. Se uma
dessas amostras apresentasse uma média amostral de 492 g, você pararia ou não a
produção para regular máquina, considerando o nível de significância de 1%? Para
quais valores de média amostral a máquina será regulada?
Solução:
As hipóteses são:
H0 : µ = 500
H1 : µ 6= 500
X̄ − µ0 492 − 500
z= √ = p = −1, 6
σ/ n 400/16
Aceita-se H0 se | z |< 2, 58
120
Solução:
As hipóteses são:
Como supõe-se que o desvio padrão não se tenha modificado, temos que σ = 100. A
estatística a ser calculada é:
X̄ − µ0 1850 − 1800
z= √ = √ = 3, 55
σ/ n 100/ 50
Aceita-se H0 se z < 2, 33
Portanto, rejeita-se H0 , e confirma-se a declaração.
3. Um fabricante afirma que seus cigarros contém não mais que 30 mg de nicotina.
Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Ao
nível de 5%, os dados refutam ou não a afirmação do fabricante?
Solução:
Neste caso, as hipóteses são:
H0 : µ = 30
H1 : µ > 30
Como não se conhece a variância populacional, e esta foi estimada pela amostra,
devemos utilizar a estatística t:
X̄ − µ0 31, 5 − 30
t= √ = √ = 2, 5
s/ n 3/ 25
121
5.5 Controlando o erro tipo II (β)
Vimos que o erro tipo I representa o erro de se rejeitar H0 quando ela é de fato
verdadeira. A probabilidade deste erro é α e é fixada e portanto controlada pelo
estatístico.
Temos também o erro tipo II (beta) que representa o erro de aceitar H0 quando ela
é falsa.
H0 : µ = µ0
H1 : µ = µ1
H0 : µ = 1800
H1 : µ = 1850
Vimos que o erro tipo I foi fixado em 0,01, supondo que H0 fosse verdadeira, isto é,
µ ¶
X̄ − µ
0, 01 = P (erro I) = P (Z ≥ 2, 33) = P √ ≥ 2, 33 | µ = 1800 =
σ/ n
µ ¶ µ ¶
X̄ − 1800 100
= P √ ≥ 2, 33 = P X̄ ≥ 1800 + 2, 33 √ =
100/ 50 50
¡ ¢
= P X̄ ≥ 1832, 95
122
Portanto, a probabilidade do erro tipo II será:
¡ ¢
β = P (erro II) = P X̄ < 1832, 95 | µ = 1850 =
µ ¶
X̄ − µ 1832, 95 − 1850
= P √ < √ = P (Z < −1, 206) ∼
= 0, 1131
σ/ n 100/ 50
O cálculo acima pode ser efetuado para vários valores de µ. Considerando-se β(µ) a
probabilidade de aceitar H0 como função de µ, isto é,
¡ ¢
β(µ) = P (aceitarH0 | µ) = P X̄ < 1832, 95 | µ ,
π(µ) = 1 − β(µ).
Suponha que uma variável seja normalmente distribuida com uma variância
desconhecida e se deseje efetuar o seguinte teste de hipóteses:
H0 : σ 2 = σ02
H1 : σ 2 6= σ02
Calcula-se a estatística
(n − 1)s2
X2 =
σ02
123
Observação
1. Se a hipótese alternativa fosse
H1 : σ 2 > σ02 ,
H1 : σ 2 < σ02 ,
Exemplo:
Uma das maneiras de manter sob controle a qualidade de um produto é controlar
a sua variabilidade. Uma máquina de encher pacotes de café está regulada para
enchê-los com média de 500 g e desvio padrão de 10 g. Colheu-se uma amostra de
16 pacotes e observou-se uma variância s2 = 169g 2 . Supondo que o peso de cada
pacote segue uma distribuição normal, você diria que a máquina está desregulada
com relação à variância?
Solução:
Deseja-se testar:
H0 : σ 2 = 100
H1 : σ 2 6= 100
(n − 1)s2 (15)(169)
X2 = 2
= = 25, 35
σ0 100
124
5.7 Teste da razão de variâncias
H0 : σ12 = σ22
H1 : σ12 6= σ22
(5.1)
ou, equivalentemente,
σ12
H0 : =1
σ22
σ2
H1 : 12 6= 1
σ2
(5.2)
O procedimento do teste é:
Calcula-se a estatística
s21
f= (5.3)
s22
1
≤ f ≤ Fα/2,[n1 −1],[n2 −1] (5.4)
Fα/2,[n2 −1],[n1 −1]
1
f< (5.5)
Fα/2,[n2 −1],[n1 −1]
ou
125
Exemplo:
Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma
categoria quanto à política salarial é por meio do desvio padrão de seus salários. A
fábrica A diz ser mais coerente na política salarial do que a fábrica B. Para verificar
essa afirmação, sorteou-se uma amostra de 10 funcionários não especializados de A,
e 15 de B, obtendo-se os desvios padrões sA = 1000 reais e sB = 1600 reais. Qual
seria a sua conclusão?
Solução:
A hipótese a ser testada é:
H0 : σA2 = σB2
H1 : σA2 6= σB2
(5.7)
Temos que:
s2A 1000
f= 2
= = 0, 667
sB 1500
1
≤ f ≤ F0,025,[9],[14] (5.8)
F0,025,[14],[9]
ou seja, se
1
≤ f ≤ 3, 12
3, 77
0, 27 ≤ f ≤ 3, 12
(5.9)
126
5.8 Teste da hipótese da igualdade de duas médias
H 0 : µ1 = µ2
H1 : µ1 6= µ2
Calcula-se a estatística
x̄1 − x̄2
Z=q 2 (5.10)
σ1 σ22
n1
+ n2
Sabemos que, sob a hipótese H0 , a variável Z possui uma distribuição normal padrão.
Portant, o procedimento do teste consiste em:
Suponha que a hipótese de igualdade de variâncias não seja rejeitada. Então podemos
supor que σ12 = σ22 , mas esta variância comum não é conhecida. Para efetuar o teste
de igualdade de médias, neste caso, procedemos da seguinte maneira:
Calcula-se a estatística
qx̄1 −x̄2
1
n
+ n1
t= q 1 2
(5.11)
(n1 −1)s21 +(n2 −1)s22
n1 +n2 −2
Como vimos anteriormente, esta estatística possui ima distribuição t-Student com
n1 + n2 − 2 graus de liberdade. Portanto,
127
5.8.3 σ12 e σ22 desconhecidas, mas σ12 6= σ22
Suponha que a hipótese de igualdade de variâncias tenha sido rejeitada. Neste caso,
devemos calcular a estatística
x̄1 − x̄2
t= q 2 (5.12)
s1 s2
n1
+ n22
(A + B)2
ν = A2 2 ,
n1 −1
+ nB2 −1
onde
s21 s22
A= , e B= .
n1 n2
Sendo este valor geralmente fracionário, costuma-se arredondar para o inteiro mais
próximo para obter o número de graus de liberdade.
Exemplos:
1. Uma amostra de 10 lâmpadas elétricas, da marca A, apresentou a vida média
de 1400 horas e uma amostra de 20 lâmpadas elétricas, da marca B, apresentou
a vida média de 1200 horas. Suponha que os desvios padrões populacionais dos
tempos de vida das lâmpadas das duas marcas sejam conhecidos e iguais a 120 e
100, respectivamente. Teste, ao nível de significância de 99%, a hipótese que as duas
marcas produzem lâmpadas com o mesmo tempo médio de vida.
Solução:
Queremos testar a hipótese:
H0 : µA = µB
H1 : µA 6= µB
128
Como estamos supondo que as variâncias são conhecidas, podemos usar a estatística
2. Duas técnicas de vendas são aplicadas por dois grupos de vendedores: a técnica
A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B
produza melhores resultados que a técnica A. No final de um mês, os vendedores
de A venderam uma média de 68 ítens, com uma variância de 50, enquanto que os
vendedores de B venderam uma média de 76 ítens com uma variância de 75. Testar,
ao nível de significância de 5%, se a técnica B é realmente melhor que a técnica A.
Solução:
Supondo que as vendas sejam normalmente distribuídas, vamos inicialmente testar
a hipótese de que as variâncias são iguais:
H0 : σA2 = σB2
H1 : σA2 6= σB2
Temos que:
s2A 50
f= 2
= = 0, 667
sB 75
1
≤ f ≤ F0,025,[11],[14] (5.14)
F0,025,[14],[11]
ou seja, se aproximadamente
1
≤ f ≤ 3, 06
3, 52
0, 28 ≤ f ≤ 3, 06
129
Logo, aceitamos H0 ao nível de significância de 0,05, e concluímos que as variâncias
são iguais.
H0 : µA = µB
H1 : µA < µB
Solução:
Vamos inicialmente testar a hipótese de que as variâncias são iguais:
H0 : σA2 = σB2
H1 : σA2 6= σB2
130
Temos que:
s2A 71, 6
f= 2
= = 0, 42
sB 169, 5
1
≤ f ≤ F0,05,[14],[19] (5.15)
F0,05,[19],[14]
ou seja, se aproximadamente
1
≤ f ≤ 2, 20
2, 33
0, 43 ≤ f ≤ 2, 20
H0 : µA = µB
H1 : µA 6= µB
O valor crítico deve ser encontrado pela tabela t-Student com graus de liberdade
dado por:
175, 51
ν= = 32, 46 ∼
= 32,
1, 627 + 3, 780
131
5.9 Teste para proporção
H0 : p = p0
H1 : p 6= p0
Calcula-se a estatística
p̂ − p0
Z=q (5.17)
p0 (1−p0 )
n
Exemplo:
Em uma experiência sobre percepção extra sensorial (PES), um indivíduo em uma
sala é solicitado a declarar a cor vermelha ou preta de uma carta escolhida, de
um baralho de 50 cartas, por outro indivíduo colocado em outra sala. O indivíduo
desconhece quantas cartas vermelhas ou pretas há no baralho. Se o sujeito identifica
corretamente 32 cartas, determinar se os resultados são significativos, ao nível de
significância de 5% e 1%.
Solução:
Queremos testar a hipótese:
32
Temos que p̂ = 50
= 0, 64. Calculamos a estatística
p̂ − p0 0, 64 − 0, 50
Z=q = q = 1, 98 (5.18)
p0 (1−p0 ) 0,502
n 50
132
Para o nível de significância de 0,01 o valor crítico será 2,33. Como o valor calculado
é menor que o valor crítico, aceitamos H0 , e concluímos que os resultados são devidos
ao acaso e que o indivíduo não tem faculdades de PES.
H0 : p1 = p2
H1 : p1 6= p2
Como
p1 q1 p2 q2 1 1
σp̂2A −p̂B = + = pq( + ) (sobH0 ) (5.20)
n1 n2 n1 n2
em que
n1 p̂1 + n2 p̂2
P = (5.21)
n1 + n2
p̂1 − p̂2
Z= (5.22)
σp̂1 −p̂2
e aceita-se H0 se | Z |≤ Zα/2
Exemplo:
Doi grupos, A e B, são formados, cada um por 100 pessoas que têm a mesma
enfermidade. É ministrado um soro ao grupo A, mas não ao B (denominado grupo de
controle); a todos os outros respeitos, os dois grupos são tratados de modo idêntico.
Determinou-se que 75 e 65 pessoas dos grupos A e B, respectivamente, curaram-se da
enfermidade. Testar a hipótese de que o soro auxilia a cura da enfermidade, adotado
o nível de significãncia de 0,01.
Solução:
Denominando de pA e pB as proporções populacionais curadas mediante o uso do
133
soro e sem o uso do soro, respectivamente, quereremos testar a hipótese
75 + 65
P = = 0, 70 (5.23)
200
1 1
σp̂21 −p̂2 = (0, 7)(0, 3)( + ) = 0, 0042 (5.24)
100 100
p̂A − p̂B 0, 75 − 0, 65
Z= = √ = 1, 543 (5.25)
σp̂A −p̂B 0, 0042
Exemplo
Suponha que 200 estudantes sejam selecionados aleatoriamente em uma universidade
e que cada estudante seja classificado de acordo com a sua área de estudo, e com
sua preferência entre dois canditados para uma próxima eleição (ver Tabela 5.2).
134
Quer-se tentar a hipótese de que as diferentes classificações são independentes, isto
é, que a preferência a uma certo candidato é independente da área de estudo (i.e.
a probabilidade de estar na área de estudo i e preferir o candidato j é igual a
probabilidade de estar em i vezes a probabilidade de preferir j.
C
X L
X
Pi = Pij e Pj = Pij (5.26)
j=1 i=1
Observe que:
L X
X C L
X C
X
Pij = Pi• = P•j = 1 (5.27)
i=1 j=1 i=1 j=1
Suponha agora que uma amostra de n individuos seja retirada da população. Para
i = 1, 2, 3, ..., L, e j = 1, 2, 3, ..., C, seja Nij o número de individuos classificados
na i-ésima linha e j-ésima coluna. Além disso, seja Ni• o número de individuos
classificados na i-ésima linha e N•j o número total de individuos classificados na
j-ésima coluna.
C
X L
X
Ni• = Nij e N•j = Nij (5.28)
j=1 i=1
Observe que
L X
X C L
X C
X
Nij = Ni• = N•j = n (5.29)
i=1 j=1 i=1 j=1
135
Com base nessas observações, as seguintes hipóteses serão testadas:
O teste χ2 pode ser usado para testar essa hipótese. Cada individuo na população
deve pertencer a uma das L · C celulas da tabela de contingência. Sob a hipótese
H0 , as probabilidades desconhecidas Pij dessas celulas foram expressas em função
PL PC
dos parâmetros desconhecidos Pi• e P•j . Como i=1 Pi• = 1 e j=1 P•j = 1, o
número de parâmetros desconhecidos a serem estimados quando H0 é verdadeiro é
(L − 1) + (C − 1), ou L + C − 2.
L X
X C
(Nij − Êij )2
Q= (5.30)
i=1 j=1 Êij
A hipótese nula será rejeitada quando Q > cα , onde cα é obtido na tabela χ2 com
(L − 1)(C − 1) graus de liberdade.
136
Para o exemplo dado, N1• = 59; N2• = 48, N3• = 38; N4• = 55 e N•1 = 92, N•2 = 64,
N•3 = 44.
Como n = 200, os valores (ver Tabela 5.3) Êij são dados por
Para α = 0, 005, tem-se que cα = 12, 59, e portanto não há nenhuma evidência que
H0 não seja verdadeira.
137
CAPÍTULO 6
ANÁLISE DE VARIÂNCIA
6.1 Introdução
H0 : µ1 = µ2 = µ3 = . . . = µk
H1 : pelo menos duas médias são diferentes
139
Vamos estudar experimentos de um e de dois fatores (poderiam até ser mais do
que dois), em função do número de variáveis envolvidas no problema. Se além das
diferentes variedades de trigo sendo testadas estivéssemos também interessados em
investigar o efeito de diferentes tipos de de fertilizantes na produtividade, então
deixaríamos de ter um experimento de um só fator e passaríamos a estar envolvidos
com um experimento de dois fatores.
H0 : µ1 = µ2 = µ3 = . . . = µk
H1 : pelo menos duas médias são diferentes
Para tal, amostras aleatórias de tamanho n são selecionadas de cada uma das k
populações. Supõe-se que as k populações são independentes e normalmente
distribuídas com médias µ1 , µ2 , µ3 , . . . , µk e com mesma variância σ 2 .
140
onde
n
X
Ti· = yij
j=1
Pn
j=1 yij
ȳi· = .
n
k X
X n k
X
T·· = yij = Ti·
i=1 j=1 i=1
Pk Pn Pk
i=1 j=1 yij i=1 ȳi·
ȳ·· = = .
nk k
141
Fig. 6.1 – Distribuições normais com mesma variância (σ 2 ) para todas as
populações
Fig. 6.2 – Distribuições normais com mesma média (µ) para todas as populações
Uma forma alternativa para escrever a equação (6.1) é obtida substituindo-se µi por
µ + αi , onde µ é definida como sendo a média de todos os µi .
H0 : α1 = α2 = α3 = . . . = αk = 0
H1 : pelo menos um dos αi não é zero.
142
n.k é dado pela fórmula:
Xk X n
(yij − ȳ·· )2
s2 =
i=1 j=1
nk − 1
Teorema:
k X
X n k
X k X
X n
2 2
(yij − ȳ·· ) = n (ȳi· − ȳ·· ) + (yij − ȳi· )2
i=1 j=1 i=1 i=1 j=1
Muitos autores referem-se à soma dos quadrados para as colunas como soma dos
quadrados dos tratamentos. Esta terminologia é derivada do fato que as k diferentes
populações são frequentemente classificadas de acordo com diferentes tratamentos.
Uma estimativa de σ 2 , baseada em (k − 1) graus de liberdade é dada por:
SSC
s21 =
k−1
143
Uma segunda estimativa de σ 2 , baseada em k(n − 1) graus de liberdade é dada por:
SSE
s22 =
k(n − 1)
Vimos também que a variância dos dados agrupados, com nk − 1 graus de liberdade,
é:
SST
s2 =
nk − 1
nk − 1 = (k − 1) + k(n − 1)
Vamos encontrar agora, o valor esperado das variações expressas pelo Teorema.
Tomando a variação dentro das colunas (SSE), temos:
k X
n k Pn
X X j=1 (yij − ȳi· )2
2
SSE = (yij − ȳi· ) = (n − 1)
i=1 j=1 i=1
n−1
Pn 2
j=1 (yij −ȳi· )
Mas n−1
representa a variância amostral do tratamento i (s2i ), que é um
estimador não tendencioso de σi2 . Assim,
k
X
SSE = (n − 1)s2i
i=1
Entretanto, como se supõe que as variâncias dos k tratamentos são iguais, então:
E(SSE) = (n − 1)kσ 2
144
Ou seja,
µ ¶
SSE
E = E(s22 ) = σ 2
(n − 1)k
SSE
Assim sendo, s22 = (n−1)k
é um estimador não tendencioso de σ 2 .
k
X k
X k
X k
X
2
SSC = n (ȳi· − ȳ·· ) = n ȳi·2 − 2nȳ·· ȳi· + n ȳ··2
i=1 i=1 i=1 i=1
k
X k
X k
X
= n ȳi·2 − 2nȳ·· ȳi· + nkȳ··2 = n ȳi·2 − 2nȳ·· kȳ·· + nk ȳ··2
i=1 i=1 i=1
Xk
= n ȳi·2 − nk ȳ··2
i=1
Portanto,
à k
! k
X X ¡ ¢ ¡ ¢
E(SSC) = E n ȳi·2 − nk ȳ··2 =n E ȳi·2 − nkE ȳ··2
i=1 i=1
k
X £ ¤ £ ¤
E(SSC) = n V ar (ȳi· ) + E 2 (ȳi· ) − nk V ar (ȳ·· ) + E 2 (ȳ·· )
i=1
σi2 σ2
V ar (ȳi· ) = = pois σi2 = σ 2 para i = 1, 2, . . . , k.
n n
E (ȳi· ) = µi = µ + αi
145
σ2
V ar (ȳ·· ) =
nk
E (ȳ·· ) = µ
Então
k · 2
X ¸ ¸ ·
σ σ2 2 2
E(SSC) = n + (µ + αi ) − nk +µ
i=1
n nk
Xk · 2 ¸
σ
= n + µ + 2µαi + αi − σ 2 − nkµ2
2 2
i=1
n
k
X k
X
2 2
= kσ + nkµ + 2nµ αi + n αi2 − σ 2 − nkµ2
i=1 i=1
k
X
= σ 2 (k − 1) + n αi2
i=1
Assim,
µ ¶ k
X
SSC
E = E(s21 ) = σ 2 + n(k − 1) αi2
k−1 i=1
SSC
Ou seja, temos que s21 = k−1
será um estimador tendencioso de σ 2 , superestimando
σ 2 , a não ser que a hipótese nula seja verdadeira, isto é, se todos os αi = 0.
s21
f= 2
s2
possui uma distribuição F com (k − 1) e k(n − 1) graus de liberdade. Uma vez que
s21 superestima quando H0 é falsa, teremos um teste unilateral com a região crítica
interamente na cauda direita da distribuição. A hipótese nula é rejeitada ao nível de
significância α quando
f > Fα,(k−1),k(n−1)
146
Em geral, calcula-se SST e SSC primeiro e daí, fazendo uso da identidade da soma
dos quadrados obtem-se SSE = SST - SSC.
As fórmulas definidas anteriormente para o cômputo de SST e SSC não são as mais
simples para se utilizar. Fórmulas alternativas preferenciais à elas são:
k X
X n
T··2
SST = yij2 −
i=1 j=1
nk
Pk
i=1 Ti·2 T··2
SSC = −
n nk
147
Os cálculos para um problema de análise de variância de um fator são geralmente
sumarizados em forma de uma tabela, chamada Tabela ANOVA, como mostrado
abaixo:
TABELA ANOVA
SSE s21
Resíduo SSE k(n − 1) s22 = k(n−1)
f= s22
Total SST nk − 1
Exemplo:
Os dados da tabela abaixo representam 5 amostras, cada uma de tamanho n=5,
tiradas de distribuições normais independentes com médias µ1 , µ2 , µ3 , µ4 , µ5 e
variância comum σ 2 . Testar a hipótese de que as médias são iguais, ao nível de
significância de 5%.
População
A B C D E
5 9 3 2 7
4 7 5 3 6
8 8 2 4 9
6 6 3 1 4
3 9 7 4 7
Total 26 39 20 14 33 132
Média 5,2 7,8 4,0 2,8 6,6 5,28
Solução:
Deseja-se testar a hipótese:
H0 : µ1 = µ2 = µ3 = µ4 = µ5
H1 : pelo menos duas médias são diferentes
148
Tem-se que:
k X
X n
T··2
SST = yij2 −
i=1 j=1
nk
1322
= 5 2 + 4 2 + . . . + 42 + 72 −
25
= 834 − 696, 96 = 137, 040
(6.3)
Pk
i=1 Ti·2
T··2
SSC = −
n nk
262 + 392 + 202 + 142 + 332 1322
= −
5 25
= 776, 400 − 696, 960 = 79, 440
(6.4)
SSE = SST − SSC = 37, 040 − 79, 470 = 57, 600
k X
X n
T··2
SST = yij2 −
i=1 j=1
N
k
X T2 i· T··2
SSC = −
i=1
ni N
149
6.3 Teste para Igualdade de Várias Variâncias
Como a análise de variância supõe que as variâncias das populações são iguais
(suposição de homocedasticidade) pode-se, antes de efetuar o teste de igualdade
de médias, testar a hipótese:
Um dos testes mais utilizados é o teste de Bartlett, baseado em uma estatística cuja
distribuição amostral é aproximadamente χ2 quando as k amostras aleatórias são
retiradas de populações nomais independentes.
Primeiro calcula-se as k variâncias amostrais, s21 , s22 , s23 , . . . , s2k das amostras de
Pk
tamanho n1 , n2 , n3 , . . . , nk , com i=1 ni = N . Depois disto combinam-se as
variâncias amostrais para fornecer a estimativa:
Pk
− 1)s2i
i=1 (ni
s2p =
N −k
Calcula-se também
q
b = 2, 3026
h
onde
k
X
q = (N − k) log s2p − (ni − 1) log s2i
i=1
" k #
1 X 1 1
h=1+ −
3(k − 1) i=1 ni − 1 N − k
b > χ2α,k−1
150
Exemplo:
Use o teste de Bartlett para testar a hipótese de que as variâncias das três populações
abaixo são iguais:
Amostra
A B C
4 5 8
7 1 6
6 3 8
6 5 9
3 5
4
Total 23 21 36 80
Solução:
Deseja-se testar a hipótese:
Assim,
151
6.4 Análise de Variância de Dois Fatores
Sob a suposição de aditividade dos efeitos dos fatores, isto é, supondo que cada
média µij pode ser obtida pela adição dos respectivos efeitos dos fatores A e B à
média global µ, o modelo para a análise de dois fatores se torna:
µij = µ + αi + βj (6.7)
152
onde
P P
SST = ri=1 cj=1 (yij − ȳ·· )2 = soma total de quadrados
Pr
SSR = c i=1 (ȳi· − ȳ·· )2 = soma dos quadrados para as médias das linhas (rows)
Pc 2
SSC = r j=1 (ȳ·j −ȳ·· ) = soma dos quadrados para as médias das colunas(columns)
Pr Pc
SSE = i=1 j=1 (yij − ȳi· − ȳ·j + ȳ·· )2 = soma dos quadrados dos erros.
SSR
s21 =
r−1
α1 = α2 = . . . = αr = 0
SSC
s22 =
c−1
Este estimador é não tendencioso se os efeitos das colunas (fator B) forem iguais a
zero, isto é, se:
β1 = β2 = . . . = βc = 0
Caso contrário, SSC também terá um valor numérico maior e s22 superestima σ 2 .
SSE
s23 =
(r − 1)(c − 1)
Este estimador é sempre não tendencioso, independente de haver ou não efeito das
linhas ou colunas.
153
Para testar a hipótese nula de que os efeitos das linhas são todos zeros, isto é:
H0 : α1 = α2 = . . . = αr = 0
H1 : pelo menos um dos αi não é zero,
calculamos a estatística
s21
f1 = ,
s23
Similarmente, para testar a hipótese nula de que os efeitos das colunas são todos
zeros, isto é:
H0 : β1 = β2 = . . . = βr = 0
H1 : pelo menos um dos βj não é zero,
calculamos a estatística
s22
f2 = ,
s23
Para efetuar os cálculos de uma análise de variância, em geral calculamos SST, SSR
e SSC, e obtemos SSE por subtração:
154
Fórmulas alternativas para as quantidades SST, SSR e SSC são:
r X
X c
T··2
SST = yij2 −
i=1 j=1
rc
Pr
i=1 Ti·2
T··2
SSR = −
Pc c 2 rc
j=1 T·j T2
SSC = − ··
r rc
TABELA ANOVA
Total SST rc − 1
Exemplo:
A tabela abaixo apresenta os resultados da safra média de trigo, para três variedades
0
de trigo e quatro tipos de fertilizantes. Teste a hipótese H0 de que não há diferença
na safra média de trigo quando diferentes tipos de fertilizantes são utilizados. Teste
00
também a hipótese H0 de que não há diferença na safra média de trigo quando
diferentes variedades de trigo são utilizadas.
Variedades de Trigo
Fertilizante V1 V2 V3 Total
F1 64 72 74 210
F2 55 57 47 159
F3 59 66 58 183
F4 58 57 53 168
Total 236 252 232 720
155
Solução: Para testar se os fertilizantes têm efeitos diferentes sobre a safra média de
trigo, precisa-se testar a hipótese de que:
0
H0 : α1 = α2 = α3 = α4 = 0
0
H1 : pelo menos um dos αi não é zero,
Para testar se as variedades de trigo têm efeitos diferentes sobre a safra média,
precisa-se testar a hipótese de que:
00
H0 : β1 = β2 = β3 = 0
00
H1 : pelo menos um dos βj não é zero,
TABELA ANOVA
156
6.5 Análise de Variância de Dois Fatores - Várias observações por cela
Na seção anterior foi suposto que os efeitos das linhas e colunas eram aditivos. Isto
é equivalente a dizer que
ou
0 0
para qualquer valor i, i , j, j . Isto é, a diferença entre as médias populacionais das
0
colunas j e j é a mesma para cada linha e a diferença entre as médias populacionais
0
para as linhas colunas i e i é a mesma para cada coluna. Referindo-se à tabela do
exemplo anterior, isto implica que se a variedade V2 produz em média 5 toneladas
de trigo por acre a mais que a variedade V1 quando o fertilizante F1 é usado, então
V2 produzirá em média 5 toneladas a mais que V1 se os fertilizants F2 , F3 ou F4
forem usados. Da mesma forma, se V1 produz em média 3 toneladas a mais por
acre, quando o fertilizante F4 é utilizado ao invés de F2 , então V2 ou V3 produzirão
em média 3 toneladas a mais por acre usando o fertilizante F4 ao invés de F2 . Isto
é exemplificado nas Figuras 6.3 e 6.4 abaixo, quando notamos que as curvas são
paralelas.
157
Fig. 6.4 – Efeitos de fertilizantes e variedades de trigo, sem interação
Para testar as diferenças entre as médias das linhas e colunas quando a interação
é um fator importante, consideramos a variação de medidas tomadas sob situações
semelhantes, ou seja consideramos a replicações dos experimentos.
158
Tabela dos dados em um experimento com dois fatores, e replicações
c X
X n
Ti·· = yijk (soma das observações na i-ésima linha)
j=1 k=1
r X
X n
T·j· = yijk (soma das observações na j-ésima coluna)
i=1 k=1
r X
X c X
n
T··· = yijk (soma de todas as rcn)
i=1 j=1 k=1
159
Pn
k=1 yijk Tij·
ȳij· = = (média das observações na cela (i, j))
n n
Pc Pn
j=1 k=1 yijk Ti··
ȳi·· = = (média das observações na i-ésima linha)
cn cn
Pr Pn
i=1 k=1 yijk T·j·
ȳ·j· = = (média das observações na j-ésima coluna)
rn rn
PP
T·j·
ȳ·j· = = (média das observações na j-ésima coluna)
rn rn
Pr Pc Pn
i=1 j=1 k=1 yijk T···
ȳ··· = = (média de todas as rcn)
rcn rcn
Se denotarmos por γij o efeito de interação da i-ésima linha e j-ésima coluna, por αi
o efeito da i-ésima linha, por βj o efeito da j-ésima coluna, e por µ a média global,
podemos escrever:
µij = µ + αi + βj + γij
e então,
160
As três hipóteses a serem testadas são:
H0 : α1 = α2 = . . . = αr = 0
H1 : pelo menos um dos αi não é zero.
0
H0 : β1 = β2 = . . . = βc = 0
0
H1 : pelo menos um dos βj não é zero.
00
H0 : γ11 = γ12 = . . . = γrc = 0
00
H1 : pelo menos um dos γij não é zero.
onde
r
X
SSR = cn (ȳi·· − ȳ··· )2 = soma de quadrados das médias das linhas
i=1
c
X
SSC = rn (ȳ·j· − ȳ··· )2 = soma de quadrados das médias das colunas
j=1
r X
X c
SS(RC) = n (ȳij· − ȳi·· − ȳ·j· + ȳ··· )2 = soma de quadrados para a interação
i=1 j=1
de linhas e colunas
Xr X c Xn
SSE = (yijk − ȳij· )2 = soma de quadrados dos erros
i=1 j=1 k=1
161
Os graus de liberdade são particionados segundo a relação:
Da mesma forma que antes, através da divisão das somas de quadrados pelos graus de
liberdade correspondentes obtém-se quatro estimativas independentes de σ 2 , todas
0 00
não tendenciosas desde que as hipóteses H0 , H0 , e H0 sejam verdadeiras.
0
rejeita-se H0 se f2 > Fα; (c−1); rc(n−1)
00
rejeita-se H0 se f3 > Fα; (r−1)(c−1); rc(n−1)
162
cela podem ser resumidos em uma tabela ANOVA, da seguinte maneira:
TABELA ANOVA
Exemplo:
Utilizando os dados a seguir, teste as hipóteses abaixo, utilizando nível de
significância de 5%:
Exemplo:
Solução:
163
As três hipóteses a serem testadas são:
H0 : α1 = α2 = α3 = α3 = 0
H1 : pelo menos um dos αi não é zero.
0
H0 : β1 = β2 = β3 = 0
0
H1 : pelo menos um dos βj não é zero.
00
H0 : γ11 = γ12 = . . . = γ43 = 0
00
H1 : pelo menos um dos γij não é zero.
2 2 21102
2
SST = 64 + 66 + . . . + 38 − = 3779
36
164
Estes resultados são resumidos na tabela ANOVA:
TABELA ANOVA
Total 3779 35
0
rejeita-se H0 se f2 > F0,05; 2; 24 = 3, 40
00
rejeita-se H0 se f3 > F0,05; 6; 24 = 2, 51.
Portanto, a conclusão é:
165