146546-Apostila Viti Horti
146546-Apostila Viti Horti
146546-Apostila Viti Horti
1
PROGRAMA
2
INTRODUÇÃO
Existe um consenso por parte dos estudiosos de várias áreas que
há uma grande demanda na sociedade atual por um cidadão que
compreenda estatística, que seja capaz de consumir e pensar
criticamente sobre as informações diárias que recebe, exercendo
boas decisões baseadas nestas informações.
A Estatística hoje se configura como uma das ciências que mais
vem crescendo em termos de utilização e importância. Diariamente somos ―soterrados‖ por
informações estatísticas: são estatísticas da saúde, estatísticas da segurança, estatísticas da
educação, etc., não há como qualquer cidadão fugir de tanta informação. A quantidade enorme
de dados é o que caracteriza o mundo atual, cada vez mais necessitamos de informações, saber
como obtê-las e como entendê-las é fundamental para qualquer indivíduo, pois este deve ser
capaz de fazer uma análise crítica dos dados possibilitando uma tomada de decisões mais
consciente.
A relevância e as justificativas para o estudo da estatística são inúmeras, o que agora,
neste momento, entra em debate são as questões referentes as quais habilidades e
competências estatísticas que devem ser trabalhadas com os alunos. Esta competência
estatística se refere ao conhecimento básico do raciocínio e do propósito da estatística. Um
cidadão "estatisticamente competente" seria aquele que possui a habilidade para interagir
como uma pessoa "educada" na atual era da informação. Esta competência estatística pode
também ser definida como a habilidade para compreender e avaliar criticamente resultados
estatísticos que permeiam nossas vidas diárias – junto à habilidade para reconhecer a
contribuição que o pensamento estatístico pode trazer para as decisões públicas e privadas,
profissionais e pessoais.
Este material tem como objetivo apresentar os principais conceitos de estatística
fornecendo ao aluno uma formação básica sobre a utilização das principais ferramentas
estatísticas em sua área.
3
1 CONCEITOS INICIAIS
O que é Estatística?
A palavra estatística surge da expressão em Latim statisticum
collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em
língua italiana statista, que significa "homem de estado", ou político, e a
palavra alemã Statistik, designando a análise de dados sobre o Estado. A
palavra adquiriu um significado de coleta e classificação de dados, no início
do século 19.
Conhecida como ciência que dispõe de processos apropriados para coletar, organizar,
classificar, apresentar e interpretar conjuntos de dados. Quando esses dados são relacionados
à área biológica, chamamos de Bioestatística.
A seguir serão apresentadas algumas definições de Estatística:
"A Estatística é um ramo da Matemática que tem por objetivo obter, organizar
e analisar dados, determinar as correlações que apresentem, tirando delas
suas consequências para descrição e explicação do que passou e previsão e
organização do futuro".
"A Estatística está presente em todas as áreas da ciência que envolvem a coleta
e análise de dados e sua conseqüente transformação em informação, para
postular, refutar ou validar hipóteses científicas sobre um fenômeno
observável. Sendo assim, a Estatística pode ser pensada como a ciência de
aprendizagem a partir de dados. Em linhas gerais, podemos dizer que a
Estatística fornece técnicas e métodos de análise de dados que auxiliam o
processo de tomada de decisão nos mais variados problemas onde existe
incerteza. Em função disto, fica evidente que os métodos estatísticos podem ser
empregados em praticamente todas as áreas do conhecimento, sempre que
estiver envolvida a coleta ou análise de dados."
4
Qual é o papel da estatística na ciência?
De acordo com Silvia E. Shimakura o papel da estatística na ciência poderia ser descrito
através dos seguintes tópicos:
Na ciência, são realizados estudos experimentais ou observacionais, levando à coleção
de dados numéricos.
O propósito da investigação é responder uma questão científica.
O padrão de variação nos dados faz com que a resposta não seja óbvia.
Em geral, a disciplina de estatística refere-se a métodos para coleta e descrição dos
dados, e então a verificação da força da evidência nos dados pró ou contra as idéias
científicas. A presença de uma variação não previsível nos dados faz disso uma tarefa
pouco trivial.
VARIAÇÃO
As pessoas diferem nas respostas ao mesmo estímulo, nas respostas a um tratamento ou
em seus sintomas.
Diagnósticos são frequentemente probabilísticos.
INCERTEZA
Desconhecemos o todo quando examinamos uma parte.
O futuro é incerto.
OBJETIVO DA ESTATÍSTICA
5
Divisão da estatística
Estatística geral
Visa elaborar métodos gerais aplicáveis a todas as fases do estudo dos fenômenos de
massa. A estatística matemática é a parte da estatística geral que tem por finalidade o estudo
das propriedades matemáticas dos fenômenos de massa e a dedução e demonstração rigorosa
dos procedimentos e fórmulas usadas. A estatística geral ainda pode ser dividida em dois
grandes campos:
Estatística descritiva
Teoria da probabilidade
Proporciona uma base racional para lidar com situações influenciadas por fatores que
envolvem o acaso.
6
Estatística aplicada
Pesquisa Estatística
7
QUALITATIVA X QUANTITATIVA
Uma pesquisa é composta por quatro etapas distintas. Destas etapas nas três últimas
(planejamento, execução e comunicação dos resultados) a estatística surge como uma
importante ferramenta de suporte para o pesquisador.
PESQUISA QUANTITATIVA
Reconhecimento e formulação
do problema de pesquisa
ESTATÍSTICA
Planejamento da pesquisa
(amostra, variáveis,
questionários,...)
Execução da pesquisa (campo)
Comunicação dos resultados
Finalidade da Pesquisa
Tipos de Pesquisas
Pesquisa Bibliográfica
9
Procura por material já elaborado.
Pesquisa documental
Pesquisa experimental
Algumas definições
População e Amostra
10
EXEMPLOS:
1º - Para saber o fator Rh do grupo sanguíneo de um determinado paciente, não é preciso
coletar todo o sangue dele, e sim, apenas uma amostra.
2º - Para ver se um bolo de chocolate é gostoso, não precisamos comer todo o bolo, basta
provar uma fatia dele.
de qualidade de fósforos).
Censo
É a coleção de dados relativos a todos os elementos da população.
Amostragem
Coleção de dados relativos a elementos de uma amostra.
Parâmetro
Medida numérica que descreve uma característica de uma população.
Estatística
Medida numérica que descreve uma característica de uma amostra.
Dados estatísticos
11
Tabela: Exemplos de dados disponíveis nos registros internos das empresas
Fonte Dados Tipicamente Disponíveis
Nome, endereço, número de seguro social, número de
Registros de funcionários dias de férias, número de dias dedicados a tratamento
de saúde e bonificações.
Número de peças ou produtos, quantidade produzida,
Registros de produção
custo de mão-de-obra e custo de matérias-primas.
Número de peças ou produtos, número de unidades
Registros de estoques disponíveis, nível de reencomenda, lote econômico de
compra e programa de descontos.
Número do produto, volume de vendas, volume de
Registros de vendas vendas por região e volume de vendas por tipo de
cliente.
Nome do cliente, endereço, número telefônico, limite
Registros de crédito
de crédito e saldo de contas a receber.
Idade, sexo, nível de renda, tamanho da família,
Perfil do Cliente
endereço e preferências.
Variável
Uma variável é uma característica de uma população que difere de um indivíduo para outro e
da qual temos interesse em estudar. Cada unidade (membro) da população que é escolhido como parte
de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações.
É representada por símbolos como por exemplo, X, Y, Z, ..., que pode assumir resultados de um
conjunto, que lhe são atribuídos, conjunto este chamado domínio da variável. Se a variável pode
assumir somente um valor, ela é denominada constante.
Exemplo de variáveis:
Idade;
Sexo;
Escolaridade;
Temperatura;
Altura;
Porcentagem de brotação;
Número de brotos;
Comprimento de brotos;
Produção de massa verde para a indústria;
Sobrevivência das erveiras decepadas.
12
Classificação das variáveis selecionadas para o estudo
Tipos de variáveis
Uma variável é uma característica de uma população que difere de um indivíduo para outro e
da qual temos interesse em estudar. Cada unidade (membro) da população que é escolhido
como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas
observações.
14
Exercício 1: Determine o nível de mensuração mais adequado em cada caso:
Exercício 2: Um curso de Viticultura e Enologia tem 120 alunos. Foi realizada uma pesquisa
com 30% dos alunos deste curso com o objetivo de verificar qual o tempo gasto na internet
para atender a suas necessidades de estudo, pesquisa e trabalhos escolares.
a) Identifique a variável, a população e o número de elementos da amostra.
b) Especifique se a variável é qualitativa, quantitativa discreta ou quantitativa contínua.
15
Exercício 5: Tesourópolis está preocupada em melhorar a sinalização de suas ruas. Para tanto,
selecionou 25 ruas para fazer a checagem da sinalização. a) Identifique a variável, a população
e o número de elementos da amostra. b) Especifique se a variável é qualitativa ou quantitativa.
Degustação de vinhos:
a) Visão: brilhante, límpido, tranquilo, carbônico, efeito Marangoni (lágrima).
b) Aspecto negativo: Cor fraca, opalescente, velado, turvo.
c) Cor: tinto – rubi, púrpura, azulado, acastanhado, claro, vivo, granada, atijolado,
Alaranjado, violáceo.
g) Acidez: Neutro, pouco ácido, harmônico, fresco, muito ácido, magro, vazio,
desarmônico, sápido, verde, vivo.
k) % de açúcar no vinho.
16
Arredondamento de dados
Regras de arredondamento
Quando o primeiro algarismo após aquele que será arredondado for 0, 1, 2, 3, 4, conserva-
se o algarismo a ser arredondado e desprezam-se os seguintes;
Quando o primeiro algarismo após aquele que será arredondado for 6, 7, 8, 9 ou 5, este
último seguido de outros algarismos, onde pelo menos, um é diferente de zero, aumenta-se
uma unidade no algarismo a ser arredondado e desprezam-se os seguintes;
Quando o primeiro algarismo após aquele que será arredondado for 5, seguido de zeros,
conserva-se o algarismo a ser arredondado se ele for par, ou aumenta-se uma unidade, se
ele for ímpar, desprezando os seguintes.
Par 5 Ímpar
Conserva Soma uma unidade
0, 1, 2, 3 ou 4 6, 7, 8, 9 ou 5+
18
por meio de uma análise estatística. Esta, por sua vez, depende de como foi instalado o
experimento, ou seja, de como as observações foram obtidas. Com isso podemos verificar a
grande importância de um bom planejamento inicial do experimento, fase esta chamada de
planejamento estatístico do experimento.
Planejamento de experimento e análise estatística são feitos em sequência e estão
intimamente ligados. No planejamento do experimento, é importante a participação de
especialistas de diversas áreas, pois quanto maior o conhecimento adquirido, melhor o
entendimento sobre o fenômeno em estudo, o que facilitará a solução final do problema.
―Por delineamento estatístico de experimento, entendemos o processo de planejamento
do experimento, de tal forma que os dados obtidos possam ser analisados através de métodos
estatísticos, resultando em conclusões válidas e objetivas" (MONTGOMERY, 2005, pág. 11).
19
PROJETO DE PESQUISA
De uma forma simplificada, as seguintes etapas devem ser seguidas na realização de qualquer
investigação:
20
PROJETO 1. Recuperação de ervais nativos através da decepa
3. Objetivos específicos.
Verificar a capacidade e comprimento de brotação;
estudar a produção de massa verde;
verificar a sobrevivência das erveiras decepadas.
7. Escolha das variáveis que serão medidas nas unidades experimentais. As variáveis são
preestabelecidas pelos pesquisadores e devem medir diretamente os efeitos de tratamentos de
acordo com os objetivos do trabalho. Algumas variáveis medidas neste experimento são:
porcentagem de brotação, número de brotos, comprimento dos brotos, produção de massa
verde para a indústria e sobrevivência das erveiras decepadas. O importante é que os dados
devem ser objetivos, precisos e verdadeiros.
8. Coleta dos dados. Aqui são feitas as medidas das variáveis estabelecidas pelo pesquisador.
Também podem ser coletadas variáveis complementares, que poderão ser úteis para
explicar o comportamento dos tratamentos.
10. Análise estatística dos dados. O objetivo da análise estatística é verificar as hipóteses
científicas formuladas no início da pesquisa, expressas em termos estatísticos (hipóteses
estatísticas). Por exemplo, as medidas de produção de massa foliar obtidas com cada uma das
alturas de decepa das plantas pode ser representada por um modelo linear, como, por exemplo
a equação de uma reta. O método estatístico mais apropriado para a análise depende da
hipótese de interesse e também do esquema experimental utilizado. Existem excelentes
softwares estatísticos para realizar as análises.
11. Relatório final (publicação). O relatório deve conter tabelas e gráficos de forma a mostrar
os efeitos esperados, comparar os resultados obtidos com os objetivos do experimento para
verificar se as questões propostas foram respondidas. Deverá também apresentar medidas de
precisão das estimativas. Se possível, fazer referências a outras pesquisas similares e uma
avaliação de todas as etapas com sugestões para possíveis alterações em pesquisas futuras.
A experimentação é uma importante fase do processo de aprendizagem, na qual nós
formulamos hipóteses, realizamos o experimento, testamos as hipóteses e, de acordo com os
resultados, formulamos novas hipóteses, e assim sucessivamente. A experimentação é um
processo iterativo.
23
2 Estatística Descritiva e Inferencial
ESTATÍSTICA
DESCRITIVA INFERENCIAL
Qualquer trabalho de análise estatística inicia com a análise exploratória de dados, com
o objetivo de obter conhecimento sobre eles. Em muitos casos, com uma boa análise
exploratória de dados, atende-se aos objetivos da pesquisa (principalmente em estudos
realizados através de levantamentos), enquanto em outros, ela serve como uma primeira
aproximação da análise final.
O conceito de estatística é bastante amplo e engloba a noção usual que as pessoas têm do que
ela signifique. Esse conceito usual logo relaciona a estatística com tabelas, gráficos, taxas,
24
índices etc. Assim, ouvimos falar da produtividade média do milho no Estado de Santa
Catarina, índice pluviométrico mensal ou anual de uma determinada região, índice de inflação,
taxa de desemprego, estatísticas de saúde pública, estatísticas da loteria, estatísticas do
aumento da produção de maçã em Santa Catarina etc.
A análise exploratória de dadas utiliza-se muito de técnicas visuais e procura
vislumbrar alguma regularidade quase sempre presente num conjunto de dados, podendo
sugerir modelos que possam ser utilizados na inferência estatística.
Inferência estatística
Há, ainda, um campo, bastante amplo da ciência estatística que se refere à análise e à
interpretação do conjunto total de dados, considerando a observação de somente uma parte
deles. Essa parte é conhecida como estatística indutiva ou inferencial, e normalmente escapa à
noção corrente da grande maioria das pessoas.
Para deixar mais clara a finalidade da inferência estatística é necessária fazer a
apresentação de dois conceitos fundamentais, que são: população e amostra.
Uma população consiste de todos os valores possíveis de uma característica desejada
observados em unidades amostrais ou experimentais. Os valores que compõem uma população
geralmente são diferentes entre si, e esta pode apresentar um tamanho finito, nem sempre
conhecido, ou infinito. Na experimentação, a definição de população é conceitual, isto é, não
tem existência real. São exemplos de populações: todos os valores possíveis da produção de
milho, em kg/ha, de urna cultivar; todos os pesos, ao nascer, de coelhos da raça gigante; todos
os valores de diâmetro altura do peito (DAP) de uma espécie do manguezal do Itacorubi; todos
os valores de micronúcleos por cinco mil células examinadas de roedores de uma determinada
região. Nestes exemplos as unidades experimentais são respectivamente: um canteiro de 5 m x
25
2 m, láparo (filhote de coelho) da raça gigante, uma árvore da espécie, cinco mil células do
roedor.
População: todos os valores possíveis de uma característica em estudo
observados em unidades experimentais.
26
ANÁLISE DESCRITIVA
Tabelas de Frequência
27
28
29
Representação tabular
Total
Fonte :
* Rodapé
Nota :
Título da tabela:
30
Corpo da tabela:
a) Cabeçalho da coluna: parte superior da tabela que especifica o conteúdo das colunas;
b) Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas;
c) Linhas: retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que
inscrevem nos seus cruzamentos com as linhas;
d) Casa ou célula: espaço destinado a um só número;
e) Total: Deve sempre ser destacado de alguma forma;
f) Laterais da tabela: Não devem ser fechadas. Caso as feche, passa a ser chamado
―Quadro‖.
Exemplo 3:
Tabela1: Produção de Café Brasil – 1991 a 1995
Anos Produção (1.000t)
1991 2.535
1992 2.666
1993 2.122
1994 3.750
1995 2.007
Total 13080
Fonte: IBGE
31
Tabela 2: Distribuição do teor de H2S %. Sulfeto de hidrogênio
Teor de H2S (%) Nº de amostras
2 8
5 19
7 15
9 10
11 8
Total 60
Fonte: dados fictícios
Tabela 4:
País Quantidade
Alemanha 02
Argentina 26
Canadá 04
Estados Unidos 03
Itália 02
Paraguai 06
Uruguai 111
Total 154
32
Tabela 6: Estatística de visita à Pipa-Pórtico, de 1º a 31 de julho de 2001.
Estados e Capitais Quantidade
Alagoas 6
Amazonas 6
Belém 111
Brasília 84
Ceará 114
Espírito Santo 37
Goiânia 17
Maranhão 02
Mato Grosso do Sul 17
Minas Gerais 145
Natal 24
Paraná 411
Piauí 02
Recife 159
Rio de Janeiro 414
Rio Grande do Sul 1.333
Salvador 25
Santa Catarina 185
São Paulo 2.630
Sergipe 67
Total 5.789
Tabela: Visitas do Exterior à Pipa-Pórtico
33
Tabela 8: Distribuição conjunta das porcentagens das variáveis resistência à ferrugem e tipo
de grão para 32 híbridos de milho, 1987/88.
Resistência à ferrugem
Tipo de grão TOTAL
r mr ms s
Dentado 35,7 14,3 42,9 7,1 100
Semidentado 36,4 9,1 18,2 36,4 100
Semiduro 14,3 42,8 14,3 28,6 100
TOTAL 31,2 18,8 28,1 21,9 100
Exemplo 4: Os dados abaixo representam o número de viagens realizadas por 20 famílias nos
últimos 5 anos:
0 1 2 5 2 3 4 2 2 4
4 0 0 2 3 2 1 5 2 1
Identifique:
a. Amostra:________________________
b. Variável:________________________
Construa uma tabela para estes dados e responda:
c. Qual o percentual de famílias com no máximo 1 viagem realizada?
d. Quantas famílias realizaram de 2 a 4 viagens?
Tipos de frequências
Para construção de uma tabela de distribuição de frequência é necessário conhecer
alguns de seus termos:
Absoluta
Simples
Re lativa
Absoluta
Tipos de freqüências Crescente
Acumulada
Re lativa
Decrescente Absoluta
Re lativa
34
Frequência relativa [Simbologia: fri]
fi fi
f ri f ri % k 100
f
k
f
i 1
i
i 1
i
f
i 1
ri = 1.
0,51 0,51 0,51 0,50 0,51 0,49 0,52 0,53 0,50 0,47
0,51 0,52 0,53 0,48 0,49 0,50 0,52 0,49 0,49 0,50
0,49 0,48 0,46 0,49 0,49 0,48 0,49 0,49 0,51 0,47
0,51 0,51 0,51 0,48 0,50 0,47 0,50 0,51 0,49 0,48
0,51 0,50 0,50 0,53 0,52 0,52 0,50 0,50 0,51 0,51
Identifique:
a. Amostra:________________________
b. Variável:________________________
Exercício 11: Os valores de cinza em ppm de uma amostra com 30 elementos (resultados)
foram os seguintes:
Pede-se:
a) Construir uma distribuição de frequências;
b) Determinar as frequências relativas;
c) Qual é a amplitude da amostra?
d) Qual é a porcentagem de elementos maiores que 100?
e) Construa um gráfico de colunas.
Exercício 12: As notas abaixo, referem-se ao grau obtido por 50 alunos em uma prova de
Estatística:
1 8 3 4 7 4 6 7 7 8
2 8 3 4 7 4 6 7 8 8
2 7 4 5 6 8 6 7 8 9
2 9 4 5 7 8 7 7 8 9
a) Quem é a amostra do estudo?
b) Quem é a variável estudada? Classifique-a.
c) Construa a tabela mais adequada para estes dados, calculando a porcentagem de cada
valor.
d) Quantos alunos tiram nota inferior a 7 na prova? R: 18
e) Quantos alunos tiraram no máximo 8 na prova? R: 5
f) Qual a porcentagem de alunos que obtiveram nota entre 5 e 8 pontos? R: 62,5%
Exercício 13: Considerar os dados obtidos, pelas medidas das alturas, de 20 indivíduos (dada
em cm):
151 152 154 159 159 165 165 165 159 154
165 155 155 168 165 168 168 167 168 154
36
Identifique:
a. Amostra:________________________
b. Variável:________________________
37
A representação gráfica deve ser utilizada levando-se em conta algumas qualidades
essenciais básicas para a construção destes:
- Simplicidade: as informações contidas em um gráfico devem ser diretas e detalhes
secundários devem ser omitidos; Ás vezes na construção de um gráfico o ideal é a
forma mais simples e direta de apresentação.
- Clareza: as informações devem ser claras possibilitando uma interpretação correta
sem dúvidas sobre os resultados;
- Veracidade: o gráfico deve expressar a verdade sobre os dados estudados.
De acordo com Levin (1987), enquanto que algumas pessoas parecem "desligar-se" ao
serem expostas a informações estatísticas em forma de tabelas, elas podem prestar bastante
atenção às mesmas informações apresentadas em forma gráfica. Este fato justifica a grande
utilização por parte dos pesquisadores e da mídia escrita e impressa dos gráficos em
substituição das tabelas.
60,0 50,0
50,0
33,3
40,0
%
30,0
16,7
20,0
10,0
0,0
Ácido Básico Neutro
pH
38
Figura: distribuições das porcentagens da resistência à ferrugem de híbridos de milho para as
regiões preferenciais.
Figura – Distribuição das frequências dos tipos de grão para 32 híbridos de milho para a região Chapecó, SC,
1987/88
39
Gráfico 2. Gráfico de Barras
O gráfico de barras é uma representação de uma série de dados através de retângulos
dispostos horizontalmente. Os comprimentos destes retângulos são proporcionais às suas
respectivas frequências. Este gráfico é semelhante ao gráfico de colunas, contudo, a posição da
escala e da frequência é trocada, ou seja, na linha horizontal temos a frequência de casos
observados e na linha vertical temos a variável de estudo.
33,3
Neutro
16,7
pH Básico
50,0
Ácido
40
Os gráficos de barras têm por finalidade comparar grandezas, por meio de
retângulos de igual largura, dispostos horizontalmente e com alturas proporcionais às
grandezas. Devemos deixar uma distância entre os retângulos Para as variáveis
qualitativas ordinais, devemos respeitar a ordem das categorias, como mostrado na
Figura 2.2 para os dados da Tabela 2.2.
41
Figura: Distribuição de frequências da resistência a ferrugem de híbridos de milho, para a região de Chapecó,
1987/88
42
Figura – comportamento da variável acidez em ácido lático (%) nos tratamentos PA, PB, PC e
C, durante a maturação de salame tipo italiano, UFSC, 1992.
16,7%
33,3%
Fraca
Moderada
Forte
50,0%
43
Figura - Distribuição das porcentagens da resistência à ferrugem para o tipo de grão dentado,
para a região de Chapecó, SC, 1987/88.
10
8
Variável Y
0
0 1 2 3 4 5 6 7 8 9
Variável X
44
Outros tipos gráficos
Cartograma
A estatística utiliza esse tipo de gráfico para representar os dados diretamente sobre o
desenho de uma área geográfica. O impacto visual ajuda na compreensão da informação
associada ao local.
Pictograma
Pictogramas são representações gráficas ilustradas por figuras. A representação gráfica
é feita por figuras variadas.
45
ATIVIDADE PRÁTICA!
Exemplo 5: Considere o seguinte gráfico
46
Exemplo 6: Considere o seguinte gráfico:
900 843
800 699
700
600 536
R$ Milhões
463
500
400 341
300 216 210
200
152
100
0
1995 1996 1997 1998 1999 2000 2001 2002
Ano
47
Exemplo 7: Considere o seguinte gráfico:
180 163
160 150 Homens
Número de Pessoas
140 Mulheres
120
100
80 72
60 54 46
32 31 35
40
20 15
20
0
Coca-cola Fanta Uva Guaraná Fanta Sprite
Laranja
Refrigerante
48
Distribuições de frequências de variáveis quantitativas
Quando a variável em estudo é quantitativa, discreta ou contínua, as principais
características a serem observadas numa distribuição de frequências são:
Principais características
1. Valor típico ou representativo. Corresponde à escolha de um único valor para
representar todo o conjunto de valores; geralmente é um valor central dos dados.
2. Dispersão. É uma medida da concentração dos dados em torno do valor típico.
3. Assimetria. Por exemplo, no estudo da distribuição da renda das famílias brasileiras, a
grande maioria das famílias apresenta baixo rendimento familiar, enquanto que a minoria
apresenta alto rendimento.
4. Valores discrepantes ou outliers. São valores que se distanciam demais dos outros e
pouco prováveis de ocorrerem novamente. E importante realizar um estudo para saber a
razão da ocorrência desses valores. Podemos citar três principais causas: 1) erro de
transcrição de dados; 2) algum fato importante ocorreu durante o trabalho e 3) o valor é
verdadeiro e deve ser considerado como tal.
5. Formação de subgrupos. Por exemplo, ao estudar-se a distribuição das alturas dos
alunos, pode-se chegar à conclusão que existem dois grupos, formados de acordo com o
gênero.
49
variam de 70 a 110 dias e podem ser representados por oito classes de intervalos de cinco dias
cada.
2. A variável é contínua. Neste caso, existem ou são poucos os valores que se repetem,
tornando necessária a criação de classes de ocorrências. Por exemplo, o rendimento da cultura
do feijão de uma determinada variedade, em kg/ha, pode ser representado por 10 classes de
intervalos de 90 kg/ha cada.
50
Procedimentos comuns para a representação das distribuições de freqüência
(maneira de sumarizar os dados).
Dados brutos
São os valores originais conforme eles foram coletados, não estando ainda prontos para
análise, pois não estão numericamente organizados ou tabelados. È difícil formarmos uma
idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados.
Exemplo 9: 29 – 33 – 28 – 38 - 26 – 32 – 31 - 26 – 33 – 34 – 29 – 25 – 32 – 33 – 40 – 37 –
28 – 26 – 34 - 26
Rol
É uma lista, onde as observações são dispostas em uma determinada ordem: crescente
ou decrescente. O objetivo da ordenação é tornar possível a visualização das variações
ocorridas, uma vez que os valores extremos são percebidos de imediato, e também facilitar a
construção da distribuição de freqüências.
rol crescente
Xmín Xmáx
Assim:
25 – 26 - 26 – 26 – 26 – 28 – 28 – 29 – 29 – 31 – 32 – 32 – 33 – 33 – 33 – 34 – 34 – 37 – 38 -
40
H = 40 – 25 = 15
51
Organização e classificação de dados de variáveis quantitativas
52
Distribuição de frequência com intervalos de classe:
Quando o tamanho da amostra é elevado procura-se efetuar o agrupamento dos valores
em vários intervalos de classe.
Classe fi
25 |- 28 5
28 |- 31 4
31 |- 34 6
34 |- 37 2
37 |- 40 3
Total = n 20
Classe
É cada um dos grupos ou intervalos de valores em que se subdivide a amplitude total
do conjunto de tamanho n.
O analista deverá ter em mente que a escolha do número de classes dependerá antes da
natureza dos dados e da unidade de medida em que eles forem expressos, do que de regras
muitas vezes arbitrárias e pouco flexíveis. Recomenda-se considerar 4 k 12.
53
Limites de classe
Limite inferior (Linf.): é o menor valor da classe considerada; Ex: o número 25 é o limite
inferior da 1ª classe.
Limite superior (Lsup.): é o maior valor da classe considerada. Ex: o número 31 é o limite
superior da 2ª classe.
h = 28 – 25 = 5
ou
40 – 25 = 15
Tabela:
Classe fi xi
25 |- 28 5 26,5
28 |- 31 4 29,5
31 |- 34 6 32,5
34 |- 37 2 35,5
37 |- 40 3 38,5
Total = n 20 -
54
Método para a construção de uma distribuição de frequências com
classe:
Histograma
Histograma
11
10
7
Freqüências
1
Ex pec ted
0
0 2 4 6 8 10 12 14 16 18 20 Normal
Classes
55
Polígono de frequências
1
0
5
Freqüências
0
0 2 4 6 8 1
0 1
2 1
4 1
6 1
8 2
0
P
ont
o smé
diosda
scla
sse
s
Distribuição retangular
A distribuição retangular caracteriza uma situação especial em que todas as classes têm
a mesma frequência. Nesta situação, o histograma é constituído por retângulos de mesma
altura, a ligação dos pontos médios conduz a uma reta horizontal.
HISTOGRAMA
Histograma é uma forma de descrição gráfica com barras verticais, as quais representam
dados quantitativos agrupados em classes de frequência.
Os dados de uma amostra servem como base para uma decisão sobre a população. Quanto
maior o tamanho da amostra mais informação temos sobre a população. Porém, um aumento
de tamanho da amostra também significa um aumento da quantidade de dados e torna-se
difícil compreender a população a partir destes dados, mesmo quando eles são dispostos em
tabelas. Em tal caso, precisamos de um método que nos vai possibilitar conhecer a população,
e um histograma atende as nossas necessidades.
Organizando-se muitos dados em um histograma, pode-se conhecer a população de uma
maneira objetiva.
57
É possível obter informações úteis sobre o estado da população através da análise do
perfil do histograma. Os perfis seguintes são típicos, e podemos utilizá-los como modelos para
análise de um processo.
a) Tipo geral
b) Tipo pente
e) Tipo platô
58
a. Tipo geral (simétrico ou em forma de sino) – O valor médio do histograma está no
meio da faixa dos dados. A freqüência é mais alta no meio e torna-se gradualmente
mais baixa na direção dos extremos. O perfil é simétrico. É o formato encontrado com
mais freqüência.
b. Tipo Pente (multi-modal) – As classes possuem freqüência altas e baixas
alternadamente.Este perfil ocorre quando a quantidade de dados incluídos na classe
varia de classe para classe, ou quando existe uma tendência particular no modo como
os dados são arredondados.
c. Tipo assimétrico positivo (assimétrico negativo) – O valor médio do histograma fica
localizado à esquerda (direita) do centro da faixa da variação. A frequência decresce
um tanto abruptamente em direção à esquerda (direita), porém de forma suave à direita
(esquerda). Isto ocorre quando o limite inferior (superior) é controlado, ou
teoricamente, ou por um valor de especificação, ou quando valores mais baixos (mais
altos) do que um certo valor não ocorrem.
d. Tipo declive à direita (declive à esquerda) – O valor médio do histograma fica
localizado à esquerda (direita) do centro da faixa da variação. A frequência decresce
um tanto abruptamente na esquerda (direita), e lentamente em direção à direita
(esquerda). Isto ocorre com frequência quando uma triagem de 100% tiver sido feita
por causa da baixa capacidade do processo, e também quando a assimetria positiva
(negativa) se tornar ainda mais extrema.
e. Tipo platô – A frequência em cada classe forma um platô porque as classes possuem
mais ou menos a mesma frequência exceto aquelas das extremidades. Este formato
ocorre quando há mistura de várias distribuições que têm diferentes médias.
f. Tipo picos duplos (bimodal) – A frequência é baixa próximo ao meio da faixa de
dados e existe um pico em um e outro lados. Este formato ocorre quando duas
distribuições com médias muito diferentes são misturadas.
g. Tipo pico isolado – Existe um pequeno pico isolado em adição a um histograma do
tipo geral. Este é um perfil que ocorre quando há uma pequena inclusão de dados de
uma distribuição diferente, como no caso de anormalidade do processo, erro de
medição, ou inclusão de dados de um processo diferente.
59
Comparação de Histogramas e limites de especificação
Observações:
60
Exercício 14: Considere o volume final (ml) das bagas de uma determinada área:
74 – 72- 66-71 – 74 – 77- 68 – 69- 77 – 83 – 63 – 64 – 73 – 73 – 82 – 82 – 82 – 72 – 59 – 75 –
70 – 79 – 75 – 72 – 63 – 74 – 68 – 69 – 77
Identifique:
a. Tamanho da amostra:________________________
b. Variável:________________________
Exercício 15: Encontre as frequências relativas simples, acumuladas e o ponto médio de cada
classe.
Exercício 16: Os dados da Tabela 2.20 foram obtidos de um experimento desenvolvido para
avaliar o comportamento In Vitro de abacaxi (Ananas comosus) cv. Primavera e referem-se à
variável altura dos brotos de explantes, em centímetros (dados ordenados crescentemente).
Tabela: altura de brotos de explantes de abacaxi
1,00 1,18 1,21 1,27 1,34 1,37 1,43 1,47 1,52 1,68
1,01 1,19 1,25 1,30 1,35 1,37 1,43 1,47 1,57 1,73
1,08 1,19 1,26 1,31 1,36 1,39 1,44 1,49 1,61 1,77
1,11 1,20 1,27 1,34 1,36 1,41 1,46 1,50 1,62
Exercício 18: Suponha que, ao estudar a quantidade de albumina no plasma de pessoas com
determinada doença, um pesquisador obtenha, em 25 indivíduos, os seguintes valores (em g/100ml):
b. Variável:________________________
62
Exercício 20: Foram realizadas 20 medidas de um elemento químico no produto fabricado por
uma indústria, obtendo os seguintes valores em ppm:
Exercício 21: "Aceita-se hoje que o processo saúde-doença decorre, em grande parte, das questões
relacionadas aos hábitos, atitudes, comportamentos e, sobretudo, à conduta humana, como resultado
da interação entre as características do indivíduo e do ambiente cultural em que ele se insere. Isso
toma especial vulto, frente ao aumento da ocorrência de doenças crônico-degenerativas, como o
câncer e as doenças cardiovasculares, em todo o mundo. Essas doenças estão relacionadas à
crescente industrialização e urbanização, que impõem à população, muitas vezes, estilos de vida que a
levam a se expor a determinados fatores de risco. Essa exposição decorre, em grande parte, do
aumento do consumo de produtos nocivos à saúde, estimulado pela publicidade, em especial das
drogas lícitas, entre elas o tabaco. O tabagismo, atualmente, está relacionado a 3,5 milhões de mortes
anuais, em todo o mundo, aproximadamente 10.000 a cada dia; sendo um milhão destas nos países em
desenvolvimento como o Brasil, com estimativa de chegar a um total de 10 milhões/ano até o ano
2020; sendo que 7 milhões ocorrerão nos países em desenvolvimento (Ministério das Saúde)"
Uma pesquisa foi realizada com 20 estudantes fumantes objetivando verificar o número de cigarros que
estes fumam por dia. Os resultados obtidos foram:
20 12 12 10 24 6 10 8 22 12
14 10 8 8 12 20 20 24 20 24
Identifique:
a) População:
b) Amostra:
c) Variável:
d) Construa uma tabela de frequências.
Exercício 22: "O desempenho do setor de Cartões de Crédito tem sido bastante satisfatório e tem crescido a
medida em que a compensação de cheques vem diminuindo. Existe o incentivo por parte dos bancos ara que seja
impulsionado o uso de cartões, tudo porque a transação com cheque custa 455 % a mais que a eletrônica. Por
parte dos estabelecimentos comerciais, o incentivo acontece por ser mais seguro e por reduzir as despesas
financeiras. Atualmente o potencial de crescimento de demanda é para o dobro de cartões que estão em
circulação, hoje, pouco mais de 40 milhões. Nos últimos 8 anos, o uso do cartão de crédito aumentou 327 %,
enquanto que a utilização do cartão de débito, 562,5 %"Fonte: www.investnews.com.br
63
Os dados abaixo correspondem aos resultados de uma pesquisa realizada com 20 lojas de um shopping com o
objetivo de verificar o valor mensal de suas vendas (mil reais) pagas com cartão de débito:
12 15 10 5 10 10 5 12 2 2
10 15 10 15 10 5 10 10 10 10
Identifique:
a) Amostra b) Variável
c) Construa uma tabela para representar estes dados (os dados não deverão ser agrupados em classes)
Exercício 23: Um supermercado colheu a opinião de 60 clientes, sendo que uma determinada
questão sobre a qualidade de atendimento deveria ser respondida mediante a utilização das
opções: Ótimo, Bom, Regular e Ruim. Para essa questão foram encontradas as respostas a
seguir:
Ruim Bom Ótimo Bom Bom Regular Ótimo Bom Regular Bom
Regular Ótimo Ruim Ótimo Bom Bom Bom Ótimo Bom Bom
Ótimo Bom Bom Ruim Bom Bom Regular Regular Ótimo Regular
Ótimo Ótimo Bom Bom Regular Bom Bom Ruim Bom Regular
Ruim Regular Ótimo Regular Bom Bom Bom Bom Bom Bom
Bom Regular Ótimo Bom Ruim Bom Bom Ótimo Regular Ótimo
64
Exercício 25: Considere a massa das sementes (g) de uma amostra de bagas em uma
determinada área:
3,4 – 3,64 – 3,44- 6,04 – 5,4 – 4,96 – 3,54 – 4,58 – 5,38 – 4,94 – 7,3 - 7,6 – 5,06 – 4,68 – 2,68
– 3,4 – 3,72 - 6,5 – 4,3 – 3,16 – 3,6 – 5,36 – 5,26 – 5,02 – 3,88 – 5,84 – 8,76 – 5,88 – 7,76 –
5,1 – 4,9 – 7,34 – 4,52 – 4,36 – 5,36
a) Construir uma distribuição de frequências;
b) Determinar as frequências relativas;
c) Determinar as frequências acumuladas;
d) Qual é a amplitude da amostra?
e) Qual é a porcentagem de bagas com massa de sementes com no mínimo 7,3g?
Exercício 26: Caderneta de poupança é uma modalidade de aplicação financeira, caracterizada pelo
baixo risco e garantida pelo governo. Suas regras são definidas pelo Banco Central. A remuneração é
padronizada para todas as instituições financeiras e ocorre na data do aniversário da caderneta. Numa
agência bancária, pesquisaram-se os saldos de 50 clientes, em contas de cadernetas de poupança, em
determinada data base ( saldos em mil reais). Os valores coletados estão representados a seguir:
Exercício 27: Dado o rol de 50 notas (dadas em créditos). Agrupar os elementos em classe e
determinar:
a) Amplitude amostral; R: H = 64
b) O número de classes; R: k = 7
c) A amplitude de classes; R: h = 10
d) Os limites das classes;
e) As frequências absolutas;
f) As frequências relativas;
g) Os pontos médios das classes;
h) As frequências acumuladas.
i) O Histograma;
65
j) O polígono de frequência;
k) O polígono de frequência acumulada (Ogiva).
Rol:
33 – 35 – 35 – 39 – 41 - 41 – 42 – 45 – 47 – 48
50 – 52 – 53 – 54 – 55 – 55 – 57 – 59 – 60 – 60
61 – 64 – 65 – 65 – 65 – 66 – 66 – 66 – 67 – 68
69 – 71 – 73 – 73 – 74 – 74 – 76 – 77 – 77 – 78
80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97
Exercício 29: A equipe administrativa de um consultório médico estudou os tempos de espera dos
pacientes que chegam ao consultório com um pedido de atendimento de emergência. Os seguintes
dados de tempo de espera em minutos foram coletados no período de um mês:
2 – 5 – 10 – 12 – 4 – 4- 5 – 12- 5 – 8 – 17 – 8 - 8 – 9
a) Uma pesquisa tem a finalidade de conhecer a porcentagem de pessoas que possuem curso
superior completo na cidade Gandú. Para isso, 200 habitantes foram selecionados para
amostra,
66
b) O fabricante de carros marca ―Alfa‖ deseja saber o consumo de gasolina (Km/l).
Selecionou, então, os 500 primeiros carros fabricados para fazer a investigação.
c) Um pesquisador interessado em conhecer a inteligência média de pacientes
esquizofrênicos, aplicou determinado teste de inteligência em 100 indivíduos
hospitalizados.
d) A escola Maria Gorete quer saber o tempo despendido pelos alunos no deslocamento
residência-escola. Realizou uma seleção de 100 alunos, anotando o tempo gasto neste
trajeto.
67
4. Distribuição de frequências da resistência à ferrugem de híbridos de milho, segundo as
regiões preferenciais
Região preferencial
Total
Resistência à ferrugem Chapecó Campos Novos Içara
r(resistente) 10 3 12 25
mr(moderadamente resistente) 6 12 2 20
ms(moderadamente susceptível) 9 3 3 15
s (susceptível) 7 1 2 10
Total 32 19 19 70
5. A tabela abaixo deve ser preenchida e exemplificará a entrada de dados no programa. Note
que cada indivíduo é uma unidade de observação na qual são feitas várias medidas e/ou
anotados vários atributos, referentes às variáveis.
Classifique cada uma das variáveis em: qualitativa (nominal ou ordinal) ou quantitativa
(discreta ou contínua).
0 2 3 5 0 2 3 4 5 3
3 3 5 4 1 0 3 1 3 4
5 0 1 1 0 0 5 5 5 4
68
a) Construa a tabela adequada para estes dados.
d) Qual a porcentagem de alunos que retiram, em média, mais de 4 livros por mês?
2 3 4 4 5 3 4 5 5 3 1 5 5 1 3 4 5
3 3 5 4 5 4 2 4 2 5 4 4 2 5 5 5 3 2
a) Construa uma tabela para estes dados.
b) Determine o percentual de residências com apenas 2 residentes.
c) Determine o percentual de domicílios com no mínimo 3 residentes.
d) Determine o percentual de domicílios com pelo menos 3 residentes.
e) Considerando a tabela construída no item ―a‖, determine o número total de residentes nos
35 domicílios.
8. As notas abaixo se referem ao grau obtido por 50 alunos em uma prova de Estatística:
1 8 3 4 7 4 6 7 7 8
2 8 3 4 7 4 6 7 8 8
2 7 4 5 6 8 6 7 8 9
2 9 4 5 7 8 7 7 8 9
a) Quem é a amostra do estudo?
b) Quem é a variável estudada? Classifique-a.
c) Construa a tabela mais adequada para estes dados, calculando a porcentagem de cada
valor.
d) Quantos alunos tiram nota inferior a 7 na prova? R: 18
e) Quantos alunos tiraram no máximo 8 na prova? R: 5
f) Qual a porcentagem de alunos que obtiveram nota entre 5 e 8 pontos? R: 62,5%
69
9. Considere a seguinte tabela:
Quanto você pretende gastar no presente para sua mãe no Dia das Mães?
Valor (reais) Nº Filhos %
0 5
20 35
50 45
100 15
Total 80 100
Identifique:
a) Amostra:
.....................................................................................................................................
b) Variável:
......................................................................................................................................
c) Complete a tabela com os dados que faltam a respeito do número de filhos.
d) Quantos filhos pretendem gastar no máximo 50 reais?
e) Quantos filhos pretendem gastar menos que 50 reais?
10. Uma vinícola fez uma pesquisa de opinião com seus clientes cadastrados. Determinada
questão sobre a qualidade de atendimento deveria ser respondida mediante a utilização das
opções: Ótimo; Bom; Regular; Ruim e Péssimo. Por meio de uma amostragem proporcional
estratificada, alguns clientes foram selecionados para justificar a respectiva opção; sendo
assim, complete a tabela:
Opções de respostas Nº de respostas por %
opção
Ótimo 900
Bom 15
Regular 550
Ruim 350
Péssimo
Total 2500 100
70
11. A Tabela mostra a produção de café no ano de 2009, em 6 diferentes regiões do país.
Sabendo-se que foram retiradas amostras estratificadas proporcionais para controle de
qualidade, complete a tabela:
13. Bento Gonçalves está preocupada em melhorar a sinalização de suas ruas. Para tanto,
selecionou 25 ruas para fazer a checagem da sinalização. Identifique a variável, a população e
o número de elementos da amostra.
72
3. MEDIDAS DESCRITIVA
A análise descritiva dos dados é uma subdivisão da Estatística e tem por objetivo a
descrição dos resultados de uma pesquisa através de tabelas, gráficos e cálculos de algumas
medidas estatísticas. Dentre essas medidas, as mais comumente utilizadas são as Medidas de
Tendência Central (média, mediana e moda) e as Medidas de Variabilidade (variância, desvio-
padrão, coeficiente de variação).
São indicadores que permitem que se tenha uma primeira ideia, um resumo, de como
se distribuem os dados de um experimento, informando o valor da variável (característica)
mais prevalecente em um conjunto de informações (dados). Essas medidas são consideradas
formas úteis de descrever um grupo como um todo encontrando um único número que
represente todo o conjunto de dados. As medidas de tendência central que veremos nesse
curso são: média, mediana e moda.
população
Média [Simbologia: ]
X amostra
73
1ª Situação: Média para dados não agrupados
A média, que se representa por X na amostra e por na população, é uma medida
de localização do centro da amostra, e obtém-se a partir da soma de um conjunto de valores,
dividida pelo número de valores considerados conforme a seguinte expressão:
Amostra
X X 2 ... X n X i
X 1 i 1
n n
Onde:
̅ = média aritmética
x = somatório dos valores da variável ―x‖ (exemplo: soma de todos os valores de idades, rendas
familiares, etc.)
n = nº de elementos pesquisados, ou ainda o tamanho da amostra.
x i
X i 1
X 1 X 2 ... X N Xi
i 1
N N
onde:
N = número total de elementos da população
74
Exemplo 12: Uma coleta recente, em 8 pontos do curso d’agua de um certo
rio, forneceu o conteúdo de material de sódio em suspensão na água (taxa de
poluição deste rio, expressa pela matéria sólida em suspensão).
Exercício 30: Calcule e interprete a média dos Rendimentos, em kg/ ha, de híbridos de milho,
Região oeste, 1987/88
3.973, 4.500, 4.770, 5.063, 4.960, 5.202
75
ATIVIDADE PRÁTICA!
Apresente o cálculo da média para cada uma das variáveis apresentadas no Banco de
Dados acima, não se esquecendo de interpretar os valores encontrados, como se seus
resultados fossem ser apresentados aos diretores dessa empresa!
Exercício 31: Para avaliar um novo método para determinação de cálcio, um químico
preparou uma solução de concentração conhecida, 50mg/L de Ca. Esta Solução foi analisada
seis vezes; os resultados obtidos foram:
1) 48,2mg/L;
2) 51,0mg/L;
3) 46,6mg/L;
4) 51,5 mg/L;
5) 43,8 mg/L;
6) 46,9 mg/L;
Calcular a média dos resultados obtidos.
76
o
X i X 0
A média do produto de uma constante por uma variável é igual ao produto da constante
pela média da variável;
X (kX i ) k X (X i )
x . f x . f x . f ... x . f X f i i
X 1 1 2 2 3
3 n n i 1
n
n f i 1
i
onde:
fi = a freqüência absoluta da classe i.
n
f n
i 1
i
Amostra
k
x f i i
X i 1
77
Obs: Média populacional µ
∑
78
Exercício 32: Considere:
Tabela. Distribuição de frequências, do número de plantas sadias de mandioca em 30 parcelas,
Chapecó, SC, 1984.
Número de (f)
plantas
23 1
24 3
25 4
26 8
27 14
Total 30
Encontre e interprete a média:
Quando os dados estiverem agrupados numa distribuição de frequência por classe usaremos a
média dos pontos médios x1, x2, x3, ..., xn, de cada classe, ponderados pelas respectivas
frequências absolutas: f1,f2,f3,...,fn. Assim:
X f i i
X i 1
onde xi = ponto médio da classe i
n
79
Exemplo 14: Distribuição de frequências de 32 híbridos de milho recomendados para o Oeste
catarinense, 1987/88
Exercício 33: Uma vinícola registrou a seguinte distribuição de frequência para o número de
litros de suco vendidos por pessoa, durante uma semana de feira. Encontre e interprete a
média.
80
Moda [Simbologia: mo]
A moda será o valor mais frequente no conjunto de dados, podendo, este mesmo
conjunto, possuir mais de uma moda (bimodal ou plurimodal), ou ainda, não apresentar moda
(amodal).
Exemplo 16: Suponha o conjunto de valores de cinzas em ppm: 110 – 110 – 120- 115 – 115 .
Determinar a moda deste conjunto de dados.
Exemplo 17: Suponha o conjunto de valores de cinzas em ppm: 110 – 110 – 115 – 115- 120 -
120. Determinar a moda deste conjunto de dados.
a) 1 -2- 3 – 5 – 2 – 6 – 7 – 2 – 9;
b) 1 – 1 – 2 – 2 – 3 – 3 - 5 – 5 – 6 – 6 – 7 – 7 – 9 – 9;
c) 0 – 0 – 1 – 2 – 3 – 5 – 2 – 0 – 6 – 7 – 2 – 9;
d) 1 – 1 – 2 – 2 – 3 – 3 – 8 – 8 -10
81
2ª Situação: Moda para dados tabelados por ponto
82
3ª Situação: Moda para dados tabelados por intervalo de classe
Exemplo 21:
Salário Mensal Nº de funcionários
25|-30 10
30|-35 20
35|-40 30
40|-45 15
45|-50 40
50|-55 35
Total 150
Interpretação: o Salário mensal com maior frequência entre o grupo de 150 funcionários foi
de 47,5 salários.
I) Não é afetada por valores extremos, a não ser que estes constituam a classe modal;
II) È uma medida bastante utilizada em estatística Econômica.
83
~
Mediana [Simbologia: m d ou X]
50% md 50%
rol crescente
Xmín Xmáx
Uso da mediana:
2. Se o número de elementos "n" for ímpar, a mediana será o elemento central que ocupa a
n 1
posição do rol;
2
3. Se "n" for par, a mediana será a média aritmética entre os dois elementos centrais que
n n
ocupam as posições e 1 do rol.
2 2
84
Exemplo 23: Quando o tamanho da amostra “n” for ímpar
Considere os dados a seguir, referentes à quantidade de magnésio medido no rio Mogi-
Guaçu, SP, em 1988 (melo, 1993). Encontre a mediana:
X (mg/ml): 1,2 1,8 4,0 1,5 1,5 1,8 1,2
Mediana
Md = 1,5 mg/100ml
85
Exemplo 24: Quando o tamanho da amostra “n” for par
62 48 52 95 46 42 54 48
1º Passo: Ordenar os dados em ordem crescente
42 46 48 48 52 54 62 95
2º Passo: Localizar a mediana: como ―n‖ é par, devemos localizar os dois valores centrais, ou
seja, para n = 8, a 4ª e a 5ª posição. Após localizar esses elementos, calcula-se a média entre
eles:
42 46 48 48 52 54 62 95
Mediana
48 52
Md = 50 amostras poluídas .
2
Interpretação: ―Metade dos municípios apresentaram amostras poluídas com metais pesados
até 50 e a outra metade dos municípios amostras poluídas superior a 50‖.
86
IMPORTANTE!!!
Encontre a mediana:
Passos:
1º) Calcular a posição da mediana.
Para verificar a posição da mediana na distribuição, calcule: Pmd =
87
Procedimento: de posse do resultado do quociente , observe na coluna da frequência
h PMd Fac ant .
M d Linf .
f Md
onde:
88
Exemplo 26: Uma vinícola registrou a seguinte distribuição de frequência para o número de
litros de suco vendidos por pessoa, durante uma semana de feira.
Interpretação: 50% das pessoas compraram no máximo 11,32 litros de suco, ou então,
metade das pessoas adquiriram no mínimo 11,2 litros de suco.
Observações importantes:
Não há regra fixa para se escolher entre a média, a mediana e a moda. Entretanto
algumas observações podem ser feitas quanto à utilização das mesmas.
89
Exercício 34: Considere os dados a seguir, referentes à quantidade de magnésio medido no rio
Mogi-Guaçu, SP, em 1988 (melo, 1993). Encontre e interprete a média, a moda e a mediana:
X (mg/ml): 1,2 1,8 4,0 1,5 1,5 1,8 1,2
Exercício 35: Os dados abaixo representam coletas de amostra de solo em 8 cidades, foram
verificadas amostras poluídas com metais pesados:
62 48 52 95 46 42 54 48
a) Encontre e interprete as medidas de tendência central;
b) Qual das medidas encontradas melhor representa a poluição de metais pesados na amostra?
Por quê?
Exercício 37: Uma cidade serrana registrou a temperatura média diária durante duas semanas.
Os valores encontram-se discriminados a seguir.
23; 22; 24; 23; 21; 23; 22; 23; 24; 22; 21; 22; 23; 21.
90
LISTA DE EXERCÍCIOS:
MEDIDAS DE TENDÊNCIA CENTRAL
Indivíduo 1 2 3 4 5
CRA (mm) 47 51 54 59 62
Peso (g) 5,0 3,9 6,7 6,0 9,5
91
3. A produção de solvente numa fábrica, durante uma semana, foi de 17, 22, 10, 14, 13, 15, 16,
18 e 12 litros. Qual a produção média, modal e mediana?
5. Uma pesquisa foi realizada com 12 empresas do ramo alimentício, com o objetivo de
verificar o número de funcionários que estas possuem, os dados obtidos estão abaixo:
32 35 45 50 30 22 15 25 10 15 30 21
6. A tabela abaixo representa os salários pagos a 100 operários da empresa GLT & Cia:
7. Dados dois conjuntos de dados A = {100; 101; 102; 103; 104; 105} e B = {0; 1; 2; 3; 4; 5},
podemos afirmar que:
9. Uma coleta de dados realizada com 15 empresas do setor têxtil foi realizada com o objetivo
de verificar o número de funcionários existentes em cada uma delas, resultando nos seguintes
dados:
1000 3600 110 820 232 850 320 200 120 2500 130 156 210 1500 112
a) Calcule e interprete a média, mediana e moda para estes dados.
Neste caso o valor da média é uma boa medida para representar este conjunto de informações?
Por quê?
10. Um concurso realizado simultaneamente nos locais A,B e C apresentou as médias: 70, 65 e
45 pontos, obtidas por 30, 40 e 30 candidatos, nessa ordem. Qual é a média geral do concurso?
11. Dados dois grupos de pessoas, o grupo 1 com 10 pessoas e o grupo 2 com 40 pessoas. Se o
peso médio do grupo 1 for de 80 kg e o do grupo 2 for 70 kg pode-se dizer que o peso médio
dos dois grupos considerados em conjunto é 75kg? Justifique.
12. Sejam os seguintes valores referentes ao número de faltas de operários de uma vinícola em
determinado mês do ano:
0 0 2 0 3
1 0 4 1 0
2 1 1 2 0
1 0 1 2 0
1 0 0 1 0
0 2 1 4 4
13. A esperança de vida ao nascer, no Brasil, vem experimentando, ao longo dos anos,
incrementos paulatinos. Observou-se que os diferenciais entre os sexos também
experimentaram aumentos ao longo dos 21 anos de estudo. Em 1980, enquanto as mulheres
possuíam uma esperança de vida ao nascer de 66,0 anos, os homens detinham uma esperança
de vida de 60 anos, representando uma diferença de 6,0 anos. Vinte e um anos mais tarde, as
mulheres, no Brasil, já estariam vivendo 8 anos a mais que os homens (73 anos, para o sexo
feminino e 65 anos, para o sexo masculino). No contexto mundial, o Brasil ocupa, segundo a
Organização das Nações Unidas, através de sua Divisão de População, a 108a posição no
ranking dos 187 países para os quais foram estimadas as esperanças de vida ao nascer, para o
período 2000-2005. Apesar dos ganhos recentes, ainda há uma longa trajetória para o Brasil
alcançar patamares como o da França (79,0 anos) e o do Japão (81,5 anos). Fonte: IBGE, 2001
90
80
72 72 73 73
Idade (anos)
70
70 66 65 65
64 65
63
60
60
50
40
30
20
1980 1991 1998 1999 2000 2001
Ano
Homens Mulheres
94
14. Segundo dados divulgados pelo DIEESE (Departamento Intersindical de Estatísticas e
Estudos Socioeconômicos), os valores da cesta básica em Dezembro de 2009, em 10 capitais
brasileiras pesquisadas, estão na tabela abaixo:
15. O preço da carne bovina (Kg) em Reais em algumas capitais brasileiras, no mês de
Dezembro de 2009, estão dispostos no gráfico abaixo:
16,00
14,00 13,57
12,6 12,37
12,33 12,18
11,99
12,00 11,54 11,34
11,23
10,69
10,41
10,00
R$
8,00
6,00
4,00
2,00
0,00
Brasília BH RJ SP Curitiba POA Aracajú Belém Manaus Recife Salvador
Capital
Fonte: DIEESE
95
a) Qual a média de preço da carne bovina em Dezembro de 2009, nessas cidades, com base
nos dados acima?
b) Qual a porcentagem de capitais que possui um preço abaixo de R$ 12,00 para o Kilo de
carne bovina em Dezembro de 2009?
c) Qual a mediana para o preço da carne bovina, em Dezembro de 2009 nas capitais
analisadas?
16. A tabela abaixo apresenta os valores das diárias pagas por 40 turistas nos hotéis do
balneário Beach Star:
17. Uma fábrica organizou um churrasco para uma confraternização de final de ano. Foram
compradas as seguintes carnes aos respectivos preços:
10 kg de filé mignon R$ 19,00 o Kg
20 Kg de linguiça R$ 9,00 o Kg
10 Kg de picanha R$ 22,00 o Kg
12 Kg de costela R$ 11,00 o Kg
Qual o valor médio do Kg de carne adquirida?
96
10 anos, 6 com 11 anos, 4 com 13 anos, 6 com 14 anos e 2 com 15 anos. Calcule a idade
média do time.
3.2 Separatrizes
São valores de posição, que dividem o rol. As principais medidas separatrizes são:
mediana, quartis, decis e centis ou percentis.
97
Quartis para dados não tabelados
ATIVIDADE PRÁTICA!
98
Exemplo 27: Considere a seguinte distribuição de frequência de uma amostra de polímero
contendo 20 valores granulométricos (grãos/grama).
(valores granulométricos) xi fi
36 5
38 3
39 3
40 4
44 3
47 2
Total 20
h PQi Facant .
Q i L inf .
f Qi
Determine o 1º e o 3º Quartil
99
Exercício 38: (Andrade DF e Ogliari PJ, 2007)
Tabela 1: Valores de pesos ao nascer de bezerros das raças Crioula e Nelore
Raça Pesos ao nascer em kg
Crioula 47 51 45 50 50 52 46 49 53 51
Nelore 51 40 46 48 54 56 44 43 55 57
Medidas de Assimetria
As medidas de assimetria indicam o grau de assimetria de uma distribuição de
frequências unimodal em relação a uma linha vertical que passa por seu ponto mais elevado.
De acordo com Fonseca (2011) dá-se a nomenclatura de assimetria ao grau de
afastamento de uma distribuição da unidade de assimetria.
100
Uma Distribuição é Simétrica quando seus valores de Média, Mediana e Moda
coincidem. A comparação entre o valor da Média e o valor da Moda, dá, portanto, uma
indicação da inclinação da distribuição.
Distribuição Simétrica
Graficamente, uma distribuição simétrica tem associada a si uma curva de frequências
unimodal apresentando duas "caudas" simétricas em relação a uma linha vertical que passa por
seu ponto mais alto (eixo de simetria).
Simétrica:
101
A Média “puxa” a cauda da Distribuição para seu lado, em função de ser altamente sensível aos
valores extremos da série de dados.
Existem várias fórmulas para o cálculo do coeficiente de assimetria, dentre elas, destacam-se:
102
Medidas de Curtose
Tabela 5.1
Distribuições média moda mediana
A 30 40 32
B 38 26 34
C 43 43 43
3.4 BoxPlot
O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica
do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes
inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não
inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite
superior. Os limites são calculados da forma abaixo
Limite inferior: .
Limite superior: .
Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers) e
são denotados por asterisco (*). A Figura a seguir apresenta um exemplo do formato de um
boxplot.
104
O boxplot pode ainda ser utilizado para uma comparação visual entre dois ou mais grupos. Por
exemplo, duas ou mais caixas são colocadas lado a lado e se compara a variabilidade entre
elas, a mediana e assim por diante. Outro ponto importante é a diferença entre os
quartis que é uma medida da variabilidade dos dados.
105
Exemplo 31: Na Tabela a seguir temos as medidas da altura de 20 hastes. Faça o box plot
correspondente.
Dados da usinagem
Mínimo 1,58
1° Quartil 1,6
Tri-Média 1,714545
3° Quartil 1,8
Máximo 1,87
Assimetria 0,111765
Curtose -1,569809
Amplitude 0,29
106
107
Exemplo 32: A construção do gráfico Box Plot pode ser exemplificada tomando-se a variável
idade da Tabela 01. Sua elaboração segue os seguintes passos:
Ordenar os dados em sequência crescente.
18 18 19 20 20 20 20 20 20 21 21
22 23 24 25 25 25 26 29 30 35 37
Determinar as cinco medidas.
Mediana:
1 quartil:
Terceiro quartil:
Desvio interquartílico:
dq= Q3 – Q1 = 25,75 – 20,00 = 5,75
Limite inferior:
Li= Q1-1,5dq
Li = 20 – 1,5. 5,75 = 11,375
Limite superior:
Ls= Q3+1,5dq
Ls= 25,75 + 1,5. 5,75 = 34,375
Construir uma escala com valores que incluam os valores máximo e mínimo dos dados.
Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no
valor da mediana.
Traçar
Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior
Li e a outra no centro do lado do retângulo correspondente ao primeiro quartil. Trace uma
outra linha paralela à reta, com uma extremidade no centro do lado do retângulo
correspondente ao terceiro quartil e a outra alinhada com o limite máximo Ls .
108
Identificar os pontos discrepantes
Figura 17: Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual
de Maringá.
No conjunto de dados não existe aluno com idade inferior a 11,375, ou seja, não há
aluno com idade considerada discrepante inferiormente. Entretanto, existem dois indivíduos
cujas idades são superiores a 34,375, pontos estes considerados discrepantes neste conjunto de
dados: as idades 35 e 37. Estes pontos são identificados no diagrama de caixas por meio de um
asterisco na direção das linhas traçadas nos item v.
Note-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos
quais, 25% estão entre a linha da mediana e a linha do primeiro quartil e os outros 25% estão
entre a linha da mediana e a linha do terceiro quartil. Cada linha da cauda mais os valores
discrepantes contêm os 25% restantes da distribuição. A Figura 17 mostra que a distribuição
das idades dos alunos apresenta assimetria positiva, ou seja, dispersam-se para os valores
maiores.
O gráfico Box Plot pode ser utilizado para fazer comparações entre várias distribuições.
Essa comparação é feita através de vários desenhos esquemáticos numa mesma figura. Na
Figura 18 é apresentado o gráfico para a variável idade classificada segundo o sexo do aluno.
109
Nota-se que para o sexo feminino, não valores discrepantes e a distribuição apresenta
assimetria positiva, com idade mediana inferior ao do sexo masculino.
Exercício 42: (Andrade DF e Ogliari PJ, 2007) Foram tomadas duas amostras de tamanhos
iguais a 25 observações, de crescimento de pseudobulbo, em cm, da espécie de orquídea
Laelia purpurata, sob duas condições de luminosidade (com Luz direta e com luz indireta). Os
dados estão apresentados na tabela abaixo:
110
Tabela: dados de crescimento do pseudobulbo de Laelia purpurata, Florianópolis, SC.
Luz 1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1
direta 2,4 2,5 2,5 2,7 3,4 3,4 3,7 3,9 4,2
4,8 6,3 6,5 7,2 8,8 9,4 9,5
Luz 1,4 1,9 2,8 3,1 3,5 3,5 3,6 3,9 4,3
indireta 4,5 4,6 4,8 6,3 6,5 6,7 6,7 6,8 6,9
8,1 8,6 10,4 12,7 16,3 16,8 16,9
Tabela: cálculo dos quartis e extremos para dados de crescimento do pseudobulbo de Laelia
purpurata.
Condições Md Q1 Q3 Min Máx Q1 – Q3
Luz direta
Luz
Indireta
Dados discrepantes valor menos que Q1- 1,5DI ou maior que Q3+1,5DI
Então esse valor é considerado valor discrepante (outlier).
DI = Q3-Q1 = Distância interquartílica
Exercício 43: (Andrade DF e Ogliari PJ, 2007) Para se estudar o comportamento de duas
variedades de cana-de-açúcar, realizou-se um experimento do qual foram obtidos os resultados
indicados na tabela a seguir.
a) Calcule md, Q1, Q3, DI, Q1-1,5DI e Q3 + 1,5DI para cada uma das variedades.
b) Faça o desenho esquemático múltiplo para os dados das variedades 1 e 2.
c) Compare os dois conjuntos de dados através do desenho do item ―b‖.
111
a) Construa o histograma para os dados da precipitação e comente-o.
b) Obtenha a caixa-de-bigodes dos dados e comente-a.
c) Calcule a precipitação média e mediana diária em Lisboa, naquele mês. Compare os valores
obtidos da média e da mediana e comente, tendo em atenção que ambos são indicadores de
localização.
Exercício 45: (Andrade DF e Ogliari PJ, 2007) Para se estudar o comportamento de uma
planta típica de dunas, a Hydrocotille sp, quanto ao seu desenvolvimento, mediu-se o tamanho
do pecíolo(cm), em duas áreas: seca e úmida. Selecionou-se de cada uma dessas áreas,
amostras aleatórias de plantas e mediu-se o tamanho dos pecíolos. Os dados são fornecidos na
tabela 1.
a) Calcular a md, Q1, Q3, DI, Q1-1,5DI e Q3 + 1,5DI para cada uma das variedades.
b) Faça o desenho esquemático múltiplo para os dados das áreas seca e úmida.
c) Compare os dois conjuntos dados, quanto às principais características, através do
desenho do item ―b‖.
112
Exercício 46: Diga justificando se são verdadeiras ou falsas as afirmações que se seguem:
a) A amplitude interquartil é metade da amplitude total.
b) A media está sempre entre o primeiro e o terceiro quartil.
c) A mediana está sempre entre o primeiro e o terceiro quartil.
d) O desvio padrão é sempre igual a amplitude interquartil.
e) O desvio padrão é menor do que a media dos desvios relativos a média.
Podemos observar que os três conjuntos apresentam a mesma média aritmética = 200/5 = 40.
No entanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que
todos os valores são iguais a média. O conjunto Y por sua vez, é o mais homogêneo que o
conjunto Z, pois há menor variação entre cada um de seus valores e a média representativa.
113
A média é extremamente útil como uma medida que objetiva representar/ resumir um
conjunto de dados, mas também é imprescindível ao pesquisador ter conhecimento da variação
que ocorre em torno desta média. Para isso o cálculo das medidas de variabilidade contribui
para uma melhor interpretação do comportamento de uma variável quantitativa (sua média e
sua variação).
114
Exemplo 34: Dois analistas analisaram uma amostra, sob as mesmas condições que foram
enviadas ao laboratório para a determinação de um elemento. Os analistas realizaram seis
determinações cada e obtiveram os seguintes resultados em ppm:
Analistas Determinações (ppm)
Analista 1 6,1 6,2 6,2 6,3 6,2 6,2
Analista 2 6,3 6,1 6,2 6,1 6,0 6,5
Nota: dados fictícios
É a diferença entre o maior e o menor valor do conjunto, sendo a mais simples das
medidas de dispersão, porém de grande instabilidade, porque considera somente os valores
extremos do conjunto. Também é chamada de desvio extremo.
H = Xmáx. - Xmín.
Dados não-tabelados:
Exemplo 35:
H1 =
H2 =
2 população
Variância [Simbologia 2 ]
s amostra
Uma boa medida de dispersão deve basear-se em todos os dados, ser facilmente
calculável e compreensível, além de prestar-se bem ao tratamento algébrico.
Uma medida com todas estas características é obtida considerando-se os desvios de
cada observação em relação a média, chamados erros (ei), para uma população, ele é
escrito como (xi-µ); para uma amostra, o desvio em torno da média é escrito como (
).
115
Para obter um único número que represente a dispersão dos dados, pensou-se
inicialmente em obter-se a média destes desvios, mas deve-se lembrar que a soma dos
desvios de um conjunto de dados em relação a sua média é nula.
Então, optou-se por utilizar a soma dos quadrados dos desvios, pois elevando-se cada
desvio ao quadrado elimina-se o sinal negativo, que estava trazendo complicações; e
dividindo-se a soma dos quadrados dos desvios pelo número de observações obtém-se
a variância populacional , denotada pelo símbolo grego σ2.
s 2 . Quanto maior for a variação dos valores do conjunto de dados, maior será a variância.
A variância de uma amostra é a média dos quadrados dos desvios dos valores em relação à
média.
População Amostra
x X
k k
x
2 2
i i
2 i 1
s2 i 1
N n 1
2 população
2
s amostra
∑( ̅) ( ̅) ( ̅) ( ̅)
116
Exemplo 36: Considere o exemplo abaixo:
Analistas Determinações (ppm)
Analista 1 6,1 6,2 6,2 6,3 6,2 6,2
Analista 2 6,3 6,1 6,2 6,1 6,0 6,5
=
Interpretação: Encontramos uma variância para as determinações do analista 1 de 0,004
ppm2.
=
Interpretação: Encontramos uma variância para o tempo até o início do efeito do sonífero de
0,032 ppm2.
população
Desvio padrão [Simbologia ]
s amostra
O desvio padrão é uma das medidas mais úteis da variação de um grupo de dados. A
vantagem do desvio padrão sobre a variância, é que este permite uma interpretação direta da
variação do grupo, pois o mesmo é expresso na mesma unidade em que estão expressas as
medidas observadas.
117
O desvio padrão é a raiz quadrada da variância, então, é calculado por:
s s2
√ 0,063 ppm
√ 0,179 ppm
Lembrando que a média das determinações entre os analistas foram iguais. Agora
levando em consideração o desvio-padrão, e comparando-os, pode-se concluir que o analista 1
teve menor desvio-padrão, menor variabilidade.
Exemplo 37: Para avaliar um novo método para determinação de ferro, um químico preparou
uma solução de concentração conhecida, 30 mg/L de Fe, esta solução foi analisada 6 vezes, os
resultados obtidos foram: 28,2 – 31,0 – 26,6 – 31,5 – 25,8 – 32,9
118
2ª Situação: Variância para dados tabelados por ponto:
Assim:
População Amostra
x X fi
k k
xi f i
2 2
i
2 i 1
s2 i 1
N n 1
Variância amostral:
X x . f
2
S 2 i i
n 1
Onde:
∑( ̅) ( ̅) ( ̅) ( ̅)
119
Exemplo 38: Um químico determinou 12 vezes, em uma amostra de água, o teor de ferro por
absorção atômica e obteve a seguinte distribuição de frequência:
120
Exercício 48: Vamos considerar agora um exemplo onde os dados estejam apresentados em
uma distribuição de frequências:
Tabela. Tempo (horas) semanais de atividade física
Tempo (x) Nº pessoas (f)
0 5
2 25
4 30
6 2
Total 62
Interpretação: ―Em média estas pessoas praticam atividades físicas 2,9 horas por semana,
com uma variação em torno desta média de 1,4 horas semanais”.
Identifique:
Amostra
a) População
Calcule e interprete:
b) Média
c) Desvio-padrão
121
3ª Situação: Variância para dados tabelados por classe
Variância amostral:
X x . f
2
S
2 i i
n 1
Onde Xi = Ponto médio da classe i
Exemplo 39: Massa das sementes, em gramas, em uma amostra de 30 bagas em pontos de
uma determinada área. Encontre a variância e o desvio-padrão.
Idade fi
5,5 |- 6,5 1
6,5 |- 7,5 20
7,5 |- 8,5 7
8,5 |- 9,5 2
Total 30
Interpretação:
122
Propriedades da variância
123
O coeficiente de variação pode também ser expresso como percentagem da média.
População Amostra
CV 100% CV
s
100%
X
Importante!
● Quanto maior o CV, mais heterogêneos serão os dados.
Exemplo 40: Em um laboratório, a concentração média de cálcio analisada seis vezes foi 48
mg/L com desvio padrão de 2,9mg/L. E uma análise do cobre médio, num mineral resultou
em 4,8%, com desvio padrão de 0,16 %.
Então: CV Ca:
CV Cobre:
Qual amostra apresentou maior variação?
Exemplo 41: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de
indivíduos:
Discriminação Média Desvio padrão
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg
124
O coeficiente de variação é bastante utilizado em estudos de dinâmica de
populações vegetais ou animais. Outra aplicação importante do coeficiente de variação ocorre
na estatística experimental, pois ele indica a precisão do experimento, ou seja, a capacidade de
o realizarmos novamente, sob as mesmas condições, e produzir resultados semelhantes. Quais
são os valores de CV aceitáveis na experimentação? Os valores dos coeficientes de variação
dependem do tipo de pesquisa e da variável em estudo; sendo assim, não existe uma
orientação geral, deve-se fazer uma busca bibliográfica em pesquisas similares. Numa situação
de ensaios agrícolas de campo, para culturas anuais como soja, milho e feijão e variável
rendimento de grãos, temos a seguinte orientação:
CV≤10% Baixo
10%≤CV≤20% Médio
20%≤CV≤30% Alto
CV≥30% Muito alto
125
LISTA DE EXERCÍCIOS:
MEDIDAS DE VARIABILIDADE
1.
Área 1
Acidez: 2,7 – 3,1 – 3,5 – 3,5 – 2,7
Ph: 3,12 – 3,11 – 2,9 – 2,82 – 3,32
Altura(mm): 12,56 – 13,10 – 12,05 – 12,29 – 12,85
º Brix: 18,5 – 18,2 – 15,9 – 16,5 – 18,5 – 18,5
Antocianinas (mg g-1): 789,15 – 845,76 – 677,64 – 843,32 – 777,63
Área 2
Acidez : 2,8 – 2,8 – 3,3 – 2,2- 2,6 – 2,6 – 3,1 – 2,3 – 2,3 – 2,4
Ph: 3,30 – 3,47 – 3,22 – 3,60 – 3,07 – 3,43 – 3,54 – 3,57 – 3,39- 3,30
Altura (mm): 13,11 – 13,65 – 13,20 – 12,36 – 11,93 – 13,27 – 12,96 – 13,00 – 11,72 – 12,34
ºBrix: 19,80 – 17,70 – 19,80 –19,80 - 19,00 – 20,30 – 19,50 – 18,10 – 18,50 – 21,00
Antocianinas (mg g-1): 750,86 – 688,97 – 647,15 – 673,57 – 663,87 – 710,39 – 668,95 –
684,08 – 733,44 – 662,94
vestibulandos:
8 10 5 8 8
Amostra:
Variável:
Média:
Encontre a variância e o desvio-padrão:
126
4. Num experimento com tomates de uma mesma variedade foi testado 3 tipos de adubos, com
4 vasos de cada.
Considere a produção de frutos por planta:
Adubo 1 22 24 23 22
Adubo 2 24 25 26 22
Adubo 3 28 18 21 25
5. Uma empresa de espumantes, após uma grande fusão, estuda a possibilidade de alterar o
rótulo de uma de suas marcas, usando formas e cores mais vivas. Para avaliar se existe
vantagem em alterar o rótulo, a empresa levou a cabo uma pesquisa de marketing. Enlatou o
espumante com rótulo tradicional e com rótulo novo. A pesquisa foi feita em 8
estabelecimentos comerciais. Em 4 deles, extraídos por sorteio, colocou-se o produto com o
rótulo novo e, nos outros 4, manteve-se o produto com rótulo tradicional. Após um mês,
avaliou-se a quantidade vendida em cada estabelecimento. Os estabelecimentos que usaram o
rótulo tradicional tiveram os seguintes resultados nas vendas (em milhares de unidades): 6, 5,
2, 2. Os estabelecimentos que usaram o rótulo novo tiveram os seguintes resultados nas vendas
(em milhares de unidades): 4, 9, 5, 6. Compare as medidas descritivas das vendas de acordo
com o tipo de rótulo.
(valores granulométricos) xi fi
36 5
38 3
39 3
40 4
44 3
47 2
Total 20
Calcule e interprete:
a) a média, mediana e a moda para os valores granulométricos; R: média = 39,85; md =
39; mo = 36
b) variância, desvio-padrão e o coeficiente de variação.R: S2 = 12,66, s = 3,56, cv =
8,93%
9. Foram registrados os tempos de internação, apresentados a seguir, em 11 pacientes
admitidos na unidade de tratamento intensivo do Hospital H. Calcule as durações de
internação média e mediana desses pacientes e o desvio padrão. Interprete o valor da mediana.
Paciente nº: 1 2 3 4 5 6 7 8 9 10 11
Tempo (dias): 7 6 11 24 14 8 12 10 18 9 14
10. Calcule média, mediana e desvio padrão para os dados a seguir, referentes à quantidade de
magnésio medido no rio Mogi-Guaçu, SP, em 1988 (melo, 1993). Qual a melhor medida de
tendência central neste caso? Explique.
X (MG/ml): 1,2 1,5 4,0 1,5 1,5 1,8
11. Calcule média, mediana, moda, amplitude, variância e desvio padrão para os seguintes
dados, referentes à glicemia de 10 pessoas:
X (MG/100ml): 65 62 68 65 72 70 65 63 65 56
128
12. Certa bióloga mensurou a quantidade de potássio em 12 amostras de água de um rio e
obteve os dados a seguir (melo, 1993). Encontre a média e o desvio padrão. Interprete-os.
X (mg/L): 1,0 0,7 0,9 1,1 0,8 0,9 0,8 1,0 0,8 0,8 0,9 0,9
13. Gestantes de dois hospitais de Porto Alegre, que fizeram acompanhamento pré-natal,
relataram o número de consultas realizadas neste período (Pinheiro, 1989). Foram estudadas
687 gestantes da Santa Casa de Misericórdia e 570 do Hospital de Clínicas. Calcule uma
medida de tendência Central para estes dados e compare os dois hospitais, sem realizar teste
estatístico.
Nº de 1 2 3 4 5 6 7 8 Total
consultas
Santa 34 66 109 106 98 92 69 113 687
Casa
Hosp. 2 8 13 31 67 125 103 221 570
Clínicas
14. Os dados abaixo se referem o número de compras realizadas via Internet de uma amostra
de 7 indivíduos do sexo feminino:
10 15 22 10 16 10 25
Calcule e interprete:
15. Abaixo, estão as rendas mensais (em Reais) de 10 empresários do setor calçadista do RS:
7500,00 3600,00 3300,00 5000,00 4100,00 5500,00 4000,00 3500,00 5600,00 10400,00
16. Duas turmas de Estatística apresentam as seguintes estatísticas para as notas na prova G1:
Turma A: média = 7,8 pontos e desvio-padrão = 1,4 pontos
Turma B: média = 8,2 pontos e desvio-padrão = 2,5 pontos.
Qual das duas turmas teve um desempenho mais homogêneo na prova G1? Justifique.
129
17. Considere o seguinte Banco de Dados sobre alunos de um curso pré-vestibular:
Aluno Há quanto tempo você parou Idade Trabalha Qual matéria você acha
de estudar? (anos) (anos) mais difícil?
1 2 20 Sim Matemática
2 3 19 Não Física
3 1 20 Sim Física
4 4 20 Sim Química
5 2 20 Não Matemática
6 2 24 Sim Química
7 3 20 Sim Português
8 3 19 Não Matemática
9 4 19 Sim Matemática
10 1 20 Não Português
Através dos resultados apresentados no Banco de Dados acima calcule:
18. Um grupo de 100 estudantes tem uma estatura média de 163,8 cm e um coeficiente de
variação de 3,3%. Qual o desvio – padrão para as estaturas desse grupo?
20. Uma solução padrão de amida (230 ppm) está sendo usada como referência de um método
analítico no laboratório, o químico anotou as 10 últimas determinações para uma avaliação:
231 – 230 – 230 – 232 – 226 – 227 – 230 – 228 – 229 – 227
130
Encontre: a média, mediana, moda, desvio padrão e o coeficiente de variação.
R: média = 229; md = 229,5 mo = 230; s = 1,94 cv = 0,84%
21. Para preparar um padrão secundário, para as análises de índice de fluidez em polímeros,
um técnico de laboratório analisou 10 vezes sob as mesmas condições, no mesmo laboratório e
em três equipamentos diferentes uma mesma amostra de polímero, encontrando os seguintes
valores de fluidez (g/10’):
Equipamento A: 3,1 – 3,0 – 3,0 – 3,2 – 2,8 – 2,9 – 3,0 – 2,8 – 2,9 – 3,1
Equipamento B: 2,9 – 3,0 – 3,1 – 3,2 – 2,8 – 2,9 – 3,0 – 2,9 – 2,9 – 3,1
Equipamento C: 3,1 – 3,0 – 3,1 – 3,2 – 2,9 – 2,8 – 3,1 – 2,9 – 2,9 – 3,1
Calcular a média, moda, mediana, amplitude, desvios das medidas, variância, desvio padrão e
coeficiente de variação dos resultados obtidos pelo químico em cada equipamento. Qual dos
equipamentos apresentou resultados mais homogêneos?
R: A (média = 2,98, mo = 3,0; md = 3,0; H = 0,4; s2 = 0,017; s = 0,13 cv= 4,4%)
B (média = 2,98, mo = 2,9; md = 2,95; H = 0,4; s2 = 0,015; s = 0,122 cv= 4,13%)
C (média = 3,01, mo = 3,1; md = 3,05; H = 0,4; s2 = 0,017; s = 0,13 cv= 4,32%)
22. A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma
empresa de ônibus.
Número de acidentes 0 1 2 3 4 5 6 7
Número de Motoristas 20 10 16 9 6 5 3 1
Determine:
a) A média, a mediana e a moda. R: média = 2,04; md = 2 mo = 0
b) A amplitude total, a variância, o desvio-padrão e o coeficiente de variação.
R: H = 7, s2 = 3,49; s = 1,87 cv= 91,58%
23. O transporte público e o automóvel são dois meios que um empregado pode usar para ir ao
trabalho diariamente. Amostras de tempo para cada meio estão registradas a seguir.
Os tempos estão e minutos.
T. Público 28 29 32 37 33 25 29 32 41 34
Automóvel 29 31 33 32 34 30 31 32 35 33
a) Calcule o tempo médio da amostra de cada meio de transporte para ir ao trabalho. R:
TP (média = 32) A (média = 32)
b) Calcule o desvio-padrão da amostra de cada meio de transporte. Stp = 4,64; sA= 1,83
c) Com base nos resultados de a) e b) que meio de transporte deve ser preferido.
Explique.
131
24. Classifique as variáveis apresentadas na tabela abaixo:
Cultivar de tomates
pH solo T(ºC) solo germinação Adubação Básica (Kg/ha) Principais pragas
P2O5
5,5 15 450 Lagarta Rosca
5,8 20 465 Pulgão
6,1 28 520 Larva Minadora
5,8 22 450 Traça do Tomateiro
6,2 23 580 Pulgão
6,2 20 480 Lagarta Rosca
5,6 22 599 Pulgão
10 15 22 10 16 10 25
Calcule e interprete:
27. A tabela abaixo representa a Idade (em anos) do início do tabagismo (ato de fumar) de
uma amostra de 340 homens:
Calcule e interprete:
a) Média de faltas; R: 0,81
b) Desvio-padrão das faltas; R:
1
c) Coeficiente de Variação. R:
123%
133
29. Uma amostra com o peso de 46 peças já embaladas de um processo de produção está na
tabela abaixo:
30. Falhas de energia. A duração ( em minutos) das falhas de energia em uma residência nos
últimos 10 anos. Encontre e interprete: a média, a moda e a mediana.
18 26 45 75 125 80 33 40 44 49
89 80 96 125 12 61 31 63 103 28
31. Aeronaves. O número de aeronaves que as linhas aéreas têm em suas frotas. (Fonte:
Airline Transport Association)
34. Em uma amostra aleatória de aviões, listamos o número de defeitos encontrados em suas
fuselagens. Encontre a média amostral e o desvio padrão dos dados.
Número de defeitos 0 1 2 3 4 5 6
Número de aviões 4 5 2 9 1 3 1
134
35. (Andrade DF e Ogliari PJ, 2007) Os dados da tabela 1 correspondem à variável número
de brotos por explante de abacaxi avaliada em dois meios de cultura (Meio 1 e Meio 2).
Comparar os dois meios de cultura quanto aos seguintes aspectos:
a) Valores representativos;
b) Dispersão
Meio1 47 35 23 21 23 26 18
30 22 36 22 21 19
Meio2 13 11 15 24 20 20 19
18 22 22 20 17 25
36. Numa experiência medem-se fluxos de calor de meia em meia hora, das 7h `as 18h
(inclusive), durante três dias consecutivos. Os resultados obtidos (em W m−2) são indicados
na tabela em baixo. Ao lado da tabela estão as caixas-de-bigodes dos três dias, sem qualquer
ordem aparente. Os dados foram introduzidos no software e estão disponíveis no objeto fluxo
Calor, no ficheiro ―FluxoCalor.RData‖.
37. Num estudo realizado para avaliar o efeito de três sprays, A, B e C, em insetos,
organizaram-se 3 grupos de 12 recipientes cada, nos quais se colocou o mesmo número de
135
insetos a que se aplicaram aqueles inseticidas. Indicadores relativos ao no de insetos mortos em
cada um deles, encontram-se no quadro e diagrama seguintes.
a) Associe cada boxplot a cada spray, indicando o valor das barreiras de outliers
no primeiro diagrama. Justifique.
b) Compare os três conjuntos de dados quanto à localização, dispersão e simetria.
c) Para a totalidade das observações calcule a média, a variância e a amplitude total.
137
4. PROBABILIDADE
" A teoria das probabilidades, no fundo, não é mais do que o bom senso traduzido
em cálculo; permite calcular com exatidão aquilo que as pessoas sentem por uma
espécie de instinto... É notável que tal ciência, que começou nos estudos sobre jogos
de azar, tenha alcançado os mais altos níveis do conhecimento humano.” Laplace
138
feito pelo botânico Fisher. Nessa época surge o que hoje chamamos Inferência Estatística
(inferir, como conceito estatístico, significa generalizar).
1ª) Não se conhece um particular valor do experimento antes dele ser executado, porém
podemos descrever todos os possíveis resultados - as possibilidades;
2ª) Quando o experimento é repetido algumas vezes, os resultados ocorrem de uma forma
aparentemente acidental. Mas quando o número de repetições aumenta, uma regularidade
aparecerá. E esta regularidade que torna possível construir um modelo matemático preciso
para analisar o experimento.
ATIVIDADE PRÁTICA:
P – representa a probabilidade
140
NÃO ESQUEÇA!
0 P(A) 1
ou ainda
0% P(A) 100%
Exemplo 42: Considere uma caixa contendo 10 brindes: 4 livros, 2 celulares, 1 rádio e 3
perfumes. Você tem direito a um destes brindes que serão sorteados. Qual a probabilidade de
você:
a) Ganhar um livro
b) Ganhar um celular
c) Ganhar um rádio ou um celular
d) Não ganhar perfume
P( A ) 1 P( A)
A B
142
Se A e B são dois eventos dependentes então:
A B
AeB
Atenção!
Dois eventos são independentes quando a ocorrência ou não de um evento não tem
efeito algum na probabilidade de ocorrência do outro evento. Dois eventos são
dependentes quando a ocorrência ou não-ocorrência de um evento afeta a
probabilidade de ocorrência do outro.
143
Exercício 50: De 300 estudantes do curso de Viticultura e Enologia, 100 são matriculados em
Estatística e 80 em Química Enológica. Estes dados incluem 30 estudantes que estão
matriculados em ambas as disciplinas. Qual a probabilidade de um estudante de Viticultura e
Enologia selecionado ao acaso estar matriculado em Estatística ou Química Enológica? R:
0,50 ou 50%
Exercício 51: De 100 pessoas que solicitaram emprego de enólogo, durante o ano passado, 65
possuíam experiência anterior e 30 possuíam um certificado profissional. Vinte dos candidatos
possuíam tanto experiência anterior como certificado profissional. Qual a probabilidade de um
candidato selecionado ao acaso deste grupo tenha experiência anterior ou certificado
profissional? R: 0,75 ou 75%
Exemplo 46: Em uma linha de produção a probabilidade de uma peça fabricada estar fora das
especificações em relação a sua largura é 2%, em relação ao seu comprimento é 5%.
Considere que a ocorrência de defeito na largura ou comprimento acontece de forma
independente. Uma peça foi aleatoriamente selecionada desta linha de produção e seu
comprimento e largura verificados pelo controle de qualidade, qual a probabilidade desta peça:
Exercício 52: A probabilidade de um homem estar vivo daqui a 30 anos é de 40% e de sua
mulher é de 65%. Qual a probabilidade de que daqui a 30 anos:
a) ambos estejam vivos (R: 0,26)
b) somente a mulher esteja viva (R: 0,39)
c) ambos estejam mortos (R: 0,21)
d) somente a mulher esteja morta (R: 0,14)
e) um deles esteja vivo (R: 0,53)
Exercício 54: Um terço dos eleitores de certa comunidade é constituído por homens e 10%
dos eleitores votaram em branco na última eleição. Supondo que estes eventos sejam
independentes, determine a probabilidade de escolher aleatoriamente um homem e este er
votado em branco na última eleição. (R: 0,033)
Exercício 55: Em 25% das vezes João chega em casa tarde para jantar. Por outro lado, o jantar
atrasa 10% das vezes. Se não há qualquer relacionamento entre os atrasos de João e os atrasos
para jantar, qual é a probabilidade de ocorrerem ambos os atrasos? (R: 0,025)
Exercício 56: As falhas de diferentes máquinas são independentes umas das outras. Se há 4
máquinas e suas respectivas falhas são: 1%, 2%, 5% e 10% em determinado dia, calcule a
probabilidade de:
145
a) todas falharem (R: 0,000001)
b) nenhum falhar (R: 0,829521)
Exercício 57: Marcelo tem dois velhos automóveis. Nas manhãs frias, há 20% de
probabilidade de um deles não pegar e 30% do outro não pegar. Em uma manhã fria qual a
probabilidade de:
a) nenhum pegar (R: 0,06)
b) apenas 1 pegar (R: 0,38)
P(A e B)
Onde: P(B/A)
P(A)
A B
P(B/A)
A AeB
AeB
146
Exemplo 47: Um lote de 10 garrafas produzidas por uma fábrica contém 8 peças boas e 2
defeituosas. Duas garrafas são retiradas aleatoriamente sem reposição pelo comprador do lote.
Qual é a probabilidade de:
Exercício 58: Um fabricante produz HDs em 3 fábricas (A, B, C), que respondem
respectivamente por 40%, 35% e 25% de sua produção total. Registros históricos indicam que
2% da produção de A é defeituosa, assim como 1% da de B e 3% da fábrica C. Escolhemos
aleatoriamente um HD e ele é defeituoso. Qual é a probabilidade dele ter sido produzido na
fábrica B? (R: 0,184)
Exercício 59: Ao responder uma pergunta num teste de múltipla escolha um candidato ou
sabe a resposta correta ou tenta adivinhar a resposta correta. Seja 0,75 a probabilidade de que
o candidato saiba a resposta correta da questão. Caso não saiba a resposta correta o candidato
escolhe uma entre 4 opções com probabilidade de 0,25 de acerto. Qual é a probabilidade
condicional de que o candidato realmente saiba uma questão que este tenha respondido
corretamente. (R: 0,9231)
Exercício 60: Duas urnas guardam bolas brancas e pretas. Uma das urnas (urna A) tem 3
bolas brancas e 1 preta enquanto que a outra (urna B) tem 3 bolas brancas e 3 bolas pretas.
Escolhendo-se uma urna ao acaso e em seguidas, sucessivamente e com reposição duas de
suas bolas a probabilidade de ocorrer uma branca e uma preta é: ( R: 0,4375)
Exercício 61: Suponhamos que é igual a 0,005 a probabilidade de uma pessoa, escolhida ao
acaso numa população, necessitar de ser hospitalizada durante um dado mês. Se duas pessoas
são escolhidas, completamente estranhas uma da outra, qual a probabilidade de:
a) Ambas necessitarem de hospitalização naquele mês;
b) Nenhuma delas;
c) Pelo menos uma delas.
Exercício 62: Suponha que determinado medicamento, usado para diagnóstico precoce da
gravidez, seja capaz de confirmar casos positivos em 90% de mulheres muito jovens. Isto
porque, em 10% de gestantes muito jovens, ocorre uma escamação do epitélio do útero, que é
147
confundido com a menstruação. Nestas condições qual a probabilidade de 2 entre 3 gestantes
muito jovens, que fizeram o uso deste medicamento, não terem confirmado precocemente a
gravidez? R: 2,7%
Exercício 66: Um casal planeja ter três filhos. Determine a probabilidade de nascerem:
a) Três homens; R:1/8
b) Dois homens e uma mulher. R: 3/8
Exercício 68: Um terço dos eleitores de certa comunidade é constituído por homens e 10%
dos eleitores votaram em branco na última eleição. Supondo que estes eventos sejam
independentes, determine a probabilidade de escolher aleatoriamente um homem e este er
votado em branco na última eleição. (R: 0,033)
Exercício 69: Em 25% das vezes João chega em casa tarde para jantar. Por outro lado, o jantar
atrasa 10% das vezes. Se não há qualquer relacionamento entre os atrasos de João e os atrasos
para jantar, qual é a probabilidade de ocorrerem ambos os atrasos? (R: 0,025)
148
Exercício 70: Marcelo tem dois velhos automóveis. Nas manhãs frias, há 20% de
probabilidade de um deles não pegar e 30% do outro não pegar. Em uma manhã fria qual a
probabilidade de:
a) nenhum pegar (R: 0,06)
b) apenas 1 pegar (R: 0,38
Exercícios Probabilidade:
1. Ao lançar um dado, qual a probabilidade de ocorrer um número maior que 3?
2. Considere o experimento com uma urna que contém 3 bolas brancas, 5 bolas verdes e 2
vermelhas. Retirando-se uma bola, identifique:
a) Defina a espaço amostral do experimento
Qual a probabilidade de sair
b) uma bola verde
c) uma bola branca
d) uma bola vermelha
e) uma bola verde ou branca
f) uma bola que não seja vermelha
g) uma bola azul
7. Uma urna marcada com a letra A contém 3 bolas brancas, 2 bolas verde e 1 bola preta. Uma
urna marcada com a letra B contém 1 bola branca, 4 bolas verdes e 2 bolas pretas e uma
149
urna marcada com a letra C contém 2 bolas brancas 3 bolas vedes e 2 bolas pretas. Se
forem retiradas uma bola da urna A, uma bola da urna B e uma bola da urna C, qual a
probabilidade de sair:
a) uma bola branca, uma bola verde e uma bola preta, respectivamente
b) uma bola verde, uma bola branca e uma bola preta, respectivamente
c) uma bola branca, uma bola verde e uma bola branca, respectivamente
d) todas serem brancas
e) todas serem verde
9. Uma urna contém 7 moedas de 50 centavos e 5 moedas de 10 centavos. Duas moedas são
retiradas ao acaso, sem reposição. Qual a probabilidade de se retirar desta urna:
a) 1 real
b) 60 centavos
c) 5 reais
d) 20 centavos
10. Sabe-se que a probabilidade de um aluno do sexo feminino obter aprovação em um teste é
80% e de um aluno do sexo masculino é de 60%. Considerando que ambos alunos façam
seus testes independentemente Qual a probabilidade de:
a) somente o aluno de o sexo feminino obter aprovação;
b) ao menos um dos alunos seja aprovado;
c) os dois sejam reprovados.
11. Uma caixa contém 20 canetas iguais das quais 7 são defeituosas, em uma outra caixa há 12
canetas, das quais 4 são defeituosas. Uma caneta é retirada de cada caixa, determine a
probabilidade de:
a) ambas canetas retiradas sejam defeituosas
b) uma ser perfeita e a outra não
12. Uma nova técnica cirúrgica é bem sucedida em 90% dos casos. Se a operação for efetuada
6 vezes, e se for possível supor os resultados dessas operações independentes:
a) Qual a probabilidade de duas operações serem bem sucedidas?
b) E menos de 3?
c) E nenhuma?
150
15. Um casal planeja ter três filhos. Determine a probabilidade de nascerem:
c) Três homens; R:1/8
d) Dois homens e uma mulher. R: 3/8
16. De um grupo de 200 pessoas, 160 têm RH positivo, 100 têm sangue tipo O e 80 têm fator
RH e sangue tipo O. Se uma pessoa for selecionada ao acaso, qual a é a probabilidade de:
a) Seu sangue ter fator RH positivo? R: 160/200
b) Seu sangue não ser tipo O? R: 100/200
c) Seu sangue ter fator RH positivo ou ser tipo O? R: 180/200
Sorteia-se um vaso ao acaso. Dado que o vaso sorteado recebeu a variedade 2, qual a
probabilidade de que ele tenha sido tratado com o adubo 1:
A1- Tratado com o adubo 1
A2- Tratado com o adubo 2
A3- Tratado com o adubo 3
A4- Tratado com o adubo 4
19. Um produtor aceitará um lote com cem sacos de sementes fiscalizadas, se uma amostra de
cinco sacos escolhidos ao acaso do lote e inspecionada, não contiver nenhum com poder
151
germinativo inferior ao especificado. Qual é a probabilidade de que ele aceite o lote se este
contém dez sacos com poder germinativo abaixo do especificado?
20. Suponha que em uma epidemia de gripe 60% das pessoas Pegam o vírus. A experiência
tem mostrado que uma vacina vem tendo sucesso de 80% na prevenção da gripe, quando
aplicada em pessoas expostas a uma epidemia.
Tipo do leite
B (B) C(C) UHT (U) Total
Dentro das especificações 500 4.500 1.500 6.500
(D)
30 270 50 350
Fora das especificações (F)
Total 530 4.770 1.550 6.850
Incertezas
152
5 Teoria da probabilidade e seus modelos
Vimos que o objetivo da inferência estatística é tirar conclusões sobre populações
com base nos resultados de amostras extraídas dessas populações. Como vamos trabalhar com
amostras, o processo não pode ser exato. Ao se fazer inferências sobre uma população,
portanto, estamos sempre sujeitos a cometer erros; isto é, o pesquisador não pode fazer
afirmativas com 100% de certeza. Isto, porém, não deve desesperançá-lo, pois a inferência
estatística permitirá dizer até que ponto se pode estar errando, em termos probabilísticos. Por
exemplo, poderemos afirmar com 95% de confiança que a real diferença entre as médias de
dois tratamentos é um valor no intervalo de 694 a 1.589 kg/ha. Então é possível determinar
limites dentro dos quais a verdadeira diferença deve encontrar-se, com um certo grau de
confiança definido pelo pesquisador. Esses intervalos são conhecidos como intervalos de
confiança, que serão estudados nos capítulos 7 e 8.
A espinha dorsal da inferência estatística é a teoria da probabilidade, com seus
modelos probabilísticos.
O que é um modelo? Modelo é uma versão simplificada de algum evento, fenômeno
ou acontecimento da vida real. Por exemplo, um globo terrestre é uma versão simplificada
do planeta Terra. Uma maquete de um prédio e um layout (distribuição interna) também são
exemplos de modelos.
Por exemplo, suponhamos que 10 vacas de mesma idade e raça são tratadas com uma
determinada ração para aumentar a produção de leite. (total da lactação). Admitamos que a
probabilidade de aumento de lactação de cada animal é de 0, 65. Então podemos estar
interessados em saber qual é a probabilidade de exatamente 8 vacas aumentarem a na
lactação. O modelo que possibilita o cálculo desta probabilidade é denominado de modelo
binomial.
Um modelo deve simplificar as coisas, e certos pormenores devem ser desprezados. É
claro que estes pormenores não devem ter importância para o entendimento do fenómeno em
estudo. A resolução do problema matemático pode estar correta e, mesmo assim, estar em
grande discordância com os dados observados, simplesmente porque as hipóteses básicas
feitas não são confirmadas. Por isso, é muito importante deduzir certas consequências do
modelo e, a seguir, comparar esses resultados previstos pelo modelo dados reais (observados).
É a validação do modelo.
153
5.1 Variáveis Aleatórias (v.a.s)
O Citibank, principal subsidiária do Citigroup, Inc., fornece ampla gama de serviços financeiros (por
exemplo, contas correntes e contas de poupança, empréstimos e hipotecas, serviços de seguros e de
investimentos), por meio da estrutura estratégica exclusiva para prestar serviços, denominada
Citibanking. Essa estrutura permite ai cliente gerenciar seu dinheiro a qualquer hora, em qualquer lugar e
de acordo com sua preferência.
Os caixas Automáticos de última geração do Citibanking, localizados nos centros bancários
Citicard (CBCs), possibilitam aos usuários realizar todos os serviços bancários 24 horas por dia, sete dias
por semana. Mais de 150 diferentes funções bancárias, que variam de depósitos à gestão de
investimentos, podem ser executadas com facilidade.
Cada caixa automático do Citibanking opera como um sistema de fila de espera, e os clientes que
buscam serviços chegam aleatoriamente. Se todos estiverem ocupados, os clientes que chegam esperam
na fila.
Estudos periódicos de capacidade dos caixas são utilizados para analisar o tempo de espera dos clientes e
determinar se caixas adicionais são necessários.
Os dados coletados pelo Citibank mostraram que as chegadas de clientes seguiam uma
distribuição de probabilidade conhecida como distribuição de Poisson. O Citibank pode calcular
probabilidades relativas ao número de clientes que chegam a um caixa durante qualquer período e tomar
decisões quanto ao número de caixas automáticos necessários.
Por exemplo, seja x igual ao número de clientes que chegam durante o período de um minuto. A
tabela seguinte mostra as probabilidades relativas ao número de clientes que chegam durante o período
de um minuto.
x Probabilidade
0 0,1353
1 0,2707
2 0,2707
3 0,1804
4 0,0902
5 ou mais 0,0527
154
Noções sobre variáveis aleatórias
155
Outros exemplos v.a. discretas
Experimentos Variável aleatória (x) Valores possíveis para V.A.
Contatar cinco clientes Número de clientes que 0,1,2,3,4,5
colocam um pedido de
compra
Operar um restaurante Número de clientes 0,1,2,3,....
durante um dia
Vender um automóvel Gênero do cliente 0 se for masculino; 1 se for
feminino
156
Assim:
Uma variável aleatória é considerada discreta se toma valores que podem ser contados.
Uma variável aleatória é considerada contínua quando pode tomar qualquer valor em
determinado intervalo.
157
Variáveis aleatórias discretas [Simbologia: VAD]
Seja X uma variável aleatória. Se o número de valores possíveis de X, Rx (contra-
domínio de X) for finito ou infinito numerável (números naturais ou inteiros), denomina-se
X de variável aleatória discreta.
As variáveis aleatórias discretas surgem, em geral, de medidas de enumeração ou
contagem, como por exemplo, número de pontos obtidos em um teste, número de insetos
por planta, número de peças boas, número de pessoas que votam, número de erros em
contas, etc.
Exemplo 48: Lançam-se três moedas. Seja X o número de ocorrências da face cara.
Determinar a distribuição de Probabilidade de X.
Nº de caras
Resultado Valor da V.A
Cara cara cara 3
Cara cara coroa 2
Cara coroa cara 1
Coroa cara cara 2
Coroa coroa cara 1
Coroa cara coroa 1
Cara coroa coroa 1
Coroa coroa coroa 0
Número de caras
Valor da V.A Probabilidade do resultado
0 1/8
1 3/8
2 3/8
3 1/8
Total 1
158
Distribuições de Probabilidade
Por exemplo, 50 valores de satisfação dos clientes são interpretados como uma amostra da
satisfação de todos os clientes.
O uso de métodos estatísticos permite que se analise essa amostra e se tire alguma conclusão
sobre a satisfação dos clientes.
1. Distribuições contínuas: Quando a variável que esta sendo medida é expressa em uma
escala contínua, como por exemplo, o peso de peças produzidas, diâmetro, etc.
2. Distribuições Discretas: Quando a variável que esta sendo medida só pode assumir
certos valores, como por exemplo, os valores inteiros 0,1 2, etc.
159
5.2.1 Distribuição discreta de probabilidade
Distribuição binomial
A distribuição binomial tem as seguintes características:
160
Definição: A variável aleatória discreta X tem comportamento binomial com ―n‖ repetições
de E e probabilidade de sucesso p, cuja função de probabilidade é dada por:
P(X k ) C kn p k q n k
n!
onde: C kn ;
k!(n k )!
k = 0, 1, 2, ..., n;
k = 1 . 2 . 3 . ... . k.
Notação: X ~ b(n, p)
Exemplo 50: Imagine que, em determinada população, 30% das pessoas têm alergia
respiratória. Como o interesse é estudar este tipo de alergia, considera-se ―ser alérgico‖ como
o sucesso (s).
a) Qual é a probabilidade de que uma pessoa, selecionada ao acaso dessa população,
apresente alergia respiratória?
b) Qual a probabilidade de que duas pessoas dentre três apresentem alergia respiratória?
c) Qual a probabilidade de que 2 dentre 4 pessoas dessa população sejam alérgicas?
d) Qual seria a probabilidade de que em grupo de 6 pessoas, 4 sejam alérgicas?
e) Se em determinada população, 30% têm alergia respiratória, qual a probabilidade de
que, em um grupo de 6 pessoas, no máximo 2 sejam alérgicas?
Exercício 72: (Andrade DF e Ogliari PJ, 2007) Num rebanho bovino 30% dos animais estão
atacados por febre aftosa. Retira-se, ao acaso, uma amostra de 10 animais.
161
b) Dê a função de probabilidade e represente a distribuição de probabilidade num
gráfico.
c) Qual a probabilidade de se encontrarem seis animais doentes?
Exercício 73: (Andrade DF e Ogliari PJ, 2007) Suponha que 80% de uma criação de suínos
esteja atacada por leptospirose. Seja Y o número de suínos doentes de uma amostra aleatório
de 1.000 suínos, dessa criação, examinada por um veterinário.
Exercício 74: (Andrade DF e Ogliari PJ, 2007) Um produtor de sementes vende pacotes
com 20 sementes cada. Os pacotes que apresentarem mais de uma semente sem germinar
serão indenizados. A probabilidade de uma semente germinar é de 0,98.
a) Calcule a média e a variância da variável aleatória ―número de sementes que não
germinam por pacote‖.
b) Qual é a probabilidade de um pacote não ser indenizado?
Exercício 75: (Andrade DF e Ogliari PJ, 2007) Segundo a teoria de Mendel, no enxerto de
duas espécies de plantas com flores amarelas e brancas, 30% das plantas resultantes têm flor
amarela. Em sete pares de plantas enxertadas, qual a probabilidade:
a) De não resultar flor amarela?
b) De haver quatro ou mais plantas com flor amarela?
Exercício 76: Dez por cento dos adultos dizem que os vinhos brancos são seus preferidos.
Você seleciona 12 adultos aleatoriamente e pergunta qual é o vinho preferido de cada um
deles. Encontre a probabilidade de que o número dos que dizem preferir vinho branco seja (a)
exatamente quatro, (b) no mínimo quatro e (c) inferior a quatro.
Exercício 77: Uma técnica cirúrgica é aplicada em sete pacientes. Você soube que há 70% de
chance de sucesso. Encontre a probabilidade de que a cirurgia seja um sucesso para (a)
exatamente cinco pacientes, (b) no mínimo cinco pacientes e (c) menos que cinco pacientes.
162
comprar uma apólice de seguros é igual a 0,10. Esse experimento tem as propriedades de um
experimento binomial? Qual a variável de interesse? Qual a probabilidade de que seis famílias
comprem uma apólice de seguro?
Exercício 79: Um lote de garrafas de vinho é recebido por uma firma, 10 garrafas são
inspecionadas, o lote é rejeitado se pelo menos 2 forem defeituosas. Sabendo-se que 1% das
garrafas é defeituosa, determinar a probabilidade de a firma rejeitar todo lote.
R: 0,42%
Exercício 80: Qual a probabilidade de que um atirador acerte o alvo 3 vezes, em 5 tentativas,
se a probabilidade dele acertar um tiro é 45%? Calcule a probabilidade de que o atirador acerte
o alvo:
b) 4 vezes;
c) exatamente 2 tiros;
d) pelo menos 3 vezes;
e) não acertar nenhum tiro.
Exercício 81: Sete por cento dos estudantes universitários portam cartões de crédito com
limites maiores US$ 7 mil (Reader’s Digest, julho de 2002). Suponha que dez estudantes
universitários sejam escolhidos aleatoriamente para serem entrevistados acerca do uso do
cartão de crédito.
a. A escolha dos dez estudantes é um experimento binomial? Explique.
b. Qual é a probabilidade de dois dos estudantes terem limite de crédito maior que US$7
mil? R: 12,34%
c. Qual é a probabilidade de nenhum ter limite de crédito maior que US$ 7 mil? R:
48,40%
d. Qual é a probabilidade de pelo menos três terem limites de crédito maiores que US$ 7
mil? R: 2,83%
e. Calcule a média e variância, referente ao uso do cartão de crédito nos universitários. R:
E(x) = 0,7 e V(x) = 0,651
163
Exercício 83: Admitindo que o nascimento de meninos e meninas sejam iguais, calcule a
probabilidade de um casal com seis filhos ter quatro filhos homens e duas mulheres. R:
23,44%
Obs:
Probabilidade de:
Ao menos 4 ou no mínimo 4 X 4 ou 1- P(x< 4) = 1 – [P(x=0) + P(x=1) + P(x=2) + P(x=3)]
P(x>4) = P(x=5) + P(x=6) + P(x=7) + .... Ou 1 - [P(x=0) + P(x=1)
Mais que 4
+ P(x=2) + P(x=3) + P(x=4)]
No máximo 4 P( X ) = P(x=0) + P(x=1) + P(x=2) + P(x=3) + P(x=4)]
164
5.2.2 Distribuições contínuas de probabilidade
165
Definição: A variável aleatória contínua X tem distribuição normal, se a função densidade de
probabilidade for:
( x ) 2
1
f (x) e 22
x
2 ,
166
Na medida em que os pontos se afastam da média , a curva torna-se assintótica, ou seja,
ela se aproxima bastante do eixo horizontal, mas não chega a tocá-lo;
A área total sobre a curva é 1, devido ao fato da mesma ser uma função densidade de
probabilidade;
O ponto máximo da função corresponde à média .
A média da distribuição pode ser qualquer valor numérico: negativo, zero, positivo;
As probabilidades da V.A. normal são dadas por áreas sob a curva. A área total sob a curva
corresponde à 1 ou 100%.
O desvio padrão determina quanto uma curva é achatada ou larga. Valores maiores do desvio
padrão resultam em curvas mais largas e mais achatadas, exibindo maior variabilidade dos
dados.
167
Para calcular uma probabilidade associada à distribuição normal faz-se:
( x ) 2
b 1
P (a < X < b) = a
2
e 22
dx
Para evitar o uso de integrais, os principais valores das probabilidades podem ser
encontrados numa tabela da curva normal, construída através de uma padronização.
X = valor de interesse da
X
variável
= média da variável
Z = desvio-padrão da variável
168
Uma variável com distribuição Normal qualquer, pode ser padronizada para a
Normal Padrão. A distribuição Normal padronizada (Z) é tabelada, tem média igual a 0
(zero) e desvio-padrão igual a 1 (um).
A figura anterior mostra também que o desvio-padrão controla o grau para o qual a
distribuição se "espalha" para ambos os lados da curva. Percebe-se que aproximadamente toda
a probabilidade está dentro de ± 3σ a partir da média.
É importante lembrar que a área sob a curva pode ser entendida como uma medida de
sua probabilidade e que a área sob a curva normal é igual a 1 (100%).
169
Então, se forem tomados dois valores específicos, pode-se determinar a proporção de
área sob a curva entre esses dois valores.
Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios
padrão da média são:
entre é igual a
µ± 1σ 68,26% (1)
µ± 2σ 95,44% (2)
µ± 3σ 99,74% (3)
Exemplo 51: Uma enchedora automática de garrafas de vinho está regulada para que o
volume médio de líquido em cada garrafa seja µ = 750 cm3 e o desvio padrão seja ơ = 7,5 cm3 .
Pode-se admitir que a distribuição da variável volume de líquido seja normal.
a) Qual a porcentagem de garrafas em que o volume de líquido é menor do que 742,5
cm3?
b) Qual a porcentagem de garrafas em que o volume de líquido é maior que 745 cm3?
c) Qual a porcentagem de garrafas em que o volume de líquido está entre 745 cm3 e 757,5
cm3?
d) Qual a porcentagem de garrafas em que o volume de líquido é menor que 760 cm3?
e) Qual a porcentagem de garrafas em que o volume de líquido está entre 755 cm 3 e 764
cm3?
170
f) Qual a porcentagem esperada de garrafas em que o volume de líquido não se desvia da
média em mais que dois desvios padrões, para mais ou para menos?
g) Qual a porcentagem de garrafas com 762 cm3?
Exemplo 52: Os alunos de Ecologia Vegetal mediram a altura de grande número de árvores
da espécie Guapira apposita (―Maria-mole‖) no Morro Santana, Porto Alegre. A média obtida
foi 11,4 m e desvio padrão, 4,2 m (dados de M.L.Porto, Dep. Ecologia, UFRGS). Admitindo
esses valores como parâmetros e supondo que a altura dessa árvore tem distribuição normal,
estime:
a) A percentagem de árvores dessa espécie com altura inferior a 9m.
b) A percentagem de árvores dessa espécie com altura superior a 10m.
c) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura entre
10 e 12 m?
d) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura entre
12 e 13 m?
e) A altura correspondente ao percentil 20 dessa população
f) A altura das árvores mais altas (10% do total) dessa população.
Exercício 85: Sabe-se que o comprimento de pétalas em uma população de plantas da espécie
x é normalmente distribuído com média µ = 3, 2 cm e ơ=1,8cm. Que proporção na população
espera-se que tenha comprimento de pétalas:
a) Maior do que 4,5cm?
b) Entre 2,9 e 3, 6 cm?
c) Determinar o valor do comprimento de pétalas que é superado por 65% das plantas.
Exercício 86: Suponha que a variável diâmetro de Paepalanthus tenha distribuição normal
com média 10 cm e variância 4 cm2.
a) Qual é a probabilidade de um Paepalanthus aleatoriamente retirado dessa população ter
diâmetro maior que 14 cm?
b) Se dois Paepalanthus forem selecionados aleatoriamente dessa população, qual é a
probabilidade de ambos serem maiores que 14 cm?
Exercício 87: O peso médio das reses que se encontram num curral de urna determinada
fazenda é de 200 kg, e o desvio padrão é de 10 kg. Em 120 animais retirados ao acaso do
171
curral, quantos pesarão mais de 185 kg? Vamos considerar que o peso das reses tenha
distribuição normal.
Exercício 88: Foi feito um estudo sobre a altura de plantas de milho de certo híbrido,
observando-se que ela se distribui normalmente com média igual a 2,20 m e desvio padrão
igual a 0,20 m. Qual a porcentagem de plantas com altura:
a) entre 2,15 e 2 25 m;
b) entre 2,00 m e 2,40 m;
c) acima de 2,30 m.
Exercício 89: Em indivíduos sadios, o consumo renal de oxigênio tem distribuição normal de
média 12 cm3/min e desvio padrão 1,5 cm3/min.
Determinar a proporção de indivíduos sadios com consumo: a) inferior a IO cm3/min; b)
superior a 8 cm3/min; c) entre 9,4 e 13,2; d) igual a 11,6
Exercício 91: Num povoamento florestal temos uma distribuição aproximativamente normal
dos diâmetros à altura do peito (D.A.P.) das árvores, com média de 12,6 e desvio padrão de
3,1 cm. Se cortarmos todas as árvores de menos de 15 cm de diâmetro, qual a porcentagem
de árvores que restarão de pé?
Exercício 92: Suponha que a temperatura média do mês de julho em Porto Alegre seja
normalmente distribuída com média igual a 11 graus e variância 9 graus2. Calcular a
probabilidade da temperatura:
a) Ser inferior a 6,7 graus.
b) Ser superior a 5 graus
c) Estar entre 8,8 e 13,2 graus.
Exercício 93: O dono de uma área reflorestada com eucaliptos decidiu cortar todas as árvores
cujo diâmetro (medido à altura do peito) é inferior a 7 cm. Calcule a extensão do desbaste em
172
percentagem de árvores derrubadas, supondo que, no momento da decisão, o diâmetro das
árvores tem distribuição normal, com média igual a 8 cm e desvio padrão igual a 2,5 cm.
Exercício 94: Suponha que temos uma distribuição normal de valores encontrados numa
análise. A média da população corresponde a 30,37 ppm, e o desvio-padrão a 2,54 ppm.
Encontre:
a) A porcentagem de determinações que poderá ser maior que o valor 34,99 ppm
b) A probabilidade das determinações serem inferior a 32?
c) A porcentagem das determinações que poderá ser inferior a 29?
d) A probabilidade das determinações estarem entre 29 e 32?
e) A probabilidade das determinações estarem entre 31 e 32?
Exercício 95: Foi feito um estudo sobre a altura de plantas de milho de certo híbrido,
observando-se que ela se distribui normalmente com média igual a 2,20 m e desvio padrão
igual a 0,20 m. Qual a porcentagem de plantas com altura:
a) entre 2,15 e 2 25 m;
b) entre 2,00 m e 2,40 m;
c) acima de 2,30 m.
Exercício 97: Em indivíduos sadios, o consumo renal de oxigênio tem distribuição normal de
média 12 cm3/min e desvio padrão 1,5 cm3/min.
a) Determinar a proporção de indivíduos sadios com consumo: inferior a IO cm3/min; superior
a 8 cm3/min; entre 9,4 e 13,2 igual a 11,6
Exercício 100: Uma máquina de empacotar determinado produto apresenta variações de peso
com desvio padrão de 20 g. Em quanto deve ser regulado o peso médio do pacote, para que
apenas 10% tenham menos de 400 g?
Exercício 101: Os alunos de Ecologia Vegetal mediram a altura de grande número de árvores
da espécie Guapira apposita (―Maria-mole‖) no Morro Santana, Porto Alegre. A média obtida
foi 11,4 m e desvio padrão, 4,2 m (dados de M.L.Porto, Dep. Ecologia, UFRGS). Admitindo
esses valores como parâmetros e supondo que a altura dessa árvore tem distribuição normal,
estime:
i) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura
entre 10 e 12 m?
j) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura
entre 12 e 13 m?
Exercício 102: Suponha que o consumo anual de amendoins seja normalmente distribuído,
com uma média de 5,9 libras por pessoa e um desvio padrão de 1,8 libras por pessoa. Qual é a
porcentagem de pessoas que consomem, anualmente, menos que 3,1 libras de amendoim?
Seria incomum se uma pessoa consumisse menos que 3,1 libras de amendoim por ano?
Explique seu raciocínio.
174
Exercício 103: Suponha que temos uma distribuição normal de valores encontrados numa
análise. A média da população corresponde a 30,37ppm e queremos estimar que o valor é
excedido por 10,03% das determinações, sabendo que o desvio-padrão é igual a 2,541.R: X =
33,62
Exercício 104: Temos uma distribuição normal de valores encontrados numa análise de
cinzas. A média da população desta análise corresponde a 130,37 ppm de cinzas e queremos
estimar a porcentagem de determinações que poderá ser maior que o valor de 135,0 ppm,
sabendo que o desvio padrão é igual a 5,50 ppm.
R: 20,05%
Exercício 105: Temos uma distribuição normal de valores encontrados numa análise de
determinação de cloreto em um composto químico. A média das análises (população)
realizadas na determinação de cloreto neste composto corresponde a 50,40 ppm e queremos
estimar qual é o valor excedido por 25,14% das determinações, sabendo que o desvio padrão é
igual a 1,50 ppm.
R: X = 51,41
Exercício 106: Uma fábrica de carros sabe que os motores de sua fabricação têm duração
normal com média de 150.000 Km e desvio padrão de 5.000 Km. Qual a probabilidade de que
um carro escolhido ao acaso dos fabricados por esta firma tenha um motor que:
a) dure menos de 170.000km; R: 99,99%
b) dure entre 140.000 e 165.000 Km; R: 97,59%
c) dure mais de 140.000Km; R: 2,28%
d) mais de 160.000Km; R: 2,28%
e) dure entre 160.000 e 170.000 Km; R: 2,27%
f) dure exatamente 160.000Km. R: 0
Exercício 107: Dois analistas analisaram uma solução de soda de concentração conhecida (%)
e encontraram os seguintes resultados:
175
Supondo que a concentração real da solução é 10,1%, calcular qual é o valor excedido por
15,15% das determinações realizadas pelos analistas João e Paulo.
Exercício 108: Suponha que temos uma distribuição normal de valores encontrados numa
análise. A média da população corresponde a 100,00 ppm e desvio padrão igual a 5,00ppm,
queremos estimar:
a) a porcentagem de determinações que poderá ser menor que o valor de 98,00 ppm; R:
34,46%
b) a porcentagem de determinações que poderá ser maior que 102,00ppm; R: 34,46%
c) a porcentagem de determinações entre os valores de 97,00 ppm e 101,00 ppm; R:
30,5%
d) O valor da determinação acima da qual encontram-se 10,03% das determinações; R:
106,4
e) O valor da determinação abaixo da qual encontram-se 5,05% das determinações. R:
91,8
Exercícios:
1. Suponha que a temperatura média do mês de julho em Porto Alegre seja normalmente
distribuída com média igual a 11 graus e variância 9 graus2. Calcular a probabilidade da
temperatura:
d) Ser inferior a 6,7 graus. R: 7,64%
e) Ser superior a 5 graus. R: 97,72%
f) Estar entre 8,8 e 13,2 graus. R: 53,46%
2. O dono de uma área reflorestada com eucaliptos decidiu cortar todas as árvores cujo
diâmetro (medido à altura do peito) é inferior a 7 cm. Calcule a extensão do desbaste em
percentagem de árvores derrubadas, supondo que, no momento da decisão, o diâmetro das
árvores tem distribuição normal, com média igual a 8 cm e desvio padrão igual a 2,5 cm.
R: 34,46%
3. Seja uma distribuição normal de Fe numa análise de sururu. Sabendo-se que µ = 100 ppm e
σ = 5ppm, estime o percentual de determinações cujo valor fique entre 97 e 99ppm.
R: 14,64%
176
4. Supondo que os pesos do papel descartado semanalmente pelas residências tenham
distribuição normal com média de 9,4 kg e desvio-padrão de 4,2 kg, determine a probabilidade
de uma residência aleatoriamente selecionada descartar:
a) Menos de 10 Kg; R: 55,57%
b) Mais de 12 Kg; R: 26,76%
c) Entre 5,0 kg e 8,0 kg. R: 10,31%
6. Suponha que temos uma distribuição normal de valores encontrados numa análise. A média
da população corresponde a 100,00 ppm e desvio padrão igual a 5,00ppm, queremos estimar:
f) a porcentagem de determinações que poderá ser menor que o valor de 98,00 ppm;
g) a porcentagem de determinações que poderá ser maior que 102,00ppm;
h) a porcentagem de determinações entre os valores de 97,00 ppm e 101,00 ppm
i) O valor da determinação acima da qual encontram-se 10,03% das determinações;
j) O valor da determinação abaixo da qual encontram-se 5,05% das determinações.
7. Temos uma distribuição normal de valores encontrados numa análise de cinzas. A média da
população desta análise corresponde a 130,37 ppm de cinzas e queremos estimar a
porcentagem de determinações que poderá ser maior que o valor de 135,0 ppm, sabendo que o
desvio padrão é igual a 5,50 ppm. R: 20,05%
177
8. Temos uma distribuição normal de valores encontrados numa análise de determinação de
cloreto em um composto químico. A média das análises (população) realizadas na
determinação de cloreto neste composto corresponde a 50,40 ppm e queremos estimar qual é o
valor excedido por 25,14% das determinações, sabendo que o desvio padrão é igual a 1,50
ppm.
10. Considere uma população na qual a quantidade de albumina sérica tem distribuição
normal, com média = 4,0g% e desvio padrão = 0,6g%. Qual a probabilidade de que:
a) Um indivíduo tenha taxa de albumina menor do que 3g%? R: 0,0475
b) Uma pessoa tenha taxa de albumina abaixo de 4,9g%? R: 0,9332
11. Em certa população, a estatura dos homens tem distribuição normal, com média igual a
172 cm e desvio padrão igual a 10cm.
a) Que percentagem de homens tem estatura inferior a 160 cm?
b) Qual a probabilidade de que um homem dessa população tenha estatura entre 175 e
185 cm?
c) Quais são as estaturas esperadas para os 8% mais altos da população?
12. Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio
padrão 10. Qual a probabilidade de um indivíduo submetido ao teste ter nota:
a) Maior do que 120?
b) Maior do que 80?
c) Entre 85 e 115?
d) Maior do que 100?
e) Entre 80 e 85?
13. Os pesos de 600 estudantes são normalmente distribuídos com média 65,3 Kg e desvio
padrão 5,5 Kg. Encontre o número de alunos que pesam:
a) Entre 60 e 70Kg; R: 380 alunos
178
b) Mais que 63,2 Kg. R: 389 alunos
14. Suponha que as notas de uma prova sejam normalmente distribuídas com média 73 e
desvio padrão 15. 15% dos alunos mais adiantados recebem a nota A e 12% dos mais
atrasados recebem nota F. Encontre o mínimo para receber A e o mínimo para passar, não
receber F. R: A = 88,6 e 55,3 mínima para passar.
03 - Suponha que a renda média anual de uma grande comunidade tenha distribuição normal
com média de 15 mil reais e com um desvio-padrão de 3 mil reais. Qual a probabilidade de
que um indivíduo aleatoriamente selecionado deste grupo apresente uma média salarial
anual superior a 18 mil reais?
05 - O volume de enchimento de uma máquina automática usada para encher latas de bebidas
gasosas é distribuído normalmente com uma média de 12,4 onças e um desvio-padrão de
0,1 onça. Qual a probabilidade do volume de enchimento ser:
a) inferior a 12 onças
b) entre 12,1 e 12,6 onças
c) superior a 12,3 onças
179
06 - O tempo de reação de um motorista para o estímulo visual é normalmente distribuído com
uma média de 0,4 segundos com um desvio-padrão de 0,05 segundos. Qual a
probabilidade de que uma reação de um motorista requeira:
a) mais de 0,5 segundos
b) entre 0,4 e 0,5 segundos
A distribuição normal depende de dois parâmetros e 2, mas muitas vezes, não se
conhece a variância da população (2) e as investigações e análises são feitas a partir de
amostras, que são extraídas desta população. Nessas condições, o desvio padrão da amostra
será um estimador de , e então se utiliza a distribuição t de Student.
A distribuição ―t‖ de Student tem as seguintes características:
É usada no caso de pequenas amostras (n<30); a partir de amostras maiores que 30, pode-se
usar a distribuição normal, pois ambas tornam-se praticamente iguais;
Sua curva representativa é semelhante à da normal, sendo simétrica em relação à ordenada
máxima, apresentando as extremidades com maior comprimento;
A área sob a curva da distribuição ―t‖ é igual a 1;
180
c) a área não sombreada é igual a 0,99;
d) a área sombreada à esquerda é 0,01.
Exemplo 54: Considere uma distribuição ―t‖ com 18 graus de liberdade. Encontre a média, a
variância, desvio-padrão, a mediana, 1º quartil e o 95º percentil.
181
Como já foi comentado anteriormente, uma característica dos experimentos biológicos e
agronómicos é que os seus resultados tendem a variar toda vez que se repetir o experimento,
sob condições bastante semelhantes. Esta variabilidade nos resultados do experimento deixa o
pesquisador com dúvidas quanto ao(s) melhor(es) tratamento(s). Neste caso, os métodos
estatísticos irão auxiliá-lo.
Para ilustrar essa variabilidade vamos considerar os resultados da Tabela 1.2, relativos
às produções de milho, em kg/ha. Note que, em todos os tratamentos, as produções de milho
variaram. Por exemplo, tomando-se o tratamento 75, obtivemos cinco produções diferentes,
variando de 2.830 a 4.380 kg/ha. Esta variação é decorrente de inúmeros fatores que
interferem no resultado final, como já discutido na Seção 1.1.2. Por causa dessa variabilidade,
seria pouco confiável realizar apenas uma repetição. Intuitivamente, percebemos que as
análises ficam mais consistentes se fizermos várias repetições e usarmos a. média dos
resultados.
No caso do experimento citado, desejamos comparar cinco tratamentos, incluindo o
controle (dose 0), com relação à produção. Mais especificamente, podemos estabelecer dois
objetivos para o experimento, quais sejam:
1º) testar a hipótese de que não existem diferenças entre os tratamentos e
2º) estimar a diferença de produção entre dois tratamentos.
Com respeito ao primeiro objetivo, podemos, por exemplo, comparar a média do
tratamento 75 com o controle. Observamos uma diferença de 1.194 (=3.522 - 2.328) kg/ha
entre as duas médias obtidas com as amostras. Esta é uma diferença bem considerável, porém
uma nova repetição do experimento poderia fornecer um outro resultado, para mais ou para
menos, devido ao fato de estarmos trabalhando com fenómenos aleatórios. Em outras palavras,
mesmo se o tratamento 75 não diferir do controle, em termos de produção média de milho, as
produções médias obtidas a partir de amostras, provavelmente serão diferentes. Assim,
ficamos na dúvida se os resultados obtidos decorreram de uma diferença real entre os
tratamentos ou se foram origina dos pelo acaso. Este tipo de problema é solucionado através da
aplicação dos testes de hipóteses. Basicamente num teste de hipóteses, o pesquisador vai
decidir se um resultado obtido em um experimento ocorreu devido ao acaso ou devido à ação
do tratamento. Caso o pesquisador decida pela existência da ação do tratamento, as produções
médias de milho do tratamento 75 e do controle são diferentes, seu interesse seria avaliar a
magnitude dessa diferença. Esse é o segundo objetivo referido acima. Descritivamente
podemos dizer que para esse experimento essa diferença foi de 1.194 kg/ ha em favor do
182
tratamento 75. Mas esta é urna medida, que por si só tem pouca importância, pelo fato de ser o
resultado de um experimento com cinco repetições.
6. INFERENCIA ESTATISTICA
Exemplos de populações:
P1) todos os valores possíveis da produção de milho, em quilogramas por hectare;
P2) todos os pesos ao nascer de coelhos da raça gigante, em gramas;
P3) todos os valores de diâmetros de Biomphalarias do Poção do Córrego Grande;
P4) todos os valores de micronúcleos de roedores de uma região poluída.
Exemplos de amostras:
A1) os rendimentos de milho, em kg/ha, de uma amostra de cinco unidades experimentais
(canteiros);
A2) os pesos ao nascer de uma ninhada de coelhos da raça gigante;
A3) os diâmetros de uma amostra de 30 Biomphalarias do Poção do Córrego Grande;
A4) os valores de micronúcleos de uma amostra de 25 roedores.
Num experimento, obtemos alguns dados experimentais (amostra) através do uso de
repetições dos tratamentos, e generalizamos os resultados para todos os experimentos similares
(população conceitual). A Figura 6.2 ilustra o processo de generalização numa situação
experimental.
183
Os dois tópicos básicos da inferência estatística são: estimação e testes de hipóteses.
Vamos, através de um exemplo, ilustrar estas duas situações.
Exemplo 55: Um pesquisador está interessado em avaliar a produção média por planta, µ, da
cultivar de maça denominada Gala, para as seguintes condições: plantas com idade de
aproximadamente 5 anos, em bom estado fitossanitário, cultivadas com alta tecnologia e para
a região I do zoneamento agroclimático de Santa Catarina. A população é formada por todas
as plantas da cultivar Gala nas condições citadas. Mais especificamente, a população é
constituída por todos os valores de produção por planta. Para essa finalidade, o pesquisador
vai coletar uma amostra aleatória de, por exemplo, 10 plantas, da referida cultivar nas
condições descritas.
Tabela - Produção por planta, em kg, de maçãs das cultivares Gala e Golden
Média ( ̅ ) Desvio padrão
Variedades
(s)
Gala 84 82 90 86 80 91 85 79 81 82 84,0 4,06
Golden 95 102 85 93 104 89 98 99 107 106 97,8 7,32
184
Um fato importante que se observa, quando trabalhamos com amostras, e que sempre vamos
ter que a média verdadeira, µ, é igual à média na amostra, ̅ , mais um erro de amostragem. A
representação disso é dada por:
µ=[̅ ]
Apesar do nome erro, isto não quer dizer que a amostragem foi feita de forma errada e,
que, portanto, deve-se coletar uma nova amostra. Esse valor pode ser negativo ou positivo,
pequeno, nulo ou grande. Em todas as pesquisas baseadas em amostras vamos estar
envolvidos com o erro amostral. Dizemos que uma estimativa é precisa se tivermos alto grau
de confiança de que o erro amostral associado à estimativa em questão é pequeno.
7. ESTIMAÇÃO DE PARÂMETROS
185
Inferir consiste na retirada de informações para toda população baseando-se numa
amostra da mesma. Parâmetros são quantidades populacionais e estimadores são funções de
dados amostrais que irão gerar as estimativas para os parâmetros populacionais.
186
7.1 Estimação por ponto
A estimação por ponto é um procedimento muito simples que visa estimar o valor do
parâmetro através de estimativas pontuais (únicas). A grande vantagem deste tipo de
estimação é ser de fácil interpretação, entretanto a probabilidade de acerto ―na mosca‖ é
praticamente nula, pois os estimadores podem ser encarados como variáveis aleatórias
contínuas.
As estatísticas amostrais são utilizadas como estimadores de parâmetros populacionais.
Assim uma média amostral é usada como estimativa de uma média populacional. Tais
estimativas chamam-se estimativas pontuais, por que originam uma única estimativa do
Parâmetro.
Exemplo 56: Uma amostra aleatória simples de dez isolados de fungos ectomicorrízicos P.
tinctorius cultivados in victro, apresentaram os seguintes resultados de biomassa, em gramas:
0,034 0,033 0,029 0,034 0,027
0,034 0,029 0,035 0,032 0,028
OBS: O problema de se utilizarem estimadores pontuais é que eles não fornecem uma
medida de precisão, isto é, não demonstram o quanto poderíamos estar errado ao utilizarmos
esse único valor para estimar o parâmetro. Portanto o processo de estimação deve também
levar em conta o possível erro amostral do estimador, que depende da sua distribuição
amostral.
187
Exemplo 58: Uma amostra de 300 alunos de uma universidade de 15.000 estudantes revelou
nota média amostral de 5,6; Assim: ̅ = 5,6 é uma estimativa pontual da verdadeira média dos
15.000 alunos.
R: Nao.
A técnica que permite avaliar o quão próxima uma estimativa encontra-se do valor
do parâmetro chama-se intervalo de confiança.
188
contínuas, logo as estimativas obtidas certamente serão distintas do valor do parâmetro.
Portanto, é quase certo que se esteja cometendo um erro de estimação, quando se procede a
estimação por ponto de um parâmetro populacional. Devido a este fato, surge a idéia de se
construir um intervalo em torno da estimativa por ponto, de modo que esse instrumento tenha
uma probabilidade conhecida de conter o verdadeiro valor do parâmetro. A esse intervalo
chamamos de intervalo de confiança para esse parâmetro.
A probabilidade que designaremos por 1 - α, de que um intervalo de confiança
contenha o parâmetro, chamaremos nível de confiança ou grau de confiança do respectivo
intervalo.
α será a probabilidade de erro na estimação por intervalo, isto é, a probabilidade de errarmos
ao afirmar que o valor do parâmetro está contido no intervalo de confiança (nível de
significância).
189
Exemplos:
A proporção de peças
A proporção de peças
Proporção defeituosas está entre 1,5% e
defeituosas é de 2%.
2,5%.
Ou
[̅ ]
190
Caso 1: Variância populacional 2 conhecida (tamanho da
amostra é suficientemente grande)
Erro amostral ( eo ):
e o (z )
2 n
Onde:
z = distribuição normal padrão
n = tamanho da amostra.
σ = desvio padrão populacional
= média populacional
X = média amostral
α = probabilidade de erro na estimação do intervalo (nível de significância).
191
O grau de confiança deste Intervalo de confiança é 95%.
Margem de erro: é o máximo erro de estimação que podemos estar cometendo, em geral
calculada para um grau de confiança de 95%.
No exemplo a margem de erro, considerando o grau de confiança de 95%, é de 3,92.
Exemplo 60: O percentual de intenções de voto do candidato X foi de 32%. A margem de erro
da pesquisa é de 2%. Qual o IC de 95% para o percentual de intenções de voto de X no
universo eleitoral abrangido pela pesquisa?
µ não é uma variável aleatória, e sim uma quantidade fixa (embora desconhecida). Logo, não
se pode atribuir probabilidades a µ!!!!
Assim se gerássemos todas as amostras de tamanho n possíveis da população, e para cada uma
delas calculássemos o IC:
192
Exemplo 61: A distribuição do volume de líquido de garrafas de vinho enchidos
automaticamente por uma máquina, é normal, com desvio padrão de ơ = 7,5 cm3. Uma
amostra de 10 garrafas retirada aleatoriamente apresentou média de 749 cm3. Qual o intervalo
de confiança para a verdadeira média de volume das garrafas de vinho produzida por esta
máquina?
Exercício 109: Sabe-se que os comprimentos das barras produzidas por uma siderúrgica têm
uma distribuição normal, de variância σ2=1,69 m2. Numa amostra de 5 barras encontrou-se os
seguintes comprimentos: 20,2; 21,0; 21,4; 22,1; 23,3 metros. Determine:
a) As estimativas pontuais para a média e variância;
b) O intervalo de confiança para média populacional ao nível de significância α= 10% e α
= 6%.
Exercício 110: A duração da vida de uma peça de equipamento é tal que σ = 5 horas. Foram
amostradas 100 dessas peças, obtendo-se a média de 500 horas. Deseja-se construir um
intervalo de confiança para a verdadeira duração média da peça com um nível de 95%.
OBS
Em casos práticos, o desvio padrão é desconhecido, e tem que ser estimado (por s,
desvio padrão amostral).
Neste caso, a distribuição correta a ser aplicada é a t de Student, com n-1 graus de
liberdade.
193
Caso 2: Variância populacional 2 desconhecida com nível 1 -
de Confiança
Ou
[̅ ]
erro amostral ( eo ) :
s
eo (t , )
2
n
onde:
(∑ )
∑
s=√
t = distribuição t de Student
n = Tamanho da amostra.
s = desvio padrão amostral
X = média amostral
α = probabilidade de erro na estimação do intervalo (nível de significância).
Exemplo 63: Os resíduos industriais jogados nos rios, muitas vezes, absorvem oxigênio
reduzindo assim seu conteúdo do oxigênio necessário à respiração dos peixes e outras formas
de vida aquática. Seis amostras de água retiradas de um rio, durante a maré baixa, revelaram os
índices (em partes por milhão) de oxigênio dissolvido, a média amostral foi de 5,02 ppm e
desvio padrão de 0,27ppm. Estime a verdadeiro índice de oxigênio no rio com 90% de
confiança. R: P( 4,8 < µ < 5,24) = 90%
194
Exercício 111: Dez amostras são retiradas de um lote de um mineral e analisadas. O teor de
óxido de Cálcio apresentou uma média de 4,30% e um desvio-padrão estimativo de 0,30%.
Qual é o intervalo de confiança, no nível de 95%, da média do lote? R: P( 4,09 < µ < 4,51) =
95%
Exercício 112: Dez amostras são retiradas de um lote de aço e analisadas. O teor de carbono
apresentou uma média de 6,30% e um desvio-padrão de 0,030%. Qual é o intervalo de
confiança, no nível de 95%, da média do lote?
R: P( 6,28 < µ < 6,32) = 95%
X ( mg/L): 1,0 0,7 0,9 1,1 0,8 0,9 0,8 1,0 0,8 0,8 0,9 0,9
a) Com 95% de confiança estime a verdadeira média de acidez das bagas da região 1 e da
região 2.
b) Estime a verdadeira média de antocianinas da região 1. Considere α=5%.
195
Exercício 115: O teor de sódio de uma análise apresentou uma média de 25,4 ppm e um
desvio padrão estimativo de 0,015 ppm. Qual é a média verdadeira quando incluímos 95% da
população?
Exercício 116: O teor de enxofre na análise de um gás apresentou uma média de 50ppb e um
desvio padrão de 5ppb. Qual é o intervalo (limite de confiança) da média das populações
quando incluímos 95% delas?
Exercício 117: Na determinação de umidade de uma amostra realizada pelo analista químico
foram encontrados os seguintes valores:
0,23% 0,22%
0,22% 0,24%
0,25% 0,23%
0,24% 0,22%
0,22% 0,23%
Calcular o intervalo de confiança para o teor de umidade na amostra analisada pelo analista
químico. R: P( 0,223 < µ < 0,237) = 95%
Exercício 118: Três amostras de propeno foram enviadas ao laboratório para análises de
enxofre total. O analista químico realizou 10 determinações em cada uma delas e encontrou os
seguintes resultados de enxofre total em PPB.
Amostra A 6 5 6 7 5 6 7 7 5 6
Amostra B 36 35 36 37 35 36 37 37 35 36
Amostra C 246 245 246 247 245 246 247 247 245 246
Calcular o intervalo de confiança para a concentração de enxofre nas amostras analisadas pelo
analista químico. Utilizando um nível de confiança de 95%.
R: A - P( 5,41 < µ < 6,59) = 95%
R: B - P( 35,41 < µ < 36,59) = 95%
R: C - P( 245,41 < µ < 246,59) = 95%
196
X ( mg/L): 1,0 0,7 0,9 1,1 0,8 0,9 0,8 1,0 0,8 0,8 0,9 0,9
Exercício 120: O peso do papel descartado semanalmente pelas residências de um bairro foi
objeto de um estudo. Uma amostra de 60 residências apresentou um peso médio de papel
descartado de 9,4 kg com um desvio-padrão de 2,2 kg. Construa e interprete o Intervalo de
Confiança de 95% para o peso do papel descartado semanalmente de todas as residências deste
bairro.
R: P( 8,84 < µ < 9,96) = 95%
197
Intervalo de confiança para a proporção p
P ( p* - eo < p < p* + eo ) = 1 -
Ou
[ ]
Erro amostral (e0):
p*q*
e0 Z
2
n
onde:
X
p* = Proporção amostral favorável = ;
n
z = distribuição normal padrão
n = Tamanho da amostra.
α = probabilidade de erro na estimação do intervalo (nível de significância)
Exemplo 64: Um laboratório detectou numa amostra de 50 porções, de certo composto, uma
proporção de 10% de impurezas. Determine um intervalo de confiança de 95% para a
verdadeira proporção de impurezas? R: P( 0,02 < p < 0,18) = 95%
Exercício 121: Das 200 unidades de carne examinadas, 31 delas apresentaram salmonela.
Determine os limites de 95% de confiança para a verdadeira proporção de carne que esta
contaminada. R: P( 0,105 < p < 0,205) = 95%
Exercício 123: Ente 500 pessoas, entrevistadas a respeito de suas preferências eleitorais, 260
mostraram-se favoráveis ao candidato Y. Calcular um intervalo de confiança ao nível de 95%
para a porcentagem dos eleitores favoráveis a Y. R: P( 0,02 < p < 0,18) = 95%
198
Exercício 124: Num depósito, uma amostra de 100 latas de certo produto alimentar
armazenada para depois serem distribuídas foram analisadas, constatando-se que 5 dessas latas
ultrapassaram o prazo de validade. Construa e interprete o Intervalo de confiança 95% para a
proporção verdadeira de latas que já ultrapassaram o prazo de validade. R: P( 0,01 < p < 0,09)
= 95%
Exercício 126: Estime a percentagem de fumantes entre pessoas que têm trombose venosa,
com 95% de confiança, sabendo que 8 eram fumantes em uma amostra de 25 pacientes
(Robinson, 1974). Explique a razão de se obter um intervalo com tão pouca precisão e
proponha um procedimento para aumentá-lo. R: P( 0,19 < p < 0,50) = 95%
Exercício 127: Em uma amostra aleatória de 1598 escolares de Porto Alegre, foram
encontradas 349 crianças (21,8%) com distúrbios de escrita (Borges-Osório, 1985). Com base
nessa amostra, estime, com 99% de confiança, a proporção de escolares porto-alegrenses com
esse problema. R: P( 18,8% < p < 24,8%) = 99%
199
Supondo que a concentração real da solução é 10,1% podemos afirmar que a média da
população é igual à média do analista 3?
O analista 3 apresenta um erro sistemático em suas análises?
Qual é a estimativa do erro sistemático?
3. Dez amostras são retiradas de um lote de aço e analisadas. O teor de carbono apresentou
uma média de 6,30% e desvio-padrão de 0,030%. Qual é o intervalo de confiança no nível de
95%, da média do lote?
5. O teor de cobre (PPM) foi medido em 43 plantas que cresceram em uma área que sofreu um
processo de corte seguido de queima do material lenhoso. A média foi 15,2 ppm e o desvio
padrão foi 4,04 (Girardi-Deiro, 1999). Qual o verdaeiro teor de cobre na vegetação que cresce
em áreas que sofreram esse tipo de manejo? Use α =5% R: P( 13,95 < µ < 16,45) = 95%
200
7. Sete medidas de pH foram obtidas para uma solução tampão:
5,12 – 5,20 – 5,15 – 5,17 – 5,16 – 5,19 – 5,15
Calcule o intervalo de confiança (com 99%) para o valor verdadeiro de pH. R: P( 5,12 < µ <
5,2) = 99%
9. O teor de cobre (PPM) foi medido em 43 plantas que cresceram em uma área que sofreu um
processo de corte seguido de queima do material lenhoso. A média foi 15,2 ppm e o desvio
padrão foi 4,04 (Girardi-Deiro, 1999). Qual o verdadeiro teor de cobre na vegetação que
cresce em áreas que sofreram esse tipo de manejo? Use α =5%
10. Em 1977, nos Estados Unidos, os limites permitidos de descarga de hidrocarbonetos (HC)
e de monóxido de carbono (CO) pelos automóveis eram 1,5 grama por milha para o HC e 15
gramas por milha para o CO. Uma análise dos gases expelidos por 6 automóveis,
aleatoriamente escolhidos como amostra, e todos de um mesmo modelo do ano de 1977,
mostrou os seguintes resultados para os níveis de HC: 1,27 – 1,44 – 1,28 – 1,15 – 1,39 – 1,32.
Determine um intervalo de 90% de confiança para a média de HC expelido.
11. Num depósito, uma amostra de 100 latas de um certo produto alimentar armazenadas para
depois serem distribuídas foram verificadas constatando-se que 5 dessas latas ultrapassaram o
prazo de validade. Construa e interprete o Intervalo de confiança 95% para a proporção
verdadeira de latas que já ultrapassaram o prazo de validade.
12. Os resíduos industriais jogados nos rios, muitas vezes, absorvem o oxigênio necessário à
respiração dos peixes e de outras formas de vida aquática. Uma lei estadual exige um valor
médio não inferior a 5ppm de oxigênio dissolvido, cujo conteúdo seja suficiente para manter a
201
vida aquática. Seis amostras de água retiradas de um rio revelaram os índices: 4,9 – 5,1 – 4,9 –
5,0 – 5,0 e 4,7 ppm de oxigênio dissolvido. Construa e interprete o intervalo com 95% de
confiança para a verdadeira média de oxigênio dissolvido, em ppm.
14. De 1.000 lavouras de arroz, foi levantada uma amostra de 25 lavouras e a informação a
respeito da produtividade permitiu o cálculo do rendimento médio, por hectare, que foi de
3.400kg com desvio padrão de 150 kg.
a) Determine intervalos com grau de confiança de 95% e 99% para o verdadeiro
rendimento médio.
b) Que tamanho deve ter a amostra para que seja de 95% o grau de confiança na
estimativa intervalar 3.400 ±100?
202
18. Uma amostra aleatória de 60 progénies indica que 70% delas apresentam resistência à
antracnose. Construir um intervalo de Confiança para p, a proporção de progênies resistentes à
antracnose, com 95% de confiança.
19. De estudos anteriores sabe-se que o desvio padrão da altura de plantas de um determinado
híbrido de milho é ơ = 0, 80 m. Selecionada uma amostra de 72 plantas desse híbrido,
observou-se uma média de 2,10 m. Construa um intervalo de confiança de 99% para a média
populacional.
20. Para avaliar o peso médio de uma nova safra de limões, o administrador de uma fazenda
obteve os pesos de 50 limões novos encontrando uma média de 115,5 gramas, com um desvio-
padrão de 20,4 gramas. Construa e interprete confiança 95% para o verdadeiro peso médio dos
limões.
21. Em certo distrito, foi efetuada uma sondagem a 2500 eleitores dos quais 800 declararam ir
votar no candidato do partido A. Construa um intervalo de confiança de 90% para a proporção
de votos no candidato do partido.
22. O tempo entre a carga e o final do processo (minutos) de um aço carbono em um tipo de
fornalha aberta foi determinado para cada aquecimento em uma amostra de tamanho 46,
resultando em um tempo médio de 382,1 minutos com um desvio-padrão de 31,5 minutos.
Calcule e interprete:
a) Intervalo de Confiança 95% para a média; R: P( 372,7 < µ < 391,5) = 95%
b) Intervalo de Confiança 99% para a média; R: P( 369,6 < µ < 394,6) = 99%
203
24. Para avaliar o peso médio de uma nova safra de limões, o administrador de uma fazenda
obteve os pesos de 50 limões novos encontrando uma média de 115,5 gramas, com um desvio-
padrão de 20,4 gramas. Construa e interprete confiança 95% para o verdadeiro peso médio dos
limões. R: P( 109,8 < µ < 121,2) = 95%
25. Uma amostra de 539 lares de certa cidade foi selecionada e determinou-se que em 133
deles havia pelo menos uma arma de fogo. Usando um nível de confiança de 95% calcule e
interprete o Intervalo de Confiança para a verdadeira proporção de lares com pelo menos uma
arma de fogo. R: P( 20,7% < p < 28,7%) = 95%
26. Em certo distrito, foi efetuada uma sondagem a 2500 eleitores dos quais 800 declararam ir
votar no candidato do partido A. Construa um intervalo de confiança de 90% para a proporção
de votos no candidato do partido. R: P( 30% < p < 34%) = 90%
27. Uma centena de componentes foi ensaiada e 93 deles funcionaram mais de 500 horas.
Determinar um intervalo de confiança 95% para a proporção. R: P( 91% < p < 95%) = 95%
28. Quarenta e uma pessoas, de uma amostra aleatória de 500 trabalhadores, estão
desempregadas. Calcule um intervalo de confiança 95% para esta proporção. R: P( 6,2% < p
< 10,2%) = 95%
29. Em uma pesquisa de opinião com 600 pessoas entrevistadas, constatou-se que 240
responderam ―sim‖ a determinada pergunta feita. Estime, com 95% de confiança, a proporção
de pessoas com essa mesma opinião na população. R: P( 36% < p < 44%) = 95%
204
8. AMOSTRAGEM
Como vimos nos exemplos anteriores, um pesquisador trabalha com apenas uma parte da
população, isto é, com uma amostra. A maneira como é selecionada uma amostra é de extrema
importância, pois é através dos dados amostrais que serão calculadas as estimativas dos
parâmetros desconhecidos da população e, também, serão feitas afirmativas sobre eles.
E fácil de imaginar que é fundamental o pesquisador ter um bom conhecimento da
população, pois quanto mais ele conhecê-la, mais informativa será a amostra selecionada. Por
exemplo, se um biólogo deseja fazer um estudo sobre a poluição de uma baía em peixes do
gênero Bagre, ele vai precisar coletar uma amostra de peixes desse gênero e avaliar o número
de micronúcleos em cinco mil células. Para se ter uma amostra que permita tirar conclusões
válidas, é necessário ter um bom conhecimento sobre o Comportamento desse tipo de peixe.
Para se ter uma amostra que permita tirar conclusões válidas, é necessário ter um bom
conhecimento sobre o comportamento desse tipo de peixe.
Quando uma pesquisa/ estudo analisa os dados de todo o universo/ grupo que ele tenta
compreender, dizemos que está trabalhando com a POPULAÇÃO. Entretanto, muitas vezes o
pesquisador trabalha com tempo, energia e recursos econômicos limitados, tornando possível a
análise de apenas parte do grupo de dados retirados da população. Este grupo denomina-se
AMOSTRA.
AMOSTRA é um subconjunto de indivíduos extraídos de uma população [Levin,
1987]. O processo de escolha dos indivíduos que pertencerão a uma AMOSTRA é
denominado AMOSTRAGEM. Amostragem também pode ser definida como o conjunto de
205
procedimentos e técnicas para extração de elementos da população para compor a amostra. O
objetivo da amostragem é obter amostras representativas das populações em estudo.
As técnicas de amostragem se dividem em: probabilísticas e não-probabilísticas. As
técnicas probabilísticas são aquelas onde todos elementos da população têm uma
probabilidade não nula de seleção. Nas técnicas não-probabilísticas não podemos garantir que
todos elementos têm probabilidade de serem selecionados para a amostra.
206
Os elementos são selecionados através do fluxo destes em determinado local. Por
exemplo, considere uma pesquisa referente à opinião das pessoas sobre a administração
da cidade. A amostra pode ser selecionada considerando o fluxo das pessoas no centro
de Porto Alegre.
Exemplo 66: Numa pesquisa sobre propriedades químicas de uvas da cultivar Cabernet
Sauvignon, num parreiral com idade de ± 6 anos, o pesquisador deseja estudar o teor médio de
açúcar nas seguintes condições:
Condição 1: plantas sadias;
Condição 2: plantas com infecção média da virose do enrolamento;
Condição 3: plantas com infecção forte da virose do enrolamento.
As populações são formadas por todas as plantas adultas da cultivar cabernet na região
considerada para cada uma das condições. Nesse caso, o pesquisador seleciona
intencionalmente 10 plantas, para cada condição, de um parreiral. Portanto, temos três
amostras, cada uma de tamanho igual a 10.
Exemplo 67: Um pesquisador deseja comparar os teores médios de proteína de três cultivares
de Para executar o experimento ele dispõe de uma área de terra homogênea (mesma
fertilidade, mesma umidade, etc.) de tamanho 288 m2. Portanto, as três cultivares vão ser
comparadas em igualdade de condições. Um princípio básico da experimentação é o uso de
207
repetições, ou seja, são necessários pelo menos dois valores para cada cultivar. Assim, a área
total vai ser dividida em 12 canteiros de tamanhos 6m x 4 m, totalizando 24 m2/canteiro. O
número de repetições (tamanho da amostra) por cultivar é 4.
1 2 3
Cultivar3 Cultivar 1 Cultivar 1
4 5 6
Cultivar 2 Cultivar 1 Cultivar 2
7 8 9
Cultivar 2 Cultivar 1 Cultivar 3
10 11 12
Cultivar 2 Cultivar 3 Cultivar 3
Exercício 128: Um grupo de 86 pessoas preencheu uma ficha para solicitação de emprego no
RH de uma empresa. Cada candidato podia assinalar a opção de cargo, de acordo com a sua
própria competência e experiência.
208
Exercício 130: Uma indústria alimentícia produz 6.800 latas de ervilha por semana. O
departamento de qualidade fará testes para verificação do peso mediante uma amostra
sistemática de 25 latas de ervilha. Considere que as latas estão numeradas de 1 a 6.800.
Sabendo que a 1ª lata selecionada foi a nº 36:
a) Quais são então os números das 4 latas seguintes?
b) Qual o número da última lata selecionada?
Exercício 131: Numa indústria, há 655 operários. Qual o tamanho de uma amostra aleatória
que represente 11% da população?
Exercício 132: Uma empresa prestadora de serviço mantém um cadastro de 2.185 clientes, e
pretende verificar o interesse de seus clientes por um novo produto; para isso, seleciona uma
amostra sistemática de 70 clientes.
a) Supondo que o primeiro segurado (obtido por sorteio) seja o de número 21, determine
os números dos próximos cinco clientes selecionados.
b) Qual o número do último cliente selecionado?
As técnicas estatísticas que veremos nas seções subsequentes pressupõem que a amostra
foi selecionada aleatoriamente ou por algum processo equivalente. Embora, para os dados de
uma pesquisa, nem sempre uma amostra aleatória é possível, tomando-se algumas precauções
especiais no delineamento da pesquisa, esta suposição (amostra aleatória) pode ser pertinente,
por exemplo, como no experimento do Exemplo 6.8, fazendo-se a casualização (sorteio) dos
tratamentos às unidades experimentais (BOX et al., 1978).
209
9 Determinação do tamanho da amostra
Em pesquisas, uma etapa de grande importância é a determinação do tamanho da
amostra que será utilizada para o levantamento dos dados.
A determinação do tamanho da amostra depende de três fatores:
Nível de confiança (1-): o pesquisador é que vai determinar o nível de confiança que
deseja;
Precisão (eo): em toda experimentação ou pesquisa, a utilização da amostragem está
condicionada a um erro amostral, que corresponde à diferença entre as estimativas
amostrais e os parâmetros populacionais;
Tipo de investigação: depende das características populacionais a serem investigadas.
Relembrando:
210
Quando desejamos coletar uma amostra aleatória de dados que será utilizada para
estimar um media populacional quantos valores amostrais devem ser obtidos? De acordo
com TRIOLA (2008), a determinação do tamanho de uma amostra é muito importante, pois
amostras desnecessariamente grandes gastam tempo e dinheiro, e amostras muito pequenas
podem levar a resultados pobres.
Não podemos evitar a ocorrência do ERRO AMOSTRAL, porém podemos limitar seu
valor através da escolha de uma amostra de tamanho adequado. Obviamente, o ERRO
AMOSTRAL e o TAMANHO DA AMOSTRA seguem sentidos contrários (conforme
apresentação da figura abaixo). Quanto maior o tamanho da amostra, menor o erro cometido e
vice-versa.
TAMANHO DA AMOSTRA
Menor Maior
ERRO AMOSTRAL
Para chegar a este número ideal, vamos considerar a expressão utilizada na construção
dos Intervalos de Confiança que representa o erro máximo de estimação:
z.
n
Ao isolarmos o valor de n na fórmula obtemos o seguinte resultado (para o caso de
conhecemos a variância populacional):
n = desvio-padrão
2 = margem de erro ou erro máximo de
estimativa
211
9.1 Cálculo tamanho da amostra para estimar uma média - é
preciso considerar duas situações:
caso 1: cálculo do tamanho da amostra para estimar uma média, quando a variância
populacional conhecida
(z )
2
(z ) 2 2 N
n 2 n 2
eo e ( N 1) (z ) 2 2
2
o
2
Onde:
Exemplo 68: Qual o tamanho de amostra necessário para estimar o tempo médio de que um
vendedor de uma loja de móveis gasta com cada cliente, admitindo erro de um minuto, para
mais ou para menos, para obter um nível de confiança de 99%. Suponha σ = 12 minutos.
Exemplo 69: Um comprador deseja estimar o valor médio das compras por cliente em uma
farmácia de uma rodoviária. Com base em dados de outras rodoviárias similares, o desvio
padrão de tais valores de vendas é estimado em cerca de σ = $2,13. Qual o tamanho mínimo
que deveria ter uma amostra aleatória se ele deseja estimar a média de vendas dentro de $ 1,00
e com uma confiança de 99%? R: n = 31
Exercício 133: Um economista deseja estimar a renda média para o primeiro ano de trabalho
de um bacharel em direito. Quantos valores de renda devem ser tomados, se o economista
deseja ter 95% de confiança em que a média amostral esteja a menos de R$ 500,00 da
verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para as
rendas, σ = R$6250,00. R: n = 601
Exercício 134: Um técnico precisa determinar o tempo médio gasto para perfurar três orifícios
numa peça de metal. Qual o tamanho da amostra que deve ser usado, para que tenhamos 95%
de confiança que sua média amostral esteja a menos de 15 segundos da verdadeira média,
sendo que, por valores históricos sabe-se que o desvio-padrão da população é 40 segundos? R:
n = 28
212
Quando não se conhece o desvio padrão da população, pode-se substituí-lo pelo da
amostra, que é obtido através de uma pré-amostra (amostra piloto), de tamanho n1.
Assim, tem-se:
caso 2: cálculo do tamanho da amostra para estimar uma média, quando a variância
populacional desconhecida
(t , ) s
2
(t , ) 2 s 2 N
n 2
n 2
e o e ( N 1) ( t , ) 2 s 2
2
o
2
Se n < n1, então a pré-amostra (amostra piloto) selecionada, de tamanho n1, foi suficiente
para garantir a precisão desejada;
Se n > n1, deve-se completar a pré-amostra, acrescentando elementos até atingir o valor de
―n‖, que garanta a precisão desejada.
213
Exemplo 70: Para estimar o preço médio, uma amostra de 6 produtos foi retirada, sem
reposição, de uma população aproximadamente normal, com 150 produtos e forneceu
variância amostral s2 = R$ 10,00. Qual deve ser o tamanho de uma amostra, para que a
estimativa do preço médio forneça um erro de R$ 2,00, no máximo, com 90% de confiança?
R: n = 10
Exemplo 71: Foram feitas vinte medidas do tempo total gasto para a precipitação de um sal,
em segundos, numa dada experiência, obtendo-se: 13 – 17 – 15 – 14 – 12 – 16 – 14 – 15 – 15
– 13 – 16 – 14 – 15 – 15 14 – 16 – 16 – 15. Esses dados são suficientes, pergunta-se, para
estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95% de certeza?
Caso negativo, qual o tamanho da amostra adicional necessária?
Exercício 135: A diretoria industrial de uma fábrica de cimento constatou que uma amostra
aleatória formada por 68 sacos de 50 kg de um lote formado por 2.000 sacos apresentou um
desvio padrão amostral do peso igual a 560g. Assumindo um erro máximo tolerável associado
à média populacional igual a 300g e um nível de confiança igual a 95%, calcule o tamanho da
amostra a ser analisada na inferência da média populacional do peso de todo o lote. R: n = 14
Exercício 136: Sorteou-se uma amostra aleatória simples, sem reposição, de 100 estudantes
do Curso de Engenharia Agronômica e solicitou-se a eles que anotassem suas despesas com
alimentação no período de um mês. O resultado da amostra foi uma despesa média de 40 u.m.
e um desvio-padrão de 10 u.m. (u.m.= unidades monetárias). Qual o tamanho da amostra
necessário para que tenhamos 95% de confiança de que o erro na nossa estimativa são seja
superior a 1,0 u.m.?
Exercício 137: Uma amostra de 20 crianças foi retirada de uma população aproximadamente
normal, fornecendo os seguintes resultados: média amostral 3,95 e desvio padrão 1,36.
Quantas crianças ainda devem ser incluídas na amostra, para estimar a média de idade, com α
= 1% e erro máximo de um ano?
214
9.2 Cálculo do tamanho da amostra para estimar uma
proporção populacional
(z ) 2 p * q * (z ) 2 p * q * N
n 2
n 2
e o2 e o2 ( N 1) (z ) 2 p * q *
2
onde: p * = proporção amostral (pode ser obtida através de uma pré-amostra de n1 elementos).
Comentários:
Exemplo 72: Um granjeiro, preocupado com o número de ovos que deve utilizar para obter
certo número de pintinhos, selecionou uma amostra de 500 ovos e verificou que 92% deles
produziam pintinhos saudáveis. Determine a quantidade de ovos que o granjeiro deve
selecionar, para estimar, com 95% de confiança, a proporção de pintinhos que nascerão,
admitindo, no máximo, 2% de erro.
Exemplo 73: Quantos elementos deve ter a amostra para estimar a proporção das 3.000
empresas que optaram por um novo tipo de imposto, considerando α=5% e erro máximo 4%
Exercício 138: O IBOPE está interessado em estimar a proporção de residências que assistem
ao programa do Faustão. Qual o número de residências que se deve analisar para ter 95% de
confiança e margem de erro máximo de 0,03 para a estimativa? R: n = 1068
Exercício 139: Qual deve ser o tamanho da amostra que avalie a proporção de mulheres que
trabalham como arquivistas numa grande empresa privada, com 95% de confiança e erro
máximo de estimativa de 10%? R: n = 97
215
Exercício 140: Numa pesquisa para eleição presidencial, qual deve ser o tamanho de uma
amostra aleatória simples, se deseja garantir um erro amostral não superior a 2%? R: n = 2401
Exercício 141: Numa empresa com 1000 funcionários, deseja-se estimar a percentagem dos
favoráveis a certo treinamento. Qual deve ser o tamanho da amostra aleatória simples que
garanta um erro amostral não superior a 5%? R: n = 278
Exercício 142: Uma empresa de pesquisa eleitoral foi contratada por um partido político com
o objetivo de investigar a preferência dos eleitores pelo candidato da situação na próxima
eleição presidencial. Sabe-se que a empresa e o partido concordaram em usar um nível de
confiança igual a 95% e um erro máximo igual a 4%. Calcule os tamanhos das amostras
necessárias nos seguintes casos.
Exercício 143: Uma pesquisa de mercado tem como objetivo estimar a proporção de pessoas
que consomem o biscoito Delícia da Manhã. Pede-se:
a) Que tamanho de amostra devemos escolher se queremos que, com probabilidade 0,92,
a estimativa não se desvie do verdadeiro valor por mais de 0,04?
b) Se tivermos a informação adicional de que a proporção de consumo do tal biscoito é no
máximo de 35%, qual então deve ser o tamanho da amostra?
c) Decidimos colher uma amostra de tamanho 130. Qual o erro máximo que cometemos
com probabilidade 0,96?
d) Para uma amostra de tamanho 150, qual a probabilidade de que o erro máximo seja
0,17?
216
Obs: Como a variância aparece no numerador das fórmulas, conclui-se que quanto
mais heterogênea for a população em estudo, maior deverá ser o valor de n.
1. Uma pequena indústria fabricante de gêneros alimentícios deseja realizar uma pesquisa em
um supermercado de uma região de São Leopoldo com o objetivo de estimar a proporção de
consumidores que preferem o leite embalado em sacos plásticos. Sabe-se que supermercado
atende aproximadamente 2000 clientes. Qual deve ser o tamanho mínimo da amostra
considerando um nível de confiança de 95% e um erro máximo de estimação de 5%?
2. De uma amostra de 100 peixes da espécie Xenomelaniris brasiliensis, coletada na Armação
do Pântano do Sul, Florianópolis, SC, verificou-se que 57 deles apresentavam comprimento
total maior que 50 mm. Com base nessa informação, determine o intervalo de 95% para a
verdedaeira proporção de peixes com comprimento total acima de 50 mm. Qual o tamanho de
amostra necessário para estimar a verdadeira proporção com precisão de cinco pontos
percentuais, usando um grau de confiança de 95%?
217
4. Em um experimento, 320 de 400 sementes germinaram. Determine o intervalo de confiança
de 99% para a verdadeira proporção de sementes que germinam. Para realizar o teste de
germinação, quantas sementes serão necessárias utilizar, se desejamos um intervalo de
confiança de 99%, com precisão de 4 pontos percentuais?
5. Sorteou-se uma amostra aleatória simples, sem reposição, de 100 estudantes do Curso de
Engenharia Agronômica e solicitou-se a eles que anotassem suas despesas com alimentação
no período de um mês. Há 500 estudantes matriculados no curso. O resultado da amostra
foi uma despesa média de 40 u.m. e um desvio-padrão de 10 u.m. (u.m.= unidades
monetárias).
a) Construa um intervalo de 95% de confiança para a verdadeira média.
b) Qual o tamanho da amostra necessário para que tenhamos 95% de confiança de que
o erro na nossa estimativa são seja superior a 1,0 u.m.?
8. Uma máquina enche pacotes de café com um desvio padrão igual a 10 g. Ela estava
regulada para enchê-los com 500 g, em média, Agora ela está desregulada e queremos saber
qual a nova média verdadeira (populacional). Que tamanho de amostra será necessário para
produzir um intervalo de confiança para a verdadeira média populacional, com uma precisão
de 3,5 g de café para mais e para menos. Use um grau de confiança de 99%.
9. Um assistente social deseja saber o tamanho da amostra (n) necessário para determinar a
proporção da população atendida por uma Unidade de Saúde, que pertence ao município de
Cariacica. Não foi feito um levantamento prévio da proporção amostral e, portanto, seu valor é
desconhecido. Ela quer ter 90% de confiança que sua o erro máximo de estimativa (E) seja
218
10. O mercúrio, na sua forma elementar, é absorvido com dificuldade pelo intestino, mas o
metil-mercúrio, acumulado em organismos aquáticos como os peixes, é facilmente absorvido
pelo trato intestinal humano. Um grupo de pesquisadores brasileiros deseja monitorar a
contaminação por esse metal em populações ribeirinhas amazônicas. Em um estudo feito em
pessoas que vivem às margens do Rio Negro, Barbosa e colaboradores (2001) dosaram o
metil-mercúrio (% sobre o Hg total) em fios de cabelo de 17 homens, obtendo média igual a
73 e desvio padrão igual a 15. Use as informações deste trabalho para calcular o tamanho
amostral mínimo necessário para estimar a média verdadeira para o metil-mercúrio nessas
populações, com 0,95 de confiança e erro de estimação de 3 unidades.
11. Uma pesquisa é planejada para determinar as despesas médicas anuais das famílias dos
empregados de uma grande empresa. A gerência da empresa deseja ter 95% de confiança de
que a média da amostra está no máximo com uma margem de erro de 50 reais da média real
das despesas médicas familiares. Um estudo-piloto indica que o desvio-padrão pode ser
calculado como sendo igual a 400 reais.
12. O teste de QI padrão é planejado de modo que a média seja 100 e o desvio-padrão para
adultos normais seja 15. Ache o tamanho da amostra necessária para estimar o QI médio dos
instrutores de estatística. Queremos ter 99% de confiança em que nossa média amostral esteja
a menos de 1,5 pontos de QI da verdadeira média. A média para esta população é obviamente
superior a 100, e o desvio-padrão é provavelmente inferior a 15, porque se trata de um grupo
com menor variação do que um grupo selecionado aleatoriamente da população geral;
13. Um técnico precisa determinar o tempo médio gasto para perfurar três orifícios numa peça
de metal. Qual o tamanho da amostra que deve ser usado, para que tenhamos 95% de
confiança que sua média amostral esteja a menos de 15 segundos da verdadeira média, sendo
que, por valores históricos sabe-se que o desvio-padrão da população é 40 segundos?
219
14. Deseja-se estudar as percentagens de ocorrências de diversos atributos das famílias de uma
comunidade de 600 famílias. Qual deve ser o tamanho de uma amostra aleatória simples,
considerando em cada estimativa um erro Maximo de 4% e nível de 95% de confiança?
15. Um estudo deseja saber a proporção de eleitores que se declaram indecisos em relação a
certo candidato. Qual o (real) tamanho mínimo de amostra para uma confiança de 95% e:
a) um erro máximo de estimação de 5%
b) um erro máximo de estimação de 3%
c) um erro máximo de estimação de 1% . Compare os resultados.
16. Uma grande loja de departamentos deseja realizar uma pesquisa com seus clientes que
possuem cartão da loja. Ao todo são 4500 clientes, qual o tamanho da amostra que deve ser
adotado com um erro máximo de estimação de 5% e um nível de confiança de 95%?
17. Um gerente de restaurante deseja estimar o tempo médio que os clientes levam para
realizar uma refeição. Com base em estudos anteriores sabe-se que o desvio-padrão é de 15
minutos. Utilizando uma confiança de 95% e um erro máximo de 5 minutos, qual deve ser o
tamanho mínimo da amostra para este estudo?
18. Uma amostra preliminar de pessoas de uma determinada comunidade apresentou 18% de
analfabetos. Com este resultado quer-se estimar a proporção de analfabetos da população com
uma confiabilidade de 95% e com um erro de estimação máximo de 2,5%. Qual o tamanho da
amostra a ser utilizada?
19. Um grupo de 86 pessoas preencheu uma ficha para solicitação de emprego no RH de uma
empresa. Cada candidato podia assinalar a opção de cargo, de acordo com a sua própria
competência e experiência.
Levando em conta as opções de cargo, os candidatos foram separados em quatro grupos
diferentes, com quantidades, respectivamente, de N1 = 24, N2= 30, N3=19, N4= 13. Sabendo
que foi realizada uma amostragem estratificada proporcional contendo 4 elementos do
primeiro estrato, determine:
a) O número total de elementos da amostra.
b) O número de elementos selecionados em cada estrato.
220
20. Uma indústria alimentícia produz 6.800 latas de ervilha por semana. O departamento de
qualidade fará testes para verificação do peso mediante uma amostra sistemática de 25 latas de
ervilha. Considere que as latas estão numeradas de 1 a 6.800. Sabendo que a 1ª lata
selecionada foi a nº 36:
a) Quais são então os números das 4 laatas seguintes?
b) Qual o número da última lata selecionada?
21. Numa indústria, há 655 operários. Qual o tamanho de uma amostra aleatória que
represente 11% da população?
22. Uma empresa prestadora de serviço mantém um cadastro de 2.185 clientes, e pretende
verificar o interesse de seus clientes por um novo produto; para isso, seleciona uma amostra
sistemática de 70 clientes.
c) Supondo que o primeiro segurado (obtido por sorteio) seja o de número 21, determine
os números dos próximos cinco clientes selecionados. b) Qual o número do último
cliente selecionado?
221
Essas afirmações são consideradas hipóteses estatísticas, porque se referem a parâmetros
populacionais, e comumente precisam ser verificadas a partir de amostras. O ramo da
estatística que trata desse problema é conhecido como teste de hipóteses. Neste capítulo
apresentamos alguns testes relacionados com médias e proporções.
Teste de hipóteses
É uma regra de decisão para aceitar ou rejeitar uma hipótese estatística, com base nos
elementos amostrais.
Hipótese estatística
É uma suposição quanto ao valor de um parâmetro populacional, que será verificada
por um teste paramétrico ou uma afirmação quanto a outras características da população,
que será verificada por um teste não-paramétrico.
Frequentemente, formulamos uma hipótese estatística com o objetivo de rejeitá-la
ou invalidá-la. Por exemplo, quando vamos realizar um experimento de competição de
cultivares de sorgo sacarino, para verificar se um cultivar é melhor que outro com relação à
produção, formulamos uma hipótese inicial de que não existem diferenças entre seus efeitos
(isto é, assumimos que quaisquer diferenças observadas na produção são devidas,
exclusivamente, a fatores não controlados ou acaso). Esta hipótese inicial que formulamos é
denominada hipótese da nulidade e é representada por Ho.
Ho: não há diferença entre as produções dos cultivares comparados;
ou
Ho: os cultivares apresentam efeitos semelhantes sobre a produção;
222
Admitindo essa hipótese como verdadeira, se verificarmos que os resultados obtidos em
tuna amostra diferem acentuadamente dos resultados esperados para essa hipótese, com base
na teoria das probabilidades, pode-se concluir que as diferenças observadas são significativas,
e rejeita-se a hipótese da nulidade em favor de outra, denominada hipótese alternativa,
representada por H1 ou Ha. Por exemplo, no experimento de competição de cultivares de
sorgo, a hipótese alternativa seria:
H1: há diferença entre as produções dos cultivares comparados;
Ou
H1: os cultivares apresentam efeitos diferentes sobre a produção;
Exemplo 74: Vamos considerar a situação na qual um produtor precisa decidir pela compra ou
não de sementes de milho fornecidas por um distribuidor, que afirma que a proporção de
germinação das sementes é p = 0,94. Para tanto ele observou a proporção de germinação de
uma amostra aleatória simples de 100 sementes e encontrou p*=0,93. Com base nesse
resultado o produtor deveria discordar do distribuidor?
223
Os processos que nos permitem decidir se aceitamos ou rejeitamos uma determinada
hipótese estatística, ou se a amostra observada difere significativamente dos valores esperados,
são denominados testes de hipóteses ou testes de significância.
A regra para a construção das hipóteses nula e alternativa deve ser sempre respeitada.
H0 : Sempre deve estabelecer uma igualdade. A igualdade pode ser entendida por meio de
uma igualdade simples “ =” , ou por meio das situações ( ).
H1: sempre deve estabelecer uma desigualdade. A desigualdade pode ser entendida por meio de uma
diferença simples “ “, por meio de situação do tipo maior, “ >” , ou de uma situação do tipo
menor, “ <”
Ex2: Um fabricante de lâmpadas alega que seus produtos duram, em média e no mínimo, 400
horas. As hipóteses formuladas seriam:
224
Ex4: Um economista gostaria de testar a hipótese média do crescimento da renda familiar em
uma região ter sido diferente de zero. As hipóteses formuladas envolvem alegação da
desigualdade em H1. As hipóteses formuladas seriam:
Ex5: Uma prestadora de serviços de dedetização alega que a aplicação de seus produtos dura,
em média, mais de 180 dias. As hipóteses formuladas seriam:
Ex6: Uma fábrica de defensivos agrícolas alega a sua emissão de efluentes mensal menor que
100.000 litros. As hipóteses formuladas seriam:
Tipos de erros
Quando se realiza um teste de hipóteses, podem-se cometer dois tipos de erro: Erro tipo
I ou Erro tipo II.
Erro tipo I: consiste em rejeitar H0, quando ela é verdadeira. Pode ser limitado pela escolha de
;
Erro tipo II: consiste em aceitar H0, quando ela é falsa. É a potência do teste.
Nos testes de hipóteses controlam-se os erros do tipo I e II, enquanto que, nos testes de
significância, controla-se apenas o erro do tipo I.
225
Potência de um Teste
A potência de um teste estatístico é a probabilidade de rejeitar a hipótese nula H0,
quando a hipótese alternativa for verdadeira.
E é calculada como 1 – β, podendo ser interpretada como a probabilidade de rejeitar
corretamente uma hipótese nula falsa.
A potência é uma medida muito descritiva e concisa de sensibilidade de um teste
estatístico, em que por sensibilidade entendemos a habilidade do teste detectar diferenças.
Definição
O valor p é o menor nível de significância que conduz à rejeição da hipótese nula H0 com os
dados fornecidos.
226
Teste bilateral
Consideram-se ambas as extremidades da distribuição por amostragem como região de
rejeição (RR). As hipóteses serão formuladas da seguinte maneira:
H0: = 0
H1: 0
onde: 0 = valor suposto para o parâmetro.
3
RAHo
1
1-
RRHo RRHo
0
-
2 0 2 4 6 8 1
0 1
2 1
4
Va
lort
a b
ela
do Va
lort
a b
ela
do
Neste tipo de teste, aceita-se Ho se o valor calculado, com base na amostra, estiver entre
os dois valores tabelados, mostrados na figura acima.
Teste unilateral
Considera-se apenas uma extremidade da distribuição por amostragem como região de
rejeição (RR). Ver curvas abaixo.
Neste tipo de teste, aceita-se Ho se o valor calculado com base na amostra for maior
que o valor tabelado, no caso de teste unilateral à esquerda e menor que o valor tabelado no
caso de teste unilateral à direita.
Unilateral à esquerda: H0: = 0 Unilateral à direita: H0: = 0
H1: < 0 H1: > 0
1- 1-
227
Procedimento para a realização de um teste de hipóteses
A seguir, são apresentados alguns destes testes e as estatísticas que devem ser
calculadas para serem comparadas com as respectivas estatísticas tabeladas.
228
Estatística calculada:
X o
zc
n
onde:
Exemplo 76: O comprimento da concha de certa espécie de molusco tem média igual a 31,2
mm e desvio padrão igual a 3,0 mm. Em um grupo de 14 indivíduos dessa espécie, obtidos no
sul da América, foi obtida uma média igual a 27,8 mm (Ducatti e Pitoni, 1995). Verifique se
esse valor desvia-se significativamente da média para a espécie ( α = 5%).
Exemplo 77: Uma balança para encher pacotes de sementes automaticamente está
programada para produzir pacotes com peso médio de 20 kg e desvio-padrão de 0,20 kg.
Periodicamente é feita uma inspeção para verificar se o peso médio está sob controle. Para este
fim, foi selecionada uma amostra de oito pacotes de sementes, cujos resultados foram:
229
Exercício 144: Um exame do comprimento das barras produzidas por uma siderúrgica.
Mostrou-se média de 115 cm e σ = 20 cm. Para testar a hipótese de que a média num certo mês
é a mesma pegou-se aleatoriamente uma amostra de 20 barras. Obtendo-se média de 118 cm.
Verificar se houve um aumento na média para α=5%?
Exercício 145: Uma indústria produz lâmpadas que segue uma distribuição N(800h, 1600h).
Testar a hipótese de que µ = 800h contra a alternativa µ ≠ 800h se uma amostra aleatória de 30
lâmpadas tem um tempo médio de vida de 788h. Adotar o nível de significância de 0,05.
Exercício 146: Num certo processo químico é muito importante que uma dada solução tenha
um pH de exatamente 8.20. O método utilizado na determinação do pH fornece medições que
se admite terem distribuição normal de valor médio igual ao verdadeiro valor do pH da
solução e desvio padrão de 0.02.
Para avaliar o pH de uma solução, efetuaram-se 10 medições independentes tendo-se obtido os
seguintes valores:
8.18 8.16 8.17 8.22 8.19 8.17 8.15 8.21 8.16 8.18
a) Indique uma estimativa do valor médio do pH da solução.
b) Com base nestas 10 medições, o que pode concluir relativamente à utilização desta solução
no referido processo químico?
c) Pretende-se efetuar um novo conjunto de medições para diminuir o erro máximo cometido
na estimativa do verdadeiro valor do pH da solução. Mantendo-se todas as condições referidas
acima, qual deverá ser o tamanho da amostra para que aquele erro máximo não exceda 0.01, a
95% de confiança?
Exercício 148: Uma grande rede de lanchonetes afirma que suas vendas médias são
exatamente iguais a $ 10,00. Uma amostra aleatória formada por 16 vendas apontou uma média
igual à $ 9,00. Supõe-se que o desvio padrão populacional de vendas é igual a $ 3,00, sendo as
230
vendas normalmente distribuídas. O que pode ser dito sobre a alegação? Adote 5% de nível de
significância.
R: Zc= -1,33 e Ztab = 1,96. Aceita-se H0
Exercício 150: Um exame do comprimento das barras produzidas por uma siderúrgica.
Mostrou-se média de 115 cm e σ = 20 cm. Para testar a hipótese de que a média num certo mês
é a mesma pegou-se aleatoriamente uma amostra de 20 barras. Obtendo-se média de 118 cm.
Verificar se houve um aumento na média para α=5%? R: Zc= 0, 67 e Z5%/2 = 1,64
Exercício 151: Uma firma tem seguido a política de oferecer uma garantia de 2000 utilizações
para determinado aparelho que comercializa. Este procedimento baseia-se em estudos levados
a cabo no período inicial de produção, que indicavam um número médio de utilizações
possíveis por aparelho de 2060, com uma variabilidade traduzida por σ = 20. Existindo
indícios de que presentemente a situação pode ter mudado, pretende-se averiguar se continua a
ser 2060 o número médio de utilizações por aparelho. Para o efeito foram selecionados ao
acaso e testados pela firma 10 aparelhos, os quais forneceram os seguintes valores:
2100 - 2025 – 2071 - 2067 - 2150 – 2115 – 2064 – 2088 – 1995 – 2095
Suponha que o número de utilizações permitidas por aparelho comporta-se de forma
aproximadamente normal.
a) Como define o teste de hipóteses a efetuar? Justifique. R: H0: µ = 2060; H1: µ 2060
b) Proceda ao cálculo da RC para o teste definido anteriormente (com α = 0.05). R: Zc= 2,69 e
Z5% = 1,96. Rejeita-se H0
Exercício 152: Uma indústria produz lâmpadas que segue uma distribuição N(800h, 1600h).
Testar a hipótese de que µ = 800h contra a alternativa µ ≠ 800h se uma amostra aleatória de 30
lâmpadas tem um tempo médio de vida de 788h. Adotar o nível de significância de 0,05. R:
Zc= -1,64 e Z5% = 1,96
231
Exercício 153: As declarações do imposto de renda individuais entregues antes do dia 31 de
março obtiveram uma média de restituição de US$ 1.056. Considere a população de declarantes
―de última hora‖ que entregaram suas declarações durante os cinco últimos dias do período de
entrega das declarações do imposto de renda ( tipicamente, de 20 a 15 de abril).
a. Um pesquisador sugere que uma razão para que as pessoas esperem até os cinco últimos
dias é que em média essas pessoas têm menores restituições a receber do que aquelas
que entregam as declarações primeiro. Desenvolva as hipóteses apropriadas de tal forma
que a rejeição de H0 sustente a argumentação do pesquisador.
b. Para uma média de 400 indivíduos que entregaram suas declarações entre 10 e 15 de
abril, a média amostral da restituição foi de US$ 910. Baseando-se na experiência
anterior, pode-se supor um desvio padrão populacional σ = US$ 1.600. qual é o valor p?
c. Com α = 0,05, qual é a sua conclusão?
d. Repita o critério anterior usando o critério do valor crítico.
Delegado - Mas minha senhora, por que você matou o gato do seu vizinho? Tudo bem que a
senhora teve razão das inúmeras reclamações anteriores de barulho que ele fazia à noite, não
deixando a vizinhança dormir....Mas não precisa matar o coitadinho!
Acusada – Foi acidente, seu delegado.
Delegado – Acidente! Como assim?
Acusada – o revólver disparou sem querer. Foi um acidente infeliz, eu garanto.
Delegado – acidente? Todos os 59 tiros?
232
2º Caso: Teste para uma média com variância populacional 2
desconhecida
Estatística calculada:
X o
tc
s
n
onde:
Exemplo 78: O conteúdo médio de material sólido em suspensão na água do rio R costuma
ser de 205 mg/L. Uma coleta recente, em 9 pontos desse curso d’agua, forneceu os dados a
seguir. Verifique se houve alteração na quantidade de material sólido em suspensão, para um
nível de significância de 0,05.
X (mg/l): 210 – 242 – 226 – 268 – 251 – 206 – 218 – 215 – 207 ( ̅ : 227; s:21,9)
233
Exercício 154: Uma amostra aleatória de 26 copos de um suco mostrou que se tinha um
conteúdo médio do líquido de 220 ml com desvio padrão de 26 ml. Testar a hipótese de que μ
= 225 ml contra μ > 225 ml com nível de significância α = 0,05.
Exercício 155: Um cientista deseja saber se o pH de um solo acido. Ele obteve uma amostra
com cinco unidades e obteve os valores de ph:
5.8; 6.3; 6.9; 6.2; 5.5
Considere os seguintes aspectos:
O cientista considera o solo acido se o seu pH for menor que 7. Teste ao nível de 10% de
significância.
Exercício 156: Um Eng. Florestal deseja saber se a altura média de uma floresta nativa e
superior a 20m. Numa amostra de 100 parcelas de inventario, ele obteve média amostral de
23m e desvio padrão amostral de 7.5m. Há evidência estatística (nível de 5% de
probabilidade) para se acreditar que a altura média da floresta é superior a 20m?
a) Esses dados indicam, com evidência suficiente, que a média de HC expelido por esses
veículos é menor que 1,5 grama por milha?
b) Determine um intervalo de confiança de 90% de confiança para a média de HC
expelido.
Exercício 158: Em certa espécie de plantas ornamentais, o comprimento médio das sementes
é de 6 mm. Em uma amostra de sete sementes de uma nova variedade, os valores obtidos
foram os indicados a seguir. Compare as duas variedades entre si quanto ao comprimento das
sementes ( α = 5%).
X (mm): 6; 7,5; 7; 6,5; 8; 9; 8,5.
234
10.2 Teste para a proporção populacional (p)
p* p o
zc
p oq o
n
onde:
Exemplo 80: Sabe-se que a proporção de sementes de soja com danos mecânicos provocados
pelo beneficiamento é p = 0,18. Suspeita-se que a maquina em uso está desregulada,
provocando um aumento na proporção de sementes de soja com danos mecânicos. Foram
feitas 40 observações durante um dia de trabalho e se constatou que p* = 0,20. Verificar se a
máquina de beneficiamento precisa ser regulada, ao nível de significância de 5%.
Exercício 159: Em uma pesquisa de mercado, acerca da preferência pelo produto X, 300
consumidores foram entrevistados, sendo que 100 declararam consumir o produto. No
passado, o produto X era a marca líder de mercado, com cerca de 40% da preferência do
consumidor. Com base nos dados, e usando uma significância de 1%, a marca ainda tem a
liderança?
235
Exercício 160: Afirma-se que 40% de todos os fregueses podem identificar uma marca
comercial amplamente anunciada. Se, em uma amostra aleatória, 13 dentre 20 fregueses foram
capazes de identificar a marca, teste ao nível de 0,05 de significância, se devemos aceitar a
hipótese nula p = 0,40 ou a hipótese alternativa p > 0,40.
Exercício 161: A emissora de TV Sinal no ar decidiu que o programa Bola na Trave será
mantido no ar caso tenha pelo menos 25% da audiência de seu horário. Se a audiência for
menor que 25%, o programa será cancelado. Foram entrevistadas por telefone 50 pessoas que
estavam assistindo a programas de televisão no horário de exibição do Bola na Trave. Nove
delas estavam assistindo o programa. O programa deve ser cancelado? Suponha um nível de
confiança igual a 95%.
Exercício 162: Tem sido afirmado que 70% dos alunos de uma grande universidade opõem-se
a um plano para aumentar as taxas escolares para melhorar o estacionamento do campus. Se
15 dentre 18 estudantes daquela universidade, escolhidos aleatoriamente, opõem-se ao plano,
teste a afirmação, ao nível de 0,05 de significância.
Exercício 164: Sabe-se que a proporção de sementes de soja com danos mecânicos
provocados pelo beneficiamento é q= 0, 18. Suspeita-se que a máquina em uso está
desregulada, provocando um aumento na proporção de sementes de soja com danos
mecânicos. Foram feitas 40 observações durante um dia de trabalho e se constatou que p*=
0, 20. Verificar se a máquina de beneficiamento precisa ser regulada, ao nível de
significância de 5%.
Exercício 166: Nitrogênio é o elemento mais comum aplicado no solo. Em regiões tropicais,
apenas uma parte do nitrogénio aplicado é aproveitada pelas culturas. Informação sobre P, a
porcentagem média de nitrogénio perdido, é importante para pesquisas sobre as condições
ótimas de crescimento das plantas. Os dados a seguir descritos representam a quantidade de
nitrogénio perdido (dada em porcentagem do total de nitrogénio aplicado):
10,8 13,5 11,8 9,0 14,7 10,5 8,0 10,0
9,8 10,3 14,0 9,5 8,7 13,8 12,8
a) Faça o teste de hipótese utilizando o valor calculado da estatística de teste, ao nível de
significância de 5%, para verificar se os dados da amostra suportam a hipótese de que
a porcentagem média de nitrogênio perdido (p) é menor do que 13%.
b) Calcule o valor p do teste e interprete.
x np0
Z , que é um valor de uma variável aleatória que tem aproximadamente
np0 (1 p 0 )
distribuição normal.
237
Exercício 167: Um agrônomo afirma que a produtividade média do feijão da safra das
lavouras de agricultores familiares de um determinado ano é de 800 kg/ha. Para investigar a
veracidade dessa afirmação selecionou-se uma amostra de nove lavouras onde obteve-se os
seguintes valores de produtividade de feijão, em kg/ ha:
Lavoura 1 2 3 4 5 G 7 8 9
Produtividade 767,8 764,1 716,8 750,2 756,0 692,5 736,1 746,1 731,4
Exercício 168: Um crítico de televisão afirma que 80% de todos os espectadores consideram
inconveniente o nível de ruído de certo comercial. Se uma amostra aleatória de 320
espectadores de TV inclui 245 que acham inconveniente o nível de ruído do comercial, teste
ao nível de 0,05 de confiança, se a diferença entre a proporção amostral, 245/320 ~ 0,766 e p0
= 0,80 é significativa.
238
11 Teste para a diferença entre duas médias
populacionais
( X1 X 2 )
zc
12 22
n1 n2
239
Exemplo 81: Uma máquina automática enche latas com base no peso líquido, com
variabilidade praticamente constante e independente dos ajustes na média, dada por um desvio-
padrão de 5g. Duas amostras retiradas em dois períodos de trabalho consecutivos, de dez e
vinte latas forneceram pesos líquidos médios de, respectivamente, 184,6 e 188,9g. Desconfia-se
que a regulagem da máquina quanto ao peso médio fornecido possa ter sido modificada entre a
coleta das duas amostras. Qual a conclusão, aos níveis de 5 e 1%?
Solução:
Estatística calculada:
( X1 X 2 )
tc
1 1
S'
n1 n 2
Exemplo 82: Um fabricante afirma que o uso de quilowatts de seus monitores de tela plana é
menor do que o do seu concorrente principal. Você realiza um estudo e obtém os resultados
mostrados a seguir. Com α=0,10, existe evidência suficiente para apoiar a afirmação do
fabricante? Assuma que as populações são normalmente distribuídas e as variâncias das
populações são iguais.
Estatística amostral para uso de quilowatt
Fabricante Concorrente
̅ 1=32 ̅ 2= 35
s1=2,1 s2=1,8
n1=12 n2=15
240
Caso 3: Variâncias populacionais com 12 e 22 desconhecidas e
diferentes
Estatística calculada:
( X1 X 2 )
tc
s12 s 22
n1 n 2
s12 s2
onde: V1 e V2 2 ;
n1 n2
(V1 V2 ) 2
ttab = valor da tabela t de Student, com e 2 graus de liberdade.
V12 V22
n1 1 n 2 1
Exemplo 83: em um centro agrícola, deseja-se testar o efeito de determinado fertilizante sobre
a produção de trigo. Para isso, escolheram-se 24 áreas de terra, cada uma com 5 × 2 = 10 m2,
de uma grande área homogênea. Metade dessas unidades são tratadas com um fertilizante,
enquanto a outra metade não recebe o fertilizante (tratamento controle). A produção média de
trigo sem fertilizante foi de 1.260 kg/ha com desvio-padrão de 730 kg/ha, enquanto que a
produção média com fertilizante foi de 1.710 kg/ha com desvio-padrão de 280 kg/ha. Podemos
afirmar que houve aumento significativo na produção de trigo devido a utilização de
fertilizantes? As hipóteses, sobre as médias populacionais, µF e µc, relativas ao fertilizante e ao
controle. Considere que as variâncias populacionais são diferentes.
241
11.2 Comparação entre duas variâncias
A estatística F calculada, é:
Fc =
Fα;glN;glD
Onde gln significa graus de liberdade da variância do numerador e gld, o mesmo para o
denominador. As tabelas ―F‖ apresentam os valores críticos para um teste bilateral de
comparação entre duas variâncias.
O teste t realizado para os dados do exemplo anterior deve ser precedido por um teste de
homogeneidade de variâncias, para justificar sua aplicação. A seguir esta apresentada a
sequência de passos para o teste F.
Exemplo 85: Um pesquisador deseja testar dois métodos para determinar a distância do
observador ao animal em levantamento de fauna. Durante um levantamento, a distância para
cada animal observado foi medida utilizando os dois métodos obtendo-se os seguintes
resultados:
Método Distâncias Variância
Utilizando 25 30 16 13 21 46,5
Rangefinder
Utilizando 20 31 18 10 23 58,3
Trena
242
Exemplo 86: Uma fábrica de papel deseja introduzir um novo processo de fabricação que é
considerado mais eficiente tanto em termos de custo com em termos ambientais. A Engenharia
Florestal responsável decidiu fazer um teste comparando o novo processo contra o processo
tradicional em termos de gramatura, que é o peso do metro quadrado de papel, obtendo os
seguintes resultados:
Processo Gramatura (g/m2) n s2
Tradicional 120 140 80 75 110 150 6 937,5
Novo 105 95 108 120 90 137,3
Teste as hipóteses da variância tradicional ser maior que o do processo Novo. Use α =5%.
Exemplo 87: Um Engenheiro Florestal deseja saber se uma procedência mais produtiva de
Pinus oocarpa (procedência A) difere da procedência menos produtiva (procedência B) em
pelo menos 10 st/ha.ano. Os dados obtidos foram:
Procedência Procedência Média (st/ha.nao) média s2
A 45,6 42,1 44,9 45,1 47,6 46,7 45,5 48,9 45,8 4,1114
B 30,1 21,6 27,6 27,3 30,4 31,4 34,1 30,6 29,1 13,8512
Use α=5%.
243
Tabela: Número de trocas entre cromátides-irmãs (TCI; média de 25 células), observado em
floriculturas com e sem sintomas de intoxicação crônica.
Floricultores sem sintomas Floricultores com sintomas
Indivíduo nº TCI (XA) Indivíduo nº TCI (XB)
20 2,9 11 4,8
08 4,6 37 4,9
06 4,8 34 5,3
25 5,2 24 5,4
33 5,3 15 5,6
01 5,7 02 6,3
05 5,7 04 6,4
32 5,8 12 6,4
19 5,8 14 6,6
09 5,8 07 6,9
35 5,9 13 7,0
10 6,6 30 7,8
16 7,1 03 8,1
27 8,8
nA= 13 nB= 14
X A = 5,48 X B = 6,45
SA=1,019 SB = 1,206
Exercício 170: com o objetivo de comparar as produções médias, em toneladas por hectare,
de duas variedades de milho (Variedade A e variedade B), foram observados cinco unidades
experimentais para cada uma e os resultados obtidos foram os seguintes:
Exercício 171: Foi realizado um experimento com o objetivo de comparar os tempos gastos,
em minutos, na manobra com os arados Fuçador e Erechim. Ambos os arados são de tração
animal. Os dados obtidos com 11 repetições para cada arado, foram os seguintes:
Fuçador 0,20 0,22 0,18 0,23 0,12 0,20 0,13 0,12 0,13 0,22 0,17
Erechim 0,36 0,48 0,33 0,43 0,40 0,43 0,33 0,36 0,35 0,40 0,35
Espera-se que o arado Fuçador produza melhores resultados (gaste menos tempo médio na
manobra). Testar a hipótese de que a média de tempo gasto com o arado Fuçador (µF) é menor
do que a média do tempo gasto com o arado Erechim (µE), ao nível de significância de 5%.
Vamos assumir que as variâncias populacionais são iguais.
244
Exercício 172: Deseja-se saber se duas máquinas de empacotar café estão fornecendo o mesmo
peso médio por pacote. Entretanto, como uma das máquinas é nova e a outra é velha, é razoável
supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As
amostras disponíveis constam de seis pacotes produzidos pela máquina nova e nove produzidos
pela máquina velha. Os pesos em quilogramas, desses pacotes são:
Estatística calculada:
Xd d
tc
sd
n
onde: X d = média das diferenças entre os pares;
sd = desvio padrão das diferenças;
d = média das diferenças da hipótese;
n = número de pares de dados;
ttab = valor da tabela t que depende de e = n - 1 graus de liberdade.
Vamos considerar que temos um suporte teórico para esperar que o conteúdo de hemoglobina
no sangue diminua com a aplicação de niacina, portanto, as hipóteses são:
Exemplo 89: Com o objetivo de verificar o efeito da exposição do solo sobre a microfauna do
solo, uma pesquisadora fez levantamentos de microfauna antes e depois da exposição do solo
em áreas desmatadas de vários tipos de ecossistemas (tabela abaixo). Teste as hipóteses
apropriadas e estabeleça a sua conclusão.
(p1* p *2 )
zc
p1* q 1* p *2 q *2
n1 n2
246
Exemplo 90: Em uma pesquisa de opinião, 32 dentre 80 homens declararam apreciar certo
biscoito, acontecendo o mesmo com 26 dentre 50 mulheres. Ao nível de 5% de significância,
os homens e mulheres apreciam igualmente o biscoito?
Exemplo 91: Numa pesquisa de opinião a respeito da intenção de voto, 57 dentre 95 eleitores
do sexo masculino afirmaram que votariam no candidato Dr. O. Nesto, enquanto que 110
dentre 150 eleitores do sexo feminino declaram o mesmo.
a) É possível se afirmar, com α=1%, que os eleitores de ambos os sexos têm intenções de
voto iguais com relação ao candidato em questão?
Exercício 173: Numa pesquisa de opinião, 140 dentre 215 homens desaprovaram o produto
ZXZX de certa empresa, enquanto que o mesmo aconteceu com 96 entre 197 mulheres. Existe
diferença de opinião real entre homens e mulheres a respeito do produto, com nível de
significância de 1%?
Exercício 174: Pretende-se testar se a proporção de ulmeiros afetados pela grafiose é idêntica
em duas zonas A e B. Na zona A foi recolhida uma amostra aleatória de 30 ulmeiros e
verificou-se que 20 estavam afetados pela grafiose. Na zona B recolheu-se uma amostra de 35
ulmeiros e verificou-se que 27 estavam afetados pela grafiose. Que conclusão se pode tirar ao
n´nível de significância de 0.05?
EXERCÍCIOS
1. Uma Engenheira Florestal testou dois métodos de resinagem em matrizes de Pinus elliottii.
Um grupo de 18 das melhores matrizes foi selecionado. Através de sorteio aleatório, aplicou-
se em 9 matrizes o tratamento com ácido sulfúrico a 30% (tratamento A), enquanto que as
demais 9 matrizes receberam o tratamento de ácido sulfúrico a 15% (Tratamento B). Os
resultados obtidos foram:
Trat. Produção de Resina (g) média s2
A 2326 2206 1835 1434 1629 1761 1511 2146 1548 1821,778 108740,944
B 6006 3455 3115 3376 2609 2582 3674 2648 2012 3275,222 1324733,194
247
2. Acredita-se que a adubação de cobertura em Eucalyptus grandis nem sempre produz um
ganho na produção mas aumenta a homogeneidade das árvores. Formule hipóteses estatísticas
apropriadas e teste-as utilizando os dados da tabela abaixo.
DAP (cm)
Floresta adubada
14,9 18,6 16,8 14,6 13,8 20,7 15,8 20,1 19,4 18,4 18,5
15,3 16,6 18,9 18,1 14,4 14,5 14,0 16,3 17,6 17,6
Floresta não adubada
21,6 25,8 18,7 16,7 23,1 14,6 6,4 12,2 31,5 4,1 11,5
27,2 8,0 22,5 25,1 16,8 17,4 20,7 14,8 15,8 9,3
Use α = 5%.
4. Uma empresa de cerveja, após uma grande fusão, estuda a possibilidade de alterar o rótulo
de uma de suas marcas, usando formas e cores mais vivas. Para avaliar se existe vantagem em
alterar o rótulo, a empresa levou a cabo uma pesquisa de marketing. Enlatou a cerveja com
rótulo tradicional e com rótulo novo. A pesquisa foi feita em 8 estabelecimentos comerciais .
Em 4 deles, extraídos por sorteio, colocou-se o produto com o rótulo novo e, nos outros 4,
manteve-se o produto com rótulo tradicional. Após um mês, avaliou-se a quantidade vendida
em cada estabelecimento. Os estabelecimentos que usaram o rótulo tradicional tiveram os
seguintes resultados nas vendas (em milhares de unidades): 6, 5, 2, 2. Os estabelecimentos que
usaram o rótulo novo tiveram os seguintes resultados nas vendas (em milhares de unidades): 4,
9, 5, 6. Os dados mostram evidência suficiente de que a média de vendas é superior com o
rótulo novo? Responda usando um teste estatístico apropriado ao nível de significância de 5%.
5. Para o mesmo problema da questão anterior, outro instituto de pesquisa, que tem uma
equipe com melhor preparação em estatística, elaborou um projeto um pouco diferente. Com
248
seis estabelecimentos comerciais dispostos a colaborar com a pesquisa, colocaram-se as duas
embalagens (de rótulo tradicional e de rótulo novo) da mesma cerveja. Tomou-se o cuidado
para que em cada estabelecimento a apresentação das duas embalagens do produto fosse feita
de forma idêntica. Os resultados das vendas mensais (em milhares de unidades), para cada
estabelecimento e cada embalagem, foram os seguintes:
Estabelecimento: 1 2 3 4 5 6
Rótulo 16 12 28 32 19 25
tradicional:
Rótulo novo: 20 11 33 40 21 31
Os dados mostram evidência suficiente de que a média de vendas é superior com o rótulo
novo? Responda usando um teste estatístico apropriado ao nível de significância de 5%.
6. Para avaliar o efeito de um brinde nas vendas de determinado produto, planeja-se comparar
as vendas em lojas que vendem o produto com o brinde, com as vendas em lojas que não
oferecem o brinde. Para reduzir o efeito de variações devidas a outros fatores, as lojas foram
grupadas em pares, de tal forma que as lojas de um mesmo par são as mais similares possíveis,
em termos, por exemplo, do volume de vendas, localidade, identidade de preços etc. Em cada
par de lojas, uma passou a oferecer o brinde e a outra, não.
a) Apresente as hipóteses nula e alternativa.
b) Os resultados das vendas, em quantidade de unidades vendidas, foram os seguintes:
Os dados mostram evidência suficiente para se afirmar que a oferta do brinde aumenta
as vendas? Use nível de significância de 5%.
249
7. Numa experiência agronômica pretende-se avaliar o crescimento total de uma certa espécie
de plantas (expresso em peso seco) relativamente a dois regimes de fertilização A e B. Ao
fim de determinado tempo procedeu-se a medições, tendo-se obtido os seguintes resultados:
A 5.44 5.36 5.60 6.46 6.75 6.03 4.15 4.44
B 5.12 3.80 4.96 6.43 5.03 5.08 3.22 4.42
Será que a campanha antipoluição reduziu de facto a poluição? Explicite e verifique todas as
hipóteses necessárias a resolução do problema, justificando.
10. O fabricante de um moderador de apetite afirma que quando o seu produto é tomado
enquanto se segue uma dieta de baixa gordura com exercícios regulares por 4 meses, a perda
média de peso é 20 libras. Para testar a afirmação, você estudou 12 pessoas que fazem dieta,
250
selecionadas aleatoriamente, que tomaram um moderador de apetite por 4 meses. As pessoas
seguiram uma dieta de baixa gordura com exercícios regulares durante os 4 meses. Os
resultados são mostrados na tabela a seguir.
Perda de peso de 12 pessoas que fazem dieta ( em libras)
Peso original 4º mês
1 185 168
2 194 177
3 213 196
4 198 180
5 244 229
6 162 144
7 211 197
8 273 252
9 178 161
10 192 178
11 181 161
12 209 193
O seu estudo oferece evidência suficiente para rejeitar a afirmação do fabricante em um nível
de significância de α = 0,10? Assuma que os pesos são normalmente distribuídos.
11. (Andrade DF e Ogliari PJ, 2007) Um agricultor que planta árvores frutíferas deseja testar
um novo tipo de inseticida, que o fabricante garante reduzir os prejuízos causados por certo
tipo de inseto. Para verificar essa afirmação do fabricante, o agricultor pulveriza 200 árvores
com o produto novo e 200 árvores com o produto que normalmente usa, obtendo os
resultados:
Estatísticas Inseticida Novo Inseticida padrão
Produção média 240 227
(kg/planta)
variância 980 820
Esses dados indicam evidência suficiente de que o inseticida novo é melhor do que o padrão
(normalmente usado)?
12. Um médico afirma que uma droga experimental aumenta o índice cardíaco de um
indivíduo. Foram selecionados 12 indivíduos para um teste e, então, o índice cardíaco de cada
251
um é medido. Os indivíduos recebem, então, a droga e depois de uma hora têm seu índice
cardíaco medido novamente. Os resultados são listados à esquerda. Assumindo que os índices
cardíacos são normalmente distribuídos, há evidência suficiente para apoiar a afirmação do
médico com α=0,05?
Índice cardíaco
Antes Depois
72 73
81 80
76 79
74 76
75 76
80 80
68 74
75 77
78 75
76 74
74 76
77 78
13. Um fabricante afirma que o uso de quilowatts de seus monitores de tela plana é menor do
que o do seu concorrente principal. Você realiza um estudo e obtém os resultados mostrados a
seguir. Com α=0,10, existe evidência suficiente para apoiar a afirmação do fabricante?
Assuma que as populações são normalmente distribuídas e as variâncias das populações são
iguais.
Estatística amostral para uso de quilowatt
Fabricante Concorrente
̅ 1=32 ̅ 2= 35
s1=2,1 s2=1,8
n1=12 n2=15
14. Um pesquisador médico quer determinar se uma droga muda a temperatura do corpo. Sete
sujeitos são selecionados para teste aleatoriamente, e a temperatura do corpo (em graus
Fahrenheit) de cada um é medida. A droga, então, é dada aos sujeitos e, após 20 minutos, a
252
temperatura do corpo de cada um é medida novamente. Os resultados estão listados na tabela
a seguir. Em α = 0,05, há evidência suficiente para concluir que a droga muda a temperatura
do corpo? Assuma que as temperaturas do corpo são distribuídas normalmente.
Sujeito 1 2 3 4 5 6 7
Temperatura 101,8 98,5 98,1 99,4 98,9 100,2 97,9
inicial
Segunda 99,2 98,4 98,2 99 98,6 99,7 97,8
temperatura
253
Amostra 2: Nota de teste para 42 estudantes de Biologia que não estudam Alimentos.
7. Amostra 1: Altura de 27 mulheres adultas.
Amostra 2 Altura de 27 homens adultos.
8. Amostra 1: Nota de teste bimestral de 14 estudantes de Química.
Amostra 2: Nota de prova final dos mesmos 14 estudantes de Química.
17. Uma organização de educação de consumidores afirma que há diferença entre a média da
dívida do cartão de crédito de homens e mulheres nos Estados Unidos. Os resultados de uma
pesquisa aleatória de 200 indivíduos de cada grupo são mostrados a seguir. As duas amostras
são independentes. Os resultados apoiam a afirmação da organização? Use α = 0,05.
Mulheres Homens
̅ 1 = $2.290 ̅ 2 = $2.370
s1 = $750 s2 = $800
n1 = 200 n2 = 200
18. Uma nutricionista quer comparar a média do teor de proteína de sanduíches de frango
grelhado do Burger King e do McDonald’s. Para tal, ela seleciona aleatoriamente vários
sanduíches de frango grelhado de cada restaurante e mede o teor de proteína (em gramas) de
cada. Os resultados estão listados a seguir. Pode-se concluir com 5% de significância que há
evidências de igualdade de teor de proteínas?
Burger king McDonald’s
̅ 1=37 gramas ̅ 2=32 gramas
s1=2,1 gramas s2=1,8 gramas
n1=15 n2=12
20. Em uma pesquisa com 5.240 cidadãos mais velhos do sexo masculino, 2.201 disseram que
comem o número de porções recomendadas diariamente. Em uma pesquisa com 6.180 cidadãs
mais velhas, 2.348 disseram que também comem o número de porções recomendadas
254
diariamente. Com α=0,10, você pode rejeitar a afirmação de que as proporções de cidadãos
mais velhos que disseram comer o número de porções recomendadas de vegetais diariamente
são as mesmas para os dois grupos?
21. Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de duas
cultivares de cebola: a) Bola Precoce-Empasc 352 e b) Norte 14. Foram utilizadas para o teste
de germinação, quatro repetições de 100 sementes, totalizando 400 sementes para cada
cultivar. A variável de estudo é o número de sementes que germinaram. Os resultados estão
apresentados na Tabela.
Tabela: Número de sementes em um experimento sobre o poder germinativo de duas cultivares de
cebola
Germinação
Cultivares TOTAL
Germinaram Não germinaram
Bola precoce 392 8 400
Norte 14 381 19 400
TOTAL 773 27 800
Teste a hipótese de que não há diferença entre as duas cultivares quanto à germinação, ao nível de
significância de 5%.
22. Em um estudo de vários fast-foods, você encontra que a média do teor de calorias de 15
sanduíches de frango grelhado do Burger King é de 450 calorias com um desvio padrão de 6,2
calorias. Você também encontra que a média do teor de calorias de 12 sanduíches similares de
frango grelhado do McDonald’s é de 420 calorias com um desvio padrão de 8,1 calorias. Com
95% de confiança há evidências de diferença de calorias entre os dois restaurantes?
23. (Andrade DF e Ogliari PJ, 2007) Foi realizado um experimento para avaliar o
comportamento ―in vitro‖ da espécie Mandevilla velutina (Apocinácea), proveniente de duas
regiões: cerrado e restinga. Após isolar os explantes, com um nó com duas gemas axilares,
obtidos das plantas matrizes, foi instalado o experimento com delineamento inteiramente
casualizado com 20 repetições (20 explantes para o cerrado e 20 para a restinga); portanto,
temos um total de 40 unidades experimentais. O valor do desvio-padrão amostral é s = 1,5611
com 38 graus de liberdade. A variável utilizada foi a altura em cm dos explantes de
Mandevilla cultivadas ―in vitro‖ durante 45 dias, cujos resultados foram:
Cerrado Restinga
5,3 3,6
255
2,5 2,3
5,1 6,0
2,6 2,1
1,2 5,2
3,1 4,3
4,1 3,9
3,7 2,1
5,0 2,4
1,6 2,0
3,0 2,7
4,7 3,9
2,6 5,6
4,2 4,7
4,0 1,9
4,7 5,1
6,4 4,7
2,9 2,1
3,2 6,1
2,1 8,1
Teste a hipótese de que não há diferença entre as duas regiões, ao nível de significância de
5%, para altura média de explantes de Mandevilla.
24. Um enólogo pretende avaliar a acidez total de um vinho. Para isso seleciona
aleatoriamente 20 garrafas de vinho na adega e analisa o seu conteúdo através do método
clássico e de um dispositivo de titulação automática. Alguns resultados das análises, em g/l,
foram:
256
b) Com base nos valores obtidos poder-se-á concluir que os dois m´métodos de análise da
acidez total do vinho têm resultados significativamente diferentes? Explicite e valide os
pressupostos necessários a resolução do problema.
257
258
25. Atributos Químicos e Físicos da Uva -São Joaquim-SC
Área 1
Acidez: 2,7 – 3,1 – 3,5 – 3,5 – 2,7
PH 3,12 – 3,11 – 2,9 – 2,82 – 3,32
Altura(mm) 12,56 – 13,10 – 12,05 – 12,29 – 12,85
º Brix – 18,5 – 18,2 – 15,9 – 16,5 – 18,5 – 18,5
Antocianinas (mg g-1)789,15 – 845,76 – 677,64 – 843,32 – 777,63
Área 2
Acidez – 2,8 – 2,8 – 3,3 – 2,2- 2,6 – 2,6 – 3,1 – 2,3 – 2,3 – 2,4
Ph – 3,30 – 3,47 – 3,22 – 3,60 – 3,07 – 3,43 – 3,54 – 3,57 – 3,39- 3,30
Altura (mm) – 13,11 – 13,65 – 13,20 – 12,36 – 11,93 – 13,27 – 12,96 – 13,00 – 11,72 – 12,34
ºBrix – 19,80 – 17,70 – 19,80 –19,80 - 19,00 – 20,30 – 19,50 – 18,10 – 18,50 – 21,00
Antocianinas (mg g-1) 750,86 – 688,97 – 647,15 – 673,57 – 663,87 – 710,39 – 668,95 –
684,08 – 733,44 – 662,94
Existe diferença de média de acidez das bagas entre as áreas. Considere α=0,05.
259
A estatística na pesquisa agrária e biológica
Por exemplo, num estudo da produção de milho mediante a aplicação de diferentes doses
de nitrogénio, as diferentes doses de nitrogénio constituiriam os tratamentos. Os outros
fatores, como por exemplo, diferenças na fertilidade, umidade do solo e existência de pragas
e ervas daninhas, que poderão influir nos resultados (produção final de milho), são
minimizados tanto quanto possível, do ponto de vista prático. Neste caso temos um
experimento. A função do experimento é determinar as relações de causa e efeito, como por
260
exemplo verificar como as doses de nitrogênio (causa) influenciam na produção de milho
(efeito).
População ou conjunto universo: é o conjunto constituído por todos os dados possíveis com
relação à característica em estudo. Por exemplo, se desejamos estudar a produtividade de
algodão em caroço no Estado de São Paulo, a população será constituída pelas produtividades
de algodão em caroço de todas as fazendas que produzem algodão no estado.
Finney (1952) diz que o propósito da ciência estatística é fornecer urna base objetiva
para a análise de problemas nos quais os dados estão sujeitos à variação do acaso. Por maiores
que sejam os conhecimentos de um pesquisador sobre, por exemplo, nutrição e fisiologia
animal, ele jamais será capaz de predizer com exatidão qual vai ser o peso de um suíno criado
sob determinadas condições. Existe um grande número de causas que fazem este resultado,
variar, como, por exemplo, variações genéticas, de temperatura ambiental, umidade, doenças
etc. Assim, quando o elemento acaso está presente em um problema, dificuldades reais são
introduzidas. São os chamados fenómenos aleatórios.
E importante ressaltar que quase tudo que fazemos no nosso cotidiano são fenómenos
aleatórios e, portanto, apresentam uma chance de ocorrência devido ao acaso. Assim sendo, é
desejável determinar qual é a probabilidade de ocorrência dos eventos de interesse. Para tal
finalidade, precisamos estabelecer o modelo probabilístico adequado.
261
OBS:
Em qualquer pesquisa científica, o procedimento geral é o de formular hipóteses e
verifica-las, diretamente, ou por meio de suas consequências. Para tanto é necessário um
conjunto de observações ou dados, e o planejamento de experimentos é essencial para indicar
o esquema sob o qual as hipóteses podem ser testadas.
As hipóteses são testadas por meio de métodos de análise estatística que dependem do
modo como as observações ou os dados foram obtidos, e, desta forma, o planejamento de
experimentos e a análise dos dados estão intimamente ligados e devem ser utilizados em uma
certa sequência nas pesquisas científicas. As técnicas de planejamento devem ser utilizadas
entre as etapas (1) e (2), e os métodos de análise estatística, na etapa (3).
O que nos obriga a utilizar a análise estatística para testar as hipóteses formuladas é a
presença, em todas as observações ou dados, de efeitos de fatores não controlados, que
causam a variação. Esses fatores podem ou não ser controláveis. Entre os fatores considerados
não controláveis, podemos citar: pequenas diferenças de fertilidade do solo, ligeiras variações
nos espaçamentos, profundidade de semeadura um pouco maior ou menor que a prevista no
trabalho, variação na constituição genética das plantas, pequenas variações nas doses de
adubos, inseticidas, fungicidas, herbicidas etc.
Esses efeitos, que sempre ocorrem, não podem ser conhecidos individualmente e tendem a
mascarar o efeito do tratamento em estudo. O conjunto dos efeitos de fatores não controlados é
denominado variação do acaso ou variação aleatória.
Exemplo 92: Considere um experimento que tem como objetivo verificar o comportamento da
produção de milho sob o efeito de diferentes doses de nitrogênio: 0, 25, 50, 75 e 100 Kg de
nitrogênio por hectare (1 hectare é equivalente a 10.000m2 e representado por ha). Essas doses
foram definidas pelo pesquisador e correspondem aos cinco tratamentos envolvidos no
experimento. A cultivar de milho escolhida para o experimento foi a mais plantada na região.
Para cada dose de nitrogênio foram plantados cinco canteiros de terra de 10m 2 cada; portanto,
262
o tamanho da amostra para cada dose de nitrogênio é cinco (cinco repetições dos tratamentos).
Depois de realizada a análise estatística e a interpretação dos resultados, poderá ser indicada
qual a melhor dose de nitrogênio para a cultivar de milho utilizada.
Repetições
Tratamento
I II III IV V
0 2.850 1.780 2.100 2.900 2.010
25 3.200 1.980 2.220 2.850 2.100
50 4.150 2.330 3.700 4.050 2.500
75 4.380 2.830 3.420 3.900 3.080
100 4.000 2.630 3.150 3.780 2.670
263
12.1 Definições gerais
Pesquisa e experimentação: o termo pesquisa deve sempre ser empregado quando se
investigam coisas novas, enquanto o termo experimentação deve ser usado ao se verificar a
adaptação de conhecimentos ou tecnologias a situações diversas daquelas nas quais foram
criadas ou desenvolvidas.
Fator: aquilo que se aplica em um ensaio de forma não homogênea. Por exemplo: cultivar,
quando se testam várias delas; adubação, ao se formularem diversas formulações, etc.
264
enquanto que para os fatores aleatórios as conclusões são válidas para a população de níveis
da qual foi retirada a amostra.
A seguir apresentamos um exemplo de experimento com fator fixo e outro com fator
aleatório, respectivamente.
1. Um pesquisador deseja conduzir um experimento para comparar cinco cultivares de aveia
quanto à concentração de ácido fictício, em g/100g. Neste experimento, temos um fator
(cultivares de aveia) fixo, isto é, as cultivares foram escolhidas pelo pesquisador, ou seja, não
foi feita uma escolha aleatória das cultivares, assim, as conclusões se referem apenas às
cultivares utilizadas no experimento.
2. Um tecnologista quer comparar a qualidade de pão fabricado nas padarias da cidade de
Florianópolis. Ele deseja que os resultados da comparação sejam válidos para todas as
padarias de Florianópolis, porém, como ele não pode incluir todas elas no estudo, ele deve
sortear algumas delas para o experimento. Assim, o pesquisador estará fazendo um
experimento em que o fator padaria é dito aleatório.
Tratamento: cada um dos níveis de um fator ou cada uma das combinações dos níveis dos
fatores quando testando mais de um fator. variedade de cana-de-açúcar, híbrido de sorgo,
cultivar de soja, adubação para a cultura do milho, densidade de plantio para a cultura do trigo,
inseticida para o controle da broca da cana-de-açúcar, recipiente para produção de mudas de
espécies florestais etc.
265
Nem todos os experimentos necessitam do tratamento controle, como por exemplo, os de
competição de cultivares.
Testemunha: tratamento padrão de comparação. Pode ser ausência do fator (dose zero de um
adubo, por exemplo), ou a aplicação usual do fator (cultivar recomendar para cultivo na
região, espaçamento adotado pelos agricultores, etc.).
Variável resposta: Em muitas situações os valores da variável resposta são obtidos com a
utilização de aparelhos, procedimento este que pode gerar erros provenientes tanto do
aparelho utilizado quanto do instrumentista. Um procedimento usual para controlar essa
fonte de erro é a utilização de, por exemplo, triplicatas, ou seja, a obtenção de três valores
para a variável resposta a partir mesma da amostra. Os valores obtidos são comparados
entre si e, caso não haja discrepância, considera-se para a análise estatística a media desses
três valores. Caso haja discrepância, o(s) valor(es) discrepante(s) é(são) eliminado(s)
Covariáveis: Uma variável que não é de interesse direto do estudo, mas que influencia os
resultados das variáveis respostas é chamada de covariável. Exemplos:
1. Se o tempo necessário para realizar um experimento é trinta dias, e se a temperatura do
ambiente tem influência na variável resposta, então a temperatura deve ser mantida
constante. Se isso não for possível, devemos sempre medir a temperatura do ambiente
(covariável) cada que realizamos uma medição da variável resposta.
2. Num experimento para comparar quatro dietas para engorda de frangos, se todos os
frangos não apresentarem o mesmo peso inicial, este peso será uma covariável que deve
ser levada em conta na análise estatística.
3. Num experimento para estudar a produção de dez variedades de soja, o número de
sementes que germinam nas unidades experimentais é uma covariável, desde que não
tenha sido afetado pelos tratamentos.
Sempre que possível, o pesquisador deve planejar o seu experimento de modo a controlar
esses fatores de perturbação (em inglês: nuisance factors).
Por exemplo, no experimento para comparar quatro dietas para engorda de frangos, o
pesquisador poderia constituir grupos homogéneos de frangos em relação ao peso inicial e
aplicar as quatro dietas aleatoriamente em frangos de cada um dos grupos. A utilização do
peso inicial como covariável seria uma alternativa, caso o pesquisador não tivesse estabelecido
a constituição desses grupos no planejamento do experimento. Já no experimento para estudar
266
a produção de 10 variedades de soja, seria impossível o pesquisador planejar a constituição de
grupos homogêneos de unidades experimentais, pois ele não tem controle sobre o número de
sementes que germinarão. Nesta situação, a única forma de controlar este fator de perturbação
é a inclusão da covariável, número de sementes que germinam, na análise estatística.
Um exemplo de experimento no qual foi planejado o controle de um fator de perturbação é
o projeto 1, em que se estudaram quatro alturas de decepas e procurou-se controlar a idade
das plantas por meio da construção de blocos formados com árvores de idades próximas.
Caso não tivesse sido feito esse controle, o pesquisador não saberia dizer se as diferenças
entre as médias da variável resposta ocorreriam devido às alturas de decepas ou à idade das
árvores. Esse fato é conhecido como confundimento de fatores.
Unidade experimental: sujeito ao qual se aplica um dos tratamentos. Pode também ser
chamada de parcela ou canteiro. Pode ser uma área de solo, um vaso, um animal, um
indivíduo, a posição de montagem de um pneu, etc.
Nos experimentos em casa de vegetação, para a constituição de cada parcela
podemos utilizar um conjunto de vasos, ou então, um único vaso com duas ou três plantas. As
vezes, uma única planta constitui a unidade experimental.
267
Em experimentos de laboratório, uma amostra simples do material poderá
constituir a parcela; porém, às vezes, é necessário utilizar amostra composta. Na amostra
obtida de cada parcela, devem ser feitas diversas determinações, das quais é obtida uma média
para representar o valor observado nessa parcela. Não devemos confundir as diferentes
determinações da mesma de material com as repetições do experimento.
Bloco: conjunto ambiental homogêneo que contém todos os tratamentos ou parte deles.
Os delineamentos para a minimização dos efeitos das variações que ocorrem no ambiente em
que se conduz um ensaio são estruturados segundo alguns princípios básicos da
experimentação, que são a casualização, a repetição e o controle local.
Repetição e casualização: Para que a metodologia estatística possa ser aplicada aos
resultados de um experimento, é necessário obedecer a dois princípios básicos da
experimentação: o da repetição e da casualização dos tratamentos. Um terceiro princípio, o
controle local, pode ou não ocorrer num experimento.
A repetição consiste, como o próprio nome indica, em repetir o mesmo tratamento
mais de uma vez. O uso de repetições dos tratamentos é necessário para podermos avaliar a
variabilidade e, com isso, realizar os testes estatísticos e a estimação dos efeitos dos
tratamentos. De um modo geral, quanto maior o número de repetições, mais precisas vão
ser as nossas estimativas. Na prática, o número de repetições vai depender muito dos
recursos e do material experimental disponível. O cálculo do tamanho da amostra é um dos
principais itens do planejamento de um experimento, e a sua determinação não é trivial,
pois exige que se tenha algum conhecimento sobre a variabilidade dos dados, a precisão e a
confiança que se deseja nos resultados. Então, as principais finalidades das repetições são:
1. permitir que se obtenha uma estimativa da variabilidade do erro experimental;
2. aumentar a precisão dos resultados de um experimento e
268
3. permitir a estimação e testes de hipóteses sobre os parâmetros estudados, por exemplo, a
média e a proporção.
O que caracteriza uma repetição é que ela deve gerar um resultado independente.
A casualização ou aleatorização consiste no sorteio dos tratamentos às unidades
experimentais. A casualização garante que unidades com características diferentes tenham
igual probabilidade de serem designadas para os diferentes tratamentos. Ela é fundamental
para atender à suposição de que os dados são oriundos de uma amostra aleatória, fazendo
com que os erros sejam variáveis aleatórias independentemente distribuídas. O princípio da
casualização é uma das principais contribuições dos estatísticos à ciência experimental,
sendo um de seus expoentes Ronald A. Fisher (1890-1962).
Certas restrições podem ser incluídas na casualização, como por exemplo, o controle
local, para levar em consideração alguma(s) fonte(s) de variação do material experimental
(fator de perturbação).
Exemplo 93:
Desejamos estudar a produção por m2(y), de certa cultura, considerando três níveis de
dosagens (a,b e c) de certo fertilizante. Dispomos de seis canteiros para o experimento, donde
podemos fazer duas replicações. Para aleatorizar o tratamento a ser aplicado a cada canteiro,
podemos fazer uso de números aleatórios. A seguir, é reproduzida uma linha de quadro de
números aleatórios.
temos o seguinte projeto experimental:
Tratamento a a b b c c
Canteiro (ordem aleatória) 2 4 5 3 1 6
Se for identificado algum fator de heterogeneidade nos canteiros e se estes puderem ser
agrupados em dois blocos relativamente homogêneos – digamos, bloco 1 formado pelos
269
canteiros 1, 2 e 3 e bloco 2 pelos canteiros 4, 5 e 6-, o esquema do projeto experimental ficaria
assim:
Bloco: 1 1 1 2 2 2
Tratamento: a b c a b c
Canteiro 2 1 3 4 5 6
Deve o pesquisador ter em conta que os erros nunca podem ser eliminados, mas tão
somente minimizados, e isso se consegue por meio de um conjunto de atividades ou
procedimentos, entre as quais se destacam:
Uniformidade das parcelas experimentais.
Parcela experimental de tamanho adequado.
Uso de bordaduras.
Utilização de um número adequado de repetições e de preferência igual para todos os
tratamentos.
Manejo das unidades experimentais de forma homogênea, no que diz respeito a todos
os fatores não envolvidos no estudo.
Uso do delineamento estatístico adequado para as condições de realização do
experimento, de forma a obter o melhor aproveitamento dos resultados
Planejamentos de experimentos
Exemplos:
Encontrar a melhor condição de operação de um processo química. A resposta Y pode
ser o rendimento da reação química e os fatores podem ser:
Tempo de reação (A);
Temperatura da reação (B).
Exercícios propostos
Para a resolução dos exercícios abaixo, entende-se que o planejamento de um
experimento envolve:
• enunciar o problema com a formulação do objetivo geral, dos objetivos específicos e
da(s) hipótese(s);
• escolher o(s) fator(es) e seus níveis, que devem ser incluídos no estudo;
• escolher as variáveis respostas a serem analisadas e a forma como sorteio medidas;
• escolher a unidade experimental;
• decidir sobre o número de unidades experimentais a serem associadas a cada um dos
tratamentos (número de repetições);
• identificar possíveis variáveis de perturbação (nuisance variables) que possam
provocar o confundimento de fatores.
• determinar como os tratamentos serão designados às unidades experimentais
(casualização).
Exercício 177: Planeje um experimento para testar o efeito da adubação nitrogenada (cinco
níveis), sobre a produção de milho.
271
Princípios básicos da experimentação
Princípio da repetição
Princípio da A A A A A A
A
B B B B B B B
Repetição Repetições
Experimento básico
Princípio da casualização
272
O princípio da casualização consiste em atribuir a todos os tratamentos a mesma
probabilidade de serem designados a qualquer das unidades experimentais, e tem por
finalidade proporcionar uma estimativa válida para o erro experimental. Esquematicamente:
A Princípios da repetição + B A B B A B
B Casualização B A A B A A
Se, ainda, o herbicida A apresentar maior controle, é de se esperar que essa conclusão
seja realmente válida.
Este princípio é frequentemente utilizado, mas não é de uso obrigatório, uma vez
que podemos realizar experimentos sem utilizá-lo. Ele consiste em aplicar os herbicidas A e B
sempre em pares de parcelas o mais homogênea possível com relação ao ambiente, podendo
haver, inclusive, variação acentuada de um par para outro. A cada par de parcelas homogêneas
denominamos bloco. Os tratamentos devem ser sorteados dentro de cada bloco.
Esquematicamente:
273
Estatística
Quando tivermos diversos tratamentos para comparar, cada bloco será constituído por
grupo de parcelas homogêneas, cujo número deve ser igual ao número de tratamentos.
O princípio do controle local consiste em dividir um ambiente heterogêneo em
subambientes homogêneos e tem por finalidade tornar o delineamento experimental mais
eficiente, pela redução do erro experimental.
274
Estatística
275
Estatística
outro critério de classificação (que denominamos colunas). Para a designação dos tratamentos às
parcelas, devemos casualizá-los tanto nas linhas como nas colunas do quadrado latino.
Considerando experimento em quadrado latino com 5 níveis de adubação para a cultura da soja, o
esquema de análise de variância será:
Alertamos novamente para o fato de que o uso do princípio do controle local acarreta
sempre uma redução no número de graus de liberdade do resíduo, o que constitui uma
desvantagem. Entretanto, essa desvantagem geralmente é compensada, pois ocorrerá também
uma redução na soma de quadrados do resíduo, e obteremos maior precisão, pois há uma
redução na variância residual, devida ao fato de isolarmos o efeito de fatores que normalmente
seriam incluídos no resíduo.
276
Estatística
Introdução
277
Estatística
15 7 14 4 12 23 20 13 11 25 19 2 1 22 21 6 16 24 8 3 18 10 9 5 17
1 2 3 4 5 6 7 8 9 10 11 12 13
C3 C2 D5 A4 E4 D1 A2 D4 E3 E2 B4 A5 B3
14 15 16 17 18 19 20 21 22 23 24 25
A3 A1 D2 E5 E1 C1 B2 C5 C4 B1 D3 B5
278
Estatística
279
Estatística
C
n
SQTr
QMTr
k 1
SQR
QMR
k (r 1)
QMTr
h) o valor calculado de Fc : Fc
QMR
Note que os quadrados médios (variâncias) são obtidos, dividindo as somas de quadrados
pelos respectivos graus de liberdade.
Todas as quantidades calculadas são apresentadas numa tabela de análise de variância,
conforme a Tabela 2, a seguir:
e conclui-se que existe pelo menos uma média que difere de outra.
280
Estatística
Para verificar quais as médias que diferem entre si é necessário utilizar um teste de
comparação de médias.
Comparação de médias
Quando a análise de variância de um experimento mostra que as médias dos tratamentos
não são estatisticamente iguais, é apenas lógico perguntar: Quais são as médias que diferem entre
si? Para responder a esta pergunta o pesquisador precisa de um método que forneça a diferença
mínima significante entre duas médias. Toda vez que o valor absoluto da diferença entre duas
médias é igual ou maior que a diferença mínima significante, as médias são consideradas
estatisticamente diferentes, ao nível de significância estabelecido.
Foram propostas diversas maneiras de calcular a diferença mínima significante. Cada
proposta é, na realidade, um teste que, em geral, leva o nome de seu autor. Não existe um
procedimento para a comparação de médias que seja definitivamente ―melhor‖ que todos os
outros.
281
Estatística
Teste de Tukey
Para obter o valor da diferença mínima significante (d.m.s.) pelo teste de Tukey, basta
calcular:
QMR
d.m.s. q
r
onde: q k ,, = valor tabelado da amplitude studentizada;
= k . (r – 1);
r = número de repetições do tratamento ou tamanho da amostra.
1 1 QMR
d.m.s. q
r r 2
i j
De acordo com o teste, duas médias são estatisticamente diferentes toda vez que o valor
absoluto da diferença entre elas for igual ou maior do que a d.m.s., ou seja:
Se x i x m d. m. s. , então x i x m ;
Se x i x m < d. m. s., então x i = x m .
Exemplo 95: Num experimento visando ao controle do pulgão (Aphis gossypii Glover) em
cultura de pepino, Macedo (1970) utilizou 6 repetições dos tratamentos:
A-Testemunha
B- Azinfós etílico
C – Supracid 40 CE dose 1
D- Supracid 40CE dose 2
E – Diazinon 60CE.
282
Estatística
TRATAMENTOS REPETIÇÕES S2
1 2 3 4 5 6
A 2.370 1.687 2.592 2.283 2.910 3.020 233.750
B 1.282 1.527 871 1.025 825 920 75.559
C 562 321 636 317 485 842 40.126
D 173 127 132 150 129 227 1.502
E 193 71 82 62 96 44 2.792
283
Estatística
284
Estatística
T12 T22 T2
SQTr ... k C
r1 r2 rk
Exemplo 97: Os dados do Quadro 3.6.1 adaptados de Cardoso Filho (1974) e se referem a
produções de matéria seca de sorzo, em t/ha.
Quadro – Produções de matéria seca dos cultivares, em t/ha.
REPETIÇÕES
CULTIVARES TOTAIS
1 2 3 4 5 6
1-NK 300 (Híbrido) 10,3 11,6 11,7 11,4 11,2 11,2 67,4
2-SORDAN 67 (Híbrido) 9,8 10,0 10,2 11,9 10,4 10,5 62,8
3-PIONEER 988 (Híbrido) 9,9 9,6 10,0 10,4 - - 39,9
4-PIONEER 93 (Híbrido) 21,2 20,6 22,3 19,9 21,0 - 105,0
5-SART (variedade) 20,2 20,6 22,1 20,8 20,9 20,9 125,5
285
Estatística
Exemplo 98: Deseja-se comparar três drogas analgésicas para reduzir a dor pós-operatória em
pacientes submetidos à mesma intervenção cirúrgica. As drogas foram distribuídas entre os
pacientes por um processo aleatório. Os índices de dor pós-operatória obtidos nesse experimento
(dados fictícios) estão apresentados na tabela, juntamente com os elementos de cálculo
necessários para se realizar a análise de variância.
∑x = Ti
∑x2
̅
s
286
Estatística
EXERCÌCIOS – ANOVA
Exercício 179: Considere um experimento que tem como objetivo verificar o comportamento da
produção de milho sob o efeito de diferentes doses de nitrogênio: 0, 25, 50, 75 e 100Kg de
nitrogênio por hectare (1 hectare é equivalente a 10.000m2 e representado por ha). Essas doses
foram definidas pelo pesquisador e correspondem aos cinco tratamentos envolvidos no
experimento. A cultivar de milho escolhida para o experimento foi a mais plantada na região.
Para cada dose de nitrogênio foram plantados cinco canteiros de terra de 10m2 cada; portanto, o
tamanho da amostra para cada dose de nitrogênio é cinco (cinco repetições dos tratamentos).
Após realizada a análise estatística e a interpretação dos resultados, poderá ser indicada qual a
melhor dose de nitrogênio para a cultivar de milho utilizada.
Tratamento Repetições
I II III IV V
0 2.850 1.780 2.100 2.900 2.010
25 3.200 1.980 2.220 2.850 2.100
50 4.150 2.330 3.700 4.050 2.500
75 4.380 2.830 3.420 3.900 3.080
100 4.000 2.630 3.150 3.780 2.670
Exercício 180: Pássaros cucos adultos não cuidam de seus próprios ovos. Eles botam seus ovos
em ninhos de outros pássaros, como pardais, pintarroxos e cambaxirras. Esses pássaros adotam os
ovos de cucos, chocando e cuidando deles como se fossem seus próprios ovos. Um biólogo está
estudando o tamanho dos ovos de cucos encontrados em ninhos de pardais, pintarroxos e
cambaxirras. Os comprimentos de ovos aleatoriamente selecionados podem ser observados na
tabela.
Ninho hospedeiro
Pardal Pintarroxo Cambaxirra
24,08 22,66 20,89
22,95 22,51 20.97
22,82 21,44 22,31
23,98 22,70 21,54
24,59 22,15 20,19
22,95 22,75 21,38
25,16 23,02 20,50
23,39 21,72 20,99
23,74 21,49 20,83
21,15 22,15 20,74
23,81 22,15 21,40
22,40 22,28 21,90
24,17 22,98
287
Estatística
Com α= 0,05, você pode concluir que o comprimento médio de ovos de cucos encontrados em
um tipo de ninho é diferente dos outros? Suponha que cada população de comprimentos de ovos
de cucos seja normalmente distribuída e que as variâncias da população sejam iguais.
Exercício 181: Um médico pesquisador quer determinar se há uma diferença na média de tempo
que três tipos de analgésicos levam para aliviar a dor de cabeça. Várias pessoas que sofrem com
dores de cabeça são selecionadas aleatoriamente e tomam um dos três medicamentos. Cada
pessoa diz o tempo (em minutos) que o medicamento começou a fazer efeito. Os dados podem
ser conferidos na tabela. Com α= 0,01, você pode concluir que a média de tempo são diferentes?
Suponha que cada população de tempo de alívio seja normalmente distribuída e que a população
de variâncias seja igual.
Introdução
288
Estatística
c) os tratamentos são designados às parcelas de forma casual, sendo essa casualização feita
dentro de cada bloco.
C D C B C
A D
B A
B A
D
289
Estatística
No que se refere à distribuição dos blocos no campo, eles podem ficar juntos ou ser
espalhados por toda a área em estudo; porém, geralmente eles são colocados uns próximos dos
outros, visando com isso uma maior facilidade nos trabalhos de campo, durante a execução do
experimento. As principais vantagens deste delineamento são:
a) controla as diferenças que ocorrem nas condições experimentais, de um bloco para
outro;
b) permite, dentro de certos limites, utilizar qualquer número de tratamentos e de
blocos;
c) conduz a uma estimativa mais exata para a variância residual, uma vez que a
variação ambiental entre blocos é isolada;
d) a análise de variância é relativamente simples, sendo apenas um pouco mais
demorada que a do delineamento inteiramente casualizado, visto que existe mais uma causa da
variação que deve ser isolada.
Casualização dos tratamentos nas unidades experimentais - deve ser feita uma
casualização independente dos tratamentos em cada bloco.
Por exemplo, suponhamos que fossem 4 cultivares (A, B, C e D) que seriam testados em
6 blocos. A casualização dos cultivares para cada bloco poderia ser a seguinte:
290
Estatística
Bloco 1 C1 D1 A1 B1
Bloco 2 D2 A2 B2 C2
Bloco 3 B3 A3 D3 C3
Bloco 4 B4 C4 A4 D4
Bloco 5 A5 C5 D5 B5
Bloco 6 D6 B6 C6 A6
1 4 1 4
E F B1 A1
2 5 2 5
C B A2 C1
3 6
3 6
A D B2 C2
1 Bloco e 1 repetição
1 Bloco e 2 repetições
291
Estatística
H01: Não existe diferença significativa entre as médias dos tratamentos (colunas);
H02: Não existe diferença significativa entre as médias dos blocos (linhas);
TRATAMENTO
BLOCO
1 2 3 ... k TOTAL
1 Y11 Y21 Y31 ... Yk1 B1
2 Y12 Y22 Y32 Yk2 B2
3 Y13 Y23 Y33 Yk3 B3
. . . . . .
. . . . . .
. . . . . .
r Y1r Y2r Y3r ykr Br
Total T1 T2 T3 ... TK ∑T=∑B=∑Y
C
kr
292
Estatística
T
2
SQTr C
i
SQBl C
k
Exemplo 99: No trabalho ― Estudos dos efeitos do Promalin sobre frutos de macieiras (Malus
ssp) cultivares Brasil e Rainha‖, Mestriner (1980) utilizou 4 repetições dos seguintes tratamentos:
293
Estatística
Quadro: Esquema da distribuição dos tratamentos e pesos médios dos frutos nas parcelas
(gramas).
1º Bloco (3) (1) (4) (5) (2)
140,7 142,4 150,9 153,5 139,3
2º Bloco (2) (5) (4) (1) (3)
137,8 165,0 135,8 144,8 134,1
Os valores dos pesos médios dos frutos nas parcelas devem ser agrupados como no quadro 1.
294
Estatística
Para ilustrar a obtenção da análise e a interpretação dos resultados obtidos, vamos utilizar
o exemplo a seguir:
295
Estatística
Quadro 1: Alturas médias das plantas do mamoeiro, em cm, aos 147 dias após a semeadura.
TRATAMENTOS
BLOCOS Totais
A B C
1 136,1 105,3 79,8 77,9 64,0 77,1 540,2
2 98,8 86,8 56,3 64,4 59,5 55,8 421,6
3 108,8 109,7 66,9 62,1 65,2 66,1 478,8
4 92,4 70,5 43,8 36,3 61,9 43,7 348,6
Totais 808,4 487,5 493,3 1.789,2
Exercícios:
Tipo de veículo
Carro Caminhão Van/SUV
Homem 6,5,4,5 2,2,1,3 4,3,4,2
Gênero
Mulher 5,7,8,7 1,0,1,2 4,2,01
Rádio Televisão
30 seg 2,3,5,1,3 3,5,4,1,2
Duração da
propaganda 60 seg 1,4,2,2,5 2,5,3,4,4
296
Estatística
297
Estatística
298
Estatística
Por exemplo, a técnica conhecida como análise de covariância pode, às vezes, ser usada
para remover uma importante fonte de variação entre as unidades experimentais. Para que essa
técnica possa ser utilizada, é necessária a tomada de algumas medidas adicionais, tais como
número de plantas por parcela, número de vagens ou espigas por parcela e outras.
299
Estatística
300
Estatística
Ocorre quando as duas variáveis crescem no mesmo sentido. À medida que a variável x
aumenta, y aumenta também (ou à medida que uma diminui a outra diminui também).
330
280
Vendas (mil reais)
230
180
130
80
1 1,5 2 2,5 3 3,5
Gastos em propaganda (m il reais)
Ocorre quando as duas variáveis crescem em sentido opostos. À medida que a variável x
aumenta, y diminui (ou à medida que x diminui, y aumenta).
10
Desempenho do aluno
0
0 2 4 6 8 10 12 14 16
Número de faltas
301
Estatística
Ausência de Correlação
Ocorre quando as duas variáveis não estão correlacionadas.
200
190
180
170
Altura
160
150
140
130
120
110
85 95 105 115 125
Quociente de Inteligência
x. y n
x. y
r
x
2x
2
. y
y
2
2
n
n
Como Calcular:
1º) Obtenha a soma dos valores de x : x
2º) Obtenha a soma dos valores de y: y
3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a
sua soma: x.y
4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: x2
5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: y2
6º) Use essas cinco somas para calcular o coeficiente de correlação.
302
Estatística
-1 0 +1
Correlação Inversa Correlação Direta
Ausência
de
Correlação
100 150 150
80
60 100 100
40 50
20 50
0 0
0
0 50 100 150 0 50 100 150
0 50 100 150
Os valores são validos tanto para valores positivos quanto valores negativos do
coeficiente. O sinal do coeficiente indica a direção da relação entre X e Y. Se o coeficiente for
positivo, a correlação e dita direta, caso contrário, a relação e dita inversa.
Exemplo 101: A relação entre o nível educacional de filhos e seus respectivos pais foi observada
(nível educacional medido em anos completos de frequência a escola):
303
Estatística
14
Anos de estudo Filho 12
10
8
6
4
2
5 7 9 11 13 15 17
Interpretação:
―Existe uma correlação direta entre o nível educacional de pais e filhos, ou seja, quanto maior o
nível educacional do pai, maior é o nível educacional do filho.‖
304
Estatística
Exemplo 102: Doses crescentes de calcário foram adicionadas a um solo ácido e depois
determinou-se a percentagem de anomalias encontradas em células germinativas de trigo
plantado nesse solo.
Quantidade de calcário: 0 1 2 3 4 5
% de anomalias celulares: 30 27 22 23 18 16
Exemplo 103: Vamos verificar o tipo de relacionamento entre a taxa de crescimento de uma
pastagem cultivada no Planalto Catarinense e a temperatura do solo a 10 cm de profundidade, no
período de junho a novembro. Os resultados de nove observações foram:
Temperado 10,0 11,0 12,5 12,2 13,9 16,2 18,7 19,5 20,0
Taxa de crescimento 17,0 12,0 14,0 20,2 14,5 20,0 23,0 30,0 33,0
305
Estatística
r² = (r)² ² = ()²
A presença de uma correlação pode conduzir-nos a um método para estimar uma variável
a partir da outra. Por exemplo: Estimar o PESO (y) de ursos medindo seu COMPRIMENTO (x)
306
Estatística
Os estimadores dos coeficientes angular () e linear () serão designados respectivamente
por b e a, se o modelo escolhido for uma forma linear. Então a estimativa do modelo adotado,
será dada por:
A inclinação (b) da regressão mede a direção e a
magnitude da relação. Quando as duas variáveis estão
correlacionadas positivamente, a inclinação também será
Y= a+bX positiva, enquanto quando as duas variáveis estão
correlacionadas negativamente, a inclinação será
negativa. A magnitude da inclinação da regressão pode
ser lida como segue: para cada acréscimo unitário na
variável (X), a variável dependente aumentará/diminuirá b
unidades de y .
Dado um valor de X, este será usado para prever o valor de Y.Como os valores de X são
conhecidos, resta-nos estimar os valores dos coeficientes a e b. Os valores de a e b serão
determinados, através do Método dos Mínimos Quadrados (MMQ), aplicado na amostra
selecionada, utilizando-se as seguintes fórmulas:
a =
b=
307
Estatística
Exercício 182: Um administrador de uma grande sorveteria anotou por um longo período de
tempo a temperatura média diária, em 0C (X), e o volume de vendas diárias de sorvete, em Kg
(Y). Com os dados, foi ajustada a seguinte equação de regressão:
Y = 0,5 + 1,8x, com R2 = 0,80
Pergunta-se
a) Qual é o consumo esperado de sorvete num dia de 270C?
b) Qual é o incremento esperado nas vendas de sorvete a cada 10C de aumento de
temperatura?
Exercício 183: (Andrade DF e Ogliari PJ, 2007) A tabela abaixo apresenta os valores de
condutividade (mho) e salinidade (g/l) para a região III da Lagoa da conceição.
Exercício 184: Considere os dados referentes à produção de matéria seca de uma cultura (Y) e a
quantidade de radiação fotossintética ativa (X). Os dados obtidos experimentalmente são
apresentados na Tabela 2.36.
Tabela 2.36 — Dados de produção de matéria seca e radiação fotossintética ativa
308
Estatística
Exercício 185: Deseja-se saber se existe correlação entre o espaçamento das linhas na cultura da
soja (X) e a fração da radiação solar extinta pela planta (Y). Para atender a esse objetivo foram
coletados pares de valores das duas variáveis. Os resultados obtidos estão descritos na Tabela
2.37.
Tabela 2.37 — Valores de radiação e espaçamento na cultura da soja
Radiação 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1
Espaçamento 0,53 0,51 0,48 0,45 0,44 0,41 0,40 0,39 0,36 0,30
Exercício 186: Certa empresa, estudando a variação da demanda de seu produto em relação à
variação de preço de venda, obteve os dados que estão na tabela abaixo:
i Preço (X) Demanda (Y) XY X2 Y2
1 35 350
2 40 325
3 50 290
4 55 270
5 60 250
6 65 240
7 70 235
8 80 220
9 95 215
10 110 205
∑
309
Estatística
400
y = -1,8601x + 382,77
350 R2 = 0,8265
300
Demanda
250
200
150
100
10 30 50 70 90 110 130
Preço
Exercício 187: Uma análise de correlação e regressão foi realizada com o objetivo de estudar a
relação entre o tempo de aquecimento no forno em segundos (x) e a resistência em Mpa (y) de
uma peça. Os dados obtidos foram:
Estatísticas
R 0,9531
a 30,192
b 4,295
n 30
310
Estatística
1. Foi realizado um experimento para verificar a variação do calor específico de um certo produto
químico com sua temperatura:
Temperatura 50 60 70 80 90 100
Calor
1,6 1,63 1,67 1,70 1,71 1,71
específico
311
Estatística
6. (Andrade DF e Ogliari PJ, 2007) Um estudo sobre vida de prateleira de café torrado e moído
foi realizado. Os testes sensoriais foram iniciados a partir do nono dia de estocagem e, depois, a
intervalos de mais ou menos sete dias. Em cada uma das seis sessões de avaliação sensorial
(A,B,C,D,E,F) três amostras (pacotes) foram obtidas ao acaso. Seis provadores treinados
avaliaram as três amostras simultaneamente, julgando o produto quanto ao aroma em uma escala
descritiva de 1 a 6 pontos: 6 = excelente; 5 = bom; 4 = aceitável; 3 = pouco aceitável; 2 =
inaceitável e 1 = não bebível. Os resultados obtidos são dados na tabela.
a) Faça o diagrama de dispersão entre as variáveis tempo e média de aroma.
b) Calcule o coeficiente de correlação entre as duas variáveis e interprete.
312
Estatística
8. A seguinte tabela apresenta o período de gestação (x), em dias, e o tempo médio de vida (y),
em anos, registados em 10 mamíferos.
urso hipopótomo canguru leopardo leão macaco rato porco cão gato
X 219 238 42 98 100 164 21 112 61 63
y 18 25 7 12 15 15 3 10 12 12
313
Estatística
d) O período de gestação de uma girafa é de 425 dias. Se usasse a reta determinada em b) que
previsão obteria para o seu tempo médio de vida? Critique o resultado obtido, sabendo que o
tempo médio de vida de uma girafa é de 10 anos.
a) Calcule o coeficiente de correlação (R) entre o tempo e a produção e teste seu resultado;
b) Estime a reta de regressão Y = a + bX e interprete os valores de a e b.
c) Calcule o coeficiente de determinação linear (R2) e diga se o ajuste feito é de boa
qualidade.
11. Cinco pessoas, que se submeteram a uma mesma cirurgia de joelho, usaram dois instrumentos
de avaliação para indicar o nível de dor 12 horas após a operação. A seguir estão os escores de
dor de cada pessoa, em cada instrumento.
Pessoa: A B C D E
Dor (Instrumento 1): 8 6 4 3 4
Dor (Instrumento 2): 9 7 4 4 6
a) Desenhe o diagrama de dispersão dos pontos, considerando como x os resultados obtidos
no primeiro instrumento de avaliação e como y, os do segundo.
b) Encontre o coeficiente de correlação entre os escores determinados nos dois instrumentos.
314
Estatística
12. Em um estudo envolvendo 250 homens adultos em porto alegre a relação entre triglicerídios e
colesterol – HDL séricos apresentou r = -0,42 (p<0,001). Isto significa que:
a) Aumentando os triglicerídeos séricos de um paciente podemos aumentar seu colesterol –
HDL;
b) Diminuindo os triglicerídeos séricos de um paciente podemos aumentar seu colesterol –
HDL
c) Altos níveis de colesterol-HDL tendem a ser observados em homens com triglicerídeos
séricos baixos
d) Baixos níveis de colesterol-HDL tendem a ser observados em homens com triglicerídeos
séricos baixos
e) O valor p observado é muito pequeno para considerarmos que esta correlação não
aconteceu por acaso.
13. Os dados abaixo foram selecionados de cinco fábricas diferentes de uma determinada
indústria:
a) Estime uma função linear da forma Y = a + bX para o custo total dessa indústria.
b) Qual o significado econômico da estimativa ―a‖ e ―b‖?
X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0
Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1
315
Estatística
15. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa
relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em
cada uma delas a idade (X) e a massa muscular (Y).
Massa muscular (Y) Idade (X)
82.0 71.0
91.0 64.0
100.0 43.0
68.0 67.0
87.0 56.0
73.0 73.0
78.0 68.0
80.0 56.0
65.0 76.0
84.0 65.0
116.0 45.0
76.0 58.0
97.0 45.0
100.0 53.0
105.0 49.0
77.0 78.0
73.0 73.0
78.0 68.0
316
Estatística
X 39 57 34 40 43 47 52 70 21 28 35 80 64 75 30 32
Y 65 92 56 70 78 89 75 50 52 73 50 90 82 98 50 58
17. A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço
varia conforme a temperatura:
Temperatura (oC) 10 15 20 25 30
Comprimento (m) 1,5 2,6 3,0 4,2 5,1
Determine:
a) O coeficiente de correlação e teste seu resultado.
b) A equação da reta ajustada.
c) O valor estimado do comprimento da barra para a temperatura de 18 oC.
d) O valor estimado do comprimento da barra para a temperatura de 22 oC.
18. Considere um experimento no qual se analisa a octanagem da gasolina (Y) em função da
adição de um novo aditivo (X). Para isso, foram realizados ensaios com os percentuais de 1, 2, 3,
4, 5 e 6% de aditivo. Os resultados obtidos estão na tabela abaixo:
X Y
1 80,5
2 81,6
3 82,1
4 83,7
317
Estatística
5 83,9
6 85,0
19. A tabela a seguir relaciona os pesos (em centenas de Kg) e as taxas de rendimento de
combustível em rodovia (Km/ litro), numa amostra de 10 carros de passeio novos:
Peso 12 13 14 14 16 18 19 22 24 26
Rendimento 16 14 14 13 11 12 9 9 8 6
20. Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em
unidades monetárias) para uma amostra de 25 famílias.
318
Estatística
40 10,0
50 20,0
60 20,0
70 25,0
70 30,0
80 25,0
100 40,0
100 35,0
100 40,0
120 30,0
120 40,0
140 40,0
150 50,0
180 40,0
180 50,0
200 60,0
200 50,0
Construa o diagrama de dispersão da variável gasto com alimentação (Y) em função da renda
familiar (X).
319
Estatística
Anexo - A
Como a normal é simétrica, a tabela apresenta somente as probabilidades da metade direita da curva. A probabilidade
de um intervalo qualquer da metade esquerda é igual à probabilidade do intervalo equivalente na metade direita.
320
Estatística
Anexo - B
321
Estatística
Referências Bibliográficas
ANDRADE DF; OGLIARI PJ. Estatística para as ciências Agrárias e Biológicas: com noções de
experimento. Florianópolis. Ed. Da UFSC, 2007
BUSSAB, W.O.& MORETTIN, P.A. Estatística Básica, 3ª edição. Atual, São Paulo, 1986.
BUSSAB, W.O., MORETTIN, P.A. Estatística Aplicada. Editora Saraiva., 5ª edição, 2002.
BUSSAB,W.O.& MORETTIN, P.A. Estatística Básica 5.ed., Atual: São Paulo, 2002.
COSTA NETO, P.L. de O. Probabilidades. São Paulo: Editora Edgard Blucher Ltda, 1985.
FONSECA, J. S. & MARTINS, G. A. Curso de Estatística, 6ª edição, Atlas, são Paulo, 1996.
LOPES, P.A. Probabilidade e Estatística. Reichmann & Affonso, Rio de Janeiro, 1999.
STEVENSON, W. J. Estatística Aplicada à Administração. São Paulo. Editora Harper & Row do
Brasil Ltda, 1981.
TRIOLA, M. F.. Introdução à Estatística. Rio de Janeiro: Livros Técnicos e Científicos. Editora
S.A, 7ª edição, 1999.
322
Estatística
323