146546-Apostila Viti Horti

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 323

CADERNO DIDÁTICO: ESTATÍSTICA e delineamento experimental

Viticultura e enologia; Horticultura

Professora: Tatiani Secretti


Profª Sabrina Letícia Couto da Silva
Profª Simone Soares Echeveste

1
PROGRAMA

1. Conceitos iniciais de Estatística


2. Apresentação de dados: tabelas de frequências e análise gráfica
3. Medidas descritivas
4. Noções de probabilidade
5. Modelos de distribuição: Discreta e Contínua
6. Inferência Estatística
7. Estimação
8. Amostragem
9. Determinação do tamanho da amostra
10. Testes de hipóteses
11. Teste de hipóteses para duas amostras
12. Delineamentos experimentais simples. Análise de Variância (ANOVA)
13. Análise de Correlação e Análise de Regressão Linear Simples

2
INTRODUÇÃO
Existe um consenso por parte dos estudiosos de várias áreas que
há uma grande demanda na sociedade atual por um cidadão que
compreenda estatística, que seja capaz de consumir e pensar
criticamente sobre as informações diárias que recebe, exercendo
boas decisões baseadas nestas informações.
A Estatística hoje se configura como uma das ciências que mais
vem crescendo em termos de utilização e importância. Diariamente somos ―soterrados‖ por
informações estatísticas: são estatísticas da saúde, estatísticas da segurança, estatísticas da
educação, etc., não há como qualquer cidadão fugir de tanta informação. A quantidade enorme
de dados é o que caracteriza o mundo atual, cada vez mais necessitamos de informações, saber
como obtê-las e como entendê-las é fundamental para qualquer indivíduo, pois este deve ser
capaz de fazer uma análise crítica dos dados possibilitando uma tomada de decisões mais
consciente.
A relevância e as justificativas para o estudo da estatística são inúmeras, o que agora,
neste momento, entra em debate são as questões referentes as quais habilidades e
competências estatísticas que devem ser trabalhadas com os alunos. Esta competência
estatística se refere ao conhecimento básico do raciocínio e do propósito da estatística. Um
cidadão "estatisticamente competente" seria aquele que possui a habilidade para interagir
como uma pessoa "educada" na atual era da informação. Esta competência estatística pode
também ser definida como a habilidade para compreender e avaliar criticamente resultados
estatísticos que permeiam nossas vidas diárias – junto à habilidade para reconhecer a
contribuição que o pensamento estatístico pode trazer para as decisões públicas e privadas,
profissionais e pessoais.
Este material tem como objetivo apresentar os principais conceitos de estatística
fornecendo ao aluno uma formação básica sobre a utilização das principais ferramentas
estatísticas em sua área.

3
1 CONCEITOS INICIAIS

O que é Estatística?
A palavra estatística surge da expressão em Latim statisticum
collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em
língua italiana statista, que significa "homem de estado", ou político, e a
palavra alemã Statistik, designando a análise de dados sobre o Estado. A
palavra adquiriu um significado de coleta e classificação de dados, no início
do século 19.
Conhecida como ciência que dispõe de processos apropriados para coletar, organizar,
classificar, apresentar e interpretar conjuntos de dados. Quando esses dados são relacionados
à área biológica, chamamos de Bioestatística.
A seguir serão apresentadas algumas definições de Estatística:
"A Estatística é um ramo da Matemática que tem por objetivo obter, organizar
e analisar dados, determinar as correlações que apresentem, tirando delas
suas consequências para descrição e explicação do que passou e previsão e
organização do futuro".

"A estatística moderna é uma tecnologia quantitativa para a ciência


experimental e observacional que permite avaliar e estudar as incertezas e os
seus efeitos no planejamento e interpretação de experiências e de observações
de fenômenos da natureza e da sociedade."

"A Estatística está presente em todas as áreas da ciência que envolvem a coleta
e análise de dados e sua conseqüente transformação em informação, para
postular, refutar ou validar hipóteses científicas sobre um fenômeno
observável. Sendo assim, a Estatística pode ser pensada como a ciência de
aprendizagem a partir de dados. Em linhas gerais, podemos dizer que a
Estatística fornece técnicas e métodos de análise de dados que auxiliam o
processo de tomada de decisão nos mais variados problemas onde existe
incerteza. Em função disto, fica evidente que os métodos estatísticos podem ser
empregados em praticamente todas as áreas do conhecimento, sempre que
estiver envolvida a coleta ou análise de dados."

4
Qual é o papel da estatística na ciência?

De acordo com Silvia E. Shimakura o papel da estatística na ciência poderia ser descrito
através dos seguintes tópicos:
 Na ciência, são realizados estudos experimentais ou observacionais, levando à coleção
de dados numéricos.
 O propósito da investigação é responder uma questão científica.
 O padrão de variação nos dados faz com que a resposta não seja óbvia.
 Em geral, a disciplina de estatística refere-se a métodos para coleta e descrição dos
dados, e então a verificação da força da evidência nos dados pró ou contra as idéias
científicas. A presença de uma variação não previsível nos dados faz disso uma tarefa
pouco trivial.

VARIAÇÃO
As pessoas diferem nas respostas ao mesmo estímulo, nas respostas a um tratamento ou
em seus sintomas.
Diagnósticos são frequentemente probabilísticos.

INCERTEZA
Desconhecemos o todo quando examinamos uma parte.
O futuro é incerto.

OBJETIVO DA ESTATÍSTICA

Auxiliar as tomadas de DECISÕES em face de incertezas justificando-as cientificamente,


fazendo inferências para um todo (chamado população) a partir de uma amostra do mesmo,
analisando números e constatando relações.

5
Divisão da estatística

Estatístic a geral ou metodológi ca


A estatística divide-se em: 
Estatístic a aplicada

Estatística geral

Visa elaborar métodos gerais aplicáveis a todas as fases do estudo dos fenômenos de
massa. A estatística matemática é a parte da estatística geral que tem por finalidade o estudo
das propriedades matemáticas dos fenômenos de massa e a dedução e demonstração rigorosa
dos procedimentos e fórmulas usadas. A estatística geral ainda pode ser dividida em dois
grandes campos:

Estatística descritiva

Trata da coleta, da organização, classificação, apresentação e descrição dos dados de


observação. Refere-se à maneira de apresentar um conjunto de dados em tabelas e gráficos e à
maneira de resumir, através de certas medidas, as informações contidas nestes dados.

Teoria da probabilidade
Proporciona uma base racional para lidar com situações influenciadas por fatores que
envolvem o acaso.

Estatística indutiva ou inferencial

Visa tirar conclusões sobre a população a partir de amostras. Refere-se à maneira de


estabelecer conclusões para toda uma população quando se observar apenas parte desta
população.

6
Estatística aplicada

É todo o ramo do conhecimento científico que proceda, única ou principalmente, por


intermédio da metodologia estatística. Exemplos: Biometria (ciência que trata da mensuração
da vida e dos processos vitais), Demografia, Econometria, Psicometria (mensuração da
personalidade, do desenvolvimento mental e do comportamento de indivíduos e grupos e seus
ajustamentos a mudanças no meio ambiente), Mecânica Estatística, Sociometria (maneira
como as pessoas vivem, sua cultura, opiniões e atitudes, assim como o relacionamento de uns
com os outros).

Algumas aplicações da estatística

A estatística é uma ciência de múltiplas aplicações e de fundamental importância no


campo da investigação científica, sendo de utilização cada vez mais acentuada em qualquer
atividade profissional. Os fabricantes fornecem melhores produtos a custos menores através de
técnicas de controle de qualidade. Controlam-se doenças com o auxilio de análises que
antecipam epidemias. Espécies ameaçadas são protegidas por regulamentos e leis que regem a
estimativas estatísticas de modificação de tamanho da população. Visando reduzir as taxas de
casos fatais, os legisladores têm melhor justificativas para as leis que regem a poluição
atmosférica, inspeções de automóveis, utilização de cinto de segurança, etc.

Pesquisa Estatística

É um conjunto de atividades orientadas para a busca de um determinado conhecimento. A


pesquisa deve ser feita de modo sistematizada, utilizando para isto métodos próprios e técnicas
específicas.

Sempre que falamos em Estatística estamos inseridos no contexto de uma pesquisa. As


pesquisas podem ser classificadas em duas grandes abordagens conforme demonstra a
figura a seguir:

7
QUALITATIVA X QUANTITATIVA

PESQUISA QUALITATIVA PESQUISA QUANTITATIVA


Objetivo: Objetivo:
Alcançar uma Procurar quantificar os
compreensão do contexto dados e generalizar os
do problema, das razões resultados obtidos com
e motivações subjacentes
uma amostra para a
Estrutura:
 Pequenas amostras
 Não estruturada
 Análise de Conteúdo
X população-alvo
Estrutura:
 Grandes amostras
 Estruturada (questionário)
Resultados:
 Análise Estatística
Desenvolve uma
compreensão inicial do Resultados:
problema (não Recomenda um curso final
conclusiva) de ação (conclusiva)

Uma pesquisa é composta por quatro etapas distintas. Destas etapas nas três últimas
(planejamento, execução e comunicação dos resultados) a estatística surge como uma
importante ferramenta de suporte para o pesquisador.

PESQUISA QUANTITATIVA

Reconhecimento e formulação
do problema de pesquisa
ESTATÍSTICA

Planejamento da pesquisa
(amostra, variáveis,
questionários,...)
Execução da pesquisa (campo)
Comunicação dos resultados

Na etapa Planejamento da pesquisa, a estatística tem importante participação na


determinação do tamanho da amostra a ser estudada, na escolha do procedimento/processo de
amostragem que deve ser utilizado para a coleta de dados, bem como na elaboração do
instrumento de coleta e no estabelecimento do tipo de variáveis a serem pesquisadas.
8
No momento da Execução da pesquisa, a estatística é imprescindível, pois fornece as
ferramentas necessárias para a análise dos dados e para a obtenção de conclusões sobre o
objeto de estudo.
Na Comunicação dos resultados, a estatística auxilia a construção de tabelas e gráficos
facilitando a apresentação dos principais resultados obtidos.
Todas estas etapas são importantes de serem realizadas e fazem parte da elaboração de
uma pesquisa científica que procure ser o mais fidedigna possível. O conhecimento destas
etapas também é importante para o julgamento da adequacidade de pesquisas realizadas por
terceiros, ou seja, quando nos é apresentado oralmente ou através de artigos resultados de uma
pesquisa precisamos ter um conhecimento mínimo do processo científico para que sejamos
capazes de criticar e entender os resultados obtidos.

Finalidade da Pesquisa

- Descobrir respostas para questões, mediante a aplicação de métodos científicos;


- Tentar conhecer e explicar fenômenos que ocorrem no mundo existente.

Tipos de Pesquisas

 Pesquisa de reconhecimento ou “ Survey”

Estudo de opinião, mercado e diagnóstico.

 Pesquisa Bibliográfica

9
Procura por material já elaborado.

 Pesquisa documental

Coleta de informações a partir de documentos quantitativos tais como arquivos públicos e


privados, imprensa, revistas, etc.

 Pesquisa experimental

Experiências realizadas em laboratórios, fábricas, parcelas de terras. É utilizado o


Delineamento de Experimento e Controle de Qualidade.

Algumas definições

População e Amostra

Uma população é conjunto de elementos de interesse em um determinado estudo, que


podem ser pessoas ou resultados experimentais, com uma ou mais características
comuns, que se pretendem estudar.
Exemplos: um lote de peças, um lote de um polímero, população do estado do Rio
Grande do Sul, etc.
Obs.: elementos = objetos, animais, pessoas, material contínuo (sólido, líquido ou gás).

Uma amostra é um subconjunto da população usado para obter informação acerca do


todo. Obtemos uma amostra para fazer inferências de uma população. Nossas
inferências são válidas somente se a amostra é representativa da população.
Exemplos: uma amostra retirada de um lote de comprimidos, uma amostra de rotina
durante o processo de um lote de polietileno.

10
EXEMPLOS:
1º - Para saber o fator Rh do grupo sanguíneo de um determinado paciente, não é preciso
coletar todo o sangue dele, e sim, apenas uma amostra.
2º - Para ver se um bolo de chocolate é gostoso, não precisamos comer todo o bolo, basta
provar uma fatia dele.

Por que tomamos uma amostra e não utilizamos a


população toda?

 Custo alto para obter informação da população toda;

 Tempo muito longo para obter informação da população toda;

 Algumas vezes impossível, por exemplo, estudo de poluição atmosférica;

 Algumas vezes logicamente impossível, por exemplo, em ensaios destrutivos (controle

de qualidade de fósforos).

Censo
É a coleção de dados relativos a todos os elementos da população.

Amostragem
Coleção de dados relativos a elementos de uma amostra.

Parâmetro
Medida numérica que descreve uma característica de uma população.

Estatística
Medida numérica que descreve uma característica de uma amostra.

Dados estatísticos

São as características observadas ou medidas nos elementos, sendo que os dados de


observação constituem a matéria-prima da estatística.

11
Tabela: Exemplos de dados disponíveis nos registros internos das empresas
Fonte Dados Tipicamente Disponíveis
Nome, endereço, número de seguro social, número de
Registros de funcionários dias de férias, número de dias dedicados a tratamento
de saúde e bonificações.
Número de peças ou produtos, quantidade produzida,
Registros de produção
custo de mão-de-obra e custo de matérias-primas.
Número de peças ou produtos, número de unidades
Registros de estoques disponíveis, nível de reencomenda, lote econômico de
compra e programa de descontos.
Número do produto, volume de vendas, volume de
Registros de vendas vendas por região e volume de vendas por tipo de
cliente.
Nome do cliente, endereço, número telefônico, limite
Registros de crédito
de crédito e saldo de contas a receber.
Idade, sexo, nível de renda, tamanho da família,
Perfil do Cliente
endereço e preferências.

Variável
Uma variável é uma característica de uma população que difere de um indivíduo para outro e
da qual temos interesse em estudar. Cada unidade (membro) da população que é escolhido como parte
de uma amostra fornece uma medida de uma ou mais variáveis, chamadas observações.
É representada por símbolos como por exemplo, X, Y, Z, ..., que pode assumir resultados de um
conjunto, que lhe são atribuídos, conjunto este chamado domínio da variável. Se a variável pode
assumir somente um valor, ela é denominada constante.

Exemplo de variáveis:
 Idade;
 Sexo;
 Escolaridade;
 Temperatura;
 Altura;
 Porcentagem de brotação;
 Número de brotos;
 Comprimento de brotos;
 Produção de massa verde para a indústria;
 Sobrevivência das erveiras decepadas.

12
Classificação das variáveis selecionadas para o estudo

Um pesquisador, quando está realizando um experimento ou um levantamento, necessita


avaliar certas características nas plantas, nos animais, nos instrumentos, nas pessoas etc. Por
exemplo, o diâmetro altura de peito (DAI)) de Avicenias do manguezal do Itacorubi, a
produção de milho por hectare (1 hectare 10.000 m2), a resistência ao ataque de pragas do
feijão, o número de vagens por planta, o número de grãos por vagem. Essas características
chamam-se variáveis, porque originam valores que tendem a variar quando se fazem medidas
sucessivas. Vamos supor que plantemos quatro áreas de 30 m2 de um hibrido de milho. É
quase certo que obtenhamos quatro valores diferentes de produção nessas áreas.

Tipos de variáveis
Uma variável é uma característica de uma população que difere de um indivíduo para outro e
da qual temos interesse em estudar. Cada unidade (membro) da população que é escolhido
como parte de uma amostra fornece uma medida de uma ou mais variáveis, chamadas
observações.

As variáveis podem ser classificadas em:


Variáveis Quantitativas: são as características que podem ser medidas em uma escala
quantitativa, ou seja, apresentam valores numéricos/quantidades. Podem ser contínuas ou
discretas.
- Variáveis Quantitativas discretas: características mensuráveis que podem assumir
apenas um número finito ou infinito contável de valores e, assim, somente fazem
sentido valores inteiros. Exemplos: número de filhos, número de bactérias por litro
de leite, minerais presentes (nºs inteiros), números de erros de ortografia, número de
defeitos no produto, variável ciclo da cultura, números de dias da emergência
afloração, número de vagens por planta e número de grãos por vagem, etc.

- Variáveis Quantitativas contínuas: características mensuráveis que assumem


valores em uma escala para as quais valores fracionais fazem sentido. Exemplos: peso,
13
altura, massa, concentração, pressão atmosférica, pH, volume líquido, rendimento de
grãos de milho, a altura da planta e a altura da espiga, etc.

Variáveis Qualitativas (ou categóricas): são as características que não possuem


valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja,
representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.
- Variáveis Qualitativas nominais: não existe ordenação dentre as categorias.
Exemplos: sexo, estado civil, nacionalidade, cor da solução, tipo de grão (dentado,
semidentado e semiduro). Outros exemplos seriam: germinação de sementes (germina
e não germina); a cor da flor de soja (rosa e branca), etc.

- Variáveis Qualitativas ordinais: existe uma ordenação entre as categorias.


Exemplos: escolaridade (1o, 2o, 3o graus), classificação do Índice de Massa Corporal -
IMC (baixo peso, normal, obesidade leve, obesidade severa, obesidade mórbida), grau
de importância (nenhuma, pouca, razoável, muito), resistência à ferrugem, dada numa
escala ordinal (r > rnr > ms > s). Outro exemplo seria grau de escolaridade
(fundamental < médio < superior), etc.

Exemplo 1: Determine o nível de mensuração mais adequado em cada caso:


a) Rendimento (baixo, médio e alto).
b) Rendimento médio de produção de milho;
c) Contagem do ciclo da cultura
d) Número de inscrição do INSS;
e) Altura da pessoa quando atinge a idade adulta;
f) Fator RH;
g) Os cursos de graduação da UFSC (Engenharia Agronômica, Ciências Biológicas, Engenharia
de Aquicultura, Nutrição, etc);
h) Número de dias da emergência à floração;
i) Números de vagens por planta;
j) Número de grãos por vagem.
k) Resistência à ferrugem
l) Altura de uma determinada hortaliça;
m) Comprimento de uma vagem.

14
Exercício 1: Determine o nível de mensuração mais adequado em cada caso:

a) Conteúdo de nicotina (em miligramas de cigarro);


b) Cor de minerais;
c) Graus finais (a, b, c, d, e, f) de estudantes de Viticultura e Enologia;
d) Código de endereçamento postal;
e) Carros classificados como subcompacto, compacto, intermediário ou grande;
f) Altura da pessoa quando atinge a idade adulta;
g) Tipo sanguíneo;
h) Rendimento anual de produção de uva no RS;
i) Vendas anuais;
j) % de área não urbana com vegetação nativa;
k) Tamanho de refrigerante (pequeno, médio e grande);
l) Rendimento por ação;
m) Método de pagamento (dinheiro, cheque, cartão de crédito).

Exercício 2: Um curso de Viticultura e Enologia tem 120 alunos. Foi realizada uma pesquisa
com 30% dos alunos deste curso com o objetivo de verificar qual o tempo gasto na internet
para atender a suas necessidades de estudo, pesquisa e trabalhos escolares.
a) Identifique a variável, a população e o número de elementos da amostra.
b) Especifique se a variável é qualitativa, quantitativa discreta ou quantitativa contínua.

Exercício 3: Uma empresa pesquisou a qualidade do atendimento no telemarketing, de seus


funcionários; para tanto, selecionou aleatoriamente uma amostra de 32 clientes.
a) Identifique a variável, a população e o número de elementos da amostra;
b) Especifique se a variável é qualitativa, quantitativa discreta ou quantitativa contínua.

Exercício 4: Visando o planejamento estratégico, o diretor de uma empresa fabricante de


pneus realizou uma pesquisa sobre a distribuição salarial de seus funcionários. Para isso, o
diretor selecionou 30 funcionários de um total de 780 que trabalhavam para a empresa, para
responder a sua pesquisa. Responda as seguintes questões: a) Qual é a variável do estudo?
Classifique-a (em qualitativa, quantitativa). b) Quantos elementos constituem a população
deste estudo? E a amostra?

15
Exercício 5: Tesourópolis está preocupada em melhorar a sinalização de suas ruas. Para tanto,
selecionou 25 ruas para fazer a checagem da sinalização. a) Identifique a variável, a população
e o número de elementos da amostra. b) Especifique se a variável é qualitativa ou quantitativa.

Exercício 6: Determine o nível de mensuração mais adequado em cada caso (justifique):

Degustação de vinhos:
a) Visão: brilhante, límpido, tranquilo, carbônico, efeito Marangoni (lágrima).
b) Aspecto negativo: Cor fraca, opalescente, velado, turvo.
c) Cor: tinto – rubi, púrpura, azulado, acastanhado, claro, vivo, granada, atijolado,
Alaranjado, violáceo.

d) Paladar: Adstringente, corpo, açúcar, acidez, álcool.


e) Adstringente: Ausente, pouco tânico, normal, tânico, adstringente, áspero, duro,
pronto, rugoso.
f) Açúcar: seco, semi-seco, doce (suave), muito doce, glicerinado, macio, liso.

g) Acidez: Neutro, pouco ácido, harmônico, fresco, muito ácido, magro, vazio,
desarmônico, sápido, verde, vivo.

h) Qualidade do odor: fino, agradável, frutado, fermento, florido.


Negativo: comum, terrosidade, marcado, vegetal, herbáceo, borras...

i) Idade: Novo, Jovem, maduro, velho.

j) Presença de C02: fresco, gasoso, picante, corado (tintos).

k) % de açúcar no vinho.

l) Quantidade de espumante por garrafa.

m) Número de garrafas defeituosas.

16
Arredondamento de dados

Arredondar um número significa reduzir a quantidade de algarismos significativos


após a vírgula, deste número. O objetivo é reduzir os erros por arredondamento, quando é
grande o volume de números a arredondar.
A Portaria 36, de 6 de agosto de 1965 do Instituto Nacional de Pesos e Medidas,
estabelece os seguintes critérios para o arredondamento de dados.

Regras de arredondamento

 Quando o primeiro algarismo após aquele que será arredondado for 0, 1, 2, 3, 4, conserva-
se o algarismo a ser arredondado e desprezam-se os seguintes;
 Quando o primeiro algarismo após aquele que será arredondado for 6, 7, 8, 9 ou 5, este
último seguido de outros algarismos, onde pelo menos, um é diferente de zero, aumenta-se
uma unidade no algarismo a ser arredondado e desprezam-se os seguintes;
 Quando o primeiro algarismo após aquele que será arredondado for 5, seguido de zeros,
conserva-se o algarismo a ser arredondado se ele for par, ou aumenta-se uma unidade, se
ele for ímpar, desprezando os seguintes.
Par  5  Ímpar
 
Conserva Soma uma unidade
0, 1, 2, 3 ou 4 6, 7, 8, 9 ou 5+

Exemplo 2: Escreva cada número com arredondamento para décimos.


a) 35,32216
b) 456,541
c) 0,0832
d) 5,5557

Exercício 7: Escreva cada número com arredondamento para centésimos.


a) 23,4585
b) 171,29401
c) 42,876
d) 103,424

Exercício 8: Escreva cada número com arredondamento para milésimos.


a) 15,21622
b) 39,53431
c) 162,99083
17
d) 545,55156

Exercício 9: Escreva cada número com arredondamento para a unidade.


a) 300,32 c) 0,6811
b) 6,5422 d) 5,1556

Estatística e o método científico

Quando se faz uma pesquisa científica, o procedimento geral é formular hipóteses e


testá-las. Inicialmente essas hipóteses são formuladas em termos científicos, dentro da área de
estudo (hipóteses científicas). Em seguida, as hipóteses devem ser expressas em termos
estatísticos (hipóteses estatísticas). É claro que deve haver uma correspondência perfeita entre
as hipóteses científicas e estatísticas. Por exemplo, no caso do experimento de aplicação de
diferentes doses de nitrogênio, cujos resultados estão apresentados na Tabela 1.2, podemos
formular a seguinte hipótese científica: é possível aumentar a produção de milho (kg/ha)
através da aplicação de nitrogénio.
E as seguintes hipóteses estatísticas: 1) existem diferenças entre as médias
verdadeiras de produção de uma cultivar de milho quando ela é submetida a diferentes doses
de nitrogénio e 2) existe uma relação funcional das médias verdadeiras de produção de uma
cultivar de milho e as doses de nitrogênio.
Para testar uma hipótese estatística, é preciso um conjunto de observações, ou seja, é
preciso coletar dados (valores a respeito da característica ou características que estamos
estudando). Por exemplo, nós precisamos de dados sobre a produção de milho para as
diferentes doses de nitrogénio, para que possamos testar a hipótese acima formulada. Como
estamos tratando de experimentação, vamos obter nossas observações, nossos dados, através
de um experimento, ou seja, as observações serão feitas sob condições controladas, os fatos ou
fenómenos a serem estudados serão planejados para sofrer variações sistemáticas, mediante a
aplicação de tratamentos. Por exemplo, a produção de milho sofre variações causadas pela
aplicação de diferentes doses de nitrogénio. Os efeitos dos outros fatores que não serão
analisados, serão minimizados tanto quanto possível (fertilidade do solo, ataque de pragas e
doenças, plantas invasoras, sombreamento etc.). A hipótese acima formulada vai ser testada

18
por meio de uma análise estatística. Esta, por sua vez, depende de como foi instalado o
experimento, ou seja, de como as observações foram obtidas. Com isso podemos verificar a
grande importância de um bom planejamento inicial do experimento, fase esta chamada de
planejamento estatístico do experimento.
Planejamento de experimento e análise estatística são feitos em sequência e estão
intimamente ligados. No planejamento do experimento, é importante a participação de
especialistas de diversas áreas, pois quanto maior o conhecimento adquirido, melhor o
entendimento sobre o fenômeno em estudo, o que facilitará a solução final do problema.
―Por delineamento estatístico de experimento, entendemos o processo de planejamento
do experimento, de tal forma que os dados obtidos possam ser analisados através de métodos
estatísticos, resultando em conclusões válidas e objetivas" (MONTGOMERY, 2005, pág. 11).

19
PROJETO DE PESQUISA

De uma forma simplificada, as seguintes etapas devem ser seguidas na realização de qualquer
investigação:

Formulação do problema: definir claramente o problema ou aspecto desconhecido a ser


investigado. Perguntas e hipóteses bem claras, decidir o que se vai estudar e que tipos de
dados ou medidas deverão ser tomadas, bem como definir o tempo e o custo que será
envolvido na sua realização.

Delinear o experimento: definir o tamanho da amostra, os tratamentos a serem aplicados, a


quantidade de dados a ser coletada, bem como as épocas de coletá-los, onde e como o ensaio
será instalado, os métodos estatísticos a serem aplicados.

Condução do ensaio e coleta dos dados: implantação do ensaio segundo a metodologia ou


desenho estabelecido e coleta de dados de acordo com o cronograma definido. Essa é a parte
que mais tempo consome do pesquisador, e a mais importante, pois, da precisão na coleta dos
dados, dependem os resultados da etapa seguinte.

Tabulação e análise de dados: os dados devem ser ordenados e analisados segundo o


delineamento preconizado e os testes estatísticos aplicados como programado.

Discussão dos resultados e conclusão: O investigador deve discutir os resultados obtidos de


acordo com as análises efetuadas, segundo o conhecimento existente ou adquirido e elaborar
as respostas às perguntas e hipóteses formuladas durante a fase de planejamento.

Para fixarmos melhor a ideia de pesquisa científica estatisticamente planejada, vamos


considerar o projeto de pesquisa.

20
PROJETO 1. Recuperação de ervais nativos através da decepa

1. Identificação do problema. Inicia-se uma pesquisa científica com a definição do


problema, juntamente com a formulação dos objetivos e hipóteses.
Os ervais explorados para a produção de erva-mate são na grande maioria plantas
nativas. Dada a grande demanda por erva-mate, as erveiras foram exploradas, isto é, extraídas
suas massas foliares, através de métodos inadequados. A falta de manejo levou à extinção de
algumas espécies e à quase extinção de outras. Os ervais nativos ficaram, em sua quase
totalidade, comprometidos. Buscando recuperar os ervais nativos, foi aplicada a técnica da
decepa total das erveiras em diferentes níveis de altura.
2. Objetivo geral. Determinar o efeito da decepa em plantas adultas e danificadas de erveiras.

3. Objetivos específicos.
 Verificar a capacidade e comprimento de brotação;
 estudar a produção de massa verde;
 verificar a sobrevivência das erveiras decepadas.

4. Formulação da hipótese científica. E viável se recuperar os ervais nativos e


improdutivos através da prática da decepa.
5. Escolha dos fatores que devem ser incluídos no estudo e seus correspondentes níveis
(tratamentos). O pesquisador deve escolher os fatores a serem estudados, a faixa na qual
esses fatores serão variados e os níveis específicos utilizados no experimento. Neste
projeto o fator é a decepa, e a altura em que será realizada é o tratamento. Foram
utilizadas quatro alturas de decepa (quatro tratamentos), quais sejam: tratamento 1 -
altura de decepa a 0 m do solo; tratamento 2 – altura de decepa a 0,30 m do solo;
tratamento 3 – altura de decepa a 0,60 m do solo; tratamento 4 – altura de decepa a
0,90 m do solo. Como só há um fator controlado (decepa) dizemos que é um experimento
com um fator.

6. Escolha da unidade experimental. As unidades experimentais são aquelas que recebem os


tratamentos e devem ser tão homogêneas quanto possível, para que, quando submetidas a
tratamentos diferentes, sejam os efeitos facilmente detectados. Portanto, elas devem ser
orientadas no sentido de minimizar o erro experimental. A unidade experimental pode ser um
21
animal, um conjunto de animais, uma pessoa, cinco mil células, uma planta, um conjunto de
plantas, um vaso, um frango, um tubo de ensaio etc. Nesse experimento, a unidade
experimental é formada por 8 plantas de erva-mate de diâmetros aproximadamente iguais.
Então, o tratamento 1 será aplicado a oito plantas de erva-mate, o tratamento 2 a outras oito
plantas, e assim por diante, até o tratamento 4. Embora tenhamos oito medidas da variável
resposta em cada unidade experimental, esses resultados não são repetições independentes. Na
realidade, só temos um resultado independente para cada tratamento: a média das oito árvores
para cada característica ou variável em estudo (produção de massa verde, comprimento de
broto etc.).

Variável: são mensurações ou atributos avaliados pelos pesquisadores nas unidades


experimentais.

A heterogeneidade das unidades experimentais é um dos itens que determinam a escolha


do plano ou delineamento experimental apropriado.

7. Escolha das variáveis que serão medidas nas unidades experimentais. As variáveis são
preestabelecidas pelos pesquisadores e devem medir diretamente os efeitos de tratamentos de
acordo com os objetivos do trabalho. Algumas variáveis medidas neste experimento são:
porcentagem de brotação, número de brotos, comprimento dos brotos, produção de massa
verde para a indústria e sobrevivência das erveiras decepadas. O importante é que os dados
devem ser objetivos, precisos e verdadeiros.

8. Determinação das regras e procedimentos pelos quais os tratamentos são atribuídos às


unidades experimentais. A determinação do melhor esquema para a alocação dos tratamentos
às unidades experimentais depende da homogeneidade. E neste item que a estatística participa
fortemente do planejamento da pesquisa, ou seja, a sua contribuição é bastante
grande, de tal forma que se pode chamar esta etapa de planejamento estatístico do
experimento. Veja a Figura 1.2. Um planejamento inadequado pode dificultar a análise
estatística e, até mesmo, invalidar os resultados do experimento.
Neste experimento, os tratamentos foram atribuídos às unidades experimentais da
seguinte forma: primeiramente foram formados cinco blocos, cada qual constituído de quatro
unidades experimentais (pois temos quatro tratamentos); como cada unidade experimental tem
oito plantas, então um bloco tem trinta e duas plantas. Os blocos estão controlando as
diferenças de diâmetro entre as plantas: assim, o bloco I foi formado por 32 plantas com
22
diâmetros entre 10 e 12,9 cm; o bloco II foi formado por trinta e duas plantas com diâmetros
entre 13 e 15,9 cm; o bloco III foi formado por trinta com diâmetros entre 16 c 18,9 cm; o
bloco IV foi formado por trinta e duas plantas com diâmetros entre 19 e 21,9 cm e o bloco V
foi formado por trinta e duas plantas com diâmetros iguais ou superiores a 22 cm. Portanto,
cada tratamento foi repetido cinco vezes, sendo uma repetição em cada bloco. Dentro de cada
bloco houve o sorteio (casualização) para se definir qual unidade receberia o tratamento 1,
qual receberia o tratamento 2, e assim por diante. Este esquema experimental é denominado de
blocos completos ao acaso.

8. Coleta dos dados. Aqui são feitas as medidas das variáveis estabelecidas pelo pesquisador.
Também podem ser coletadas variáveis complementares, que poderão ser úteis para
explicar o comportamento dos tratamentos.

10. Análise estatística dos dados. O objetivo da análise estatística é verificar as hipóteses
científicas formuladas no início da pesquisa, expressas em termos estatísticos (hipóteses
estatísticas). Por exemplo, as medidas de produção de massa foliar obtidas com cada uma das
alturas de decepa das plantas pode ser representada por um modelo linear, como, por exemplo
a equação de uma reta. O método estatístico mais apropriado para a análise depende da
hipótese de interesse e também do esquema experimental utilizado. Existem excelentes
softwares estatísticos para realizar as análises.

11. Relatório final (publicação). O relatório deve conter tabelas e gráficos de forma a mostrar
os efeitos esperados, comparar os resultados obtidos com os objetivos do experimento para
verificar se as questões propostas foram respondidas. Deverá também apresentar medidas de
precisão das estimativas. Se possível, fazer referências a outras pesquisas similares e uma
avaliação de todas as etapas com sugestões para possíveis alterações em pesquisas futuras.
A experimentação é uma importante fase do processo de aprendizagem, na qual nós
formulamos hipóteses, realizamos o experimento, testamos as hipóteses e, de acordo com os
resultados, formulamos novas hipóteses, e assim sucessivamente. A experimentação é um
processo iterativo.

23
2 Estatística Descritiva e Inferencial

A Estatística pode ser dividida em duas áreas: Descritiva e Inferencial. A área


descritiva é mais simples, contemplando ferramentas de organização de dados e síntese de
informação. A área Inferencial, por sua vez, permite ao pesquisador projetar resultados
amostrais para populações, bem como testar hipóteses concernentes a parâmetros
populacionais. Inferência estatística é o processo pelo qual os estatísticos tiram conclusões
acerca da população usando informação de uma amostra. A Estatística Inferencial está
baseada em dois pilares fundamentais: a Amostragem e a Probabilidade.

ESTATÍSTICA

DESCRITIVA INFERENCIAL

- técnicas que dizem - técnicas por meio das quais


respeito à sintetização e são tomadas decisões sobre
à descrição de dados uma população estatística,
baseadas em uma amostra.

Análise exploratória de dados

Qualquer trabalho de análise estatística inicia com a análise exploratória de dados, com
o objetivo de obter conhecimento sobre eles. Em muitos casos, com uma boa análise
exploratória de dados, atende-se aos objetivos da pesquisa (principalmente em estudos
realizados através de levantamentos), enquanto em outros, ela serve como uma primeira
aproximação da análise final.
O conceito de estatística é bastante amplo e engloba a noção usual que as pessoas têm do que
ela signifique. Esse conceito usual logo relaciona a estatística com tabelas, gráficos, taxas,
24
índices etc. Assim, ouvimos falar da produtividade média do milho no Estado de Santa
Catarina, índice pluviométrico mensal ou anual de uma determinada região, índice de inflação,
taxa de desemprego, estatísticas de saúde pública, estatísticas da loteria, estatísticas do
aumento da produção de maçã em Santa Catarina etc.
A análise exploratória de dadas utiliza-se muito de técnicas visuais e procura
vislumbrar alguma regularidade quase sempre presente num conjunto de dados, podendo
sugerir modelos que possam ser utilizados na inferência estatística.

Inferência estatística

Há, ainda, um campo, bastante amplo da ciência estatística que se refere à análise e à
interpretação do conjunto total de dados, considerando a observação de somente uma parte
deles. Essa parte é conhecida como estatística indutiva ou inferencial, e normalmente escapa à
noção corrente da grande maioria das pessoas.
Para deixar mais clara a finalidade da inferência estatística é necessária fazer a
apresentação de dois conceitos fundamentais, que são: população e amostra.
Uma população consiste de todos os valores possíveis de uma característica desejada
observados em unidades amostrais ou experimentais. Os valores que compõem uma população
geralmente são diferentes entre si, e esta pode apresentar um tamanho finito, nem sempre
conhecido, ou infinito. Na experimentação, a definição de população é conceitual, isto é, não
tem existência real. São exemplos de populações: todos os valores possíveis da produção de
milho, em kg/ha, de urna cultivar; todos os pesos, ao nascer, de coelhos da raça gigante; todos
os valores de diâmetro altura do peito (DAP) de uma espécie do manguezal do Itacorubi; todos
os valores de micronúcleos por cinco mil células examinadas de roedores de uma determinada
região. Nestes exemplos as unidades experimentais são respectivamente: um canteiro de 5 m x
25
2 m, láparo (filhote de coelho) da raça gigante, uma árvore da espécie, cinco mil células do
roedor.
População: todos os valores possíveis de uma característica em estudo
observados em unidades experimentais.

Amostra é uma parte (subconjunto) da população. Exemplos: os pesos, ao nascer, de


coelhos de uma ninhada podem ser uma amostra da população de coelhos da raça gigante;
uma amostra formada por 100 pesos de pacotes de café selecionados; 50 valores de
micronúcleos por cinco mil células examinadas de peixes do gênero bagre selecionados; cinco
valores de produção de milho cultivado com a dose de 50 kg/ha de nitrogénio, cada um
tomado num canteiro de 5 m x 2 m.
Amostra: um subconjunto da população.

Portanto, com a inferência estatística, examinando apenas uma amostra tiramos


conclusões sobre a população. É intuitivo que, quanto maior a amostra, mais precisas e
confiáveis deverão ser as inferências realizadas sobre a população. Levando esse raciocínio ao
extremo, concluímos que os resultados mais exatos seriam obtidos pelo exame completo de
toda a população, procedimento denominado de censo ou recenseamento. Porém, a utilização
de amostras pode ser feita de tal maneira que se obtenham resultados confiáveis, em termos
práticos, de forma equivalente ou até mesmo superior aos que seriam conseguidos através do
censo. Na experimentação biológica e agrária, geralmente não temos acesso a toda a
população; portanto, somos obrigados a trabalhar com amostras. Por exemplo, não podemos
conhecer todos os valores possíveis de produção de milho em kg/ha de uma cultivar; não
podemos determinar todos os diâmetros de caramujos de uma área. O fato é que não é
necessário examinar toda a população para se chegar às conclusões desejadas.

26
ANÁLISE DESCRITIVA

TÉCNICAS DE ESTATÍSTICA DESCRITIVA

Gráficos Resumos Numéricos


Tabelas de Frequencia

Ao dispor de um O objetivo da Através das medidas


grande volume de representação gráfica de tendência central e
dados as tabelas é dirigir a atenção do as medidas de
servem para agrupar analista para alguns variabilidade podemos
as informações de aspectos do conjunto obter informações
moda que facilite a de dados, bem como importantes sobre o
análise dos dados tornar a apresentação conjunto de dados
mais dinâmica. quantitativos.

Após a coleta de dados a primeira necessidade do pesquisador é a leitura das informações


básicas provenientes da sua pesquisa. Essa primeira análise inicial é feita através da Análise Descritiva
por meio da construção de tabelas, gráficos e o cálculo de algumas medidas estatísticas.

Tabelas de Frequência

Tabelas de frequência são encontradas em jornais informativos, relatórios técnicos,


monografias, dissertações, teses e revistas científicas. As tabelas de frequência simples
apresentam de forma concisa o número de ocorrências (absoluta e relativa) dos valores de uma
variável.
O primeiro passo para a construção de tabelas é a formatação dos dados em um Banco
de Dados conforme é apresentada na figura a seguir:

27
28
29
Representação tabular

Tabela: é uma maneira de apresentar de forma resumida um conjunto de dados.

Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A


elaboração de tabelas deve obedecer às normas editadas pelo Instituto Brasileiro de Geografia
e Estatística - IBGE.
Abaixo se apresenta uma tabela esquemática sendo indicados os seus elementos.

Título: O quê; Onde; Quando


Cabeçalho Total

Coluna Indicadora Corpo da tabela

Total
Fonte :

*  Rodapé
Nota : 

No rodapé de uma tabela podem aparecer se necessário: a fonte (entidade responsável


pelas informações contidas na tabela), notas (observações gerais sobre a tabela) e/ou chamadas
(observações feitas em relação a pontos específicos da tabela).

Título da tabela:

Conjunto de informações, as mais completas possíveis, respondendo as perguntas: O


que? Quando? Onde? Localizado no topo da tabela, além de conter a palavra ―Tabela‖ e sua
respectiva numeração.

30
Corpo da tabela:

É o conjunto de linhas e colunas que contém informações sobre a variável em estudo.

a) Cabeçalho da coluna: parte superior da tabela que especifica o conteúdo das colunas;
b) Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas;
c) Linhas: retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que
inscrevem nos seus cruzamentos com as linhas;
d) Casa ou célula: espaço destinado a um só número;
e) Total: Deve sempre ser destacado de alguma forma;
f) Laterais da tabela: Não devem ser fechadas. Caso as feche, passa a ser chamado
―Quadro‖.

Elementos complementares da tabela, localizados geralmente no rodapé:

a) Fonte; identifica o responsável (pessoa física ou jurídica) ou responsável pelos dados


numéricos;
b) Notas: é o texto que irá esclarecer o conteúdo estudado, que poderá ser de caráter geral
ou específico de uma tabela;
c) Chamadas: símbolo remissivo atribuído a algum elemento de uma tabela que necessita
de uma nota específica.

Exemplo 3:
Tabela1: Produção de Café Brasil – 1991 a 1995
Anos Produção (1.000t)
1991 2.535
1992 2.666
1993 2.122
1994 3.750
1995 2.007
Total 13080
Fonte: IBGE

31
Tabela 2: Distribuição do teor de H2S %. Sulfeto de hidrogênio
Teor de H2S (%) Nº de amostras
2 8
5 19
7 15
9 10
11 8
Total 60
Fonte: dados fictícios

Tabela 3: Distribuição de frequências, proporções e porcentagens do número de plantas


sadias da mandioca, Chapecó, SC, 1984
Número de plantas Frequência
23 1
24 3
25 4
26 8
27 14
TOTAL 30

Tabela 4:
País Quantidade
Alemanha 02
Argentina 26
Canadá 04
Estados Unidos 03
Itália 02
Paraguai 06
Uruguai 111
Total 154

Tabela 5: Justificativa da visita


Motivo Quantidade
Turismo 5.920
Trabalho 23
Total 5.943
Fonte: Secretaria de Turismo de Bento Gonçalves

32
Tabela 6: Estatística de visita à Pipa-Pórtico, de 1º a 31 de julho de 2001.
Estados e Capitais Quantidade
Alagoas 6
Amazonas 6
Belém 111
Brasília 84
Ceará 114
Espírito Santo 37
Goiânia 17
Maranhão 02
Mato Grosso do Sul 17
Minas Gerais 145
Natal 24
Paraná 411
Piauí 02
Recife 159
Rio de Janeiro 414
Rio Grande do Sul 1.333
Salvador 25
Santa Catarina 185
São Paulo 2.630
Sergipe 67
Total 5.789
Tabela: Visitas do Exterior à Pipa-Pórtico

Tabela 7: Produção vinícola do rio grande do sul


2001 2005
Vinho branco vinífera 31.681.390 litros 20.012.363 litros
vinificação 2005
Vinho tinto vinífera 17.792.295 litros 25.409.805 litros
vinificação 2005
Total vinhos vitis vinífera 49.473.685 litros 45.422.168 litros
2005
Uvas para suco e 377.440.578 litros 254.008.029 litros
consumo corrente
Fonte: Secretaria da Agricultura e Abastecimento, Departamento de Produção Vegetal, Divisão de
Enologia/Ibravin, 2005.

33
Tabela 8: Distribuição conjunta das porcentagens das variáveis resistência à ferrugem e tipo
de grão para 32 híbridos de milho, 1987/88.
Resistência à ferrugem
Tipo de grão TOTAL
r mr ms s
Dentado 35,7 14,3 42,9 7,1 100
Semidentado 36,4 9,1 18,2 36,4 100
Semiduro 14,3 42,8 14,3 28,6 100
TOTAL 31,2 18,8 28,1 21,9 100

Exemplo 4: Os dados abaixo representam o número de viagens realizadas por 20 famílias nos
últimos 5 anos:
0 1 2 5 2 3 4 2 2 4
4 0 0 2 3 2 1 5 2 1

Identifique:
a. Amostra:________________________
b. Variável:________________________
Construa uma tabela para estes dados e responda:
c. Qual o percentual de famílias com no máximo 1 viagem realizada?
d. Quantas famílias realizaram de 2 a 4 viagens?

Tipos de frequências
Para construção de uma tabela de distribuição de frequência é necessário conhecer
alguns de seus termos:

 Absoluta
Simples 
  Re lativa
  Absoluta
Tipos de freqüências   Crescente 
Acumulada 
 Re lativa
 Decrescente  Absoluta
 
 
  Re lativa

34
Frequência relativa [Simbologia: fri]

É o quociente entre a frequência absoluta e o número total de observações, sendo que:

fi fi
f ri  f ri %  k  100
f
k

f
i 1
i
i 1
i

onde: 0 < fr < 1;


k

f
i 1
ri = 1.

Frequência acumulada crescente [Simbologia: Fac ou Fi]

É a soma de todas as frequências anteriores com a frequência do intervalo considerado.

Frequência relativa acumulada (Fri): é a frequência acumulada da classe, dividida pela


frequência total da distribuição.

Exercício 10: Considere:


Resultados de 50 determinações da concentração de nitrato, em µg/ml:

0,51 0,51 0,51 0,50 0,51 0,49 0,52 0,53 0,50 0,47
0,51 0,52 0,53 0,48 0,49 0,50 0,52 0,49 0,49 0,50
0,49 0,48 0,46 0,49 0,49 0,48 0,49 0,49 0,51 0,47
0,51 0,51 0,51 0,48 0,50 0,47 0,50 0,51 0,49 0,48
0,51 0,50 0,50 0,53 0,52 0,52 0,50 0,50 0,51 0,51

Identifique:
a. Amostra:________________________

b. Variável:________________________

Construa uma tabela para estes dados e responda:


35
a. Qual o percentual de determinações com concentração de nitrato com máximo
0,50 µg / ml?
b. Quantas determinações apresentaram concentração de nitrato entre 0,48 e 0,51
µg / ml?

Exercício 11: Os valores de cinza em ppm de uma amostra com 30 elementos (resultados)
foram os seguintes:

110 120 110 90 95 90 115 110 115 105


125 80 105 115 120 75 110 125 110 100
110 95 100 90 110 100 100 110 105 105

Pede-se:
a) Construir uma distribuição de frequências;
b) Determinar as frequências relativas;
c) Qual é a amplitude da amostra?
d) Qual é a porcentagem de elementos maiores que 100?
e) Construa um gráfico de colunas.

Exercício 12: As notas abaixo, referem-se ao grau obtido por 50 alunos em uma prova de
Estatística:

1 8 3 4 7 4 6 7 7 8
2 8 3 4 7 4 6 7 8 8
2 7 4 5 6 8 6 7 8 9
2 9 4 5 7 8 7 7 8 9
a) Quem é a amostra do estudo?
b) Quem é a variável estudada? Classifique-a.
c) Construa a tabela mais adequada para estes dados, calculando a porcentagem de cada
valor.
d) Quantos alunos tiram nota inferior a 7 na prova? R: 18
e) Quantos alunos tiraram no máximo 8 na prova? R: 5
f) Qual a porcentagem de alunos que obtiveram nota entre 5 e 8 pontos? R: 62,5%

Exercício 13: Considerar os dados obtidos, pelas medidas das alturas, de 20 indivíduos (dada
em cm):
151 152 154 159 159 165 165 165 159 154
165 155 155 168 165 168 168 167 168 154

36
Identifique:
a. Amostra:________________________

b. Variável:________________________

Construa uma tabela para estes dados e responda:


c. Qual o percentual de indivíduos com no máximo 165 cm de altura?
Quantos indivíduos tem altura de 159cm a 167cm?

A distribuição de frequência também pode ser representada em gráficos.

Construção e interpretação de gráficos

A utilização de gráficos como forma de apresentação de dados pode ser justificada


através de um ditado popular de que "uma imagem vale mais que 1000 palavras"
Técnicas gráficas são geralmente utilizadas, em vez de tabelas, para descrever um
conjunto de dados através de um "desenho". Um gráfico estatístico é uma forma de
apresentação dos dados estatísticos, cujo objetivo é o de reproduzir, no investigador ou no
público em geral, uma impressão mais rápida e viva do fenômeno em estudo. (Crespo, 1996)

37
A representação gráfica deve ser utilizada levando-se em conta algumas qualidades
essenciais básicas para a construção destes:
- Simplicidade: as informações contidas em um gráfico devem ser diretas e detalhes
secundários devem ser omitidos; Ás vezes na construção de um gráfico o ideal é a
forma mais simples e direta de apresentação.
- Clareza: as informações devem ser claras possibilitando uma interpretação correta
sem dúvidas sobre os resultados;
- Veracidade: o gráfico deve expressar a verdade sobre os dados estudados.

De acordo com Levin (1987), enquanto que algumas pessoas parecem "desligar-se" ao
serem expostas a informações estatísticas em forma de tabelas, elas podem prestar bastante
atenção às mesmas informações apresentadas em forma gráfica. Este fato justifica a grande
utilização por parte dos pesquisadores e da mídia escrita e impressa dos gráficos em
substituição das tabelas.

Gráfico 1. Gráfico de Colunas


O gráfico de colunas é um dos gráficos mais utilizados para representar um conjunto de
dados, sendo a representação de uma série de dados através de retângulos dispostos
verticalmente. A altura dos retângulos é proporcional às suas respectivas frequências. Este
gráfico pode ser utilizado para representar qualquer tipo de variável em qualquer nível de
mensuração por este fato é um recurso extremamente utilizado em pesquisas.

pH das soluções analisadas

60,0 50,0

50,0

33,3
40,0
%
30,0
16,7
20,0

10,0

0,0
Ácido Básico Neutro
pH

38
Figura: distribuições das porcentagens da resistência à ferrugem de híbridos de milho para as
regiões preferenciais.

Figura – Distribuição das frequências dos tipos de grão para 32 híbridos de milho para a região Chapecó, SC,
1987/88

39
Gráfico 2. Gráfico de Barras
O gráfico de barras é uma representação de uma série de dados através de retângulos
dispostos horizontalmente. Os comprimentos destes retângulos são proporcionais às suas
respectivas frequências. Este gráfico é semelhante ao gráfico de colunas, contudo, a posição da
escala e da frequência é trocada, ou seja, na linha horizontal temos a frequência de casos
observados e na linha vertical temos a variável de estudo.

pH das soluções analisadas

33,3
Neutro

16,7
pH Básico

50,0
Ácido

0,0 10,0 20,0 30,0 40,0 50,0 60,0


%

40
Os gráficos de barras têm por finalidade comparar grandezas, por meio de
retângulos de igual largura, dispostos horizontalmente e com alturas proporcionais às
grandezas. Devemos deixar uma distância entre os retângulos Para as variáveis
qualitativas ordinais, devemos respeitar a ordem das categorias, como mostrado na
Figura 2.2 para os dados da Tabela 2.2.

41
Figura: Distribuição de frequências da resistência a ferrugem de híbridos de milho, para a região de Chapecó,
1987/88

Gráfico 3. Gráfico de linhas


Este gráfico utiliza-se de uma linha para representar uma série estatística. O objetivo é
evidenciar a tendência ou a forma como o fenômeno está crescendo ou decrescendo através de
um período de tempo. Seu traçado deve ser realizado considerando o eixo "x" (horizontal) a
escala de tempo e o eixo "y" (vertical) frequência observada dos valores.

42
Figura – comportamento da variável acidez em ácido lático (%) nos tratamentos PA, PB, PC e
C, durante a maturação de salame tipo italiano, UFSC, 1992.

Gráfico 4. Gráfico de Setores


O gráfico de setores, também conhecido como gráfico de pizza, torta, etc., é um dos
mais simples recursos gráficos, sua construção é baseada no fato de que o círculo possui 360º,
sendo que este círculo é dividido em fatias de acordo com o percentual em cada categoria. É
um gráfico útil para representar variáveis nominais ou apresentadas em categorias de
respostas.

Concentração das soluções

16,7%

33,3%

Fraca

Moderada
Forte

50,0%

43
Figura - Distribuição das porcentagens da resistência à ferrugem para o tipo de grão dentado,
para a região de Chapecó, SC, 1987/88.

Gráfico 5. Gráfico de pontos ou diagrama de dispersão


Gráfico de pontos

10

8
Variável Y

0
0 1 2 3 4 5 6 7 8 9

Variável X

44
Outros tipos gráficos
Cartograma

A estatística utiliza esse tipo de gráfico para representar os dados diretamente sobre o
desenho de uma área geográfica. O impacto visual ajuda na compreensão da informação
associada ao local.

Figura 15 – Cartograma das Vendas

Pictograma
Pictogramas são representações gráficas ilustradas por figuras. A representação gráfica
é feita por figuras variadas.

45
ATIVIDADE PRÁTICA!
Exemplo 5: Considere o seguinte gráfico

a) Qual foi a amostra estudada apresentada nesta pesquisa?

b) O gráfico apresentado acima é chamado de:


( ) Gráfico de setores ( ) Gráfico de linhas
( ) Gráfico de Colunas ( ) Gráfico Pizza
( ) Gráfico de barras

c) Considerando que foram pesquisados 1185 imigrantes clandestinos, qual o percentual de


imigrantes clandestinos que a causa da morte foi afogamento?

d) Quantos imigrantes clandestinos não morreram devido a causa atropelamento?

46
Exemplo 6: Considere o seguinte gráfico:

Arrecadação do Setor de Telefonia no RS (em R$ milhões)

900 843

800 699
700
600 536
R$ Milhões

463
500
400 341
300 216 210
200
152
100
0
1995 1996 1997 1998 1999 2000 2001 2002
Ano

Fonte: Empresas do Setor

Através dos dados apresentados neste gráfico pede-se:

a) Indique a variável deste estudo:

b) Em quantos anos foram arrecadados no mínimo 341 milhões de


reais?:.........................................

c) Calcule e interprete o arrecadamento médio anual do setor de telefonia no RS.

47
Exemplo 7: Considere o seguinte gráfico:

Comparação do refrigerante preferido entre os sexos

180 163
160 150 Homens
Número de Pessoas
140 Mulheres
120
100
80 72
60 54 46
32 31 35
40
20 15
20
0
Coca-cola Fanta Uva Guaraná Fanta Sprite
Laranja
Refrigerante

Considere o gráfico apresentado e marque V para verdadeiro e F para falso nas


seguintes afirmativas:

( ) A variável apresentada neste gráfico é o refrigerante preferido por homens e mulheres.

( ) As mulheres preferem menos Guaraná do que os Homens.

( ) Este gráfico poderia ser feito também através de um gráfico de setores.

( ) A variável de estudo são homens e mulheres que consomem refrigerante.

( ) 15 % da mulheres preferem Sprite.

( ) O percentual de homens que preferem Fanta Laranja ou Uva é de 23,6%.

48
Distribuições de frequências de variáveis quantitativas
Quando a variável em estudo é quantitativa, discreta ou contínua, as principais
características a serem observadas numa distribuição de frequências são:

Principais características
1. Valor típico ou representativo. Corresponde à escolha de um único valor para
representar todo o conjunto de valores; geralmente é um valor central dos dados.
2. Dispersão. É uma medida da concentração dos dados em torno do valor típico.
3. Assimetria. Por exemplo, no estudo da distribuição da renda das famílias brasileiras, a
grande maioria das famílias apresenta baixo rendimento familiar, enquanto que a minoria
apresenta alto rendimento.
4. Valores discrepantes ou outliers. São valores que se distanciam demais dos outros e
pouco prováveis de ocorrerem novamente. E importante realizar um estudo para saber a
razão da ocorrência desses valores. Podemos citar três principais causas: 1) erro de
transcrição de dados; 2) algum fato importante ocorreu durante o trabalho e 3) o valor é
verdadeiro e deve ser considerado como tal.
5. Formação de subgrupos. Por exemplo, ao estudar-se a distribuição das alturas dos
alunos, pode-se chegar à conclusão que existem dois grupos, formados de acordo com o
gênero.

O estudo de distribuições de frequências de variáveis quantitativas é realizado de


acordo com os dois tipos de variáveis, quais sejam:
1. A variável é discreta. Neste caso, temos duas situações: a) quando temos poucos resultados
diferentes da variável, fazemos a contagem (10s dados para cada valor da variável. Exemplos:
1) o número de plantas sadias de mandioca colhidas na área útil de uma parcela (área de 19,44
m2 ) varia no intervalo de 23 a 27 plantas (apenas cinco valores diferentes) e 2) número de
grãos por vagem de soja, varia de 0 a 6 (apenas sete valores diferentes). Neste caso diz-se que
não há perda de informação e as distribuições de frequências são feitas de forma idêntica às
distribuições de variáveis qualitativas; b) quando temos muitos valores diferentes da variável,
devemos criar faixas de ocorrências ou classes de valores. Por exemplo, ciclo da cultura,
medido em dias, de 150 genótipos de feijão. Nesta situação, os valores possíveis do ciclo

49
variam de 70 a 110 dias e podem ser representados por oito classes de intervalos de cinco dias
cada.

2. A variável é contínua. Neste caso, existem ou são poucos os valores que se repetem,
tornando necessária a criação de classes de ocorrências. Por exemplo, o rendimento da cultura
do feijão de uma determinada variedade, em kg/ha, pode ser representado por 10 classes de
intervalos de 90 kg/ha cada.

Observação: quando temos poucos valores, não se justifica a criação de classes de


ocorrências. Neste caso, a distribuição pode ser representada por meio de um diagrama de
pontos, ou seja, cada observação corresponde a um ponto na reta dos números reais.

Exemplo 8: Foram realizadas 20 medidas de um elemento químico no produto fabricado por


uma indústria, obtendo os seguintes valores em ppm:

n Concentração ppm n Concentração PPM


1 29 11 29
2 33 12 25
3 28 13 32
4 38 14 33
5 26 15 40
6 32 16 37
7 31 17 28
8 26 18 26
9 33 19 34
10 34 20 26

50
Procedimentos comuns para a representação das distribuições de freqüência
(maneira de sumarizar os dados).

Dados brutos
São os valores originais conforme eles foram coletados, não estando ainda prontos para
análise, pois não estão numericamente organizados ou tabelados. È difícil formarmos uma
idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados.

Exemplo 9: 29 – 33 – 28 – 38 - 26 – 32 – 31 - 26 – 33 – 34 – 29 – 25 – 32 – 33 – 40 – 37 –
28 – 26 – 34 - 26

Rol
É uma lista, onde as observações são dispostas em uma determinada ordem: crescente
ou decrescente. O objetivo da ordenação é tornar possível a visualização das variações
ocorridas, uma vez que os valores extremos são percebidos de imediato, e também facilitar a
construção da distribuição de freqüências.
 rol crescente
Xmín Xmáx

Assim:
25 – 26 - 26 – 26 – 26 – 28 – 28 – 29 – 29 – 31 – 32 – 32 – 33 – 33 – 33 – 34 – 34 – 37 – 38 -
40

Amplitude total ou Range [Simbologia: H ou R]

É a diferença entre o maior e o menor valor observado da variável em estudo: H = Xmáx


- Xmín

H = 40 – 25 = 15
51
Organização e classificação de dados de variáveis quantitativas

Distribuição de frequência sem intervalos de classes ou distribuição por


ponto:

A construção de distribuições de frequências de variáveis discretas, quando os


diferentes valores observados da variável não são muitos, é feita de forma idêntica às variáveis
qualitativas (categorizadas), fazendo-se a contagem para cada valor observado da variável em
estudo.

Exemplo 10: Considere os dados do exemplo 8.

Assim a distribuição de frequência para o exemplo será:


Xi (Valores ppm) Frequência (fi)
25 1
26 4
28 2
29 2
31 1
32 2
33 3
34 2
37 1
38 1
40 1
Total 20

52
Distribuição de frequência com intervalos de classe:
Quando o tamanho da amostra é elevado procura-se efetuar o agrupamento dos valores
em vários intervalos de classe.

Exemplo 11: considere dados do exemplo 8.

Classe fi
25 |- 28 5
28 |- 31 4
31 |- 34 6
34 |- 37 2
37 |- 40 3
Total = n 20

Elementos de uma distribuição de frequência por classe (ou


intervalo):

Classe
É cada um dos grupos ou intervalos de valores em que se subdivide a amplitude total
do conjunto de tamanho n.

Para a determinação do número de classes, existem diversos métodos, dentre os


quais destaca-se a regra de Sturges, que estabelece que o número de classes (k) é calculado
por:

Nº de classes k = 1 + 3,3 log n

onde n = tamanho da amostra


Exemplo: K = 1 + 3,3 log 20 5

O analista deverá ter em mente que a escolha do número de classes dependerá antes da
natureza dos dados e da unidade de medida em que eles forem expressos, do que de regras
muitas vezes arbitrárias e pouco flexíveis. Recomenda-se considerar 4  k  12.

Amplitude da classe: h = H/k, para a determinação da amplitude das classes de uma


distribuição de freqüências a ser construída.
h=15/5=3

53
Limites de classe

São os dois valores extremos de cada classe.

 Limite inferior (Linf.): é o menor valor da classe considerada; Ex: o número 25 é o limite
inferior da 1ª classe.
 Limite superior (Lsup.): é o maior valor da classe considerada. Ex: o número 31 é o limite
superior da 2ª classe.

Amplitude de classe [Simbologia: h]

É a diferença entre o limite superior e o limite inferior da classe, ou seja:

 h = Lsup. - Linf., quando a distribuição de freqüências já existe;

h = 28 – 25 = 5
ou

 h = H/k, para a determinação da amplitude das classes de uma distribuição de freqüências a


ser construída.

Amplitude total da distribuição: é a diferença entre o limite superior da última classe e o


limite inferior da primeira classe.

40 – 25 = 15

Ponto médio de classe [Simbologia: Xi]

É a média aritmética dos limites da classe. É o valor representativo da classe:


L inf.  L sup.
Xi  .
2

Exemplo: em 25|- 28 o ponto médio x1 = = 26,5

Tabela:
Classe fi xi
25 |- 28 5 26,5
28 |- 31 4 29,5
31 |- 34 6 32,5
34 |- 37 2 35,5
37 |- 40 3 38,5
Total = n 20 -

54
Método para a construção de uma distribuição de frequências com
classe:

1) Organizar os dados brutos em Rol;


2) Calcular a amplitude amostral (H);
3) Calcular o número de classes através da ―Regra de Sturges‖ (k);
4) Calcular amplitude do intervalo de classe h;
5) Temos então o menor número da amostra, o número de classes e a amplitude do intervalo.
Podemos montar a tabela, com o cuidado para não aparecer classes com frequência=0.
O primeiro elemento das classes seguintes sempre será formado pelo último elemento da
classe anterior.

Gráficos representativos de uma distribuição de frequências em


classes

Histograma

É um gráfico de colunas justapostas, cujas alturas são proporcionais às frequências


absolutas e cujas bases correspondem ao intervalo de classe da distribuição.

Histograma
11

10

7
Freqüências

1
Ex pec ted
0
0 2 4 6 8 10 12 14 16 18 20 Normal

Classes

55
Polígono de frequências

É um gráfico de linha, cujos vértices são proporcionais às frequências absolutas e


correspondem aos pontos médios das classes da distribuição.
P
olígonodef
reqüê
ncia
s
1
1

1
0

5
Freqüências

0
0 2 4 6 8 1
0 1
2 1
4 1
6 1
8 2
0
P
ont
o smé
diosda
scla
sse
s

Diversas formas das curvas de frequência

Ao construir as curvas de frequência, observamos que assumem configurações


específicas e, em função disso, recebem nomes característicos, como:
 Curvas em forma de sino: Curva simétrica e assimétrica;
 Curvas em forma de jota;
 Curvas em forma de U;
 Distribuição retangular

Curvas em forma de sino: curva simétrica e assimétrica


A curva tem configuração geométrica semelhante ao contorno de um sino. A principal
característica desse tipo de curva é apresentar maior concentração de valores (pico) na região
central da distribuição.

 Na curva simétrica, o pico encontra-se localizado no centro da distribuição.

 Na curva assimétrica, o pico está descolado do centro da distribuição, o deslocamento


em relação ao centro pode ser para a direita ou para a esquerda.

Curvas em forma de jota: Jota e jota invertido

Esse tipo de curva apresenta semelhança com o contorno de um jota. A característica


da curva em jota é apresentar pontos de maior valor numérico de ordenadas em uma das
extremidades.
56
Curvas em Forma de U

A curva apresenta semelhança com o contorno da letra U. A principal característica da


curva em U é apresentar pontos de maior valor numérico de ordenadas nas duas
extremidades.

Distribuição retangular

A distribuição retangular caracteriza uma situação especial em que todas as classes têm
a mesma frequência. Nesta situação, o histograma é constituído por retângulos de mesma
altura, a ligação dos pontos médios conduz a uma reta horizontal.

HISTOGRAMA

Histograma é uma forma de descrição gráfica com barras verticais, as quais representam
dados quantitativos agrupados em classes de frequência.

Os dados de uma amostra servem como base para uma decisão sobre a população. Quanto
maior o tamanho da amostra mais informação temos sobre a população. Porém, um aumento
de tamanho da amostra também significa um aumento da quantidade de dados e torna-se
difícil compreender a população a partir destes dados, mesmo quando eles são dispostos em
tabelas. Em tal caso, precisamos de um método que nos vai possibilitar conhecer a população,
e um histograma atende as nossas necessidades.
Organizando-se muitos dados em um histograma, pode-se conhecer a população de uma
maneira objetiva.

57
É possível obter informações úteis sobre o estado da população através da análise do
perfil do histograma. Os perfis seguintes são típicos, e podemos utilizá-los como modelos para
análise de um processo.

a) Tipo geral

b) Tipo pente

c) Tipo assimétrico positivo

d) Tipo declive à direita

e) Tipo platô

f) Tipo picos duplos

g) Tipo picos isolados

Fig. 2 – Tipos de histograma

58
a. Tipo geral (simétrico ou em forma de sino) – O valor médio do histograma está no
meio da faixa dos dados. A freqüência é mais alta no meio e torna-se gradualmente
mais baixa na direção dos extremos. O perfil é simétrico. É o formato encontrado com
mais freqüência.
b. Tipo Pente (multi-modal) – As classes possuem freqüência altas e baixas
alternadamente.Este perfil ocorre quando a quantidade de dados incluídos na classe
varia de classe para classe, ou quando existe uma tendência particular no modo como
os dados são arredondados.
c. Tipo assimétrico positivo (assimétrico negativo) – O valor médio do histograma fica
localizado à esquerda (direita) do centro da faixa da variação. A frequência decresce
um tanto abruptamente em direção à esquerda (direita), porém de forma suave à direita
(esquerda). Isto ocorre quando o limite inferior (superior) é controlado, ou
teoricamente, ou por um valor de especificação, ou quando valores mais baixos (mais
altos) do que um certo valor não ocorrem.
d. Tipo declive à direita (declive à esquerda) – O valor médio do histograma fica
localizado à esquerda (direita) do centro da faixa da variação. A frequência decresce
um tanto abruptamente na esquerda (direita), e lentamente em direção à direita
(esquerda). Isto ocorre com frequência quando uma triagem de 100% tiver sido feita
por causa da baixa capacidade do processo, e também quando a assimetria positiva
(negativa) se tornar ainda mais extrema.
e. Tipo platô – A frequência em cada classe forma um platô porque as classes possuem
mais ou menos a mesma frequência exceto aquelas das extremidades. Este formato
ocorre quando há mistura de várias distribuições que têm diferentes médias.
f. Tipo picos duplos (bimodal) – A frequência é baixa próximo ao meio da faixa de
dados e existe um pico em um e outro lados. Este formato ocorre quando duas
distribuições com médias muito diferentes são misturadas.
g. Tipo pico isolado – Existe um pequeno pico isolado em adição a um histograma do
tipo geral. Este é um perfil que ocorre quando há uma pequena inclusão de dados de
uma distribuição diferente, como no caso de anormalidade do processo, erro de
medição, ou inclusão de dados de um processo diferente.

59
Comparação de Histogramas e limites de especificação

Se houver especificação, trace as linhas dos limites da especificação no histograma, para


comparar a distribuição com a especificação. Depois veja se o histograma está localizado bem dentro
dos limites. Cinco casos típicos, como na Figura 3, são descritos a seguir. Use-os como referência para
avaliar a população

Casos em que o histograma satisfaz a especificação:

Casos em que o histograma não satisfaz a especificação:

Fig. 3 – Histogramas e limites de especificação

Observações:

a. Tudo o que se precisa é manter a atual situação;


b. A especificação é satisfeita, mas não há margem extra; portanto, é melhor reduzir um
pouco a variação;
c. É necessário tomar medidas para colocar a média mais próxima do meio da
especificação;
d. São necessárias ações para reduzir a variação;
e. São necessárias as medidas descritas nas alíneas ―c‖ e ―d‖.

60
Exercício 14: Considere o volume final (ml) das bagas de uma determinada área:
74 – 72- 66-71 – 74 – 77- 68 – 69- 77 – 83 – 63 – 64 – 73 – 73 – 82 – 82 – 82 – 72 – 59 – 75 –
70 – 79 – 75 – 72 – 63 – 74 – 68 – 69 – 77

Identifique:
a. Tamanho da amostra:________________________

b. Variável:________________________

Construa uma tabela para estes dados e responda:


c. Qual o percentual de bagas com volume final de no máximo 70 (ml)?
d. Qual o percentual de bagas que apresenta volume final de no mínimo 80 (ml)?
e. Quantas bagas têm volume final entre 65 e 75ml?

Exercício 15: Encontre as frequências relativas simples, acumuladas e o ponto médio de cada
classe.

Rendimento médio Frequência absoluta


(kg/ha)
3.973 |- 4.456 1
4.456 |- 4.949 12
4.949 |- 5.422 13
5.422 |- 5.905 3
5.905 |- 6.388 3
TOTAL 32

Exercício 16: Os dados da Tabela 2.20 foram obtidos de um experimento desenvolvido para
avaliar o comportamento In Vitro de abacaxi (Ananas comosus) cv. Primavera e referem-se à
variável altura dos brotos de explantes, em centímetros (dados ordenados crescentemente).
Tabela: altura de brotos de explantes de abacaxi
1,00 1,18 1,21 1,27 1,34 1,37 1,43 1,47 1,52 1,68
1,01 1,19 1,25 1,30 1,35 1,37 1,43 1,47 1,57 1,73
1,08 1,19 1,26 1,31 1,36 1,39 1,44 1,49 1,61 1,77
1,11 1,20 1,27 1,34 1,36 1,41 1,46 1,50 1,62

Exercício 17: Os dados da Tabela 2.29, já ordenados crescentemente, referem-se à


biometria total, em mm, do Macrobrachium potiuna (MULLER 1880) da família
Palaemonidae.
61
Tabela: Biometria total de Macrobrachium potiuna

25,60 27,75 29,95 32,20 33,90 34,75 35,20 36,00 37,10

39,20 41,75 44,05 25,90 28,30 31,25 32,20 33,95 34,80

35,55 36,70 38,90 39,55 42,80 45,20 25,90 29,05 31,70

33,75 34,75 35,10 35,65 37,05 39,10 40,45 43,95 46,74

a) Construa a tabela de distribuição de frequências com seis classes para os dados.


b) Construa o histograma.
c) Indique um valor representativo para os dados; comente sobre a assimetria; esta amostra
é oriunda de uma população com distribuição aproximadamente normal? Justifique.

Exercício 18: Suponha que, ao estudar a quantidade de albumina no plasma de pessoas com
determinada doença, um pesquisador obtenha, em 25 indivíduos, os seguintes valores (em g/100ml):

5,1 4,9 4,9 5,1 4,7


5,0 5,0 5,0 5,1 5,4
5,2 5,2 4,9 5,3 5,0
4,5 5,4 5,1 4,7 5,5
4,8 5,1 5,3 5,3 5,0
Identifique:
a. Amostra:________________________

b. Variável:________________________

Construa uma tabela para estes dados e responda:


c. Qual o percentual de pessoas com no máximo 5,3 g/100ml de albumina no plasma?
d. Qual o percentual de pessoas com albumina no plasma com no mínimo 5,0g/100ml?
e. Quantas pessoas têm albumina no plasma entre 4,9 e 5,3g/100ml?

Exercício 19: Os dados seguintes representam 20 observações relativas ao índice


pluviométrico em determinado município do Estado:

144 152 159 160


160 151 157 146
154 145 151 150
142 146 142 141
141 150 143 158

Construa uma distribuição de frequência por classe.

62
Exercício 20: Foram realizadas 20 medidas de um elemento químico no produto fabricado por
uma indústria, obtendo os seguintes valores em ppm:

n Concentração ppm n Concentração PPM


1 29 11 29
2 33 12 25
3 28 13 32
4 38 14 33
5 26 15 40
6 32 16 37
7 31 17 28
8 26 18 26
9 33 19 34
10 34 20 26

a) Qual a variável em estudo;


b) Qual a amostra;
c) Construa uma distribuição de frequências.

Exercício 21: "Aceita-se hoje que o processo saúde-doença decorre, em grande parte, das questões
relacionadas aos hábitos, atitudes, comportamentos e, sobretudo, à conduta humana, como resultado
da interação entre as características do indivíduo e do ambiente cultural em que ele se insere. Isso
toma especial vulto, frente ao aumento da ocorrência de doenças crônico-degenerativas, como o
câncer e as doenças cardiovasculares, em todo o mundo. Essas doenças estão relacionadas à
crescente industrialização e urbanização, que impõem à população, muitas vezes, estilos de vida que a
levam a se expor a determinados fatores de risco. Essa exposição decorre, em grande parte, do
aumento do consumo de produtos nocivos à saúde, estimulado pela publicidade, em especial das
drogas lícitas, entre elas o tabaco. O tabagismo, atualmente, está relacionado a 3,5 milhões de mortes
anuais, em todo o mundo, aproximadamente 10.000 a cada dia; sendo um milhão destas nos países em
desenvolvimento como o Brasil, com estimativa de chegar a um total de 10 milhões/ano até o ano
2020; sendo que 7 milhões ocorrerão nos países em desenvolvimento (Ministério das Saúde)"

Uma pesquisa foi realizada com 20 estudantes fumantes objetivando verificar o número de cigarros que
estes fumam por dia. Os resultados obtidos foram:

20 12 12 10 24 6 10 8 22 12
14 10 8 8 12 20 20 24 20 24

Identifique:
a) População:
b) Amostra:
c) Variável:
d) Construa uma tabela de frequências.

Exercício 22: "O desempenho do setor de Cartões de Crédito tem sido bastante satisfatório e tem crescido a
medida em que a compensação de cheques vem diminuindo. Existe o incentivo por parte dos bancos ara que seja
impulsionado o uso de cartões, tudo porque a transação com cheque custa 455 % a mais que a eletrônica. Por
parte dos estabelecimentos comerciais, o incentivo acontece por ser mais seguro e por reduzir as despesas
financeiras. Atualmente o potencial de crescimento de demanda é para o dobro de cartões que estão em
circulação, hoje, pouco mais de 40 milhões. Nos últimos 8 anos, o uso do cartão de crédito aumentou 327 %,
enquanto que a utilização do cartão de débito, 562,5 %"Fonte: www.investnews.com.br

63
Os dados abaixo correspondem aos resultados de uma pesquisa realizada com 20 lojas de um shopping com o
objetivo de verificar o valor mensal de suas vendas (mil reais) pagas com cartão de débito:

12 15 10 5 10 10 5 12 2 2
10 15 10 15 10 5 10 10 10 10
Identifique:

a) Amostra b) Variável

c) Construa uma tabela para representar estes dados (os dados não deverão ser agrupados em classes)

Exercício 23: Um supermercado colheu a opinião de 60 clientes, sendo que uma determinada
questão sobre a qualidade de atendimento deveria ser respondida mediante a utilização das
opções: Ótimo, Bom, Regular e Ruim. Para essa questão foram encontradas as respostas a
seguir:
Ruim Bom Ótimo Bom Bom Regular Ótimo Bom Regular Bom
Regular Ótimo Ruim Ótimo Bom Bom Bom Ótimo Bom Bom
Ótimo Bom Bom Ruim Bom Bom Regular Regular Ótimo Regular
Ótimo Ótimo Bom Bom Regular Bom Bom Ruim Bom Regular
Ruim Regular Ótimo Regular Bom Bom Bom Bom Bom Bom
Bom Regular Ótimo Bom Ruim Bom Bom Ótimo Regular Ótimo

a) Identifique a variável em estudo. É qualitativa ou quantitativa? Discreta ou contínua?


b) Elabore a tabela de distribuição de frequência referente aos dados coletados na pesquisa.
c) Qual o número de classes na tabela de distribuição de frequências?
d) Qual o valor da frequência da terceira classe? E da primeira?
e) Qual o número de dados observados da pesquisa?
f) Qual o maior valor de frequência? E o menor?
g) Complete a tabela com a distribuição de frequência relativa e de frequência acumulada
simples.
h) Qual o percentual de respostas da opção regular?
i) Qual o percentual de respostas das opções bom + ótimo?

Exercício 24: Considere os dados referente:

Rendimentos médios, em kg/ 11a, de 32 híbridos de milho, Região oeste, 1987/88


3.973 4.660 4.770 4.980 5.117 5.403 6.166
4.500 4.680 4.778 4.993 5.166 5.513 6.388
4.530 4.685 4.849 5.056 5.172 5.823
4.532 4.760 4.960 5.063 5.202 5.889
4.614 4.769 4.975 5.110 5.230 6.047

Monte uma tabela de frequência:

64
Exercício 25: Considere a massa das sementes (g) de uma amostra de bagas em uma
determinada área:
3,4 – 3,64 – 3,44- 6,04 – 5,4 – 4,96 – 3,54 – 4,58 – 5,38 – 4,94 – 7,3 - 7,6 – 5,06 – 4,68 – 2,68
– 3,4 – 3,72 - 6,5 – 4,3 – 3,16 – 3,6 – 5,36 – 5,26 – 5,02 – 3,88 – 5,84 – 8,76 – 5,88 – 7,76 –
5,1 – 4,9 – 7,34 – 4,52 – 4,36 – 5,36
a) Construir uma distribuição de frequências;
b) Determinar as frequências relativas;
c) Determinar as frequências acumuladas;
d) Qual é a amplitude da amostra?
e) Qual é a porcentagem de bagas com massa de sementes com no mínimo 7,3g?

Exercício 26: Caderneta de poupança é uma modalidade de aplicação financeira, caracterizada pelo
baixo risco e garantida pelo governo. Suas regras são definidas pelo Banco Central. A remuneração é
padronizada para todas as instituições financeiras e ocorre na data do aniversário da caderneta. Numa
agência bancária, pesquisaram-se os saldos de 50 clientes, em contas de cadernetas de poupança, em
determinada data base ( saldos em mil reais). Os valores coletados estão representados a seguir:

Saldo em caderneta de poupança (valores em milhares) – Rol.


40 41 42 45 47 48 50 52 53 54
55 55 56 57 59 60 61 64 65 65
65 66 67 68 68 69 71 73 73 73
74 74 76 77 78 80 81 84 85 85
88 89 91 94 94 97 99 102 105 108

a) Identifique a variável em estudo. É qualitativa ou quantitativa? É contínua ou discreta?


b) Calcule o número de classes. R: K=7
c) Calcule a amplitude amostral. R: H= 68
d) Elabore uma tabela de freqüências: absoluta, relativa, acumulada e o ponto médio da classe.
e) Construa um histograma para distribuição de freqüências.

Exercício 27: Dado o rol de 50 notas (dadas em créditos). Agrupar os elementos em classe e
determinar:

a) Amplitude amostral; R: H = 64
b) O número de classes; R: k = 7
c) A amplitude de classes; R: h = 10
d) Os limites das classes;
e) As frequências absolutas;
f) As frequências relativas;
g) Os pontos médios das classes;
h) As frequências acumuladas.
i) O Histograma;
65
j) O polígono de frequência;
k) O polígono de frequência acumulada (Ogiva).

Rol:
33 – 35 – 35 – 39 – 41 - 41 – 42 – 45 – 47 – 48
50 – 52 – 53 – 54 – 55 – 55 – 57 – 59 – 60 – 60
61 – 64 – 65 – 65 – 65 – 66 – 66 – 66 – 67 – 68
69 – 71 – 73 – 73 – 74 – 74 – 76 – 77 – 77 – 78
80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97

Exercício 28: Dada a amostra 3 – 4 – 4 – 5 – 7 – 6 – 6 – 7 – 7 – 4 – 5 – 5 – 6 – 6 – 7 – 5 – 8 – 5 – 6 –


6, pede-se:

a) Construir uma distribuição de frequências;


b) Determinar as frequências relativas;
c) Determinar as frequências acumuladas;
d) Qual é a amplitude da amostra? R: H = 5
e) Qual é a porcentagem de elementos maiores que 5? R: 55%

Exercício 29: A equipe administrativa de um consultório médico estudou os tempos de espera dos
pacientes que chegam ao consultório com um pedido de atendimento de emergência. Os seguintes
dados de tempo de espera em minutos foram coletados no período de um mês:

2 – 5 – 10 – 12 – 4 – 4- 5 – 12- 5 – 8 – 17 – 8 - 8 – 9

a) Construa uma distribuição de frequência;


b) Determine as frequências relativas;
c) Determine as frequências acumuladas;
d) Qual é a amplitude da amostra? R: H =15
e) Qual a proporção de pacientes que necessitam de atendimento de emergência enfrenta um
tempo de espera de nove minutos ou menos? R: 71,43%

Lista de Exercícios: Apresentação de Dados

1. Para cada caso abaixo identifique: população; amostra; variável.

a) Uma pesquisa tem a finalidade de conhecer a porcentagem de pessoas que possuem curso
superior completo na cidade Gandú. Para isso, 200 habitantes foram selecionados para
amostra,

66
b) O fabricante de carros marca ―Alfa‖ deseja saber o consumo de gasolina (Km/l).
Selecionou, então, os 500 primeiros carros fabricados para fazer a investigação.
c) Um pesquisador interessado em conhecer a inteligência média de pacientes
esquizofrênicos, aplicou determinado teste de inteligência em 100 indivíduos
hospitalizados.
d) A escola Maria Gorete quer saber o tempo despendido pelos alunos no deslocamento
residência-escola. Realizou uma seleção de 100 alunos, anotando o tempo gasto neste
trajeto.

2. Considere as respostas de 30 pessoas que foram entrevistadas sobre o hábito de ingerir


bebidas durante as refeições. Represente os dados em uma tabela de frequências. Os resultados
foram os seguintes:

vinho suco refrigerante suco vinho Cerveja


suco refrigerante suco água refrigerante Água
água refrigerante vinho suco suco Suco
suco vinho refrigerante suco refrigerante vinho
refrigerante suco refrigerante cerveja refrigerante suco

a) Qual o percentual de pessoas entrevistadas tem o hábito de ingerir refrigerante durante


as refeições?
b) Qual o percentual de pessoas entrevistadas tem o hábito de ingerir vinho durante as
refeições?
c) Qual o percentual de pessoas entrevistadas tem o hábito de ingerir refrigerante ou suco
durante as refeições?
d) Qual é a bebida mais frequente nesse conjunto de dados? O que significa?

3. Considere os dados sobre resistência à ferrugem de 32 híbridos de milho. Complete a tabela


com as frequências relativas e acumuladas
Tabela: Distribuição de frequências da resistência à ferrugem de 32 híbridos de milho
recomendados para a região de Chapecó, SC, safra 1987/88
Resistência à ferrugem Frequência absoluta
r(resistente) 10
mr(moderadamente resistente) 6
ms(moderadamente susceptível) 9
s (susceptível) 7
Total 32

67
4. Distribuição de frequências da resistência à ferrugem de híbridos de milho, segundo as
regiões preferenciais
Região preferencial
Total
Resistência à ferrugem Chapecó Campos Novos Içara
r(resistente) 10 3 12 25
mr(moderadamente resistente) 6 12 2 20
ms(moderadamente susceptível) 9 3 3 15
s (susceptível) 7 1 2 10
Total 32 19 19 70

a) Qual das regiões apresentou maior resistência à ferrugem?


b) Qual das regiões foi mais suscetível a ferrugem?

5. A tabela abaixo deve ser preenchida e exemplificará a entrada de dados no programa. Note
que cada indivíduo é uma unidade de observação na qual são feitas várias medidas e/ou
anotados vários atributos, referentes às variáveis.

Classifique cada uma das variáveis em: qualitativa (nominal ou ordinal) ou quantitativa
(discreta ou contínua).

6. Ao perguntar a uma amostra de 30 alunos universitários de uma universidade o número de


livros que eles retiram da biblioteca, em média, por mês obtivemos os seguintes dados:

0 2 3 5 0 2 3 4 5 3
3 3 5 4 1 0 3 1 3 4
5 0 1 1 0 0 5 5 5 4

68
a) Construa a tabela adequada para estes dados.

b) Quanto aluno retira, em média, menos que 3 livros por mês?

c) Quanto aluno retira, em média, no máximo 2 livros por mês

d) Qual a porcentagem de alunos que retiram, em média, mais de 4 livros por mês?

e) Qual a porcentagem de alunos que não retiram livros da biblioteca?

7. Os dados abaixo se referem ao número de residentes nos 35 domicílios do bairro ―Vida


Nova‖:

2 3 4 4 5 3 4 5 5 3 1 5 5 1 3 4 5
3 3 5 4 5 4 2 4 2 5 4 4 2 5 5 5 3 2
a) Construa uma tabela para estes dados.
b) Determine o percentual de residências com apenas 2 residentes.
c) Determine o percentual de domicílios com no mínimo 3 residentes.
d) Determine o percentual de domicílios com pelo menos 3 residentes.
e) Considerando a tabela construída no item ―a‖, determine o número total de residentes nos
35 domicílios.

8. As notas abaixo se referem ao grau obtido por 50 alunos em uma prova de Estatística:

1 8 3 4 7 4 6 7 7 8
2 8 3 4 7 4 6 7 8 8
2 7 4 5 6 8 6 7 8 9
2 9 4 5 7 8 7 7 8 9
a) Quem é a amostra do estudo?
b) Quem é a variável estudada? Classifique-a.
c) Construa a tabela mais adequada para estes dados, calculando a porcentagem de cada
valor.
d) Quantos alunos tiram nota inferior a 7 na prova? R: 18
e) Quantos alunos tiraram no máximo 8 na prova? R: 5
f) Qual a porcentagem de alunos que obtiveram nota entre 5 e 8 pontos? R: 62,5%

69
9. Considere a seguinte tabela:

Quanto você pretende gastar no presente para sua mãe no Dia das Mães?
Valor (reais) Nº Filhos %
0 5
20 35
50 45
100 15
Total 80 100

Identifique:
a) Amostra:
.....................................................................................................................................
b) Variável:
......................................................................................................................................
c) Complete a tabela com os dados que faltam a respeito do número de filhos.
d) Quantos filhos pretendem gastar no máximo 50 reais?
e) Quantos filhos pretendem gastar menos que 50 reais?

10. Uma vinícola fez uma pesquisa de opinião com seus clientes cadastrados. Determinada
questão sobre a qualidade de atendimento deveria ser respondida mediante a utilização das
opções: Ótimo; Bom; Regular; Ruim e Péssimo. Por meio de uma amostragem proporcional
estratificada, alguns clientes foram selecionados para justificar a respectiva opção; sendo
assim, complete a tabela:
Opções de respostas Nº de respostas por %
opção
Ótimo 900
Bom 15
Regular 550
Ruim 350
Péssimo
Total 2500 100

70
11. A Tabela mostra a produção de café no ano de 2009, em 6 diferentes regiões do país.
Sabendo-se que foram retiradas amostras estratificadas proporcionais para controle de
qualidade, complete a tabela:

Tabela: Produção de Uva em 2009


Quantidade de uva
Regiões produtoras %
produzida (em toneladas)
A 3.650
B 27,8
C 4.260
D
E 6.900
F 17
Total 30.000 100

12. Visando o planejamento estratégico, o diretor de uma empresa fabricante de espumantes


realizou uma pesquisa sobre a distribuição salarial de seus funcionários. Para isso, o diretor
selecionou 30 funcionários de um total de 780 que trabalhavam para a empresa, para
responder a sua pesquisa. Responda as seguintes questões:
a) Qual é a variável do estudo? Classifique-a ( em qualitativa, quantitativa).
b) Quantos elementos constituem a população deste estudo? E a amostra?

13. Bento Gonçalves está preocupada em melhorar a sinalização de suas ruas. Para tanto,
selecionou 25 ruas para fazer a checagem da sinalização. Identifique a variável, a população e
o número de elementos da amostra.

14. Especifique se a variável é qualitativa ou quantitativa. Uma vinícola colheu a opinião de


60 clientes, sendo que uma determinada questão sobre a qualidade de atendimento deveria ser
respondida mediante a utilização das opções: Ótimo, Bom, Regular e Ruim. Para essa questão
foram encontradas as respostas a seguir:
Ruim Bom Ótim Bom Bom Regula Ótimo Bom Regula Bom
o r r
Regula Ótimo Ruim Ótimo Bom Bom Bom Ótimo Bom Bom
r
Ótimo Bom Bom Ruim Bom Bom Regula Regula Ótimo Regula
r r r
Ótimo Ótimo Bom Bom Regula Bom Bom Ruim Bom Regula
r r
Ruim Regula Ótim Regula Bom Bom Bom Bom Bom Bom
r o r
Bom Regula Ótim Bom Ruim Bom Bom Ótimo Regula Ótimo
r o r
71
a) Identifique a variável em estudo. É qualitativa ou quantitativa? Discreta ou contínua?
b) Elabore a tabela de distribuição de frequência referente aos dados coletados na
pesquisa.
c) Qual o número de classes na tabela de distribuição de frequências?
d) Qual o valor da frequência da terceira classe? E da primeira?
e) Qual o número de dados observados da pesquisa?
f) Qual o maior valor de frequência? E o menor?
g) Complete a tabela com a distribuição de frequência relativa e de frequência acumulada
simples.
h) Qual o percentual de respostas da opção regular?
i) Qual o percentual de respostas das opções bom + ótimo?

72
3. MEDIDAS DESCRITIVA
A análise descritiva dos dados é uma subdivisão da Estatística e tem por objetivo a
descrição dos resultados de uma pesquisa através de tabelas, gráficos e cálculos de algumas
medidas estatísticas. Dentre essas medidas, as mais comumente utilizadas são as Medidas de
Tendência Central (média, mediana e moda) e as Medidas de Variabilidade (variância, desvio-
padrão, coeficiente de variação).

3.1 Medidas de Tendência Central

São indicadores que permitem que se tenha uma primeira ideia, um resumo, de como
se distribuem os dados de um experimento, informando o valor da variável (característica)
mais prevalecente em um conjunto de informações (dados). Essas medidas são consideradas
formas úteis de descrever um grupo como um todo encontrando um único número que
represente todo o conjunto de dados. As medidas de tendência central que veremos nesse
curso são: média, mediana e moda.

  população
Média [Simbologia:  ]
X  amostra

A média aritmética é uma das informações mais importantes da análise estatística. A


média aritmética é uma medida de posição central, mesmo que ela não se encontre
necessariamente no centro da distribuição, pois na verdade ela corresponde a uma das posições
de equilíbrio entre os dados coletados.
µ = média populacional
̅ = média aritmética amostral

̅ (lê-se: ―X traço‖ ou ― X barra‖)

73
1ª Situação: Média para dados não agrupados
A média, que se representa por X na amostra e por  na população, é uma medida
de localização do centro da amostra, e obtém-se a partir da soma de um conjunto de valores,
dividida pelo número de valores considerados conforme a seguinte expressão:

Amostra

X  X 2  ...  X n X i
X  1  i 1

n n

Onde:

̅ = média aritmética
 x = somatório dos valores da variável ―x‖ (exemplo: soma de todos os valores de idades, rendas
familiares, etc.)
n = nº de elementos pesquisados, ou ainda o tamanho da amostra.

x i
X  i 1

Obs: média populacional = µ

X 1  X 2  ...  X N  Xi
  i 1

N N
onde:
N = número total de elementos da população

74
Exemplo 12: Uma coleta recente, em 8 pontos do curso d’agua de um certo
rio, forneceu o conteúdo de material de sódio em suspensão na água (taxa de
poluição deste rio, expressa pela matéria sólida em suspensão).

Os dados abaixo representam valores (em mg ):

210 242 226 268 251 218 220 240


Amostra:
Variável:
Média:

Interpretação: “O conteúdo médio de material de sódio em suspensão na água é de 234,4


mg”.

Exercício 30: Calcule e interprete a média dos Rendimentos, em kg/ ha, de híbridos de milho,
Região oeste, 1987/88
3.973, 4.500, 4.770, 5.063, 4.960, 5.202

75
ATIVIDADE PRÁTICA!

Banco de dados: Registro de uma amostra de bagas retiradas em


diversos pontos de uma determinada área.
Determinação dos Atributos Físicos e Químicos das Bagas
Ponto Altura Largura M Sementes M Bagas pH º Brix
......mm....... g g
1 12,56 11,69 3,4 51,84 3,12 18,5
2 13,10 12,42 3,64 50,18 3,11 18,2
3 12,05 11,49 3,44 43,42 2,9 15,9
4 12,29 11,59 6,04 42,84 2,82 16,5
5 12,85 11,80 5,4 54,46 3,32 18,5
6 12,56 11,80 4,96 52,96 3,71 17,8
7 12,67 12,02 3,54 49,32 3,05 17,6
8 12,54 11,97 4,58 48,42 3,07 19
9 12,60 11,70 5,38 52,88 3,14 19,6
10 13,45 12,91 4,94 59,34 3,05 18,6

Apresente o cálculo da média para cada uma das variáveis apresentadas no Banco de
Dados acima, não se esquecendo de interpretar os valores encontrados, como se seus
resultados fossem ser apresentados aos diretores dessa empresa!

Exercício 31: Para avaliar um novo método para determinação de cálcio, um químico
preparou uma solução de concentração conhecida, 50mg/L de Ca. Esta Solução foi analisada
seis vezes; os resultados obtidos foram:
1) 48,2mg/L;
2) 51,0mg/L;
3) 46,6mg/L;
4) 51,5 mg/L;
5) 43,8 mg/L;
6) 46,9 mg/L;
Calcular a média dos resultados obtidos.

76
o

Propriedades da média aritmética:


 A soma dos desvios em relação à média é nula;

 X i  X  0

 A média de uma constante é igual à constante;


X (k )  k

 A média do produto de uma constante por uma variável é igual ao produto da constante
pela média da variável;
X (kX i )  k  X (X i )

2ª Situação: Média para dados agrupados por ponto


Quando os nossos dados estão organizados na forma de uma tabela de freqüências,
deve-se ponderar os diferentes valores X pelas respectivas freqüências f, conforme a
fórmula abaixo:
n

x . f  x . f  x . f  ...  x . f X f i i
X 1 1 2 2 3
 3 n n i 1
n
n f i 1
i

onde:
fi = a freqüência absoluta da classe i.
n

 f n
i 1
i

Amostra
k

x  f i i
X  i 1

77
Obs: Média populacional µ

N = número total de elementos da população

Exemplo 13: Considere:

Tabela. Concentração de nitrato (µg/ml).


Concentração de (f)
Nitrato (µg/ml)
0,46 1
0,47 3
0,48 5
0,49 10
0,50 10
0,51 13
0,52 5
0,53 3
Total 50

Interpretação: ―Em média, a concentração de nitrato na amostra de 50 determinações é de


0,5 µg/ml”.

78
Exercício 32: Considere:
Tabela. Distribuição de frequências, do número de plantas sadias de mandioca em 30 parcelas,
Chapecó, SC, 1984.
Número de (f)
plantas
23 1
24 3
25 4
26 8
27 14
Total 30
Encontre e interprete a média:

3ª Situação: Média aritmética para dados tabelados por intervalo


(classe).

Quando os dados estiverem agrupados numa distribuição de frequência por classe usaremos a
média dos pontos médios x1, x2, x3, ..., xn, de cada classe, ponderados pelas respectivas
frequências absolutas: f1,f2,f3,...,fn. Assim:

X f i i
X i 1
onde xi = ponto médio da classe i
n

79
Exemplo 14: Distribuição de frequências de 32 híbridos de milho recomendados para o Oeste
catarinense, 1987/88

Rendimento (Kg/ha) (fi)


3.973 |- 4.456 1
4.456 |- 4.939 12
4.939 |- 5.422 13
5.422 |- 5.905 3
5.905 |- 6.388 3
Total 32

Encontre e interprete a média:

Exercício 33: Uma vinícola registrou a seguinte distribuição de frequência para o número de
litros de suco vendidos por pessoa, durante uma semana de feira. Encontre e interprete a
média.

Suco (litros) Número de clientes


0 |- 5 74
5 |- 10 192
10 |- 15 280
15 |- 20 105
20 |- 25 23
25 |- 30 6
Total 680

80
Moda [Simbologia: mo]

A moda de um grupo de observações é definida como a medida de frequência máxima


ou é (são) o(s) valor(es) que se repete(m) mais vezes. Pode ser utilizada para dados
qualitativos.

1ª Situação: Moda para dados não-tabelados

A moda será o valor mais frequente no conjunto de dados, podendo, este mesmo
conjunto, possuir mais de uma moda (bimodal ou plurimodal), ou ainda, não apresentar moda
(amodal).

Exemplo 15: Os valores de cinzas em ppm de uma amostra foram os seguintes:


110 – 110 – 115 – 110 - 115
Mo = 110 → Distribuição unimodal ou modal.

Interpretação: o valor de cinza em ppm com maior frequência é de 110ppm.

Exemplo 16: Suponha o conjunto de valores de cinzas em ppm: 110 – 110 – 120- 115 – 115 .
Determinar a moda deste conjunto de dados.

Exemplo 17: Suponha o conjunto de valores de cinzas em ppm: 110 – 110 – 115 – 115- 120 -
120. Determinar a moda deste conjunto de dados.

Exemplo 18: Determine a moda dos conjuntos de dados abaixo:

a) 1 -2- 3 – 5 – 2 – 6 – 7 – 2 – 9;
b) 1 – 1 – 2 – 2 – 3 – 3 - 5 – 5 – 6 – 6 – 7 – 7 – 9 – 9;
c) 0 – 0 – 1 – 2 – 3 – 5 – 2 – 0 – 6 – 7 – 2 – 9;
d) 1 – 1 – 2 – 2 – 3 – 3 – 8 – 8 -10

81
2ª Situação: Moda para dados tabelados por ponto

Quando a distribuição é por ponto, a determinação da moda é imediata pela simples


inspeção da tabela, já que a mo é o valor de frequência máxima.

Exemplo 19: Considere a seguinte distribuição de frequência de uma amostra de polímero


contendo 20 valores granulométricos (grãos/grama).
(valores granulométricos) xi fi
36 5
38 3
39 3
40 4
44 3
47 2
Total 20
Encontre a moda:

Exemplo 20: Tabela. Distribuição de frequências, do número de plantas sadias de mandioca


em 30 parcelas, Chapecó, SC, 1984.
Número de (f)
plantas
23 1
24 3
25 4
26 8
27 14
Total 30
Encontre a moda:

82
3ª Situação: Moda para dados tabelados por intervalo de classe

Quando a distribuição de frequências é por intervalo, têm-se diversas maneiras.


Pode-se calcular a moda bruta que é o ponto médio da classe de maior frequência
(método rudimentar).

Exemplo 21:
Salário Mensal Nº de funcionários
25|-30 10
30|-35 20
35|-40 30
40|-45 15
45|-50 40
50|-55 35
Total 150

Portanto, se a maior fi = 40 pertence à classe 45 |- 50, logo Mo =

Interpretação: o Salário mensal com maior frequência entre o grupo de 150 funcionários foi
de 47,5 salários.

Exemplo 22: Distribuição de frequências de 32 híbridos de milho recomendados para o Oeste


catarinense, 1987/88

Rendimento (Kg/ha) (fi)


3.973 |- 4.456 1
4.456 |- 4.939 12
4.939 |- 5.422 13
5.422 |- 5.905 3
5.905 |- 6.388 3
Total 32

Encontre e interprete a moda:

Características e importância da moda:

I) Não é afetada por valores extremos, a não ser que estes constituam a classe modal;
II) È uma medida bastante utilizada em estatística Econômica.

83
~
Mediana [Simbologia: m d ou X]

A mediana divide em duas partes o conjunto das observações ordenadas. Colocando-se


os valores em ordem crescente ou decrescente, a mediana é o elemento que ocupa o valor
central.

50% md 50%
 rol crescente
Xmín Xmáx

Uso da mediana:

I) Quando se deseja obter um ponto que divida a distribuição em partes iguais;


II) Quando há valores extremos que afetam, de uma maneira acentuada, a média;

1ª situação: Mediana para dados não-tabelados

Se n é ímpar, a mediana é o elemento central, o que fica ―sobrando‖ no meio.


Se n é par, a mediana é a média dos dois elementos centrais.

Procedimento no caso de dados brutos:


1. Colocam-se os dados em ordem (rol);

2. Se o número de elementos "n" for ímpar, a mediana será o elemento central que ocupa a
n 1
posição do rol;
2

3. Se "n" for par, a mediana será a média aritmética entre os dois elementos centrais que
n n
ocupam as posições e  1 do rol.
2 2

84
Exemplo 23: Quando o tamanho da amostra “n” for ímpar
Considere os dados a seguir, referentes à quantidade de magnésio medido no rio Mogi-
Guaçu, SP, em 1988 (melo, 1993). Encontre a mediana:
X (mg/ml): 1,2 1,8 4,0 1,5 1,5 1,8 1,2

1º Passo: Ordenar os valores em ordem crescente


1,2 1,2 1,5 1,5 1,8 1,8 4,0
2º Passo: Encontrar a posição da mediana
n 1
Como n = 7 é ímpar, o valor central está na posição
2
n 1 7 1
Posição da Mediana =   4ª posição
2 2
3º Passo: Localizar a mediana
1,2 1,2 1,5 1,5 1,5 1,8 4,0

Mediana

Md = 1,5 mg/100ml

Interpretação: “Metade da quantidade de magnésio tem valor inferior a 1,5 mg/100ml e a


outra metade apresentou mais de 1,5 mg/100ml”.

85
Exemplo 24: Quando o tamanho da amostra “n” for par

Os dados abaixo representam coletas de amostra de solo em 8 cidades, foram


verificadas amostras poluídas com metais pesados:

62 48 52 95 46 42 54 48
1º Passo: Ordenar os dados em ordem crescente
42 46 48 48 52 54 62 95

2º Passo: Localizar a mediana: como ―n‖ é par, devemos localizar os dois valores centrais, ou
seja, para n = 8, a 4ª e a 5ª posição. Após localizar esses elementos, calcula-se a média entre
eles:

42 46 48 48 52 54 62 95

Mediana

48  52
Md =  50 amostras poluídas .
2

Interpretação: ―Metade dos municípios apresentaram amostras poluídas com metais pesados
até 50 e a outra metade dos municípios amostras poluídas superior a 50‖.

86
IMPORTANTE!!!

Prefere-se empregar a mediana quando:


a. Deseja-se obter o ponto que divide a distribuição dos valores em duas partes iguais;
b. Há valores extremos (muito destoantes do geral da amostra) que afetam de uma
maneira acentuada a média;

2ª Situação: Mediana para dados tabelados por ponto.

Exemplo 25: Considere a seguinte distribuição de frequência de uma amostra de polímero


contendo 20 valores granulométricos (grãos/grama).
(valores granulométricos) xi fi
36 5
38 3
39 3
40 4
44 3
47 2
Total 20

Encontre a mediana:

Passos:
1º) Calcular a posição da mediana.
Para verificar a posição da mediana na distribuição, calcule: Pmd =

2º) Localizar a classe mediana.

87
Procedimento: de posse do resultado do quociente , observe na coluna da frequência

acumulada em qual intervalo de valores acumulados esse valor se enquadra.


A classe mediana é estabelecida na coluna da frequência acumulada; sendo assim, convém
acrescentar uma coluna para os valores da frequência acumulada.
A classe mediana é a classe que contém a mediana.
3º) Verificar o valor da variável contido na classe da mediana.

3ª Situação: Procedimento no caso de distribuição por classe:


n
1. Calcula-se a posição da mediana: PMd = ;
2

2. Localizar a classe mediana.

Procedimento: de posse do quociente , observe na coluna da frequência acumulada

em qual intervalo de valores acumulados esse valor se enquadra.


3. Determinar a mediana:
Para encontrar o valor da mediana aplica-se a seguinte fórmula:


h PMd  Fac ant . 
 M d  Linf . 
f Md
onde:

Linf. = limite inferior da classe que contém a mediana;


Facant.= freqüência acumulada da classe anterior à classe que contém a mediana;
h= amplitude da classe que contém a mediana;
fMd= freqüência da classe que contém a mediana.

88
Exemplo 26: Uma vinícola registrou a seguinte distribuição de frequência para o número de
litros de suco vendidos por pessoa, durante uma semana de feira.

Suco (litros) Número de clientes


0 |- 5 74
5 |- 10 192
10 |- 15 280
15 |- 20 105
20 |- 25 23
25 |- 30 6
Total 680
Encontre e interprete a mediana:

Interpretação: 50% das pessoas compraram no máximo 11,32 litros de suco, ou então,
metade das pessoas adquiriram no mínimo 11,2 litros de suco.

Observações importantes:
Não há regra fixa para se escolher entre a média, a mediana e a moda. Entretanto
algumas observações podem ser feitas quanto à utilização das mesmas.

 A média aritmética é a medida de tendência central mais utilizada, principalmente quando


não há valores aberrantes (muito extremos) no conjunto de dados, sendo a medida mais
conveniente para cálculos posteriores;
 A mediana deve ser usada, sempre que possível, como medida representativa de
distribuições fortemente assimétricas, ou seja, quando os valores extremos do conjunto são
muito distantes dos outros, pois o seu valor não é afetado por estes valores;
 A moda é usada quando há interesse em saber o ponto de concentração do conjunto ou o
tipo de distribuição que se está analisando, sendo que o seu valor, em se tratando de dados
agrupados, é fortemente afetado pela maneira como as classes são constituídas.

89
Exercício 34: Considere os dados a seguir, referentes à quantidade de magnésio medido no rio
Mogi-Guaçu, SP, em 1988 (melo, 1993). Encontre e interprete a média, a moda e a mediana:
X (mg/ml): 1,2 1,8 4,0 1,5 1,5 1,8 1,2

Exercício 35: Os dados abaixo representam coletas de amostra de solo em 8 cidades, foram
verificadas amostras poluídas com metais pesados:

62 48 52 95 46 42 54 48
a) Encontre e interprete as medidas de tendência central;
b) Qual das medidas encontradas melhor representa a poluição de metais pesados na amostra?
Por quê?

Exercício 36: Os habitantes de Paraisópolis reclamaram do mau cheiro do ar na cidade,


proveniente do rio que corta a cidade. Observou-se que uma indústria sulcroalcooleira lançava
seus resíduos industriais neste rio, causando a morte de espécies aeróbicas da fauna por asfixia
( eutrofização). Para fins de monitoramento da qualidade da água do rio, o órgão ambiental
passou a colher amostras de água e a avaliar a qualidade da mesma diariamente. As amostras
em questão continham um litro de água e foram utilizadas para determinação do percentual de
ácido sulfúrico (H2S) por litro.

Tabela: Distribuição do teor de H2S %.


Teor de H2S (%)
Nº de amostras Fac
2 8 8
5 19 27
7 15 42
9 10 52
11 8 60
Total 60

Encontre a média, a moda e a mediana.

Exercício 37: Uma cidade serrana registrou a temperatura média diária durante duas semanas.
Os valores encontram-se discriminados a seguir.

23; 22; 24; 23; 21; 23; 22; 23; 24; 22; 21; 22; 23; 21.

Calcule a média aritmética, a moda e a mediana dessa distribuição.

90
LISTA DE EXERCÍCIOS:
MEDIDAS DE TENDÊNCIA CENTRAL

1. A Secretaria da Educação encomendou um estudo a uma agencia de pesquisa, sobre o


número de crianças em idade escolar de determinada região para verificar a necessidade de
construir uma escola naquele local ou não. Para isto, a agência entrevistou 100 famílias e
perguntou QUANTAS CRIANÇAS FAZIAM PARTE DAQUELA FAMÍLIA E QUE
ESTAVAM EM IDADE ESCOLAR, obtendo os seguintes resultados:

Tabela. NÚMERO DE CRIANÇAS EM IDADE ESCOLAR


No de Crianças No de Famílias %
0 17 17
1 28 28
2 20 20
3 19 19
4 7 7
5 4 4
6 5 5
Total 100 100
Fonte: Sec. Educação

Com base nos dados da tabela acima, responda:

a) Quem é a variável de estudo?


b) Quem é a amostra estudada?
c) Quantas famílias possuem no máximo 3 crianças em idade escolar?
d) Quantas famílias possuem menos de 2 crianças idade escolar?
e) Calcule e interprete a média para estes dados.

2. Verastro e Krause ( 1994) estudaram espécimens de Liolaemus occipitallis, pequeno


lagarto da região costeira do Rio Grande do Sul. Suponha que tenham sido encontrados os
valores a seguir, relativos ao comprimento rostroanal (CRA, em mm) e ao peso (em g).

Indivíduo 1 2 3 4 5
CRA (mm) 47 51 54 59 62
Peso (g) 5,0 3,9 6,7 6,0 9,5

Encontre a média, a mediana e a moda para cada variável.

91
3. A produção de solvente numa fábrica, durante uma semana, foi de 17, 22, 10, 14, 13, 15, 16,
18 e 12 litros. Qual a produção média, modal e mediana?

4. Os dados abaixo representam o número de crianças nascidas vivas, no 1º semestre do ano de


1994, segundo os dados colhidos pelo IBGE:

Mês/1994 Jan Fev Mar Abr Mai Jun


Nº de Nascidos Vivos 222779 210667 249204 234322 242449 224171
Fonte: IBGE

a) Calcule o valor da média e interprete.


b) Calcule o valor da mediana e da moda e interprete.

5. Uma pesquisa foi realizada com 12 empresas do ramo alimentício, com o objetivo de
verificar o número de funcionários que estas possuem, os dados obtidos estão abaixo:

32 35 45 50 30 22 15 25 10 15 30 21

Calcule e interprete a média, mediana e moda.

6. A tabela abaixo representa os salários pagos a 100 operários da empresa GLT & Cia:

Tabela. Salários GLT & Cia


Nº de salários Nº de
mínimos operários %
0 40 40,0
2 30 30,0
4 10 10,0
6 15 15,0
8 5 5,0
Total 100 100,0
Fonte: Pesquisa

a) Quem é a variável de estudo? E qual foi a amostra pesquisada?


b) Qual a porcentagem de operários que ganha menos de 6 salários mínimos?
c) Qual a média de salário dos operários da empresa GLT & Cia?
d) Qual a mediana de salário pago aos operários da empresa GLT & Cia?

7. Dados dois conjuntos de dados A = {100; 101; 102; 103; 104; 105} e B = {0; 1; 2; 3; 4; 5},
podemos afirmar que:

a) a média de A é igual à média de B multiplicada por 100


b) a média de A é igual à média de B
c) a média de A é igual à média de B dividida por 100
d) a média de A é igual à média de B, mais a constante 100
e) nenhuma das anteriores
92
8. Um comerciante atacadista vende determinado produto em sacas que deveriam conter 16,5
Kg. A pesagem de 120 sacas revelou os resultados representados na tabela abaixo:

Tabela. Pesos das sacas


Calcule:
Pesos (Kg) Nº de sacas %
14,5 2 1,7 a) a média de peso das sacas vendidas pelo
15,0 1 0,8 comerciante
15,5 22 18,3 b) a mediana de peso das sacas vendidas
16,0 25 20,8 pelo comerciante
16,5 55 45,8 c) a moda do peso das sacas vendidas pelo
17,0 10 8,3 comerciante
17,5 5 4,2 d) A porcentagem de sacas com peso de 16
Kg a 17 Kg.
Total 120 100,0
e) O número de sacas com peso de no
mínimo, 15 Kg.

9. Uma coleta de dados realizada com 15 empresas do setor têxtil foi realizada com o objetivo
de verificar o número de funcionários existentes em cada uma delas, resultando nos seguintes
dados:

1000 3600 110 820 232 850 320 200 120 2500 130 156 210 1500 112
a) Calcule e interprete a média, mediana e moda para estes dados.
Neste caso o valor da média é uma boa medida para representar este conjunto de informações?
Por quê?

10. Um concurso realizado simultaneamente nos locais A,B e C apresentou as médias: 70, 65 e
45 pontos, obtidas por 30, 40 e 30 candidatos, nessa ordem. Qual é a média geral do concurso?

11. Dados dois grupos de pessoas, o grupo 1 com 10 pessoas e o grupo 2 com 40 pessoas. Se o
peso médio do grupo 1 for de 80 kg e o do grupo 2 for 70 kg pode-se dizer que o peso médio
dos dois grupos considerados em conjunto é 75kg? Justifique.

12. Sejam os seguintes valores referentes ao número de faltas de operários de uma vinícola em
determinado mês do ano:

0 0 2 0 3
1 0 4 1 0
2 1 1 2 0
1 0 1 2 0
1 0 0 1 0
0 2 1 4 4

Com base nesses valores, pede-se:

a) Construa uma tabela de frequências adequada para representar os dados acima;


93
b) Calcule e interprete a média de faltas nessa empresa;
c) Calcule e interprete a mediana de faltas nessa empresa;
d) Calcule e interprete a moda de faltas nessa empresa.

13. A esperança de vida ao nascer, no Brasil, vem experimentando, ao longo dos anos,
incrementos paulatinos. Observou-se que os diferenciais entre os sexos também
experimentaram aumentos ao longo dos 21 anos de estudo. Em 1980, enquanto as mulheres
possuíam uma esperança de vida ao nascer de 66,0 anos, os homens detinham uma esperança
de vida de 60 anos, representando uma diferença de 6,0 anos. Vinte e um anos mais tarde, as
mulheres, no Brasil, já estariam vivendo 8 anos a mais que os homens (73 anos, para o sexo
feminino e 65 anos, para o sexo masculino). No contexto mundial, o Brasil ocupa, segundo a
Organização das Nações Unidas, através de sua Divisão de População, a 108a posição no
ranking dos 187 países para os quais foram estimadas as esperanças de vida ao nascer, para o
período 2000-2005. Apesar dos ganhos recentes, ainda há uma longa trajetória para o Brasil
alcançar patamares como o da França (79,0 anos) e o do Japão (81,5 anos). Fonte: IBGE, 2001

Considerando o gráfico apresentado marque V para verdadeiro e F para falso nas


seguintes afirmativas:

( ) Em relação à 1980, houve um acréscimo em 2001 na esperança de vida dos homens


superior ao crescimento na esperança de vida das mulheres.
( ) A variável apresentada neste gráfico é Esperanças de vida ao Nascer por sexo no Brasil –
1980 a 2001, ela é uma variável quantitativa.
( ) A esperança de vida média, neste período, para as mulheres é de 63,7 anos.
( ) A mediana para a esperança de vida das mulheres é de 71,5 anos
( ) A moda para a esperança de vida dos homens é de 65 anos

Esperanças de Vida ao Nascer (anos) por Sexo Brasil - 1980-2001


100

90

80
72 72 73 73
Idade (anos)

70
70 66 65 65
64 65
63
60
60

50

40

30

20
1980 1991 1998 1999 2000 2001
Ano
Homens Mulheres

94
14. Segundo dados divulgados pelo DIEESE (Departamento Intersindical de Estatísticas e
Estudos Socioeconômicos), os valores da cesta básica em Dezembro de 2009, em 10 capitais
brasileiras pesquisadas, estão na tabela abaixo:

Tabela. Valor da Cesta Básica em 10 capitais brasileiras em Dezembro de 2009


Valor da cesta básica
Capital (R$)
Brasília 222,22
RJ 213,36
SP 228,19
Curitiba 211,85
Porto Alegre 237,58
Belém 204,32
Fortaleza 176,96
Manaus 215,94
Recife 171,31
Salvador 183,15
Fonte: DIEESE

Através dos dados apresentados na tabela acima:


a) Calcule e interprete o preço médio da Cesta Básica para as capitais pesquisadas
b) Calcule e interprete o preço mediano da Cesta Básica para as capitais pesquisadas

15. O preço da carne bovina (Kg) em Reais em algumas capitais brasileiras, no mês de
Dezembro de 2009, estão dispostos no gráfico abaixo:

Preço da Carne (Kg) em Reais - Dez 2009

16,00

14,00 13,57
12,6 12,37
12,33 12,18
11,99
12,00 11,54 11,34
11,23
10,69
10,41
10,00
R$

8,00

6,00

4,00

2,00

0,00
Brasília BH RJ SP Curitiba POA Aracajú Belém Manaus Recife Salvador

Capital

Fonte: DIEESE
95
a) Qual a média de preço da carne bovina em Dezembro de 2009, nessas cidades, com base
nos dados acima?
b) Qual a porcentagem de capitais que possui um preço abaixo de R$ 12,00 para o Kilo de
carne bovina em Dezembro de 2009?
c) Qual a mediana para o preço da carne bovina, em Dezembro de 2009 nas capitais
analisadas?

16. A tabela abaixo apresenta os valores das diárias pagas por 40 turistas nos hotéis do
balneário Beach Star:

Tabela. Diárias pagas em Beach Star


Diária (em Nº de Calcule:
R$) turistas a) a média de diária paga pelos turistas no balneário
80 18
b) a mediana das diárias pagas pelos turistas
96 10
145 5 c) a moda para as diárias pagas pelos turistas
210 7
Total 40
Fonte: Rede hoteleira

17. Uma fábrica organizou um churrasco para uma confraternização de final de ano. Foram
compradas as seguintes carnes aos respectivos preços:
10 kg de filé mignon R$ 19,00 o Kg
20 Kg de linguiça R$ 9,00 o Kg
10 Kg de picanha R$ 22,00 o Kg
12 Kg de costela R$ 11,00 o Kg
Qual o valor médio do Kg de carne adquirida?

18. Na festa de confraternização dos funcionários de uma empresa, os filhos de alguns


funcionários foram inscritos para jogar futebol. A equipe reunia 5 atletas com 9 anos, 7 com
10 anos, 6 com 11 anos, 4 com 13 anos, 6 com 14 anos e 2 com 15 anos. Calcule a idade
média do time.

19. Na festa de confraternização dos funcionários de uma empresa, os filhos de alguns


funcionários foram inscritos para jogar futebol. A equipe reunia 5 atletas com 9 anos, 7 com

96
10 anos, 6 com 11 anos, 4 com 13 anos, 6 com 14 anos e 2 com 15 anos. Calcule a idade
média do time.

Na Figura apresentamos o histograma da variável rendimento de grãos, em kg/ha,


acompanhado dos quartis e mediana. Outra medida de mesma natureza são os percentis, que
permitem uma maior divisão dos dados.

3.2 Separatrizes

São valores de posição, que dividem o rol. As principais medidas separatrizes são:
mediana, quartis, decis e centis ou percentis.

Quartis [Simbologia: Qi]

Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:


0% 25% 50% 75% 100%
|--------------------|--------------------|--------------------|--------------------|
Q1 Q2 =Md Q3

onde: Q1 = primeiro quartil e separa os primeiros 25% dos 75% restantes;


Q2 = segundo quartil ou mediana e separa o conjunto de dados em 2 partes iguais;
Q3 = terceiro quartil e separa os primeiros 75% dos 25% restantes.

97
Quartis para dados não tabelados

Procedimento no caso de dados brutos:


1. Colocam-se os dados em ordem (rol);
n
2. Calcula-se a posição do quartil através da fórmula: PQi = i . ;
4
3. O quartil será o valor que ocupa, no rol, a posição calculada anteriormente.

ATIVIDADE PRÁTICA!

Banco de dados: Registro de uma amostra de bagas retiradas em


diversos pontos de uma determinada área.
Determinação dos Atributos Físicos e Químicos das Bagas
Ponto Altura Largura M Sementes M Bagas pH º Brix
......mm....... g g
1 12,56 11,69 3,4 51,84 3,12 18,5
2 13,10 12,42 3,64 50,18 3,11 18,2
3 12,05 11,49 3,44 43,42 2,9 15,9
4 12,29 11,59 6,04 42,84 2,82 16,5
5 12,85 11,80 5,4 54,46 3,32 18,5
6 12,56 11,80 4,96 52,96 3,71 17,8
7 12,67 12,02 3,54 49,32 3,05 17,6
8 12,54 11,97 4,58 48,42 3,07 19
9 12,60 11,70 5,38 52,88 3,14 19,6
10 13,45 12,91 4,94 59,34 3,05 18,6

Quartis para dados tabelados


Procedimento no caso de distribuição por ponto:

1. Calcula-se a posição do quartil PQi = i .


f i
=i.
n
;
4 4
2. O quartil será o valor de Xi correspondente à primeira Faci  PQi.

98
Exemplo 27: Considere a seguinte distribuição de frequência de uma amostra de polímero
contendo 20 valores granulométricos (grãos/grama).
(valores granulométricos) xi fi
36 5
38 3
39 3
40 4
44 3
47 2
Total 20

Procedimento no caso de distribuição por classe:


1. Calcula-se a posição do quartil PQi = i .
f i
=i.
n
;
4 4
2. O quartil estará localizado na classe onde, pela primeira vez, Faci  PQi;
3. Para encontrar o valor do quartil aplica-se a seguinte fórmula:

h PQi  Facant . 
Q i  L inf . 
f Qi

onde: Linf. = limite inferior da classe que contém o respectivo quartil;


Facant. = frequência acumulada da classe anterior à classe que contém o quartil;
h = amplitude da classe que contém o quartil;
fQi = frequência da classe que contém o quartil.

Exemplo 28: Determinar o terceiro quartil da seguinte distribuição:

Salário Mensal Nº de funcionários


2 |- 4 5
4 |- 6 10
6 |- 8 14
8 |- 10 8
10 |- 12 3
Total 40

Determine o 1º e o 3º Quartil

99
Exercício 38: (Andrade DF e Ogliari PJ, 2007)
Tabela 1: Valores de pesos ao nascer de bezerros das raças Crioula e Nelore
Raça Pesos ao nascer em kg
Crioula 47 51 45 50 50 52 46 49 53 51
Nelore 51 40 46 48 54 56 44 43 55 57

Determine a mediana, 1º e o 3º Quartil para cada raça:

Exercício 39: (Andrade DF e Ogliari PJ, 2007) Considere a distribuição de frequências do


número de plantas sadias de mandioca, Chapecó, SC, 1984.

Número de plantas frequências


23 1
24 3
25 4
26 8
27 14
Total 30
Encontre a mediana, o 1º e 3º quartis:

Exercício 40: (Andrade DF e Ogliari PJ, 2007) Distribuição de frequências da variável


altura de brotos de explantes de abacaxi.
Altura Frequência absoluta
1,00 |- 1,13 4
1,13 |- 1,26 6
1,26 |- 1,39 12
1,39 |- 1,52 10
1,52 |- 1,65 4
1,65 |- 1,78 3
Total 39

Encontre a mediana, o 1º e 3º quartis:

3.3 Assimetria e Curtose

Medidas de Assimetria
As medidas de assimetria indicam o grau de assimetria de uma distribuição de
frequências unimodal em relação a uma linha vertical que passa por seu ponto mais elevado.
De acordo com Fonseca (2011) dá-se a nomenclatura de assimetria ao grau de
afastamento de uma distribuição da unidade de assimetria.

100
Uma Distribuição é Simétrica quando seus valores de Média, Mediana e Moda
coincidem. A comparação entre o valor da Média e o valor da Moda, dá, portanto, uma
indicação da inclinação da distribuição.

Distribuição Simétrica
Graficamente, uma distribuição simétrica tem associada a si uma curva de frequências
unimodal apresentando duas "caudas" simétricas em relação a uma linha vertical que passa por
seu ponto mais alto (eixo de simetria).

Simétrica:

101
A Média “puxa” a cauda da Distribuição para seu lado, em função de ser altamente sensível aos
valores extremos da série de dados.

Um coeficiente de assimetria quantifica o desvio de uma distribuição em relação a uma


distribuição simétrica e o sinal resultante do seu cálculo nos dá o tipo de assimetria da
distribuição.

Existem várias fórmulas para o cálculo do coeficiente de assimetria, dentre elas, destacam-se:

102
Medidas de Curtose

Dá-se o nome de curtose ao grau de achatamento da distribuição:


(a) Quando a distribuição apresenta uma curva de frequência mais fechada (mais aguda
em sua parte superior), ela é denominada Leptocúrtica (Lepto = Delgado, Alongado, Magro,
etc.
(b) A distribuição de referência (Distribuição Normal) é denominada Mesocúrtica (Meso
= Meio, Central, etc.).
(c) Quando a distribuição apresenta uma curva de frequência mais aberta (mais achatada
em sua parte superior), ela é denominada Platicúrtica (Plato = Chato, Plano, Largo, etc.).

Para medir o grau de curtose pode-se utilizar o seguinte coeficiente:

Exemplo 29: Considere os seguintes resultados relativos a três distribuições de frequência:

Tabela 5.1
Distribuições média moda mediana
A 30 40 32
B 38 26 34
C 43 43 43

Determine o tipo de assimetria de cada uma delas.


103
Exemplo 30: (Tabela sem intervalo de classe) Considere a tabela que apresenta o número de
faltas no mês dos acadêmicos de uma classe de Viticultura e Enologia e Calcule o coeficiente
de assimetria e classifique a distribuição.

Tabela 5.4 Faltas dos acadêmicos


Faltas Acadêmicos
2 2
4 4
6 5
8 6
10 7
12 4
14 2
30

3.4 BoxPlot
O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica
do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes
inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não
inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite
superior. Os limites são calculados da forma abaixo

Limite inferior: .

Limite superior: .

Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers) e
são denotados por asterisco (*). A Figura a seguir apresenta um exemplo do formato de um
boxplot.

104
O boxplot pode ainda ser utilizado para uma comparação visual entre dois ou mais grupos. Por
exemplo, duas ou mais caixas são colocadas lado a lado e se compara a variabilidade entre
elas, a mediana e assim por diante. Outro ponto importante é a diferença entre os
quartis que é uma medida da variabilidade dos dados.

105
Exemplo 31: Na Tabela a seguir temos as medidas da altura de 20 hastes. Faça o box plot
correspondente.

Dados da usinagem

903,88 1036,92 1098,04 1011,26

1020,70 915,38 1014,53 1097,79

934,52 1214,08 993,45 1120,19

860,41 1039,19 950,38 941,83

936,78 1086,98 1144,94 1066,12

Mínimo 1,58

1° Quartil 1,6

Tri-Média 1,714545

3° Quartil 1,8

Máximo 1,87

Assimetria 0,111765

Curtose -1,569809

Amplitude 0,29

Assim, obtemos o seguinte boxplot

106
107
Exemplo 32: A construção do gráfico Box Plot pode ser exemplificada tomando-se a variável
idade da Tabela 01. Sua elaboração segue os seguintes passos:
Ordenar os dados em sequência crescente.
18 18 19 20 20 20 20 20 20 21 21
22 23 24 25 25 25 26 29 30 35 37
Determinar as cinco medidas.
Mediana:
1 quartil:
Terceiro quartil:
Desvio interquartílico:
dq= Q3 – Q1 = 25,75 – 20,00 = 5,75
Limite inferior:
Li= Q1-1,5dq
Li = 20 – 1,5. 5,75 = 11,375
Limite superior:
Ls= Q3+1,5dq
Ls= 25,75 + 1,5. 5,75 = 34,375
Construir uma escala com valores que incluam os valores máximo e mínimo dos dados.

Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no
valor da mediana.
Traçar

Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior
Li e a outra no centro do lado do retângulo correspondente ao primeiro quartil. Trace uma
outra linha paralela à reta, com uma extremidade no centro do lado do retângulo
correspondente ao terceiro quartil e a outra alinhada com o limite máximo Ls .

108
Identificar os pontos discrepantes

Figura 17: Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual
de Maringá.

No conjunto de dados não existe aluno com idade inferior a 11,375, ou seja, não há
aluno com idade considerada discrepante inferiormente. Entretanto, existem dois indivíduos
cujas idades são superiores a 34,375, pontos estes considerados discrepantes neste conjunto de
dados: as idades 35 e 37. Estes pontos são identificados no diagrama de caixas por meio de um
asterisco na direção das linhas traçadas nos item v.
Note-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos
quais, 25% estão entre a linha da mediana e a linha do primeiro quartil e os outros 25% estão
entre a linha da mediana e a linha do terceiro quartil. Cada linha da cauda mais os valores
discrepantes contêm os 25% restantes da distribuição. A Figura 17 mostra que a distribuição
das idades dos alunos apresenta assimetria positiva, ou seja, dispersam-se para os valores
maiores.
O gráfico Box Plot pode ser utilizado para fazer comparações entre várias distribuições.
Essa comparação é feita através de vários desenhos esquemáticos numa mesma figura. Na
Figura 18 é apresentado o gráfico para a variável idade classificada segundo o sexo do aluno.

109
Nota-se que para o sexo feminino, não valores discrepantes e a distribuição apresenta
assimetria positiva, com idade mediana inferior ao do sexo masculino.

Exercício 41: Considere as variáveis peso, nº de reprovas na disciplina Inferência Estatística e


nº de irmãos apresentados na Tabela 01. Determine e interprete os resultados, utilizando os
dados em rol e em distribuição de frequências:
a) Média, mediana e moda.
b) Quartil 1, quartil 3; decil 4 e percentil 95.
c) Desvio médio, variância, desvio padrão e coeficiente de variação.
d) Medidas de assimetria e curtose.
e) Construir o box plot para cada uma das variáveis.

Exercício 42: (Andrade DF e Ogliari PJ, 2007) Foram tomadas duas amostras de tamanhos
iguais a 25 observações, de crescimento de pseudobulbo, em cm, da espécie de orquídea
Laelia purpurata, sob duas condições de luminosidade (com Luz direta e com luz indireta). Os
dados estão apresentados na tabela abaixo:

110
Tabela: dados de crescimento do pseudobulbo de Laelia purpurata, Florianópolis, SC.
Luz 1,6 1,6 1,9 1,9 2,1 2,1 2,1 2,1 2,1
direta 2,4 2,5 2,5 2,7 3,4 3,4 3,7 3,9 4,2
4,8 6,3 6,5 7,2 8,8 9,4 9,5
Luz 1,4 1,9 2,8 3,1 3,5 3,5 3,6 3,9 4,3
indireta 4,5 4,6 4,8 6,3 6,5 6,7 6,7 6,8 6,9
8,1 8,6 10,4 12,7 16,3 16,8 16,9

Tabela: cálculo dos quartis e extremos para dados de crescimento do pseudobulbo de Laelia
purpurata.
Condições Md Q1 Q3 Min Máx Q1 – Q3
Luz direta
Luz
Indireta

Dados discrepantes valor menos que Q1- 1,5DI ou maior que Q3+1,5DI
Então esse valor é considerado valor discrepante (outlier).
DI = Q3-Q1 = Distância interquartílica

Construa box plot luz direta, luz indireta

Exercício 43: (Andrade DF e Ogliari PJ, 2007) Para se estudar o comportamento de duas
variedades de cana-de-açúcar, realizou-se um experimento do qual foram obtidos os resultados
indicados na tabela a seguir.
a) Calcule md, Q1, Q3, DI, Q1-1,5DI e Q3 + 1,5DI para cada uma das variedades.
b) Faça o desenho esquemático múltiplo para os dados das variedades 1 e 2.
c) Compare os dois conjuntos de dados através do desenho do item ―b‖.

Tabela: Produção de cana-de-açúcar em toneladas por hectare


Variedade 1 65 68 75 76 77
78 80 80 82 86
Variedade 2 88 89 90 91 92 93
95 96 97 97 99

Exercício 44: Os valores da precipitação (em mm) registada na Estação Meteorológica de


Lisboa, nos 31 dias do mês de Janeiro de um dado ano, foram os seguintes (dados do Instituto
de Meteorologia):

111
a) Construa o histograma para os dados da precipitação e comente-o.
b) Obtenha a caixa-de-bigodes dos dados e comente-a.
c) Calcule a precipitação média e mediana diária em Lisboa, naquele mês. Compare os valores
obtidos da média e da mediana e comente, tendo em atenção que ambos são indicadores de
localização.

Exercício 45: (Andrade DF e Ogliari PJ, 2007) Para se estudar o comportamento de uma
planta típica de dunas, a Hydrocotille sp, quanto ao seu desenvolvimento, mediu-se o tamanho
do pecíolo(cm), em duas áreas: seca e úmida. Selecionou-se de cada uma dessas áreas,
amostras aleatórias de plantas e mediu-se o tamanho dos pecíolos. Os dados são fornecidos na
tabela 1.
a) Calcular a md, Q1, Q3, DI, Q1-1,5DI e Q3 + 1,5DI para cada uma das variedades.
b) Faça o desenho esquemático múltiplo para os dados das áreas seca e úmida.
c) Compare os dois conjuntos dados, quanto às principais características, através do
desenho do item ―b‖.

Tabela: Tamanho de pecíolos de Hydrocotille sp


Área úmida Área seca
13,8 15,6 16,1 16,6 7,3 8,4 9,0 10,4
14,3 15,8 16,3 16,8 7,6 8,4 9,0 10,4
14,5 15,8 16,3 16,8 7,8 8,4 9,3 10,9
15,0 15,8 16,3 16,9 7,8 8,6 9,3 10,9
15,0 15,8 16,3 17,0 8,0 8,6 9,3 11,7
15,5 16,0 16,5 17,0 8,2 8,6 9,6 11,7
15,5 16,0 16,5 17,2 8,2 8,6 9,6 12,0
15,5 16,0 16,6 17,3 8,3 9,0 9,8
15,6 16,1 16,6 8,3 9,0 9,8

112
Exercício 46: Diga justificando se são verdadeiras ou falsas as afirmações que se seguem:
a) A amplitude interquartil é metade da amplitude total.
b) A media está sempre entre o primeiro e o terceiro quartil.
c) A mediana está sempre entre o primeiro e o terceiro quartil.
d) O desvio padrão é sempre igual a amplitude interquartil.
e) O desvio padrão é menor do que a media dos desvios relativos a média.

3.5 Medidas de dispersão ou de variabilidade

As medidas de dispersão visam descrever os dados no sentido de informar o grau de


dispersão ou afastamento dos valores observados em torno de um valor central. Elas indicam
se um conjunto é homogêneo (pouca ou nenhuma variabilidade) ou heterogêneo (muita
variabilidade).
A descrição do conjunto de dados é mais completa quando se considera além de uma
medida de tendência central, uma medida de dispersão ou variação, porque é comum
encontrar-se séries que, apesar de apresentarem a mesma média, são compostas de maneiras
diferentes, o que mostra que as medidas de tendência central são insuficientes para descrever
adequadamente uma série estatística.

Exemplo 33: considere os seguintes conjuntos de valores das variáveis, X, Y, Z.

X = { 40, 40, 40, 40, 40}


Y = {38, 39, 40, 41, 42}
Z = { 55, 30, 5, 15, 95}

Podemos observar que os três conjuntos apresentam a mesma média aritmética = 200/5 = 40.
No entanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que
todos os valores são iguais a média. O conjunto Y por sua vez, é o mais homogêneo que o
conjunto Z, pois há menor variação entre cada um de seus valores e a média representativa.

113
A média é extremamente útil como uma medida que objetiva representar/ resumir um
conjunto de dados, mas também é imprescindível ao pesquisador ter conhecimento da variação
que ocorre em torno desta média. Para isso o cálculo das medidas de variabilidade contribui
para uma melhor interpretação do comportamento de uma variável quantitativa (sua média e
sua variação).

Classificação das medidas de dispersão:


  Amplitude
 
 Absoluta  Desvio médio
 
Medidas de dispersão   Desvio padrão
  Variância


 Relativa  Coeficiente de variação

114
Exemplo 34: Dois analistas analisaram uma amostra, sob as mesmas condições que foram
enviadas ao laboratório para a determinação de um elemento. Os analistas realizaram seis
determinações cada e obtiveram os seguintes resultados em ppm:
Analistas Determinações (ppm)
Analista 1 6,1 6,2 6,2 6,3 6,2 6,2
Analista 2 6,3 6,1 6,2 6,1 6,0 6,5
Nota: dados fictícios

O que podemos observar?

3.5.1 Medidas de dispersão Absoluta

Amplitude de variação [Simbologia: H]

É a diferença entre o maior e o menor valor do conjunto, sendo a mais simples das
medidas de dispersão, porém de grande instabilidade, porque considera somente os valores
extremos do conjunto. Também é chamada de desvio extremo.
H = Xmáx. - Xmín.
Dados não-tabelados:
Exemplo 35:
H1 =
H2 =

 2  população
Variância [Simbologia  2 ]
 s  amostra

 Uma boa medida de dispersão deve basear-se em todos os dados, ser facilmente
calculável e compreensível, além de prestar-se bem ao tratamento algébrico.
 Uma medida com todas estas características é obtida considerando-se os desvios de
cada observação em relação a média, chamados erros (ei), para uma população, ele é
escrito como (xi-µ); para uma amostra, o desvio em torno da média é escrito como (
).
115
 Para obter um único número que represente a dispersão dos dados, pensou-se
inicialmente em obter-se a média destes desvios, mas deve-se lembrar que a soma dos
desvios de um conjunto de dados em relação a sua média é nula.
 Então, optou-se por utilizar a soma dos quadrados dos desvios, pois elevando-se cada
desvio ao quadrado elimina-se o sinal negativo, que estava trazendo complicações; e
dividindo-se a soma dos quadrados dos desvios pelo número de observações obtém-se
a variância populacional , denotada pelo símbolo grego σ2.

A variância é representada na população pelo símbolo  2 e na amostra pelo símbolo

s 2 . Quanto maior for a variação dos valores do conjunto de dados, maior será a variância.

A variância de uma amostra é a média dos quadrados dos desvios dos valores em relação à
média.

1ª situação: Variância para dados não-tabelados

População Amostra

 x  X 
k k

 x   
2 2
i i
2  i 1
s2  i 1

N n 1

 2  população
 2
 s  amostra

N = numero de elementos da população.


n = numero de elementos da amostra.

∑( ̅) ( ̅) ( ̅) ( ̅)

116
Exemplo 36: Considere o exemplo abaixo:
Analistas Determinações (ppm)
Analista 1 6,1 6,2 6,2 6,3 6,2 6,2
Analista 2 6,3 6,1 6,2 6,1 6,0 6,5

Como ̅ 1= 6,2 ppm

=
Interpretação: Encontramos uma variância para as determinações do analista 1 de 0,004
ppm2.

=
Interpretação: Encontramos uma variância para o tempo até o início do efeito do sonífero de
0,032 ppm2.

Para eliminarmos o quadrado da unidade de medida, extraímos a raiz quadrada do


resultado da variância, que chegamos a uma terceira medida de dispersão, chamada de desvio-
padrão.

  população
Desvio padrão [Simbologia  ]
 s  amostra

O desvio padrão é uma das medidas mais úteis da variação de um grupo de dados. A
vantagem do desvio padrão sobre a variância, é que este permite uma interpretação direta da
variação do grupo, pois o mesmo é expresso na mesma unidade em que estão expressas as
medidas observadas.

117
O desvio padrão é a raiz quadrada da variância, então, é calculado por:

s  s2

Para os dados de medição, especialmente em grandes amostras (n  30), verifica-se


que, cerca de 68% das observações estarão entre X  s ; 95% das observações estarão entre
X  2s e praticamente 100% entre X  3s

Então para o exemplo anterior:

√ 0,063 ppm

Interpretação: O desvio padrão foi de 0,063 ppm. Ou seja, se calcularmos um intervalo


utilizando um desvio-padrão em torno da média, encontraremos a concentração da maioria dos
dados.

√ 0,179 ppm

Lembrando que a média das determinações entre os analistas foram iguais. Agora
levando em consideração o desvio-padrão, e comparando-os, pode-se concluir que o analista 1
teve menor desvio-padrão, menor variabilidade.

Exemplo 37: Para avaliar um novo método para determinação de ferro, um químico preparou
uma solução de concentração conhecida, 30 mg/L de Fe, esta solução foi analisada 6 vezes, os
resultados obtidos foram: 28,2 – 31,0 – 26,6 – 31,5 – 25,8 – 32,9

Determinar a variância e o desvio padrão deste conjunto de dados.

118
2ª Situação: Variância para dados tabelados por ponto:

Quando os dados estiverem tabelados numa distribuição de frequência por ponto


usaremos a variância dos valores x1, x2, x3, ..., xn, ponderados pelas respectivas frequências
absolutas: f1, f2, f3, ..., fn.

Assim:
População Amostra

 x  X   fi
k k

  xi     f i
2 2
i
2  i 1
s2  i 1

N n 1

Variância amostral:

 X  x  . f
2

S 2 i i

n 1
Onde:

∑( ̅) ( ̅) ( ̅) ( ̅)

119
Exemplo 38: Um químico determinou 12 vezes, em uma amostra de água, o teor de ferro por
absorção atômica e obteve a seguinte distribuição de frequência:

Concentração em ppm (xi) (fi)


10 2
11 3
12 4
13 2
16 1
Total 12

Encontre a variância e o desvio padrão.

Interpretação: O desvio padrão foi de 1,62ppm. Ou seja, se calcularmos um intervalo


utilizando um desvio-padrão em torno da média, encontraremos a concentração da maioria dos
dados. Entre 11,92 ±1,62 ou seja, entre os valores 10,3 e 13,54.

120
Exercício 48: Vamos considerar agora um exemplo onde os dados estejam apresentados em
uma distribuição de frequências:
Tabela. Tempo (horas) semanais de atividade física
Tempo (x) Nº pessoas (f)
0 5
2 25
4 30
6 2
Total 62

1º) Calcular a média


2º) Calcular o desvio-padrão

Interpretação: ―Em média estas pessoas praticam atividades físicas 2,9 horas por semana,
com uma variação em torno desta média de 1,4 horas semanais”.

Exercício 49: Considere a seguinte distribuição de frequências:


Tabela. Nº de faltas em Estatística
Nº faltas Nº Alunos %
0 5 8,3
1 38 63,3
2 13 21,7
3 4 6,7
Total 60 100

Identifique:

Amostra
a) População
Calcule e interprete:
b) Média
c) Desvio-padrão

121
3ª Situação: Variância para dados tabelados por classe

Quando os dados estiverem tabelados numa distribuição de frequência por classe


usaremos a variância dos pontos médios x1, x2, x3, ..., xn de cada classe, ponderados pelas
respectivas frequências absolutas: f1, f2, f3, ..., fn. Desta forma, o cálculo da variância passa a
ser igual ao da 2ª situação. Assim:

Variância amostral:

 X  x  . f
2

S 
2 i i

n 1
Onde Xi = Ponto médio da classe i

Exemplo 39: Massa das sementes, em gramas, em uma amostra de 30 bagas em pontos de
uma determinada área. Encontre a variância e o desvio-padrão.

Idade fi
5,5 |- 6,5 1
6,5 |- 7,5 20
7,5 |- 8,5 7
8,5 |- 9,5 2
Total 30

Interpretação:

122
Propriedades da variância

 A variância de uma constante é zero;


s2(k) = 0
 A variância da soma ou diferença de uma constante k com uma variável é igual a variância
da variável;
s2(k + X) = s2(X)
 A variância da soma de variáveis independentes é igual a soma das variâncias das variáveis;
s2(X + Y) = s2(X) + s2(Y)
 A variância do produto de uma constante por uma variável é igual ao produto do quadrado
da constante pela variância da variável.
2
s2(k.X) = k2. s (X)

Medida de dispersão Relativa

3.5.2 Coeficiente de variação [Simbologia: CV ou CV%]

O coeficiente de variação é uma medida de dispersão relativa, utilizada quando se


deseja comparar a variação de conjuntos de dados que apresentem diferentes unidades de
medição e ou tamanhos diferentes, pois o coeficiente de variação independe da unidade de
medida dos dados.
Mesmo para uma única unidade, se os conjuntos possuem médias de diferentes
magnitudes, suas variabilidades não podem ser comparadas por essas medidas de dispersão
apresentadas anteriormente. Para esta situação utiliza-se o coeficiente de variação (CV), pois
ele não depende da grandeza, da escala ou unidade de medida empregada para mensurar os
dados, ou seja, não possui unidade de medida (medida adimensional). Portanto, fica evidente
que se deve usar o CV quando se tem diferentes unidades de medida e/ou média de diferentes
magnitudes.

123
O coeficiente de variação pode também ser expresso como percentagem da média.

População Amostra


CV   100% CV 
s
 100%
 X

Importante!
● Quanto maior o CV, mais heterogêneos serão os dados.

Exemplo 40: Em um laboratório, a concentração média de cálcio analisada seis vezes foi 48
mg/L com desvio padrão de 2,9mg/L. E uma análise do cobre médio, num mineral resultou
em 4,8%, com desvio padrão de 0,16 %.

Então: CV Ca:

CV Cobre:
Qual amostra apresentou maior variação?

Exemplo 41: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de
indivíduos:
Discriminação Média Desvio padrão
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg

Qual das medidas (estatura ou peso) possui maior homogeneidade?

124
O coeficiente de variação é bastante utilizado em estudos de dinâmica de
populações vegetais ou animais. Outra aplicação importante do coeficiente de variação ocorre
na estatística experimental, pois ele indica a precisão do experimento, ou seja, a capacidade de
o realizarmos novamente, sob as mesmas condições, e produzir resultados semelhantes. Quais
são os valores de CV aceitáveis na experimentação? Os valores dos coeficientes de variação
dependem do tipo de pesquisa e da variável em estudo; sendo assim, não existe uma
orientação geral, deve-se fazer uma busca bibliográfica em pesquisas similares. Numa situação
de ensaios agrícolas de campo, para culturas anuais como soja, milho e feijão e variável
rendimento de grãos, temos a seguinte orientação:

CV≤10% Baixo
10%≤CV≤20% Médio
20%≤CV≤30% Alto
CV≥30% Muito alto

Em experimentos onde os fatores podem ser controlados, por exemplo, experimentos


conduzidos em casas de vegetação, um valor de coeficiente de variação acima de 10%
indicaria problemas no controle

125
LISTA DE EXERCÍCIOS:
MEDIDAS DE VARIABILIDADE

1.
Área 1
Acidez: 2,7 – 3,1 – 3,5 – 3,5 – 2,7
Ph: 3,12 – 3,11 – 2,9 – 2,82 – 3,32
Altura(mm): 12,56 – 13,10 – 12,05 – 12,29 – 12,85
º Brix: 18,5 – 18,2 – 15,9 – 16,5 – 18,5 – 18,5
Antocianinas (mg g-1): 789,15 – 845,76 – 677,64 – 843,32 – 777,63

Área 2
Acidez : 2,8 – 2,8 – 3,3 – 2,2- 2,6 – 2,6 – 3,1 – 2,3 – 2,3 – 2,4
Ph: 3,30 – 3,47 – 3,22 – 3,60 – 3,07 – 3,43 – 3,54 – 3,57 – 3,39- 3,30
Altura (mm): 13,11 – 13,65 – 13,20 – 12,36 – 11,93 – 13,27 – 12,96 – 13,00 – 11,72 – 12,34
ºBrix: 19,80 – 17,70 – 19,80 –19,80 - 19,00 – 20,30 – 19,50 – 18,10 – 18,50 – 21,00
Antocianinas (mg g-1): 750,86 – 688,97 – 647,15 – 673,57 – 663,87 – 710,39 – 668,95 –
684,08 – 733,44 – 662,94

2. Os dados abaixo se referem à quantidade de erros de ortografia de 5 redações escritas por

vestibulandos:

8 10 5 8 8
Amostra:
Variável:
Média:
Encontre a variância e o desvio-padrão:

3. Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos:


Discriminação Média Desvio padrão
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg
Qual das medidas (estatura ou peso) possui maior homogeneidade?

126
4. Num experimento com tomates de uma mesma variedade foi testado 3 tipos de adubos, com
4 vasos de cada.
Considere a produção de frutos por planta:
Adubo 1 22 24 23 22
Adubo 2 24 25 26 22
Adubo 3 28 18 21 25

O que podemos observar?

5. Uma empresa de espumantes, após uma grande fusão, estuda a possibilidade de alterar o
rótulo de uma de suas marcas, usando formas e cores mais vivas. Para avaliar se existe
vantagem em alterar o rótulo, a empresa levou a cabo uma pesquisa de marketing. Enlatou o
espumante com rótulo tradicional e com rótulo novo. A pesquisa foi feita em 8
estabelecimentos comerciais. Em 4 deles, extraídos por sorteio, colocou-se o produto com o
rótulo novo e, nos outros 4, manteve-se o produto com rótulo tradicional. Após um mês,
avaliou-se a quantidade vendida em cada estabelecimento. Os estabelecimentos que usaram o
rótulo tradicional tiveram os seguintes resultados nas vendas (em milhares de unidades): 6, 5,
2, 2. Os estabelecimentos que usaram o rótulo novo tiveram os seguintes resultados nas vendas
(em milhares de unidades): 4, 9, 5, 6. Compare as medidas descritivas das vendas de acordo
com o tipo de rótulo.

6. Classifique as variáveis apresentadas na tabela abaixo:


Idade Sexo Hemoglobina Tipo de Urticária Duração
34 M 14,2 Física Curta
58 M 14,4 Física Longa
31 F 15,1 Idiopática Média
49 M 10,9 Idiopática Média
39 F 14,4 Física Longa
33 M 14,1 Física Curta
35 F 14,0 Idiopática Longa

a) Calcule: a média, mediana e moda paras variáveis Quantitativas.


b) Qual a média e o desvio padrão da idade e da hemoglobina nos homens?
c) Qual o percentual de urticária física na amostra?
d) Qual o percentual de longa duração?
127
7. Os dados a seguir referem-se ao grau de conforto (valores mais altos, mais conforto) no uso
de dois tipos de pipetas de laboratório. O primeiro tipo foi experimentado por 5 pessoas e o
segundo por outras 5, totalizando 10 usuários.
Tipo A: 4 2 3 3 4
Tipo B: 1 8 2 4 1
Em termos relativos qual das pipetas (A ou B) apresenta maior variabilidade?

8. Considere a seguinte distribuição de frequência de uma amostra de polímero contendo 20


valores granulométricos (grãos/grama).

(valores granulométricos) xi fi
36 5
38 3
39 3
40 4
44 3
47 2
Total 20
Calcule e interprete:
a) a média, mediana e a moda para os valores granulométricos; R: média = 39,85; md =
39; mo = 36
b) variância, desvio-padrão e o coeficiente de variação.R: S2 = 12,66, s = 3,56, cv =
8,93%
9. Foram registrados os tempos de internação, apresentados a seguir, em 11 pacientes
admitidos na unidade de tratamento intensivo do Hospital H. Calcule as durações de
internação média e mediana desses pacientes e o desvio padrão. Interprete o valor da mediana.
Paciente nº: 1 2 3 4 5 6 7 8 9 10 11
Tempo (dias): 7 6 11 24 14 8 12 10 18 9 14

10. Calcule média, mediana e desvio padrão para os dados a seguir, referentes à quantidade de
magnésio medido no rio Mogi-Guaçu, SP, em 1988 (melo, 1993). Qual a melhor medida de
tendência central neste caso? Explique.
X (MG/ml): 1,2 1,5 4,0 1,5 1,5 1,8

11. Calcule média, mediana, moda, amplitude, variância e desvio padrão para os seguintes
dados, referentes à glicemia de 10 pessoas:
X (MG/100ml): 65 62 68 65 72 70 65 63 65 56

128
12. Certa bióloga mensurou a quantidade de potássio em 12 amostras de água de um rio e
obteve os dados a seguir (melo, 1993). Encontre a média e o desvio padrão. Interprete-os.
X (mg/L): 1,0 0,7 0,9 1,1 0,8 0,9 0,8 1,0 0,8 0,8 0,9 0,9

13. Gestantes de dois hospitais de Porto Alegre, que fizeram acompanhamento pré-natal,
relataram o número de consultas realizadas neste período (Pinheiro, 1989). Foram estudadas
687 gestantes da Santa Casa de Misericórdia e 570 do Hospital de Clínicas. Calcule uma
medida de tendência Central para estes dados e compare os dois hospitais, sem realizar teste
estatístico.
Nº de 1 2 3 4 5 6 7 8 Total
consultas
Santa 34 66 109 106 98 92 69 113 687
Casa
Hosp. 2 8 13 31 67 125 103 221 570
Clínicas

14. Os dados abaixo se referem o número de compras realizadas via Internet de uma amostra
de 7 indivíduos do sexo feminino:

10 15 22 10 16 10 25

Calcule e interprete:

a) Média b) Desvio-padrão c) Coeficiente de Variação

15. Abaixo, estão as rendas mensais (em Reais) de 10 empresários do setor calçadista do RS:
7500,00 3600,00 3300,00 5000,00 4100,00 5500,00 4000,00 3500,00 5600,00 10400,00

Calcule e interprete a renda média mensal e o desvio-padrão da renda mensal desses


empresários.

16. Duas turmas de Estatística apresentam as seguintes estatísticas para as notas na prova G1:
Turma A: média = 7,8 pontos e desvio-padrão = 1,4 pontos
Turma B: média = 8,2 pontos e desvio-padrão = 2,5 pontos.
Qual das duas turmas teve um desempenho mais homogêneo na prova G1? Justifique.

129
17. Considere o seguinte Banco de Dados sobre alunos de um curso pré-vestibular:

Aluno Há quanto tempo você parou Idade Trabalha Qual matéria você acha
de estudar? (anos) (anos) mais difícil?
1 2 20 Sim Matemática
2 3 19 Não Física
3 1 20 Sim Física
4 4 20 Sim Química
5 2 20 Não Matemática
6 2 24 Sim Química
7 3 20 Sim Português
8 3 19 Não Matemática
9 4 19 Sim Matemática
10 1 20 Não Português
Através dos resultados apresentados no Banco de Dados acima calcule:

a) O tempo médio em que os alunos pararam de estudar e seu respectivo desvio-padrão


(interprete estes resultados).
b) A idade média dos alunos que não trabalham e seu respectivo desvio-padrão (interprete
estes resultados).
c) O tempo médio que parou de estudar e o desvio-padrão apenas dos alunos que
trabalham.
d) O tempo médio que parou de estudar e o desvio-padrão apenas dos alunos que não
trabalham.
e) A idade média e o desvio-padrão apenas dos alunos que acham a Matemática a matéria
mais difícil.

18. Um grupo de 100 estudantes tem uma estatura média de 163,8 cm e um coeficiente de
variação de 3,3%. Qual o desvio – padrão para as estaturas desse grupo?

19. Um Departamento de Produção usa um procedimento de amostragem para testar a


qualidade de itens recém produzidos. O departamento emprega a seguinte regra de decisão em
uma estação de inspeção. Se uma amostra de 14 itens tem uma variância de mais de 0,005 a
linha de produção precisa ser paralisada para reparos, suponha que os seguintes dados tenham
sido coletados:
3,43 – 3,45 – 3,43 – 3,48 – 3,52 – 3,50 – 3,39 – 3,48 – 3,41 – 3,38 – 3,49 – 3,45 – 3,51 – 3,50
A linha de produção deveria ser paralisada? Por quê? R: média = 3,46; s2 = 0,0021

20. Uma solução padrão de amida (230 ppm) está sendo usada como referência de um método
analítico no laboratório, o químico anotou as 10 últimas determinações para uma avaliação:
231 – 230 – 230 – 232 – 226 – 227 – 230 – 228 – 229 – 227
130
Encontre: a média, mediana, moda, desvio padrão e o coeficiente de variação.
R: média = 229; md = 229,5 mo = 230; s = 1,94 cv = 0,84%
21. Para preparar um padrão secundário, para as análises de índice de fluidez em polímeros,
um técnico de laboratório analisou 10 vezes sob as mesmas condições, no mesmo laboratório e
em três equipamentos diferentes uma mesma amostra de polímero, encontrando os seguintes
valores de fluidez (g/10’):
Equipamento A: 3,1 – 3,0 – 3,0 – 3,2 – 2,8 – 2,9 – 3,0 – 2,8 – 2,9 – 3,1
Equipamento B: 2,9 – 3,0 – 3,1 – 3,2 – 2,8 – 2,9 – 3,0 – 2,9 – 2,9 – 3,1
Equipamento C: 3,1 – 3,0 – 3,1 – 3,2 – 2,9 – 2,8 – 3,1 – 2,9 – 2,9 – 3,1
Calcular a média, moda, mediana, amplitude, desvios das medidas, variância, desvio padrão e
coeficiente de variação dos resultados obtidos pelo químico em cada equipamento. Qual dos
equipamentos apresentou resultados mais homogêneos?
R: A (média = 2,98, mo = 3,0; md = 3,0; H = 0,4; s2 = 0,017; s = 0,13 cv= 4,4%)
B (média = 2,98, mo = 2,9; md = 2,95; H = 0,4; s2 = 0,015; s = 0,122 cv= 4,13%)
C (média = 3,01, mo = 3,1; md = 3,05; H = 0,4; s2 = 0,017; s = 0,13 cv= 4,32%)

22. A distribuição abaixo indica o número de acidentes ocorridos com 70 motoristas de uma
empresa de ônibus.
Número de acidentes 0 1 2 3 4 5 6 7
Número de Motoristas 20 10 16 9 6 5 3 1
Determine:
a) A média, a mediana e a moda. R: média = 2,04; md = 2 mo = 0
b) A amplitude total, a variância, o desvio-padrão e o coeficiente de variação.
R: H = 7, s2 = 3,49; s = 1,87 cv= 91,58%

23. O transporte público e o automóvel são dois meios que um empregado pode usar para ir ao
trabalho diariamente. Amostras de tempo para cada meio estão registradas a seguir.
Os tempos estão e minutos.
T. Público 28 29 32 37 33 25 29 32 41 34
Automóvel 29 31 33 32 34 30 31 32 35 33
a) Calcule o tempo médio da amostra de cada meio de transporte para ir ao trabalho. R:
TP (média = 32) A (média = 32)
b) Calcule o desvio-padrão da amostra de cada meio de transporte. Stp = 4,64; sA= 1,83
c) Com base nos resultados de a) e b) que meio de transporte deve ser preferido.
Explique.
131
24. Classifique as variáveis apresentadas na tabela abaixo:
Cultivar de tomates
pH solo T(ºC) solo germinação Adubação Básica (Kg/ha) Principais pragas
P2O5
5,5 15 450 Lagarta Rosca
5,8 20 465 Pulgão
6,1 28 520 Larva Minadora
5,8 22 450 Traça do Tomateiro
6,2 23 580 Pulgão
6,2 20 480 Lagarta Rosca
5,6 22 599 Pulgão

a) Calcule: a média, mediana e moda paras variáveis Quantitativas. R:(ph solo:


média=5,9,md=5,8 e mo=6,2; T(ºC) : média=21,4, md=22 e mo=20 e 22;
adubação: média=506,3, md=480 e mo=450)
b) Calcule o desvio padrão para cada variável quantitativa; R: sph=0,29, sT=3,9 e
sadubação=61,8
c) Qual o percentual da amostra com pulgão? R:42,9%

25. O rendimento de um processo químico é influenciado pelo tempo e pela temperatura de


reação. Um experimento é realizado para diferentes níveis do tempo de reação (20, 25 e 30
minutos) e da temperatura de reação (60,70 e 80 ºC). Como os ensaios são também afetados
por fatores não controláveis, as observações agregam um erro experimental. Devido à
presença do erro experimental, foram realizados seis ensaios em cada combinação de níveis do
tempo e da temperatura. Os resultados do experimento (rendimentos em %) são apresentados a
seguir.

Temperatura (ºC) Tempo (minutos)


20 25 30
60 29,7 28,7 30,2 31,0 30,6 32,8 32,9 32,7 34,8
31,3 31,2 31,7 31,9 31,2 31,2 34,9 33,8 34,9
70 36,6 35,7 35,3 35,7 40,4 41,7 34,8 36,8 37,4
35,1 30,2 37,2 36,9 34,5 40,0 38,9 38,7 42,5
80 40,2 33,6 33,4 37,0 34,4 29,8 36,0 31,3 36,6
35,2 38,1 33,0 33,9 43,2 35,5 32,5 39,2 35,9

Observando os dados brutos é difícil avaliar qual é a influência do tempo e da temperatura de


reação sobre o rendimento.
132
26. Os dados abaixo se referem o número de compras realizadas via Internet de uma amostra
de 7 indivíduos do sexo feminino:

10 15 22 10 16 10 25

Calcule e interprete:

a) Média b) Desvio-padrão c) Coeficiente de Variação

R: a) 15,43; b) 6,11; c) 39,57%

27. A tabela abaixo representa a Idade (em anos) do início do tabagismo (ato de fumar) de
uma amostra de 340 homens:

Tabela. Idade de início do Tabagismo


Idade (anos) Nº de homens % a) Complete a coluna do percentual da tabela.
12 23 b) Calcule e interprete a média. R: 15,5
13 42
c) Calcule e interprete o desvio-padrão. R: s =
14 54
15 126 10,09
18 45 d) Qual o percentual de homens que começaram a
20 50
Total 340 fumar com no mínimo 18 anos? R: 27,94%
Fonte: Instituto de Pesquisas do Câncer

28. Considere a seguinte tabela:

Tabela. Número de faltas no mês na empresa WK


Nº de faltas Nº funcionários %
0 85 55,5
1 20 13,1
2 40 26,1
3 8 5,3
Total 153 100,0

Calcule e interprete:
a) Média de faltas; R: 0,81
b) Desvio-padrão das faltas; R:
1
c) Coeficiente de Variação. R:
123%

133
29. Uma amostra com o peso de 46 peças já embaladas de um processo de produção está na
tabela abaixo:

Tabela. Peso das peças embaladas


Calcule:
Peso (Kg) Nº de peças
45,0 2 a) Peso médio das peças; R: 49,89
47,0 3
b) Peso mediano das peças; R: 50
48,0 8
50,0 15 c) Desvio-padrão e o Coeficiente de
51,0 6 Variação dos pesos das peças; R: 1,9 e
52,0 12
3,8%
Total 46

30. Falhas de energia. A duração ( em minutos) das falhas de energia em uma residência nos
últimos 10 anos. Encontre e interprete: a média, a moda e a mediana.
18 26 45 75 125 80 33 40 44 49
89 80 96 125 12 61 31 63 103 28

31. Aeronaves. O número de aeronaves que as linhas aéreas têm em suas frotas. (Fonte:
Airline Transport Association)

699 – 480 – 25 – 35 – 110 – 445


458 – 374 – 93 – 356 – 380
Encontre e interprete: a média, a moda e a mediana.

32. Os níveis de colesterol para uma amostra de 10 funcionários.


154 – 240 – 171 – 188 – 235 – 203 – 184 – 173 – 181 – 275
Encontre e interprete:
a) A média, a moda e a mediana;
b) o desvio padrão e o coeficiente de variação.

33. Em uma amostra aleatória de residências, o número de aparelhos de televisão é listado.


Encontre a média amostral e o desvio padrão dos dados
Número de televisores 0 1 2 3 4 5
Número de residências 1 8 13 10 5 3

34. Em uma amostra aleatória de aviões, listamos o número de defeitos encontrados em suas
fuselagens. Encontre a média amostral e o desvio padrão dos dados.
Número de defeitos 0 1 2 3 4 5 6
Número de aviões 4 5 2 9 1 3 1

134
35. (Andrade DF e Ogliari PJ, 2007) Os dados da tabela 1 correspondem à variável número
de brotos por explante de abacaxi avaliada em dois meios de cultura (Meio 1 e Meio 2).
Comparar os dois meios de cultura quanto aos seguintes aspectos:
a) Valores representativos;
b) Dispersão

Meio1 47 35 23 21 23 26 18
30 22 36 22 21 19
Meio2 13 11 15 24 20 20 19
18 22 22 20 17 25

36. Numa experiência medem-se fluxos de calor de meia em meia hora, das 7h `as 18h
(inclusive), durante três dias consecutivos. Os resultados obtidos (em W m−2) são indicados
na tabela em baixo. Ao lado da tabela estão as caixas-de-bigodes dos três dias, sem qualquer
ordem aparente. Os dados foram introduzidos no software e estão disponíveis no objeto fluxo
Calor, no ficheiro ―FluxoCalor.RData‖.

a) Associe cada diagrama ao respectivo dia. Justifique.


b) Sem fazer contas, diga se a média correspondente ao diagrama do topo será inferior ou
superior a -100. Justifique.

37. Num estudo realizado para avaliar o efeito de três sprays, A, B e C, em insetos,
organizaram-se 3 grupos de 12 recipientes cada, nos quais se colocou o mesmo número de

135
insetos a que se aplicaram aqueles inseticidas. Indicadores relativos ao no de insetos mortos em
cada um deles, encontram-se no quadro e diagrama seguintes.

a) Associe cada boxplot a cada spray, indicando o valor das barreiras de outliers
no primeiro diagrama. Justifique.
b) Compare os três conjuntos de dados quanto à localização, dispersão e simetria.
c) Para a totalidade das observações calcule a média, a variância e a amplitude total.

38. (Andrade DF e Ogliari PJ, 2007) Tabela: resultados de um experimento de competição


de híbridos de milho para a região de Chapecó, SC – safra: 1987/1988
Híbridos Rendimento Ciclo Altura Altura Tipo de grão Resistência
médio (dias) Planta espiga à
(kg/ha) (cm) (cm) ferrugem1
1 6388 65 242 103 Dentado R
2 6166 65 258 134 Semidentado R
3 6047 65 240 104 Semidentado S
4 5889 66 243 108 Semidentado S
5 5823 69 257 128 Dentado Ms
6 5513 68 241 108 Semidentado S
7 5202 64 235 108 Dentado R
8 5172 68 240 103 Dentado S
9 5166 69 253 123 Dentado Ms
10 4975 70 250 117 Semidentado Ms
11 4778 70 242 114 Dentado Mr
12 4680 66 245 111 Semiduro Ms
13 4660 69 239 110 Semiduro Mr
14 5403 73 264 138 Dentado Ms
15 5117 76 282 149 Dentado Mr
16 5063 72 274 151 Dentado R
17 4993 71 279 134 Semidentado R
18 4980 72 274 140 Dentado Ms
19 4770 73 244 140 Dentado R
20 4685 71 265 139 Semiduro Mr
21 4614 73 248 110 Semidentado R
22 4552 73 265 128 Semidentado R
23 3973 74 261 124 Semidentado Mr
24 4550 71 259 129 Semiduro S
25 5056 64 252 104 Semiduro Mr
26 4500 70 271 109 Dentado Ms
136
27 4760 68 243 137 Semiduro R
28 5110 66 252 141 Semidentado Ms
29 4960 70 262 120 Dentado Ms
30 4769 73 260 118 Dentado R
31 4849 74 250 119 Semidentado S
32 5230 71 255 138 semiduro S
1
r=resistente; mr=moderadamente resistente; ms=moderadamente susceptível;
s=susceptível

137
4. PROBABILIDADE

" A teoria das probabilidades, no fundo, não é mais do que o bom senso traduzido
em cálculo; permite calcular com exatidão aquilo que as pessoas sentem por uma
espécie de instinto... É notável que tal ciência, que começou nos estudos sobre jogos
de azar, tenha alcançado os mais altos níveis do conhecimento humano.” Laplace

As Probabilidades existem há muito tempo, desde 1500-1400 a.C, os Jogos de Azar


tornaram-se populares na época dos gregos e dos romanos, pela mão do Imperador Cláudio,
que até em viagem jogava dados. Há quem acredite que o cálculo das probabilidades nasceu
com os italianos Paccioli, Cardano, Tartaglia e Galileu. Todos estes matemáticos baseavam o
seu estudo na observação de fenômenos aleatórios sobre os quais inferiam baseados no senso
comum, o que consideravam como curiosidades matemáticas.
Tal como qualquer ramo da ciência o estudo das probabilidades começou com o
quotidiano, ou seja, com a observação de fenômenos diários e como explicação para muitas
situações que ocorriam aleatoriamente. Com o passar do tempo a probabilidade começou a ser
tratada como uma questão matemática, e assim foi evoluindo até ao que estudamos hoje em
dia.
Em resumo, a Teoria das Probabilidades se apresenta como um estudo teórico de
fenômenos envolvendo a incerteza utilizando ferramentas básicas do Cálculo Matemático.
Esses fenômenos, conhecidos como aleatórios, estocásticos ou não-determinísticos, são
aqueles que a sua repetição, em condições idênticas, produzem resultados diferenciados, isto é,
não é possível determinar, com exatidão, qual o seu resultado. Esses fenômenos, na verdade,
são predominantes em todas as áreas do conhecimento.
Considerando esse quadro, pode-se perceber que a estatística e a probabilidade foram,
por muito tempo, duas áreas distintas do conhecimento. Se algo existe em comum é que ambas
se preocupavam com a contagem. A estatística na contagem do certo e a probabilidade na
contagem do incerto. Foi exatamente a ousada tentativa da utilização da contagem do incerto,
como uma estimativa na contagem do certo, que possibilitou a integração dessas duas áreas.
Nos dias atuais, no entanto, não é mais possível pensar em estatística sem pensar em
probabilidade. A probabilidade constitui a base da estatística indutiva, permite tomar decisões
e qualificar o erro cometido ao tomar decisões. Ela subsidia o estudo dos fenômenos
aleatórios. Essa interdependência porém só vem acontecer no início do século passado através
da necessidade de generalização de um estudo sobre cruzamento de várias espécies de plantas

138
feito pelo botânico Fisher. Nessa época surge o que hoje chamamos Inferência Estatística
(inferir, como conceito estatístico, significa generalizar).

Conceitos básicos de Probabilidade

O termo probabilidade se refere ao estudo da aleatoriedade e da incerteza. O que vem


a ser um experimento aleatório? De acordo com Morgado et al. (1997), um experimento
aleatório é aquele que, se repetido sobre as mesmas condições, não produz necessariamente o
mesmo resultado, ou seja, é qualquer ação ou processo cujo resultado está sujeito à incerteza.
Este conceito pode ser interpretado da seguinte forma: mesmo que se conheçam todas as
variáveis envolvidas em um experimento e se tenha controle sobre elas, o resultado final
poderá não ser o mesmo, ainda que o experimento seja repetido sob condições idênticas.
Probabilidade é o ramo da matemática que trata de fenômenos aleatórios. A
observação de um fenômeno aleatório por parte do homem é chamada de experimento
aleatório.

4.1 Características de um experimento aleatório:

1ª) Não se conhece um particular valor do experimento antes dele ser executado, porém
podemos descrever todos os possíveis resultados - as possibilidades;

2ª) Quando o experimento é repetido algumas vezes, os resultados ocorrem de uma forma
aparentemente acidental. Mas quando o número de repetições aumenta, uma regularidade
aparecerá. E esta regularidade que torna possível construir um modelo matemático preciso
para analisar o experimento.

4.2 Espaço Amostral de um experimento (S):


Para cada experimento o conjunto de todos os resultados possíveis é chamado de Espaço
Amostral denotado pela letra S.

Exemplo 1: Considere o experimento: Lançamento de 1 dado


S: {1,2,3,4,5,6}
Exemplo 2: Considere o experimento: Lançamento de 1 moeda
S: {cara, coroa}
139
Exemplo 3: Considere o experimento: Observar o Fator Rh de um casal
S: {(H+ M+);(H+ M-);(H- M+);(H- M-)}

ATIVIDADE PRÁTICA:

Determine o Espaço Amostral dos seguintes experimentos:

a) Lançamento de duas moedas simultaneamente


b) Lançamento de uma moeda duas vezes
c) Observar o tipo sanguíneo de um indivíduo
d) Retirar uma carta do baralho e observar apenas o naipe
e) Lançamento de dois dados simultaneamente
f) Lançamento de 1 dado e 1 moeda
g) Lançamento de 1 moeda três vezes
h) Observar o sexo dos filhos de um casal com três filhos (considerar a ordem)
i) Observar o número de peças defeituosas em um lote contendo 10 peças.

4.3 Definição de Probabilidade:

Na definição clássica de probabilidade, considerando que todos os resultados possíveis


são equiprováveis, podemos definir probabilidade como sendo:
Considere A o evento de interesse:

nº de casos favoráveis ao evento A


P(A) =
nº possíveis de casos

Notação para Probabilidade

P – representa a probabilidade

A, B ,C – representam eventos específicos

P(A) - representa a probabilidade de o evento A ocorrer

140
NÃO ESQUEÇA!

A probabilidade de um evento A deve ser um número maior ou igual a 0 e menor ou


igual a 1:

0  P(A)  1
ou ainda
0%  P(A)  100%

Exemplo 42: Considere uma caixa contendo 10 brindes: 4 livros, 2 celulares, 1 rádio e 3
perfumes. Você tem direito a um destes brindes que serão sorteados. Qual a probabilidade de
você:
a) Ganhar um livro
b) Ganhar um celular
c) Ganhar um rádio ou um celular
d) Não ganhar perfume

Na definição frequentista de probabilidade, um experimento é realizado (repetido) um


grande número de vezes, onde é observado o número de vezes (frequência) em que ocorre um
determinado evento A de interesse.

Número de vezes que A ocorreu


P(A) 
Número de vezes em que o experiment o foi repetido

Exemplo 43: Adultos são aleatoriamente selecionados para uma pesquisa do


IBOPE, e pergunta-se a eles se são a favor da pena de morte para uma pessoa
acusada de assassinato. Os resultados da pesquisa realizada com 519 pessoas
concluem que 338 destas são a favor da pena de morte. Com base nestes resultados, estime a
probabilidade de uma pessoa, escolhida aleatoriamente ser:

a) a favor da pena de morte para uma pessoa acusada de assassinato


b) contra a pena de morte para uma pessoa acusada de assassinato
141
4.4 Propriedades da Probabilidade

Propriedade 1: Probabilidade Complementar

A probabilidade complementar de A É o evento formado por todos os resultados do


espaço amostral que não pertencem à A. A probabilidade de não ocorrência de A é descrita
como P( A ) e é expressa da forma:

P( A )  1  P( A)

Propriedade 2: Regra da Adição

 Se A e B são dois eventos independentes então:

A B

P(A ou B) = P(A) + P(B)

Exemplo 44: Ao retirar uma carta do baralho considere os eventos: A – retirar um Ás e R –


retirar um Rei. Qual a probabilidade de selecionar aleatoriamente uma carta deste baralho e ela
ser um Ás ou um Rei?

142
 Se A e B são dois eventos dependentes então:

A B

AeB

P(A ou B) = P(A) + P(B) – P(A e B)

Exemplo 45: Ao retirar uma carta do baralho considere os eventos: A – retirar um Ás e E –


retirar uma carta no naipe Espadas. Qual a probabilidade de selecionar aleatoriamente uma
carta deste baralho e ela ser um Ás ou uma carta do naipe de espadas?

Atenção!

Dois eventos são independentes quando a ocorrência ou não de um evento não tem
efeito algum na probabilidade de ocorrência do outro evento. Dois eventos são
dependentes quando a ocorrência ou não-ocorrência de um evento afeta a
probabilidade de ocorrência do outro.

143
Exercício 50: De 300 estudantes do curso de Viticultura e Enologia, 100 são matriculados em
Estatística e 80 em Química Enológica. Estes dados incluem 30 estudantes que estão
matriculados em ambas as disciplinas. Qual a probabilidade de um estudante de Viticultura e
Enologia selecionado ao acaso estar matriculado em Estatística ou Química Enológica? R:
0,50 ou 50%

Exercício 51: De 100 pessoas que solicitaram emprego de enólogo, durante o ano passado, 65
possuíam experiência anterior e 30 possuíam um certificado profissional. Vinte dos candidatos
possuíam tanto experiência anterior como certificado profissional. Qual a probabilidade de um
candidato selecionado ao acaso deste grupo tenha experiência anterior ou certificado
profissional? R: 0,75 ou 75%

Propriedade 3: Regra da Multiplicação

 Se A e B são dois eventos independentes então:

P(A e B) = P(A) x P(B)

Exemplo 46: Em uma linha de produção a probabilidade de uma peça fabricada estar fora das
especificações em relação a sua largura é 2%, em relação ao seu comprimento é 5%.
Considere que a ocorrência de defeito na largura ou comprimento acontece de forma
independente. Uma peça foi aleatoriamente selecionada desta linha de produção e seu
comprimento e largura verificados pelo controle de qualidade, qual a probabilidade desta peça:

a) Apresentar defeito na largura e no comprimento


P(DL e Dc) = 0,02 x 0,05 = 0,001

b) Apresentar defeito apenas na largura


P(DL e Pc) = 0,02 x 0,95 = 0,019

c) A peça ser perfeita na largura e no comprimento


P(PL e Pc) = 0,98 x 0,95 = 0,931
144
d) A peça apresentar pelo menos um destes defeitos
P(DL e Pc) ou P(PL e Dc) ou P(DL e Dc)=
(0,02 x 0,95) + (0,98 x 0,05) + (0,02 x 0,05) =
0,019 + 0,049 + 0,001 = 0,069

Exercício 52: A probabilidade de um homem estar vivo daqui a 30 anos é de 40% e de sua
mulher é de 65%. Qual a probabilidade de que daqui a 30 anos:
a) ambos estejam vivos (R: 0,26)
b) somente a mulher esteja viva (R: 0,39)
c) ambos estejam mortos (R: 0,21)
d) somente a mulher esteja morta (R: 0,14)
e) um deles esteja vivo (R: 0,53)

Exercício 53: Um sistema tem dois componentes A e B que operam independentemente.


Suponha que a probabilidade de falha do componente A seja 10% e do componente B 20%.
Qual é a probabilidade de:
a) A falha do sistema ocorrer em ambos componentes (R: 0,02)
b) A falha do sistema ocorrer apenas no componente A (R: 0,08)
c) Não ocorrer falha no sistema (R: 0,72)
d) Pelo menos um dos componentes apresentar falha. (R: 0,28)

Exercício 54: Um terço dos eleitores de certa comunidade é constituído por homens e 10%
dos eleitores votaram em branco na última eleição. Supondo que estes eventos sejam
independentes, determine a probabilidade de escolher aleatoriamente um homem e este er
votado em branco na última eleição. (R: 0,033)

Exercício 55: Em 25% das vezes João chega em casa tarde para jantar. Por outro lado, o jantar
atrasa 10% das vezes. Se não há qualquer relacionamento entre os atrasos de João e os atrasos
para jantar, qual é a probabilidade de ocorrerem ambos os atrasos? (R: 0,025)

Exercício 56: As falhas de diferentes máquinas são independentes umas das outras. Se há 4
máquinas e suas respectivas falhas são: 1%, 2%, 5% e 10% em determinado dia, calcule a
probabilidade de:
145
a) todas falharem (R: 0,000001)
b) nenhum falhar (R: 0,829521)

Exercício 57: Marcelo tem dois velhos automóveis. Nas manhãs frias, há 20% de
probabilidade de um deles não pegar e 30% do outro não pegar. Em uma manhã fria qual a
probabilidade de:
a) nenhum pegar (R: 0,06)
b) apenas 1 pegar (R: 0,38)

Propriedade 4: Probabilidade Condicional

 Se A e B são dois eventos dependentes então:

Quando dois eventos são dependentes, o conceito de probabilidade condicional é


empregado para indicar a probabilidade de ocorrência de um evento relacionado. A expressão
P(B/A) indica a probabilidade de ocorrer o evento B, dado que tenha ocorrido o evento A .

P(A e B) = P(A) x P(B/A)

P(A e B)
Onde: P(B/A) 
P(A)

A B
P(B/A)
A AeB

AeB

146
Exemplo 47: Um lote de 10 garrafas produzidas por uma fábrica contém 8 peças boas e 2
defeituosas. Duas garrafas são retiradas aleatoriamente sem reposição pelo comprador do lote.
Qual é a probabilidade de:

a) as duas garrafas serem boas


b) a primeira garrafa ser boa e a segunda defeituosa
c) as duas garrafas serem defeituosas

Exercício 58: Um fabricante produz HDs em 3 fábricas (A, B, C), que respondem
respectivamente por 40%, 35% e 25% de sua produção total. Registros históricos indicam que
2% da produção de A é defeituosa, assim como 1% da de B e 3% da fábrica C. Escolhemos
aleatoriamente um HD e ele é defeituoso. Qual é a probabilidade dele ter sido produzido na
fábrica B? (R: 0,184)

Exercício 59: Ao responder uma pergunta num teste de múltipla escolha um candidato ou
sabe a resposta correta ou tenta adivinhar a resposta correta. Seja 0,75 a probabilidade de que
o candidato saiba a resposta correta da questão. Caso não saiba a resposta correta o candidato
escolhe uma entre 4 opções com probabilidade de 0,25 de acerto. Qual é a probabilidade
condicional de que o candidato realmente saiba uma questão que este tenha respondido
corretamente. (R: 0,9231)

Exercício 60: Duas urnas guardam bolas brancas e pretas. Uma das urnas (urna A) tem 3
bolas brancas e 1 preta enquanto que a outra (urna B) tem 3 bolas brancas e 3 bolas pretas.
Escolhendo-se uma urna ao acaso e em seguidas, sucessivamente e com reposição duas de
suas bolas a probabilidade de ocorrer uma branca e uma preta é: ( R: 0,4375)

Exercício 61: Suponhamos que é igual a 0,005 a probabilidade de uma pessoa, escolhida ao
acaso numa população, necessitar de ser hospitalizada durante um dado mês. Se duas pessoas
são escolhidas, completamente estranhas uma da outra, qual a probabilidade de:
a) Ambas necessitarem de hospitalização naquele mês;
b) Nenhuma delas;
c) Pelo menos uma delas.

Exercício 62: Suponha que determinado medicamento, usado para diagnóstico precoce da
gravidez, seja capaz de confirmar casos positivos em 90% de mulheres muito jovens. Isto
porque, em 10% de gestantes muito jovens, ocorre uma escamação do epitélio do útero, que é
147
confundido com a menstruação. Nestas condições qual a probabilidade de 2 entre 3 gestantes
muito jovens, que fizeram o uso deste medicamento, não terem confirmado precocemente a
gravidez? R: 2,7%

Exercício 63: A probabilidade de um casal heterozigoto para um gene de fenilcetonúria (Aa


xAa) ter um filho afetado (Aa) é ¼. Qual a probabilidade de um, de três filhos de um casal,
nestas condições apresentar a doença? R: 42,19%

Exercício 64: Se a probabilidade de um indivíduo ter sangue Rh negativo é 10%, qual a


probabilidade de 5 indivíduos que se apresentam para o exame do tipo de sangue terem todos
Rh negativo? R: 0,001%

Exercício 65: Determine a probabilidade de que no nascimento de 4 animais todos sejam do


mesmo sexo.

Exercício 66: Um casal planeja ter três filhos. Determine a probabilidade de nascerem:
a) Três homens; R:1/8
b) Dois homens e uma mulher. R: 3/8

Exercício 67: Na espécie de borboleta Heliconius erato, a proporção de indivíduos que


apresentam manchas de cor creme nas asas posteriores é de 0,83 (Romanowsky e
colaboradoes, 1985). Admitindo que 53% das borboletas capturadas são machos e que não há
associação entre sexo e presença dessas manchas, qual a probabilidade de se capturar:
a) uma fêmea com manchas?
b) Uma fêmea sem manchas e um macho com manchas, nesta ordem?
c) Duas fêmeas e um macho, todos com manchas, nesta ordem?

Exercício 68: Um terço dos eleitores de certa comunidade é constituído por homens e 10%
dos eleitores votaram em branco na última eleição. Supondo que estes eventos sejam
independentes, determine a probabilidade de escolher aleatoriamente um homem e este er
votado em branco na última eleição. (R: 0,033)

Exercício 69: Em 25% das vezes João chega em casa tarde para jantar. Por outro lado, o jantar
atrasa 10% das vezes. Se não há qualquer relacionamento entre os atrasos de João e os atrasos
para jantar, qual é a probabilidade de ocorrerem ambos os atrasos? (R: 0,025)
148
Exercício 70: Marcelo tem dois velhos automóveis. Nas manhãs frias, há 20% de
probabilidade de um deles não pegar e 30% do outro não pegar. Em uma manhã fria qual a
probabilidade de:
a) nenhum pegar (R: 0,06)
b) apenas 1 pegar (R: 0,38

Exercícios Probabilidade:
1. Ao lançar um dado, qual a probabilidade de ocorrer um número maior que 3?

2. Considere o experimento com uma urna que contém 3 bolas brancas, 5 bolas verdes e 2
vermelhas. Retirando-se uma bola, identifique:
a) Defina a espaço amostral do experimento
Qual a probabilidade de sair
b) uma bola verde
c) uma bola branca
d) uma bola vermelha
e) uma bola verde ou branca
f) uma bola que não seja vermelha
g) uma bola azul

3. Qual a probabilidade de sair um rei, quando retiramos uma carta de um baralho de 52


cartas?

4. Em um lote de 15 peças, 3 são defeituosas. Sendo retirada uma peça, calcule;


a) a probabilidade dessa peça ser defeituosa
b) a probabilidade dessa peça ser perfeita.

5. Na diretoria do DCE, existem cinco alunos do 4o semestre, quatro do 3o semestre e dois do


2o semestre. Será feito um sorteio para distribuir brindes a três desses alunos, qual a
probabilidade de serem sorteados:
a) três alunos do 4o semestre
b) dois alunos do 4o semestre e um aluno do 3o semestre
c) um aluno do 4o semestre, um aluno de 3o semestre e um aluno do 2o semestre
d) não serem sorteados alunos do 4o semestre

6. A probabilidade de três jogadores A, B e C marcarem um pênalti são respectivamente 30%,


40% e 45%. Se cada jogador cobrar uma única vez, qual a probabilidade de:
a) todos acertarem
b) somente um acertar
c) dois acertarem
d) todos errarem

7. Uma urna marcada com a letra A contém 3 bolas brancas, 2 bolas verde e 1 bola preta. Uma
urna marcada com a letra B contém 1 bola branca, 4 bolas verdes e 2 bolas pretas e uma
149
urna marcada com a letra C contém 2 bolas brancas 3 bolas vedes e 2 bolas pretas. Se
forem retiradas uma bola da urna A, uma bola da urna B e uma bola da urna C, qual a
probabilidade de sair:
a) uma bola branca, uma bola verde e uma bola preta, respectivamente
b) uma bola verde, uma bola branca e uma bola preta, respectivamente
c) uma bola branca, uma bola verde e uma bola branca, respectivamente
d) todas serem brancas
e) todas serem verde

8. A probabilidade de João lembrar do aniversário de casamento é de 15% e a probablidade de


Maria lembrar do aniversário de casamento é de 75%. No dia do aniversário do casamento,
qual a probabilidade de:
a) ambos lembrarem da data
b) somente o João lembrar da data.
c) ambos esquecerem da data.

9. Uma urna contém 7 moedas de 50 centavos e 5 moedas de 10 centavos. Duas moedas são
retiradas ao acaso, sem reposição. Qual a probabilidade de se retirar desta urna:
a) 1 real
b) 60 centavos
c) 5 reais
d) 20 centavos

10. Sabe-se que a probabilidade de um aluno do sexo feminino obter aprovação em um teste é
80% e de um aluno do sexo masculino é de 60%. Considerando que ambos alunos façam
seus testes independentemente Qual a probabilidade de:
a) somente o aluno de o sexo feminino obter aprovação;
b) ao menos um dos alunos seja aprovado;
c) os dois sejam reprovados.

11. Uma caixa contém 20 canetas iguais das quais 7 são defeituosas, em uma outra caixa há 12
canetas, das quais 4 são defeituosas. Uma caneta é retirada de cada caixa, determine a
probabilidade de:
a) ambas canetas retiradas sejam defeituosas
b) uma ser perfeita e a outra não

12. Uma nova técnica cirúrgica é bem sucedida em 90% dos casos. Se a operação for efetuada
6 vezes, e se for possível supor os resultados dessas operações independentes:
a) Qual a probabilidade de duas operações serem bem sucedidas?
b) E menos de 3?
c) E nenhuma?

13. Se a probabilidade de um indivíduo ter sangue Rh negativo é 10%, qual a probabilidade de


5 indivíduos que se apresentam para o exame do tipo de sangue terem todos Rh negativo? R:
0,001%

14. Determine a probabilidade de que no nascimento de 4 animais todos sejam do mesmo


sexo.

150
15. Um casal planeja ter três filhos. Determine a probabilidade de nascerem:
c) Três homens; R:1/8
d) Dois homens e uma mulher. R: 3/8

16. De um grupo de 200 pessoas, 160 têm RH positivo, 100 têm sangue tipo O e 80 têm fator
RH e sangue tipo O. Se uma pessoa for selecionada ao acaso, qual a é a probabilidade de:
a) Seu sangue ter fator RH positivo? R: 160/200
b) Seu sangue não ser tipo O? R: 100/200
c) Seu sangue ter fator RH positivo ou ser tipo O? R: 180/200

17. Num experimento com tomates em casa-de-vegetação, têm-se 26 vasos distribuídos


segundo o seguinte delineamento:

Variedade Adubos Total


1 2 3
1 3 4 2 9
2 1 3 3 7
3 5 2 3 10
Total 9 9 8 26

Sorteia-se um vaso ao acaso. Dado que o vaso sorteado recebeu a variedade 2, qual a
probabilidade de que ele tenha sido tratado com o adubo 1:
A1- Tratado com o adubo 1
A2- Tratado com o adubo 2
A3- Tratado com o adubo 3
A4- Tratado com o adubo 4

18. Num levantamento em um município sobre a propriedade da terra e o tamanho do


estabelecimento agrícola, encontrou-se a seguinte situação:
45 agricultores proprietários com estabelecimentos menores que 30 hectares
15 agricultores arrendatários com estabelecimentos menores que 30 hectares
15 agricultores proprietários com estabelecimentos maiores que 50 hectares
2 agricultores arrendatários com estabelecimentos maiores que 50 hectares
Ao escolher, ao acaso, algum agricultor do município, qual é a probabilidade de que:
a) o agricultor seja arrendatário e o estabelecimento agrícola menor que 50 hectares?
b) o estabelecimento agrícola tenha menos de 50 hectares?

19. Um produtor aceitará um lote com cem sacos de sementes fiscalizadas, se uma amostra de
cinco sacos escolhidos ao acaso do lote e inspecionada, não contiver nenhum com poder

151
germinativo inferior ao especificado. Qual é a probabilidade de que ele aceite o lote se este
contém dez sacos com poder germinativo abaixo do especificado?

20. Suponha que em uma epidemia de gripe 60% das pessoas Pegam o vírus. A experiência
tem mostrado que uma vacina vem tendo sucesso de 80% na prevenção da gripe, quando
aplicada em pessoas expostas a uma epidemia.

21. Os dados a seguir, representam o sumário de um dia de observação em um posto de


qualidade, em que se avalia o peso dos pacotes de leite produzidos num laticínio.

Tipo do leite
B (B) C(C) UHT (U) Total
Dentro das especificações 500 4.500 1.500 6.500
(D)
30 270 50 350
Fora das especificações (F)
Total 530 4.770 1.550 6.850

Retira-se, ao acaso, um pacote de leite da população de 6.850 unidades. Sejam D e F os


eventos que representam se o pacote retirado está dentro ou fora das especificações,
respectivamente. Da mesma forma, B, C e U são eventos que representam o tipo do leite.
Pergunta-se:
a) Qual é a probabilidade de o pacote de leite estar fora das especificações?
b) Qual a probabilidade de o pacote de leite retirado estar fora das especificações,
sabendo-se que é do tipo UHT?

Incertezas

A modelagem e a compreensão de variáveis aleatórias representam uma tentativa


de simplificação de determinado problema que envolva incertezas. Por exemplo, se uma
empresa planeja a construção de uma nova fábrica, diversas serão as incertezas associadas ao
projeto de investimento. Para poder estudar melhor essas incertezas, um dos passos inicias
consiste na tentativa de modelagem dos eventos incertos através do emprego de variáveis
aleatórias.

152
5 Teoria da probabilidade e seus modelos
Vimos que o objetivo da inferência estatística é tirar conclusões sobre populações
com base nos resultados de amostras extraídas dessas populações. Como vamos trabalhar com
amostras, o processo não pode ser exato. Ao se fazer inferências sobre uma população,
portanto, estamos sempre sujeitos a cometer erros; isto é, o pesquisador não pode fazer
afirmativas com 100% de certeza. Isto, porém, não deve desesperançá-lo, pois a inferência
estatística permitirá dizer até que ponto se pode estar errando, em termos probabilísticos. Por
exemplo, poderemos afirmar com 95% de confiança que a real diferença entre as médias de
dois tratamentos é um valor no intervalo de 694 a 1.589 kg/ha. Então é possível determinar
limites dentro dos quais a verdadeira diferença deve encontrar-se, com um certo grau de
confiança definido pelo pesquisador. Esses intervalos são conhecidos como intervalos de
confiança, que serão estudados nos capítulos 7 e 8.
A espinha dorsal da inferência estatística é a teoria da probabilidade, com seus
modelos probabilísticos.
O que é um modelo? Modelo é uma versão simplificada de algum evento, fenômeno
ou acontecimento da vida real. Por exemplo, um globo terrestre é uma versão simplificada
do planeta Terra. Uma maquete de um prédio e um layout (distribuição interna) também são
exemplos de modelos.
Por exemplo, suponhamos que 10 vacas de mesma idade e raça são tratadas com uma
determinada ração para aumentar a produção de leite. (total da lactação). Admitamos que a
probabilidade de aumento de lactação de cada animal é de 0, 65. Então podemos estar
interessados em saber qual é a probabilidade de exatamente 8 vacas aumentarem a na
lactação. O modelo que possibilita o cálculo desta probabilidade é denominado de modelo
binomial.
Um modelo deve simplificar as coisas, e certos pormenores devem ser desprezados. É
claro que estes pormenores não devem ter importância para o entendimento do fenómeno em
estudo. A resolução do problema matemático pode estar correta e, mesmo assim, estar em
grande discordância com os dados observados, simplesmente porque as hipóteses básicas
feitas não são confirmadas. Por isso, é muito importante deduzir certas consequências do
modelo e, a seguir, comparar esses resultados previstos pelo modelo dados reais (observados).
É a validação do modelo.

153
5.1 Variáveis Aleatórias (v.a.s)

O Citibank, principal subsidiária do Citigroup, Inc., fornece ampla gama de serviços financeiros (por
exemplo, contas correntes e contas de poupança, empréstimos e hipotecas, serviços de seguros e de
investimentos), por meio da estrutura estratégica exclusiva para prestar serviços, denominada
Citibanking. Essa estrutura permite ai cliente gerenciar seu dinheiro a qualquer hora, em qualquer lugar e
de acordo com sua preferência.
Os caixas Automáticos de última geração do Citibanking, localizados nos centros bancários
Citicard (CBCs), possibilitam aos usuários realizar todos os serviços bancários 24 horas por dia, sete dias
por semana. Mais de 150 diferentes funções bancárias, que variam de depósitos à gestão de
investimentos, podem ser executadas com facilidade.
Cada caixa automático do Citibanking opera como um sistema de fila de espera, e os clientes que
buscam serviços chegam aleatoriamente. Se todos estiverem ocupados, os clientes que chegam esperam
na fila.
Estudos periódicos de capacidade dos caixas são utilizados para analisar o tempo de espera dos clientes e
determinar se caixas adicionais são necessários.
Os dados coletados pelo Citibank mostraram que as chegadas de clientes seguiam uma
distribuição de probabilidade conhecida como distribuição de Poisson. O Citibank pode calcular
probabilidades relativas ao número de clientes que chegam a um caixa durante qualquer período e tomar
decisões quanto ao número de caixas automáticos necessários.
Por exemplo, seja x igual ao número de clientes que chegam durante o período de um minuto. A
tabela seguinte mostra as probabilidades relativas ao número de clientes que chegam durante o período
de um minuto.
x Probabilidade
0 0,1353
1 0,2707
2 0,2707
3 0,1804
4 0,0902
5 ou mais 0,0527

154
Noções sobre variáveis aleatórias

Ao descrever o espaço amostral de um experimento, nem sempre o resultado


individual será um número, embora, muitas vezes haja interesse na mensuração de alguma
característica e no seu registro numérico.
Para que seja possível a utilização dos recursos da estatística descritiva, é
necessária uma função, que transforme o espaço amostral não-numérico em um espaço
amostral numérico. Sendo assim, considerando-se E um experimento e S o espaço
amostral associado ao experimento, a função X, que associa a cada elemento s  S, um
número real, X(s) é denominada variável aleatória.
Desse modo, tem-se uma função definida no espaço amostral, chamada de variável
aleatória.
Variável aleatória (v.a.) é uma variável cujos valores são determinados pelos resultados
de experiências aleatórias, isto é, uma função que associa valores reais aos eventos de um
espaço amostral.
Uma v.a. pode ser entendida como uma variável quantitativa, ou seja, uma v.a. pode
ser classificada como discreta ou contínua.

Variáveis aleatórias discretas X contínuas

Existem basicamente 2 tipos de v.a.s:


As variáveis aleatórias discretas, que assumem valores contáveis (provém de uma contagem).
Podendo assumir valores inteiros 0, 1, 2, etc.

Exemplos de v.a. discretas:


 X: O número de caras obtidas em um lançamento de duas moedas não viciadas; ( 0, 1,
2)
 X: O número de Clientes que vão ao banco no horário das 10:00hs as 12:00hs.(0,
1,2...)
 X: Chamadas telefônicas por unidade de tempo;

155
Outros exemplos v.a. discretas
Experimentos Variável aleatória (x) Valores possíveis para V.A.
Contatar cinco clientes Número de clientes que 0,1,2,3,4,5
colocam um pedido de
compra
Operar um restaurante Número de clientes 0,1,2,3,....
durante um dia
Vender um automóvel Gênero do cliente 0 se for masculino; 1 se for
feminino

E as variáveis aleatórias contínuas que assumem valores em um intervalo contínuo (provém de


uma medição).

Alguns exemplos de v.a. contínuas:


 X: Altura de um universitário. Define uma variável aleatória que pode assumir
quaisquer valores entre 130 e 220cm. ( 130c ≤ X ≤ 220)
 X: Temperatura em um determinado local de Porto Alegre, as 15hs;
 X: Retorno financeiro de um fundo ou ação;
 X: Renda domiciliar ou salário de um indivíduo.

Outros exemplos v.a contínuas


Experimentos Variável aleatória (x) Valores possíveis para V.A.
Operar um banco Tempo em minutos entre as X 0
chegadas dos clientes
Encher uma lata de refrigerante Quantidade em ml x 343
(Max. = 343 ml)

156
Assim:

Uma variável aleatória é considerada discreta se toma valores que podem ser contados.
Uma variável aleatória é considerada contínua quando pode tomar qualquer valor em
determinado intervalo.

Exercício 71: Uma série de experimentos e as variáveis aleatórias correspondentes são


listados a seguir. Em cada caso, identifique os valores que a variável aleatória pode assumir e
estabeleça se a variável aleatória é discreta ou contínua.

Experimento Variável aleatória (x)


a. Fazer um exame com 20 questões Número de questões respondidas
corretamente
b. Observar carros que chegam a um Número de carros que chegam ao posto de
posto de pedágio durante uma hora pedágio
c. Fazer auditoria de 50 declarações Número de declarações que contém erros
de imposto
d. Observar o trabalho de um Número de horas não produtivas em um
empregado dia de trabalho de oito horas
e. Pesar um carregamento de uva Número de quilos

157
Variáveis aleatórias discretas [Simbologia: VAD]
Seja X uma variável aleatória. Se o número de valores possíveis de X, Rx (contra-
domínio de X) for finito ou infinito numerável (números naturais ou inteiros), denomina-se
X de variável aleatória discreta.
As variáveis aleatórias discretas surgem, em geral, de medidas de enumeração ou
contagem, como por exemplo, número de pontos obtidos em um teste, número de insetos
por planta, número de peças boas, número de pessoas que votam, número de erros em
contas, etc.

Exemplo 48: Lançam-se três moedas. Seja X o número de ocorrências da face cara.
Determinar a distribuição de Probabilidade de X.

Nº de caras
Resultado Valor da V.A
Cara cara cara 3
Cara cara coroa 2
Cara coroa cara 1
Coroa cara cara 2
Coroa coroa cara 1
Coroa cara coroa 1
Cara coroa coroa 1
Coroa coroa coroa 0

Número de caras
Valor da V.A Probabilidade do resultado
0 1/8
1 3/8
2 3/8
3 1/8
Total 1

158
Distribuições de Probabilidade

O histograma é usado para apresentar dados amostrais (amostra=conjunto de


observações extraídas de uma população).

Por exemplo, 50 valores de satisfação dos clientes são interpretados como uma amostra da
satisfação de todos os clientes.

O uso de métodos estatísticos permite que se analise essa amostra e se tire alguma conclusão
sobre a satisfação dos clientes.

Uma distribuição de probabilidade é um modelo matemático que relaciona um certo valor da


variável em estudo com a sua probabilidade de ocorrência.

Há dois tipos de distribuição de probabilidade

1. Distribuições contínuas: Quando a variável que esta sendo medida é expressa em uma
escala contínua, como por exemplo, o peso de peças produzidas, diâmetro, etc.
2. Distribuições Discretas: Quando a variável que esta sendo medida só pode assumir
certos valores, como por exemplo, os valores inteiros 0,1 2, etc.

5.2 Modelos probabilísticos para variáveis aleatórias

Os valores possíveis de uma variável aleatória e suas respectivas probabilidades


determinam a distribuição de probabilidade da variável aleatória. Algumas, por apresentarem
características semelhantes, nos permitem estabelecer um modelo teórico para determinar a
solução de certos problemas. Para variáveis aleatórias discretas, o modelo estudado será:
Binomial.

159
5.2.1 Distribuição discreta de probabilidade

Distribuição binomial
A distribuição binomial tem as seguintes características:

 São realizadas n repetições independentes e do mesmo tipo do experimento E (n ensaios de


Bernoulli);
 Cada repetição do experimento E admite apenas 2 resultados: sucesso ou fracasso;
 A probabilidade de sucesso em cada repetição do experimento é sempre igual a p.

Assim, considerando ―n‖ tentativas independentes de um mesmo experimento


aleatório, uma particular amostra aleatória conterá k sucessos e (n-k) fracassos, com
probabilidades associadas p e q, respectivamente. A probabilidade total será dada por p + q
=1.
Como qualquer sequência com k sucessos e (n-k) fracassos terá a mesma
probabilidade de ocorrência, resta-nos saber quantas se pode formar. Para isto calcula-
se C kn , que é o número de sequências possíveis que podem ocorrer.

Exemplo 49: O problema da inspeção de garrafas na produção final

Consideremos a inspeção das próximas três garrafas de vinho retiradas de um lote.


Com base em sua experiência, estima-se que a probabilidade de pequenos defeitos é de 0,30.
Qual é a probabilidade de duas das próximas três garrafas apresentarem pequenos defeitos?

160
Definição: A variável aleatória discreta X tem comportamento binomial com ―n‖ repetições
de E e probabilidade de sucesso p, cuja função de probabilidade é dada por:

P(X  k )  C kn p k q n k

n!
onde: C kn  ;
k!(n  k )!
k = 0, 1, 2, ..., n;
k = 1 . 2 . 3 . ... . k.

A esperança e a variância são dadas por:

E(X) = n.p VAR(X) = n.p.q

Notação: X ~ b(n, p)

Exemplo 50: Imagine que, em determinada população, 30% das pessoas têm alergia
respiratória. Como o interesse é estudar este tipo de alergia, considera-se ―ser alérgico‖ como
o sucesso (s).
a) Qual é a probabilidade de que uma pessoa, selecionada ao acaso dessa população,
apresente alergia respiratória?
b) Qual a probabilidade de que duas pessoas dentre três apresentem alergia respiratória?
c) Qual a probabilidade de que 2 dentre 4 pessoas dessa população sejam alérgicas?
d) Qual seria a probabilidade de que em grupo de 6 pessoas, 4 sejam alérgicas?
e) Se em determinada população, 30% têm alergia respiratória, qual a probabilidade de
que, em um grupo de 6 pessoas, no máximo 2 sejam alérgicas?

Exercício 72: (Andrade DF e Ogliari PJ, 2007) Num rebanho bovino 30% dos animais estão
atacados por febre aftosa. Retira-se, ao acaso, uma amostra de 10 animais.

a) Verifique se a variável ―número de animais doentes‖ pode ser estudada pelo


modelo binomial. Justifique.

161
b) Dê a função de probabilidade e represente a distribuição de probabilidade num
gráfico.
c) Qual a probabilidade de se encontrarem seis animais doentes?

Exercício 73: (Andrade DF e Ogliari PJ, 2007) Suponha que 80% de uma criação de suínos
esteja atacada por leptospirose. Seja Y o número de suínos doentes de uma amostra aleatório
de 1.000 suínos, dessa criação, examinada por um veterinário.

a) Qual é o valor esperado de Y?


b) Qual é o desvio padrão de Y?

Exercício 74: (Andrade DF e Ogliari PJ, 2007) Um produtor de sementes vende pacotes
com 20 sementes cada. Os pacotes que apresentarem mais de uma semente sem germinar
serão indenizados. A probabilidade de uma semente germinar é de 0,98.
a) Calcule a média e a variância da variável aleatória ―número de sementes que não
germinam por pacote‖.
b) Qual é a probabilidade de um pacote não ser indenizado?

Exercício 75: (Andrade DF e Ogliari PJ, 2007) Segundo a teoria de Mendel, no enxerto de
duas espécies de plantas com flores amarelas e brancas, 30% das plantas resultantes têm flor
amarela. Em sete pares de plantas enxertadas, qual a probabilidade:
a) De não resultar flor amarela?
b) De haver quatro ou mais plantas com flor amarela?

Exercício 76: Dez por cento dos adultos dizem que os vinhos brancos são seus preferidos.
Você seleciona 12 adultos aleatoriamente e pergunta qual é o vinho preferido de cada um
deles. Encontre a probabilidade de que o número dos que dizem preferir vinho branco seja (a)
exatamente quatro, (b) no mínimo quatro e (c) inferior a quatro.

Exercício 77: Uma técnica cirúrgica é aplicada em sete pacientes. Você soube que há 70% de
chance de sucesso. Encontre a probabilidade de que a cirurgia seja um sucesso para (a)
exatamente cinco pacientes, (b) no mínimo cinco pacientes e (c) menos que cinco pacientes.

Exercício 78: Considere um vendedor de seguros que visita 10 famílias selecionadas


aleatoriamente. O resultado associado a cada visita é classificado como um sucesso se a
família comprar uma apólice de seguros, e como fracasso se a família não comprar. Por
experiência, o vendedor sabe que a probabilidade de uma família selecionada aleatoriamente

162
comprar uma apólice de seguros é igual a 0,10. Esse experimento tem as propriedades de um
experimento binomial? Qual a variável de interesse? Qual a probabilidade de que seis famílias
comprem uma apólice de seguro?

Exercício 79: Um lote de garrafas de vinho é recebido por uma firma, 10 garrafas são
inspecionadas, o lote é rejeitado se pelo menos 2 forem defeituosas. Sabendo-se que 1% das
garrafas é defeituosa, determinar a probabilidade de a firma rejeitar todo lote.
R: 0,42%

Exercício 80: Qual a probabilidade de que um atirador acerte o alvo 3 vezes, em 5 tentativas,
se a probabilidade dele acertar um tiro é 45%? Calcule a probabilidade de que o atirador acerte
o alvo:
b) 4 vezes;
c) exatamente 2 tiros;
d) pelo menos 3 vezes;
e) não acertar nenhum tiro.

Exercício 81: Sete por cento dos estudantes universitários portam cartões de crédito com
limites maiores US$ 7 mil (Reader’s Digest, julho de 2002). Suponha que dez estudantes
universitários sejam escolhidos aleatoriamente para serem entrevistados acerca do uso do
cartão de crédito.
a. A escolha dos dez estudantes é um experimento binomial? Explique.
b. Qual é a probabilidade de dois dos estudantes terem limite de crédito maior que US$7
mil? R: 12,34%
c. Qual é a probabilidade de nenhum ter limite de crédito maior que US$ 7 mil? R:
48,40%
d. Qual é a probabilidade de pelo menos três terem limites de crédito maiores que US$ 7
mil? R: 2,83%
e. Calcule a média e variância, referente ao uso do cartão de crédito nos universitários. R:
E(x) = 0,7 e V(x) = 0,651

Exercício 82: Uma moeda é jogada 10 vezes. Calcule as seguintes probabilidades:


a) De dar pelo menos duas caras; R: 98,93%
b) De ocorrer seis caras; R: 20,51%

163
Exercício 83: Admitindo que o nascimento de meninos e meninas sejam iguais, calcule a
probabilidade de um casal com seis filhos ter quatro filhos homens e duas mulheres. R:
23,44%

Exercício 84: A probabilidade de uma determinada construtora vencer licitações é


aproximadamente igual a 54%. Em seis licitações, qual a probabilidade de essa empresa:
a) Perder todas? R: 2,77%
b) Vencer apenas uma? R: 13,59%
c) Vencer pelo menos uma? R: 97,23%
d) Perder três? R: 69,68

Obs:

Para facilitar a compreensão das perguntas de probabilidade, observe os exemplos


abaixo.

Probabilidade de:
Ao menos 4 ou no mínimo 4 X 4 ou 1- P(x< 4) = 1 – [P(x=0) + P(x=1) + P(x=2) + P(x=3)]
P(x>4) = P(x=5) + P(x=6) + P(x=7) + .... Ou 1 - [P(x=0) + P(x=1)
Mais que 4
+ P(x=2) + P(x=3) + P(x=4)]
No máximo 4 P( X ) = P(x=0) + P(x=1) + P(x=2) + P(x=3) + P(x=4)]

Menos que 4 P (X < 4) = P(x=0) + P(x=1) + P(x=2) + P(x=3)

164
5.2.2 Distribuições contínuas de probabilidade

A Distribuição de probabilidade Normal ou Curva de Gauss

A distribuição Normal ou Gaussiana é, sem dúvida, o modelo probabilístico mais


conhecido. Várias técnicas estatísticas necessitam da suposição de que os dados se distribuam
normalmente para serem utilizadas. Na natureza uma grande quantidade de variáveis apresenta
tal distribuição.

Os parâmetros da Normal são a média e o desvio-padrão, que permitem infinitas curvas


normais com diferentes formatos (mas sempre simétricas). O gráfico da fX é apresentado a
seguir:

A distribuição Normal, independentemente dos valores dos parâmetros, apresenta


sempre a seguinte relação:

165
Definição: A variável aleatória contínua X tem distribuição normal, se a função densidade de
probabilidade for:

 ( x  ) 2
1
f (x)  e 22
  x  
 2 ,

onde:  = média populacional;


2 = variância populacional.

A esperança ou média e a variância são os parâmetros da distribuição normal, dados


por:
E(X) =  VAR(X) = 2.

Notação: X ~ N (, 2)

A distribuição normal tem as seguintes características:


 A curva da distribuição tem forma de sino e é simétrica em relação à média ;

166
 Na medida em que os pontos se afastam da média , a curva torna-se assintótica, ou seja,
ela se aproxima bastante do eixo horizontal, mas não chega a tocá-lo;
 A área total sobre a curva é 1, devido ao fato da mesma ser uma função densidade de
probabilidade;
 O ponto máximo da função corresponde à média .
 A média da distribuição pode ser qualquer valor numérico: negativo, zero, positivo;
 As probabilidades da V.A. normal são dadas por áreas sob a curva. A área total sob a curva
corresponde à 1 ou 100%.

O desvio padrão determina quanto uma curva é achatada ou larga. Valores maiores do desvio
padrão resultam em curvas mais largas e mais achatadas, exibindo maior variabilidade dos
dados.

167
Para calcular uma probabilidade associada à distribuição normal faz-se:

 ( x  ) 2
b 1
P (a < X < b) =  a
 2
e 22
dx

Para evitar o uso de integrais, os principais valores das probabilidades podem ser
encontrados numa tabela da curva normal, construída através de uma padronização.

Distribuição Normal-padrão ou Normal reduzida

Seja X uma variável aleatória normalmente distribuída com quaisquer parâmetros


média  e desvio-padrão . Se realizarmos a seguinte transformação, obteremos uma nova
variável Z com média 0 e desvio-padrão 1:

X = valor de interesse da

X 
variável
 = média da variável
Z  = desvio-padrão da variável

168
Uma variável com distribuição Normal qualquer, pode ser padronizada para a
Normal Padrão. A distribuição Normal padronizada (Z) é tabelada, tem média igual a 0
(zero) e desvio-padrão igual a 1 (um).

sendo que os valores de Z e suas respectivas áreas de probabilidade estão tabelados.


(TABELA distribuição Normal)
onde
x = ponto que se deseja converter em z
μ = média da normal original
σ = desvio padrão da normal original

A figura anterior mostra também que o desvio-padrão controla o grau para o qual a
distribuição se "espalha" para ambos os lados da curva. Percebe-se que aproximadamente toda
a probabilidade está dentro de ± 3σ a partir da média.
É importante lembrar que a área sob a curva pode ser entendida como uma medida de
sua probabilidade e que a área sob a curva normal é igual a 1 (100%).

Assim, a variável X cuja distribuição é N(µ,σ 2) é transformada na forma padronizada z


cuja distribuição é N(0,1). Essa é a distribuição normal padrão, que já está tabelada, pois os
parâmetros da população (desvio padrão e média) são conhecidos.

169
Então, se forem tomados dois valores específicos, pode-se determinar a proporção de
área sob a curva entre esses dois valores.

Para a distribuição Normal, a proporção de valores caindo dentro de um, dois, ou três desvios
padrão da média são:

entre é igual a
µ± 1σ 68,26% (1)
µ± 2σ 95,44% (2)
µ± 3σ 99,74% (3)

Exemplo 51: Uma enchedora automática de garrafas de vinho está regulada para que o
volume médio de líquido em cada garrafa seja µ = 750 cm3 e o desvio padrão seja ơ = 7,5 cm3 .
Pode-se admitir que a distribuição da variável volume de líquido seja normal.
a) Qual a porcentagem de garrafas em que o volume de líquido é menor do que 742,5
cm3?
b) Qual a porcentagem de garrafas em que o volume de líquido é maior que 745 cm3?
c) Qual a porcentagem de garrafas em que o volume de líquido está entre 745 cm3 e 757,5
cm3?
d) Qual a porcentagem de garrafas em que o volume de líquido é menor que 760 cm3?
e) Qual a porcentagem de garrafas em que o volume de líquido está entre 755 cm 3 e 764
cm3?

170
f) Qual a porcentagem esperada de garrafas em que o volume de líquido não se desvia da
média em mais que dois desvios padrões, para mais ou para menos?
g) Qual a porcentagem de garrafas com 762 cm3?

Exemplo 52: Os alunos de Ecologia Vegetal mediram a altura de grande número de árvores
da espécie Guapira apposita (―Maria-mole‖) no Morro Santana, Porto Alegre. A média obtida
foi 11,4 m e desvio padrão, 4,2 m (dados de M.L.Porto, Dep. Ecologia, UFRGS). Admitindo
esses valores como parâmetros e supondo que a altura dessa árvore tem distribuição normal,
estime:
a) A percentagem de árvores dessa espécie com altura inferior a 9m.
b) A percentagem de árvores dessa espécie com altura superior a 10m.
c) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura entre
10 e 12 m?
d) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura entre
12 e 13 m?
e) A altura correspondente ao percentil 20 dessa população
f) A altura das árvores mais altas (10% do total) dessa população.

Exercício 85: Sabe-se que o comprimento de pétalas em uma população de plantas da espécie
x é normalmente distribuído com média µ = 3, 2 cm e ơ=1,8cm. Que proporção na população
espera-se que tenha comprimento de pétalas:
a) Maior do que 4,5cm?
b) Entre 2,9 e 3, 6 cm?
c) Determinar o valor do comprimento de pétalas que é superado por 65% das plantas.

Exercício 86: Suponha que a variável diâmetro de Paepalanthus tenha distribuição normal
com média 10 cm e variância 4 cm2.
a) Qual é a probabilidade de um Paepalanthus aleatoriamente retirado dessa população ter
diâmetro maior que 14 cm?
b) Se dois Paepalanthus forem selecionados aleatoriamente dessa população, qual é a
probabilidade de ambos serem maiores que 14 cm?

Exercício 87: O peso médio das reses que se encontram num curral de urna determinada
fazenda é de 200 kg, e o desvio padrão é de 10 kg. Em 120 animais retirados ao acaso do

171
curral, quantos pesarão mais de 185 kg? Vamos considerar que o peso das reses tenha
distribuição normal.

Exercício 88: Foi feito um estudo sobre a altura de plantas de milho de certo híbrido,
observando-se que ela se distribui normalmente com média igual a 2,20 m e desvio padrão
igual a 0,20 m. Qual a porcentagem de plantas com altura:
a) entre 2,15 e 2 25 m;
b) entre 2,00 m e 2,40 m;
c) acima de 2,30 m.

Exercício 89: Em indivíduos sadios, o consumo renal de oxigênio tem distribuição normal de
média 12 cm3/min e desvio padrão 1,5 cm3/min.
Determinar a proporção de indivíduos sadios com consumo: a) inferior a IO cm3/min; b)
superior a 8 cm3/min; c) entre 9,4 e 13,2; d) igual a 11,6

Exercício 90: Suponha que o conteúdo de bactérias de um tipo particular, presentes em um


recipiente de água de 1 mililitro, tenha distribuição aproximadamente normal, com média de
85 bactérias e desvio padrão de 9 bactérias. Qual a probabilidade de uma dada amostra de 1
ml conter mais de 100 bactérias?

Exercício 91: Num povoamento florestal temos uma distribuição aproximativamente normal
dos diâmetros à altura do peito (D.A.P.) das árvores, com média de 12,6 e desvio padrão de
3,1 cm. Se cortarmos todas as árvores de menos de 15 cm de diâmetro, qual a porcentagem
de árvores que restarão de pé?

Exercício 92: Suponha que a temperatura média do mês de julho em Porto Alegre seja
normalmente distribuída com média igual a 11 graus e variância 9 graus2. Calcular a
probabilidade da temperatura:
a) Ser inferior a 6,7 graus.
b) Ser superior a 5 graus
c) Estar entre 8,8 e 13,2 graus.

Exercício 93: O dono de uma área reflorestada com eucaliptos decidiu cortar todas as árvores
cujo diâmetro (medido à altura do peito) é inferior a 7 cm. Calcule a extensão do desbaste em

172
percentagem de árvores derrubadas, supondo que, no momento da decisão, o diâmetro das
árvores tem distribuição normal, com média igual a 8 cm e desvio padrão igual a 2,5 cm.

Exercício 94: Suponha que temos uma distribuição normal de valores encontrados numa
análise. A média da população corresponde a 30,37 ppm, e o desvio-padrão a 2,54 ppm.
Encontre:
a) A porcentagem de determinações que poderá ser maior que o valor 34,99 ppm
b) A probabilidade das determinações serem inferior a 32?
c) A porcentagem das determinações que poderá ser inferior a 29?
d) A probabilidade das determinações estarem entre 29 e 32?
e) A probabilidade das determinações estarem entre 31 e 32?

Exercício 95: Foi feito um estudo sobre a altura de plantas de milho de certo híbrido,
observando-se que ela se distribui normalmente com média igual a 2,20 m e desvio padrão
igual a 0,20 m. Qual a porcentagem de plantas com altura:
a) entre 2,15 e 2 25 m;
b) entre 2,00 m e 2,40 m;
c) acima de 2,30 m.

Exercício 96: O tempo de validade de um princípio ativo de um determinado inseticida tem


distribuição normal de média 803 dias e variância 1.381 (dias) 2 . Determinar a probabilidade
de validade desse inseticida:
a) antes de 750 dias;
b) entre 700 e 900 dias;
c) depois do tempo médio.

Exercício 97: Em indivíduos sadios, o consumo renal de oxigênio tem distribuição normal de
média 12 cm3/min e desvio padrão 1,5 cm3/min.
a) Determinar a proporção de indivíduos sadios com consumo: inferior a IO cm3/min; superior
a 8 cm3/min; entre 9,4 e 13,2 igual a 11,6

Exercício 98: Suponha que o conteúdo de bactérias de um tipo particular, presentes em um


recipiente de água de 1 mililitro, tenha distribuição aproximadamente normal, com média de
85 bactérias e desvio padrão de 9 bactérias. Qual a probabilidade de uma dada amostra de 1
ml conter mais de 100 bactérias?
173
Exercício 99: Num povoamento florestal temos uma distribuição aproximativamente normal
dos diâmetros à altura do peito (D.A.P.) das árvores, com média de 12,6 e desvio padrão de
3,1 cm. Se cortarmos todas as árvores de menos de 15 cm de diâmetro, qual a porcentagem
de árvores que restarão de pé?

Exercício 100: Uma máquina de empacotar determinado produto apresenta variações de peso
com desvio padrão de 20 g. Em quanto deve ser regulado o peso médio do pacote, para que
apenas 10% tenham menos de 400 g?

Exercício 101: Os alunos de Ecologia Vegetal mediram a altura de grande número de árvores
da espécie Guapira apposita (―Maria-mole‖) no Morro Santana, Porto Alegre. A média obtida
foi 11,4 m e desvio padrão, 4,2 m (dados de M.L.Porto, Dep. Ecologia, UFRGS). Admitindo
esses valores como parâmetros e supondo que a altura dessa árvore tem distribuição normal,
estime:

g) A percentagem de árvores dessa espécie com altura inferior a 9m.

h) A percentagem de árvores dessa espécie com altura superior a 10m.

i) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura
entre 10 e 12 m?

j) A probabilidade de que uma arvore escolhida ao acaso desta população apresente altura
entre 12 e 13 m?

k) A altura correspondente ao percentil 20 dessa população.

l) A altura das árvores mais altas (10% do total) dessa população.

Exercício 102: Suponha que o consumo anual de amendoins seja normalmente distribuído,
com uma média de 5,9 libras por pessoa e um desvio padrão de 1,8 libras por pessoa. Qual é a
porcentagem de pessoas que consomem, anualmente, menos que 3,1 libras de amendoim?
Seria incomum se uma pessoa consumisse menos que 3,1 libras de amendoim por ano?
Explique seu raciocínio.

174
Exercício 103: Suponha que temos uma distribuição normal de valores encontrados numa
análise. A média da população corresponde a 30,37ppm e queremos estimar que o valor é
excedido por 10,03% das determinações, sabendo que o desvio-padrão é igual a 2,541.R: X =
33,62

Exercício 104: Temos uma distribuição normal de valores encontrados numa análise de
cinzas. A média da população desta análise corresponde a 130,37 ppm de cinzas e queremos
estimar a porcentagem de determinações que poderá ser maior que o valor de 135,0 ppm,
sabendo que o desvio padrão é igual a 5,50 ppm.
R: 20,05%

Exercício 105: Temos uma distribuição normal de valores encontrados numa análise de
determinação de cloreto em um composto químico. A média das análises (população)
realizadas na determinação de cloreto neste composto corresponde a 50,40 ppm e queremos
estimar qual é o valor excedido por 25,14% das determinações, sabendo que o desvio padrão é
igual a 1,50 ppm.
R: X = 51,41

Exercício 106: Uma fábrica de carros sabe que os motores de sua fabricação têm duração
normal com média de 150.000 Km e desvio padrão de 5.000 Km. Qual a probabilidade de que
um carro escolhido ao acaso dos fabricados por esta firma tenha um motor que:
a) dure menos de 170.000km; R: 99,99%
b) dure entre 140.000 e 165.000 Km; R: 97,59%
c) dure mais de 140.000Km; R: 2,28%
d) mais de 160.000Km; R: 2,28%
e) dure entre 160.000 e 170.000 Km; R: 2,27%
f) dure exatamente 160.000Km. R: 0

Exercício 107: Dois analistas analisaram uma solução de soda de concentração conhecida (%)
e encontraram os seguintes resultados:

Analista Determinações (%) ̅ s


João 10,2 – 9,9 – 10,1 – 10,4 – 10,2 – 10,4 10,20 0,190
Paulo 9,9 – 10,2 – 9,5 – 10,4 – 10,6 – 9,4 10,00 0,486

175
Supondo que a concentração real da solução é 10,1%, calcular qual é o valor excedido por
15,15% das determinações realizadas pelos analistas João e Paulo.

Exercício 108: Suponha que temos uma distribuição normal de valores encontrados numa
análise. A média da população corresponde a 100,00 ppm e desvio padrão igual a 5,00ppm,
queremos estimar:
a) a porcentagem de determinações que poderá ser menor que o valor de 98,00 ppm; R:
34,46%
b) a porcentagem de determinações que poderá ser maior que 102,00ppm; R: 34,46%
c) a porcentagem de determinações entre os valores de 97,00 ppm e 101,00 ppm; R:
30,5%
d) O valor da determinação acima da qual encontram-se 10,03% das determinações; R:
106,4
e) O valor da determinação abaixo da qual encontram-se 5,05% das determinações. R:
91,8

Exercícios:
1. Suponha que a temperatura média do mês de julho em Porto Alegre seja normalmente
distribuída com média igual a 11 graus e variância 9 graus2. Calcular a probabilidade da
temperatura:
d) Ser inferior a 6,7 graus. R: 7,64%
e) Ser superior a 5 graus. R: 97,72%
f) Estar entre 8,8 e 13,2 graus. R: 53,46%

2. O dono de uma área reflorestada com eucaliptos decidiu cortar todas as árvores cujo
diâmetro (medido à altura do peito) é inferior a 7 cm. Calcule a extensão do desbaste em
percentagem de árvores derrubadas, supondo que, no momento da decisão, o diâmetro das
árvores tem distribuição normal, com média igual a 8 cm e desvio padrão igual a 2,5 cm.
R: 34,46%
3. Seja uma distribuição normal de Fe numa análise de sururu. Sabendo-se que µ = 100 ppm e
σ = 5ppm, estime o percentual de determinações cujo valor fique entre 97 e 99ppm.
R: 14,64%

176
4. Supondo que os pesos do papel descartado semanalmente pelas residências tenham
distribuição normal com média de 9,4 kg e desvio-padrão de 4,2 kg, determine a probabilidade
de uma residência aleatoriamente selecionada descartar:
a) Menos de 10 Kg; R: 55,57%
b) Mais de 12 Kg; R: 26,76%
c) Entre 5,0 kg e 8,0 kg. R: 10,31%

5. Admita que a pressão sistólica em indivíduos saudáveis de uma determinada população


segue uma distribuição normal com média µ =130 mmHg e desvio padrão σ = 9mmHg.
Determine:
a) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente
pressão sistólica menor do que 120 mmHg;
b) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente
pressão sistólica maior do que 140 mmHg;
c) A probabilidade de que um indivíduo escolhido ao acso desta população apresene
pressão sistólica maior do que 116 mmHg e menor do que 147 mmHg;
d) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente
pressão sistólica maior do que 133 mmHg e menor do que 146mmHg;
e) A probabilidade de que um indivíduo escolhido ao acaso desta população apresente
pressão sistólica maior do que 130 mmHg e menor do que 146mmHg;

6. Suponha que temos uma distribuição normal de valores encontrados numa análise. A média
da população corresponde a 100,00 ppm e desvio padrão igual a 5,00ppm, queremos estimar:
f) a porcentagem de determinações que poderá ser menor que o valor de 98,00 ppm;
g) a porcentagem de determinações que poderá ser maior que 102,00ppm;
h) a porcentagem de determinações entre os valores de 97,00 ppm e 101,00 ppm
i) O valor da determinação acima da qual encontram-se 10,03% das determinações;
j) O valor da determinação abaixo da qual encontram-se 5,05% das determinações.

7. Temos uma distribuição normal de valores encontrados numa análise de cinzas. A média da
população desta análise corresponde a 130,37 ppm de cinzas e queremos estimar a
porcentagem de determinações que poderá ser maior que o valor de 135,0 ppm, sabendo que o
desvio padrão é igual a 5,50 ppm. R: 20,05%

177
8. Temos uma distribuição normal de valores encontrados numa análise de determinação de
cloreto em um composto químico. A média das análises (população) realizadas na
determinação de cloreto neste composto corresponde a 50,40 ppm e queremos estimar qual é o
valor excedido por 25,14% das determinações, sabendo que o desvio padrão é igual a 1,50
ppm.

9. Em determinada população, a taxa de hemoglobina no sangue tem distribuição normal, com


média igual a 16g/100mL e desvio padrão de 1,2g/100mL.
a) Que proporção dos indivíduos tem taxa menor do que 17,8?
b) Que proporção de indivíduos tem taxa maior do que 18,4?
c) Que proporção de indivíduos tem taxa entre 17,8 e 18,4?

10. Considere uma população na qual a quantidade de albumina sérica tem distribuição
normal, com média = 4,0g% e desvio padrão = 0,6g%. Qual a probabilidade de que:
a) Um indivíduo tenha taxa de albumina menor do que 3g%? R: 0,0475
b) Uma pessoa tenha taxa de albumina abaixo de 4,9g%? R: 0,9332

11. Em certa população, a estatura dos homens tem distribuição normal, com média igual a
172 cm e desvio padrão igual a 10cm.
a) Que percentagem de homens tem estatura inferior a 160 cm?
b) Qual a probabilidade de que um homem dessa população tenha estatura entre 175 e
185 cm?
c) Quais são as estaturas esperadas para os 8% mais altos da população?

12. Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio
padrão 10. Qual a probabilidade de um indivíduo submetido ao teste ter nota:
a) Maior do que 120?
b) Maior do que 80?
c) Entre 85 e 115?
d) Maior do que 100?
e) Entre 80 e 85?

13. Os pesos de 600 estudantes são normalmente distribuídos com média 65,3 Kg e desvio
padrão 5,5 Kg. Encontre o número de alunos que pesam:
a) Entre 60 e 70Kg; R: 380 alunos
178
b) Mais que 63,2 Kg. R: 389 alunos

14. Suponha que as notas de uma prova sejam normalmente distribuídas com média 73 e
desvio padrão 15. 15% dos alunos mais adiantados recebem a nota A e 12% dos mais
atrasados recebem nota F. Encontre o mínimo para receber A e o mínimo para passar, não
receber F. R: A = 88,6 e 55,3 mínima para passar.

Lista de Exercícios: Probabilidade

01 - A duração de certo componente eletrônico pode ser considerada normalmente distribuída


com média de 850 dias e desvio-padrão de 45 dias. Calcular a probabilidade de um
componente durar:
a) Entre 700e 1000 dias
b) Mais de 800 dias
c) Menos de 750 dias

02 - O conteúdo líquido das garrafas de 300 ml de um refrigerante é normalmente distribuído


com média de 300 ml e desvio-padrão de 2 ml. Determine a probabilidade de uma garrafa
selecionada ao acaso apresentar conteúdo líquido:
a) inferior a 306 ml
b) Superior a 305 ml
c) entre 302 e 304 ml

03 - Suponha que a renda média anual de uma grande comunidade tenha distribuição normal
com média de 15 mil reais e com um desvio-padrão de 3 mil reais. Qual a probabilidade de
que um indivíduo aleatoriamente selecionado deste grupo apresente uma média salarial
anual superior a 18 mil reais?

04 - O escore de um estudante no vestibular é uma variável com distribuição normal com


média de 550 pontos e desvio-padrão de 30 pontos. Se a admissão em certa faculdade
exige um escore mínimo de 575 pontos, qual é a probabilidade de um aluno ser admitido
nesta faculdade?

05 - O volume de enchimento de uma máquina automática usada para encher latas de bebidas
gasosas é distribuído normalmente com uma média de 12,4 onças e um desvio-padrão de
0,1 onça. Qual a probabilidade do volume de enchimento ser:
a) inferior a 12 onças
b) entre 12,1 e 12,6 onças
c) superior a 12,3 onças

179
06 - O tempo de reação de um motorista para o estímulo visual é normalmente distribuído com
uma média de 0,4 segundos com um desvio-padrão de 0,05 segundos. Qual a
probabilidade de que uma reação de um motorista requeira:
a) mais de 0,5 segundos
b) entre 0,4 e 0,5 segundos

23 - O período de falta de trabalho em um mês por causa de doenças dos empregados é


normalmente distribuído com uma média de 100 horas e desvio-padrão de 20 horas. Qual a
probabilidade desse período no próximo mês estar:
a) entre 50 e 80 horas
b) superior a 90 horas
c) inferior a 60 horas

Distribuição “t” de Student

A distribuição normal depende de dois parâmetros  e 2, mas muitas vezes, não se
conhece a variância da população (2) e as investigações e análises são feitas a partir de
amostras, que são extraídas desta população. Nessas condições, o desvio padrão da amostra
será um estimador de , e então se utiliza a distribuição t de Student.
A distribuição ―t‖ de Student tem as seguintes características:
 É usada no caso de pequenas amostras (n<30); a partir de amostras maiores que 30, pode-se
usar a distribuição normal, pois ambas tornam-se praticamente iguais;
 Sua curva representativa é semelhante à da normal, sendo simétrica em relação à ordenada
máxima, apresentando as extremidades com maior comprimento;
 A área sob a curva da distribuição ―t‖ é igual a 1;

A esperança e a variância são dadas por:


n 1
E(X) = 0 VAR(X) =
n 3
Uso da tabela: ―corpo‖ da tabela fornece valores de ―t‖, a partir de uma probabilidade
 e do número de graus de liberdade .

Exemplo 53: Determine os valores de t para 9 graus de liberdade, conforme os itens.


a) a área sombreada a direita é igual a 0,05;
b) a área sombreada total é igual a 0,05;

180
c) a área não sombreada é igual a 0,99;
d) a área sombreada à esquerda é 0,01.

Exemplo 54: Considere uma distribuição ―t‖ com 18 graus de liberdade. Encontre a média, a
variância, desvio-padrão, a mediana, 1º quartil e o 95º percentil.

Considere um experimento que tem como objetivo verificar o comportamento da


produção de milho sob o efeito de diferentes doses de nitrogénio: 0, 25, 50, 75 e 100 kg de
nitrogênio por hectare (l hectare é equivalente a 10.000 m2 e representado por ha). Essas doses
foram definidas pelo pesquisador e correspondem aos cinco tratamentos envolvidos no
experimento. A cultivar de milho escolhida para o experimento foi a mais plantada na região.
Para cada dose de nitrogénio foram plantados cinco canteiros de terra de 10 m2 cada; portanto,
o tamanho da amostra para cada dose de nitrogênio é cinco (cinco repetições dos tratamentos).
Veja os resultados dessas amostras na Tabela 1.2.
Para cada amostra existe uma correspondente população e cada população é formada
por todos os valores possíveis de produção, em kg/ha, para a dose correspondente. Depois de
realizada a análise estatística e a interpretação dos resultados, poderá ser indicada qual a
melhor dose de nitrogénio para a cultivar de milho utilizada.

Tabela 1.2: Produção de milho, em kg/há, submetido a diferentes doses de nitrogênio


(tratamentos), em kg/há, no oeste catarinense, 1993.
Repetições
Tratamento Total Média
I II III IV V
0 2.850 1.780 2.100 2.900 2.010 11.640 2.328
25 3.200 1.980 2.220 2.850 2.100 12.350 2.470
50 4.150 2.330 3.700 4.050 2.500 16.730 3.346
75 4.380 2.830 3.420 3.900 3.080 17.610 3.522
100 4.000 2.630 3.150 3.780 2.670 16.230 3.246

181
Como já foi comentado anteriormente, uma característica dos experimentos biológicos e
agronómicos é que os seus resultados tendem a variar toda vez que se repetir o experimento,
sob condições bastante semelhantes. Esta variabilidade nos resultados do experimento deixa o
pesquisador com dúvidas quanto ao(s) melhor(es) tratamento(s). Neste caso, os métodos
estatísticos irão auxiliá-lo.
Para ilustrar essa variabilidade vamos considerar os resultados da Tabela 1.2, relativos
às produções de milho, em kg/ha. Note que, em todos os tratamentos, as produções de milho
variaram. Por exemplo, tomando-se o tratamento 75, obtivemos cinco produções diferentes,
variando de 2.830 a 4.380 kg/ha. Esta variação é decorrente de inúmeros fatores que
interferem no resultado final, como já discutido na Seção 1.1.2. Por causa dessa variabilidade,
seria pouco confiável realizar apenas uma repetição. Intuitivamente, percebemos que as
análises ficam mais consistentes se fizermos várias repetições e usarmos a. média dos
resultados.
No caso do experimento citado, desejamos comparar cinco tratamentos, incluindo o
controle (dose 0), com relação à produção. Mais especificamente, podemos estabelecer dois
objetivos para o experimento, quais sejam:
1º) testar a hipótese de que não existem diferenças entre os tratamentos e
2º) estimar a diferença de produção entre dois tratamentos.
Com respeito ao primeiro objetivo, podemos, por exemplo, comparar a média do
tratamento 75 com o controle. Observamos uma diferença de 1.194 (=3.522 - 2.328) kg/ha
entre as duas médias obtidas com as amostras. Esta é uma diferença bem considerável, porém
uma nova repetição do experimento poderia fornecer um outro resultado, para mais ou para
menos, devido ao fato de estarmos trabalhando com fenómenos aleatórios. Em outras palavras,
mesmo se o tratamento 75 não diferir do controle, em termos de produção média de milho, as
produções médias obtidas a partir de amostras, provavelmente serão diferentes. Assim,
ficamos na dúvida se os resultados obtidos decorreram de uma diferença real entre os
tratamentos ou se foram origina dos pelo acaso. Este tipo de problema é solucionado através da
aplicação dos testes de hipóteses. Basicamente num teste de hipóteses, o pesquisador vai
decidir se um resultado obtido em um experimento ocorreu devido ao acaso ou devido à ação
do tratamento. Caso o pesquisador decida pela existência da ação do tratamento, as produções
médias de milho do tratamento 75 e do controle são diferentes, seu interesse seria avaliar a
magnitude dessa diferença. Esse é o segundo objetivo referido acima. Descritivamente
podemos dizer que para esse experimento essa diferença foi de 1.194 kg/ ha em favor do

182
tratamento 75. Mas esta é urna medida, que por si só tem pouca importância, pelo fato de ser o
resultado de um experimento com cinco repetições.

6. INFERENCIA ESTATISTICA

Exemplos de populações:
P1) todos os valores possíveis da produção de milho, em quilogramas por hectare;
P2) todos os pesos ao nascer de coelhos da raça gigante, em gramas;
P3) todos os valores de diâmetros de Biomphalarias do Poção do Córrego Grande;
P4) todos os valores de micronúcleos de roedores de uma região poluída.

Exemplos de amostras:
A1) os rendimentos de milho, em kg/ha, de uma amostra de cinco unidades experimentais
(canteiros);
A2) os pesos ao nascer de uma ninhada de coelhos da raça gigante;
A3) os diâmetros de uma amostra de 30 Biomphalarias do Poção do Córrego Grande;
A4) os valores de micronúcleos de uma amostra de 25 roedores.
Num experimento, obtemos alguns dados experimentais (amostra) através do uso de
repetições dos tratamentos, e generalizamos os resultados para todos os experimentos similares
(população conceitual). A Figura 6.2 ilustra o processo de generalização numa situação
experimental.

183
Os dois tópicos básicos da inferência estatística são: estimação e testes de hipóteses.
Vamos, através de um exemplo, ilustrar estas duas situações.

Exemplo 55: Um pesquisador está interessado em avaliar a produção média por planta, µ, da
cultivar de maça denominada Gala, para as seguintes condições: plantas com idade de
aproximadamente 5 anos, em bom estado fitossanitário, cultivadas com alta tecnologia e para
a região I do zoneamento agroclimático de Santa Catarina. A população é formada por todas
as plantas da cultivar Gala nas condições citadas. Mais especificamente, a população é
constituída por todos os valores de produção por planta. Para essa finalidade, o pesquisador
vai coletar uma amostra aleatória de, por exemplo, 10 plantas, da referida cultivar nas
condições descritas.
Tabela - Produção por planta, em kg, de maçãs das cultivares Gala e Golden
Média ( ̅ ) Desvio padrão
Variedades
(s)
Gala 84 82 90 86 80 91 85 79 81 82 84,0 4,06
Golden 95 102 85 93 104 89 98 99 107 106 97,8 7,32

Com os 10 valores de produção/planta pode-se calcular uma estimativa da produção


média verdadeira por planta, ̅ = 84 kg. Portanto, estamos usando a média da amostra, ̅ ,
como estimador da média verdadeira, µ. Essa estimativa é chamada de estimativa pontual,
pois origina um unico valor. Esse é um raciocínio tipicamente indutivo, no qual se parte do
particular (amostra) para o geral (população). Esse é um exemplo de estimação.

184
Um fato importante que se observa, quando trabalhamos com amostras, e que sempre vamos
ter que a média verdadeira, µ, é igual à média na amostra, ̅ , mais um erro de amostragem. A
representação disso é dada por:
µ=[̅ ]

Apesar do nome erro, isto não quer dizer que a amostragem foi feita de forma errada e,
que, portanto, deve-se coletar uma nova amostra. Esse valor pode ser negativo ou positivo,
pequeno, nulo ou grande. Em todas as pesquisas baseadas em amostras vamos estar
envolvidos com o erro amostral. Dizemos que uma estimativa é precisa se tivermos alto grau
de confiança de que o erro amostral associado à estimativa em questão é pequeno.

7. ESTIMAÇÃO DE PARÂMETROS

O objetivo da Estatística é a realização de inferências acerca de uma população


baseadas nas informações amostrais. Como as populações são caracterizadas por medidas
numéricas descritivas, denominadas parâmetros, a inferência estatística diz respeito à
realização de inferências sobre esses parâmetros populacionais.
Os métodos utilizados para a realização de inferências a respeito dos parâmetros
pertencem a duas categorias. Pode-se estimar ou prever o valor do parâmetro ou pode-se tomar
decisões relativas ao mesmo, através de um teste de hipótese.
Então, a estimação é o processo que consiste em utilizar dados amostrais para estimar
os valores de parâmetros populacionais desconhecidos. Qualquer característica de uma
população pode ser estimada a partir de uma amostra aleatória. Entre as mais comuns, estão a
média, o desvio padrão e a proporção populacional.
A estimação pode ser feita das seguintes maneiras:
 Por ponto
 Por Intervalo
 Momentos
 Mínimos Quadrados
 Máxima Verossimilhança

185
Inferir consiste na retirada de informações para toda população baseando-se numa
amostra da mesma. Parâmetros são quantidades populacionais e estimadores são funções de
dados amostrais que irão gerar as estimativas para os parâmetros populacionais.

Tabela - Exemplos de parâmetros e seus respectivos estimadores


Parâmetros Estimadores
Média populacional Média amostral
 X
Desvio-padrão populacional Desvio-padrão amostral
 s
Proporção populacional Proporção amostral
 p

Distribuição Amostral das médias – Teorema do Limite Central


A base da estatística inferencial é o Teorema do Limite Central. Para entendermos o
funcionamento do processo de estimação da média precisamos aprender a distribuição
amostral das médias, que revela o comportamento probabilístico do estimador X .

O teorema diz que, se extrairmos TODAS as possíveis amostras de tamanho n de uma


população de tamanho N, a distribuição das médias amostrais X tende a se distribuir como
uma curva Normal com média igual ao parâmetro  e desvio-padrão  n.

Estimação por ponto e por intervalos de confiança


O conhecimento do comportamento probabilístico dos estimadores faz com que seja
possível fornecer estimativas para parâmetros populacionais com um nível de confiança
fixado pelo pesquisador.

186
7.1 Estimação por ponto
A estimação por ponto é um procedimento muito simples que visa estimar o valor do
parâmetro através de estimativas pontuais (únicas). A grande vantagem deste tipo de
estimação é ser de fácil interpretação, entretanto a probabilidade de acerto ―na mosca‖ é
praticamente nula, pois os estimadores podem ser encarados como variáveis aleatórias
contínuas.
As estatísticas amostrais são utilizadas como estimadores de parâmetros populacionais.
Assim uma média amostral é usada como estimativa de uma média populacional. Tais
estimativas chamam-se estimativas pontuais, por que originam uma única estimativa do
Parâmetro.

Exemplo 56: Uma amostra aleatória simples de dez isolados de fungos ectomicorrízicos P.
tinctorius cultivados in victro, apresentaram os seguintes resultados de biomassa, em gramas:
0,034 0,033 0,029 0,034 0,027
0,034 0,029 0,035 0,032 0,028

a) Encontre a estimativa pontual da média populacional µ;


b) Encontre a estimativa pontual do desvio-padrão da população ơ.

Exemplo 57: A espécie Harengula clupeola (sardinha cascuda) apresenta tamanho de


maturação sexual de 150 milímetros de comprimento. Para se estimar a proporção p de
sardinhas que apresentam maturação sexual, foi selecionada uma amostra aleatória simples de
20 sardinhas e anotadas os seus comprimentos, em mm, cujos resultados foram:

78 80 80 110 158 123 110 112 96 86


83 79 71 98 108 125 105 71 92 76

Encontre a estimativa pontual de p.

OBS: O problema de se utilizarem estimadores pontuais é que eles não fornecem uma
medida de precisão, isto é, não demonstram o quanto poderíamos estar errado ao utilizarmos
esse único valor para estimar o parâmetro. Portanto o processo de estimação deve também
levar em conta o possível erro amostral do estimador, que depende da sua distribuição
amostral.

187
Exemplo 58: Uma amostra de 300 alunos de uma universidade de 15.000 estudantes revelou
nota média amostral de 5,6; Assim: ̅ = 5,6 é uma estimativa pontual da verdadeira média dos
15.000 alunos.

O que a estimativa de µ permite afirmar sobre o valor ―real‖ de µ?


Podemos dizer que ela e o próprio valor de µ?

R: Nao.

Provavelmente há um erro de estimação, que e a diferença entre a estimativa e µ.


( ̅ - µ)

Então, podemos afirmar que ela está ―próxima‖ do valor de µ?


R: Em princípio, sim. Se tivermos um bom estimador, é razoável acreditar nisto.

A questão é: o quão próxima?

A técnica que permite avaliar o quão próxima uma estimativa encontra-se do valor
do parâmetro chama-se intervalo de confiança.

7.2 Intervalo de Confiança

Um intervalo de confiança (IC) é um intervalo numérico, ―centrado‖ na estimativa


pontual, no qual acreditamos que o valor do parâmetro esteja contido. O grau de confiança de
um IC mede o quanto podemos acreditar (de 0 a 100%) que o valor real do parâmetro esteja
contido nele.
A estimação por ponto é em geral insuficiente, pois a probabilidade de que a estimativa
adotada venha a coincidir com o verdadeiro valor do parâmetro é em geral, nula ou
praticamente nula. Isso decorre de os estimadores serem variáveis aleatórias, muitas vezes

188
contínuas, logo as estimativas obtidas certamente serão distintas do valor do parâmetro.
Portanto, é quase certo que se esteja cometendo um erro de estimação, quando se procede a
estimação por ponto de um parâmetro populacional. Devido a este fato, surge a idéia de se
construir um intervalo em torno da estimativa por ponto, de modo que esse instrumento tenha
uma probabilidade conhecida de conter o verdadeiro valor do parâmetro. A esse intervalo
chamamos de intervalo de confiança para esse parâmetro.
A probabilidade que designaremos por 1 - α, de que um intervalo de confiança
contenha o parâmetro, chamaremos nível de confiança ou grau de confiança do respectivo
intervalo.
α será a probabilidade de erro na estimação por intervalo, isto é, a probabilidade de errarmos
ao afirmar que o valor do parâmetro está contido no intervalo de confiança (nível de
significância).

Um intervalo de confiança constitui uma região com alta probabilidade de conter o


verdadeiro valor do parâmetro, que pode ser a média populacional ou a proporção
populacional, por exemplo.

189
Exemplos:

Parâmetro populacional Tipo de estimativa


Pontual Intervalar

Um carro de motor 1.0 anda, Um carro de motor 1.0 anda,


Média em média, 14Km com um litro em média, entre 12 e 16 Km
de combustível. com 1 litro de combustível.

A proporção de peças
A proporção de peças
Proporção defeituosas está entre 1,5% e
defeituosas é de 2%.
2,5%.

7.2.1 Intervalo de Confiança para média ()

Intervalo de confiança para a média  com nível 1 -  de Confiança

Intervalo de confiança P ( X - eo <  < X + eo ) = 1 - 

Ou

[̅ ]

Vamos dividir a construção do intervalo de confiança para a média da população (µ),


usando o estimador pontual ̅ , em dois casos:

 quando o desvio padrão da população (ơ) é conhecido;


 quando o desvio padrão da população (ơ) não é conhecido.

190
Caso 1: Variância populacional 2 conhecida (tamanho da
amostra é suficientemente grande)

Erro amostral ( eo ):


e o  (z  )
2 n

Onde:
z = distribuição normal padrão
n = tamanho da amostra.
σ = desvio padrão populacional
 = média populacional
X = média amostral
α = probabilidade de erro na estimação do intervalo (nível de significância).

Os valores de Z (normal-padrão) podem ser obtidos na tabela Normal. Os valores mais


utilizados são:

Z 0,05 = 1,64 (para 90% de confiança)


Z 0,025 = 1,96 (para 95% de confiança)
Z 0,005 = 2,58 (para 99% de confiança)

Exemplo 59: Considere uma população normal, com 2 = 400, n =100.


a) Determine a margem de erro (e0);
b) Encontre o intervalo de confiança.

Interpretação: se gerássemos todas as amostras possíveis de tamanho 100 desta população,


95% delas conduziriam a estimativas que estariam no máximo a 3,92 unidades de µ. Ou seja
apenas 5% das amostras não cumpririam este requisito.

P( ̅ - 3,92 < µ < ̅ + 3,92) = 0,95

191
O grau de confiança deste Intervalo de confiança é 95%.

Grau de confiança de um IC é o percentual de amostras, dentre todas as amostras possíveis de


tamanho n, que levariam a iC’s que conteriam o valor do parâmetro.
Em uma amostra específica, o grau de confiança mede o quanto podemos acreditar (de 0 a
100%) que o valor real do parâmetro esteja contido nele.

OBS: Quanto maior o grau de confiança escolhido, maior será o IC.

Margem de erro: é o máximo erro de estimação que podemos estar cometendo, em geral
calculada para um grau de confiança de 95%.
No exemplo a margem de erro, considerando o grau de confiança de 95%, é de 3,92.

Exemplo 60: O percentual de intenções de voto do candidato X foi de 32%. A margem de erro
da pesquisa é de 2%. Qual o IC de 95% para o percentual de intenções de voto de X no
universo eleitoral abrangido pela pesquisa?

µ não é uma variável aleatória, e sim uma quantidade fixa (embora desconhecida). Logo, não
se pode atribuir probabilidades a µ!!!!

Interpretação Correta: Temos um grau de confiança de 95% de que o valor real do


parâmetro (altura média de todos os alunos da turma) esteja situado no intervalo:
[172,45;187,55].

! Interpretação errada: A probabilidade de que µ esteja entre 172,45 e 187,55 é 0,95.

Assim se gerássemos todas as amostras de tamanho n possíveis da população, e para cada uma
delas calculássemos o IC:

Então 95% dos intervalos gerados conteriam o real valor do parâmetro µ.

192
Exemplo 61: A distribuição do volume de líquido de garrafas de vinho enchidos
automaticamente por uma máquina, é normal, com desvio padrão de ơ = 7,5 cm3. Uma
amostra de 10 garrafas retirada aleatoriamente apresentou média de 749 cm3. Qual o intervalo
de confiança para a verdadeira média de volume das garrafas de vinho produzida por esta
máquina?

Exemplo 62: A distribuição dos pesos de pacotes de sementes de milho enchidos


automaticamente por uma certa máquina, é normal, com desvio padrão (ơ) conhecido e igual
a 0,20 kg. Uma amostra de 15 pacotes retirada ao acaso apresentou média de 20,02 kg
Construir os intervalos de confiança de 95% e 99% para o peso médio dos pacotes de sementes
de milho.

Exercício 109: Sabe-se que os comprimentos das barras produzidas por uma siderúrgica têm
uma distribuição normal, de variância σ2=1,69 m2. Numa amostra de 5 barras encontrou-se os
seguintes comprimentos: 20,2; 21,0; 21,4; 22,1; 23,3 metros. Determine:
a) As estimativas pontuais para a média e variância;
b) O intervalo de confiança para média populacional ao nível de significância α= 10% e α
= 6%.

Exercício 110: A duração da vida de uma peça de equipamento é tal que σ = 5 horas. Foram
amostradas 100 dessas peças, obtendo-se a média de 500 horas. Deseja-se construir um
intervalo de confiança para a verdadeira duração média da peça com um nível de 95%.

OBS

Em casos práticos, o desvio padrão é desconhecido, e tem que ser estimado (por s,
desvio padrão amostral).

Neste caso, a distribuição correta a ser aplicada é a t de Student, com n-1 graus de
liberdade.

193
Caso 2: Variância populacional 2 desconhecida com nível 1 - 
de Confiança

Intervalo de confiança P ( X - eo <  < X + eo ) = 1 - 

Ou

[̅ ]

erro amostral ( eo ) :

s
eo  (t ,  )
2
n
onde:

 = número de graus de liberdade = n -1

(∑ )

s=√

t = distribuição t de Student
n = Tamanho da amostra.
s = desvio padrão amostral
X = média amostral
α = probabilidade de erro na estimação do intervalo (nível de significância).

Exemplo 63: Os resíduos industriais jogados nos rios, muitas vezes, absorvem oxigênio
reduzindo assim seu conteúdo do oxigênio necessário à respiração dos peixes e outras formas
de vida aquática. Seis amostras de água retiradas de um rio, durante a maré baixa, revelaram os
índices (em partes por milhão) de oxigênio dissolvido, a média amostral foi de 5,02 ppm e
desvio padrão de 0,27ppm. Estime a verdadeiro índice de oxigênio no rio com 90% de
confiança. R: P( 4,8 < µ < 5,24) = 90%

194
Exercício 111: Dez amostras são retiradas de um lote de um mineral e analisadas. O teor de
óxido de Cálcio apresentou uma média de 4,30% e um desvio-padrão estimativo de 0,30%.
Qual é o intervalo de confiança, no nível de 95%, da média do lote? R: P( 4,09 < µ < 4,51) =
95%

Exercício 112: Dez amostras são retiradas de um lote de aço e analisadas. O teor de carbono
apresentou uma média de 6,30% e um desvio-padrão de 0,030%. Qual é o intervalo de
confiança, no nível de 95%, da média do lote?
R: P( 6,28 < µ < 6,32) = 95%

Exercício 113: Certa bióloga mensurou a quantidade de potássio em 12 amostras da água de


um rio e obteve os dados a seguir (Melo, 1993). Estime, com 95% de confiança, o conteúdo de
potássio nesse curso d’agua.

X ( mg/L): 1,0 0,7 0,9 1,1 0,8 0,9 0,8 1,0 0,8 0,8 0,9 0,9

Exercício 114: Considere os Atributos Químicos e Físicos da Uva -São Joaquim-SC


Área 1
Acidez: 2,7 – 3,1 – 3,5 – 3,5 – 2,7
Ph: 3,12 – 3,11 – 2,9 – 2,82 – 3,32
Altura(mm): 12,56 – 13,10 – 12,05 – 12,29 – 12,85
º Brix: 18,5 – 18,2 – 15,9 – 16,5 – 18,5 – 18,5
Antocianinas (mg g-1): 789,15 – 845,76 – 677,64 – 843,32 – 777,63
Área 2
Acidez: 2,8 – 2,8 – 3,3 – 2,2- 2,6 – 2,6 – 3,1 – 2,3 – 2,3 – 2,4
Ph: 3,30 – 3,47 – 3,22 – 3,60 – 3,07 – 3,43 – 3,54 – 3,57 – 3,39- 3,30
Altura (mm): 13,11 – 13,65 – 13,20 – 12,36 – 11,93 – 13,27 – 12,96 – 13,00 – 11,72 – 12,34
ºBrix: 19,80 – 17,70 – 19,80 –19,80 - 19,00 – 20,30 – 19,50 – 18,10 – 18,50 – 21,00
Antocianinas (mg g-1): 750,86 – 688,97 – 647,15 – 673,57 – 663,87 – 710,39 – 668,95 –
684,08 – 733,44 – 662,94

a) Com 95% de confiança estime a verdadeira média de acidez das bagas da região 1 e da
região 2.
b) Estime a verdadeira média de antocianinas da região 1. Considere α=5%.

195
Exercício 115: O teor de sódio de uma análise apresentou uma média de 25,4 ppm e um
desvio padrão estimativo de 0,015 ppm. Qual é a média verdadeira quando incluímos 95% da
população?

Exercício 116: O teor de enxofre na análise de um gás apresentou uma média de 50ppb e um
desvio padrão de 5ppb. Qual é o intervalo (limite de confiança) da média das populações
quando incluímos 95% delas?

Exercício 117: Na determinação de umidade de uma amostra realizada pelo analista químico
foram encontrados os seguintes valores:
0,23% 0,22%
0,22% 0,24%
0,25% 0,23%
0,24% 0,22%
0,22% 0,23%
Calcular o intervalo de confiança para o teor de umidade na amostra analisada pelo analista
químico. R: P( 0,223 < µ < 0,237) = 95%

Exercício 118: Três amostras de propeno foram enviadas ao laboratório para análises de
enxofre total. O analista químico realizou 10 determinações em cada uma delas e encontrou os
seguintes resultados de enxofre total em PPB.

Amostra A 6 5 6 7 5 6 7 7 5 6
Amostra B 36 35 36 37 35 36 37 37 35 36
Amostra C 246 245 246 247 245 246 247 247 245 246

Calcular o intervalo de confiança para a concentração de enxofre nas amostras analisadas pelo
analista químico. Utilizando um nível de confiança de 95%.
R: A - P( 5,41 < µ < 6,59) = 95%
R: B - P( 35,41 < µ < 36,59) = 95%
R: C - P( 245,41 < µ < 246,59) = 95%

Exercício 119: Certa bióloga mensurou a quantidade de potássio em 12 amostras da água de


um rio e obteve os dados a seguir (Melo, 1993). Estime, com 95% de confiança, o conteúdo de
potássio nesse curso d’agua.

196
X ( mg/L): 1,0 0,7 0,9 1,1 0,8 0,9 0,8 1,0 0,8 0,8 0,9 0,9

R: P( 0,81 < µ < 0,95) = 95%

Exercício 120: O peso do papel descartado semanalmente pelas residências de um bairro foi
objeto de um estudo. Uma amostra de 60 residências apresentou um peso médio de papel
descartado de 9,4 kg com um desvio-padrão de 2,2 kg. Construa e interprete o Intervalo de
Confiança de 95% para o peso do papel descartado semanalmente de todas as residências deste
bairro.
R: P( 8,84 < µ < 9,96) = 95%

Observe que, no caso em que o desvio padrão é desconhecido e


estimado, o IC aumenta. De fato, a estimação de σ introduz uma nova fonte de
incerteza, o que acarreta menor precisão na estimação de μ (IC mais amplo).

7.2.2Intervalo de confiança para a proporção populacional

Seja P a proporção de ―sucessos‖ de uma população, onde sucesso identifica um


indivíduo ou objeto que tenha uma propriedade especificada. Uma amostra aleatória de n
indivíduos será selecionada e X é o número de sucessos na amostra.
O Intervalo de Confiança para uma proporção da população P pode ser definido como:

197
Intervalo de confiança para a proporção p

P ( p* - eo < p < p* + eo ) = 1 - 

Ou

[ ]
Erro amostral (e0):

p*q*
e0  Z 
2
n
onde:

p* e q* = proporções amostrais; q* = 1 - p*.

X
p* = Proporção amostral favorável = ;
n
z = distribuição normal padrão
n = Tamanho da amostra.
α = probabilidade de erro na estimação do intervalo (nível de significância)

Exemplo 64: Um laboratório detectou numa amostra de 50 porções, de certo composto, uma
proporção de 10% de impurezas. Determine um intervalo de confiança de 95% para a
verdadeira proporção de impurezas? R: P( 0,02 < p < 0,18) = 95%

Exercício 121: Das 200 unidades de carne examinadas, 31 delas apresentaram salmonela.
Determine os limites de 95% de confiança para a verdadeira proporção de carne que esta
contaminada. R: P( 0,105 < p < 0,205) = 95%

Exercício 122: Em um experimento, 320 de 400 sementes germinaram. Determine o intervalo


de confiança de 99% para a verdadeira proporção de sementes que germinam.

Exercício 123: Ente 500 pessoas, entrevistadas a respeito de suas preferências eleitorais, 260
mostraram-se favoráveis ao candidato Y. Calcular um intervalo de confiança ao nível de 95%
para a porcentagem dos eleitores favoráveis a Y. R: P( 0,02 < p < 0,18) = 95%
198
Exercício 124: Num depósito, uma amostra de 100 latas de certo produto alimentar
armazenada para depois serem distribuídas foram analisadas, constatando-se que 5 dessas latas
ultrapassaram o prazo de validade. Construa e interprete o Intervalo de confiança 95% para a
proporção verdadeira de latas que já ultrapassaram o prazo de validade. R: P( 0,01 < p < 0,09)
= 95%

Exercício 125: Suponha que estejamos interessados em estimar a porcentagem de


consumidores de um produto da marca A. Se uma amostra de tamanho 300 informou que 200
indivíduos têm preferência por outras marcas similares, determine o intervalo de confiança de
95% para a proporção dos indivíduos que preferem a marca A. R: P(27,4% ≤ p ≤ 38,6%) =
95%

Exercício 126: Estime a percentagem de fumantes entre pessoas que têm trombose venosa,
com 95% de confiança, sabendo que 8 eram fumantes em uma amostra de 25 pacientes
(Robinson, 1974). Explique a razão de se obter um intervalo com tão pouca precisão e
proponha um procedimento para aumentá-lo. R: P( 0,19 < p < 0,50) = 95%

Exercício 127: Em uma amostra aleatória de 1598 escolares de Porto Alegre, foram
encontradas 349 crianças (21,8%) com distúrbios de escrita (Borges-Osório, 1985). Com base
nessa amostra, estime, com 99% de confiança, a proporção de escolares porto-alegrenses com
esse problema. R: P( 18,8% < p < 24,8%) = 99%

Lista de Exercícios: Estimação

1. Quatro analistas analisaram uma solução de soda de concentração desconhecida e


encontraram os seguintes resultados:

Analista Determinações (%) ̅ S


Analista 1 10,2 – 9,9 – 10,1 – 10,4 – 10,2 – 10,4 10,20 0,190
Analista 2 9,9 – 10,2 – 9,5 – 10,4 – 10,6 – 9,4 10,00 0,486
Analista 3 10,6 – 10,5 – 10,7 – 10,6 – 10,8 – 11,00 10,70 0,179
Analista 4 10,1 – 9,9 – 10,2 – 9,9 – 11,1 – 10,0 10,20 0,456

199
Supondo que a concentração real da solução é 10,1% podemos afirmar que a média da
população é igual à média do analista 3?
O analista 3 apresenta um erro sistemático em suas análises?
Qual é a estimativa do erro sistemático?

2. Em uma amostra de 20 cavalos puro-sangue manga-larga, a média ± DP para o nível de


albumina no soro foi 8,68 ± 0,84 g/100mL (Medeiros e colaboradores, 1977). Calcule o
intervalo de 95% de confiança que estime a média do nível de albumina sérica nessa raça de
equinos. R: P( 8,29 < µ < 9,07) = 95%

3. Dez amostras são retiradas de um lote de aço e analisadas. O teor de carbono apresentou
uma média de 6,30% e desvio-padrão de 0,030%. Qual é o intervalo de confiança no nível de
95%, da média do lote?

4. Certa bióloga mensurou a quantidade de potássio em 8 amostras da água de um rio e obteve


os dados a seguir (Melo, 1993). Estime, com 95% de confiança, o conteúdo de potássio nesse
curso d’agua.
X (mg/L) 1,0 0,7 0,9 1,1 0,8 0,9 0,8 1,0

R: P( 0,79 < µ < 1,01) = 95%

5. O teor de cobre (PPM) foi medido em 43 plantas que cresceram em uma área que sofreu um
processo de corte seguido de queima do material lenhoso. A média foi 15,2 ppm e o desvio
padrão foi 4,04 (Girardi-Deiro, 1999). Qual o verdaeiro teor de cobre na vegetação que cresce
em áreas que sofreram esse tipo de manejo? Use α =5% R: P( 13,95 < µ < 16,45) = 95%

6. Em 1977, nos Estados Unidos, os limites permitidos de descarga de hidrocarbonetos (HC) e


de monóxido de carbono (CO) pelos automóveis eram 1,5 grama por milha para o HC e 15
gramas por milha para o CO. Uma análise dos gases expelidos por 6 automóveis,
aleatoriamente escolhidos como amostra, e todos de um mesmo modelo do ano de 1977,
mostrou os seguintes resultados para os níveis de HC: 1,27 – 1,44 – 1,28 – 1,15 – 1,39 – 1,32.
Determine um intervalo de 90% de confiança para a média de HC expelido. R: P( 1,23 < µ <
1,39) = 90%

200
7. Sete medidas de pH foram obtidas para uma solução tampão:
5,12 – 5,20 – 5,15 – 5,17 – 5,16 – 5,19 – 5,15
Calcule o intervalo de confiança (com 99%) para o valor verdadeiro de pH. R: P( 5,12 < µ <
5,2) = 99%

8. Durante o período de março/1990 a janeiro/1991, foram avaliados todos os pacientes


admitidos na unidade de lactentes de alto risco de um hospital pediátrico de Porto Alegre
(Pinto e colaboradores, 1996). Dos 106 que apresentavam uma doença com componente
genético, 14 (13,2%) eram casos de doenças devidas a genes autossômicos recessivos.
Supondo que essa amostra possa ser considerada representativa, estime com 0,95 de confiança
a percentagem verdadeira de casos de doenças devidas a genes deste tipo, na população de
recém-nascidos internados por distúrbios genéticos em unidades de alto risco. R: P( 0,072 < p
< 0,192) = 95%

9. O teor de cobre (PPM) foi medido em 43 plantas que cresceram em uma área que sofreu um
processo de corte seguido de queima do material lenhoso. A média foi 15,2 ppm e o desvio
padrão foi 4,04 (Girardi-Deiro, 1999). Qual o verdadeiro teor de cobre na vegetação que
cresce em áreas que sofreram esse tipo de manejo? Use α =5%

10. Em 1977, nos Estados Unidos, os limites permitidos de descarga de hidrocarbonetos (HC)
e de monóxido de carbono (CO) pelos automóveis eram 1,5 grama por milha para o HC e 15
gramas por milha para o CO. Uma análise dos gases expelidos por 6 automóveis,
aleatoriamente escolhidos como amostra, e todos de um mesmo modelo do ano de 1977,
mostrou os seguintes resultados para os níveis de HC: 1,27 – 1,44 – 1,28 – 1,15 – 1,39 – 1,32.
Determine um intervalo de 90% de confiança para a média de HC expelido.

11. Num depósito, uma amostra de 100 latas de um certo produto alimentar armazenadas para
depois serem distribuídas foram verificadas constatando-se que 5 dessas latas ultrapassaram o
prazo de validade. Construa e interprete o Intervalo de confiança 95% para a proporção
verdadeira de latas que já ultrapassaram o prazo de validade.

12. Os resíduos industriais jogados nos rios, muitas vezes, absorvem o oxigênio necessário à
respiração dos peixes e de outras formas de vida aquática. Uma lei estadual exige um valor
médio não inferior a 5ppm de oxigênio dissolvido, cujo conteúdo seja suficiente para manter a

201
vida aquática. Seis amostras de água retiradas de um rio revelaram os índices: 4,9 – 5,1 – 4,9 –
5,0 – 5,0 e 4,7 ppm de oxigênio dissolvido. Construa e interprete o intervalo com 95% de
confiança para a verdadeira média de oxigênio dissolvido, em ppm.

13. Em um experimento, 320 de 400 sementes germinaram. Determine o intervalo de


confiança de 99% para a verdadeira proporção de sementes que germinam. Para realizar o
teste de germinação, quantas sementes serão necessárias utilizar, se desejamos um intervalo de
confiança de 99%, com precisão de 4 pontos percentuais?

14. De 1.000 lavouras de arroz, foi levantada uma amostra de 25 lavouras e a informação a
respeito da produtividade permitiu o cálculo do rendimento médio, por hectare, que foi de
3.400kg com desvio padrão de 150 kg.
a) Determine intervalos com grau de confiança de 95% e 99% para o verdadeiro
rendimento médio.
b) Que tamanho deve ter a amostra para que seja de 95% o grau de confiança na
estimativa intervalar 3.400 ±100?

15. Da produção de compotas de pêssego, da safra 1979/1980, de uma determinada indústria,


foram examinadas 30 latas e três delas estavam fora dos padrões para a exportação.
Determinar um intervalo de confiança, com um grau de confiança de 95%, para a verdadeira
proporção de latas que estão fora dos padrões para exportação.

16. Num experimento de campo, no delineamento inteiramente casualizado, que envolve o


estudo de quatro tratamentos, o tratamento A, com nove repetições, apresentou uma média de
1.500 kg/ ha de feijão. Desse mesmo experimento, temos uma estimativa do desvio padrão
s=180 kg/ha, com 30 graus de liberdade. Obter um intervalo de confiança para a média
verdadeira do tratamento A, a um grau de confiança de 95%.

17. De uma amostra de 26 valores de número de colónias de Salmonella typhimurium em


placas que contêm infusão de Bauhinia fortificata, encontrou-se um desvio padrão igual a 47
colónias, e média igual a 76,15 colónias. Construa um intervalo de confiança de 95% para o
número médio de colónias.

202
18. Uma amostra aleatória de 60 progénies indica que 70% delas apresentam resistência à
antracnose. Construir um intervalo de Confiança para p, a proporção de progênies resistentes à
antracnose, com 95% de confiança.

19. De estudos anteriores sabe-se que o desvio padrão da altura de plantas de um determinado
híbrido de milho é ơ = 0, 80 m. Selecionada uma amostra de 72 plantas desse híbrido,
observou-se uma média de 2,10 m. Construa um intervalo de confiança de 99% para a média
populacional.

20. Para avaliar o peso médio de uma nova safra de limões, o administrador de uma fazenda
obteve os pesos de 50 limões novos encontrando uma média de 115,5 gramas, com um desvio-
padrão de 20,4 gramas. Construa e interprete confiança 95% para o verdadeiro peso médio dos
limões.

21. Em certo distrito, foi efetuada uma sondagem a 2500 eleitores dos quais 800 declararam ir
votar no candidato do partido A. Construa um intervalo de confiança de 90% para a proporção
de votos no candidato do partido.

22. O tempo entre a carga e o final do processo (minutos) de um aço carbono em um tipo de
fornalha aberta foi determinado para cada aquecimento em uma amostra de tamanho 46,
resultando em um tempo médio de 382,1 minutos com um desvio-padrão de 31,5 minutos.
Calcule e interprete:
a) Intervalo de Confiança 95% para a média; R: P( 372,7 < µ < 391,5) = 95%
b) Intervalo de Confiança 99% para a média; R: P( 369,6 < µ < 394,6) = 99%

23. Para estimar o tempo médio de atendimento em um restaurante do tipo fast-food um


pesquisador anotou o tempo gasto por 40 garçonetes para completar um pedido-padrão
(consistindo de 1 hambúrguer, uma fritas e uma bebida). As garçonetes levaram, em média,
4,3 minutos com um desvio-padrão de 2,4 minutos, para completar os pedidos. Construa e
interprete o intervalo de confiança 95% para o verdadeiro tempo médio necessário para
completar um pedido-padrão.R: P( 4,18 < µ < 4,42) = 95%

203
24. Para avaliar o peso médio de uma nova safra de limões, o administrador de uma fazenda
obteve os pesos de 50 limões novos encontrando uma média de 115,5 gramas, com um desvio-
padrão de 20,4 gramas. Construa e interprete confiança 95% para o verdadeiro peso médio dos
limões. R: P( 109,8 < µ < 121,2) = 95%

25. Uma amostra de 539 lares de certa cidade foi selecionada e determinou-se que em 133
deles havia pelo menos uma arma de fogo. Usando um nível de confiança de 95% calcule e
interprete o Intervalo de Confiança para a verdadeira proporção de lares com pelo menos uma
arma de fogo. R: P( 20,7% < p < 28,7%) = 95%

26. Em certo distrito, foi efetuada uma sondagem a 2500 eleitores dos quais 800 declararam ir
votar no candidato do partido A. Construa um intervalo de confiança de 90% para a proporção
de votos no candidato do partido. R: P( 30% < p < 34%) = 90%

27. Uma centena de componentes foi ensaiada e 93 deles funcionaram mais de 500 horas.
Determinar um intervalo de confiança 95% para a proporção. R: P( 91% < p < 95%) = 95%

28. Quarenta e uma pessoas, de uma amostra aleatória de 500 trabalhadores, estão
desempregadas. Calcule um intervalo de confiança 95% para esta proporção. R: P( 6,2% < p
< 10,2%) = 95%

29. Em uma pesquisa de opinião com 600 pessoas entrevistadas, constatou-se que 240
responderam ―sim‖ a determinada pergunta feita. Estime, com 95% de confiança, a proporção
de pessoas com essa mesma opinião na população. R: P( 36% < p < 44%) = 95%

204
8. AMOSTRAGEM

“Frederick Mosteller, estatístico e professor em Harvard disse,


certa vez, que é possível mentir usando estatísticas, mas que se
mente mais, e melhor, sem estatísticas. É preciso entender que
as amostras podem levar a conclusões erradas. Contudo, as
opiniões pessoais, sem base em dados, levam, em geral, a
conclusões muito mais erradas.”

8.1 Como selecionar uma amostra

Como vimos nos exemplos anteriores, um pesquisador trabalha com apenas uma parte da
população, isto é, com uma amostra. A maneira como é selecionada uma amostra é de extrema
importância, pois é através dos dados amostrais que serão calculadas as estimativas dos
parâmetros desconhecidos da população e, também, serão feitas afirmativas sobre eles.
E fácil de imaginar que é fundamental o pesquisador ter um bom conhecimento da
população, pois quanto mais ele conhecê-la, mais informativa será a amostra selecionada. Por
exemplo, se um biólogo deseja fazer um estudo sobre a poluição de uma baía em peixes do
gênero Bagre, ele vai precisar coletar uma amostra de peixes desse gênero e avaliar o número
de micronúcleos em cinco mil células. Para se ter uma amostra que permita tirar conclusões
válidas, é necessário ter um bom conhecimento sobre o Comportamento desse tipo de peixe.
Para se ter uma amostra que permita tirar conclusões válidas, é necessário ter um bom
conhecimento sobre o comportamento desse tipo de peixe.

Quando uma pesquisa/ estudo analisa os dados de todo o universo/ grupo que ele tenta
compreender, dizemos que está trabalhando com a POPULAÇÃO. Entretanto, muitas vezes o
pesquisador trabalha com tempo, energia e recursos econômicos limitados, tornando possível a
análise de apenas parte do grupo de dados retirados da população. Este grupo denomina-se
AMOSTRA.
AMOSTRA é um subconjunto de indivíduos extraídos de uma população [Levin,
1987]. O processo de escolha dos indivíduos que pertencerão a uma AMOSTRA é
denominado AMOSTRAGEM. Amostragem também pode ser definida como o conjunto de
205
procedimentos e técnicas para extração de elementos da população para compor a amostra. O
objetivo da amostragem é obter amostras representativas das populações em estudo.
As técnicas de amostragem se dividem em: probabilísticas e não-probabilísticas. As
técnicas probabilísticas são aquelas onde todos elementos da população têm uma
probabilidade não nula de seleção. Nas técnicas não-probabilísticas não podemos garantir que
todos elementos têm probabilidade de serem selecionados para a amostra.

8.1.1 Técnicas de Amostragem Probabilísticas


 Amostra Aleatória Simples
Uma amostra aleatória simples é selecionada tal que todos os elementos da população
tenham a mesma chance de serem selecionados.
 Amostra Sistemática
Uma amostra sistemática poderá ser tratada como uma amostra aleatória simples se os
elementos da população estiverem ordenado aleatoriamente, e a seleção será realizada
através da escolha sistemática, por exemplo, de uma a cada cinco elementos.
 Amostra Estratificada
Esta técnica consiste em dividir a população em subgrupos, que são denominados
estratos. Estes estratos devem ser internamente mais homogêneos do que a população
toda, com respeito às variáveis em estudo.
 Amostra por conglomerados
Chamamos de conglomerado a um agrupamento de elementos da população. Por
exemplo, numa população de alunos de um escola, as turmas formam conglomerados
de alunos.

8.1.2 Técnicas de Amostragem Não-Probabilísticas


 Amostra por cotas
Nesta técnica a população é vista de forma segregada, dividida em diversos subgrupos.
Numa pesquisa socioeconômica, por exemplo, a população pode ser dividida por faixas
de renda, faixas de idade, nível de instrução, etc.
 Amostra por julgamento
Os elementos escolhidos são aqueles julgados como típicos da população que se deseja
estudar.
 Amostra por fluxo

206
Os elementos são selecionados através do fluxo destes em determinado local. Por
exemplo, considere uma pesquisa referente à opinião das pessoas sobre a administração
da cidade. A amostra pode ser selecionada considerando o fluxo das pessoas no centro
de Porto Alegre.

As situações de amostragem, ciências biológicas e agronômicas, na prática, são


inúmeras e podem ser mais ou menos complexas.
Vejamos alguns exemplos de seleção de amostras.

Exemplo 65. Desejamos desenvolver uma pesquisa socioeconômica sobre os agricultores


integrados a uma empresa, na qual estamos interessados em diversos parâmetros relativos à
atividade agropecuária. A população é constituída por todos os agricultores integrados à
empresa. Podemos definir várias variáveis associadas a cada agricultor ou à sua propriedade
agrícola. Essas variáveis serão observadas sobre uma amostra de, digamos, 200 agricultores.
Para selecionar os agricultores que participarão da amostra, sorteamos, com regras bem
definidas, 200 fichas de um fichário, no qual constem todos os agricultores integrados.

Exemplo 66: Numa pesquisa sobre propriedades químicas de uvas da cultivar Cabernet
Sauvignon, num parreiral com idade de ± 6 anos, o pesquisador deseja estudar o teor médio de
açúcar nas seguintes condições:
Condição 1: plantas sadias;
Condição 2: plantas com infecção média da virose do enrolamento;
Condição 3: plantas com infecção forte da virose do enrolamento.

As populações são formadas por todas as plantas adultas da cultivar cabernet na região
considerada para cada uma das condições. Nesse caso, o pesquisador seleciona
intencionalmente 10 plantas, para cada condição, de um parreiral. Portanto, temos três
amostras, cada uma de tamanho igual a 10.

Exemplo 67: Um pesquisador deseja comparar os teores médios de proteína de três cultivares
de Para executar o experimento ele dispõe de uma área de terra homogênea (mesma
fertilidade, mesma umidade, etc.) de tamanho 288 m2. Portanto, as três cultivares vão ser
comparadas em igualdade de condições. Um princípio básico da experimentação é o uso de
207
repetições, ou seja, são necessários pelo menos dois valores para cada cultivar. Assim, a área
total vai ser dividida em 12 canteiros de tamanhos 6m x 4 m, totalizando 24 m2/canteiro. O
número de repetições (tamanho da amostra) por cultivar é 4.

1 2 3
Cultivar3 Cultivar 1 Cultivar 1
4 5 6
Cultivar 2 Cultivar 1 Cultivar 2
7 8 9
Cultivar 2 Cultivar 1 Cultivar 3
10 11 12
Cultivar 2 Cultivar 3 Cultivar 3

Figura: Croqui de campo, indicando o processo de casualização do experimento.

A aleatorização das três cultivares foi feita do seguinte modo:


1) Enumeraram-se os canteiros de 1 a 12, como indicado no canto superior direito da
Figura 6.3;
2) leram-se números na tabela de números aleatórios (Apêndice 7), com dois algarismos,
selecionando apenas os valores que estão na faixa de 1 a 12 e desprezando-se os valores
repetidos. Escolheu-se a sexta linha para iniciar a leitura dos números, da esquerda para a
direita, produzindo a seguinte listagem: {12, 1, 11, 9, 5, 8, 3, 2, 7, 10, 6, 4};
3) os canteiros 12, l, 11 e 9 receberam a cultivar 3; os canteiros 5, 8, 3 e 2 receberam a
cultivar 1 e os canteiros 7, 10, 6 e 4 receberam a cultivar 2. Esta ordem das cultivares
também foi obtida por sorteio.

Exercício 128: Um grupo de 86 pessoas preencheu uma ficha para solicitação de emprego no
RH de uma empresa. Cada candidato podia assinalar a opção de cargo, de acordo com a sua
própria competência e experiência.

Exercício 129: Levando em conta as opções de cargo, os candidatos foram separados em


quatro grupos diferentes, com quantidades, respectivamente, de N1 = 24, N2= 30, N3=19, N4=
13. Sabendo que foi realizada uma amostragem estratificada proporcional contendo 4
elementos do primeiro estrato, determine: a) O número total de elementos da amostra; b) O
número de elementos selecionados em cada estrato.

208
Exercício 130: Uma indústria alimentícia produz 6.800 latas de ervilha por semana. O
departamento de qualidade fará testes para verificação do peso mediante uma amostra
sistemática de 25 latas de ervilha. Considere que as latas estão numeradas de 1 a 6.800.
Sabendo que a 1ª lata selecionada foi a nº 36:
a) Quais são então os números das 4 latas seguintes?
b) Qual o número da última lata selecionada?

Exercício 131: Numa indústria, há 655 operários. Qual o tamanho de uma amostra aleatória
que represente 11% da população?

Exercício 132: Uma empresa prestadora de serviço mantém um cadastro de 2.185 clientes, e
pretende verificar o interesse de seus clientes por um novo produto; para isso, seleciona uma
amostra sistemática de 70 clientes.
a) Supondo que o primeiro segurado (obtido por sorteio) seja o de número 21, determine
os números dos próximos cinco clientes selecionados.
b) Qual o número do último cliente selecionado?

As técnicas estatísticas que veremos nas seções subsequentes pressupõem que a amostra
foi selecionada aleatoriamente ou por algum processo equivalente. Embora, para os dados de
uma pesquisa, nem sempre uma amostra aleatória é possível, tomando-se algumas precauções
especiais no delineamento da pesquisa, esta suposição (amostra aleatória) pode ser pertinente,
por exemplo, como no experimento do Exemplo 6.8, fazendo-se a casualização (sorteio) dos
tratamentos às unidades experimentais (BOX et al., 1978).

209
9 Determinação do tamanho da amostra
Em pesquisas, uma etapa de grande importância é a determinação do tamanho da
amostra que será utilizada para o levantamento dos dados.
A determinação do tamanho da amostra depende de três fatores:

 Nível de confiança (1-): o pesquisador é que vai determinar o nível de confiança que
deseja;
 Precisão (eo): em toda experimentação ou pesquisa, a utilização da amostragem está
condicionada a um erro amostral, que corresponde à diferença entre as estimativas
amostrais e os parâmetros populacionais;
 Tipo de investigação: depende das características populacionais a serem investigadas.

Serão apresentadas aqui as fórmulas para o cálculo do tamanho de amostras quando se


deseja estimar a média ou a proporção de uma população.

Relembrando:

Parâmetro: Características da população.


Estatística: Característica descritiva de elementos de uma amsotra
Estimativa: Valor acusado por uma estatística que estima o valor de um parâmetro
populacional.
Erro amostral: diferença entre o valor que a estatística pode acusar e o verdadeiro
valor do parâmetro que se deseja estimar.
Erro amostral tolerável: quanto um pesquisador admite errar na avaliação dos
parâmetros de interesse numa população:

Ex: o resultado de uma pesquisa eleitoral:


Candidato A = 20%, com 2% de erro amostral ( 18% - 22%).

210
Quando desejamos coletar uma amostra aleatória de dados que será utilizada para
estimar um media populacional  quantos valores amostrais devem ser obtidos? De acordo
com TRIOLA (2008), a determinação do tamanho de uma amostra é muito importante, pois
amostras desnecessariamente grandes gastam tempo e dinheiro, e amostras muito pequenas
podem levar a resultados pobres.
Não podemos evitar a ocorrência do ERRO AMOSTRAL, porém podemos limitar seu
valor através da escolha de uma amostra de tamanho adequado. Obviamente, o ERRO
AMOSTRAL e o TAMANHO DA AMOSTRA seguem sentidos contrários (conforme
apresentação da figura abaixo). Quanto maior o tamanho da amostra, menor o erro cometido e
vice-versa.

TAMANHO DA AMOSTRA

Menor Maior

ERRO AMOSTRAL

Para chegar a este número ideal, vamos considerar a expressão utilizada na construção
dos Intervalos de Confiança que representa o erro máximo de estimação:


  z.
n
Ao isolarmos o valor de n na fórmula obtemos o seguinte resultado (para o caso de
conhecemos a variância populacional):

Z – valor da tabela Normal que corresponde ao


z .
2 2 grau de confiança desejado

n  = desvio-padrão
2  = margem de erro ou erro máximo de
estimativa

211
9.1 Cálculo tamanho da amostra para estimar uma média - é
preciso considerar duas situações:

caso 1: cálculo do tamanho da amostra para estimar uma média, quando a variância
populacional conhecida

População Infinita População Finita

 (z  )  
2
(z  ) 2  2 N
n 2  n 2

 eo  e ( N  1)  (z  ) 2  2
2
o
2

Onde:

z = distribuição normal padrão


σ = desvio padrão populacional
e0 = margem de erro
N = Tamanho da população
α = probabilidade de erro na estimação do intervalo (nível de significância).

Exemplo 68: Qual o tamanho de amostra necessário para estimar o tempo médio de que um
vendedor de uma loja de móveis gasta com cada cliente, admitindo erro de um minuto, para
mais ou para menos, para obter um nível de confiança de 99%. Suponha σ = 12 minutos.

Exemplo 69: Um comprador deseja estimar o valor médio das compras por cliente em uma
farmácia de uma rodoviária. Com base em dados de outras rodoviárias similares, o desvio
padrão de tais valores de vendas é estimado em cerca de σ = $2,13. Qual o tamanho mínimo
que deveria ter uma amostra aleatória se ele deseja estimar a média de vendas dentro de $ 1,00
e com uma confiança de 99%? R: n = 31

Exercício 133: Um economista deseja estimar a renda média para o primeiro ano de trabalho
de um bacharel em direito. Quantos valores de renda devem ser tomados, se o economista
deseja ter 95% de confiança em que a média amostral esteja a menos de R$ 500,00 da
verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para as
rendas, σ = R$6250,00. R: n = 601

Exercício 134: Um técnico precisa determinar o tempo médio gasto para perfurar três orifícios
numa peça de metal. Qual o tamanho da amostra que deve ser usado, para que tenhamos 95%
de confiança que sua média amostral esteja a menos de 15 segundos da verdadeira média,
sendo que, por valores históricos sabe-se que o desvio-padrão da população é 40 segundos? R:
n = 28

212
Quando não se conhece o desvio padrão da população, pode-se substituí-lo pelo da
amostra, que é obtido através de uma pré-amostra (amostra piloto), de tamanho n1.

Assim, tem-se:

caso 2: cálculo do tamanho da amostra para estimar uma média, quando a variância
populacional desconhecida

A expressão para o cálculo da amostra anteriormente utilizada exige que se utilize o


desvio-padrão populacional σ, mas se este for desconhecido, devemos poder utilizar um valor
preliminar obtido de duas formas:
- Através de um estudo piloto com base na primeira coleção de pelo menos 31 valores
amostrais selecionados aleatoriamente, calcular o desvio-padrão amostral S e utilizá-lo
em lugar de σ.
- Através da utilização do desvio-padrão obtido em uma outra pesquisa semelhante
(características populacionais, mensuração das variáveis) da que está sendo realizada.

Quando não conhecemos a variância populacional, temos a seguinte expressão:

População Infinita População Finita

 (t ,  ) s 
2
(t ,  ) 2 s 2 N
n 2
 n 2

 e o  e ( N  1)  ( t  ,  ) 2 s 2
2
o
2

onde:  = n1 – 1 graus de liberdade.

n1 = pré-amostra (amostra piloto)


t = distribuição t de Student
s = desvio padrão amostral
e0 = margem de erro
N = Tamanho da população
α = probabilidade de erro na estimação do intervalo (nível de significância).

Considerações após o cálculo do tamanho da amostra:

 Se n < n1, então a pré-amostra (amostra piloto) selecionada, de tamanho n1, foi suficiente
para garantir a precisão desejada;
 Se n > n1, deve-se completar a pré-amostra, acrescentando elementos até atingir o valor de
―n‖, que garanta a precisão desejada.

213
Exemplo 70: Para estimar o preço médio, uma amostra de 6 produtos foi retirada, sem
reposição, de uma população aproximadamente normal, com 150 produtos e forneceu
variância amostral s2 = R$ 10,00. Qual deve ser o tamanho de uma amostra, para que a
estimativa do preço médio forneça um erro de R$ 2,00, no máximo, com 90% de confiança?
R: n = 10

Exemplo 71: Foram feitas vinte medidas do tempo total gasto para a precipitação de um sal,
em segundos, numa dada experiência, obtendo-se: 13 – 17 – 15 – 14 – 12 – 16 – 14 – 15 – 15
– 13 – 16 – 14 – 15 – 15 14 – 16 – 16 – 15. Esses dados são suficientes, pergunta-se, para
estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95% de certeza?
Caso negativo, qual o tamanho da amostra adicional necessária?

Exercício 135: A diretoria industrial de uma fábrica de cimento constatou que uma amostra
aleatória formada por 68 sacos de 50 kg de um lote formado por 2.000 sacos apresentou um
desvio padrão amostral do peso igual a 560g. Assumindo um erro máximo tolerável associado
à média populacional igual a 300g e um nível de confiança igual a 95%, calcule o tamanho da
amostra a ser analisada na inferência da média populacional do peso de todo o lote. R: n = 14

Exercício 136: Sorteou-se uma amostra aleatória simples, sem reposição, de 100 estudantes
do Curso de Engenharia Agronômica e solicitou-se a eles que anotassem suas despesas com
alimentação no período de um mês. O resultado da amostra foi uma despesa média de 40 u.m.
e um desvio-padrão de 10 u.m. (u.m.= unidades monetárias). Qual o tamanho da amostra
necessário para que tenhamos 95% de confiança de que o erro na nossa estimativa são seja
superior a 1,0 u.m.?

Exercício 137: Uma amostra de 20 crianças foi retirada de uma população aproximadamente
normal, fornecendo os seguintes resultados: média amostral 3,95 e desvio padrão 1,36.
Quantas crianças ainda devem ser incluídas na amostra, para estimar a média de idade, com α
= 1% e erro máximo de um ano?

214
9.2 Cálculo do tamanho da amostra para estimar uma
proporção populacional

População Infinita População Finita

(z  ) 2 p * q * (z  ) 2 p * q * N
n 2
n 2

e o2 e o2 ( N  1)  (z  ) 2 p * q *
2

onde: p * = proporção amostral (pode ser obtida através de uma pré-amostra de n1 elementos).

Comentários:

 Aqui também valem as duas considerações a respeito da pré-amostra, vistas anteriormente;


 Às vezes, não se tem informação a respeito de p * . Neste caso, adota-se p * = q * = 50%, o
que levará a um tamanho de amostra superavaliado mas garantindo a precisão desejada,
embora podendo ter como consequência, aumentos no custo e no tempo de amostragem e,
consequentemente, na pesquisa;

Exemplo 72: Um granjeiro, preocupado com o número de ovos que deve utilizar para obter
certo número de pintinhos, selecionou uma amostra de 500 ovos e verificou que 92% deles
produziam pintinhos saudáveis. Determine a quantidade de ovos que o granjeiro deve
selecionar, para estimar, com 95% de confiança, a proporção de pintinhos que nascerão,
admitindo, no máximo, 2% de erro.

Exemplo 73: Quantos elementos deve ter a amostra para estimar a proporção das 3.000
empresas que optaram por um novo tipo de imposto, considerando α=5% e erro máximo 4%

Exercício 138: O IBOPE está interessado em estimar a proporção de residências que assistem
ao programa do Faustão. Qual o número de residências que se deve analisar para ter 95% de
confiança e margem de erro máximo de 0,03 para a estimativa? R: n = 1068

Exercício 139: Qual deve ser o tamanho da amostra que avalie a proporção de mulheres que
trabalham como arquivistas numa grande empresa privada, com 95% de confiança e erro
máximo de estimativa de 10%? R: n = 97
215
Exercício 140: Numa pesquisa para eleição presidencial, qual deve ser o tamanho de uma
amostra aleatória simples, se deseja garantir um erro amostral não superior a 2%? R: n = 2401

Exercício 141: Numa empresa com 1000 funcionários, deseja-se estimar a percentagem dos
favoráveis a certo treinamento. Qual deve ser o tamanho da amostra aleatória simples que
garanta um erro amostral não superior a 5%? R: n = 278

Exercício 142: Uma empresa de pesquisa eleitoral foi contratada por um partido político com
o objetivo de investigar a preferência dos eleitores pelo candidato da situação na próxima
eleição presidencial. Sabe-se que a empresa e o partido concordaram em usar um nível de
confiança igual a 95% e um erro máximo igual a 4%. Calcule os tamanhos das amostras
necessárias nos seguintes casos.

Município Universo de eleitores Valor suposto para p

a) Gigantópolis Muito grande, considerado infinito Nenhum


b) Miracema do Sul 5.000 0,6
c) Bela Morada do Oeste 30.000 Nenhum

R: a) n = 601; b) n= 517; c) n = 589

Exercício 143: Uma pesquisa de mercado tem como objetivo estimar a proporção de pessoas
que consomem o biscoito Delícia da Manhã. Pede-se:
a) Que tamanho de amostra devemos escolher se queremos que, com probabilidade 0,92,
a estimativa não se desvie do verdadeiro valor por mais de 0,04?
b) Se tivermos a informação adicional de que a proporção de consumo do tal biscoito é no
máximo de 35%, qual então deve ser o tamanho da amostra?
c) Decidimos colher uma amostra de tamanho 130. Qual o erro máximo que cometemos
com probabilidade 0,96?
d) Para uma amostra de tamanho 150, qual a probabilidade de que o erro máximo seja
0,17?

216
Obs: Como a variância aparece no numerador das fórmulas, conclui-se que quanto
mais heterogênea for a população em estudo, maior deverá ser o valor de n.

Lista de Exercícios: Amostragem

1. Uma pequena indústria fabricante de gêneros alimentícios deseja realizar uma pesquisa em
um supermercado de uma região de São Leopoldo com o objetivo de estimar a proporção de
consumidores que preferem o leite embalado em sacos plásticos. Sabe-se que supermercado
atende aproximadamente 2000 clientes. Qual deve ser o tamanho mínimo da amostra
considerando um nível de confiança de 95% e um erro máximo de estimação de 5%?
2. De uma amostra de 100 peixes da espécie Xenomelaniris brasiliensis, coletada na Armação
do Pântano do Sul, Florianópolis, SC, verificou-se que 57 deles apresentavam comprimento
total maior que 50 mm. Com base nessa informação, determine o intervalo de 95% para a
verdedaeira proporção de peixes com comprimento total acima de 50 mm. Qual o tamanho de
amostra necessário para estimar a verdadeira proporção com precisão de cinco pontos
percentuais, usando um grau de confiança de 95%?

3. O diâmetro médio de Biomphalaria taenagophila, examinada uma amostra de 35 animais,


foi de 0,871 mm com um desvio-padrão de 0,057 mm.
a) Dê a estimativa por intervalo do verdadeiro diâmetro médio utilizando um nível de
confiança de 95%.
b) Que tamanho de amostra será necessário para produzir um intervalo de confiança de
95% para a verdadeira média, com uma precisão de 2% da média?

217
4. Em um experimento, 320 de 400 sementes germinaram. Determine o intervalo de confiança
de 99% para a verdadeira proporção de sementes que germinam. Para realizar o teste de
germinação, quantas sementes serão necessárias utilizar, se desejamos um intervalo de
confiança de 99%, com precisão de 4 pontos percentuais?

5. Sorteou-se uma amostra aleatória simples, sem reposição, de 100 estudantes do Curso de
Engenharia Agronômica e solicitou-se a eles que anotassem suas despesas com alimentação
no período de um mês. Há 500 estudantes matriculados no curso. O resultado da amostra
foi uma despesa média de 40 u.m. e um desvio-padrão de 10 u.m. (u.m.= unidades
monetárias).
a) Construa um intervalo de 95% de confiança para a verdadeira média.
b) Qual o tamanho da amostra necessário para que tenhamos 95% de confiança de que
o erro na nossa estimativa são seja superior a 1,0 u.m.?

6. De estudos anteriores sabe-se que o desvio padrão da altura de plantas de um determinado


híbrido de milho é ơ = 0, 80 m. Que tamanho deve ter uma amostra para que o intervalo 2,
10 ± 0, 20 tenha 99% de confiança?

7. De uma amostra de 26 valores de número de colónias de Salmonella typhimurium em


placas que contêm infusão de Bauhinia fortificata, encontrou-se um desvio padrão igual a 47
colónias, e média igual a 76,15 colónias. Que tamanho deve ter uma amostra para que o
intervalo 76, 15 ± 5 tenha 95% de confiança?

8. Uma máquina enche pacotes de café com um desvio padrão igual a 10 g. Ela estava
regulada para enchê-los com 500 g, em média, Agora ela está desregulada e queremos saber
qual a nova média verdadeira (populacional). Que tamanho de amostra será necessário para
produzir um intervalo de confiança para a verdadeira média populacional, com uma precisão
de 3,5 g de café para mais e para menos. Use um grau de confiança de 99%.

9. Um assistente social deseja saber o tamanho da amostra (n) necessário para determinar a
proporção da população atendida por uma Unidade de Saúde, que pertence ao município de
Cariacica. Não foi feito um levantamento prévio da proporção amostral e, portanto, seu valor é
desconhecido. Ela quer ter 90% de confiança que sua o erro máximo de estimativa (E) seja

218
10. O mercúrio, na sua forma elementar, é absorvido com dificuldade pelo intestino, mas o
metil-mercúrio, acumulado em organismos aquáticos como os peixes, é facilmente absorvido
pelo trato intestinal humano. Um grupo de pesquisadores brasileiros deseja monitorar a
contaminação por esse metal em populações ribeirinhas amazônicas. Em um estudo feito em
pessoas que vivem às margens do Rio Negro, Barbosa e colaboradores (2001) dosaram o
metil-mercúrio (% sobre o Hg total) em fios de cabelo de 17 homens, obtendo média igual a
73 e desvio padrão igual a 15. Use as informações deste trabalho para calcular o tamanho
amostral mínimo necessário para estimar a média verdadeira para o metil-mercúrio nessas
populações, com 0,95 de confiança e erro de estimação de 3 unidades.

11. Uma pesquisa é planejada para determinar as despesas médicas anuais das famílias dos
empregados de uma grande empresa. A gerência da empresa deseja ter 95% de confiança de
que a média da amostra está no máximo com uma margem de erro de 50 reais da média real
das despesas médicas familiares. Um estudo-piloto indica que o desvio-padrão pode ser
calculado como sendo igual a 400 reais.

a) Qual o tamanho de amostra necessário?


b) Se a gerência deseja estar certa em uma margem de erro de 25 reais, que tamanho de
amostra será necessário?

12. O teste de QI padrão é planejado de modo que a média seja 100 e o desvio-padrão para
adultos normais seja 15. Ache o tamanho da amostra necessária para estimar o QI médio dos
instrutores de estatística. Queremos ter 99% de confiança em que nossa média amostral esteja
a menos de 1,5 pontos de QI da verdadeira média. A média para esta população é obviamente
superior a 100, e o desvio-padrão é provavelmente inferior a 15, porque se trata de um grupo
com menor variação do que um grupo selecionado aleatoriamente da população geral;

dará um tamanho de amostra no mínim


determine o tamanho da amostra necessário.

13. Um técnico precisa determinar o tempo médio gasto para perfurar três orifícios numa peça
de metal. Qual o tamanho da amostra que deve ser usado, para que tenhamos 95% de
confiança que sua média amostral esteja a menos de 15 segundos da verdadeira média, sendo
que, por valores históricos sabe-se que o desvio-padrão da população é 40 segundos?

219
14. Deseja-se estudar as percentagens de ocorrências de diversos atributos das famílias de uma
comunidade de 600 famílias. Qual deve ser o tamanho de uma amostra aleatória simples,
considerando em cada estimativa um erro Maximo de 4% e nível de 95% de confiança?

15. Um estudo deseja saber a proporção de eleitores que se declaram indecisos em relação a
certo candidato. Qual o (real) tamanho mínimo de amostra para uma confiança de 95% e:
a) um erro máximo de estimação de 5%
b) um erro máximo de estimação de 3%
c) um erro máximo de estimação de 1% . Compare os resultados.

16. Uma grande loja de departamentos deseja realizar uma pesquisa com seus clientes que
possuem cartão da loja. Ao todo são 4500 clientes, qual o tamanho da amostra que deve ser
adotado com um erro máximo de estimação de 5% e um nível de confiança de 95%?

17. Um gerente de restaurante deseja estimar o tempo médio que os clientes levam para
realizar uma refeição. Com base em estudos anteriores sabe-se que o desvio-padrão é de 15
minutos. Utilizando uma confiança de 95% e um erro máximo de 5 minutos, qual deve ser o
tamanho mínimo da amostra para este estudo?

18. Uma amostra preliminar de pessoas de uma determinada comunidade apresentou 18% de
analfabetos. Com este resultado quer-se estimar a proporção de analfabetos da população com
uma confiabilidade de 95% e com um erro de estimação máximo de 2,5%. Qual o tamanho da
amostra a ser utilizada?

19. Um grupo de 86 pessoas preencheu uma ficha para solicitação de emprego no RH de uma
empresa. Cada candidato podia assinalar a opção de cargo, de acordo com a sua própria
competência e experiência.
Levando em conta as opções de cargo, os candidatos foram separados em quatro grupos
diferentes, com quantidades, respectivamente, de N1 = 24, N2= 30, N3=19, N4= 13. Sabendo
que foi realizada uma amostragem estratificada proporcional contendo 4 elementos do
primeiro estrato, determine:
a) O número total de elementos da amostra.
b) O número de elementos selecionados em cada estrato.

220
20. Uma indústria alimentícia produz 6.800 latas de ervilha por semana. O departamento de
qualidade fará testes para verificação do peso mediante uma amostra sistemática de 25 latas de
ervilha. Considere que as latas estão numeradas de 1 a 6.800. Sabendo que a 1ª lata
selecionada foi a nº 36:
a) Quais são então os números das 4 laatas seguintes?
b) Qual o número da última lata selecionada?

21. Numa indústria, há 655 operários. Qual o tamanho de uma amostra aleatória que
represente 11% da população?

22. Uma empresa prestadora de serviço mantém um cadastro de 2.185 clientes, e pretende
verificar o interesse de seus clientes por um novo produto; para isso, seleciona uma amostra
sistemática de 70 clientes.
c) Supondo que o primeiro segurado (obtido por sorteio) seja o de número 21, determine
os números dos próximos cinco clientes selecionados. b) Qual o número do último
cliente selecionado?

10 Testes de Hipóteses Paramétricos

Em muitas situações práticas o interesse do pesquisador é verificar a veracidade de uma


afirmação sobre um ou mais parâmetros populacionais. Por exemplo:
1. A produtividade média de milho em Santa Catarina é de 2.300 kg/ha;
2. Os comprimentos médios dos antebraços de duas espécies de morcegos são iguais;
3. A proporção de fixação de fitoplâncton em dois tipos de solos é a mesma;
4. A produção média de duas cultivares de feijão é a mesma;
5. A sobrevivência de mudas não depende da época de plantio;
6. O tempo médio de durabilidade de um determinado componente é de 2.400 horas;
7. Cinco por cento da população é a favor de uma nova lei;
8. O tempo médio de realização de uma prova é de 90minutos.

221
Essas afirmações são consideradas hipóteses estatísticas, porque se referem a parâmetros
populacionais, e comumente precisam ser verificadas a partir de amostras. O ramo da
estatística que trata desse problema é conhecido como teste de hipóteses. Neste capítulo
apresentamos alguns testes relacionados com médias e proporções.

Teste de hipóteses
É uma regra de decisão para aceitar ou rejeitar uma hipótese estatística, com base nos
elementos amostrais.

O objetivo dos testes de hipóteses é decidir se determinada afirmação sobre um


parâmetro populacional é verdadeira.

A construção de um teste de hipóteses requer a especificação de duas hipóteses,


denominadas de hipótese nula (H0) e hipótese alternativa (H1), e de um critério para a rejeição
da hipótese nula.

Hipótese estatística
É uma suposição quanto ao valor de um parâmetro populacional, que será verificada
por um teste paramétrico ou uma afirmação quanto a outras características da população,
que será verificada por um teste não-paramétrico.
Frequentemente, formulamos uma hipótese estatística com o objetivo de rejeitá-la
ou invalidá-la. Por exemplo, quando vamos realizar um experimento de competição de
cultivares de sorgo sacarino, para verificar se um cultivar é melhor que outro com relação à
produção, formulamos uma hipótese inicial de que não existem diferenças entre seus efeitos
(isto é, assumimos que quaisquer diferenças observadas na produção são devidas,
exclusivamente, a fatores não controlados ou acaso). Esta hipótese inicial que formulamos é
denominada hipótese da nulidade e é representada por Ho.
Ho: não há diferença entre as produções dos cultivares comparados;
ou
Ho: os cultivares apresentam efeitos semelhantes sobre a produção;

222
Admitindo essa hipótese como verdadeira, se verificarmos que os resultados obtidos em
tuna amostra diferem acentuadamente dos resultados esperados para essa hipótese, com base
na teoria das probabilidades, pode-se concluir que as diferenças observadas são significativas,
e rejeita-se a hipótese da nulidade em favor de outra, denominada hipótese alternativa,
representada por H1 ou Ha. Por exemplo, no experimento de competição de cultivares de
sorgo, a hipótese alternativa seria:
H1: há diferença entre as produções dos cultivares comparados;
Ou
H1: os cultivares apresentam efeitos diferentes sobre a produção;

As hipóteses estatísticas são formuladas da seguinte maneira:


 Hipótese nula (H0): afirma que quaisquer diferenças entre duas ou mais observações,
grupos, etc., se devem ao acaso e não a uma variação sistemática. É a hipótese inicial.
 Hipótese alternativa (H1): afirma que uma variação sistemática ocorrerá entre duas ou mais
observações ou tratamentos. É a hipótese contrária à hipótese nula.

Exemplo 74: Vamos considerar a situação na qual um produtor precisa decidir pela compra ou
não de sementes de milho fornecidas por um distribuidor, que afirma que a proporção de
germinação das sementes é p = 0,94. Para tanto ele observou a proporção de germinação de
uma amostra aleatória simples de 100 sementes e encontrou p*=0,93. Com base nesse
resultado o produtor deveria discordar do distribuidor?

No nosso exemplo sobre germinação, a hipótese nula é que a verdadeira proporção de


germinação de sementes é 0, 94 e a representamos por:

H0: p=O, 94.

Hipótese alternativa H1: a proporção de germinação do lote é menor que 0,94 e a


representamos por:

H1: p < O, 94.

223
Os processos que nos permitem decidir se aceitamos ou rejeitamos uma determinada
hipótese estatística, ou se a amostra observada difere significativamente dos valores esperados,
são denominados testes de hipóteses ou testes de significância.

Exemplo 75: o tempo médio de durabilidade de um determinado componente é de 2.400


horas.

Observe que Ho e H1 são hipóteses mutuamente excludentes, ou seja, aceitando-se uma


das hipóteses como sendo a verdadeira, a outra, automaticamente, será rejeitada.

Assim conforme exemplo:


H0 : média = 2.400 horas
H1: média difere de 2.400 horas

A regra para a construção das hipóteses nula e alternativa deve ser sempre respeitada.

H0 : Sempre deve estabelecer uma igualdade. A igualdade pode ser entendida por meio de
uma igualdade simples “ =” , ou por meio das situações ( ).

H1: sempre deve estabelecer uma desigualdade. A desigualdade pode ser entendida por meio de uma
diferença simples “ “, por meio de situação do tipo maior, “ >” , ou de uma situação do tipo
menor, “ <”

Ex1: Um pesquisador gostaria de testar a alegação média populacional das alturas de um


grupo de alunos ser igual a 1,70 m, contra a alternativa da média ser diferente. As hipóteses
formuladas seriam:

Ex2: Um fabricante de lâmpadas alega que seus produtos duram, em média e no mínimo, 400
horas. As hipóteses formuladas seriam:

Ex3: Um indústria química alega que a quantidade de impurezas presentes em um determinado


produto é igualou menor que 16 gramas. As hipóteses formuladas seriam:

224
Ex4: Um economista gostaria de testar a hipótese média do crescimento da renda familiar em
uma região ter sido diferente de zero. As hipóteses formuladas envolvem alegação da
desigualdade em H1. As hipóteses formuladas seriam:

Ex5: Uma prestadora de serviços de dedetização alega que a aplicação de seus produtos dura,
em média, mais de 180 dias. As hipóteses formuladas seriam:

Ex6: Uma fábrica de defensivos agrícolas alega a sua emissão de efluentes mensal menor que
100.000 litros. As hipóteses formuladas seriam:

Tipos de erros

Quando se realiza um teste de hipóteses, podem-se cometer dois tipos de erro: Erro tipo
I ou Erro tipo II.

Erro tipo I: consiste em rejeitar H0, quando ela é verdadeira. Pode ser limitado pela escolha de
;
Erro tipo II: consiste em aceitar H0, quando ela é falsa. É a potência do teste.

O quadro a seguir mostra as possibilidades de se cometer os erros tipo I e tipo II.

Realidade Decisão  Aceitar Ho Rejeitar Ho


Ho é verdadeira Decisão correta (1-) Erro tipo I ()
Ho é falsa Erro tipo II () Decisão correta (1-)

Nos testes de hipóteses controlam-se os erros do tipo I e II, enquanto que, nos testes de
significância, controla-se apenas o erro do tipo I.

Nível de significância do teste [Simbologia: ]

É a probabilidade de se cometer o erro tipo I, ou seja, rejeitar uma hipótese verdadeira.


α = P(erro tipo I) = P( rejeitar H0 quando H0 for verdadeira

Probabilidade de um erro tipo II [Simbologia: β]


Β= P(erro tipo II)= P(falhar em rejeitar H0

225
Potência de um Teste
A potência de um teste estatístico é a probabilidade de rejeitar a hipótese nula H0,
quando a hipótese alternativa for verdadeira.
E é calculada como 1 – β, podendo ser interpretada como a probabilidade de rejeitar
corretamente uma hipótese nula falsa.
A potência é uma medida muito descritiva e concisa de sensibilidade de um teste
estatístico, em que por sensibilidade entendemos a habilidade do teste detectar diferenças.

Graus de liberdade [Simbologia: ]


Os graus de liberdade referem-se à liberdade de variação num conjunto de escores. Por
exemplo, numa amostra de 6 escores, 5 deles têm liberdade de variar, enquanto 1 é fixo. Assim,
g. l. =  = n – 1.

Probabilidade exata do teste [Simbologia: p]


É a área, abaixo de uma curva de probabilidade, compreendida entre a estatística
calculada e o infinito mais próximo, no caso do teste ser unilateral. Se o teste for bilateral,
considera-se este valor multiplicado por dois. Se p < , rejeita-se H0 (quanto menor o valor de
p, mais significativo é o teste), e se p > , aceita-se H0.

Definição
O valor p é o menor nível de significância que conduz à rejeição da hipótese nula H0 com os
dados fornecidos.

226
Teste bilateral
Consideram-se ambas as extremidades da distribuição por amostragem como região de
rejeição (RR). As hipóteses serão formuladas da seguinte maneira:

H0:  = 0
H1:   0
onde: 0 = valor suposto para o parâmetro.
3

RAHo
1

1-
RRHo RRHo

0
-
2 0 2 4 6 8 1
0 1
2 1
4
Va
lort
a b
ela
do Va
lort
a b
ela
do

Neste tipo de teste, aceita-se Ho se o valor calculado, com base na amostra, estiver entre
os dois valores tabelados, mostrados na figura acima.

Teste unilateral
Considera-se apenas uma extremidade da distribuição por amostragem como região de
rejeição (RR). Ver curvas abaixo.
Neste tipo de teste, aceita-se Ho se o valor calculado com base na amostra for maior
que o valor tabelado, no caso de teste unilateral à esquerda e menor que o valor tabelado no
caso de teste unilateral à direita.
Unilateral à esquerda: H0:  = 0 Unilateral à direita: H0:  = 0
H1:  < 0 H1:  > 0

1- 1-

227
Procedimento para a realização de um teste de hipóteses

1. Formular as hipóteses Ho e H1;


2. Identificar a estatística do teste;
3. Calcular a estatística do teste, utilizando os valores amostrais;
4. Definir as áreas de aceitação e de rejeição de Ho;
5. Comparar a estatística calculada com a estatística tabelada;
6. Decidir e concluir.

Quadro 1: Valores críticos de Z para as probabilidades α e

α 10% 5% 1% 0,5% 0,2%


1,28 1,64 2,33 2,58 2,88

⁄ 1,64 1,96 2,58 2,81 3,09

A seguir, são apresentados alguns destes testes e as estatísticas que devem ser
calculadas para serem comparadas com as respectivas estatísticas tabeladas.

10.1 Teste de hipótese para uma média populacional


(µ) – é preciso considerar dois casos:

1º Caso: Teste para uma média com variância populacional 2


conhecida

Hipóteses: H0:  = 0 e H1:   0, ou


H1:  > 0, ou
H1:  < 0.

228
Estatística calculada:

X  o
zc 

n

onde:

Ztab = valor da tabela da distribuição normal padronizada o qual depende de ;


0 = valor suposto para o parâmetro na hipótese H0.
̅ = média amostral.
σ = desvio padrão populacional

Aceitar a hipótese nula ou


Hipótese alternativa Rejeitar a hipótese nula se
reservar julgamento se
µ < µ0 Zc ≤ -Zα Zc > -Zα
µ > µ0 Zc ≥ -Zα Zc < -Zα
µ ≠ µ0 Zc ≤ -Zα/2 ou Zc ≥ Zα/2 -Zα/2 < Zc < Zα/2

Exemplo 76: O comprimento da concha de certa espécie de molusco tem média igual a 31,2
mm e desvio padrão igual a 3,0 mm. Em um grupo de 14 indivíduos dessa espécie, obtidos no
sul da América, foi obtida uma média igual a 27,8 mm (Ducatti e Pitoni, 1995). Verifique se
esse valor desvia-se significativamente da média para a espécie ( α = 5%).

Exemplo 77: Uma balança para encher pacotes de sementes automaticamente está
programada para produzir pacotes com peso médio de 20 kg e desvio-padrão de 0,20 kg.
Periodicamente é feita uma inspeção para verificar se o peso médio está sob controle. Para este
fim, foi selecionada uma amostra de oito pacotes de sementes, cujos resultados foram:

20,3 19,8 20,3 19,7 19,8 19,7 19,8 19,8


Teste a hipótese de que a balança se desregulou e está produzindo um peso médio inferior a 20
kg. Use nível de significância de 5%.

229
Exercício 144: Um exame do comprimento das barras produzidas por uma siderúrgica.
Mostrou-se média de 115 cm e σ = 20 cm. Para testar a hipótese de que a média num certo mês
é a mesma pegou-se aleatoriamente uma amostra de 20 barras. Obtendo-se média de 118 cm.
Verificar se houve um aumento na média para α=5%?

Exercício 145: Uma indústria produz lâmpadas que segue uma distribuição N(800h, 1600h).
Testar a hipótese de que µ = 800h contra a alternativa µ ≠ 800h se uma amostra aleatória de 30
lâmpadas tem um tempo médio de vida de 788h. Adotar o nível de significância de 0,05.

Exercício 146: Num certo processo químico é muito importante que uma dada solução tenha
um pH de exatamente 8.20. O método utilizado na determinação do pH fornece medições que
se admite terem distribuição normal de valor médio igual ao verdadeiro valor do pH da
solução e desvio padrão de 0.02.
Para avaliar o pH de uma solução, efetuaram-se 10 medições independentes tendo-se obtido os
seguintes valores:
8.18 8.16 8.17 8.22 8.19 8.17 8.15 8.21 8.16 8.18
a) Indique uma estimativa do valor médio do pH da solução.
b) Com base nestas 10 medições, o que pode concluir relativamente à utilização desta solução
no referido processo químico?
c) Pretende-se efetuar um novo conjunto de medições para diminuir o erro máximo cometido
na estimativa do verdadeiro valor do pH da solução. Mantendo-se todas as condições referidas
acima, qual deverá ser o tamanho da amostra para que aquele erro máximo não exceda 0.01, a
95% de confiança?

Exercício 147: Historicamente, em certa cidade, a variável aplicação em caderneta de


poupança tem média de 420 unidades monetárias, com desvio padrão de 100 unidades
monetárias. Foi feita uma suposição, que atualmente esta situação tenha se alterado. Para testar
tal suposição, tomou-se uma amostra de 100 depositantes, que acusou uma média de 415 u.m.
Usando =5%, pode-se concluir que houve alteração? R: Zc= -0,5 e Ztab = 1,96. Aceita-se
H0.

Exercício 148: Uma grande rede de lanchonetes afirma que suas vendas médias são
exatamente iguais a $ 10,00. Uma amostra aleatória formada por 16 vendas apontou uma média
igual à $ 9,00. Supõe-se que o desvio padrão populacional de vendas é igual a $ 3,00, sendo as

230
vendas normalmente distribuídas. O que pode ser dito sobre a alegação? Adote 5% de nível de
significância.
R: Zc= -1,33 e Ztab = 1,96. Aceita-se H0

Exercício 149: O representante da Guantanamera Engenharia Ltda. Está interessado em


construir um shopping Center na região do Pacaembu, em São Paulo. Ele foi informado que a
renda média familiar da região é de, no mínimo, $ 10.000,00. Para a zona em questão, a
distribuição da renda média familiar é aproximadamente normal e o desvio padrão é de $
1.500,00. Após ter sido realizada uma pesquisa na área, foi constatado que uma amostra de dez
famílias apresentou renda média familiar igual a $ 9.800,00. Pode-se aceitar a alegação inicial?
Assuma α = 0,05 e suponha população normalmente distribuída. R: Zc= -0,42 e Z5%/2 = 1,64

Exercício 150: Um exame do comprimento das barras produzidas por uma siderúrgica.
Mostrou-se média de 115 cm e σ = 20 cm. Para testar a hipótese de que a média num certo mês
é a mesma pegou-se aleatoriamente uma amostra de 20 barras. Obtendo-se média de 118 cm.
Verificar se houve um aumento na média para α=5%? R: Zc= 0, 67 e Z5%/2 = 1,64

Exercício 151: Uma firma tem seguido a política de oferecer uma garantia de 2000 utilizações
para determinado aparelho que comercializa. Este procedimento baseia-se em estudos levados
a cabo no período inicial de produção, que indicavam um número médio de utilizações
possíveis por aparelho de 2060, com uma variabilidade traduzida por σ = 20. Existindo
indícios de que presentemente a situação pode ter mudado, pretende-se averiguar se continua a
ser 2060 o número médio de utilizações por aparelho. Para o efeito foram selecionados ao
acaso e testados pela firma 10 aparelhos, os quais forneceram os seguintes valores:
2100 - 2025 – 2071 - 2067 - 2150 – 2115 – 2064 – 2088 – 1995 – 2095
Suponha que o número de utilizações permitidas por aparelho comporta-se de forma
aproximadamente normal.
a) Como define o teste de hipóteses a efetuar? Justifique. R: H0: µ = 2060; H1: µ 2060
b) Proceda ao cálculo da RC para o teste definido anteriormente (com α = 0.05). R: Zc= 2,69 e
Z5% = 1,96. Rejeita-se H0

Exercício 152: Uma indústria produz lâmpadas que segue uma distribuição N(800h, 1600h).
Testar a hipótese de que µ = 800h contra a alternativa µ ≠ 800h se uma amostra aleatória de 30
lâmpadas tem um tempo médio de vida de 788h. Adotar o nível de significância de 0,05. R:
Zc= -1,64 e Z5% = 1,96
231
Exercício 153: As declarações do imposto de renda individuais entregues antes do dia 31 de
março obtiveram uma média de restituição de US$ 1.056. Considere a população de declarantes
―de última hora‖ que entregaram suas declarações durante os cinco últimos dias do período de
entrega das declarações do imposto de renda ( tipicamente, de 20 a 15 de abril).
a. Um pesquisador sugere que uma razão para que as pessoas esperem até os cinco últimos
dias é que em média essas pessoas têm menores restituições a receber do que aquelas
que entregam as declarações primeiro. Desenvolva as hipóteses apropriadas de tal forma
que a rejeição de H0 sustente a argumentação do pesquisador.
b. Para uma média de 400 indivíduos que entregaram suas declarações entre 10 e 15 de
abril, a média amostral da restituição foi de US$ 910. Baseando-se na experiência
anterior, pode-se supor um desvio padrão populacional σ = US$ 1.600. qual é o valor p?
c. Com α = 0,05, qual é a sua conclusão?
d. Repita o critério anterior usando o critério do valor crítico.

Para Ler, Rir e Refletir

Delegado - Mas minha senhora, por que você matou o gato do seu vizinho? Tudo bem que a
senhora teve razão das inúmeras reclamações anteriores de barulho que ele fazia à noite, não
deixando a vizinhança dormir....Mas não precisa matar o coitadinho!
Acusada – Foi acidente, seu delegado.
Delegado – Acidente! Como assim?
Acusada – o revólver disparou sem querer. Foi um acidente infeliz, eu garanto.
Delegado – acidente? Todos os 59 tiros?

A piada apresenta um conceito inerente à estimação e aos testes de hipóteses. Uma


situação eventualmente provocada pelo acaso poderia ser perfeitamente admissível. Um tiro
poderia ter sido acidental... Mas 59 tiros? Em uma arma que contém menos que dez balas! A
arma foi recarregada, e posteriormente, dispara acidentalmente? Com certeza, não
acidentalmente. Daí a razão do espanto do delegado.
Inferência e testes de hipóteses lidam com o que pode ter sido ocasionado pelo acaso,
diferenciando do que não pode ter sido mera conseqüência da sorte ou do azar.

232
2º Caso: Teste para uma média com variância populacional 2
desconhecida

Hipóteses: H0:  = 0 e H1:   0, ou


H1:  > 0, ou
H1:  < 0.

Estatística calculada:

X  o
tc 
s
n

onde:

ttab = valor da tabela t de Student, com  e  = n - 1 graus de liberdade.

0 = valor suposto para o parâmetro na hipótese H0.


̅ = média amostral.
s = desvio padrão amostral

Observação se n > 30, pode-se utilizar o teste (4.1), usando s = .

Aceitar a hipótese nula ou


Hipótese alternativa Rejeitar a hipótese nula se reservar julgamento se
µ < µ0 tc ≤ -tα tc > -tα
µ > µ0 tc ≥ -tα tc < -tα
µ ≠ µ0 tc ≤ -tα/2 ou tc ≥ tα/2 -tα/2 < tc < tα/2

Exemplo 78: O conteúdo médio de material sólido em suspensão na água do rio R costuma
ser de 205 mg/L. Uma coleta recente, em 9 pontos desse curso d’agua, forneceu os dados a
seguir. Verifique se houve alteração na quantidade de material sólido em suspensão, para um
nível de significância de 0,05.
X (mg/l): 210 – 242 – 226 – 268 – 251 – 206 – 218 – 215 – 207 ( ̅ : 227; s:21,9)

233
Exercício 154: Uma amostra aleatória de 26 copos de um suco mostrou que se tinha um
conteúdo médio do líquido de 220 ml com desvio padrão de 26 ml. Testar a hipótese de que μ
= 225 ml contra μ > 225 ml com nível de significância α = 0,05.

Exercício 155: Um cientista deseja saber se o pH de um solo acido. Ele obteve uma amostra
com cinco unidades e obteve os valores de ph:
5.8; 6.3; 6.9; 6.2; 5.5
Considere os seguintes aspectos:
O cientista considera o solo acido se o seu pH for menor que 7. Teste ao nível de 10% de
significância.

Exercício 156: Um Eng. Florestal deseja saber se a altura média de uma floresta nativa e
superior a 20m. Numa amostra de 100 parcelas de inventario, ele obteve média amostral de
23m e desvio padrão amostral de 7.5m. Há evidência estatística (nível de 5% de
probabilidade) para se acreditar que a altura média da floresta é superior a 20m?

Exercício 157: Em 1977, nos Estados Unidos, os limites permitidos de descarga de


hidrocarbonetos (HC) e de monóxido de carbono (CO) pelos automóveis eram 1,5 gramas por
milha para o HC e 15 gramas por milha para o CO. Uma análise dos gases expelidos por 6
automóveis, aleatoriamente escolhidos como amostra, e todos de um mesmo modelo de ano de
1977, mostrou os seguintes resultados para os níveis de HC: 1,27 – 1,44 – 1,28 – 1,51 – 1,39 –
1,32

a) Esses dados indicam, com evidência suficiente, que a média de HC expelido por esses
veículos é menor que 1,5 grama por milha?
b) Determine um intervalo de confiança de 90% de confiança para a média de HC
expelido.

Exercício 158: Em certa espécie de plantas ornamentais, o comprimento médio das sementes
é de 6 mm. Em uma amostra de sete sementes de uma nova variedade, os valores obtidos
foram os indicados a seguir. Compare as duas variedades entre si quanto ao comprimento das
sementes ( α = 5%).
X (mm): 6; 7,5; 7; 6,5; 8; 9; 8,5.

234
10.2 Teste para a proporção populacional (p)

Hipóteses: H0: p = p0 e H1: p  p0, ou


H1: p > p0, ou
H1: p < p0.
Estatística calculada:

p*  p o
zc 
p oq o
n

onde:

Ztab = valor da tabela da distribuição normal padronizada o qual depende de ;


po = valor suposto para o parâmetro na hipótese H0;
p* = proporção amostral.

Exemplo 79: Certo grupo de ambientalistas decidiu realizar uma campanha de


conscientização sobre a seleção de lixo reaproveitável em uma comunidade na qual 30% dos
domicílios selecionam o lixo. Se, ao final da campanha, 32 de 80 domicílios amostrados
aleatoriamente estiverem selecionado o lixo, você conclui que houve mudança de
comportamento na comunidade ( α = 5%)?

Exemplo 80: Sabe-se que a proporção de sementes de soja com danos mecânicos provocados
pelo beneficiamento é p = 0,18. Suspeita-se que a maquina em uso está desregulada,
provocando um aumento na proporção de sementes de soja com danos mecânicos. Foram
feitas 40 observações durante um dia de trabalho e se constatou que p* = 0,20. Verificar se a
máquina de beneficiamento precisa ser regulada, ao nível de significância de 5%.

Exercício 159: Em uma pesquisa de mercado, acerca da preferência pelo produto X, 300
consumidores foram entrevistados, sendo que 100 declararam consumir o produto. No
passado, o produto X era a marca líder de mercado, com cerca de 40% da preferência do
consumidor. Com base nos dados, e usando uma significância de 1%, a marca ainda tem a
liderança?

235
Exercício 160: Afirma-se que 40% de todos os fregueses podem identificar uma marca
comercial amplamente anunciada. Se, em uma amostra aleatória, 13 dentre 20 fregueses foram
capazes de identificar a marca, teste ao nível de 0,05 de significância, se devemos aceitar a
hipótese nula p = 0,40 ou a hipótese alternativa p > 0,40.

Exercício 161: A emissora de TV Sinal no ar decidiu que o programa Bola na Trave será
mantido no ar caso tenha pelo menos 25% da audiência de seu horário. Se a audiência for
menor que 25%, o programa será cancelado. Foram entrevistadas por telefone 50 pessoas que
estavam assistindo a programas de televisão no horário de exibição do Bola na Trave. Nove
delas estavam assistindo o programa. O programa deve ser cancelado? Suponha um nível de
confiança igual a 95%.

Exercício 162: Tem sido afirmado que 70% dos alunos de uma grande universidade opõem-se
a um plano para aumentar as taxas escolares para melhorar o estacionamento do campus. Se
15 dentre 18 estudantes daquela universidade, escolhidos aleatoriamente, opõem-se ao plano,
teste a afirmação, ao nível de 0,05 de significância.

Exercício 163: Para verificar a efetividade de um novo tratamento contra infestação de


pulgões que atacam as folhas das plantas, em 100 plantas atacadas e tratadas com o novo
inseticida, foram encontradas nove com pulgões depois de uma semana do tratamento.
Desejamos saber se os resultados observados justificam a afirmação de que menos de 15% da
população de plantas tratadas terão infestação de pulgões. Utilize um nível de significância de
3%. Calcule o valor p e interprete.

Exercício 164: Sabe-se que a proporção de sementes de soja com danos mecânicos
provocados pelo beneficiamento é q= 0, 18. Suspeita-se que a máquina em uso está
desregulada, provocando um aumento na proporção de sementes de soja com danos
mecânicos. Foram feitas 40 observações durante um dia de trabalho e se constatou que p*=
0, 20. Verificar se a máquina de beneficiamento precisa ser regulada, ao nível de
significância de 5%.

Exercício 165: O encarregado do controle de tráfego aéreo da companhia de aviação Voo


Seguro afirma que pelo menos 95% dos voos dessa Companhia chegam ao lugar de destino no
máximo com 20 minutos de atraso. Uma instituição de defesa do consumidor recebeu queixas
236
dos clientes da VOO Seguro que afirmam que a porcentagem de voos que chegam no máximo
com 20 minutos de atraso é muito maior. Os clientes examinam uma amostra selecionada ao
acaso de 200 registros de voos da Voo Seguro e verificaram que 182 voos chegaram com no
máximo 20 minutos de atraso. Pede-se:
a) Formule um teste de hipótese para a situação apresentada;
b) Teste a hipótese assumindo alfa igual a 1%.

Exercício 166: Nitrogênio é o elemento mais comum aplicado no solo. Em regiões tropicais,
apenas uma parte do nitrogénio aplicado é aproveitada pelas culturas. Informação sobre P, a
porcentagem média de nitrogénio perdido, é importante para pesquisas sobre as condições
ótimas de crescimento das plantas. Os dados a seguir descritos representam a quantidade de
nitrogénio perdido (dada em porcentagem do total de nitrogénio aplicado):
10,8 13,5 11,8 9,0 14,7 10,5 8,0 10,0
9,8 10,3 14,0 9,5 8,7 13,8 12,8
a) Faça o teste de hipótese utilizando o valor calculado da estatística de teste, ao nível de
significância de 5%, para verificar se os dados da amostra suportam a hipótese de que
a porcentagem média de nitrogênio perdido (p) é menor do que 13%.
b) Calcule o valor p do teste e interprete.

Obs: Quando n é grande, os testes relativos a proporções (percentagens ou


probabilidades) podem basear-se em aproximações da distribuição binomial pela curva
normal. Com a mesma estatística Z,

x  np0
Z , que é um valor de uma variável aleatória que tem aproximadamente
np0 (1  p 0 )

distribuição normal.

237
Exercício 167: Um agrônomo afirma que a produtividade média do feijão da safra das
lavouras de agricultores familiares de um determinado ano é de 800 kg/ha. Para investigar a
veracidade dessa afirmação selecionou-se uma amostra de nove lavouras onde obteve-se os
seguintes valores de produtividade de feijão, em kg/ ha:
Lavoura 1 2 3 4 5 G 7 8 9
Produtividade 767,8 764,1 716,8 750,2 756,0 692,5 736,1 746,1 731,4

a) Qual a conclusão ao nível de significância de 5%?


b) Caso a afirmação do agrónomo não seja verdadeira, dê uma estimativa da média
populacional, com grau de confiança de 95%.

Exercício 168: Um crítico de televisão afirma que 80% de todos os espectadores consideram
inconveniente o nível de ruído de certo comercial. Se uma amostra aleatória de 320
espectadores de TV inclui 245 que acham inconveniente o nível de ruído do comercial, teste
ao nível de 0,05 de confiança, se a diferença entre a proporção amostral, 245/320 ~ 0,766 e p0
= 0,80 é significativa.

238
11 Teste para a diferença entre duas médias
populacionais

Amostras dependentes x amostras independentes


Classifique cada par de amostras como independentes ou independentes.
1. Amostra 1: Ritmo cardíaco em descanso de 35 indivíduos antes de tomar café.
Amostra 2: Ritmo cardíaco em descanso dos mesmos indivíduos depois de beber duas
xícaras de café.
2. Amostra 1: Nota de teste para 35 estudantes de Alimentos.
Amostra 2: Nota de teste para 42 estudantes de Biologia que não estudam Alimentos.
3. Amostra 1: Altura de 27 mulheres adultas.
Amostra 2 Altura de 27 homens adultos.
4. Amostra 1: Nota de teste bimestral de 14 estudantes de Química.
Amostra 2: Nota de prova final dos mesmos 14 estudantes de Química.

11.1 Teste para a diferença entre duas médias populacionais


independentes

Hipóteses: H0: 1 - 2 =  e H1: 1 - 2   (bilateral), ou


H1: 1 - 2 >  (unilateral à direita), ou
H1: 1 - 2 <  (unilateral à esquerda).

onde:  = 0, no caso do teste de hipótese de igualdade entre duas médias.

Caso 1: Variâncias populacionais com  12 e  22 conhecidas


Estatística calculada:

( X1  X 2 )  
zc 
 12  22

n1 n2

onde: ztab = valor da tabela da distribuição normal padronizada o qual depende de .

239
Exemplo 81: Uma máquina automática enche latas com base no peso líquido, com
variabilidade praticamente constante e independente dos ajustes na média, dada por um desvio-
padrão de 5g. Duas amostras retiradas em dois períodos de trabalho consecutivos, de dez e
vinte latas forneceram pesos líquidos médios de, respectivamente, 184,6 e 188,9g. Desconfia-se
que a regulagem da máquina quanto ao peso médio fornecido possa ter sido modificada entre a
coleta das duas amostras. Qual a conclusão, aos níveis de 5 e 1%?

Solução:

Caso 2: Variâncias populacionais com  12 e  22 desconhecidas e iguais

Estatística calculada:

( X1  X 2 )  
tc 
1 1
S' 
n1 n 2

onde: S' = ( n1  1) s12  ( n 2  1) s 22


;
n1  n 2  2
ttab = valor da tabela t de Student, com  e  = n1 + n2 - 2 graus de liberdade.

Exemplo 82: Um fabricante afirma que o uso de quilowatts de seus monitores de tela plana é
menor do que o do seu concorrente principal. Você realiza um estudo e obtém os resultados
mostrados a seguir. Com α=0,10, existe evidência suficiente para apoiar a afirmação do
fabricante? Assuma que as populações são normalmente distribuídas e as variâncias das
populações são iguais.
Estatística amostral para uso de quilowatt
Fabricante Concorrente
̅ 1=32 ̅ 2= 35
s1=2,1 s2=1,8
n1=12 n2=15

240
Caso 3: Variâncias populacionais com  12 e  22 desconhecidas e
diferentes

Estatística calculada:

( X1  X 2 )  
tc 
s12 s 22

n1 n 2

s12 s2
onde: V1  e V2  2 ;
n1 n2
(V1  V2 ) 2
ttab = valor da tabela t de Student, com  e    2 graus de liberdade.
V12 V22

n1  1 n 2  1

Exemplo 83: em um centro agrícola, deseja-se testar o efeito de determinado fertilizante sobre
a produção de trigo. Para isso, escolheram-se 24 áreas de terra, cada uma com 5 × 2 = 10 m2,
de uma grande área homogênea. Metade dessas unidades são tratadas com um fertilizante,
enquanto a outra metade não recebe o fertilizante (tratamento controle). A produção média de
trigo sem fertilizante foi de 1.260 kg/ha com desvio-padrão de 730 kg/ha, enquanto que a
produção média com fertilizante foi de 1.710 kg/ha com desvio-padrão de 280 kg/ha. Podemos
afirmar que houve aumento significativo na produção de trigo devido a utilização de
fertilizantes? As hipóteses, sobre as médias populacionais, µF e µc, relativas ao fertilizante e ao
controle. Considere que as variâncias populacionais são diferentes.

Exemplo 84: As seguintes medidas de Cytochrome oxidase foram determinadas em machos


de peixes Periplaneta em mm3 por 10 minutos por miligrama, em um estudo para comparar
dois tratamentos, quais sejam: 1) 24 horas após injeção de methoxyclor e 2) controle, ou seja,
sem injeção de methoxyclor:
Verifique se existe efeito significativo da aplicação de methoxyclor quanto às médias de
Cytochrome oxidase. Considere que as variâncias populacionais são diferentes.

Tratamentos Tamanho média Desvio-


amostra padrão
24 horas após injeção 5 24,8 0,9 0,81

Controle 3 19,7 2,8 7,84

241
11.2 Comparação entre duas variâncias

O conjunto de hipóteses usado no teste que compara duas variâncias é:

H0: σ2A = σ2B


H1: σ2A  σ2B

A estatística F calculada, é:
Fc =

O valor crítico de F depende do nível de significância usado (α) e do número de graus de


liberdade (n-1) de cada amostra, sendo indicado por:

Fα;glN;glD

Onde gln significa graus de liberdade da variância do numerador e gld, o mesmo para o
denominador. As tabelas ―F‖ apresentam os valores críticos para um teste bilateral de
comparação entre duas variâncias.
O teste t realizado para os dados do exemplo anterior deve ser precedido por um teste de
homogeneidade de variâncias, para justificar sua aplicação. A seguir esta apresentada a
sequência de passos para o teste F.

Teste de homogeneidade de variâncias:

Exemplo 85: Um pesquisador deseja testar dois métodos para determinar a distância do
observador ao animal em levantamento de fauna. Durante um levantamento, a distância para
cada animal observado foi medida utilizando os dois métodos obtendo-se os seguintes
resultados:
Método Distâncias Variância
Utilizando 25 30 16 13 21 46,5
Rangefinder
Utilizando 20 31 18 10 23 58,3
Trena

Teste as variâncias. Use α=5%

242
Exemplo 86: Uma fábrica de papel deseja introduzir um novo processo de fabricação que é
considerado mais eficiente tanto em termos de custo com em termos ambientais. A Engenharia
Florestal responsável decidiu fazer um teste comparando o novo processo contra o processo
tradicional em termos de gramatura, que é o peso do metro quadrado de papel, obtendo os
seguintes resultados:
Processo Gramatura (g/m2) n s2
Tradicional 120 140 80 75 110 150 6 937,5
Novo 105 95 108 120 90 137,3

Teste as hipóteses da variância tradicional ser maior que o do processo Novo. Use α =5%.

Exemplo 87: Um Engenheiro Florestal deseja saber se uma procedência mais produtiva de
Pinus oocarpa (procedência A) difere da procedência menos produtiva (procedência B) em
pelo menos 10 st/ha.ano. Os dados obtidos foram:
Procedência Procedência Média (st/ha.nao) média s2
A 45,6 42,1 44,9 45,1 47,6 46,7 45,5 48,9 45,8 4,1114
B 30,1 21,6 27,6 27,3 30,4 31,4 34,1 30,6 29,1 13,8512

Use α=5%.

Exercícios teste de hipóteses para duas amostras


independentes
Exercício 169: A troca entre as cromátides-irmãs de um cromossomo é um fenômeno raro na
divisão mitótica. Sua presença em frequências altas é usada como indicador genético da
toxicidade de um produto químico. Doulot e colaboradores (1992), desejando estudar o efeito
genético de pesticidas em floricultores argentinos, contaram o número de trocas entre
cromátides-irmãs (TCI) em 14 indivíduos que apresentavam sintomas de intoxicação crônica e
em 13 floricultores sem tais sintomas. A média do TCI nos floricultores não-intoxicados foi
5,48, enquanto nos intoxicados foi 6,45. Com base nesses dados, podem os autores afirmar
que a intoxicação com pesticidas altera a frequência de trocas entre cromátides-irmãs?

243
Tabela: Número de trocas entre cromátides-irmãs (TCI; média de 25 células), observado em
floriculturas com e sem sintomas de intoxicação crônica.
Floricultores sem sintomas Floricultores com sintomas
Indivíduo nº TCI (XA) Indivíduo nº TCI (XB)
20 2,9 11 4,8
08 4,6 37 4,9
06 4,8 34 5,3
25 5,2 24 5,4
33 5,3 15 5,6
01 5,7 02 6,3
05 5,7 04 6,4
32 5,8 12 6,4
19 5,8 14 6,6
09 5,8 07 6,9
35 5,9 13 7,0
10 6,6 30 7,8
16 7,1 03 8,1
27 8,8
nA= 13 nB= 14
X A = 5,48 X B = 6,45
SA=1,019 SB = 1,206

Exercício 170: com o objetivo de comparar as produções médias, em toneladas por hectare,
de duas variedades de milho (Variedade A e variedade B), foram observados cinco unidades
experimentais para cada uma e os resultados obtidos foram os seguintes:

Variedade A 1,3 1,4 1,1 1,4 1,5


Variedade B 1,8 1,6 1,9 1,9 1,8
Use α= 5%

Exercício 171: Foi realizado um experimento com o objetivo de comparar os tempos gastos,
em minutos, na manobra com os arados Fuçador e Erechim. Ambos os arados são de tração
animal. Os dados obtidos com 11 repetições para cada arado, foram os seguintes:

Fuçador 0,20 0,22 0,18 0,23 0,12 0,20 0,13 0,12 0,13 0,22 0,17
Erechim 0,36 0,48 0,33 0,43 0,40 0,43 0,33 0,36 0,35 0,40 0,35

Espera-se que o arado Fuçador produza melhores resultados (gaste menos tempo médio na
manobra). Testar a hipótese de que a média de tempo gasto com o arado Fuçador (µF) é menor
do que a média do tempo gasto com o arado Erechim (µE), ao nível de significância de 5%.
Vamos assumir que as variâncias populacionais são iguais.

244
Exercício 172: Deseja-se saber se duas máquinas de empacotar café estão fornecendo o mesmo
peso médio por pacote. Entretanto, como uma das máquinas é nova e a outra é velha, é razoável
supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As
amostras disponíveis constam de seis pacotes produzidos pela máquina nova e nove produzidos
pela máquina velha. Os pesos em quilogramas, desses pacotes são:

máquina nova 0,82 0,83 0,79 0,81 0,81 0,80


máquina velha 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78

Qual a conclusão, ao nível de 5% de significância?

11.3 Teste para a diferença entre duas amostras dependentes -


Teste t pareado
Neste teste, as observações aparecem aos pares, sendo que a média e o desvio padrão
são calculados utilizando-se, como dados, os valores das diferenças (di) entre cada par.

Hipóteses: H0: d = 0 e H1: d  0, ou


H1: d > 0, ou
H1: d < 0.

Estatística calculada:

Xd  d
tc 
sd
n
onde: X d = média das diferenças entre os pares;
sd = desvio padrão das diferenças;
d = média das diferenças da hipótese;
n = número de pares de dados;
ttab = valor da tabela t que depende de  e  = n - 1 graus de liberdade.

Exemplo 88: Foi conduzido um experimento para estudar o conteúdo de hemoglobina no


sangue de suínos com deficiência de niacina. Aplicaram-se 20 mg de niacina em oito suínos.
Podemos afirmar que conteúdo de hemoglobina no sangue diminuiu com a aplicação de
niacina, ao nível de significância de 5%? Foram mensurados os níveis de hemoglobina no
sangue antes e depois da aplicação da niacina. Os resultados obtidos no experimento foram:
245
Suínos Antes (A) Depois (B)
1 13,6 11,4
2 13,6 12,5
3 14,7 14,6
4 12,1 13,0
5 12,3 11,7
6 13,2 10,3
7 11,0 9,8
8 12,4 10,4

Vamos considerar que temos um suporte teórico para esperar que o conteúdo de hemoglobina
no sangue diminua com a aplicação de niacina, portanto, as hipóteses são:

Exemplo 89: Com o objetivo de verificar o efeito da exposição do solo sobre a microfauna do
solo, uma pesquisadora fez levantamentos de microfauna antes e depois da exposição do solo
em áreas desmatadas de vários tipos de ecossistemas (tabela abaixo). Teste as hipóteses
apropriadas e estabeleça a sua conclusão.

Ecossistema No. De Micro-organismos/cm3


Antes Depois
Campo Limpo 1430 780
Cerrado 2500 1020
Restinga 732 640
Caatinga 640 680
Floresta Estacional 10530 2520
Floresta Pluvial 21883 2302

11.4 Teste para a diferença entre duas proporções populacionais


p1 e p2
Estatística calculada:

(p1*  p *2 )  
zc 
p1* q 1* p *2 q *2

n1 n2

onde:  = 0, no caso do teste de hipótese de igualdade entre duas proporções;


ztab = valor da tabela da distribuição normal padronizada o qual depende de ;
n1 e n2 > 30.

246
Exemplo 90: Em uma pesquisa de opinião, 32 dentre 80 homens declararam apreciar certo
biscoito, acontecendo o mesmo com 26 dentre 50 mulheres. Ao nível de 5% de significância,
os homens e mulheres apreciam igualmente o biscoito?

Exemplo 91: Numa pesquisa de opinião a respeito da intenção de voto, 57 dentre 95 eleitores
do sexo masculino afirmaram que votariam no candidato Dr. O. Nesto, enquanto que 110
dentre 150 eleitores do sexo feminino declaram o mesmo.
a) É possível se afirmar, com α=1%, que os eleitores de ambos os sexos têm intenções de
voto iguais com relação ao candidato em questão?

Exercício 173: Numa pesquisa de opinião, 140 dentre 215 homens desaprovaram o produto
ZXZX de certa empresa, enquanto que o mesmo aconteceu com 96 entre 197 mulheres. Existe
diferença de opinião real entre homens e mulheres a respeito do produto, com nível de
significância de 1%?

Exercício 174: Pretende-se testar se a proporção de ulmeiros afetados pela grafiose é idêntica
em duas zonas A e B. Na zona A foi recolhida uma amostra aleatória de 30 ulmeiros e
verificou-se que 20 estavam afetados pela grafiose. Na zona B recolheu-se uma amostra de 35
ulmeiros e verificou-se que 27 estavam afetados pela grafiose. Que conclusão se pode tirar ao
n´nível de significância de 0.05?

EXERCÍCIOS

1. Uma Engenheira Florestal testou dois métodos de resinagem em matrizes de Pinus elliottii.
Um grupo de 18 das melhores matrizes foi selecionado. Através de sorteio aleatório, aplicou-
se em 9 matrizes o tratamento com ácido sulfúrico a 30% (tratamento A), enquanto que as
demais 9 matrizes receberam o tratamento de ácido sulfúrico a 15% (Tratamento B). Os
resultados obtidos foram:
Trat. Produção de Resina (g) média s2

A 2326 2206 1835 1434 1629 1761 1511 2146 1548 1821,778 108740,944

B 6006 3455 3115 3376 2609 2582 3674 2648 2012 3275,222 1324733,194

Teste a igualdade dos tratamentos.

247
2. Acredita-se que a adubação de cobertura em Eucalyptus grandis nem sempre produz um
ganho na produção mas aumenta a homogeneidade das árvores. Formule hipóteses estatísticas
apropriadas e teste-as utilizando os dados da tabela abaixo.
DAP (cm)
Floresta adubada
14,9 18,6 16,8 14,6 13,8 20,7 15,8 20,1 19,4 18,4 18,5
15,3 16,6 18,9 18,1 14,4 14,5 14,0 16,3 17,6 17,6
Floresta não adubada
21,6 25,8 18,7 16,7 23,1 14,6 6,4 12,2 31,5 4,1 11,5
27,2 8,0 22,5 25,1 16,8 17,4 20,7 14,8 15,8 9,3

Use α = 5%.

3. Um pesquisador deseja verificar se o melhoramento genético produziu redução marcante no


grau de rachadura de topo de Eucalyptus Saligna. Comparando dois grupos de árvores o
pesquisador obteve os dados na tabela abaixo. Teste as hipóteses apropriadas e estabeleça as
suas conclusões.
Número de Rachaduras /cm2
Àrvores não Melhoradas
0,2 6,6 8,0 2,2 1,9 6,8 1,7 6,3 1,4
Àrvores Melhoradas
2,6 4,6 4,8 4,3 4,4 3,1 3,8

4. Uma empresa de cerveja, após uma grande fusão, estuda a possibilidade de alterar o rótulo
de uma de suas marcas, usando formas e cores mais vivas. Para avaliar se existe vantagem em
alterar o rótulo, a empresa levou a cabo uma pesquisa de marketing. Enlatou a cerveja com
rótulo tradicional e com rótulo novo. A pesquisa foi feita em 8 estabelecimentos comerciais .
Em 4 deles, extraídos por sorteio, colocou-se o produto com o rótulo novo e, nos outros 4,
manteve-se o produto com rótulo tradicional. Após um mês, avaliou-se a quantidade vendida
em cada estabelecimento. Os estabelecimentos que usaram o rótulo tradicional tiveram os
seguintes resultados nas vendas (em milhares de unidades): 6, 5, 2, 2. Os estabelecimentos que
usaram o rótulo novo tiveram os seguintes resultados nas vendas (em milhares de unidades): 4,
9, 5, 6. Os dados mostram evidência suficiente de que a média de vendas é superior com o
rótulo novo? Responda usando um teste estatístico apropriado ao nível de significância de 5%.

5. Para o mesmo problema da questão anterior, outro instituto de pesquisa, que tem uma
equipe com melhor preparação em estatística, elaborou um projeto um pouco diferente. Com
248
seis estabelecimentos comerciais dispostos a colaborar com a pesquisa, colocaram-se as duas
embalagens (de rótulo tradicional e de rótulo novo) da mesma cerveja. Tomou-se o cuidado
para que em cada estabelecimento a apresentação das duas embalagens do produto fosse feita
de forma idêntica. Os resultados das vendas mensais (em milhares de unidades), para cada
estabelecimento e cada embalagem, foram os seguintes:

Estabelecimento: 1 2 3 4 5 6
Rótulo 16 12 28 32 19 25
tradicional:
Rótulo novo: 20 11 33 40 21 31

Os dados mostram evidência suficiente de que a média de vendas é superior com o rótulo
novo? Responda usando um teste estatístico apropriado ao nível de significância de 5%.

6. Para avaliar o efeito de um brinde nas vendas de determinado produto, planeja-se comparar
as vendas em lojas que vendem o produto com o brinde, com as vendas em lojas que não
oferecem o brinde. Para reduzir o efeito de variações devidas a outros fatores, as lojas foram
grupadas em pares, de tal forma que as lojas de um mesmo par são as mais similares possíveis,
em termos, por exemplo, do volume de vendas, localidade, identidade de preços etc. Em cada
par de lojas, uma passou a oferecer o brinde e a outra, não.
a) Apresente as hipóteses nula e alternativa.
b) Os resultados das vendas, em quantidade de unidades vendidas, foram os seguintes:

Par de loja Vendas sem brinde Vendas com brinde


1 33 43
2 43 39
3 26 33
4 19 32
5 37 43
6 27 46

Os dados mostram evidência suficiente para se afirmar que a oferta do brinde aumenta
as vendas? Use nível de significância de 5%.

249
7. Numa experiência agronômica pretende-se avaliar o crescimento total de uma certa espécie
de plantas (expresso em peso seco) relativamente a dois regimes de fertilização A e B. Ao
fim de determinado tempo procedeu-se a medições, tendo-se obtido os seguintes resultados:
A 5.44 5.36 5.60 6.46 6.75 6.03 4.15 4.44
B 5.12 3.80 4.96 6.43 5.03 5.08 3.22 4.42

Verifique se os dois regimes de fertilização A e B evidenciam diferenças significativas no que


respeita ao crescimento das plantas. Explicite as hipóteses necessárias a resolução do
problema.

8. A fim de investigar os efeitos de ambientes nitrosos e de ambientes fosfatados no


desenvolvimento de colônias de bactérias, contaminam-se 10 plaquetas envolvidas em cada
um daqueles ambientes com as bactérias em estudo, e deixa-se incubar durante 24 horas. Após
esse tempo, procede-se a contagem do número de colônias de bactérias em cada plaqueta,
tendo-se obtido os seguintes resultados:

Ambiente nitroso 60 47 12 29 51 46 49 74 63 101


Ambiente fosfatado 8 46 21 13 58 33 20 46 31 38

a) Investigue a hipótese de o tipo de ambiente não influir no desenvolvimento das colônias de


bactérias.
b) Que hipótese(s) foi necessário considerar para poder resolver a alínea a)?

9. É desencadeado um programa de controlo da poluição de um rio em que são efetuadas


medições, antes de lançar a campanha antipoluição e um ano após. As medições são
combinações de vários índices; quanto maior for o valor resultante maior é a poluição.
Obtiveram-se os seguintes resultados:
Ponto de controlo 1 2 3 4 5 6 7 8 9 10
Antes da campanha 68 88 101 82 96 74 65 74 52 99
Um ano após 67 87 90 76 98 69 68 65 59 70

Será que a campanha antipoluição reduziu de facto a poluição? Explicite e verifique todas as
hipóteses necessárias a resolução do problema, justificando.

10. O fabricante de um moderador de apetite afirma que quando o seu produto é tomado
enquanto se segue uma dieta de baixa gordura com exercícios regulares por 4 meses, a perda
média de peso é 20 libras. Para testar a afirmação, você estudou 12 pessoas que fazem dieta,

250
selecionadas aleatoriamente, que tomaram um moderador de apetite por 4 meses. As pessoas
seguiram uma dieta de baixa gordura com exercícios regulares durante os 4 meses. Os
resultados são mostrados na tabela a seguir.
Perda de peso de 12 pessoas que fazem dieta ( em libras)
Peso original 4º mês
1 185 168
2 194 177
3 213 196
4 198 180
5 244 229
6 162 144
7 211 197
8 273 252
9 178 161
10 192 178
11 181 161
12 209 193

O seu estudo oferece evidência suficiente para rejeitar a afirmação do fabricante em um nível
de significância de α = 0,10? Assuma que os pesos são normalmente distribuídos.

11. (Andrade DF e Ogliari PJ, 2007) Um agricultor que planta árvores frutíferas deseja testar
um novo tipo de inseticida, que o fabricante garante reduzir os prejuízos causados por certo
tipo de inseto. Para verificar essa afirmação do fabricante, o agricultor pulveriza 200 árvores
com o produto novo e 200 árvores com o produto que normalmente usa, obtendo os
resultados:
Estatísticas Inseticida Novo Inseticida padrão
Produção média 240 227
(kg/planta)
variância 980 820

Esses dados indicam evidência suficiente de que o inseticida novo é melhor do que o padrão
(normalmente usado)?

12. Um médico afirma que uma droga experimental aumenta o índice cardíaco de um
indivíduo. Foram selecionados 12 indivíduos para um teste e, então, o índice cardíaco de cada
251
um é medido. Os indivíduos recebem, então, a droga e depois de uma hora têm seu índice
cardíaco medido novamente. Os resultados são listados à esquerda. Assumindo que os índices
cardíacos são normalmente distribuídos, há evidência suficiente para apoiar a afirmação do
médico com α=0,05?
Índice cardíaco
Antes Depois
72 73
81 80
76 79
74 76
75 76
80 80
68 74
75 77
78 75
76 74
74 76
77 78

13. Um fabricante afirma que o uso de quilowatts de seus monitores de tela plana é menor do
que o do seu concorrente principal. Você realiza um estudo e obtém os resultados mostrados a
seguir. Com α=0,10, existe evidência suficiente para apoiar a afirmação do fabricante?
Assuma que as populações são normalmente distribuídas e as variâncias das populações são
iguais.
Estatística amostral para uso de quilowatt
Fabricante Concorrente
̅ 1=32 ̅ 2= 35
s1=2,1 s2=1,8
n1=12 n2=15

14. Um pesquisador médico quer determinar se uma droga muda a temperatura do corpo. Sete
sujeitos são selecionados para teste aleatoriamente, e a temperatura do corpo (em graus
Fahrenheit) de cada um é medida. A droga, então, é dada aos sujeitos e, após 20 minutos, a

252
temperatura do corpo de cada um é medida novamente. Os resultados estão listados na tabela
a seguir. Em α = 0,05, há evidência suficiente para concluir que a droga muda a temperatura
do corpo? Assuma que as temperaturas do corpo são distribuídas normalmente.
Sujeito 1 2 3 4 5 6 7
Temperatura 101,8 98,5 98,1 99,4 98,9 100,2 97,9
inicial
Segunda 99,2 98,4 98,2 99 98,6 99,7 97,8
temperatura

a. Identifique a afirmação e expresse H0 e H1.


b. Especifique o nível de significância α e os graus de liberdade (g.l. ou v).
c. Encontre os valores críticos e as regiões de rejeição.
d. Calcule ̅ e sd.
e. Use o teste t para encontrar a estatística de teste padronizada t.
f. Decida se rejeita a hipótese nula. Use um gráfico se necessário.
g. Interprete a decisão no contexto da afirmação original.

15. As distâncias de frenagem de 8 Volkswagen GTIs e 10 Ford Focus foram testadas


enquanto viajavam a 60 milhas por hora em pista seca. Os resultados são mostrados a seguir.
Você pode concluir que existe uma diferença na média da distância de frenagem dos dois tipos
de carro? Use α=0,01. Assuma que as populações são distribuídas normalmente e as variâncias
da população não são iguais.
Estatística amostral para distância de frenagem em pista seca
GTI Focus
̅ 1=134 pés ̅ 2= 143 pés
s1=6,9 pés s2=2,6 pés
n1=8 n2=10

16. Classifique cada par de amostras como independentes ou independentes.


5. Amostra 1: Ritmo cardíaco em descanso de 35 indivíduos antes de tomar café.
Amostra 2: Ritmo cardíaco em descanso dos mesmos indivíduos depois de beber duas
xícaras de café.
6. Amostra 1: Nota de teste para 35 estudantes de Alimentos.

253
Amostra 2: Nota de teste para 42 estudantes de Biologia que não estudam Alimentos.
7. Amostra 1: Altura de 27 mulheres adultas.
Amostra 2 Altura de 27 homens adultos.
8. Amostra 1: Nota de teste bimestral de 14 estudantes de Química.
Amostra 2: Nota de prova final dos mesmos 14 estudantes de Química.

17. Uma organização de educação de consumidores afirma que há diferença entre a média da
dívida do cartão de crédito de homens e mulheres nos Estados Unidos. Os resultados de uma
pesquisa aleatória de 200 indivíduos de cada grupo são mostrados a seguir. As duas amostras
são independentes. Os resultados apoiam a afirmação da organização? Use α = 0,05.
Mulheres Homens
̅ 1 = $2.290 ̅ 2 = $2.370
s1 = $750 s2 = $800
n1 = 200 n2 = 200

18. Uma nutricionista quer comparar a média do teor de proteína de sanduíches de frango
grelhado do Burger King e do McDonald’s. Para tal, ela seleciona aleatoriamente vários
sanduíches de frango grelhado de cada restaurante e mede o teor de proteína (em gramas) de
cada. Os resultados estão listados a seguir. Pode-se concluir com 5% de significância que há
evidências de igualdade de teor de proteínas?
Burger king McDonald’s
̅ 1=37 gramas ̅ 2=32 gramas
s1=2,1 gramas s2=1,8 gramas
n1=15 n2=12

19. Em uma amostra de 150 pessoas, 65 consumiam regularmente o biscoito saboroso. Em


outra amostra de 250 pessoas, 90 eram consumidores contumazes. É possível notar alguma
diferença significativa na proporção de consumidores? Assuma nível de confiança igual a
95%.

20. Em uma pesquisa com 5.240 cidadãos mais velhos do sexo masculino, 2.201 disseram que
comem o número de porções recomendadas diariamente. Em uma pesquisa com 6.180 cidadãs
mais velhas, 2.348 disseram que também comem o número de porções recomendadas

254
diariamente. Com α=0,10, você pode rejeitar a afirmação de que as proporções de cidadãos
mais velhos que disseram comer o número de porções recomendadas de vegetais diariamente
são as mesmas para os dois grupos?

21. Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de duas
cultivares de cebola: a) Bola Precoce-Empasc 352 e b) Norte 14. Foram utilizadas para o teste
de germinação, quatro repetições de 100 sementes, totalizando 400 sementes para cada
cultivar. A variável de estudo é o número de sementes que germinaram. Os resultados estão
apresentados na Tabela.
Tabela: Número de sementes em um experimento sobre o poder germinativo de duas cultivares de
cebola
Germinação
Cultivares TOTAL
Germinaram Não germinaram
Bola precoce 392 8 400
Norte 14 381 19 400
TOTAL 773 27 800
Teste a hipótese de que não há diferença entre as duas cultivares quanto à germinação, ao nível de
significância de 5%.

22. Em um estudo de vários fast-foods, você encontra que a média do teor de calorias de 15
sanduíches de frango grelhado do Burger King é de 450 calorias com um desvio padrão de 6,2
calorias. Você também encontra que a média do teor de calorias de 12 sanduíches similares de
frango grelhado do McDonald’s é de 420 calorias com um desvio padrão de 8,1 calorias. Com
95% de confiança há evidências de diferença de calorias entre os dois restaurantes?

23. (Andrade DF e Ogliari PJ, 2007) Foi realizado um experimento para avaliar o
comportamento ―in vitro‖ da espécie Mandevilla velutina (Apocinácea), proveniente de duas
regiões: cerrado e restinga. Após isolar os explantes, com um nó com duas gemas axilares,
obtidos das plantas matrizes, foi instalado o experimento com delineamento inteiramente
casualizado com 20 repetições (20 explantes para o cerrado e 20 para a restinga); portanto,
temos um total de 40 unidades experimentais. O valor do desvio-padrão amostral é s = 1,5611
com 38 graus de liberdade. A variável utilizada foi a altura em cm dos explantes de
Mandevilla cultivadas ―in vitro‖ durante 45 dias, cujos resultados foram:

Cerrado Restinga
5,3 3,6
255
2,5 2,3
5,1 6,0
2,6 2,1
1,2 5,2
3,1 4,3
4,1 3,9
3,7 2,1
5,0 2,4
1,6 2,0
3,0 2,7
4,7 3,9
2,6 5,6
4,2 4,7
4,0 1,9
4,7 5,1
6,4 4,7
2,9 2,1
3,2 6,1
2,1 8,1

Teste a hipótese de que não há diferença entre as duas regiões, ao nível de significância de
5%, para altura média de explantes de Mandevilla.

24. Um enólogo pretende avaliar a acidez total de um vinho. Para isso seleciona
aleatoriamente 20 garrafas de vinho na adega e analisa o seu conteúdo através do método
clássico e de um dispositivo de titulação automática. Alguns resultados das análises, em g/l,
foram:

Os dados foram introduzidos no software. Abaixo apresentam-se resultados de comandos,


alguns inadequados. Responda as seguintes questões utilizando os resultados apresentados
abaixo.
a) De acordo com a legislação em vigor um vinho de mesa deverá ter uma acidez total
superior a 3.5 g/l. Com base nos resultados das análises efetuadas pelo método clássico, o
enólogo poderá concluir que o seu vinho cumpre os requisitos de acidez impostos pela
legislação? Explicite e valide os pressupostos necessários a resolução do problema.

256
b) Com base nos valores obtidos poder-se-á concluir que os dois m´métodos de análise da
acidez total do vinho têm resultados significativamente diferentes? Explicite e valide os
pressupostos necessários a resolução do problema.

257
258
25. Atributos Químicos e Físicos da Uva -São Joaquim-SC
Área 1
Acidez: 2,7 – 3,1 – 3,5 – 3,5 – 2,7
PH 3,12 – 3,11 – 2,9 – 2,82 – 3,32
Altura(mm) 12,56 – 13,10 – 12,05 – 12,29 – 12,85
º Brix – 18,5 – 18,2 – 15,9 – 16,5 – 18,5 – 18,5
Antocianinas (mg g-1)789,15 – 845,76 – 677,64 – 843,32 – 777,63

Área 2
Acidez – 2,8 – 2,8 – 3,3 – 2,2- 2,6 – 2,6 – 3,1 – 2,3 – 2,3 – 2,4
Ph – 3,30 – 3,47 – 3,22 – 3,60 – 3,07 – 3,43 – 3,54 – 3,57 – 3,39- 3,30

Altura (mm) – 13,11 – 13,65 – 13,20 – 12,36 – 11,93 – 13,27 – 12,96 – 13,00 – 11,72 – 12,34
ºBrix – 19,80 – 17,70 – 19,80 –19,80 - 19,00 – 20,30 – 19,50 – 18,10 – 18,50 – 21,00
Antocianinas (mg g-1) 750,86 – 688,97 – 647,15 – 673,57 – 663,87 – 710,39 – 668,95 –
684,08 – 733,44 – 662,94

Existe diferença de média de acidez das bagas entre as áreas. Considere α=0,05.

259
A estatística na pesquisa agrária e biológica

A estatística na pesquisa agrária e biológica

A estatística é uma ciência que se preocupa com o planejamento de uma pesquisa,


envolvendo desde a forma de coleta das observações, obtidas em experimentos ou
levantamentos, até a maneira como é feita a organização, a descrição e o resumo dos dados,
assim como a avaliação e afirmação sobre características de interesse do pesquisador.
As análises estatísticas dependem da forma como os dados são coletados, e o
planejamento estatístico da pesquisa indica o esquema sob o qual os dados serão obtidos.
Portanto, o planejamento da pesquisa e a análise estatística dos dados estão intimamente
ligados.

Planejamento da pesquisa Análise estatística

Dessa forma, o pesquisador deve possuir um razoável conhecimento de estatística para


desenvolver suas pesquisas ou, então, consultar um estatístico Para auxiliá-lo. E' importante
frisar que esta consulta deve ser feita antes do início da pesquisa, ainda durante a fase de
elaboração do projeto.

Forma de coleta de dados

Levantamento: Observa-se o fenômeno na natureza

Tratamentos: as variações de um ou mais fatores de interesse em avaliar

Por exemplo, num estudo da produção de milho mediante a aplicação de diferentes doses
de nitrogénio, as diferentes doses de nitrogénio constituiriam os tratamentos. Os outros
fatores, como por exemplo, diferenças na fertilidade, umidade do solo e existência de pragas
e ervas daninhas, que poderão influir nos resultados (produção final de milho), são
minimizados tanto quanto possível, do ponto de vista prático. Neste caso temos um
experimento. A função do experimento é determinar as relações de causa e efeito, como por

260
exemplo verificar como as doses de nitrogênio (causa) influenciam na produção de milho
(efeito).

Experimento: causa efeito

População ou conjunto universo: é o conjunto constituído por todos os dados possíveis com
relação à característica em estudo. Por exemplo, se desejamos estudar a produtividade de
algodão em caroço no Estado de São Paulo, a população será constituída pelas produtividades
de algodão em caroço de todas as fazendas que produzem algodão no estado.

Amostra: é uma parte representativa da população, isto é, um subconjunto do conjunto


universo. Na prática, trabalhamos com amostras (experimentos) para obter informações que
serão utilizadas nas populações amostradas.

Finney (1952) diz que o propósito da ciência estatística é fornecer urna base objetiva
para a análise de problemas nos quais os dados estão sujeitos à variação do acaso. Por maiores
que sejam os conhecimentos de um pesquisador sobre, por exemplo, nutrição e fisiologia
animal, ele jamais será capaz de predizer com exatidão qual vai ser o peso de um suíno criado
sob determinadas condições. Existe um grande número de causas que fazem este resultado,
variar, como, por exemplo, variações genéticas, de temperatura ambiental, umidade, doenças
etc. Assim, quando o elemento acaso está presente em um problema, dificuldades reais são
introduzidas. São os chamados fenómenos aleatórios.
E importante ressaltar que quase tudo que fazemos no nosso cotidiano são fenómenos
aleatórios e, portanto, apresentam uma chance de ocorrência devido ao acaso. Assim sendo, é
desejável determinar qual é a probabilidade de ocorrência dos eventos de interesse. Para tal
finalidade, precisamos estabelecer o modelo probabilístico adequado.

Fenómeno aleatório Modelo probabilístico

261
OBS:
Em qualquer pesquisa científica, o procedimento geral é o de formular hipóteses e
verifica-las, diretamente, ou por meio de suas consequências. Para tanto é necessário um
conjunto de observações ou dados, e o planejamento de experimentos é essencial para indicar
o esquema sob o qual as hipóteses podem ser testadas.
As hipóteses são testadas por meio de métodos de análise estatística que dependem do
modo como as observações ou os dados foram obtidos, e, desta forma, o planejamento de
experimentos e a análise dos dados estão intimamente ligados e devem ser utilizados em uma
certa sequência nas pesquisas científicas. As técnicas de planejamento devem ser utilizadas
entre as etapas (1) e (2), e os métodos de análise estatística, na etapa (3).

O que nos obriga a utilizar a análise estatística para testar as hipóteses formuladas é a
presença, em todas as observações ou dados, de efeitos de fatores não controlados, que
causam a variação. Esses fatores podem ou não ser controláveis. Entre os fatores considerados
não controláveis, podemos citar: pequenas diferenças de fertilidade do solo, ligeiras variações
nos espaçamentos, profundidade de semeadura um pouco maior ou menor que a prevista no
trabalho, variação na constituição genética das plantas, pequenas variações nas doses de
adubos, inseticidas, fungicidas, herbicidas etc.
Esses efeitos, que sempre ocorrem, não podem ser conhecidos individualmente e tendem a
mascarar o efeito do tratamento em estudo. O conjunto dos efeitos de fatores não controlados é
denominado variação do acaso ou variação aleatória.

12 Aspectos do planejamento estatístico de um


experimento

Exemplo 92: Considere um experimento que tem como objetivo verificar o comportamento da
produção de milho sob o efeito de diferentes doses de nitrogênio: 0, 25, 50, 75 e 100 Kg de
nitrogênio por hectare (1 hectare é equivalente a 10.000m2 e representado por ha). Essas doses
foram definidas pelo pesquisador e correspondem aos cinco tratamentos envolvidos no
experimento. A cultivar de milho escolhida para o experimento foi a mais plantada na região.
Para cada dose de nitrogênio foram plantados cinco canteiros de terra de 10m 2 cada; portanto,

262
o tamanho da amostra para cada dose de nitrogênio é cinco (cinco repetições dos tratamentos).
Depois de realizada a análise estatística e a interpretação dos resultados, poderá ser indicada
qual a melhor dose de nitrogênio para a cultivar de milho utilizada.

Repetições
Tratamento
I II III IV V
0 2.850 1.780 2.100 2.900 2.010
25 3.200 1.980 2.220 2.850 2.100
50 4.150 2.330 3.700 4.050 2.500
75 4.380 2.830 3.420 3.900 3.080
100 4.000 2.630 3.150 3.780 2.670

Visando tornar mínima a variação do acaso, o experimentador deve fazer o planejamento


do experimento de tal forma que consiga isolar os efeitos de todos os fatores que podem ser
controlados.
Durante a instalação e execução do experimento, o experimentador deve procurar
diminuir o efeito dos fatores não controlados. Por exemplo: para evitar variações de
espaçamentos entre linhas, podemos estender barbantes espaçados de acordo com o
espaçamento da cultura, e para evitar a variação de espaçamentos entre plantas, podemos
utilizar uma ripa perfurada, com um furo distante do outro tantos centímetros quanto o
espaçamento entre plantas, e a semeadura será feita manualmente.
Para evitar pequenas variações na profundidade de semeadura, podemos utilizar um
soquete juntamente com a ripa perfurada, durante a semeadura. As sementes são colocadas na
perfuração e comprimidas pelo soquete, que penetra até a profundidade recomendada para a
cultura.
Variações nas doses de adubo podem ser evitadas pelo uso de uma calha de madeira para
sua aplicação, que proporciona uma distribuição mais uniforme, na dose recomendada.

263
12.1 Definições gerais
Pesquisa e experimentação: o termo pesquisa deve sempre ser empregado quando se
investigam coisas novas, enquanto o termo experimentação deve ser usado ao se verificar a
adaptação de conhecimentos ou tecnologias a situações diversas daquelas nas quais foram
criadas ou desenvolvidas.

Fator: aquilo que se aplica em um ensaio de forma não homogênea. Por exemplo: cultivar,
quando se testam várias delas; adubação, ao se formularem diversas formulações, etc.

Experimentos com um fator e com mais de um fator


No projeto 1 o fator é a decepa.

Os fatores podem ser quantitativos ou qualitativos. Um fator é dito quantitativo quando


os seus níveis são relativos a quantidades. Por exemplo, as temperaturas de um forno, as doses
de coagulantes e os níveis de nitrogênio no solo. Por outro lado, um fator é dito qualitativo
quando os seus níveis são relativos a atributos. Por exemplo, os fabricantes de drogas, os
diferentes locais e meios de cultura.

Os fatores também são classificados como fixos ou aleatórios. Um fator é aleatório se os


seus níveis representam uma amostra aleatória de uma população de níveis, isto é, os níveis
são escolhidos através de um sorteio. Se os níveis em estudo não são uma amostra aleatória,
ou seja, se são escolhidos pelo pesquisador, o fator é fixo. Para os fatores fixos os resultados
(conclusões) são válidos apenas para os níveis do fator que estão presentes no experimento,

264
enquanto que para os fatores aleatórios as conclusões são válidas para a população de níveis
da qual foi retirada a amostra.
A seguir apresentamos um exemplo de experimento com fator fixo e outro com fator
aleatório, respectivamente.
1. Um pesquisador deseja conduzir um experimento para comparar cinco cultivares de aveia
quanto à concentração de ácido fictício, em g/100g. Neste experimento, temos um fator
(cultivares de aveia) fixo, isto é, as cultivares foram escolhidas pelo pesquisador, ou seja, não
foi feita uma escolha aleatória das cultivares, assim, as conclusões se referem apenas às
cultivares utilizadas no experimento.
2. Um tecnologista quer comparar a qualidade de pão fabricado nas padarias da cidade de
Florianópolis. Ele deseja que os resultados da comparação sejam válidos para todas as
padarias de Florianópolis, porém, como ele não pode incluir todas elas no estudo, ele deve
sortear algumas delas para o experimento. Assim, o pesquisador estará fazendo um
experimento em que o fator padaria é dito aleatório.

Nível: as diferentes manifestações de um fator. Por exemplo: as doses de adubação


empregadas, os espaçamentos utilizados, as linhagens que são testadas, etc.

Tratamento: cada um dos níveis de um fator ou cada uma das combinações dos níveis dos
fatores quando testando mais de um fator. variedade de cana-de-açúcar, híbrido de sorgo,
cultivar de soja, adubação para a cultura do milho, densidade de plantio para a cultura do trigo,
inseticida para o controle da broca da cana-de-açúcar, recipiente para produção de mudas de
espécies florestais etc.

Tratamento controle: Deve-se utilizar o tratamento controle quando não se conhece a


eficiência dos tratamentos em estudo. Este tratamento consiste em se realizar todos os
procedimentos que são feitos nas unidades experimentais usadas para os outros tratamentos,
exceto a aplicação do efeito em estudo. Exemplo: num estudo sobre aditivos em alimentos, um
outro tratamento pode consistir em uma porção de um vegetal contendo um aditivo particular
que é servido a um degustador.
O tratamento controle consistiria em uma porção do mesmo vegetal servido ao
degustador, na mesma situação experimental, porém sem a utilização do aditivo no alimento.
É fundamental que o tratamento controle seja conduzido nas mesmas condições experimentais
dos outros tratamentos.

265
Nem todos os experimentos necessitam do tratamento controle, como por exemplo, os de
competição de cultivares.

Testemunha: tratamento padrão de comparação. Pode ser ausência do fator (dose zero de um
adubo, por exemplo), ou a aplicação usual do fator (cultivar recomendar para cultivo na
região, espaçamento adotado pelos agricultores, etc.).

Variável resposta: Em muitas situações os valores da variável resposta são obtidos com a
utilização de aparelhos, procedimento este que pode gerar erros provenientes tanto do
aparelho utilizado quanto do instrumentista. Um procedimento usual para controlar essa
fonte de erro é a utilização de, por exemplo, triplicatas, ou seja, a obtenção de três valores
para a variável resposta a partir mesma da amostra. Os valores obtidos são comparados
entre si e, caso não haja discrepância, considera-se para a análise estatística a media desses
três valores. Caso haja discrepância, o(s) valor(es) discrepante(s) é(são) eliminado(s)

Covariáveis: Uma variável que não é de interesse direto do estudo, mas que influencia os
resultados das variáveis respostas é chamada de covariável. Exemplos:
1. Se o tempo necessário para realizar um experimento é trinta dias, e se a temperatura do
ambiente tem influência na variável resposta, então a temperatura deve ser mantida
constante. Se isso não for possível, devemos sempre medir a temperatura do ambiente
(covariável) cada que realizamos uma medição da variável resposta.
2. Num experimento para comparar quatro dietas para engorda de frangos, se todos os
frangos não apresentarem o mesmo peso inicial, este peso será uma covariável que deve
ser levada em conta na análise estatística.
3. Num experimento para estudar a produção de dez variedades de soja, o número de
sementes que germinam nas unidades experimentais é uma covariável, desde que não
tenha sido afetado pelos tratamentos.

Sempre que possível, o pesquisador deve planejar o seu experimento de modo a controlar
esses fatores de perturbação (em inglês: nuisance factors).
Por exemplo, no experimento para comparar quatro dietas para engorda de frangos, o
pesquisador poderia constituir grupos homogéneos de frangos em relação ao peso inicial e
aplicar as quatro dietas aleatoriamente em frangos de cada um dos grupos. A utilização do
peso inicial como covariável seria uma alternativa, caso o pesquisador não tivesse estabelecido
a constituição desses grupos no planejamento do experimento. Já no experimento para estudar
266
a produção de 10 variedades de soja, seria impossível o pesquisador planejar a constituição de
grupos homogêneos de unidades experimentais, pois ele não tem controle sobre o número de
sementes que germinarão. Nesta situação, a única forma de controlar este fator de perturbação
é a inclusão da covariável, número de sementes que germinam, na análise estatística.
Um exemplo de experimento no qual foi planejado o controle de um fator de perturbação é
o projeto 1, em que se estudaram quatro alturas de decepas e procurou-se controlar a idade
das plantas por meio da construção de blocos formados com árvores de idades próximas.
Caso não tivesse sido feito esse controle, o pesquisador não saberia dizer se as diferenças
entre as médias da variável resposta ocorreriam devido às alturas de decepas ou à idade das
árvores. Esse fato é conhecido como confundimento de fatores.

Erro experimental: Quando instalamos um experimento desejamos verificar o efeito de


diferentes tratamentos. Os demais efeitos, que não os de tratamentos, devem ser controlados
ao máximo do ponto de vista prático. Portanto, as pulverizações com produtos químicos, as
capinas, as mensurações etc. devem ser feitas de modo o mais homogêneo possível em todo o
experimento. Da mesma forma, a disponibilidade de água, a temperatura, a umidade e as
sementes utilizadas devem ser as mais similares possíveis. Acontece que, na prática, por
maiores que sejam os esforços dos pesquisadores para homogeneizar todos esses efeitos, isto
normalmente não é possível, pois existem as variações casuais ou aleatórias. Isto pode ser
verificado quando, ao repetir o experimento, sob condições similares, obtemos resultados
diferentes. Essas variações são chamadas de erro experimental ou simplesmente erro. E bom
chamar a atenção de que apesar do termo erro, isto não significa que o experimento foi
malfeito. Vale a pena ressaltar que essas variações também ocorrem para dados obtidos
através de levantamentos.

Ensaio ou experimento: o conjunto de todos os tratamentos, aplicados de forma repetida.

Delineamento: o esquema adotado para a distribuição dos tratamentos.

Unidade experimental: sujeito ao qual se aplica um dos tratamentos. Pode também ser
chamada de parcela ou canteiro. Pode ser uma área de solo, um vaso, um animal, um
indivíduo, a posição de montagem de um pneu, etc.
Nos experimentos em casa de vegetação, para a constituição de cada parcela
podemos utilizar um conjunto de vasos, ou então, um único vaso com duas ou três plantas. As
vezes, uma única planta constitui a unidade experimental.
267
Em experimentos de laboratório, uma amostra simples do material poderá
constituir a parcela; porém, às vezes, é necessário utilizar amostra composta. Na amostra
obtida de cada parcela, devem ser feitas diversas determinações, das quais é obtida uma média
para representar o valor observado nessa parcela. Não devemos confundir as diferentes
determinações da mesma de material com as repetições do experimento.

Área útil: porção da unidade experimental efetivamente utilizada na avaliação do tratamento.

Bordadura: parte da unidade experimental não coletada para a avaliação do efeito do


tratamento.

Repetição: cada uma das aplicações de um tratamento.

Bloco: conjunto ambiental homogêneo que contém todos os tratamentos ou parte deles.
Os delineamentos para a minimização dos efeitos das variações que ocorrem no ambiente em
que se conduz um ensaio são estruturados segundo alguns princípios básicos da
experimentação, que são a casualização, a repetição e o controle local.

Repetição e casualização: Para que a metodologia estatística possa ser aplicada aos
resultados de um experimento, é necessário obedecer a dois princípios básicos da
experimentação: o da repetição e da casualização dos tratamentos. Um terceiro princípio, o
controle local, pode ou não ocorrer num experimento.
A repetição consiste, como o próprio nome indica, em repetir o mesmo tratamento
mais de uma vez. O uso de repetições dos tratamentos é necessário para podermos avaliar a
variabilidade e, com isso, realizar os testes estatísticos e a estimação dos efeitos dos
tratamentos. De um modo geral, quanto maior o número de repetições, mais precisas vão
ser as nossas estimativas. Na prática, o número de repetições vai depender muito dos
recursos e do material experimental disponível. O cálculo do tamanho da amostra é um dos
principais itens do planejamento de um experimento, e a sua determinação não é trivial,
pois exige que se tenha algum conhecimento sobre a variabilidade dos dados, a precisão e a
confiança que se deseja nos resultados. Então, as principais finalidades das repetições são:
1. permitir que se obtenha uma estimativa da variabilidade do erro experimental;
2. aumentar a precisão dos resultados de um experimento e

268
3. permitir a estimação e testes de hipóteses sobre os parâmetros estudados, por exemplo, a
média e a proporção.
O que caracteriza uma repetição é que ela deve gerar um resultado independente.
A casualização ou aleatorização consiste no sorteio dos tratamentos às unidades
experimentais. A casualização garante que unidades com características diferentes tenham
igual probabilidade de serem designadas para os diferentes tratamentos. Ela é fundamental
para atender à suposição de que os dados são oriundos de uma amostra aleatória, fazendo
com que os erros sejam variáveis aleatórias independentemente distribuídas. O princípio da
casualização é uma das principais contribuições dos estatísticos à ciência experimental,
sendo um de seus expoentes Ronald A. Fisher (1890-1962).
Certas restrições podem ser incluídas na casualização, como por exemplo, o controle
local, para levar em consideração alguma(s) fonte(s) de variação do material experimental
(fator de perturbação).

Controle local: está associado ao conhecimento do ambiente experimental e consiste na


divisão das parcelas experimentais em subconjuntos homogêneos, quando é sabido que o total
das unidades experimentais não possui a homogeneidade exigida. No geral, o conjunto de
parcelas homogêneas constitui o que se convencionou chamar de bloco. Quando o bloco
contém todos os tratamentos uma única vez, ele é chamado de bloco completo, e os
delineamentos experimentais que apresentam essa característica são ditos em blocos
completos. Se os blocos comportam apenas parte dos tratamentos, os delineamentos são
chamados de delineamentos em blocos incompletos.

Exemplo 93:
Desejamos estudar a produção por m2(y), de certa cultura, considerando três níveis de
dosagens (a,b e c) de certo fertilizante. Dispomos de seis canteiros para o experimento, donde
podemos fazer duas replicações. Para aleatorizar o tratamento a ser aplicado a cada canteiro,
podemos fazer uso de números aleatórios. A seguir, é reproduzida uma linha de quadro de
números aleatórios.
temos o seguinte projeto experimental:

Tratamento a a b b c c
Canteiro (ordem aleatória) 2 4 5 3 1 6

Se for identificado algum fator de heterogeneidade nos canteiros e se estes puderem ser
agrupados em dois blocos relativamente homogêneos – digamos, bloco 1 formado pelos
269
canteiros 1, 2 e 3 e bloco 2 pelos canteiros 4, 5 e 6-, o esquema do projeto experimental ficaria
assim:

Bloco: 1 1 1 2 2 2
Tratamento: a b c a b c
Canteiro 2 1 3 4 5 6

(ordem aleatória em cada bloco)

Deve o pesquisador ter em conta que os erros nunca podem ser eliminados, mas tão
somente minimizados, e isso se consegue por meio de um conjunto de atividades ou
procedimentos, entre as quais se destacam:
 Uniformidade das parcelas experimentais.
 Parcela experimental de tamanho adequado.
 Uso de bordaduras.
 Utilização de um número adequado de repetições e de preferência igual para todos os
tratamentos.
 Manejo das unidades experimentais de forma homogênea, no que diz respeito a todos
os fatores não envolvidos no estudo.
 Uso do delineamento estatístico adequado para as condições de realização do
experimento, de forma a obter o melhor aproveitamento dos resultados

Planejamentos de experimentos

Na área de horticultura, são muito comuns pesquisas experimentais, nas quais se


manipulam de forma planejada certas variáveis independentes ou fatores (A, B, C,...), para
verificar o efeito que essa manipulação provoca numa certa variável dependente ou resposta
Y.

Exemplos:
Encontrar a melhor condição de operação de um processo química. A resposta Y pode
ser o rendimento da reação química e os fatores podem ser:
 Tempo de reação (A);
 Temperatura da reação (B).

Estratégias no planejamento de experimentos


No planejamento de um experimento, devemos:
270
 Reconhecer, estabelecer e delimitar claramente o problema;
 Identificar os possíveis fatores que podem afetar o problema em estudo;
 Verificar quais fatores poderá ser mantido fixo e, portanto, não terão seus efeitos avaliados no
estudo experimental;
 Identificar, para cada fator, o intervalo de variação e os níveis que serão estudados;
 Escolher um projeto experimental adequado, isto é, saber como combinar os níveis dos fatores
de forma que se possa resolver o problema proposto com o menor custo possível;
 Escolher a resposta adequada, ou seja, a variável Y que mede adequadamente o resultado ( a
qualidade, o desempenho etc.) do processo;
 Planejar como será a análise dos dados do experimento.

Exercícios propostos
Para a resolução dos exercícios abaixo, entende-se que o planejamento de um
experimento envolve:
• enunciar o problema com a formulação do objetivo geral, dos objetivos específicos e
da(s) hipótese(s);
• escolher o(s) fator(es) e seus níveis, que devem ser incluídos no estudo;
• escolher as variáveis respostas a serem analisadas e a forma como sorteio medidas;
• escolher a unidade experimental;
• decidir sobre o número de unidades experimentais a serem associadas a cada um dos
tratamentos (número de repetições);
• identificar possíveis variáveis de perturbação (nuisance variables) que possam
provocar o confundimento de fatores.
• determinar como os tratamentos serão designados às unidades experimentais
(casualização).

Exercício 176: Planeje um experimento para comparar a produção de cinco variedades de


milho.

Exercício 177: Planeje um experimento para testar o efeito da adubação nitrogenada (cinco
níveis), sobre a produção de milho.

Exercício 178: Planeje um experimento na sua área de pesquisa.

271
Princípios básicos da experimentação

A pesquisa científica está constantemente utilizando-se de experimentos para provar


suas hipóteses. E claro que os experimentos variam de uma pesquisa para outra; porém, todos
eles são regidos por alguns princípios básicos, necessários para que as conclusões obtidas se
tornem válidas.

Princípio da repetição

Ao compararmos, por exemplo, dois herbicidas (A e B), aplicados em duas parcelas


perfeitamente homogêneas, apenas o fato do herbicida A ter apresentado maior controle que o
B não é suficiente para que possamos concluir que o mesmo é mais eficiente, pois esse seu
melhor controle poderá ter ocorrido por simples acaso, ou ter sido influenciado por fatores
estranhos. Porém, se os dois herbicidas forem aplicados a várias parcelas, e, ainda assim,
verificarmos que o herbicida A apresenta, em média, maior controle, existe já um indício de
que ele seja mais eficiente.
O princípio da repetição consiste na reprodução do experimento básico e tem por
finalidade propiciar a obtenção de uma estimativa do erro experimental. Esquematicamente:

Princípio da A A A A A A
A
B B B B B B B
Repetição Repetições

Experimento básico

Princípio da casualização

Mesmo reproduzindo o experimento básico, poderá ocorrer que o herbicida A


apresente maior controle por ter sido favorecido por qualquer fator, como, por exemplo, ter
todas as suas parcelas grupadas numa faixa de menor infestação.
Para evitar que um dos herbicidas seja sistematicamente favorecido por qualquer fator
externo, procedemos à casualização dos herbicidas nas parcelas, isto é, eles são designados às
unidades experimentais de forma totalmente casual.

272
O princípio da casualização consiste em atribuir a todos os tratamentos a mesma
probabilidade de serem designados a qualquer das unidades experimentais, e tem por
finalidade proporcionar uma estimativa válida para o erro experimental. Esquematicamente:

A Princípios da repetição + B A B B A B

B Casualização B A A B A A

ExperimentoBásico Repetições + Casualização

Se, ainda, o herbicida A apresentar maior controle, é de se esperar que essa conclusão
seja realmente válida.

Princípio do controle local

Este princípio é frequentemente utilizado, mas não é de uso obrigatório, uma vez
que podemos realizar experimentos sem utilizá-lo. Ele consiste em aplicar os herbicidas A e B
sempre em pares de parcelas o mais homogênea possível com relação ao ambiente, podendo
haver, inclusive, variação acentuada de um par para outro. A cada par de parcelas homogêneas
denominamos bloco. Os tratamentos devem ser sorteados dentro de cada bloco.
Esquematicamente:

Bloco1 Bloco2 Bloco3 Bloco4 Bloco5 Bloco6


A Princípios da repetição +
A B B A A B
B B A A B B A
Casualização + controle local
Repetições + casualização + controle local
Experimento Básico

273
Estatística

Quando tivermos diversos tratamentos para comparar, cada bloco será constituído por
grupo de parcelas homogêneas, cujo número deve ser igual ao número de tratamentos.
O princípio do controle local consiste em dividir um ambiente heterogêneo em
subambientes homogêneos e tem por finalidade tornar o delineamento experimental mais
eficiente, pela redução do erro experimental.

12.1 Relações entre os princípios básicos da experimentação e


os delineamentos experimentais
Fisher desenvolveu a técnica denominada análise de variância, que teve grande
repercussão na pesquisa científica. Esta técnica consiste na decomposição do número de graus de
liberdade e da variância total de um material heterogêneo em partes atribuídas a causas
conhecidas e independentes (fatores controlados), e a uma porção residual de origem
desconhecida e de natureza aleatória (fatores não controlados).
Em outras palavras, a técnica da análise de variância é a que nos permite fazer partições
do número de graus de liberdade (denotados por GL.) e das somas de quadrados (S.Q.), com
cada uma das partes nos proporcionando uma estimativa de variância (denominada quadrado
médio Q.M.).
Para podermos utilizar a metodologia estatística nos resultados de um experimento, é
necessário que o mesmo tenha considerado pelo menos os princípios da repetição e da
casualização, a fim de que possamos obter uma estimativa válida para o erro experimental, que
nos permite a aplicação dos testes de significância.
Ao fazer um experimento considerando apenas esses dois princípios, sem utilizar o
princípio do controle local, temos o delineamento inteiramente casualizado ou inteiramente ao
acaso. Neste delineamento (que só deve ser utilizado quando tivermos absoluta certeza de
homogeneidade das condições experimentais), as parcelas que receberão cada um dos
tratamentos são distribuídas de forma inteiramente casual, por meio de sorteio, para que cada
unidade experimental tenha a mesma probabilidade de receber qualquer um dos tratamentos
estudados, sem nenhuma restrição no critério de casualização.

274
Estatística

Neste delineamento temos apenas duas causas ou fontes de variação: Tratamentos


(causa conhecida ou fator controlado) e Resíduo ou Erro (causa desconhecida, de natureza
aleatória, que reflete o efeito dos fatores não controlados). Considerando um experimento
inteiramente casualizado de competição de inseticidas para controle da mosca-branca-do-
feijoeiro, com 5 tratamentos e 5 repetições, o esquema de análise de variância será:

Causa da variação G.L.


Tratamentos 4
Resíduo 20
Total 24

Se as condições experimentais forem sabidamente heterogêneas, ou se houver


dúvida quanto à sua homogeneidade, devemos utilizar o princípio do controle local,
estabelecendo, então, os blocos (grupos de parcelas homogéneas). Cada um deles deve conter
todos os tratamentos.
O delineamento experimental assim obtido é denominado delineamento em blocos
casualizados ou em blocos ao acaso. Vernos que, nesse caso, devemos isolar mais uma causa de
variação conhecida (fator controlado), que são os blocos. Uma vez que cada bloco deve conter
todos os tratamentos, há uma restrição na casualização, que deve ser feita designando os
tratamentos às parcelas dentro de cada bloco.

A utilização do princípio do controle local sempre nos conduz a uma redução no


número de graus de liberdade do resíduo.
Se as condições experimentais forem duplamente heterogêneas, obrigando-nos a
controlar os dois tipos de heterogeneidade, devemos nos utilizar de um delineamento que
exagera no princípio do controle local, e que é denominado delineamento em quadrado
latino. Neste delineamento, que não é muito utilizado, o número de repetições deve ser igual
ao número de tratamentos, e, portanto, o número de parcelas deve ser um quadrado perfeito.
Nesse caso, temos parcelas totalmente diferentes que, no entanto, podem ser grupadas
de acordo com duas classificações: em uma primeira etapa, organizamos blocos de acordo com
uma das classificações (que denominamos linhas); a seguir, organizamos blocos de acordo com o

275
Estatística

outro critério de classificação (que denominamos colunas). Para a designação dos tratamentos às
parcelas, devemos casualizá-los tanto nas linhas como nas colunas do quadrado latino.
Considerando experimento em quadrado latino com 5 níveis de adubação para a cultura da soja, o
esquema de análise de variância será:

Causa da variação G.L.


Tratamentos 4
Linhas 4
Colunas 4
Resíduo 12
Total 24

Alertamos novamente para o fato de que o uso do princípio do controle local acarreta
sempre uma redução no número de graus de liberdade do resíduo, o que constitui uma
desvantagem. Entretanto, essa desvantagem geralmente é compensada, pois ocorrerá também
uma redução na soma de quadrados do resíduo, e obteremos maior precisão, pois há uma
redução na variância residual, devida ao fato de isolarmos o efeito de fatores que normalmente
seriam incluídos no resíduo.

12.2 Análise de Variância – ANOVA


Introdução
A análise de variância foi inicialmente desenvolvida por Fisher, como instrumento para a
análise de experimentos agrícolas.
A ANOVA é um método poderoso para identificar diferenças entre as médias
populacionais devido a várias causas atuando, simultaneamente, sobre os elementos da
população. A variação total dos dados é analisada em duas partes: a variação dentro do
tratamento (intragrupo) – QMR e a variação entre os tratamentos – QMTr.

Pressuposições básicas à aplicação da ANOVA

 As k populações tenham a mesma variância  2 - condição de homocedasticidade;


 A variável de interesse seja normalmente distribuída em todas as populações.

276
Estatística

DELINEAMENTO INTEIRAMENTE CASUALIZADO

Introdução

O delineamento inteiramente casualizado é o mais simples de todos os delineamentos


experimentais, e os experimentos instalados de acordo com este delineamento são denominados
experimentos inteiramente casualizados ou experimentos inteiramente ao acaso. Este
delineamento apresenta as seguintes características:
a) Utiliza apenas os princípios da repetição e da casualização, deixando de lado o
princípio do controle local, e, portanto, as repetições não são organizadas em blocos;
b) Os tratamentos são designados às parcelas de forma inteiramente casual, com
números iguais ou diferentes de repetições por tratamento.
Para a instalação desses experimentos no campo, devemos ter certeza da homogeneidade das
condições ambientais e do material experimental.
Frequentemente, este delineamento experimental é mais utilizado em experimentos de
laboratório e nos ensaios com vasos, realizados dentro de casas de vegetação, nos quais as
condições experimentais podem ser perfeitamente controladas. Nos experimentos realizados com
vasos, estes devem ser constantemente mudados de posição, de forma inteiramente casual, para
evitar influências externas sempre sobre os mesmos vasos.
O delineamento inteiramente casualizado apresenta, em relação aos outros delineamentos,
as seguintes vantagens:
a) é um delineamento bastante flexível, visto que o número de tratamentos e de repetições
depende apenas do número de parcelas disponíveis;
b) o número de repetições pode ser diferente de um tratamento para outro, embora o ideal seja
que eles se apresentem igualmente repetidos;
c) a análise estatística é simples, mesmo quando o número de repetições por tratamento é
variável;
d) o número de graus de liberdade para o resíduo é o maior possível.

277
Estatística

Em relação aos outros delineamentos experimentais, este apresenta as seguintes desvantagens:

a) exige homogeneidade total das condições experimentais;


b) pode conduzir a uma estimativa de variância residual bastante alta, uma vez que, não se
utilizando do princípio do controle local, todas as variações, exceto as devidas a tratamentos, são
consideradas como variação do acaso.
Neste delineamento, as parcelas que receberão cada um dos tratamentos são
determinadas de forma inteiramente casual, por meio de um sorteio, para que cada unidade
experimental tenha a mesma probabilidade de receber qualquer um dos tratamentos estudados,
sem nenhuma restrição na casualização.
Assim, por exemplo, consideremos que estamos planejando um experimento de
competição de inseticidas para o controle da mosca-branca-do-feijoeiro, com 5 tratamentos (4
inseticidas e uma testemunha), representados por A, B, C, D e E, com 5 repetições, no
delineamento inteiramente casualizado. Para procedermos à casualização dos tratamentos,
devemos numerar as parcelas de 1 a 25 e colocar as repetições de cada tratamento em sequência:
A1A2A3A4A5 B1B2B3B4B5 C1C2C3C4C5 D1D2D3D4D5 E1E2E3E4E5
e, a seguir, pelo uso de uma tabela de números aleatórios ou de fichas numeradas, sorteamos uma
sequencia de números de 1 a 25, por exemplo:

15 7 14 4 12 23 20 13 11 25 19 2 1 22 21 6 16 24 8 3 18 10 9 5 17

Finalmente, montamos o esquema de disposição do experimento no campo, como


mostra a Figura 3.1. l.

1 2 3 4 5 6 7 8 9 10 11 12 13

C3 C2 D5 A4 E4 D1 A2 D4 E3 E2 B4 A5 B3

14 15 16 17 18 19 20 21 22 23 24 25

A3 A1 D2 E5 E1 C1 B2 C5 C4 B1 D3 B5

Figura – disposição do experimento inteiramente casualizado no campo.

278
Estatística

12.2.1 ANOVA - Uma classificação: amostras de mesmo tamanho

As hipóteses a serem testadas são:

 H0: 1 = 2= ... = k = não existe diferença entre as médias;


 H1: existe pelo menos uma média diferente da outra.

A ideia, na análise de variância, é comparar a variação devida aos tratamentos com a


variação devido ao acaso ou resíduo. Para fazer uma análise de variância é preciso proceder a
uma série de cálculos. Mas a aplicação das fórmulas exige conhecimento da notação.
Na Tabela 1, apresenta-se um experimento com ―k‖ tratamentos ou amostras de tamanho
―r‖. A soma dos resultados das r repetições de um mesmo tratamento constitui o total desse

tratamento. As médias dos tratamentos foram indicados por y1 , y 2 , y 3 ,..., y k .

O total geral é dado pela soma dos totais dos tratamentos.

Tabela 1 - Um experimento inteiramente ao acaso


Tratamento ou amostra Total
1 2 3 ... k
y11 y21 y31 yk1
y12 y22 y32 yk2
y13 y23 y33 yk3
. . . .
. . . .
. . . .
y1r y2r y3r ... ykr
Total T1 T2 T3 ... Tk T = y
No de repetições r r r ... r n = kr
Média y1 y2 y3 ... yk

onde: yij (i = 1, 2, ..., k; j = 1, 2, ..., r).

Para fazer a análise de variância de um experimento, ao acaso, é preciso calcular as


seguintes quantidades:

a) Os graus de liberdade: dos tratamentos = k-1;


dos resíduos = k . (r-1);
do total = (k.r) - 1.

279
Estatística

b) O valor de C, conhecido como fator de correção:


 y  2

C
n

c) a soma de quadrados total:


SQT   y 2  C , SQT = SQTr + SQR

d) a soma de quadrados dos tratamentos:



2
Ti
SQTr  C
r

e) a soma de quadrados dos resíduos:


SQR = SQT - SQTr

f) o quadrado médio (variância) dos tratamentos (  Tr  QMTr ):


2

SQTr
QMTr 
k 1

g) o quadrado médio (variância) dos resíduos (  r  QMR ):


2

SQR
QMR 
k (r  1)

QMTr
h) o valor calculado de Fc : Fc 
QMR

Note que os quadrados médios (variâncias) são obtidos, dividindo as somas de quadrados
pelos respectivos graus de liberdade.
Todas as quantidades calculadas são apresentadas numa tabela de análise de variância,
conforme a Tabela 2, a seguir:

Tabela 2 - Análise de variância de um experimento inteiramente ao acaso


Causas de variação GL SQ QM F
Tratamentos k-1 SQTr QMTr Fc
Resíduo k(r - 1) SQR QMR
Total kr - 1 SQT

Para testar as hipóteses é utilizada a estatística F de Snedecor, com (k–1) graus de

liberdade no numerador e k(r–1) graus de liberdade no denominador. Se Fc > F,1 2 , rejeita-se Ho

e conclui-se que existe pelo menos uma média que difere de outra.

280
Estatística

Para verificar quais as médias que diferem entre si é necessário utilizar um teste de
comparação de médias.

Exemplo 94: Suponhamos que um pesquisador conduziu um experimento inteiramente ao


acaso em um conjunto de dados que se pressupõe que sejam normalmente distribuídos e que
possua homocedasticidade. O interesse do pesquisador é avaliar se existe diferença entre os
diferentes tipos de vinhos com relação à acidez (vinho1, vinho2 e vinho3). Como se ajudaria esse
pesquisador por meio da ANOVA, utilizando-se um nível de significância de 5%?
Vinho1 Vinho2 Vinho3
3 11 16
5 10 21
4 12 17

Comparação de médias
Quando a análise de variância de um experimento mostra que as médias dos tratamentos
não são estatisticamente iguais, é apenas lógico perguntar: Quais são as médias que diferem entre
si? Para responder a esta pergunta o pesquisador precisa de um método que forneça a diferença
mínima significante entre duas médias. Toda vez que o valor absoluto da diferença entre duas
médias é igual ou maior que a diferença mínima significante, as médias são consideradas
estatisticamente diferentes, ao nível de significância estabelecido.
Foram propostas diversas maneiras de calcular a diferença mínima significante. Cada
proposta é, na realidade, um teste que, em geral, leva o nome de seu autor. Não existe um
procedimento para a comparação de médias que seja definitivamente ―melhor‖ que todos os
outros.

281
Estatística

Teste de Tukey
Para obter o valor da diferença mínima significante (d.m.s.) pelo teste de Tukey, basta
calcular:

Para amostras de mesmo tamanho

QMR
d.m.s.  q
r
onde: q k ,, = valor tabelado da amplitude studentizada;
 = k . (r – 1);
r = número de repetições do tratamento ou tamanho da amostra.

5.1.2 Para amostras de tamanho diferentes

 1 1  QMR
d.m.s.  q   
r r  2
 i j 

onde: QMR = quadrado médio do resíduo da análise de variância;


ri e rj = número de repetições dos tratamentos em comparação.

De acordo com o teste, duas médias são estatisticamente diferentes toda vez que o valor
absoluto da diferença entre elas for igual ou maior do que a d.m.s., ou seja:

 Se x i  x m  d. m. s. , então x i  x m ;
 Se x i  x m < d. m. s., então x i = x m .

Exemplo 95: Num experimento visando ao controle do pulgão (Aphis gossypii Glover) em
cultura de pepino, Macedo (1970) utilizou 6 repetições dos tratamentos:
A-Testemunha
B- Azinfós etílico
C – Supracid 40 CE dose 1
D- Supracid 40CE dose 2
E – Diazinon 60CE.

282
Estatística

O delineamento experimental adotado foi o inteiramente casualizado, e os dados obtidos


referentes ao número de pulgões coletados 36 horas após a pulverização, são apresentadas no
Quadro 3.2.1.
Quadro: Números de pulgões coletados 36 horas após a pulverização

TRATAMENTOS REPETIÇÕES S2
1 2 3 4 5 6
A 2.370 1.687 2.592 2.283 2.910 3.020 233.750
B 1.282 1.527 871 1.025 825 920 75.559
C 562 321 636 317 485 842 40.126
D 173 127 132 150 129 227 1.502
E 193 71 82 62 96 44 2.792

Exemplo 96: Num experimento inteiramente casualizado, de competição da Cultivares de


mandioca, realizado numa área perfeitamente homogênea quanto às condições experimentais
foram utilizados 5 cultivares e 5 repetições. Os cultivares utilizados foram:
A- IAC5 B – IAC7 C – IAC11
D – IRACEMA E – MANTIQUEIRA
A designação dos tratamentos às parcelas no campo, juntamente com as produtividades, em
t/há, é apresentada na Figura 1.

(A3) (E1) (C3) (B5) (B1)


20,3 47,8 25,8 28,7 20,9
(B4) (D2) (A5) (A1) (D3)
28,3 43,2 29,3 38,9 41,7
(E2) (A2) (E4) (D1) (C1)
47,8 25,4 50,5 38,7 28,1
(C2) (D5) (B3) (C4) (B2)
27,0 40,3 32,3 26,9 26,2

(E5) (A4) (C5) (E3) (D4)


56,4 25,7 22,3 44,7 39,0

283
Estatística

O primeiro passo para a obtenção da análise do experimento consiste na organização


do quadro que mostra a produtividade de cada tratamento em suas diferentes repetições,
transcrevendo os dados mostrados na Figura 1 para o Quadro 1.

Quadro 1: Produtividade dos cultivares de mandioca, em t/há.


REPETIÇÕES
TRATAMENTOS TOTAIS
1 2 3 4 5
A-IAC 5 38,9 25,4 20,3 25,7 29,3 139,6
B-IAC 7 20,9 26,2 32,3 28,3 28,7 136,4
C-IAC 11 28,1 27,0 25,8 26,9 22,3 130,1
D-IRACEMA 38,7 43,2 41,7 39,0 40,3 202,9
E-MANTIQUEIRA 47,8 47,8 44,7 50,5 56,4 247,2

Experimento inteiramente ao acaso:


Exemplo de obtenção da análise do experimento e interpretação dos resultados no caso de
tratamentos com números diferentes de repetições

Algumas vezes, o experimentador necessita por motivos inerentes experimentação,


utilizar tratamentos com números diferentes de repetições, o que é possível de ser feito no
delineamento inteiramente casualizado, sem que isto dificulte a análise estatística.
Neste caso, em que o experimento é denominado não balanceado, algumas modificações
devem ser feitas nos cálculos referentes à análise de variância e nos teses de comparações
médias, de modo a considerar o número desigual de repetições dos tratamentos.
Nos experimentos inteiramente casualizados em que ocorrem como não balanceado.

284
Estatística

12.2.2 ANOVA - Uma classificação: amostras de tamanhos


diferentes

A análise estatística de um experimento, inteiramente ao acaso, com número diferente de


repetições não apresenta maior dificuldade. Todos os cálculos são feitos da maneira já
apresentada anteriormente, com exceção da soma de quadrados dos tratamentos. A soma de
quadrados dos tratamentos é dada pela fórmula:

T12 T22 T2
SQTr    ...  k  C
r1 r2 rk

Exemplo 97: Os dados do Quadro 3.6.1 adaptados de Cardoso Filho (1974) e se referem a
produções de matéria seca de sorzo, em t/ha.
Quadro – Produções de matéria seca dos cultivares, em t/ha.
REPETIÇÕES
CULTIVARES TOTAIS
1 2 3 4 5 6
1-NK 300 (Híbrido) 10,3 11,6 11,7 11,4 11,2 11,2 67,4
2-SORDAN 67 (Híbrido) 9,8 10,0 10,2 11,9 10,4 10,5 62,8
3-PIONEER 988 (Híbrido) 9,9 9,6 10,0 10,4 - - 39,9
4-PIONEER 93 (Híbrido) 21,2 20,6 22,3 19,9 21,0 - 105,0
5-SART (variedade) 20,2 20,6 22,1 20,8 20,9 20,9 125,5

285
Estatística

Exemplo 98: Deseja-se comparar três drogas analgésicas para reduzir a dor pós-operatória em
pacientes submetidos à mesma intervenção cirúrgica. As drogas foram distribuídas entre os
pacientes por um processo aleatório. Os índices de dor pós-operatória obtidos nesse experimento
(dados fictícios) estão apresentados na tabela, juntamente com os elementos de cálculo
necessários para se realizar a análise de variância.

Tabela: Índice de dor pós-operatória (variando de 0=nenhuma a 10=máxima) em pacientes que


receberam uma de três drogas analgésicas (A).
A1 A2 A3 Total
(i=1) (i=2) (i=3)
Grau de dor (x) 1 5 2
3 7 0
8 3
ni

∑x = Ti

∑x2
̅
s

Tabela: Análise de variância com os dados


Causas de variação SQ GL QM Fcal Ftab
Entre tratamentos
Dentro (resíduo)
Total

286
Estatística

EXERCÌCIOS – ANOVA

Exercício 179: Considere um experimento que tem como objetivo verificar o comportamento da
produção de milho sob o efeito de diferentes doses de nitrogênio: 0, 25, 50, 75 e 100Kg de
nitrogênio por hectare (1 hectare é equivalente a 10.000m2 e representado por ha). Essas doses
foram definidas pelo pesquisador e correspondem aos cinco tratamentos envolvidos no
experimento. A cultivar de milho escolhida para o experimento foi a mais plantada na região.
Para cada dose de nitrogênio foram plantados cinco canteiros de terra de 10m2 cada; portanto, o
tamanho da amostra para cada dose de nitrogênio é cinco (cinco repetições dos tratamentos).
Após realizada a análise estatística e a interpretação dos resultados, poderá ser indicada qual a
melhor dose de nitrogênio para a cultivar de milho utilizada.

Tratamento Repetições
I II III IV V
0 2.850 1.780 2.100 2.900 2.010
25 3.200 1.980 2.220 2.850 2.100
50 4.150 2.330 3.700 4.050 2.500
75 4.380 2.830 3.420 3.900 3.080
100 4.000 2.630 3.150 3.780 2.670

Exercício 180: Pássaros cucos adultos não cuidam de seus próprios ovos. Eles botam seus ovos
em ninhos de outros pássaros, como pardais, pintarroxos e cambaxirras. Esses pássaros adotam os
ovos de cucos, chocando e cuidando deles como se fossem seus próprios ovos. Um biólogo está
estudando o tamanho dos ovos de cucos encontrados em ninhos de pardais, pintarroxos e
cambaxirras. Os comprimentos de ovos aleatoriamente selecionados podem ser observados na
tabela.
Ninho hospedeiro
Pardal Pintarroxo Cambaxirra
24,08 22,66 20,89
22,95 22,51 20.97
22,82 21,44 22,31
23,98 22,70 21,54
24,59 22,15 20,19
22,95 22,75 21,38
25,16 23,02 20,50
23,39 21,72 20,99
23,74 21,49 20,83
21,15 22,15 20,74
23,81 22,15 21,40
22,40 22,28 21,90
24,17 22,98

287
Estatística

Com α= 0,05, você pode concluir que o comprimento médio de ovos de cucos encontrados em
um tipo de ninho é diferente dos outros? Suponha que cada população de comprimentos de ovos
de cucos seja normalmente distribuída e que as variâncias da população sejam iguais.

Exercício 181: Um médico pesquisador quer determinar se há uma diferença na média de tempo
que três tipos de analgésicos levam para aliviar a dor de cabeça. Várias pessoas que sofrem com
dores de cabeça são selecionadas aleatoriamente e tomam um dos três medicamentos. Cada
pessoa diz o tempo (em minutos) que o medicamento começou a fazer efeito. Os dados podem
ser conferidos na tabela. Com α= 0,01, você pode concluir que a média de tempo são diferentes?
Suponha que cada população de tempo de alívio seja normalmente distribuída e que a população
de variâncias seja igual.

Medicamento Medicamento Medicamento


1 2 3
12 16 14
15 14 17
17 21 20
12 15 15
19
̅ 1=14 ̅ 2=17 ̅ 3=16,5
=6 =8,5 =7

12.3 DELINEAMENTO EM BLOCOS CASUALIZADOS

Introdução

O delineamento em blocos casualizados é também denominado delineamento


em blocos ao acaso ou ainda delineamento em blocos completos casualizados e se
constitui no mais utilizado de todos os delineamentos experimentais.
Sempre que não houver homogeneidade das condições experimentais, devemos
utilizar o princípio do controle local, estabelecendo, então, subambientes homogêneos
(blocos) e instalando, em cada um deles, todos os tratamentos, igualmente repetidos.

288
Estatística

Este delineamento leva em consideração os três princípios básicos da


experimentação, e os experimentos instalados neste delineamento são denominados
experimentos em blocos casualizados ou experimentos em blocos ao acaso. As principais
características deste delineamento são:

a) as parcelas são distribuídas em grupos ou blocos (princípio do controle local), de tal


forma que elas sejam o mais uniformes possível, dentro de cada bloco;

b) o número de parcelas por bloco deve ser um múltiplo do número de tratamentos


(geralmente, esse número é igual ao número de tratamentos);

c) os tratamentos são designados às parcelas de forma casual, sendo essa casualização feita
dentro de cada bloco.

O delineamento em blocos casualizados é mais eficiente que o delineamento


inteiramente casualizado, e essa eficiência depende da homogeneidade das parcelas de cada
bloco, podendo, inclusive, haver diferenças bem acentuadas das condições experimentais de um
bloco para outro.
No campo, é recomendável que os blocos se apresentem com uma forma
aproximadamente quadrada, embora muitas vezes eles sejam instalados de forma
retangular ou irregular, para que possam apresentar homogeneidade nas suas parcelas.
Assim, dependendo da uniformidade, num experimento com 4 tratamentos podemos ter,
por exemplo, as seguintes formas para os blocos:

C D C B C
A D
B A
B A
D

289
Estatística

No que se refere à distribuição dos blocos no campo, eles podem ficar juntos ou ser
espalhados por toda a área em estudo; porém, geralmente eles são colocados uns próximos dos
outros, visando com isso uma maior facilidade nos trabalhos de campo, durante a execução do
experimento. As principais vantagens deste delineamento são:
a) controla as diferenças que ocorrem nas condições experimentais, de um bloco para
outro;
b) permite, dentro de certos limites, utilizar qualquer número de tratamentos e de
blocos;
c) conduz a uma estimativa mais exata para a variância residual, uma vez que a
variação ambiental entre blocos é isolada;
d) a análise de variância é relativamente simples, sendo apenas um pouco mais
demorada que a do delineamento inteiramente casualizado, visto que existe mais uma causa da
variação que deve ser isolada.

Em relação aos outros delineamentos, o delineamento em blocos casualizados


apresenta as seguintes desvantagens:
a) pela utilização do princípio do controle local, há uma redução no número de graus
de liberdade do resíduo;
b) a exigência de homogeneidade das parcelas dentro de cada bloco limita o número
de tratamentos, que não pode ser muito elevado.

Casualização dos tratamentos nas unidades experimentais - deve ser feita uma
casualização independente dos tratamentos em cada bloco.
Por exemplo, suponhamos que fossem 4 cultivares (A, B, C e D) que seriam testados em
6 blocos. A casualização dos cultivares para cada bloco poderia ser a seguinte:

290
Estatística

Bloco 1 C1 D1 A1 B1
Bloco 2 D2 A2 B2 C2
Bloco 3 B3 A3 D3 C3
Bloco 4 B4 C4 A4 D4
Bloco 5 A5 C5 D5 B5
Bloco 6 D6 B6 C6 A6

O delineamento em blocos casualizados é mais eficiente que o delineamento


inteiramente casualizado, e essa eficiência depende da homogeneidade das parcelas de
cada bloco, podendo, inclusive, haver diferenças bem acentuadas das condições
experimentais de um bloco para outro.
Devemos ressaltar que nem sempre bloco é sinônimo de repetição. O número de blocos e
de petições coincide apenas quando os tratamentos ocorrem apenas uma vez em cada bloco. O
esmo não acontece quando os tratamentos são repetidos duas ou mais vezes em cada bloco. Por
exemplo:

1 4 1 4
E F B1 A1
2 5 2 5
C B A2 C1
3 6
3 6
A D B2 C2
1 Bloco e 1 repetição
1 Bloco e 2 repetições

O delineamento em blocos casualizados é mais eficiente que o delineamento


inteiramente casualizado, e essa eficiência depende da homogeneidade das parcelas de
cada bloco, podendo, inclusive, haver diferenças bem acentuadas das condições
experimentais de um bloco para outro.

291
Estatística

As hipóteses a serem testadas são as seguintes:

H01: Não existe diferença significativa entre as médias dos tratamentos (colunas);

H02: Não existe diferença significativa entre as médias dos blocos (linhas);

TRATAMENTO
BLOCO
1 2 3 ... k TOTAL
1 Y11 Y21 Y31 ... Yk1 B1
2 Y12 Y22 Y32 Yk2 B2
3 Y13 Y23 Y33 Yk3 B3
. . . . . .
. . . . . .
. . . . . .
r Y1r Y2r Y3r ykr Br
Total T1 T2 T3 ... TK ∑T=∑B=∑Y

Número de r r r ... r n=k.r


repetições
Média ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ... ̅̅̅̅

Para fazer a análise de variância, de um experimento em blocos ao acaso, é preciso calcular:


a) Os graus de liberdade: do total: Kr-1
dos tratamentos = k-1;
dos blocos: r-1
dos resíduos = (kr-1)-(k-1)-(r-1)=(k-1)(r-1);

b) O valor de C, conhecido como fator de correção:


 y  2

C
kr

c) a soma de quadrados total:


SQT   y 2  C , SQT = SQTr + SQR

d) a soma de quadrados dos tratamentos:

292
Estatística

T
2

SQTr  C
i

f) a soma de quadrados de blocos:


B
2

SQBl  C
k

e) a soma de quadrados dos resíduos:


SQR = SQT – SQTr - SQBl

As somas de quadrados são apresentadas na tabela de análise de variância. Para calcular


os quadrados médios, basta dividir cada soma de quadrados pelos respectivos graus de liberdade.
O valor de F, para tratamentos, é dado pelo quociente entre o quadrado médio dos tratamentos e o
quadrado médio dos resíduos; o valor de F, para os blocos, é dado pelo quociente entre o
quadrado médio dos blocos e o quadrado médio dos resíduos.

Tabela: Análise de variância de um experimento em blocos ao acaso


Fontes de
S.Q. G.L. Q.M. Fcalc
Variação
Tratamentos SQTr K-1 QMtr Ftr=

Blocos SQBl r-1 QMBl FBl=

Resíduos SQres (K-1)(r-1) QMres ---


Total SQT. Kr-1 --- ---

Exemplo 99: No trabalho ― Estudos dos efeitos do Promalin sobre frutos de macieiras (Malus
ssp) cultivares Brasil e Rainha‖, Mestriner (1980) utilizou 4 repetições dos seguintes tratamentos:

1- 12,5 ppm de Promalin em plena floração


2- 25,0 ppm de Promalin em plena floração
3- 50,0 ppm de promalin em plena floração
4- 12,5 ppm de promalin em plena floração + 12,5 ppm de Promalin no início da
frutificação
5- Testemunha

293
Estatística

O experimento foi instalado na Fazenda Chapadão, no município de Angatuba – SP. O


delineamento experimental foi o de blocos casualizados, sendo as parcelas constituídas de 4
plantas espaçadas 6X7m, com 12 anos de idade na época de instalação do experimento.
A designação dos tratamentos às parcelas e os pesos médios dos frutos, expressos em
gramas obtidos pela pesagem de 250 frutos por parcela, são apresentados no quadro a seguir:

Quadro: Esquema da distribuição dos tratamentos e pesos médios dos frutos nas parcelas
(gramas).
1º Bloco (3) (1) (4) (5) (2)
140,7 142,4 150,9 153,5 139,3
2º Bloco (2) (5) (4) (1) (3)
137,8 165,0 135,8 144,8 134,1

3º Bloco (4) (2) (5) (3) (1)


137,0 144,4 151,8 136,1 145,2

4º Bloco (1) (3) (4) (2) (5)


138,9 144,1 136,4 130,6 150,2

Os valores dos pesos médios dos frutos nas parcelas devem ser agrupados como no quadro 1.

Quadro 1: pesos médios dos frutos da macieira, em gramas

Blocos Tratamentos Totais


1 2 3 4 5
1 142,4 139,3 140,7 150,9 153,5 726,8
2 144,8 137,8 134,1 135,8 165,0 717,5
3 145,2 144,4 136,1 137,0 151,8 714,5
4 138,9 130,6 144,1 136,4 150,2 700,2
Totais 571,3 552,1 555,0 560,1 620,5 2,859,0

294
Estatística

12.4 Blocos com tratamentos repetidos


A designação dos tratamentos às parcelas é feita de forma casual dentro de cada bloco,
isto é, procedemos como se tivéssemos 6 tratamentos e efetuássemos suas casualizações dentro
de cada bloco. Deste modo, poderíamos obter, por exemplo, a seguinte constituição para os
blocos:
1º Bloco 2º Bloco 3º Bloco 4º Bloco
A2 B2 A1 B1
B1 B3 B3 A3
B3 A3 B1 A2
A3 B1 A3 B3
A1 A2 B2 B2
B2 A1 A2 A1

Para ilustrar a obtenção da análise e a interpretação dos resultados obtidos, vamos utilizar
o exemplo a seguir:

Exemplo 100: No trabalho "Estudo comparativo entre diferentes métodos de semeadura na


cultura do mamoeiro", realizado em Jaboticabal — SP, Ruiz (1977) utilizou os tratamentos:
A - Semeadura direta no campo;
B - Semeadura em recipientes
a pleno sol;
C - Semeadura em recipientes
no ripado.
Cada tratamento foi repetido 2 vezes em cada um dos 4 blocos. No Quadro 4.7.1 são presentados
os dados obtidos para as alturas médias das plantas.

295
Estatística

Quadro 1: Alturas médias das plantas do mamoeiro, em cm, aos 147 dias após a semeadura.
TRATAMENTOS
BLOCOS Totais
A B C
1 136,1 105,3 79,8 77,9 64,0 77,1 540,2
2 98,8 86,8 56,3 64,4 59,5 55,8 421,6
3 108,8 109,7 66,9 62,1 65,2 66,1 478,8
4 92,4 70,5 43,8 36,3 61,9 43,7 348,6
Totais 808,4 487,5 493,3 1.789,2

Exercícios:

1. O dono de uma concessionária de carros quer determinar se o sexo de um vendedor e o tipo de


veículo vendido afetam o número de veículos vendidos em um mês. O planejamento em blocos
mostra que o número de veículos vendidos, listados pelo tipo, em um mês, por uma amostra
aleatória de oito vendedores.

Tipo de veículo
Carro Caminhão Van/SUV
Homem 6,5,4,5 2,2,1,3 4,3,4,2
Gênero
Mulher 5,7,8,7 1,0,1,2 4,2,01

2. Em um estudo, uma amostra aleatória de 20 adultos avaliaram a eficiência de propagandas.


Cada adulto avaliou uma propaganda de rádio ou TV que durasse 30 ou 60 segundos. O
planejamento em blocos mostra essas avaliações (em uma escala de 1 a 5, com 5 sendo
extremamente eficiente).
Média da propaganda

Rádio Televisão
30 seg 2,3,5,1,3 3,5,4,1,2
Duração da
propaganda 60 seg 1,4,2,2,5 2,5,3,4,4

296
Estatística

Métodos para aumentar a precisão dos experimentos

A precisão se refere à ordem de grandeza da diferença entre dois tratamentos, passível


de ser detectada em um experimento. Os procedimentos que podem nos levar a um aumento
nessa precisão são: escolha do material experimental, escolha da unidade experimental, escolha
dos tratamentos aumento do número de repetições, agrupamento das unidades experimentais e
técnicas mais refinadas.

Escolha do material experimental


Para certos tipos de trabalhos é desejável um material uniforme, cuidadosamente
selecionado. Entretanto, na seleção do material experimental, devemos ter em mente a
população a respeito da qual desejamos obter conclusões. Portanto, para muitas pesquisas
aplicadas no campo da agricultura é importante utilizar os tipos de materiais experimentais que
realmente serão usados na prática.

Escolha da unidade experimental


Conforme vimos, o tamanho e a forma das parcelas afetam a precisão. Em geral, a
variabilidade entre parcelas decresce com o aumento do tamanho da parcela, mas, uma vez
atingido um tamanho ideal, o aumento da precisão diminui rapidamente com tamanhos maiores.
As parcelas retangulares são mais eficientes na superação da heterogeneidade do solo quando seu
eixo maior está na direção da maior variação do solo.

Escolha dos tratamentos


A cuidadosa seleção dos tratamentos é importante não apenas na obtenção dos objetivos
do experimentador, mas também para aumentar a precisão do experimento. Por exemplo, ao se
estudar o efeito de um fertilizante, inseticida, fungicida ou herbicida, é melhor determinar como
as parcelas respondem a doses crescentes do produto do que decidir se duas doses sucessivas
são ou não Significativamente diferentes. Consequentemente, um conjunto apropriado de doses
possibilitará planejar testes de significância que serão mais sensíveis do que simplesmente
comparar médias adjacentes em um conjunto. O uso de experimentos fatoriais, nos quais dois

297
Estatística

ou mais fatores são testados simultaneamente, pode proporcionar considerável aumento na


precisão.

Aumento do número de repetições


A precisão de um experimento sempre pode ser aumentada pelo uso de repetições
adicionais, mas o nível de melhoria nessa precisão diminui com o aumento do número de
repetições. Por exemplo, para dobrar o grau de precisão com que duas médias são
comparadas em um experimento com 4 repetições, serão necessárias 16 repetições.
De um modo geral, para a obtenção de uma precisão razoável em experimentos de
campo com culturas, são necessárias de quatro a oito repetições.
Ao planejarmos um experimento, devemos ter certeza de que conseguiremos detectar
uma diferença real entre tratamentos da ordem de grandeza em que estamos interessados. Se a
probabilidade de conseguirmos esse objetivo com o número de repetições que podemos utilizar
for pequena, é preferível deixarmos o experimento para uma outra ocasião em que tenhamos
recursos suficientes para realizá-lo com o número de repetições adequado.

Agrupamento das unidades experimentais


O agrupamento planejado das unidades experimentais envolve o uso do princípio do
controle local. Por meio de certas restrições na casualização dos tratamentos nas parcelas, é
possível remover algumas fontes de variação, tais como variações na fertilidade do solo, na
disponibilidade de água, na infestação inicial e outras, ao longo da área experimental. O
agrupamento das parcelas de modos diferentes dá origem aos diferentes delineamentos
experimentais.

Técnicas mais refinadas


Uma técnica errônea pode aumentar o erro experimental e distorcer os efeitos dos
tratamentos. Uma técnica adequada tem por objetivos: a) aplicação uniforme dos tratamentos;
b) proporcionar medidas adequadas e não viciadas dos efeitos dos tratamentos; c) prevenir erros
grosseiros; e d) controlar influências externas de forma que todos os tratamentos sejam afetados
igualmente.

298
Estatística

Por exemplo, a técnica conhecida como análise de covariância pode, às vezes, ser usada
para remover uma importante fonte de variação entre as unidades experimentais. Para que essa
técnica possa ser utilizada, é necessária a tomada de algumas medidas adicionais, tais como
número de plantas por parcela, número de vagens ou espigas por parcela e outras.

299
Estatística

13. ANÁLISE DE CORRELAÇÃO E REGRESSÃO

Muitas vezes, na pratica, necessitamos estudar o relacionamento de duas variáveis,


coletadas como pares de valores, para resolver questões, como por exemplo:
- Quanto maior for a produção, maior será o custo total.
- Relação entre renda e aplicação na poupança.

A existência de relação entre as variáveis e grau de relação é o que caracteriza o objeto da


ANÁLISE DE CORRELAÇÃO. Já a ANÁLISE DE REGRESSÃO permite expressar
matematicamente, através de uma equação, a relação existente entre X e Y.

13.1 ANÁLISE DE CORRELAÇÃO

A Análise de Correlação indica a existência ou não de relacionamento entre duas variáveis


e se este relacionamento é forte ou fraco. Um primeiro passo ao analisar um conjunto de dados é
a construção do Diagrama de Dispersão.

13.1.1 Diagrama de Dispersão


O diagrama de dispersão é um gráfico no qual cada ponto representa um par de valores
observados, onde podemos visualizar intuitivamente a relação entre as variáveis. A disposição
dos pontos indica a existência ou não de um possível relacionamento entre as variáveis.

300
Estatística

13.1.2 Tipo de Correlações

Correlação Positiva ou Direta

Ocorre quando as duas variáveis crescem no mesmo sentido. À medida que a variável x
aumenta, y aumenta também (ou à medida que uma diminui a outra diminui também).

330

280
Vendas (mil reais)

230

180

130

80
1 1,5 2 2,5 3 3,5
Gastos em propaganda (m il reais)

Correlação Negativa ou Inversa

Ocorre quando as duas variáveis crescem em sentido opostos. À medida que a variável x
aumenta, y diminui (ou à medida que x diminui, y aumenta).

10
Desempenho do aluno

0
0 2 4 6 8 10 12 14 16

Número de faltas

301
Estatística

Ausência de Correlação
Ocorre quando as duas variáveis não estão correlacionadas.

200
190
180
170
Altura

160
150
140
130
120
110
85 95 105 115 125
Quociente de Inteligência

13.1.3 Coeficiente de Correlação de Pearson (r )

O Coeficiente de correlação é uma medida do grau e da direção de uma relação linear


entre duas variáveis. O símbolo  o coeficiente de correlação populacional e o símbolo r
representa o coeficiente de correlação amostral. Sua fórmula é:

 x. y   n
x. y
r

 x 
2x  
2

. y 
 y 
 2
2



n 

n 

Como Calcular:
1º) Obtenha a soma dos valores de x : x
2º) Obtenha a soma dos valores de y: y
3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a
sua soma: x.y
4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: x2
5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: y2
6º) Use essas cinco somas para calcular o coeficiente de correlação.

302
Estatística

Interpretação do Coeficiente de Correlação de Pearson (r )

Observe-se que -1  r  1. O mesmo ocorre com o valor de . A partir dos valores de r


ou , podemos verificar o tipo da correlação existente entre as variáveis estudadas:

-1 0 +1
Correlação Inversa Correlação Direta
Ausência
de
Correlação
100 150 150
80
60 100 100
40 50
20 50
0 0
0
0 50 100 150 0 50 100 150
0 50 100 150

Os valores são validos tanto para valores positivos quanto valores negativos do
coeficiente. O sinal do coeficiente indica a direção da relação entre X e Y. Se o coeficiente for
positivo, a correlação e dita direta, caso contrário, a relação e dita inversa.

Exemplo 101: A relação entre o nível educacional de filhos e seus respectivos pais foi observada
(nível educacional medido em anos completos de frequência a escola):

Anos de Escola de pais e seus respectivos filhos


Amostra Pai(x) Filho(y) x.y X2 Y2
1 12 12 144 144 144
2 10 8 80 100 64
3 6 6 36 36 36
4 16 11 256 256 121
5 8 10 64 64 100
6 9 8 81 81 64
7 12 11 144 144 121
Total () 73 66 720 825 650

303
Estatística

Anos de Escola de pais e seu respectivo filho

14
Anos de estudo Filho 12
10
8
6
4
2
5 7 9 11 13 15 17

Anos de estudo Pai

Cálculo do Coeficiente de correlação:


73  66
720 
r 7


73  650  662 
2
 
825   
 7   7 

720  688,3 31,7


r =  0,75
63,7  27,7 42

Interpretação:

―Existe uma correlação direta entre o nível educacional de pais e filhos, ou seja, quanto maior o
nível educacional do pai, maior é o nível educacional do filho.‖

304
Estatística

Exemplo 102: Doses crescentes de calcário foram adicionadas a um solo ácido e depois
determinou-se a percentagem de anomalias encontradas em células germinativas de trigo
plantado nesse solo.

Quantidade de calcário: 0 1 2 3 4 5

% de anomalias celulares: 30 27 22 23 18 16

a) Faça o diagrama de dispersão para os dados;


b) Encontre o coeficiente de correlação e interprete;
c) Encontre e interprete o coeficiente de determinação ou de explicação;
d) Encontre a equação de regressão e interprete os coeficientes angular e linear;
e) Qual a estimativa do % de anomalias celulares se a quantidade de calcário for de 3,5?

Exemplo 103: Vamos verificar o tipo de relacionamento entre a taxa de crescimento de uma
pastagem cultivada no Planalto Catarinense e a temperatura do solo a 10 cm de profundidade, no
período de junho a novembro. Os resultados de nove observações foram:
Temperado 10,0 11,0 12,5 12,2 13,9 16,2 18,7 19,5 20,0
Taxa de crescimento 17,0 12,0 14,0 20,2 14,5 20,0 23,0 30,0 33,0

a) Faça o diagrama de dispersão para os dados;


b) Encontre o coeficiente de correlação e interprete;
c) Encontre e interprete o coeficiente de determinação ou de explicação;
d) Encontre a equação de regressão e interprete os coeficientes angular e linear;

305
Estatística

13.1.4 Coeficiente de determinação linear


Mede a proporção de variações de Y que são explicadas direta ou indiretamente pelas
correspondentes variações de X. É expresso em porcentagem.
Simbologia: r² (amostra) ou ² (população).

r² = (r)² ² = ()²

Para os dados do exemplo:

13.2. ANÁLISE DE REGRESSÃO LINEAR SIMPLES

A presença de uma correlação pode conduzir-nos a um método para estimar uma variável
a partir da outra. Por exemplo: Estimar o PESO (y) de ursos medindo seu COMPRIMENTO (x)

Usamos Análise de Regressão quando acreditamos que há relações entre as variáveis e


desejamos expressar matematicamente (alguns aspectos de) tais relações. A Regressão Linear nos
fornece equações do primeiro grau para determinarmos estimativas dos valores médios de
algumas variáveis em função dos valores das outras.
Uma vez caracterizada, procura-se descrever uma relação sob forma matemática, através
de uma função. A estimação dos parâmetros dessa função matemática é o objeto da
REGRESSÃO.

306
Estatística

As variáveis estudadas serão: X, denominada de variável independente, e Y,


denominada de variável dependente.

13.2.1. Estimadores para o modelo de regressão linear

Os estimadores dos coeficientes angular () e linear () serão designados respectivamente
por b e a, se o modelo escolhido for uma forma linear. Então a estimativa do modelo adotado,
será dada por:
A inclinação (b) da regressão mede a direção e a
magnitude da relação. Quando as duas variáveis estão
correlacionadas positivamente, a inclinação também será
Y= a+bX positiva, enquanto quando as duas variáveis estão
correlacionadas negativamente, a inclinação será
negativa. A magnitude da inclinação da regressão pode
ser lida como segue: para cada acréscimo unitário na
variável (X), a variável dependente aumentará/diminuirá b
unidades de y .

Dado um valor de X, este será usado para prever o valor de Y.Como os valores de X são
conhecidos, resta-nos estimar os valores dos coeficientes a e b. Os valores de a e b serão
determinados, através do Método dos Mínimos Quadrados (MMQ), aplicado na amostra
selecionada, utilizando-se as seguintes fórmulas:

a =
b=

onde X e Y são as médias dos valores de Y e X.

307
Estatística

Exercício 182: Um administrador de uma grande sorveteria anotou por um longo período de
tempo a temperatura média diária, em 0C (X), e o volume de vendas diárias de sorvete, em Kg
(Y). Com os dados, foi ajustada a seguinte equação de regressão:
Y = 0,5 + 1,8x, com R2 = 0,80
Pergunta-se
a) Qual é o consumo esperado de sorvete num dia de 270C?
b) Qual é o incremento esperado nas vendas de sorvete a cada 10C de aumento de
temperatura?

Exercício 183: (Andrade DF e Ogliari PJ, 2007) A tabela abaixo apresenta os valores de
condutividade (mho) e salinidade (g/l) para a região III da Lagoa da conceição.

Estação Condutividade (y) Salinidade (X)


23 19,92 3,85
24 11,78 2,26
25 14,11 2,06
26 16,10 2,89
27 36,52 9,61
28 51,46 11,40
a) Construa o gráfico de dispersão. Conclua sobre a correlação entre as variáveis X e Y.
b) Quantifique a correlação entre X e Y através do coeficiente de correlação. Existe uma
correlação forte, média ou fraca?
c) Obtenha a equação da reta para condutividade (Y) e salinidade (X)
d) De acordo com essa função, quais seriam os valores preditos (Y^) para os valores de x.
e) O que você acha da discrepância entre os valores observados e preditos, os resíduos?

Exercício 184: Considere os dados referentes à produção de matéria seca de uma cultura (Y) e a
quantidade de radiação fotossintética ativa (X). Os dados obtidos experimentalmente são
apresentados na Tabela 2.36.
Tabela 2.36 — Dados de produção de matéria seca e radiação fotossintética ativa

Produção 10 60 110 160 220 280 340 400 460 520


Radiação 18 55 190 300 410 460 570 770 815 965

308
Estatística

Exercício 185: Deseja-se saber se existe correlação entre o espaçamento das linhas na cultura da
soja (X) e a fração da radiação solar extinta pela planta (Y). Para atender a esse objetivo foram
coletados pares de valores das duas variáveis. Os resultados obtidos estão descritos na Tabela
2.37.
Tabela 2.37 — Valores de radiação e espaçamento na cultura da soja
Radiação 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1
Espaçamento 0,53 0,51 0,48 0,45 0,44 0,41 0,40 0,39 0,36 0,30

a) Faça o diagrama de dispersão para os dados;


b) Encontre e interprete o coeficiente de correlação;
c) Encontre e interprete o coeficiente de determinação;
d) Encontre a equação de regressão; interprete os coeficientes, angular e linear da reta;
e) Qual é a estimativa da fração de radiação solar extinta pela planta se o espaçamento for de
0,50?

Exercício 186: Certa empresa, estudando a variação da demanda de seu produto em relação à
variação de preço de venda, obteve os dados que estão na tabela abaixo:
i Preço (X) Demanda (Y) XY X2 Y2
1 35 350
2 40 325
3 50 290
4 55 270
5 60 250
6 65 240
7 70 235
8 80 220
9 95 215
10 110 205

a) Determine e interprete o coeficiente de correlação;


b) Determine e interprete o coeficiente de determinação;
c) Determine a equação da reta:
c) Determine a demanda deste produto considerando um preço de 48 reais:

309
Estatística

400
y = -1,8601x + 382,77
350 R2 = 0,8265

300
Demanda

250

200

150

100
10 30 50 70 90 110 130
Preço

Exercício 187: Uma análise de correlação e regressão foi realizada com o objetivo de estudar a
relação entre o tempo de aquecimento no forno em segundos (x) e a resistência em Mpa (y) de
uma peça. Os dados obtidos foram:

Estatísticas
R 0,9531
a 30,192
b 4,295
n 30

De acordo com os valores calculados acima, responda:


a) Qual o valor da Correlação? Interprete esse resultado.
b) Qual é a equação da reta de regressão?
c) Estime a resistência de uma peça que permanece 3 segundos no forno.

310
Estatística

LISTA DE EXERCÍCIOS: CORRELAÇÃO E REGRESSÃO

1. Foi realizado um experimento para verificar a variação do calor específico de um certo produto
químico com sua temperatura:

Temperatura 50 60 70 80 90 100
Calor
1,6 1,63 1,67 1,70 1,71 1,71
específico

a) Construir o diagrama de dispersão dos dados;


b) Calcular o coeficiente de correlação de Pearson. Explique o resultado;
c) Encontrar a equação de regressão, através do método dos Mínimos Quadrados;
d) Calcular o coeficiente de determinação. Interpretar o resultado obtido.

2. Visando estudar o ciclo reprodutivo de lagartos pequenos da espécie Liolaemus Occipitalis,


que ocorreram no litoral do Rio Grande do Sul, Verrastro e Krause (1999) mediram o volume
testicular (VT) de exemplares do sexo masculino coletados em abril de 1986 e março de 1988, e
calcularam o coeficiente de correlação entre VT e a temperatura na data da coleta. O valor obtido
foi r = -0,75 (p<0,01). Interprete o resultado.

3. Foram selecionadas 10 leituras no espectrofotômetro, e as seguintes concentrações respectivas


foram anotadas:
Absor 0,193 0,236 0,264 0,318 0,346 0,431 0,468 0,508 0,537 0,568
Conc.(mg/ml) 180 216 252 288 324 360 396 432 468 504

a) Construir o diagrama de dispersão dos dados;


b) Calcular o coeficiente de correlação de Pearson. Explicar o significado do resultado
obtido;
c) Encontrar a reta de regressão através do Método dos Mínimos Quadrados;
d) Calcular o coeficiente de determinação. Interpretar o coeficiente.

311
Estatística

4. (Andrade DF e Ogliari PJ, 2007) A tabela abaixo apresenta os valores de condutividade


(mho) e salinidade (g/l) para a região III da Lagoa da conceição.
Estação Condutividade (y) Salinidade (X)
23 19,92 3,85
24 11,78 2,26
25 14,11 2,06
26 16,10 2,89
27 36,52 9,61
28 51,46 11,40

a) Construa o gráfico de dispersão. Conclua sobre a correlação entre as variáveis X e Y.


b) Quantifique a correlação entre X e Y através do coeficiente de correlação. Existe uma
correlação forte, média ou fraca?
c) Obtenha a equação da reta para condutividade (Y) e salinidade (X);
d) De acordo com essa função, quais seriam os valores preditos (Y^) para os valores de x;
e) O que você acha da discrepância entre os valores observados e preditos, os resíduos?

5. Rocha e Pena ( 1987) dosaram os níveis de alfa-fetoproteína em 30 amostras de líquido


amniótico humano e observaram uma correlação de -0,66 com a idade gestacional e de -0,45 com
a quantidade de fibronectina neste líquido. Explique a correlação entre as variáveis.

6. (Andrade DF e Ogliari PJ, 2007) Um estudo sobre vida de prateleira de café torrado e moído
foi realizado. Os testes sensoriais foram iniciados a partir do nono dia de estocagem e, depois, a
intervalos de mais ou menos sete dias. Em cada uma das seis sessões de avaliação sensorial
(A,B,C,D,E,F) três amostras (pacotes) foram obtidas ao acaso. Seis provadores treinados
avaliaram as três amostras simultaneamente, julgando o produto quanto ao aroma em uma escala
descritiva de 1 a 6 pontos: 6 = excelente; 5 = bom; 4 = aceitável; 3 = pouco aceitável; 2 =
inaceitável e 1 = não bebível. Os resultados obtidos são dados na tabela.
a) Faça o diagrama de dispersão entre as variáveis tempo e média de aroma.
b) Calcule o coeficiente de correlação entre as duas variáveis e interprete.

312
Estatística

Sessão de Tempo de Resultado médio da equipe de provadores para


avaliação estocagem cada amostra
(dias)
x Y1 Y2 Y3
A 9 4,8 4,7 4,7
B 14 4,0 4,7 4,8
C 22 3,7 3,7 3,5
D 29 3,2 3,5 3,2
E 36 3,7 3,0 3,3
F 43 2,5 2,8 2,7

c) Encontre a equação do aroma (Y) sobre o tempo de estocagem (X).


d) Você considera que esta equação está explicando bastante da relação entre tempo de
estocagem e aroma?

7. Melo (1993) dosou as quantidades de nitrato (µg/L) em 13 amostras de água da Lagoa do


Diogo, SP. Os dados obtidos estão indicados a seguir. Verifique se essas duas variáveis estão
correlacionadas (α = 5%).
Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13
Nitrato 31 17 36 < < 14 98 111 19 23 37 < 34
Sílica:ç 7,7 6,5 6,4 7,7 6,8 6,8 6,2 6,9 7,4 9,5 8,0 6,9 7,1
e) <: Abaixo do limite de detecção, que é 10 (µg/L).

8. A seguinte tabela apresenta o período de gestação (x), em dias, e o tempo médio de vida (y),
em anos, registados em 10 mamíferos.

urso hipopótomo canguru leopardo leão macaco rato porco cão gato
X 219 238 42 98 100 164 21 112 61 63
y 18 25 7 12 15 15 3 10 12 12

a) Parece-lhe adequada a existência de uma relação linear entre x e y? Justifique.


b) Independentemente da resposta alínea anterior determine a reta de regressão dos mínimos
quadrados de y sobre x. Calcule a precisão da reta e interprete o seu significado.
c) Interprete, no contexto do problema, o significado do coeficiente de regressão de y sobre x.

313
Estatística

d) O período de gestação de uma girafa é de 425 dias. Se usasse a reta determinada em b) que
previsão obteria para o seu tempo médio de vida? Critique o resultado obtido, sabendo que o
tempo médio de vida de uma girafa é de 10 anos.

9. Foram estudadas 9 crianças com o objetivo de verificar se existe regressão da capacidade


pulmonar sobre a idade. Os Dados estão apresentados a seguir.
Idade (anos) 4 5 6 7 8 9 10 11 12
Cap.vital (L) 0,7 0,9 1,2 1,3 1,3 1,5 1,7 1,9 2,1

a) Desenhe o gráfico de dispersão dos pontos experimentais.


b) Encontre o coeficiente de correlação e o de determinação; Interprete-os.
c) Estime a reta de regressão de y sobre x.

10. Na fabricação de um antibiótico, a produção depende do tempo. Os dados indicados na tabela


mostram que um processo resultou na seguinte produção (em Kg) de antibióticos por período de
tempo (dias) indicado:
Tempo (X) em dias 1 2 3 4 5 6
Produção (Y) em Kg 23 31 40 46 52 63

a) Calcule o coeficiente de correlação (R) entre o tempo e a produção e teste seu resultado;
b) Estime a reta de regressão Y = a + bX e interprete os valores de a e b.
c) Calcule o coeficiente de determinação linear (R2) e diga se o ajuste feito é de boa
qualidade.
11. Cinco pessoas, que se submeteram a uma mesma cirurgia de joelho, usaram dois instrumentos
de avaliação para indicar o nível de dor 12 horas após a operação. A seguir estão os escores de
dor de cada pessoa, em cada instrumento.
Pessoa: A B C D E
Dor (Instrumento 1): 8 6 4 3 4
Dor (Instrumento 2): 9 7 4 4 6
a) Desenhe o diagrama de dispersão dos pontos, considerando como x os resultados obtidos
no primeiro instrumento de avaliação e como y, os do segundo.
b) Encontre o coeficiente de correlação entre os escores determinados nos dois instrumentos.

314
Estatística

12. Em um estudo envolvendo 250 homens adultos em porto alegre a relação entre triglicerídios e
colesterol – HDL séricos apresentou r = -0,42 (p<0,001). Isto significa que:
a) Aumentando os triglicerídeos séricos de um paciente podemos aumentar seu colesterol –
HDL;
b) Diminuindo os triglicerídeos séricos de um paciente podemos aumentar seu colesterol –
HDL
c) Altos níveis de colesterol-HDL tendem a ser observados em homens com triglicerídeos
séricos baixos
d) Baixos níveis de colesterol-HDL tendem a ser observados em homens com triglicerídeos
séricos baixos
e) O valor p observado é muito pequeno para considerarmos que esta correlação não
aconteceu por acaso.

13. Os dados abaixo foram selecionados de cinco fábricas diferentes de uma determinada
indústria:

Custo Total (Y) 80 44 51 70 61


Produção (X) 12 4 6 11 8

a) Estime uma função linear da forma Y = a + bX para o custo total dessa indústria.
b) Qual o significado econômico da estimativa ―a‖ e ―b‖?

14. Um pesquisador deseja verificar se um instrumento para medir a concentração de


determinada substância no sangue está bem calibrado. Para isto, ele tomou 15 amostras de
concentrações conhecidas (X) e determinou a respectiva concentração através do instrumento
(Y), obtendo:

X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0

Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1

(a) Construa o diagrama de dispersão para esses dados.

315
Estatística

(c) Calcule o coeficiente de correlação entre as variáveis X e Y.

(d) Obtenha a reta de regressão da variável Y em função de X.

15. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa
relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em
cada uma delas a idade (X) e a massa muscular (Y).
Massa muscular (Y) Idade (X)
82.0 71.0
91.0 64.0
100.0 43.0
68.0 67.0
87.0 56.0
73.0 73.0
78.0 68.0
80.0 56.0
65.0 76.0
84.0 65.0
116.0 45.0
76.0 58.0
97.0 45.0
100.0 53.0
105.0 49.0
77.0 78.0
73.0 73.0
78.0 68.0

a) Construa o diagrama de dispersão e interprete-o.


b) Calcule o coeficiente de correlação linear entre X e Y.
c) Ajuste uma reta de regressão para a relação entre as variáveis Y: massa muscular
(dependente) e X: idade (independente).
d) Considerando a reta estimada dada no item (c), estime a massa muscular média de
mulheres com 50 anos.

16. Sejam X = nota na prova do vestibular de matemática e Y = nota final na disciplina de


calculo. Essas variáveis foram observadas em 16 alunos do curso de Administração. Os dados
estão representados a seguir:

316
Estatística

X 39 57 34 40 43 47 52 70 21 28 35 80 64 75 30 32
Y 65 92 56 70 78 89 75 50 52 73 50 90 82 98 50 58

a) Calcule o coeficiente de correlação linear entre a nota na prova do vestibular de


matemática e a nota na disciplina de calculo. Interprete o valor encontrado. Teste sua
significância a 5%
b) Encontre a equação da reta de regressão linear e interprete os valores de a e b.
c) Para um aluno que obteve nota igual a 45 na prova do vestibular de matemática, qual a
previsão de nota na disciplina de calculo?
d) O ajuste linear dos dados pode ser considerado bom? Justifique.

17. A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço
varia conforme a temperatura:

Temperatura (oC) 10 15 20 25 30
Comprimento (m) 1,5 2,6 3,0 4,2 5,1

Determine:
a) O coeficiente de correlação e teste seu resultado.
b) A equação da reta ajustada.
c) O valor estimado do comprimento da barra para a temperatura de 18 oC.
d) O valor estimado do comprimento da barra para a temperatura de 22 oC.
18. Considere um experimento no qual se analisa a octanagem da gasolina (Y) em função da
adição de um novo aditivo (X). Para isso, foram realizados ensaios com os percentuais de 1, 2, 3,
4, 5 e 6% de aditivo. Os resultados obtidos estão na tabela abaixo:

X Y
1 80,5
2 81,6
3 82,1
4 83,7

317
Estatística

5 83,9
6 85,0

a) Faca o diagrama de dispersão dos pontos observados.


b) Calcule R e teste seu resultado
c) Calcule R2.
d) Estime a equação da reta de ajuste linear

19. A tabela a seguir relaciona os pesos (em centenas de Kg) e as taxas de rendimento de
combustível em rodovia (Km/ litro), numa amostra de 10 carros de passeio novos:

Peso 12 13 14 14 16 18 19 22 24 26
Rendimento 16 14 14 13 11 12 9 9 8 6

a) Calcule o coeficiente de correlação de Pearson e teste seu resultado.


b) Considerando o resultado obtido no item a), como você avalia o relacionamento entre
peso e rendimento na amostra observada?
c) Para estabelecer uma equação de regressão, qual deve ser a variável dependente e qual
deve ser a variável independente?
d) Estabeleça a equação de regressão linear, considerando a resposta do item c).

20. Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em
unidades monetárias) para uma amostra de 25 famílias.

Renda Familiar (X) Gasto com Alimentação (Y)


3 1,5
5 2,0
10 6,0
10 7,0
20 10,0
20 12,0
20 15,0
30 8,0

318
Estatística

40 10,0
50 20,0
60 20,0
70 25,0
70 30,0
80 25,0
100 40,0
100 35,0
100 40,0
120 30,0
120 40,0
140 40,0
150 50,0
180 40,0
180 50,0
200 60,0
200 50,0

Construa o diagrama de dispersão da variável gasto com alimentação (Y) em função da renda
familiar (X).

319
Estatística

Anexo - A

Distribuição Normal Padrão Z ~ N(0, 1)


Corpo da tabela dá o valor p, tal que p = P( 0 < z< Zc)

Como a normal é simétrica, a tabela apresenta somente as probabilidades da metade direita da curva. A probabilidade
de um intervalo qualquer da metade esquerda é igual à probabilidade do intervalo equivalente na metade direita.

320
Estatística

Anexo - B

321
Estatística

Referências Bibliográficas

ANDERSON D.R., SWEENEY D. J. & WILLIAMS T.A. Estatística Aplicada à Administração e


Economia, 2ª edição, São Paulo, 2007.

ANDRADE DF; OGLIARI PJ. Estatística para as ciências Agrárias e Biológicas: com noções de
experimento. Florianópolis. Ed. Da UFSC, 2007

BARBETTA, P.A. Estatística Aplicada às Ciências Sociais. UFSC, Florianópolis, 1994.

BUSSAB, W.O.& MORETTIN, P.A. Estatística Básica, 3ª edição. Atual, São Paulo, 1986.

BUSSAB, W.O., MORETTIN, P.A. Estatística Aplicada. Editora Saraiva., 5ª edição, 2002.

BUSSAB,W.O.& MORETTIN, P.A. Estatística Básica 5.ed., Atual: São Paulo, 2002.

COSTA NETO, P.L. de O. Probabilidades. São Paulo: Editora Edgard Blucher Ltda, 1985.

COSTA NETO, P. L. O. Estatística, 2ª edição. Edgard Blucher, São Paulo, 2002.

CRESPO, A.A. Estatística fácil. São Paulo: Saraiva, 1996.

DOWNING D.; CLARK, J.Estatística Aplicada. São Paulo, Saraiva, 1999.

ETHUR A.B.M.; JACOBI L.F.; ZANINI R.R. Caderno didático Estatística.

FONSECA, J. S. & MARTINS, G. A. Curso de Estatística, 6ª edição, Atlas, são Paulo, 1996.

LOPES, P.A. Probabilidade e Estatística. Reichmann & Affonso, Rio de Janeiro, 1999.

MARTINS, G.A. Estatística Geral e Aplicada. Editora Atlas, 2ª edição, 2002.

MEYER, P.L Probabilidade – Aplicações à Estatística. Livros Técnicos e Científicos Editora, 2ª


edição, 1983.

MORETTIN,L.G. Estatística Básica.v.2, São Paulo. Makron Books, 2000.

STEVENSON, W. J. Estatística Aplicada à Administração. São Paulo. Editora Harper & Row do
Brasil Ltda, 1981.

TIBONI, C.G.R. Estat´´istica Básica para os cursos de administração, ciências contábeis,


tecnológicos e de gestão. 1ª edição. São Paulo: Atlas, 2010.

TRIOLA, M. F.. Introdução à Estatística. Rio de Janeiro: Livros Técnicos e Científicos. Editora
S.A, 7ª edição, 1999.

322
Estatística

323

Você também pode gostar