100% acharam este documento útil (2 votos)
371 visualizações289 páginas

Livro Estatistica e Probabilidade

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1/ 289

GRADUAÇÃO

Estatística e
Probabilidade

ME. REBECCA MANESCO PAIXÃO

Híbrido
GRADUAÇÃO
Estatística e
Probabilidade
Me. Rebecca Manesco Paixão
DIREÇÃO UNICESUMAR
Reitor Wilson de Matos Silva, Vice-Reitor e
Pró-Reitor de Administração Wilson de Matos
Silva Filho, Pró-Reitor Executivo de EAD William
Victor Kendrick de Matos Silva, Pró-Reitor de
Ensino de EAD Janes Fidélis Tomelin, Presidente
da Mantenedora Cláudio Ferdinandi.
C397 CENTRO UNIVERSITÁRIO DE MARINGÁ. Núcleo de Educação a
Distância; PAIXÃO, Rebecca.
NEAD - NÚCLEO DE EDUCAÇÃO A DISTÂNCIA
Estatística e Probabilidade. Rebecca Manesco Paixão. Diretoria Executiva Chrystiano Mincoff, James
Maringá-PR.: Unicesumar, 2019. Prestes e Tiago Stachon; Diretoria de Graduação
288 p.
“Graduação - Híbridos”. e Pós-graduação Kátia Coelho; Diretoria de
Permanência Leonardo Spaine; Diretoria de
1. Estatística. 2. Probabilidade. 3. EaD. I. Título. Design Educacional Débora Leite; Head de
ISBN: 978-85-459-2041-0 Produção de Conteúdos Celso Luiz Braga de Souza
CDD - 22 ed. 001.4226 Filho; Head de Metodologias Ativas Thuinie Daros;
CIP - NBR 12899 - AACR/2 Head de Curadoria e Inovação Tania Cristiane Yoshie
Fukushima; Gerência de Projetos Especiais Daniel
F. Hey; Gerência de Produção de Conteúdos
Impresso por: Diogo Ribeiro Garcia; Gerência de Curadoria
Carolina Abdalla Normann de Freitas; Supervisão
do Núcleo de Produção de Materiais Nádila de
Almeida Toledo; Supervisão de Projetos Especiais
Yasminn Talyta Tavares Zagonel; Projeto
Gráfico José Jhonny Coelho e Thayla Guimarães
Cripaldi; Fotos Shutterstock
Coordenador de Conteúdo Fabio Augusto Gentilin
e Crislaine Rodrigues Galan.
Designer Educacional Janaina de Souza Pontes e
NEAD - Núcleo de Educação a Distância Amanda Peçanha dos Santos.
Av. Guedner, 1610, Bloco 4 - Jardim Aclimação Revisão Textual Cintia Prezoto Ferreira e Carla
CEP 87050-900 - Maringá - Paraná Cristina Farinha.
unicesumar.edu.br | 0800 600 6360 Editoração Victor Augusto Thomazini e André
Morais de Freitas.
Ilustração Natalia de Souza Scalassara e Welington
Vainer Satin de Oliveira.
Realidade Aumentada Cesar Henrique Seidel,
Maicon Douglas Curriel e Thiago Marçal Surmani.
PALAVRA DO REITOR

Em um mundo global e dinâmico, nós trabalha-


mos com princípios éticos e profissionalismo, não
somente para oferecer uma educação de qualida-
de, mas, acima de tudo, para gerar uma conversão
integral das pessoas ao conhecimento. Baseamo-
-nos em 4 pilares: intelectual, profissional, emo-
cional e espiritual.
Iniciamos a Unicesumar em 1990, com dois
cursos de graduação e 180 alunos. Hoje, temos
mais de 100 mil estudantes espalhados em todo
o Brasil: nos quatro campi presenciais (Maringá,
Curitiba, Ponta Grossa e Londrina) e em mais de
300 polos EAD no país, com dezenas de cursos de
graduação e pós-graduação. Produzimos e revi-
samos 500 livros e distribuímos mais de 500 mil
exemplares por ano. Somos reconhecidos pelo
MEC como uma instituição de excelência, com
IGC 4 em 7 anos consecutivos. Estamos entre os
10 maiores grupos educacionais do Brasil.
A rapidez do mundo moderno exige dos
educadores soluções inteligentes para as ne-
cessidades de todos. Para continuar relevante, a
instituição de educação precisa ter pelo menos
três virtudes: inovação, coragem e compromisso
com a qualidade. Por isso, desenvolvemos, para
os cursos de Engenharia, metodologias ativas, as
quais visam reunir o melhor do ensino presencial
e a distância.
Tudo isso para honrarmos a nossa missão que é
promover a educação de qualidade nas diferentes
áreas do conhecimento, formando profissionais
cidadãos que contribuam para o desenvolvimento
de uma sociedade justa e solidária.
Vamos juntos!
Prezado(a) Acadêmico(a), bem-vindo(a) à Co-
munidade do Conhecimento.
Essa é a característica principal pela qual a
Unicesumar tem sido conhecida pelos nossos alu-
nos, professores e pela nossa sociedade. Porém, é
importante destacar aqui que não estamos falando
mais daquele conhecimento estático, repetitivo,
local e elitizado, mas de um conhecimento dinâ-
mico, renovável em minutos, atemporal, global,
democratizado, transformado pelas tecnologias
digitais e virtuais.
De fato, as tecnologias de informação e comu-
nicação têm nos aproximado cada vez mais de
pessoas, lugares, informações, da educação por
meio da conectividade via internet, do acesso
wireless em diferentes lugares e da mobilidade
dos celulares.
As redes sociais, os sites, blogs e os tablets ace-
leraram a informação e a produção do conheci-
mento, que não reconhece mais fuso horário e
atravessa oceanos em segundos.
A apropriação dessa nova forma de conhecer
transformou-se hoje em um dos principais fatores de
agregação de valor, de superação das desigualdades,
propagação de trabalho qualificado e de bem-estar.
Logo, como agente social, convido você a saber
cada vez mais, a conhecer, entender, selecionar e
usar a tecnologia que temos e que está disponível.
Da mesma forma que a imprensa de Gutenberg
modificou toda uma cultura e forma de conhecer,
as tecnologias atuais e suas novas ferramentas,
equipamentos e aplicações estão mudando a nossa
cultura e transformando a todos nós. Então, prio-
rizar o conhecimento hoje, por meio da Educação
a Distância (EAD), significa possibilitar o contato
com ambientes cativantes, ricos em informações
e interatividade. É um processo desafiador, que
ao mesmo tempo abrirá as portas para melhores
oportunidades. Como já disse Sócrates, “a vida
sem desafios não vale a pena ser vivida”. É isso que
a EAD da Unicesumar se propõe a fazer.
Seja bem-vindo(a), caro(a) acadêmico(a)! Você
está iniciando um processo de transformação,
pois quando investimos em nossa formação, seja
ela pessoal ou profissional, nos transformamos e,
consequentemente, transformamos também a so-
ciedade na qual estamos inseridos. De que forma
o fazemos? Criando oportunidades e/ou estabe-
lecendo mudanças capazes de alcançar um nível
de desenvolvimento compatível com os desafios
que surgem no mundo contemporâneo.
O Centro Universitário Cesumar mediante o
Núcleo de Educação a Distância, o(a) acompa-
nhará durante todo este processo, pois conforme
Freire (1996): “Os homens se educam juntos, na
transformação do mundo”.
Os materiais produzidos oferecem linguagem
dialógica e encontram-se integrados à proposta
pedagógica, contribuindo no processo educa-
cional, complementando sua formação profis-
sional, desenvolvendo competências e habilida-
des, e aplicando conceitos teóricos em situação
de realidade, de maneira a inseri-lo no mercado
de trabalho. Ou seja, estes materiais têm como
principal objetivo “provocar uma aproximação
entre você e o conteúdo”, desta forma possibilita
o desenvolvimento da autonomia em busca dos
conhecimentos necessários para a sua formação
pessoal e profissional.
Portanto, nossa distância nesse processo de
crescimento e construção do conhecimento deve
ser apenas geográfica. Utilize os diversos recursos
pedagógicos que o Centro Universitário Cesumar
lhe possibilita. Ou seja, acesse regularmente o Stu-
deo, que é o seu Ambiente Virtual de Aprendiza-
gem, interaja nos fóruns e enquetes, assista às aulas
ao vivo e participe das discussões. Além disso,
lembre-se que existe uma equipe de professores e
tutores que se encontra disponível para sanar suas
dúvidas e auxiliá-lo(a) em seu processo de apren-
dizagem, possibilitando-lhe trilhar com tranquili-
dade e segurança sua trajetória acadêmica.
APRESENTAÇÃO

Prezado(a) aluno(a), bem vindo(a) à disciplina de Estatística e Probabilidade


A estatística é definida como parte da matemática que investiga os pro-
cessos de obtenção, organização, análise e interpretação de dados sobre uma
população ou sobre uma amostra, utilizando-os para a tomada de decisões.
Desta forma, caro(a) aluno(a), neste material de “Estatística e Probabi-
lidade” que encontra-se dividido em nove unidades, faremos um estudo
aprofundado de todos os conteúdos pertinentes à estatística descritiva,
inferencial e probabilidade. É conveniente destacar que a parte maçante
da estatística pode ser feita a partir do uso de calculadoras ou de planilhas
eletrônicas; no entanto, é de extrema importância que o estudante saiba
entender o significado daquilo que foi processado.
Assim, nas duas primeiras unidades, vamos introduzir a estatística, bem
como entender o processo de sintetização dos dados provenientes de uma
pesquisa, seja sobre a forma de tabelas, distribuição de frequência e gráficos.
Nas Unidades 3 e 4, vamos verificar que na descrição de um conjunto de
dados, é importante termos uma medida de posição para tentar explicar o
que está ocorrendo com a pesquisa e, também, uma medida de dispersão,
para inferirmos se há baixa ou alta variabilidade nos valores.
Na Unidade 5, iniciaremos nossos estudos sobre probabilidade e os
conceitos relacionados a este conteúdo, como: espaço amostral, evento,
métodos de se definir a probabilidade de um evento, permutação e com-
binação. Na Unidade 6, vamos continuar os estudos sobre este assunto,
aprofundando nossos conhecimentos no que diz respeito às distribuições
discretas e contínuas de probabilidade, as quais nos auxiliam a predizer o
que provavelmente acontecerá, ao invés do que realmente aconteceu.
Na Unidade 7, vamos estudar sobre a inferência estatística. Veremos que
os métodos para se realizar inferências sobre os parâmetros podem ser por
estimação (determinação das estimativas dos parâmetros populacionais)
ou por meio de testes de hipóteses (tomada de decisão relativa ao valor de
um parâmetro populacional), de modo que a inferência a partir de duas
amostras será vista na Unidade 8.
Por fim, na Unidade 9, vamos aprender a descrever que tipo de corre-
lação há entre duas variáveis quantitativas, assim como determinar se a
correlação existente é significante.
Bons estudos!
CURRÍCULO DOS PROFESSORES

Me. Rebecca Manesco Paixão


Rebecca Manesco Paixão é mestre em Engenharia Química pelo Programa de Pós-Graduação
em Engenharia Química da Universidade Estadual de Maringá (UEM-2017), atuando na linha
de pesquisa Gestão, Controle e Preservação Ambiental. Graduada em Engenharia Ambiental e
Sanitária pelo Centro Universitário de Maringá (UNICESUMAR-2014) e licenciada em Matemá-
tica pela mesma instituição (UNICESUMAR-2017). Atualmente, é doutoranda em Engenharia
Química pelo Programa de Pós-Graduação em Engenharia Química da Universidade Estadual
de Maringá (UEM). Tem experiência profissional com licenciamento ambiental, gerenciamento
de resíduos sólidos, tratamento de água e de efluentes líquidos. Também tem experiência
como professora de cursos de graduação e de pós-graduação presenciais e a distância.
Currículo Lattes disponível em: http://buscatextual.cnpq.br/buscatextual/visualizacv.do?i-
d=K4367457U5.
Introdução à
Estatística

13

Representação
Tabular e Gráfica
dos Dados

37

Estatística
Descritiva: Medidas
de Posição

73
Estatística
Estatística
Descritiva: Medidas
Inferencial:
de Variação, de
Estimação e Teste de
Assimetria e de
Hipóteses
Curtose

97 189

Inferência a Partir de
Probabilidade
Duas Amostras

125 221

Distribuições de Correlação e
Probabilidade Regressão

155 249
29 Amostragem estratificada
138 Probabilidade: experimento aleatório
259 Correlação e regreção linear

Utilize o aplicativo
Unicesumar Experience
para visualizar a
Realidade Aumentada.
Me. Rebecca Manesco Paixão

Introdução à Estatística

PLANO DE ESTUDOS

Fases do Método Estatístico

Conceitos Importantes Planejamento Experimental


Relacionados à Estatística

OBJETIVOS DE APRENDIZAGEM

• Introduzir conceitos importantes relacionados ao estudo • Descrever as fases do método estatístico.


da estatística. • Discutir a importância do planejamento experimental.
Conceitos Importantes
Relacionados à Estatística

Caro(a) aluno(a), a palavra estatística vem do la-


tim “status”, que significa “estado”. Segundo Car-
niel (2014), a estatística foi primeiramente utiliza-
da com base no conhecimento da população, com
relação às suas riquezas e na coleta de impostos.
Na sequência, foi empregada no manuseio de da-
dos que descreviam aspectos de um Estado ou
país; o que explica a origem da palavra relacio-
nar-se a “estado”. O Quadro 1 ilustra a história da
estatística, observe.
Quadro 1 - História da estatística – linha do tempo

Período Contribuidores e suas respectivas contribuições


John Graunt (1620 – 1674) estudou os registros de óbitos em Londres
no início de 1600. Foi o primeiro a realizar observações estatísticas
com base em quantidades massivas de dados; seu trabalho projetou
Século XVII a fundação para a estatística moderna.
Blaise Pascal (1623 – 1662) e Pierre de Fermat (1601 – 1665) troca-
ram correspondências sobre problemas básicos de probabilidade,
especialmente, aqueles relacionados a apostas e jogos.
Pierre Laplace (1749 – 1827) estudou probabilidade, e é creditada a
ele a inserção da probabilidade em uma posição matemática.
Século XVIII Carl Friedrich Gauss (1777 – 1855) estudou regressão e método
dos mínimos quadrados por meio da astronomia. Em sua honra, a
distribuição normal é, às vezes, chamada de distribuição Gaussiana.
Lambert Quetelet (1796 – 1874) usou a estatística descritiva para
analisar dados de crimes e mortalidade, e estudou técnicas de cen-
so. Descreveu distribuição normal em conexão com características
Século XIX humanas, como a altura.
Francis Galton (1822 – 1911) usou regressão e correlação para estu-
dar a variação genética em humanos. A ele é creditada a descoberta
do teorema do Limite Central.
Karl Pearson (1857 – 1936) estudou a seleção natural usando corre-
lação. Formou o primeiro departamento acadêmico de estatística e
ajudou a desenvolver a análise qui-quadrado.
Wiliam Gosset (1876 – 1937) estudou o processo de produção de
cerveja e desenvolveu o teste-t para corrigir problemas relacionados
Século XX a tamanhos pequenos de amostras.
(início)
Charles Spearman (1863 – 1945), psicólogo britânico, foi um dos pri-
meiros a desenvolver testes de inteligência usando análise de fatores.
Ronald Fisher (1890 – 1962) estudou biologia e seleção natural, de-
senvolveu a ANOVA, mostrou a importância do planejamento expe-
rimental e foi o primeiro a identificar as hipóteses nula e alternativa.
Frank Wilcoxon (1892 – 1965), bioquímico que usou estatística para
estudar patologias de plantas. Introduziu os testes de duas amostras,
o que levou ao desenvolvimento de estatísticas não paramétricas.
John Turkey (1915 – 2000) trabalhou em Princeton durante a II Guerra
Século XX Mundial. Apresentou técnicas de análise de dados exploratórias, tais
como diagramas ramo-e-folhas. Também, trabalhou, nos Laboratórios
Bell, e é mais conhecido por seu trabalho com estatística inferencial.
David Kendall (1918 - 2007) trabalhou em Princeton e Cambridge. É
autoridade principal sobre probabilidade aplicada e análise de dados.

Fonte: adaptado de Larson e Farber (2010).

Podemos dizer que a estatística é uma ciência que fornece métodos para coleta,
organização, descrição, análise e interpretação de dados de todas as áreas do conhe-
cimento, auxiliando na tomada de decisões.
Logo, a importância da estatística relaciona-se com o desenvolvimento científico
e tecnológico, uma vez que, por meio dela, é possível analisarmos dados e tomarmos
decisões.

UNIDADE 1 15
A estatística, a grosso modo, pode ser dividida em três áreas, a saber: estatística
descritiva, estatística inferencial e probabilidade.
• Estatística descritiva: preocupa-se com a descrição de dados, de modo a
organizá-los e resumi-los, com vistas a torná-los mais fáceis de serem enten-
didos, discutidos e transmitidos.
• Estatística inferencial: preocupa-se com a interpretação e análise dos da-
dos, de forma a extrapolar conclusões sobre a população, a partir dos dados
colhidos da amostra.
• Probabilidade: teoria matemática que estuda a incerteza oriunda de fenô-
menos de caráter aleatório (MAGALHÃES; LIMA, 2008).

No universo da estatística, faz-se necessário distinguirmos dois tipos de conjuntos


de dados: população e amostra. A população diz respeito ao conjunto de todos os
resultados, respostas ou medições que nos interessam para o estudo de uma ou mais
características dos indivíduos, os quais podem ser seres animados ou inanimados,
tais como os habitantes da cidade de São Paulo ou, ainda, as pilhas produzidas por
uma empresa.
A amostra trata-se de um subgrupo, uma parte selecionada da totalidade de
observações abrangidas da população.
Quando se faz estatística, normalmente, é inviável ou impraticável trabalhar com
toda a população, seja por razões éticas ou econômicas, de modo que o procedimento
usual é a coleta de elementos de um subconjunto da população, processo denominado
de amostragem. No entanto, atente-se na escolha da amostra, é importante que ela
seja representativa de todas as características da população de onde ela foi extraída.

16 Introdução à Estatística
Quando se utilizam amostras de respostas voluntárias, como em pesquisas feitas
pela internet ou pelo telefone, “podem ser tiradas conclusões válidas apenas em
relação ao grupo específico que escolheu participar, mas é prática comum estende-
rem-se, incorretamente, as conclusões a uma população maior” (TRIOLA 2008, p. 11).
Fonte: adaptado de Triola (2008).

1 EXEMPLO Uma pesquisa realizada pela consultoria JLeiva Cultura & Esporte, com participação
do Datafolha, questionou 10.630 pessoas, com idade superior a 12 anos, os três gê-
neros musicais que mais gostavam, por ordem de preferência. O resultado mostrou
que o sertanejo é o estilo mais popular (37%), seguido do MPB (27%), gospel (21%),
rock (21%), pagode e pop (ambos com 17%), que completem os cinco mais citados
(BARCINSKI, 2018, on-line)1.
A partir da pesquisa, podemos concluir que as 10.630 pessoas constituem uma
amostra, enquanto que a população consiste na coleção inteira dos brasileiros.

Além disso, temos outros dois conceitos importantes neste estudo: censo e estatística.
Censo consiste no processo de examinar todos os elementos da população; por sua
vez, a estatística é utilizada para avaliação dos elementos de uma amostra.
Por meio do censo, podemos obter as medidas capazes de descrever toda a po-
pulação (parâmetros) e, ao se trabalhar com amostras, obtemos as estimações e, a
partir delas, os estimadores.
Assim, podemos dizer que parâmetros se tratam de medidas descritivas de uma po-
pulação, enquanto que estimadores são medidas descritivas de uma amostra e que, indi-
retamente, são capazes de estimar um parâmetro, a partir do cálculo de probabilidades.

Dados

Larson e Faber (2010, p. 3) definem dados como “informações que vêm de obser-
vações, contagens, medições ou respostas”; logo, dados são as informações com as
quais trabalharemos, e que são obtidos a partir da observação, contagem ou medição
de variáveis.

UNIDADE 1 17
Os dados podem ser denominados de primários ou secundários. Dados primá-
rios são aqueles colhidos diretamente na fonte das informações, ao contrário dos
dados secundários, os quais já foram coletados e encontram-se organizados em
bancos de dados, publicações, dentre outras fontes.
Além disso, os dados podem ser quantitativos ou qualitativos. Dados quantita-
tivos referem-se às entradas numéricas, como a altura dos jogadores de basquete;
por sua vez, dados qualitativos referem-se às entradas não numéricas, como a cor
dos olhos dos recém-nascidos.
No contexto do dado estatístico quantitativo, cabe destacar que ele pode ser dis-
creto (descontínuo) ou contínuo. Normalmente, o dado discreto é resultante de
uma contagem de quantidades enumeráveis, e, por isso, seus valores são expressos
por meio de números inteiros não negativos; por exemplo da contagem de alunos
presentes na aula de Estatística e Probabilidade. Por sua vez, diz-se que X é um
dado contínuo quando assume todos os valores intermediários ao passar de a para
b; por exemplo da temperatura registrada em um termômetro de mercúrio, em que
ao dilatar-se, o filete da temperatura passa por todas as temperaturas intermediárias
(TOLEDO; OVALLE, 1985).

2 EXEMPLO Em 2013, o site especializado em viagens, Conde Nast Travever, publicou uma lista
com os 154 melhores novos hotéis abertos em 2012. Na Tabela 1, é apresentada a ava-
liação do site para 10 lugares onde se hospedar na América Central e América do Sul.

Tabela 1 - 10 novos hotéis para se hospedar na América Central e América do Sul

Preço do Número de
Hotel País
quarto quartos
El Secreto Belize $$$ 13
Kurà Design Villas Costa Rica $$$ 6
Tántalo Hotel Panamá $ 12
B.O.G Hotel Colômbia $ 55
Casa San Agustín Colômbia $$ 30
Sugar Beach, a Viceroy
Santa Lúcia $$$ 80
Resort
MashpiLodge Equador $$$$ 22
Palacio Nazarenas Peru $$$$ 55
JW Marriott Peru $ 153
Botanique Hotel &Spa Brasil $$$$ 17

Fonte: adaptada de Condé Nast Traveller ([2019], on-line)2.

18 Introdução à Estatística
A partir da Tabela 1, podemos inferir que a população é de 154 hotéis e a amostra é dos
10 novos hotéis para se hospedar na América Central e América do Sul. Se avaliarmos
a variável país, então, estaremos trabalhando com um dado qualitativo; se avaliarmos a
variável número de quartos, então, estaremos trabalhando com um dado quantitativo.
Ainda, uma forma de distinguir os dados é por meio do nível de mensuração, o
qual pode ser: nominal, ordinal, intervalar ou racional. Cabe destacar que essas clas-
sificações são fatores importantes na determinação de qual procedimento usado na
aplicação da estatística em problemas reais.
• Nível nominal de mensuração: aplica-se a dados qualitativos, que podem
ser categorizados utilizando rótulos, qualidades ou nomes. Não possibilita
operações aritméticas. Quando as variáveis nominais assumem duas categorias,
são chamadas de variáveis dicotômicas, enquanto que quando assumem três
ou mais categorias, denominam-se variáveis categóricas.
• Nível ordinal de mensuração: aplica-se a dados qualitativos e quantitativos,
os quais podem ser organizados pela ordem ou posição. No entanto, as dife-
renças entre as entradas de dados não são significantes.
• Nível intervalar de mensuração: os dados podem ser ordenados, de modo
que há diferenças significativas entre eles, e um registro nulo não é interpre-
tado como zero inerente.
• Nível racional de mensuração: semelhante ao nível intervalar, no entanto, é
possível estabelecer relações de razões entre os dados, ou seja, um dado pode
ser múltiplo do outro, e, ainda, o registro nulo é o zero inerente.

Na mensuração de um valor, o zero inerente ocorre quando o zero representa a


ausência desse valor, o nada. Por exemplo, se estamos falando sobre a quantia de
combustível no interior do tanque do carro, o zero representa o nada, ou seja, a
ausência de combustível.

Para exemplificar os níveis de mensuração, vamos pensar em um restaurante. No


cardápio de bebidas, temos água, suco e refrigerante. São três entradas, de modo que
nenhuma delas pode ser expressa em termos numéricos ou que sejam, estatisticamente,
superiores a outra. Neste caso, temos um conjunto de dados no nível nominal.

UNIDADE 1 19
Pensando ainda no restaurante, os pratos mais vendidos são macarrão, strogonoff e
risoto. Neste caso, podemos dizer que há uma hierarquia nos valores encontrados, de
modo que o macarrão é superior ao strogonoff, que, por sua vez é superior ao risoto.
Logo, estamos trabalhando com um conjunto de dados no nível ordinal.
Além disso, o saldo no caixa do restaurante, ao longo dos vários dias do mês, é
um exemplo de conjunto de dados no nível racional, de modo que se o saldo for
zero em um determinado dia, teremos a ausência de valor. Ainda, para este conjunto
de dados, é possível fazer uma relação de multiplicação, ou seja, se na segunda-feira
havia R$ 100,00 no caixa e na terça-feira havia R$ 200,00 então, podemos afirmar
que, na terça-feira, havia o dobro do valor que no dia anterior.
Por fim, quanto ao conjunto de dados intervalar, exemplificamos com a lista de
temperaturas registradas em uma determinada cidade, uma vez que, a partir desta
lista, podemos fazer uma hierarquização entre as temperaturas, e não há zero inerente,
ou seja, a temperatura pode ser zero graus.
O Quadro a seguir sumariza os quatro níveis de mensuração. Observe.
Quadro 2 - Níveis de mensuração e suas características.

Subtrair os Determinar se um
Nível de Categorizar Ordenar os
valores dos dado é múltiplo
mensuração os dados dados
dados do outro
Nominal Sim Não Não Não
Ordinal Sim Sim Não Não
Intervalar Sim Sim Sim Não
Racional Sim Sim Sim Sim

Fonte: Larson e Faber (2010, p. 11).

3 EXEMPLO Classifique o conjunto de dados quanto ao nível de mensuração.


Quadro 3 - Os 10 canais mais vistos da TV por assinatura no Brasil em outubro de 2018

1. Cartoon Network 6. GloboNews


2. Discovery Kids 7. TNT
3. SporTV 8. Viva
4. AXN 9. Gloob
5. Megapix 10. Multishow

Fonte: adaptado de Feltrin (2018, on-line)3.

Podemos classificar o conjunto dos 10 canais mais vistos da TV por assinatura no


Brasil no mês de outubro de 2018 como nível ordinal, uma vez que os dados listam
a posição dos canais de 1 a 10.

20 Introdução à Estatística
Fases do
Método Estatístico

Neste tópico, veremos que a apresentação de um


estudo estatístico completo requer o desenvol-
vimento de várias etapas, chamadas de fases do
método estatístico. Estas etapas encontram-se
ilustradas na Figura 1, observe.

Definir o problema

Identificar a variável de interesse


e a população do estudo

Desenvolver um plano para a coleta de dados

Coletar os dados

Apurar os dados

Apresentar os dados

Analisar e interpretar os dados

Figura 1 - Fases do método estatístico


Fonte: a autora.

UNIDADE 1 21
Definição do Problema e Identificação da Variável
de Interesse e da População do Estudo

A partir da Figura 1, verificamos que, primeiramente, devemos formular o problema


a ser estudado, assim como identificar a variável de interesse e a população do estudo.
Exemplificando: no lançamento de um determinado produto, como um perfume,
o fabricante deve estudar as características de seus potenciais consumidores, como
número de unidades consumidas por ano, fragrâncias favoritas e dentre outros fatores
a serem considerados para o sucesso do produto.

Desenvolvimento do Plano para Coleta de Dados

O próximo passo é o planejamento, fase em que serão estabelecidos os objetivos e


procedimentos que serão adotados para levantar as informações de interesse. Nesta
fase, definem-se o cronograma da atividade e a verba disponível.
É no planejamento em que se escolhe o tipo de levantamento que será utiliza-
do, podendo ser censitário (quando a contagem for completa) ou por amostragem
(quando a contagem for parcial).

Coleta de Dados

A quarta fase é de coleta dos dados, a qual refere-se à obtenção propriamente dita das
informações de interesse. Pode ser conduzida direta ou indiretamente.
Diz-se coleta direta quando os dados são obtidos diretamente da fonte; como
no caso da pesquisa de preferência de marcas de refrigerante pelos consumidores.
Existem três tipos de coleta de dados direta: contínua, periódica e ocasional.
• Coleta contínua: os dados são obtidos ininterruptamente durante um de-
terminado período. Por exemplo, os registros de nascimentos de uma deter-
minada cidade.
• Coleta periódica: os dados são obtidos em períodos curtos. Por exemplo o
censo industrial, realizado anualmente.
• Coleta ocasional: os dados são obtidos esporadicamente. Por exemplo coleta
de casos fatais de surto epidêmico.

22 Introdução à Estatística
Por outro lado, diz-se coleta indireta quando ela é inferida com base nos elementos
obtidos a partir da coleta direta. De acordo com Toledo e Ovalle (1985), este tipo de co-
leta pode ser feita por analogia, por proporcionalização, por indícios ou por avaliação.
• Coleta por analogia: o conhecimento de um determinado fenômeno é
induzido a partir de outro que com ele guarda relações de casualidade.
• Coleta por proporcionalização: o conhecimento de um determinado fenô-
meno se induz das condições quantitativas de uma parte dele.
• Coleta por indícios: são escolhidos fenômenos sintomáticos para discussão
de um aspecto geral da vida social.
• Coleta por avaliação: por meio de estimativas cadastrais ou informações
fidedignas, presume-se o estado quantitativo de um fenômeno.

Apuração dos Dados

A quinta fase é a de condensação e tabulação dos dados. Isto é, consiste em resumir os


dados, por meio de contagem e agrupamento, podendo ser conduzida manualmente
ou com a ajuda de máquinas, como calculadoras ou softwares computacionais, por
exemplo o MS EXCEL.
Nesta fase, também é importante nos atentarmos a algumas das características dos
dados, como centro, variação, distribuição, valores discrepantes e tempo (TRIOLA, 2008),
cujas definições veremos com mais profundidade ao longo da leitura das unidades.
• Centro: valor médio ou representativo, que indica a localização do meio do
conjunto de dados.
• Variação: medida do quanto os valores dos dados variam entre eles.
• Distribuição: descreve a natureza da distribuição dos dados, como forma
uniforme ou assimétrica.
• Valores discrepantes ou outliers: valores amostrais localizados longe da
maioria dos pontos.
• Tempo: características dos dados que mudam com o tempo.

Apresentação dos Dados

A apresentação dos dados consiste na fase de sua exposição, a qual normalmente se


dá a partir da utilização de tabelas e gráficos.

UNIDADE 1 23
As tabelas são utilizadas com vistas a apresentação numérica dos dados, dispon-
do-os em linhas e colunas distribuídas de modo ordenado. Veja um exemplo de
tabela na Figura 2.

Percentual de domicílios particulares permanentes adequados (%)


Áreas urbanas
Tipo de serviço regulares de municípios (1)
Em aglomerados
subnormais Com aglomerados Sem aglomerados
subnormais subnormais
Forma de abastecimento de água 88,3 92,9 91,3
Tipo de esgotamento sanitário 67,3 85,1 65,6
Destino do lixo 95,4 98,6 96,3
Energia elétrica 72,5 88,5 91,3

Fonte: IBGE, Censo Demográfico 2010


(1) Entende-se por área urbana regular ou por demais áreas urbanas todos os setores censitários nos
perímetros urbanos, exceto aqueles classificados como aglomerados subnormais.

Figura 2 - Exemplo de dados tabelados


Fonte: Agência de Notícias (2011, on-line)4.

Por sua vez, os gráficos são utilizados de forma a permitir uma visualização fácil e
rápida dos dados numéricos. Veja um exemplo de gráfico na Figura 3.
Y
40

34,41 33,91
35
30,37 30,71 31,12 30,65 30,83
29,28 28,82 29,70
30 28,70 28,06

25

0
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 X

Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Agropecuária, Pesquisa Trimestral do Abate de Animais, 2006-2017.

Figura 3 - Exemplo de disposição de dados em gráfico


Fonte: Agrocfm (2018, on-line)5.

Caro (a) aluno (a), atente-se que existem diversos tipos de tabelas e gráficos que podem
ser utilizados para representação dos dados coletados. Na Unidade 2, aprofundaremos
nossos conhecimentos no que diz respeito a estas formas.

Análise e Interpretação dos Dados

Por fim, a última fase do trabalho estatístico é a de análise e interpretação dos dados,
permitindo chegar a uma conclusão.

24 Introdução à Estatística
Planejamento
Experimental

Vimos que os métodos estatísticos são direciona-


dos pelos dados, de modo que podemos obtê-los
por meio de estudos observacionais, experimen-
tos, simulação e levantamento ou pesquisa de
mercado.
Em um estudo observacional, verificamos e
medimos características especificas, sobre as quais
não exercemos nenhuma influência. O estudo
observacional pode ser retrospectivo, transversal
ou prospectivo (Figura 4).
Como exemplo de estudo observacional, cita-
-se a pesquisa da preferência dos gatos entre cinco
marcas de rações; para conduzir a pesquisa, deixa-
mos a ração à disposição do animal e esperamos
que eles escolham sua opção preferida, sem que
exerçamos qualquer tipo de influência.
Nos experimentos, aplicamos algum tipo de
tratamento e observamos seu efeito nos sujeitos
(Figura 4). O método é muito comum na área da
saúde.

UNIDADE 1 25
Estudos
Estatíticos

Experimento:
Estudo Observacional:
Você faz Aplica algum
observa e mede,mas
observações apenas tratamento.
não modifica.
ou modifica os sujeitos
de alguma forma?
Período de Período de tempo
tempo passado à frente
Quando
as observações Elementos-chave no planeja-
são feitas? mento de experimentos:
1. Controla efeitos de variáveis
por meio de:
experimentos cegos, blocos,
Um ponto
planejamento experimental,
no tempo
completamente, aleatorizado,
planejamento experimental
Estudo retrospectivo rigorosamente, controlado.
(ou de controle de 2. Replicação
caso): retorna no 3. Aleatorização
tempo para coletar
dados sobre algum
período passado. Estudo transversal:
os dados são
medidos em algum
ponto no tempo.

Estudo prospectivo
(ou longitudinal ou
de coorte): avança
no tempo e observa
grupos com fatores
em comum,tais
como fumantes e
não fumantes.

Figura 4 - Estudos estatísticos


Fonte: adaptada de Triola (2008).

Na simulação, utilizam-se modelos matemáticos ou físicos para reproduzir as condi-


ções de uma situação ou processo, que na vida real seriam impraticáveis ou perigosas.
Normalmente, o método é usado no mercado financeiro e, também, na simulação
de batidas de automóveis.
Por sua vez, um levantamento ou pesquisa de mercado consiste de investigação
de uma ou mais características de uma população, normalmente, feita pela internet,
correio ou telefone.
Além disso, a partir da Figura 4, notamos três pontos-chave no planejamento de
experimentos: controle do efeito das variáveis, replicação e aleatorização.

26 Introdução à Estatística
Controle de Variáveis

Variáveis são características que podem ser avaliadas (ou medidas) sob as mesmas
condições, em cada elemento da população, por exemplo: peso, altura, tipo sanguíneo,
grau de escolaridade, religião e dentre outros.
O controle do efeito das variáveis pode ser conduzido a partir de experimentos
cegos, planejamento em blocos aleatorizado, planejamento completamente aleatoriza-
do ou, ainda, por meio de planejamento, rigorosamente, controlado (TRIOLA, 2008).
• Experimento cego: técnica em que o sujeito não sabe se está recebendo o
medicamento ou o placebo, permitindo inferir se o medicamento traz efeitos
significativos na pessoa. A técnica é, normalmente, utilizada em pessoas sujeitas
a tratamentos, em que um grupo recebe um medicamento, e outro recebe um
placebo que não contém o medicamento e não causa danos.
• Planejamento em blocos aleatorizado: técnica aplicada em experimentos
em que há fatores com forte efeito sobre a variável em consideração. Logo,
devemos formar grupos de sujeitos com características semelhantes e, na se-
quência, associar, aleatoriamente, os tratamentos aos sujeitos dentro de cada
bloco. Por exemplo, para testar a eficiência de um determinado medicamento,
podem ser formados um bloco de mulheres e um bloco de homens, uma vez
que o medicamento poderá ter efeitos diferentes dependendo do sexo da pessoa.
• Planejamento completamente aleatorizado: neste tipo de planejamento,
os sujeitos são associados a diferentes tipos de tratamento, por meio de um
processo de seleção aleatória. Por exemplo, para testar a eficiência do medica-
mento, as crianças, que vão receber o medicamento ou o placebo, são escolhidas
aleatoriamente, como a partir de uma jogada de moedas.
• Planejamento rigorosamente controlado: neste tipo de planejamento, os su-
jeitos são, cuidadosamente, escolhidos, a fim de possibilitar comparações entre
os diferentes grupos. No teste da eficiência do medicamento, são escolhidas
crianças da mesma faixa etária, com pesos semelhantes, alturas semelhantes e
dentre outras variáveis, a fim de possibilitar a comparação rigorosa dos grupos
que vão receber o medicamento ou o placebo.

Replicação e Tamanho da Amostra

Além do controle das variáveis, no planejamento experimental, é muito importante a repeti-


ção ou a replicação do experimento, com vistas a auxiliar na comprovação dos resultados.

UNIDADE 1 27
Ainda, considerar o tamanho amostral é um passo fundamental. As amostras
devem ser grandes o suficiente de modo que o comportamento errático não disfarce
o efeito dos tratamentos. No entanto, Triola (2008) cita que mais importante do que
o tamanho da amostra é ter uma amostra cujos dados tenham sido escolhidos de
modo apropriado, por exemplo da seleção aleatória.

Aleatorização e outras Estratégias Amostrais

Quanto às técnicas de amostragem, os dois grandes grupos são amostra aleatória e


amostra probabilística.
• Amostragem aleatória: os sujeitos da população são escolhidos de forma
que cada um tenha chances iguais de ser selecionado.
• Amostragem probabilística: os sujeitos da população são selecionados de
forma que cada um tenha uma chance conhecida, mas não, necessariamente,
igual, de ser escolhido.

Um processo amostral é feito com reposição quando é aceitável ter o mesmo


membro da população mais de uma vez; caso contrário, o processo é denominado
de sem reposição.

No contexto da amostragem probabilística, tem-se: amostragem casual simples,


amostragem sistemática, amostragem estratificada e amostragem por conglomerado.

Tenha sua dose extra de conhecimento assistindo ao vídeo.


Para acessar, use seu leitor de QR Code.

28 Introdução à Estatística
• Amostragem casual simples: os elementos da população são escolhidos de
forma totalmente aleatória, como por sorteio, de modo que cada um tenha a
mesma probabilidade de ser selecionado.
Em uma turma de 50 alunos de engenharia, para escolher uma amostra repre-
sentativa de 10%, inserem-se os nomes dos alunos em uma urna, e retiram-se
5 nomes, formando a amostra. Neste caso, cada elemento tem a mesma pro-
æ1ö
babilidade de ser selecionado, ou seja, çççè 50 ÷÷÷ø .
• Amostragem sistemática: os elementos da população apresentam-se or-
denados, de forma que a sua retirada é feita periodicamente para compor a
amostra, utilizando-se um intervalo I, a partir do número sorteado.
Para obter a amostra de cinco alunos de engenharia, de uma turma de 50 alu-
50
nos, temos que N = 50 , n = 5 e I = = 10 . Assim, o sorteio será feito entre
5
os 10 primeiros da lista de chamada; se o sorteado for, por exemplo, o aluno
de número 3 da lista, a amostra será formada pelos alunos de número 3, 13,
23, 33 e 43 da lista de chamada.
• Amostragem estratificada: a população é dividida em subgrupos (estratos), de
modo que, nesta divisão, os indivíduos sejam semelhantes (homogêneos) entre
si. Assim, na composição da amostra, devem ser sorteados elementos de todos os
estratos. Teremos uma amostra estratificada uniforme quando os estratos possuem,
aproximadamente, o mesmo tamanho; caso contrário, teremos uma amostra
estratificada proporcional, em que serão sorteados um número proporcional de
elementos ao número de elementos do estrato.
Na turma de 50 alunos de engenharia, composta por 30 mulheres e 20 homens,
para extrair uma amostra representativa
de 10% da população, teremos:
Quadro 4 - Exemplo de extração de amostra
representativa de 10% da população

Sexo dos Amostra


População
alunos (10%)

Feminino 30 3

Masculino 20 2

Total 50 5

Fonte: a autora.

Logo, a amostra com cinco elementos


deve conter 3 mulheres sorteadas dentre
as 30, e 2 homens sorteados dentre os
20 da turma de engenharia. Amostragem estratificada

UNIDADE 1 29
• Amostragem por conglomerado: a população é dividida em grupos dife-
rentes (conglomerados), em que é extraída uma amostra apenas dos conglo-
merados selecionados, e não de toda a população.

Na universidade X, os alunos encontram-se divididos por curso de graduação, ou


seja, a população (alunos) está dividida em conglomerados (turmas), logo, para obter
uma amostragem por conglomerado, selecionamos, aleatoriamente, algumas dessas
turmas e escolhemos todos os membros desses conglomerados selecionados.
Para finalizarmos o estudo do planejamento de experimentos, é importante desta-
car que estamos sujeitos a algum tipo de erro nos resultados. O erro pode ser amostral
ou não amostral.
Um erro amostral consiste da diferença do resultado amostral para o verdadeiro
resultado da população. Estes erros podem resultar em flutuações devidas ao acaso.
Por sua vez, um erro não amostral é aquele que ocorre quando os dados amostrais
são coletados, registrados ou analisados incorretamente. Este tipo de erro pode ocorrer
na cópia incorreta dos dados, na utilização de equipamentos defeituosos ou, ainda,
na seleção de uma amostra tendenciosa.

Não confunda! Em ambas amostragem estratificada e amostragem por conglome-


rado formamos subgrupos; no entanto, enquanto a amostragem por conglomerado
utiliza todos os membros da amostra de conglomerados, a amostragem estratificada
utiliza uma amostra de membros de todos os estratos.

Caro(a) aluno(a), nesta unidade introdutória à estatística, pudemos ver que a esta-
tística pode ser dividida em três áreas: estatística descritiva, estatística inferencial e
probabilidade. Ainda, tivemos a oportunidade de estudar alguns conceitos impor-
tantes relacionados à estatística, tais como: população, amostra, censo, estatística,
parâmetros, estimadores, dentre outros. Finalizamos os estudos com as fases do
método estatístico e com a importância do planejamento experimental.

30 Introdução à Estatística
Você pode utilizar seu diário de bordo para a resolução.

1. Assinale a alternativa que contenha o tipo de amostragem utilizada em pesquisas


que dividem uma cidade em bairros e, na sequência, selecionam, aleatoriamente,
alguns dos bairros para levantamento de dados sobre os habitantes da cidade:
a) Amostragem casual.
b) Amostragem estratificada.
c) Amostragem por conglomerado.
d) Amostragem sistemática.
e) Amostragem probabilística.

2. Em estatística, os dados são informações obtidas a partir de observações, con-


tagens, medições ou respostas. Sabendo disso, considere as afirmações sobre
os dados.
I) Dados primários são aqueles coletados diretamente na fonte.
II) A religião das pessoas é um dado quantitativo.
III) A cor do cabelo das pessoas é um dado qualitativo.
IV) Dados secundários são aqueles obtidos a partir de banco de dados.

Assinale a alternativa correta:

a) Apenas I e II estão corretas.


b) Apenas II e III estão corretas.
c) Apenas I está correta.
d) Apenas I, III e IV estão corretas.
e) I, II, III e IV estão corretas.

31
3. Avalie se o conjunto de dados está no nível intervalar ou no nível racional.

Vitórias do Brasil na copa do mundo (anos)


1958
1962
1970
1994
2002

32
LIVRO

Estatística
Autor: Fernanda Cesar Bonafini
Editora: Pearson Education do Brasil
Sinopse: baseados na premissa de que o ensino atual exige um processo flexí-
vel de construção do saber, os livros que compõem a Bibliografia Universitária
Pearson são concisos sem serem rasos e simples sem serem simplistas. Para
tanto, eles apresentam os principais conceitos dos temas propostos em uma
estrutura didática única, com linguagem dialógica, diagramação diferenciada e
hipertextos, entre outros elementos. Em Estatística, isso não é diferente. Nela,
tópicos como correlação e regressão, intervalo de confiança e distribuição de
probabilidades discretas – que, dependendo da abordagem, podem parecer
complicados – são apresentados de um ponto de vista inusitado que, ao mostrar
como as coisas funcionam na prática, possibilita ao leitor um processo intensivo
(e real) de aprendizagem.

33
CARNIEL, I. G. Estatística. Maringá: Centro Universitário de Maringá, 2014.

LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 6. ed. São Paulo: Editora da
Universidade de São Paulo, 2008.

TOLEDO, G. L.; OVALLE, I. I. Estatística básica. 2. ed. São Paulo: Atlas, 1985.

TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

REFERÊNCIA ON-LINE
1
Em: https://blogdobarcinski.blogosfera.uol.com.br/2018/07/24/pesquisa-comprova-no-brasil-o-sertanejo-li-
dera-mas-o-futuro-e-do-funk/. Acesso em: 16 set. 2019.
2
Em: https://www.cntraveller.com/. Acesso em: 16 set. 2019.
3
Em: https://tvefamosos.uol.com.br/noticias/ooops/2018/10/16/tv-paga-veja-ranking-dos-30-canais-mais-vis-
tos-no-pais-em-setembro.htm. Acesso em: 16 set. 2019.
4
Em: https://agenciadenoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/
14157-asi-censo-2010-114-milhoes-de-brasileiros-60-vivem-em-aglomerados-subnormais. Acesso em: 16
set. 2019.

Em: http://www.agrocfm.com.br/abate-voltou-a-crescer-em-2017-apos-dois-anos-de-queda-aponta-ibge/.
5

Acesso em: 16 set. 2019.

34
1. C.

2. D.

3. O conjunto de dados referentes aos anos em que o Brasil foi campeão da copa do mundo estão no nível
intervalar, uma vez que conseguimos estabelecer diferenças entre os dados, no entanto não podemos
dizer que um ano é múltiplo do outro.

35
36
Me. Rebecca Manesco Paixão

Representação Tabular
e Gráfica dos Dados

PLANO DE ESTUDOS

Séries Estatísticas Gráficos

Tabelas Distribuição de Frequências Gráficos Representativos


de Distribuição de
Frequências

OBJETIVOS DE APRENDIZAGEM

• Apresentar o que são tabelas de dados. • Estudar os principais tipos de gráficos.


• Conceituar e diferenciar séries estatísticas. • Verificar quais gráficos podem ser utilizados para repre-
• Estudar a distribuição de frequências. sentar distribuição de frequências.
Tabelas

Caro(a) aluno(a), na Unidade 1, estudamos que os


dados coletados podem ser apresentados de forma
numérica, por meio de tabelas. A ABNT NBR
14.724 do ano de 2011, em sua página 4, conceitua
tabela como “forma não discursiva de apresentar
informações das quais o dado numérico se destaca
como informação central” (ABNT, 2011).
No Brasil, as normas para apresentação de da-
dos, em uma tabela, são ditadas pelo documento
intitulado de “Normas de apresentação tabular”
do Instituto Brasileiro de Geografia e Estatística
(IBGE, 1993).
De acordo com o referido documento, os elementos de uma tabela são: título,
cabeçalho, corpo, coluna, linha, célula, rodapé e fonte.
• Título: consiste nos termos indicadores do conteúdo da tabela. Deve respon-
der às perguntas: O que? Onde? E quando?
• Cabeçalho: designa a natureza do conteúdo de cada coluna da tabela.
• Corpo: parte da tabela constituída de colunas e linhas.
• Coluna: parte do corpo que contém uma sequência vertical de informações.
• Linha: parte do corpo que contém uma sequência horizontal de informações.
• Célula: espaço da tabela resultante do cruzamento de uma coluna com uma
linha.
• Rodapé: espaço abaixo do fecho da tabela, em que são inseridas notas de
natureza informativa.
• Fonte: entidade organizadora ou fornecedora dos dados expostos.

Além disso, o documento deixa claro que a moldura de uma tabela não deve conter
traços verticais que a delimitem à esquerda e à direita. A Figura 1 ilustra um exem-
plo de tabela de dados estatísticos, composta pelos elementos característicos que
acabamos de estudar.

Omissão censitária
segundo a Pesquisa de Avaliação -
1970, 1980, 1991 e 2000 - Brasil
Ano do Omissão
censo (%)
1970 7,3
1980 4,3
1991 4,7
2000 5,8
Fonte: IBGE, Pesquisa de Avaliação da Cobertura
da Coleta do Censo 1970, 1980, 1991 e 2000

Figura 1 - Exemplo de tabela estatística simples


Fonte: Olac (2015, on-line)1.

A tabela apresentada na Figura 1 é uma tabela estatística simples, constituída de


uma coluna indicadora do ano do censo e de outra em que estão inseridas as por-
centagens de omissão censitária.

UNIDADE 2 39
Normalmente, quando trabalhamos com dados estatísticos, é comum a necessi-
dade de apresentar em uma única tabela mais do que uma série. Assim, temos uma
tabela de dupla entrada quando as séries aparecem conjugadas, ou seja, há duas
ordens de classificação: uma horizontal (linha) e uma vertical (coluna). A Figura 2
ilustra este tipo de tabela.

População indígena, por situação do domicílio,


segundo a localização do domicílio – Brasil - 2010

População indígena por


Localização do domicílio situação do domicílio
Total Urbana Rural
Total 896.917 324.834 572.083
Terras Indígenas 517.383 25.963 491.420
Fora de Terras Indígenas 379.534 298.871 80.663
Fonte: IBGE, Censo Demográfico 2010.

Figura 2 - Exemplo de tabela de dupla entrada


Fonte: Agência de Notícias (2013, on-line)2.

Arredondamento de Dado Numérico

Sempre que houver necessidade de apresentar os dados numéricos em uma tabela,


com um menor número de algarismos, eles deverão ser arredondados.
O arredondamento de um dado estatístico segue algumas regras (TOLEDO;
OVALLE, 1985):

Arredondamento por falta: quando o primeiro dígito, situado à esquerda entre


os que serão eliminados, for igual ou menor que quatro, não deverá ser alterado o
dígito remanescente.
Tabela 1: Exemplos de arredondamento por falta

Número a arredondar Arredondamento para Número arredondado


10,489 inteiro 10
24,931 décimos 24,9
30,992 centésimos 30,99

Fonte: a autora.

40 Representação Tabular e Gráfica dos Dados


Arredondamento por excesso: quando o primeiro dígito, após o que será eliminado,
for maior ou igual a cinco, seguido por dígitos maiores que zero, o digito remanescente
será acrescido de uma unidade.
Tabela 2 - Exemplos de arredondamento por excesso

Número a arredondar Arredondamento para Número arredondado


11,504 inteiro 12
25,56 décimos 25,6
32,478 centésimos 32,48

Fonte: a autora.

Arredondamento de dígitos seguidos do cinco: quando o dígito mais à esquerda


dos que serão eliminados for cinco ou cinco seguido somente de zeros, o ultimo dígito
remanescente não será alterado se for par ou será aumentado uma unidade se for ímpar.
Tabela 3 - Exemplos de arredondamento de dígitos seguidos do cinco

Número a arredondar Arredondamento para Número arredondado


30,500 inteiro 30
22,750 décimos 22,8
40,705 centésimos 40,70

Fonte: a autora.

Arredondamento de soma: quando temos uma soma, devemos arredondar primeiro


o total e, na sequência, as parcelas, considerando dois casos (TOLEDO; OVALLE, 1985):
• Se a soma das parcelas da série arredondada for superior ao total, deve-se re-
tornar à série original e arredondar por falta tantas parcelas quantas forem as
unidades excedentes. Serão escolhidas as parcelas, anteriormente, arredonda-
das por excesso, cujas frações desprezadas representem o menor erro relativo.
Tabela 4 - Exemplos de arredondamento de soma, se a soma das parcelas das séries arredondadas
for superior ao total
Série original Série arredondada Série corrigida
6,51 7 7
7,50 8 8
14,63 15 15
20,10 20 20
24,73 25 24*
26,52 27 26*
99,99 102 > 100 100
* arredondamentos refeitos
Fonte: a autora.

UNIDADE 2 41
• Se a soma das parcelas da série arredondada for inferior ao total, deve-se retor-
nar à série original, arredondando-se por excesso tantas parcelas quantas forem
as unidades em falta. Serão escolhidas as parcelas anteriormente arredondadas
por falta, cujas frações desprezadas representem o menor erro relativo.
Tabela 5 - Exemplos de arredondamento de soma, se a soma das parcelas da série arredondada for
inferior ao total
Série original Série arredondada Série corrigida
5,34 5 5
7,45 7 7
18,50 18 19*
19,90 20 20
22,37 22 22
26,43 26 27*
99,99 98 < 100 100
* arredondamentos refeitos
Fonte: a autora.

42 Representação Tabular e Gráfica dos Dados


Séries
Estatísticas

O conjunto de dados coletados dá origem às sé-


ries estatísticas. Toledo e Ovalle (1985, p. 26)
definem as séries estatísticas como “toda e qual-
quer coleção de dados estatísticos referidos a uma
mesma ordem de classificação: quantitativa”.
As séries estatísticas são divididas em dois
grandes grupos: séries homógradas e séries he-
terógradas.
Séries homógradas são aquelas em que a
variável descrita apresenta variação discreta ou
descontínua. Podem ser diferenciadas de acordo
com a variação dos elementos: época (tempo),
local (fator geográfico) e fato (fenômeno).
• Séries históricas ou cronológicas: quan-
do o fenômeno é estudado de acordo com
o fator cronológico. Por exemplo, a produ-
ção mundial de milho ao longo dos anos
(Tabela 6).

UNIDADE 2 43
Tabela 6 - Produção mundial de milho ao longo dos anos

Safra Produção (mil t)


2014/2015 1.022.661
2015/2016 973.245
2016/2017 1.078.450
2017/2018 1.033.743
2018/2019 1.054.304
Fonte: adaptada de Conab (2018).

• Séries geográficas ou territoriais: quando são observados os valores da


variável em determinado momento, de acordo com o fator geográfico. Por
exemplo, a produção de grãos no Brasil, de acordo com os cinco Estados mais
produtores (Tabela 7).
Tabela 7 - 5 Estados mais produtores de grãos no Brasil, safra 2018/19
Estado Produção (mil t)
Mato grosso (MT) 63.368
Paraná (PR) 38.412
Rio Grande do Sul (RS) 35.030
Goiás (GO) 23.016
Mato Grosso do Sul (MS) 18.484

Fonte: adaptada de Fiesp ([2019], on-line)3.


• Séries especificativas ou categóricas: quando a variável, discriminada por
categorias ou especificações, é observada em determinado tempo e local. Por
exemplo, a produção de grãos no Brasil, de acordo com o produto (Tabela 8).
Tabela 8 - Produção de grãos no Brasil, safra 2018/19
Produto Produção (mil t)
Algodão – caroço 3.617
Arroz 11.207
Feijão 3.099
Milho 91.190
Soja 118.800
Trigo 5.428
Demais 3.950

Fonte: adaptada de Fiesp ([2019], on-line)3.

Por sua vez, séries heterógradas são aquelas em que o fenômeno apresenta sub-
divisões ou gradações. A distribuição de frequências é uma série heterógrada, em
que todos os elementos (época, local e fenômeno) são fixos, de modo que os dados
encontram-se agrupados de acordo com a variação quantitativa ou intensidade
do fenômeno.

44 Representação Tabular e Gráfica dos Dados


Distribuição
de Frequências

Quando trabalhamos com um grande conjunto


de dados, é conveniente organizá-los e resumi-los
em uma tabela, conhecida por tabela de frequên-
cias ou, ainda, distribuição de frequências. Por
meio desta tabela, é possível listarmos os valores
dos dados (seja individualmente ou por grupos
de intervalo) e suas correspondentes frequências,
ordenadamente em linhas e colunas.
Para entendermos o conceito de distribuição
de frequências, considere a coleta de dados refe-
rente à idade dos professores da Universidade X,
conforme Tabela 9.
Tabela 9 - Idade dos professores da Universidade X

24 51 40 39 44
35 52 31 53 39
41 32 31 54 56
42 43 36 55 34
56 29 62 27 48
45 57 34 47 32
37 38 46 25 48
32 42 65 33 47

Fonte: a autora.

UNIDADE 2 45
Os dados apresentados, na Tabela 9, são chamados de dados brutos, uma vez que não
se encontram, numericamente organizados, ou seja, os dados encontram-se da forma
como foram coletados. Quando organizamos estes dados, seja em ordem crescente
ou decrescente, temos o que chamamos de rol, conforme Tabela 10.
Tabela 10 - Rol crescente da idade dos professores da Universidade X

24 25 27 29 31
31 32 32 32 33
34 34 35 36 37
38 39 39 40 41
42 42 43 44 45
46 47 47 48 48
51 52 53 54 55
56 56 57 62 65

Fonte: a autora.

Uma vez que organizamos os dados em rol, podemos resumi-los em uma tabela, cuja
leitura seja facilitada. Assim, a Tabela 11 ilustra a distribuição de frequências da
idade dos professores da Universidade X.
Atente-se que para facilitar a interpretação dos dados, agrupamo-los em faixas de
valores, denominadas de classes. Nestas, incluímos o extremo inferior e excluímos
o superior, que na tabela é indicado pelo símbolo − ; isto é, o intervalo de classe é
fechado à esquerda e aberto à direita.
Tabela 11 - Distribuição de frequências: idade dos professores da Universidade X.

Idade dos professores Frequência

21 − 31 4

31 − 41 15

41 − 51 11

51 − 61 8

61 − 71 2

Fonte: a autora.

46 Representação Tabular e Gráfica dos Dados


Elementos de uma Distribuição de Frequências

No estudo da distribuição de frequências, é importante entendermos seus elementos


componentes.
Número de classes (k): para determinação do número de classes, podemos utilizar
a regra de Sturges, dada por:

k  1  3, 3  log10 n

Ou, ainda, podemos utilizar a regra da raiz, que é dada por:

k= n
Em que n diz respeito ao número total de dados coletados.
Limite inferior de classe ( li ): menores números pertencentes às diferentes
classes.
Limite superior de classe ( Li ): maiores números pertencentes às diferentes
classes.
Amplitude total ( H ): diferença entre o maior e o menor valor observado da
variável em estudo:

H  Ln  l1

Amplitude de classe ( h ): diferença entre dois limites inferiores de classe ou entre


dois limites superiores sucessivos de classe. Assim:
Ln  l1
h
k
Fronteiras de classe: números utilizados para separar as classes, mas sem os saltos
criados pelos limites de classe.

Atente-se que as fórmulas para determinação do número de classe não nos levam
a uma decisão final, uma vez que esta vai depender de um julgamento pessoal. É
interessante evitar classes com frequências nulas ou, ainda, classes com frequências
demasiadamente grandes. Usualmente, utilizam-se de 5 a 20 classes.

UNIDADE 2 47
Pontos médios das classes ( xi ): pontos médios dos intervalos que determinam
cada classe:

li  Li
xi 
2

A partir do x1 , os demais pontos médios podem ser determinados por:

xn  xn1  h

Frequência absoluta ( fi ): número de vezes que um determinado elemento aparece


em uma classe:
n
n   fi  f1  f2    f n
i 1

1 EXEMPLO Em uma sala de aula, contabilizou-se a altura, em centímetros (cm), de 18 alunos.


Foram obtidos os seguintes dados:
Tabela 12 - Contabilização da altura dos alunos
Aluno Altura (cm)
1 188
2 184
3 182
4 180
5 182
6 160
7 172
8 169
9 173
10 174
11 173
12 175
13 175
14 176
15 175
16 175
17 175
18 178

Fonte: a autora.

48 Representação Tabular e Gráfica dos Dados


Para construirmos a distribuição de frequências, precisamos seguir um passo a passo.
O primeiro é definir o número de classes.
Na sequência, devemos identificar a amplitude total e, com base nesta, definir a
largura de classe, calculada por meio do quociente da amplitude total pelo número
de classes.
O próximo passo será de encontrarmos os limites de classe superior e inferior
para cada classe e, por fim, contabilizar a ocorrência das alturas dentro das classes
estabelecidas, para, então, definir a frequência absoluta.
Por Sturges, temos que:
k  1  3, 3 log10 18  5

Logo, o número de classes é 5.


A amplitude total será de:

H = 188 − 160 = 28 cm

A amplitude de classe será de:

188  160
h  5, 6
5

Este valor pode ser arredondado para 6.


Assim, podemos construir a distribuição de frequências da altura dos alunos.
Tabela 13 - Distribuição de frequências da altura dos alunos

Classe Frequência absoluta

159 − 165 1

165 − 171 1

171 − 177 10

177 − 183 4

183 − 189 2

Fonte: a autora.

Frequência relativa (f r): quociente entre a frequência absoluta da i-ésima classe


com o somatório das frequências:
fi
fr  n
 fi
i 1

UNIDADE 2 49
Frequência relativa percentual (f r%): produto da frequência relativa por 100, ou
seja:
f r %  f r 100

Frequência acumulada (fAC): somatório da frequência absoluta da i-ésima classe


com a frequência absoluta das classes anteriores:
n
f AC   fi  n
i 1

Em que f1 é a frequência absoluta da primeira classe, f2 é frequência absoluta da


segunda classe, e assim por diante até a n-ésima classe.
Frequência relativa acumulada (f rAC): somatório da frequência relativa da i-é-
sima classe com as frequências relativas das classes anteriores:
n
f rAC   f r  1
i 1

Frequência relativa acumulada percentual ( f rAC % ): produto da frequência


relativa acumulada de uma classe por 100:

f rAC %  100  f rAC

2 EXEMPLO Em uma cidade, contabilizou-se o número de crianças que já tiveram catapora em


20 grupos de 1000 pessoas cada. Foram obtidos os seguintes dados:
Tabela 14 - Contabilização do número de crianças que já tiveram catapora

Crianças com catapora Nº de grupos


7 1
8 2
9 5
10 8
11 3
12 1

Fonte: a autora.

Sabendo disso, podemos construir a distribuição de frequências, conforme Tabela 15.

50 Representação Tabular e Gráfica dos Dados


Tabela 15 - Distribuição de frequências das crianças que já tiveram catapora

Frequência
Crianças com Frequência Frequência Frequência
relativa
catapora absoluta relativa acumulada
percentual
7 1 0,05 5 5
8 2 0,10 10 15
9 5 0,25 25 40
10 8 0,40 40 80
11 3 0,15 15 95
12 1 0,05 5 100

Fonte: a autora.

Para finalizarmos nossos estudos sobre distribuição de frequências, é importante


conceituarmos distribuição normal. Em uma distribuição normal, as frequências
começam baixas, crescem até uma frequência máxima e decrescem, novamente, para
uma frequência baixa.
Assim, a distribuição é, aproximadamente, simétrica, ou seja, apresenta frequências
igualmente distribuídas em ambos os lados da frequência máxima.

3 EXEMPLO Em um estudo, 500 mulheres foram aleatoriamente selecionadas para medição de


suas alturas. Os resultados encontram-se na Tabela 16.
Tabela 16 - Medição da altura das mulheres aleatoriamente selecionadas

Altura (cm) Frequência Distribuição normal

156 − 158 12 Frequências começam baixas

158 − 160 32

160 − 162 85

162 − 164 198 Frequências aumentam até um máximo

164 − 166 97

166 − 168 46

168 − 170 23
Frequências decrescem até tornarem-se
baixas novamente
170 − 172 7

Fonte: a autora.

UNIDADE 2 51
Gráficos

Em estatística, é muito comum a representação


gráfica dos dados, devido ao seu apelo visual, ou
seja, por meio dos gráficos, os dados estatísticos
apresentam-se em termos de grandezas visual-
mente interpretáveis. Para Chambers et al. (1983),
os gráficos são utilizados para diversos fins, como:
• Buscar padrões e relações.
• Confirmar (ou não) certas expectativas
que se tinha sobre os dados.
• Descobrir novos fenômenos.
• Confirmar (ou não) suposições feitas sobre
os procedimentos estatísticos usados.
• Apresentar resultados de modo mais rá-
pido e fácil.

De modo geral, os gráficos podem ser classificados


segundo a forma e segundo o objetivo (TOLEDO;
OVALLE, 1985). Quanto à forma, os gráficos po-
dem ser diagramas, cartogramas ou estereogramas.
• Diagramas: gráficos geométricos dispos-
tos em duas dimensões. Apresentam-se em
uma grande variedade de tipos.
• Cartogramas: ilustrações relativas a cartas
gráficas, muito utilizados na Geografia.
• Estereogramas: apresentam-se em três di-
mensões, utilizados para ilustrar volumes.

52 Representação Tabular e Gráfica dos Dados


Quanto ao objetivo, os gráficos podem ser de informação ou de análise.
• Gráficos de informação: gráficos objetivos que proporcionam uma rápida
visualização da intensidade das modalidades e dos valores relativos ao fenô-
meno observado.
• Gráficos de análise: fornecem importantes elementos à fase de análise dos
dados. Normalmente, vêm acompanhados de tabelas.

Além disso, é importante destacar que, independentemente da classificação dos


gráficos, eles devem apresentar alguns elementos fundamentais, como:
• Título: para informar o que ele representa.
• Legenda: para facilitar a leitura do gráfico.
• Fonte: para informar a origem dos dados.

Principais Tipos de Gráficos

Os principais tipos de gráficos de variáveis qualitativas que veremos neste tópico


são: em barras, pictóricos, em linhas, em setores, diagramas de dispersão, polares e
triangulares.

UNIDADE 2 53
Gráficos em barras

Os gráficos em barras permitem a comparação de grandezas por meio de retân-


gulos de larguras iguais e alturas proporcionais às respectivas grandezas. Neste tipo
de gráfico, as barras (ou colunas) podem ser dispostas horizontal ou verticalmente,
de modo que cada uma representa a intensidade de um atributo.
Destaca-se que os gráficos em barras são os mais utilizados para representação
de variáveis nominais e/ou ordinais, quando as categorias são breves.
A Figura 3 ilustra um gráfico de barras vertical referente às vendas de bebidas
de uma determinada lanchonete.

50
45
40

28
Quantidade

30

20
15
12
10

0
Cerveja Água Suco Refrigerante
Bebida

Figura 3 - Exemplo de gráfico de barras vertical


Fonte: a autora.

Por sua vez, a Figura 4 apresenta um gráfico de barras horizontal para os mesmos
dados referentes às vendas de bebidas de uma determinada lanchonete. É importan-
te destacar que este tipo de gráfico é frequentemente utilizado para variáveis cujas
categorias possuam designações extensas.

Refrigerante 12

Suco 15
Bebida

Água 28

Cerveja 45
0 10 20 30 40 50
Quantidade

Figura 4 - Exemplo de gráfico de barras horizontal


Fonte: a autora.

54 Representação Tabular e Gráfica dos Dados


A partir das Figuras 3 e 4, podemos inferir algumas observações à respeito da cons-
trução de um gráfico de barras, seja vertical ou horizontal.
• As barras diferem, apenas, em comprimento, de modo que a largura é arbitrária.
• As barras encontram-se separadas umas das outras pelo mesmo espaço ar-
bitrário.
• As barras devem ser desenhadas atentando-se à ordem de grandeza, facili-
tando a análise e comparação dos valores. É usual dispor os dados em ordem
crescente ou decrescente.
• O gráfico deve ter uma linha zero claramente definida, assim como uma
escala de quantidades ininterrupta, para evitar interpretações equivocadas
dos dados.

Além dos gráficos de barras apresentados, existem outros mais elaborados, por exem-
plo os gráficos de barras compostas e dos gráficos de barras agrupadas.
No gráfico de barras compostas, apresentamos cada barra segmentada em partes
componentes. Observe a Figura 5 que retrata a preferência de conteúdos da internet
entre os sexos feminino e masculino.

Jogos 35 14

Celebridades 12 40
Conteúdo

Esportes 60 18
Homens
Mulheres
Política 15 24

Cultura 20 30

0 20 40 60 80 100
Quantidade

Figura 5 – Exemplo de gráfico de barras compostas


Fonte: a autora.

Os mesmos dados ilustrados na Figura 5 podem ser representados por meio de um


gráfico de barras agrupadas, conforme Figura 6. Neste tipo de gráfico, os dados
de preferência de conteúdos são apresentados separadamente, para facilitar a com-
paração.

UNIDADE 2 55
14
Jogos 35

Celebridades 40
12

Conteúdo
18
Esportes 60 Homens

24 Mulheres
Política 15

Cultura 30
20

0 10 20 30 40 50 60 70
Quantidade

Figura 6 - Exemplo de gráfico de barras agrupadas


Fonte: a autora.

Gráficos pictóricos

Os gráficos pictóricos ou também conhecidos por pictogramas são construídos a


partir de figuras ou conjunto de figuras representativas da modalidade ou intensidade
do fenômeno. Frequentemente, são utilizados em revistas ou jornais para despertar
a atenção do leitor.
A Figura 7 ilustra um gráfico pictórico sobre a produção de veículos por uma
determinada empresa entre os anos de 2004 a 2007.

2004

2005

2006

2007

Legenda: = 10.000 unidades

Figura 7 - Exemplo de gráfico pictórico


Fonte: a autora.

A partir da Figura 7, podemos concluir que os gráficos pictóricos devem possuir


símbolos autoexplicativos; que as diferentes quantidades são expressas a partir de um
menor ou maior número de símbolos, e não por meio da diminuição ou aumento do
símbolo; e que o gráfico deve permitir uma visão geral do fenômeno.

56 Representação Tabular e Gráfica dos Dados


Gráficos em linhas

Os gráficos em linhas ou também denominados de gráficos lineares são, frequen-


temente, utilizados para representar séries de tempo, quando existem um grande
número de períodos de tempo e, ainda, quando há flutuações intensas nas séries. Neste
tipo de gráfico, no eixo vertical (y), inserimos a mensuração da variável em estudo e,
no eixo horizontal (x), inserimos as unidades da variável em ordem crescente.
A Figura 8 ilustra a quantidade de smartphones vendidos por uma determinada
loja, ao longo dos meses do ano de 2019.

100
89 87
90 82 81
80 73 78
70
69
Quantidade

60
50
62 56
54
40 45
30 34
20
10
0
aio
Fe ro
iro

ço

ril

sto

o
br
br

br
br
nh

lh
Ab
i

ar
ne

re

o
Ju

m
m

m
tu
Ju
M

Ag
ve
Ja

ve
te

ze
Ou
Se

De
No
Mês
Figura 8 - Exemplo de gráfico em linhas
Fonte: a autora.

Além disso, nos gráficos em linhas também é comum termos mais que uma variável
representada. A Figura 9 ilustra a quantidade de smartphones e de tablets vendidos
por uma determinada loja, ao longo dos meses de 2019.

89 87
100 82 81
78
90 73
80 69
70
61
54
Quantidade

60 62 54 52
56
50 40 39
40
45
30 20 32 34 33
20 27
21
10 17
11
0
ril

aio
Fe ro
iro

ço

sto

Ou o

o
br
br

br
br
nh

lh
Ab
i

ar
ne

re

o
Ju

m
m

m
tu
Ju
M

Ag
ve
Ja

ve
te

ze
Se

De
No

Mês
Smartphones Tablets

Figura 9 - Exemplo de gráfico em linhas com duas variáveis


Fonte: a autora.

UNIDADE 2 57
Gráficos em setores

Os gráficos em setores ou também conhecidos por gráficos de “pizza” são utilizados


para representar valores absolutos ou porcentagens complementares. Neste tipo de
gráfico, a variável é projetada em um círculo dividido em setores, com áreas propor-
cionais às frequências de suas categorias.
A Figura 10 ilustra um gráfico de setores para a preferência musical dos adoles-
centes de uma determinada escola.

18 20
Pop
Rock
24 Sertanejo
32 Samba
Pagode
12 Funk
7 Eletrônica
40

Figura 10 - Exemplo de gráfico em setores


Fonte: a autora.

A utilização de um determinado tipo de gráfico, para representação dos dados


estatísticos, vai depender da escolha pessoal e objetivos do pesquisador.

Diagramas de dispersão

Um diagrama de dispersão é um gráfico de pares de dados (x,y) dispostos em um


eixo x horizontal (eixo das abscissas) e em um eixo y vertical (eixo das ordenadas).
A Figura 11 ilustra um diagrama de dispersão, que relaciona a altura e o peso de
mulheres selecionadas aleatoriamente.

58 Representação Tabular e Gráfica dos Dados


2
1,8
1,6
1,4

Quantidade
1,2
1
0,8
0,6
0,4
0,2
0
0 20 40 60 80 100
Peso (kg)

Figura 11 - Exemplo de diagrama de dispersão


Fonte: a autora.

Gráficos polares

Os gráficos polares são construídos sobre uma circunferência, dividida em um nú-


mero de partes iguais. São utilizados para representação de séries temporais cíclicas,
por exemplo dados meteorológicos (temperatura, pressão atmosférica, precipitação,
umidade etc.).
A Figura 12 ilustra a precipitação pluviométrica, na cidade de Recife, por meio
de um gráfico polar.

PRECIPITAÇÃO PLUVIOMÉTRICA
RECIFE – 1993
OUT.
SET. NOV.

DEZ.
AGO.

JUL. JAN. 300

FEV.
JUN.
MAR.
MAI.
ABR.

Figura 12- Exemplo de gráfico polar


Fonte: Docsity (2015, on-line)4.

UNIDADE 2 59
Gráficos triangulares

Os gráficos triangulares são utilizados quando deseja-se representar três atributos


inter-relacionados, simultaneamente. Normalmente, é utilizado para representar
fenômenos como composição etária da população, composição do solo, estrutura
fundiária, dentre outros (CARVALHO; ARAÚJO, 2008).
A Figura 13 ilustra a estrutura de utilização das terras dos estabelecimentos agro-
pecuários em cada região brasileira.

0
100%
10
90
20
80
30
70
40
60
50
Matas 50 Lavouras
1 60
40
2
70
30 5
4 80
20
3
90
10
100%
0
100% 90 80 70 60 50 40 30 20 10 0
Pastagens

Figura 13 - Exemplo de gráfico triangular


Fonte: Anglo Resolve ([2019], on-line)5.

Você pode construir os gráficos abor-


Tenha sua dose
extra de conheci- dados nesta unidade a partir da utili-
mento assistindo zação de softwares como MS EXCEL,
ao vídeo. Para
MINITAB entre outras ferramentas
acessar, use seu
leitor de QR Code. úteis e de fácil utilização.

60 Representação Tabular e Gráfica dos Dados


Gráficos Representativos
de Distribuição de
Frequências

Os gráficos mais utilizados para representar distri-


buição de frequências simples são o histograma ou
o polígono de frequências. A representação da dis-
tribuição de frequências acumuladas usualmente é
feita por meio do polígono de frequências acumu-
ladas ou também conhecido por ogiva de Galton.

Histogramas

O histograma é um gráfico formado por retân-


gulos justapostos, com áreas proporcionais à fre-
quência da classe por eles representada, de modo
que a soma das áreas dos retângulos corresponde
à frequência total.
Para construção de um histograma, devemos
nos atentar a alguns detalhes. No eixo horizontal
(x), anotamos os valores individuais da variável
em estudo; assim, a classe de valores de dados
será representada pela dimensão horizontal de
cada retângulo.

UNIDADE 2 61
No eixo vertical (y), construímos a escala em que serão lidos os valores relativos
ao número de frequências de classe, de modo que a área de cada retângulo do histo-
grama corresponda à frequência da classe que o retângulo representa.

4 EXEMPLO Considere os dados da altura (cm) dos alunos de uma determinada sala de aula.
154 166 190 163 162 185 184 172 173 182
178 174 178 174 175 176 175 176 176 181

A partir dos dados, podemos construir a distribuição de frequências (Tabela 17) e


um histograma (Figura 14).
Tabela 17- Distribuição de frequências da altura dos alunos

Frequência Frequência Frequência


Altura (cm)
absoluta relativa percentual acumulada

154 − 165 3 15 3

165 − 176 10 50 13

176 − 187 6 30 19

187 − 198 1 5 20

Fonte: a autora.

12
10
10
Frequência absoluta

8
6
6

4
3
2
1
0
[154,165] (165,176] (176,187] (187,198]
Altura (cm)

Figura 14 - Exemplo de histograma


Fonte: a autora.

A partir dos dados apresentados no Exemplo 4, também é possível construirmos um


histograma de frequência relativa (Figura 15). Este histograma tem a mesma aparência
daquele ilustrado na Figura 14, com a diferença que a escala vertical é marcada pelas
frequências relativas.

62 Representação Tabular e Gráfica dos Dados


60%
50%
50%

40%

Frequência relativa
30%
30%

20%
15%
10%
5%
0%
[154,165] (165,176] (176,187] (187,198]
Altura (cm)

Figura 15 - Exemplo de histograma de frequências relativas


Fonte: a autora.

Lembra-se que, no Exemplo 3, abordamos sobre a distribuição normal? Uma repre-


sentação ilustrativa para os dados de altura de 500 mulheres selecionadas aleatoria-
mente, também pode ser feita por meio de um histograma, apresentado na Figura 16.

250
198
Frequência absoluta

200

150

100 97
85

50 46
32 23
12 7
0
8]

0]

2]

4]

6]

8]

0]

2]
,15

,16

,16

,16

,16

,16

,17

,17
56

58

60

62

64

66

68

70
[1

(1

(1

(1

(1

(1

(1

(1

Altura (cm)
Figura 16 - Exemplo de histograma de distribuição normal
Fonte: a autora.

A partir da Figura 16, podemos concluir que o histograma de uma distribuição,


normalmente, apresenta a forma de sino, de modo que as frequências aumentam até
atingir um valor máximo e, na sequência, decrescem.

Polígono de Frequências

Um polígono de frequências utiliza segmentos de retas ligados a pontos localizados


acima dos valores dos pontos médios de classe. Neste tipo de gráfico, a altura dos
pontos correspondem às frequências das classes, de modo que os segmentos de retas
são estendidos à esquerda e à direita.

UNIDADE 2 63
É importante destacar que este tipo de representação gráfica pode ser utilizada
para referir-se às frequências absolutas ou às frequências relativas. A Figura 17 ilus-
tra a representação gráfica dos dados apresentados no Exemplo 1, por meio de um
polígono de frequências absolutas.
12
10
10

8
Frequência

6 6
4
3
2
1
0
[154,165] (165,176] (176,187] (187,198]
Altura (cm)
Figura 17 - Exemplo de polígono de frequências
Fonte: a autora.

Polígono de Frequências Acumuladas

O polígono de frequências acumuladas ou também denominado por Ogiva de


Galton objetiva representar graficamente as tabelas de frequências acumuladas.
A Figura 18 ilustra as frequências acumuladas dos dados apresentados no Exemplo
1. A partir dela, é possível notar que o gráfico é útil para a determinação de valores
abaixo de determinado valor, ou seja, podemos inferir que 13 dos alunos possuem
altura entre 154 e 176 centímetros.
25

20
19
Frequência acumulada

20

15 13

10

5 3

0
[154,165] (165,176] (176,187] (187,198]
Altura (cm)
Figura 18 - Exemplo de polígono de frequências acumulada
Fonte: a autora.

64 Representação Tabular e Gráfica dos Dados


Gráficos de Pareto

Os gráficos de pareto também são um tipo de gráfico de barras utilizado para


dados qualitativos, de modo que as barras se encontram dispostas em ordem pela
frequência. Assim, as escalas verticais podem representar frequências absolutas ou
frequências relativas.
O gráfico difere-se daqueles que vimos até o momento, uma vez que a barra mais
alta fica à esquerda e as barras menores se afastam à direita. Logo, o gráfico é utilizado
para chamar a atenção para as categorias mais importantes.
A Figura 19 ilustra um gráfico de pareto para as causas de cancelamento de pedidos
em uma loja virtual: produto defeituoso, atraso na entrega, produto errado e outros.

80 100%
70 90%
70
80%
60

Frequência acumulada
70%
Número de casos

50 46 60%
40 37 50%

30
30 40%
30%
20
20%
10 10%
0 0%
Defeituoso Atraso na Outros Errado
entrega

Figura 19 - Exemplo de gráfico de pareto


Fonte: a autora.

Assim, caro(a) aluno(a), encerramos os estudos sobre a tabulação e representação


gráfica de dados estatísticos.

UNIDADE 2 65
Você pode utilizar seu diário de bordo para a resolução.

1. O conjunto de dados coletados em uma pesquisa dá origem às séries estatísticas.


Sabendo disso, considere as afirmações:
I) As séries estatísticas podem ser homógradas ou heterógradas.
II) Nas séries históricas, o fenômeno é estudado de acordo com o fator geo-
gráfico.
III) Nas séries territoriais, o fenômeno é estudado de acordo com o fator cro-
nológico.
IV) Nas séries categóricas, a variável é observada em determinado tempo e local.

Assinale a alternativa correta:

a) Apenas I está correta.


b) Apenas I e II estão corretas.
c) Apenas II e III estão corretas.
d) Apenas I e IV estão corretas
e) Apenas I, III e IV estão corretas.

66
2. Em estatística, os gráficos são utilizados para representação visual dos dados.
Neste tipo de gráfico, utilizamos segmentos de reta ligados a pontos localizados
diretamente acima dos valores dos pontos médios de classe. De qual gráfico
estamos falando?
a) Gráfico de barras.
b) Histograma.
c) Polígono de frequência.
d) Pictograma.
e) Gráfico de setores.

3. O conjunto de dados amostrais a seguir ilustra a nota dos 50 alunos da sala B do


quinto ano na prova de matemática. Sabendo disso, construa uma distribuição
de frequências. Utilize k = 14.

10 15 100 90 77 55 60 52 47 93
20 75 77 80 74 0 82 69 64 92
85 100 84 85 80 65 63 72 91 89
86 74 87 60 67 84 89 74 65 87
26 100 56 62 100 97 81 76 74 65

67
LIVRO

Analises estatísticas no Excel – Guia Prático


Autor: José Ivo Ribeiro Junior
Editora: UFV
Sinopse: essa segunda edição, agora com 14 capítulos, dá ênfase à análise de
dados e à construção de gráficos usando os recursos do Excel. Desperta o in-
teresse do leitor por conhecimentos e o encoraja na utilização de um software
estatístico. Sempre que possível, e com responsabilidade, devem-se automatizar
os cálculos e os gráficos, para o que são apresentados alguns tópicos introdu-
tórios e resolvidos exercícios de aplicações. Constitui, pois, essa obra opção
para os estudantes dos cursos iniciais de Estatística, por demonstrar que essa
ferramenta é útil à solução de problemas pelo uso de dados e não somente
pela aplicação de fórmulas matemáticas.

LIVRO

Estatística básica
Autor: Geraldo Luciano Toledo e Ivo Izidoro Ovalle
Editora: Atlas
Sinopse: essa obra contém a matéria fundamental para estudos subsequentes
no campo da estatística inferencial, pois aborda os tópicos mais importantes da
estatística básica. Seu conteúdo limita-se aos pontos introdutórios dos estudos
estatísticos. Como passo inicial, o texto cuida de uma introdução geral à com-
preensão da estatística. Em seguida, o texto trata de distribuição de frequên-
cias, e em terceiro lugar, focaliza a apresentação gráfica com esclarecimentos
didáticos acerca do assunto.
Comentário: recomenda-se a leitura da parte 2: distribuição de frequências.

68
ABNT. Associação Brasileira de Normas Técnicas. NBR 14.724 – Informação e documentação – trabalhos
acadêmicos – apresentação. ABNT, 2011.

CARVALHO, E. A.; ARAÚJO, P. C. Os dados estatísticos e a representação gráfica. In: CARVALHO, E. A. Leituras
cartográficas e interpretações estatísticas. Natal: EDUFRN, 2008. Disponível em: http://www.ead.uepb.edu.
br/ava/arquivos/cursos/geografia/leituras_cartograficas/Le_Ca_A13_J_GR_260508.pdf. Acesso em: 18 set. 2019.

CONAB. Companhia Nacional de Abastecimento. Prévia Perspectivas para a agropecuária. Brasilia: conab,
2018. Volume 6. Disponível em: https://www.conab.gov.br/images/arquivos/outros/Perspectivas-para-a-
agropecuaria-2018-19.pdf. Acesso em: 18 set. 2019.

CHAMBERS, J. M.; CLEVELAND, W. S.; KLEINER, B.; TUKEY, P. A. Graphical methods for data analysis.
Nova York: Chapman and Hall, 1983.

IBGE. Instituto Brasileiro de Geografia e Estatística. Centro de Documentação de Informações. Normas de


apresentação tabular. 3. ed. Rio de Janeiro: IBGE, 1993. Disponível em: http://www.catolica-es.edu.br/fotos/
files/Normas_tabelas_IBGE2.pdf. Acesso em: 18 set. 2019.

TOLEDO, G. L.; OVALLE, I. I. Estatística básica. 2. ed. São Paulo: Atlas, 1985.

REFERÊNCIAS ON-LINE
1
Em: https://observatoriocensal.org/2015/11/24/avaliacao-dos-censos-demograficos-brasileiros/. Acesso em:
18 set. 2019.
2
Em: https://agenciadenoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/
14389-asi-ibge-mapeia-a-populacao-indigena. Acesso em: 18 set. 2019.
3
Em: https://www.fiesp.com.br/indices-pesquisas-e-publicacoes/safra-de-graos-brasil/. Acesso em: 18 set. 2019.

Em: https://www.docsity.com/pt/aula-04-descrevendo-os-dados-visualmente/4886864/. Acesso em: 18 set. 2019.


4

5
Em: http://angloresolve.plurall.net/press/question/1386926. Acesso em: 18 set. 2019.

69
1. D.

2. C.

3. A distribuição de frequências para a nota dos 50 alunos encontra-se ilustrada na Tabela a seguir:

Tabela: distribuição de frequências para a nota dos alunos na prova de matemática

Frequência relativa Frequência


Nota dos alunos Frequência absoluta
percentual acumulada
0 – 14 3 6 3
15 – 29 2 4 5
30 – 44 0 0 5
45 – 59 6 12 11
60 – 74 14 28 25
75 – 89 17 34 42
90 -105 8 16 50

70
71
72
Me. Rebecca Manesco Paixão

Estatística Descritiva:
Medidas de Posição

PLANO DE ESTUDOS

Medidas de Tendência
Central

Medidas de Posição Medidas Separatrizes

OBJETIVOS DE APRENDIZAGEM

• Estudar as medidas estatísticas de posição: medidas de • Estudar as medidas de centro: média, mediana e moda.
centro e separatrizes. • Estudar as medidas separatrizes: quartis, decis e percentis.
Medidas
de Posição

Caro(a) aluno(a), anteriormente, verificamos que


a partir de uma distribuição de frequências, po-
díamos estabelecer um sistema de classificação,
capaz de descrever o padrão de variação de um
determinado fenômeno.
Agora, no estudo das medidas de posição, vamos
compreender que existem medidas que podem re-
sumir algumas características importantes de um
conjunto de dados, assim como da distribuição de
frequências. De modo geral, as medidas de posição
podem ser subdividas conforme a Figura 1.

Medidas de
tendência Separatrizes
central

Média
aritmética Quartis

Mediana Decis

Moda Percentis

Figura 1 - Subdivisão das medidas de posição


Fonte: a autora.

Veremos cada uma dessas medidas de posição ao


longo da unidade.
Medidas
de Tendência Central

Em estatística, dentre as medidas de tendência cen-


tral, destaca-se média aritmética, mediana e moda.

“Uma medida de centro é um valor no centro ou


meio de conjunto de dados”.
Fonte: Triola (2008, p. 62).

Média Aritmética

A média aritmética simples ou, simplesmente,


média de uma variável fornece-nos uma medida
de centro. Ela é, usualmente, denotada de formas
diferentes para a população ou para a amostra. Se
os dados são de uma população, a média aritmé-
tica é denotada pela letra grega µ ; por sua vez, se
os dados são de uma amostra, a média aritmética
é denotada por x .
Contudo, como calculamos a média aritméti-
ca? Por definição, ela é calculada a partir do quo-
ciente do somatório dos valores observados pelo
número de observações.

UNIDADE 3 75
Assim, para a população, a média aritmética é dada por:
N
 xi
i 1

N

Para a amostra, a média aritmética é dada por:


n
 xi
i 1
x
n

Em que N é o número de observações da população, n é o número de observações


da amostra, e x1 , x2 , x3 , , xn é o conjunto de dados.

1 EXEMPLO No segundo período de Engenharia, contabilizou-se a idade (anos) dos 14 alunos:


21 22 20 21 23 22 24
20 21 22 25 24 26 23

A partir dos dados, podemos calcular a média aritmética:

20  20  21  21  21  22  22  22  23  23  24  24  25  26
x
14
314

14
 22, 428

Logo, podemos concluir que a média aritmética da idade dos alunos é de 22,428 anos.
Por sua vez, trabalhamos com a média aritmética ponderada quando os valores
do conjunto possuem pesos diferentes. Logo, ela pode ser calculada a partir do quo-
ciente entre a somatória do produto dos valores da variável ( xi ) com os respectivos
pesos ( wi ), pela somatória dos pesos, ou seja:
n
  xi  wi 
i 1
x n
 wi
i 1

Destaca-se que a média aritmética ponderada, normalmente, é utilizada para atri-


buição de notas por diferentes pesos, seja no ensino médio e/ou superior. Observe
o Exemplo 2.

76 Estatística Descritiva: Medidas de Posição


2 EXEMPLO A nota final para a disciplina de Matemática da 1ª série do ensino médio será obtida
por meio da atribuição de pesos, de acordo com a Tabela 1:
Tabela 1 - Pesos adotados para as notas na disciplina de matemática

Prova Pesos relativos

1
1 = 0 ,1
10

2
2 = 0, 2
10

3
3 = 0, 3
10

4
4 = 0, 4
10

Fonte: a autora.

Por meio da Tabela 1, podemos inferir que a primeira prova terá peso 0,1; a segunda
prova peso 0,2; a terceira prova peso 0,3; e a quarta prova peso 0,4.
Considerando que Maria tenha tirado as seguintes notas: 8, 7, 9 e 6, respectiva-
mente nas 4 provas, a sua nota final será a média aritmética ponderada, dada por:

(8  0, 1)  (7  0, 2)  (9  0, 3)  (6  0, 4)
x
0, 1  0, 2  0, 3  0, 4
0, 8  1, 4  2, 7  2, 4

1
 7, 3

Além disso, também podemos calcular a média quando tivermos uma distribuição
de frequências, por meio da fórmula:
n
xj  f j 
j 1
x n
 fj
j 1

Em que x j é o ponto médio da classe e f j a frequência absoluta.

UNIDADE 3 77
3 EXEMPLO A Tabela 2 ilustra a distribuição de frequências para a idade dos médicos de um
hospital.
Tabela 2 - Distribuição de frequências para a idade dos médicos de um hospital

Idade dos médicos (anos) Ponto médio Frequência absoluta

24 − 30 27 6

30 − 36 33 15

36 − 42 39 20

42 − 48 45 17

48 − 54 51 2

Fonte: a autora.

A partir dos dados apresentados na Tabela 2, podemos calcular a média da idade


dos médicos:

(27  6)  (33  15)  (39  20)  (45  17)  (2  51)


x
6  15  20  17  2
162  495  780  765  102

60
2304

60
 38, 4

Logo, a média aritmética da idade dos médicos do hospital é de 38,4 anos.


A partir deste estudo, podemos inferir algumas importantes propriedades da
média (CARNIEL, 2014), são elas:
• Em um conjunto de dados, a média é única.
• A média pode ser afetada por valores extremamente pequenos ou grandes.
• A média depende de todos os valores observados e, assim, qualquer modifi-
cação nos valores, consequentemente, vai alterar a média.
• A soma das diferenças dos valores observados com relação à média é zero,
ou seja:

 ( xi  x )  0

78 Estatística Descritiva: Medidas de Posição


Mediana

Em nosso estudo sobre média, observamos que ela é sensível a qualquer valor que
seja discrepante no conjunto de dados (ou também denominado de outlier). Logo,
nestes casos, a mediana pode ser utilizada e corresponde ao valor central ou à média
aritmética dos valores centrais de um conjunto de observações, organizados em rol,
seja em ordem crescente ou decrescente.
Neste estudo, iremos denotar a mediana por x .

“Um valor discrepante (outlier) é uma entrada de dados que está muito afastada
das outras entradas em um conjunto de dados”.
Fonte: Larson e Farber (2010, p. 58).

Para encontrarmos a mediana de um conjunto de dados, primeiramente, devemos


ordenar os valores em rol. Na sequência, devemos verificar se a contagem de dados
resulta em um valor par ou ímpar:
• Se o número de valores for par, a mediana será encontrada por meio do cál-

 n   n   1
culo da média dos dois números centrais, ou seja, x       1    ;
 2   2   2

• Se o número de valores for ímpar, a mediana será o número localizado exata-

n 1
mente no centro da lista, ou seja, x  .
2

Em que a mediana encontra-se denotada por x , e n representa o número de ob-


servações da amostra.

Tenha sua dose extra de conhecimento assistindo ao vídeo.


Para acessar, use seu leitor de QR Code.

UNIDADE 3 79
4 EXEMPLO Considerando os dados do Exemplo 1, sobre a idade dos alunos do segundo período
de Engenharia e dispondo-os em ordem crescente, obtemos o seguinte conjunto de
dados:

20 20 20 21 21 21 22 22 23 23 24 24 25 26

Logo, considerando que o número de observações é 14 (um número par) e que os


dois números centrais se encontram nas posições 7 e 8, calculando a média entre
ambos, teremos que a mediana será:

22  22
x 
2
 22

5 EXEMPLO Considere o seguinte conjunto de dados sobre as temperaturas diárias (ºC) registradas
ao longo de uma semana, dispostos em ordem crescente.

22,5 24 25 27 27,5 28 32

Logo, considerando que o número de observações é 7 (um número ímpar), temos


que a mediana encontra-se na 4ª posição, ou seja, é igual a 27.
Assim, mediana será o valor central de 27 ºC.
Para dados de distribuição de frequências em classes, podemos determinar a
mediana por meio da seguinte fórmula:

n 
  f AC Md 1   h
2
x  lMd  
f Md

Em que:
lMd é o limite inferior da classe Md.
n é o tamanho da amostra.
h é a amplitude da classe.
f Md é a frequência absoluta da classe Md.
f ACMd −1 é a frequência acumulada da classe anterior à Md.

80 Estatística Descritiva: Medidas de Posição


6 EXEMPLO Considerando a distribuição de frequências ilustrada na Tabela 3, sobre a idade das
pessoas que estavam na missa de domingo, podemos determinar a mediana por meio
da fórmula apresentada anteriormente.
Tabela 3 - Distribuição de frequência da idade das pessoas que estavam na missa de domingo

Idade das pessoas Frequência absoluta Frequência acumulada

35 − 45 5 5

45 − 55 12 17

55 − 65 18 35

65 − 75 14 49

75 − 85 6 55

85 − 95 3 58

Fonte: a autora.

n
Para o cálculo da mediana, temos que n = 58 , logo = 29 . Assim, temos que a classe
2
Md é a terceira.
Aplicando os dados na fórmula, teremos que a mediana será:

 58 
  17   10
2
x  55   
18
(29  17)  10
 55 
18
120
 55 
18
 61,667

Isso significa que 50% das pessoas que estavam na missa possuem idades abaixo de
61 anos.

UNIDADE 3 81
Moda

Chamamos de moda aquele valor que aparece com maior frequência no conjunto
de dados. A moda, neste estudo, será denotada pelo símbolo x .
É importante destacar que, quando dois valores aparecem com a mesma maior
frequência, cada um é uma moda, assim, dizemos que o conjunto de dados é bimodal.
Quando mais de dois valores ocorrem com a mesma maior frequência, cada um é
uma moda e o conjunto de dados é dito multimodal.
Quando, no conjunto de dados, nenhum valor se repete, dizemos que não há
moda ou que o conjunto é amodal.

7 EXEMPLO Considerando os dados do Exemplo 1, sobre a idade dos alunos do segundo período
de Engenharia, temos que as idades 20 e 21 anos são, ambas, modas, porque ocorrem
com a mesma maior frequência.

8 EXEMPLO Considere o seguinte conjunto de dados sobre o peso de moedas (g) de 50 centavos:

9,0 9,1 8,9 9,2 9,1 9,3 9,3 9,4 8,8 9,3
9,3 9,6 8,6 8,8 9,3 9,1 9,0 9,3 9,3 9,3

Ordenando os dados em rol, temos:

8,6 8,8 8,8 8,9 9,0 9,0 9,1 9,1 9,1 9,2
9,3 9,3 9,3 9,3 9,3 9,3 9,3 9,3 9,4 9,6

Logo, a moda é 9,3 porque é o valor que aparece com maior frequência.
Além disso, dentre as medidas de centro estudadas até o momento, a moda é a
única que se aplica a valores qualitativos. Observe o Exemplo 9.

9 EXEMPLO Uma pesquisa buscou identificar qual era o sabor preferido de sorvete pelas crianças;
para isso, foram entrevistadas 18 crianças.
Os resultados foram: 7 votos para morango, 4 votos para chocolate, 3 votos para
creme, 3 votos para milho e 1 voto para limão.
Assim, a partir da pesquisa, podemos inferir que a moda é morango, por ter apre-
sentado mais votos de preferência.
Neste caso, não poderíamos calcular média ou mediana, pois as entradas não são
numéricas.

82 Estatística Descritiva: Medidas de Posição


A média é preferível às demais medidas de tendência central, quando tratamos
de muitas classes de populações, uma vez que há menos variabilidade entre as
médias calculadas a partir de várias amostras aleatórias do que entre as medianas
e as modas.
Fonte: adaptado de Toledo e Ovalle (1985).

Para identificarmos a moda quando os dados se encontram agrupados em classes,


primeiramente, devemos identificar a classe modal que apresenta a maior frequência
e, na sequência, calculamos a moda da seguinte forma:

x^  lMo 
 f Mo - f Mo-1   h
( f Mo - f Mo-1 )  ( f Mo - f Mo1 )

Em que:
lMo é o limite inferior da classe Mo.
h é a amplitude da classe Mo.
f Mo−1 é a frequência absoluta da classe anterior à Mo.
f Mo é a frequência absoluta da classe Mo.
f Mo+1 é a frequência absoluta da classe posterior Mo.

10 EXEMPLO Considerando a distribuição de frequências ilustrada na Tabela 4, sobre a concen-


tração de oxigênio encontrada em rios, podemos determinar a moda por meio da
fórmula apresentada anteriormente.
Tabela 4 - Distribuição de frequências da concentração de oxigênio encontrada em rios

Oxigênio (mg/L) Frequência absoluta

0, 5 − 0, 8 4

0, 8 − 1,1 4

1, 1 − 1, 4 7

1, 4 − 1, 7 1

Fonte: a autora.

Por meio dos dados apresentados na Tabela 4, temos que a classe Mo é a terceira.

UNIDADE 3 83
Aplicando os dados na fórmula, a moda será:

x^ = 1, 1 +
( 7 − 4 ) ⋅ 0, 3
( 7 − 4 ) + (7 − 1)
3 ⋅ 0, 3
= 1, 1 +
3+6
0, 9
= 1, 1 +
9
= 1, 2

No MS EXCEL, as medidas de centro de um conjunto de dados podem ser calculadas


a partir dos seguintes comandos:
Média aritmética: =MÉDIA(conjunto de dados)
Mediana: =MED(conjunto de dados)
Moda: =MODO(conjunto de dados)

Segundo Castanheira (2018), quando conhecemos a média e a mediana de uma série,


é possível determinar a moda a partir da fórmula de Pearson:

x^ = 3 ⋅ x − 2 ⋅ x

Atenção! Esta fórmula nos dá um valor aproximado da moda, e só deve ser utilizada
quando a distribuição de frequências apresenta simetria com relação à média.

84 Estatística Descritiva: Medidas de Posição


Medidas
Separatrizes

Separatrizes dizem respeito às medidas de posi-


ção que dividem o conjunto de dados ordenados
em partes proporcionais. Anteriormente, vimos
que a mediana dividia a distribuição em duas
partes iguais, quanto ao número de elementos
de cada parte.
Neste tópico, veremos as principais medidas
separatrizes, a saber: quartis, decis e percentis.

Quartis

Quartis correspondem aos valores que dividem


um conjunto de dados em quatro partes iguais.
Podem ser obtidos, conforme o Quadro 1:
Quadro 1 - Quartis

1º Quartil (Q1) P = 0,25•(n+1)

2º Quartil (Q2) P = 0,50•(n+1)

3º Quartil (Q3) P = 0,75•(n+1)

Fonte: a autora.

UNIDADE 3 85
Logo, temos que:
• 1º Quartil ( Q1 ): valor que possui 25% dos dados à esquerda e 75% à direita.
• 2º Quartil ( Q2 ): valor que possui 50% dos dados à esquerda e 50% à direita.
• 3º Quartil ( Q3 ): valor que possui 75% dos dados à esquerda e 25% à direita.

A partir da determinação dos quartis de um conjunto de dados, também é possível


encontrar a amplitude interquartil.
Por definição, a amplitude interquartil ( IQR ) de um conjunto de dados diz
respeito à diferença entre o terceiro quartil ( Q3 ) e o primeiro quartil ( Q1 ), ou seja:

IQR  Q3  Q1

Atente-se que o IQR é uma medida de variação que nos dá uma ideia de quanto
50% dos dados varia. Além disso, segundo Larson e Farber (2010), em um conjunto
de dados, qualquer valor que seja maior que 1, 5 IQRs à esquerda de Q1 ou à direi-
ta de Q3 é considerado um valor discrepante.

11 EXEMPLO Determine a amplitude interquartil do conjunto de dados para o consumo de energia


elétrica(kw/hora) por um grupo de usuários:

25 45 5 30 23 65 47 89 72 71 85 42 45 63 81

Organizando os dados de consumo em rol, temos:

5 23 25 30 42 45 45 47 63 65 71 72 81 85 89

Como n = 15 , o primeiro quartil ( Q1 ) encontra-se na posição 4, pois:

P  0, 25  (15  1)  0, 25  16  4

Ou seja, Q1 = 30
O terceiro quartil ( Q3 ) encontra-se na posição 12, pois:

P  0, 75  (15  1)  0, 75  16  12

Ou seja, Q3 = 72
Assim, podemos calcular a amplitude interquartil, que será:

IQR  72  30
 42

86 Estatística Descritiva: Medidas de Posição


Decis

Decis correspondem aos valores que dividem um conjunto de dados em dez partes
iguais. Podem ser obtidos, conforme o Quadro 2:
Quadro 2 - Decis

1º Decil (D1) P = 0,10•(n+1)

2º Decil (D2) P = 0,20•(n+1)

3º Decil (D3) P = 0,30•(n+1)

4º Decil (D4) P = 0,40•(n+1)

5º Decil (D5) P = 0,50•(n+1)

6º Decil (D6) P = 0,60•(n+1)

7º Decil (D7) P = 0,70•(n+1)

8º Decil (D8) P = 0,80•(n+1)

9º Decil (D9) P = 0,90•(n+1)

Fonte: a autora.

Logo, temos que:


• 1º Decil (D1): valor que possui 10% dos dados à esquerda e 90% à direita.
• 2º Decil (D2): valor que possui 20% dos dados à esquerda e 80% à direita.
• 3º Decil (D3): valor que possui 30% dos dados à esquerda e 70% à direita.
• 4º Decil (D4): valor que possui 40% dos dados à esquerda e 60% à direita.
• 5º Decil (D5): valor que possui 50% dos dados à esquerda e 50% à direita.
• 6º Decil (D6): valor que possui 60% dos dados à esquerda e 40% à direita.
• 7º Decil (D7): valor que possui 70% dos dados à esquerda e 30% à direita.
• 8º Decil (D8): valor que possui 80% dos dados à esquerda e 20% à direita.
• 9º Decil (D9): valor que possui 90% dos dados à esquerda e 10% à direita.

Percentis

Percentis correspondem aos noventa e nove valores que dividem um conjunto de


dados em cem partes iguais. Logo, seu cálculo relaciona-se com percentagem, e alguns
dos principais percentis encontram-se ilustrados no Quadro 3.

UNIDADE 3 87
Atente-se que, na estatística, muitas vezes, os percentis são utilizados para iden-
tificar valores que sejam excepcionalmente baixos ou altos, dentro de um conjunto
de dados, como nas notas de provas ou nas medidas de crescimento de crianças
(LARSON; FARBER, 2010).
Quadro 3 - Percentis

1º Percentil (P1) P = 0,01•(n+1)

5º Percentil (P5) P = 0,05•(n+1)

10º Percentil (P10) P = 0,10•(n+1)

20º Percentil (P20) P = 0,20•(n+1)

30º Percentil (P30) P = 0,30•(n+1)

40º Percentil (P40) P = 0,40•(n+1)

50º Percentil (P50) P = 0,50•(n+1)

60º Percentil (P60) P = 0,60•(n+1)

70º Percentil (P70) P = 0,70•(n+1)

80º Percentil (P80) P = 0,80•(n+1)

90º Percentil (P90) P = 0,90•(n+1)

99º Percentil (P99) P = 0,99•(n+1)

Fonte: a autora.

Atente-se que para dados em rol, o cálculo das medidas separatrizes é dado por:
Sk  xl p  Fp ( xl p 1  xl p )

Em que l p é a parte inteira de P e Fp é a parte fracionária (ou decimal).

O segundo quartil (Q2) é igual ao quinto decil (D5), que é igual ao quinquagésimo
percentil (P50) que, por sua vez, é igual a mediana do conjunto de dados.

88 Estatística Descritiva: Medidas de Posição


12 EXEMPLO Calcule o 3º quartil para os dados da idade de um grupo de pessoas:

18 19 20 21 21 22 24 24 25 27 30 33 38

Para o 3º quartil ( Q3 ), temos que:


P  0, 75  (n  1)
 0, 75  (13  1)
 10, 5
Como a posição do Q3 é decimal, devemos encontrar o valor correspondente à
posição da parte inteira e aquela imediatamente posterior a ela:
10ª posição: 27
11ª posição: 30
A diferença entre os valores é dada por:

30  27  3

Assim, o quartil será o menor valor somado ao produto da parte decimal pela dife-
rença encontrada:

Q3  27  (0, 5  3)
 27  1, 5
 28, 5

Dessa forma, podemos concluir que 75% dos indivíduos possuem idade inferior a
28,5 anos.
Por sua vez, quando temos distribuição de frequências em classes, o cálculo das
separatrizes é feito por meio da seguinte fórmula:
p  fACi −1 )  h
Sk  li 
fi
Em que:
li é o limite inferior.
h é a amplitude da classe da separatriz.
fi é a frequência absoluta da classe da separatriz.
f ACi−1 é a frequência acumulada da classe anterior à da separatriz.
n
p   k , com k = 1, 2, 3 para determinação dos quartis.
4
n
p   k , com k = 1, 2, , 9 para determinação dos decis.
10
n
p  k , com k = 1, 2, , 99 para determinação dos percentis.
100

UNIDADE 3 89
13 EXEMPLO Considere a distribuição de frequências para a idade de um grupo de indivíduos,
disposta na Tabela 5, e determine o 72º percentil.
Tabela 5 - Distribuição de frequências para a idade de um grupo de indivíduos
Idade dos indivíduos (anos) Frequência absoluta ( fi ) Frequência acumulada ( fAC )

4 −9 8 8

9 −1 4 12 20

14 − 19 17 37

19 − 24 3 40

Fonte: a autora.

Por definição, temos que:

40
P  72  0, 4  72  28, 8
100

Logo, o 72 percentil encontra-se na classe 3:

P72  14 
 28, 8  20   5  14  2, 59  16, 59
17

Assim, podemos concluir que 72% do grupo de indivíduos possui idade inferior a
16,59 anos.

No MS EXCEL, as separatrizes de um conjunto de dados podem ser calculadas a


partir dos seguintes comandos:
Quartil: em que N corresponde ao quarto que se deseja calcular.
=QUARTIL(conjunto de dados;N)
Percentil: em que N é um número entre 0 a 1.
=PERCENTIL(conjunto de dados;N)

Assim, finalizamos o estudo sobre as medidas de posição, em que pudemos estudar


as medidas de tendência central: média, mediana e moda; e, também, as separatrizes:
quartis, decis e percentis. Na Unidade 4, vamos estudar as medidas de variação, de
assimetria e de curtose.

90 Estatística Descritiva: Medidas de Posição


Você pode utilizar seu diário de bordo para a resolução.

1. Considere o seguinte conjunto de dados para a idade (anos) das pessoas que
frequentaram um show de rock:

30 20 25 26 32 28 37 25 26
22 24 39 47 24 25 21 24 24
31 32 24 29 28 24 24 23 21

Considerando os dados, determine:


a) Média aritmética.
b) Mediana.
c) Moda.

2. Determine o 7º decil para a seguinte distribuição de frequências:

Classes Frequência absoluta Frequência acumulada

0,5 − 0,8 4 4

0,8 − 11
, 4 8

11
, − 1, 4 7 15

1,4 − 17
, 1 16

91
3. Assinale a alternativa que contenha o trigésimo percentil ( P30 ) para a distribui-
ção de frequências:

Classes Frequência absoluta Frequência acumulada

5 −2 5 4 4

25 − 45 6 10

45 − 65 14 24

65 − 85 26 50

85 − 105 14 64

105 − 125 8 72

125 − 145 6 78

145 − 165 2 80

a) 25.
b) 40.
c) 45.
d) 65.
e) 80.

92
LIVRO

Introdução à estatística
Autor: Mario F. Triola
Editora: LTC
Sinopse: um livro introdutório de estatística que inclui um estilo de escrita
amigável, conteúdo que reflete as características importantes de um curso
introdutório moderno de estatística, o uso da tecnologia computacional mais
recente, de conjuntos de dados interessantes e reais, e abundância de compo-
nentes pedagógicos. O CD-ROM inclui os conjuntos de dados do Apêndice B do
livro. Esses conjuntos de dados encontram-se armazenados em formato texto,
planilhas do Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83.
Inclui também programas para a calculadora gráfica TI-83 Plus®, o Programa
Estatístico STATDISK (Versão 9.1) e um suplemento do Excel, desenvolvido para
aumentar os recursos dos programas estatísticos do Excel.

WEB

Você pode acessar o minicurso: Utilizando Estatística no Excel – versão 2007,


por meio do link: https://pt.scribd.com/doc/58489482/estatistica-no-excel
Para acessar, use seu leitor de QR Code.

93
CARNIEL, I. G. Estatística. Maringá: Centro Universitário de Maringá, 2014.
CATANHEIRA, N. P. Estatística aplicada a todos os níveis. 2. ed. Curitiba: InterSaberes, 2018.
LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010.
TOLEDO, G. L.; OVALLE, I. I. Estatística básica. 2. ed. São Paulo: Atlas, 1985.
TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

94
1. Considerando o conjunto de dados sobre a idade das pessoas que frequentaram um show de rock, temos
que:

Média aritmética: 27,22

Mediana: 25

Moda: 24

2. Para encontrarmos D7 fazemos:

16
P  7  11, 2
10
Logo, D7 encontra-se na terceira classe:

(11, 2  8)  0, 3
D7  1, 1   1, 24
7

3. D.

Para encontrarmos P30 fazemos:

80
P  30  24
100
Logo, P30 encontra-se na terceira classe:

(24  10)  20
P30  45   65
14

95
96
Me. Rebecca Manesco Paixão

Estatística Descritiva:
Medidas de Variação, de
Assimetria e de Curtose

PLANO DE ESTUDOS

Medidas de Variação Relativa

Medidas de Variação Medidas de Assimetria


e de Curtose

OBJETIVOS DE APRENDIZAGEM

• Estudar as medidas de variação: amplitude total, desvio • Compreender medidas de variação relativa: coeficiente
médio, variância e desvio padrão. de variação e escore z.
• Estudar medidas de assimetria e de curtose.
Medidas
de Variação

Caro(a) aluno(a), na presente unidade, estudare-


mos as medidas de variação, que nos ajudarão a
verificar o quanto os dados variam entre si, ou seja,
o quanto os valores encontram-se afastados com
relação à média ou à mediana. Logo, poderemos
dizer se um conjunto de dados é homogêneo ou
heterogêneo.
Além disso, as medidas de variação (ou tam-
bém denominadas de medidas de dispersão) se-
rão úteis para nos indicar se a medida de tendên-
cia central escolhida consegue representar bem
os dados trabalhados, seja a média, mediana ou
moda. Isso fica claro no Exemplo 1, observe.
1 EXEMPLO Considere o tempo (min) de espera para atendimento dos 5 primeiros clientes, pelo
gerente de três bancos diferentes:

banco A  20, 20, 20, 20, 20

banco B  15, 19, 21, 22, 23

banco C  5, 7, 18, 30, 40

Se calcularmos a média do tempo de espera nos bancos A, B e C, obteremos o valor


de 20 minutos, ou seja, a média é a mesma para os três bancos.
No entanto, podemos inferir que, para o grupo A, a distribuição dos dados é ho-
mogênea; o que não acontece para o grupo B e nem para o grupo C. Neste último,
temos uma grande variabilidade de tempo.
A variabilidade de tempo fica mais evidente por meio da representação gráfica
(Figura 1).

45
40
Tempo de espera (min)

35
30
25
20
15
10
5
0
1 2 3 4 5
Cliente
A B C

Figura 1 - Tempo de espera (min) para atendimento dos clientes pelos gerentes dos bancos A, B e C
Fonte: a autora.

As medidas de variação que nos interessam, neste estudo, são: amplitude total, desvio
médio, variância e desvio padrão.

UNIDADE 4 99
Amplitude Total

Em um conjunto de dados, a amplitude total ( AT ) diz respeito à diferença entre o


maior e o menor valor observado, ou seja:

AT  xmax  xmin

Em que:
xmax é o maior valor do conjunto de dados.
xmin é o menor valor do conjunto de dados.

É importante destacar que, em um conjunto de dados, com valores discrepantes, a


amplitude total é altamente influenciada, uma vez que, em seu cálculo, consideramos
apenas duas observações.

2 EXEMPLO Calcule a amplitude total para os dados apresentados no Exemplo 1, sobre o tempo
de espera para atendimento nos bancos A, B e C.
Para o banco A, temos que:

ATA  20  20  0

Para o banco B, temos que:

ATB  23  15  8

Para o banco C, temos que:

ATC  40  5  35

Também é possível calcular a amplitude total de dados dispostos em uma tabela de


frequências. Para isto, existem duas formas (TOLEDO; OVALLE, 1985):
1. AT = ponto médio da última classe - ponto médio da primeira classe
2. AT = limite superior da última classe - limite inferior da prrimeira classe

100 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


3 EXEMPLO Considerando a distribuição de frequências para o tempo de produção de um de-
terminado produto:
Tabela 1 - Distribuição de frequências para o tempo de produção de um determinado produto

Tempo de produção (min) Ponto médio Frequência absoluta


10 20 15 5

20 −30 25 12
30 −40 35 20
40 −50 45 14
50 −60 55 10
60 −70 65 4

Fonte: a autora.

Podemos calcular a amplitude total pelo primeiro método, considerando os pontos


médios da última e da primeira classe:

AT  65  15  50

ou, também, podemos calcular a amplitude total pelo segundo método, considerando
o limite superior da última classe e o limite inferior da primeira classe. Assim:

AT  70  10  60

Desvio Médio

O desvio médio é igual à média aritmética dos valores absolutos dos desvios toma-
dos em relação à média. Para dados brutos, temos que o desvio médio, com relação
à média, é calculado por:
n
 xi  x
i 1
DM 
n

Atente-se que, na fórmula, tomamos o módulo, ou seja, o valor absoluto.

UNIDADE 4 101
4 EXEMPLO Considerando o seguinte conjunto de dados sobre o tempo gasto (min) para a exe-
cução de uma determinada tarefa:

17 18 19 20 21 22 23

Temos que a média aritmética será dada por:

17  18  19  20  21  22  23
x
7
140

7
 20

Logo, no cálculo do desvio médio, teremos:


xi xi  x xi  x
17 17­­–20=–3 3
18 18–20=–2 2
19 19–20=–1 1
20 20–20=0 0
21 21–20=1 1
22 22–20=2 2
23 23–20=3 3

xi x 12

12
DM =
7
= 1, 714

Assim, o desvio médio é de 1,714.


O desvio médio também pode ser calculado para dados em distribuição de fre-
quências, por meio da seguinte fórmula:

n
 x j  x f j
j 1
DM 
n

Em que x j é o ponto médio de classe e f j é a frequência da classe.

102 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


5 EXEMPLO Considerando os dados do Exemplo 3, apresentados na Tabela 1, sobre o tempo de
produção de um determinado produto, temos que a média é dada por:

(15  5)  (25  12)  (35  20)  (45  14)  (55  10)  (65  4)
x
5  12  20  14  10  4
75  300  700  630  550  260

65
2515

65
 38, 69

Logo, o desvio médio para os dados será:


xj fj xj  x xj  x xj x fj
15 5 15-38,69=-23,69 23,69 23,69•5=118,45
25 12 25-38,69=-13,69 13,69 13,69•12=164,28
35 20 35-38,69=-3,69 3,69 3,69•20=73,8
45 14 45-38,69=6,31 6,31 6,31•14=88,34
55 10 55-38,69=16,31 16,31 16,31•10=163,1
65 4 65-38,69=26,31 26,31 26,31•4=105,24

xj x fj 713,26

713, 26
DM =
65
= 10, 97

Assim, o desvio médio é de 10,97.

Variância

A variância é uma medida de variação que considera todos os valores dos dados no
cálculo, a partir do quadrado dos desvios em relação à média aritmética dos dados.
A variância para uma população é dada por:
N
 ( xi  µ)2
σ2  i 1
N

UNIDADE 4 103
Por sua vez, a variância para uma amostra é dada por:
N
 ( xi  x )2
s2  i 1
n 1

Atente-se que, no caso da variância da amostra, no denominador, temos (n −1) , o


que significa que a variância da amostra fornece uma estimativa não induzida da
variância da população (CARNIEL, 2014).

6 EXEMPLO Calcule a variância para os dados referentes à expectativa de vida de 5 cachorros:

5 7 8 10 10

Primeiramente, precisamos calcular a média aritmética:


5  7  8  10  10
x
5
40

5
8
Logo, podemos calcular a variância:

xi xi  x xi x
2

5 5-8=-3 (-3)2=9
7 7-8=-1 (-1)2=1
8 8-8=0 0
10 10-8=2 (2)2=4
10 10-8=2 (2)2=4
2
xi x 18

18
s2 =
4
= 4, 5
Portanto, a variância dos dados é 4,5 anos2.
A partir do Exemplo 6, notamos que a unidade de variância é dada em unidades
quadráticas, sendo a mesma da característica avaliada; no caso, em anos2. Isso acaba
por dificultar a interpretação da variância, de forma que o problema é resolvido por
meio da extração da raiz quadrada, resultando no que chamamos de desvio padrão.

104 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


Desvio Padrão

O desvio padrão nos dá a ideia da distribuição dos desvios em torno da média. Como
dito anteriormente, ele é obtido a partir da raiz quadrada do resultado da variância.
Assim, o desvio padrão da população é dado por:

N
 ( xi  µ)2
i 1
σ
N

Já o desvio padrão da amostra é dado por:

N
 ( xi  x )2
i 1
s
n 1

É possível inferirmos algumas observações sobre o desvio padrão (TRIOLA, 2008):


• Normalmente, o desvio padrão é positivo. Poderá ser zero quando todos os
valores dos dados são os mesmos, e nunca é negativo.
• O valor do desvio padrão pode crescer drasticamente a partir da inclusão de
um ou mais valores discrepantes.
• As unidades do desvio padrão são as mesmas dos dados originais.

7 EXEMPLO Considerando os dados da expectativa de vida de um grupo de cachorros, abordada


no Exemplo 6, temos que o desvio padrão será:

=s s2
= 4, 5 = 2, 12

Portanto, o desvio padrão é 2,12 anos. Isso significa que a dispersão média entre a
idade dos cachorros é de 2,12 anos.
Também é possível calcularmos o desvio padrão para dados tabelados. Para tanto,
fazemos o uso da seguinte fórmula:

s
 ( x j  x )2  f j
n 1

UNIDADE 4 105
8 EXEMPLO Considerando a distribuição de frequências para o consumo de energia elétrica (kwh):
Tabela 2 - Distribuição de frequências para o consumo de energia

Consumo (kwh) Ponto médio Frequência

5 −2 5 15 4

25 − 45 35 6

45 − 65 55 14

65 − 85 75 26

85 − 105 95 10

Fonte: a autora.

A média é:
(15  4)  (35  6)  (55  14)  (75  26)  (95  10)
x
4  6  14  26  10
60  210  770  1950  950

60
3940

60
 65, 67
Logo, podemos calcular o desvio padrão da seguinte forma:
(x j  x ) ( x j  x )2 (x j x )2 f j
15-65,67=-50,67 (-50,67)2=2567,11 2567,11•4=10268,44
35-65,67=-30,67 (-30,67)2=940,44 940,44•6=5642,67
55-65,67=-10,67 (-10,67) =113,78
2
113,78•14=1592,89
75-65,67=-9,33 (9,33)2=87,11 87,11•26=2264,89
95-65,67=-29,33 (29,33)2=860,44 860,44•10=8604,44

(x j x )2 f j 28373, 33

28373, 33
s
59
 480, 90
 21, 93

106 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


Interpretação e compreensão do desvio padrão

Para estimativa “grosseira” do desvio padrão de um conjunto de dados amostrais


conhecidos, podemos utilizar a seguinte fórmula:

AT
s≈
4

Em que AT diz respeito à amplitude dos dados.


Além disso, segundo Triola (2008), há uma regra útil na interpretação dos valo-
res do desvio padrão para dados com uma distribuição em forma de sino. A regra
empírica (também conhecida por regra 68 – 95 - 99,7) estabelece que são aplicadas
as seguintes propriedades:
• Aproximadamente 68% dos valores ficam a 1 desvio padrão da média.
• Aproximadamente 95% dos valores ficam a 2 desvios padrão da média.
• Aproximadamente 99,7% dos valores ficam a 3 desvios padrão da média.

Esta regra empírica, para a distribuição em forma de sino, encontra-se ilustrada na


Figura 2, observe.

99,7% com
3 desvios padrão

95% com
2 desvios padrão
68% com
1 desvio padrão

34% 34%
2,35% 2,35%
13,5% 13,5%

x– – 3s x– – 2s x– – s x– x– + s x– + 2s x– + 3s
Figura 2 - Distribuição em forma de sino
Fonte: Bonafini (2012, p. 32).

UNIDADE 4 107
Ainda, há um terceiro conceito útil na interpreta-
ção do valor de um desvio padrão, que é o Teore-
ma de Chebyshev, em homenagem ao estatístico
russo Pafnuti Chebychev (1821 – 1894), que se
aplica a qualquer conjunto de dados do qual não
conhecemos o modelo de distribuição (TRIOLA,
2008; BONAFINI, 2012).
O referido Teorema nos diz que a proporção
de qualquer conjunto de dados que se situa a K
desvios padrões da média é sempre, no mínimo,
1 − 1 / K 2 , em que K > 1 . Para K = 2 e K = 3 ,
respectivamente, temos que:
• Pelo menos 75% de todos os valores se lo-
calizam a 2 desvios padrões da média.
• Pelo menos 89% de todos os valores se lo-
calizam a 3 desvios padrões da média.

108 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


Medidas de
Variação Relativa

Anteriormente, estudamos medidas absolutas de


variação. Agora, neste item, estudaremos medidas
relativas de dispersão: coeficiente de variação e
escore z .

Coeficiente de Variação

O coeficiente de variação ( CV ) descreve o des-


vio padrão relativo à média, e é expresso como
um percentual.
Para a população, temos que:
σ
CV   100%
µ
Para a amostra, temos que:
s
CV  100%
x
Podemos utilizar algumas regras empíricas para
interpretação do coeficiente de variação (MAR-
TINS, 2010):
• Há baixa dispersão quando CV < 15% .
• Há média dispersão quando
15%  CV  30% .
• Há elevada dispersão quando CV ≥ 30% .

UNIDADE 4 109
9 EXEMPLO Considerando o seguinte conjunto de dados para o peso (kg) de homens:

73 73 74 77 77 84 87 88 88 91

Temos que a média é:

73  73  74  77  77  84  87  88  88  91
x
10
812

10
 81, 2

E que o desvio padrão é:

xi xi  x xi x
2

73 73-81,2=-8,2 (-8,2)2=67,24
73 73-81,2=-8,2 (-8,2)2=67,24
74 74-81,2=-7,2 (-7,2)2=51,84
77 77-81,2=-4,2 (-4,2)2=17,64
77 77-81,2=-4,2 (-4,2)2=17,64
84 84-81,2=2,8 (2,8)2=7,84
87 87-81,2=-5,8 (5,8)2=33,64
88 88-81,2=6,8 (6,8)2=46,24
88 88-81,2=68 (6,8)2=46,24
91 91-81,2=9,8 (9,8)2=96,04
2
xi x 4516
,

451, 6
s=
9
= 50, 17
= 7, 08

Assim, o coeficiente de variação será:

7, 08
CV   100%  8, 72%
81, 2

110 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


Escore Z

Quando sabemos a média e o desvio padrão de um conjunto de dados, podemos


também determinar o escore z.
Um escore z (também conhecido por escore padronizado) diz respeito ao número
de desvios padrões a que se situa determinado valor x .

xµ
Para a população, o escore z é calculado por: z 
σ
xx
Para a amostra, o escore z é calculado por: z 
s

Valores não usuais tem escores z menores do que -2 ou maiores do que +2, ou
seja: escore z 2 ou escore z  2.

10 EXEMPLO Segundo Triola (2008), Lyndon Johnson foi o presidente mais alto do último século,
com altura de 215,9 cm. Os presidentes do século passado tinham alturas médias de
181,6 cm e desvio padrão de 5,34 cm.
Podemos calcular o escore z da seguinte forma:
215, 9 181, 6
z
5, 34
34, 6
5, 34
6, 42

Logo, a altura de Lyndon Johnson está 6,42 desvios padrões acima da média.
Podemos interpretar o escore z como uma medida de posição, de modo que
ele descreve a localização de um valor com relação à média. Logo, um escore z = 3
indica que um determinado valor encontra-se três desvios padrões acima da
média; enquanto que um escore z  3 indica que um valor está três desvios
padrões abaixo da média. Também podemos ter z = 0 , o que significa que o valor
x é igual a média.

UNIDADE 4 111
Medidas de Assimetria
e de Curtose

As medidas de assimetria e de curtose nos auxi-


liam a descrever e compreender as distribuições
de frequências.

Medidas de Assimetria

Segundo Triola (2008), fazendo-se uma com-


paração entre a média, mediana e moda de um
conjunto de dados, é possível revelar informações
sobre as características de simetria da distribuição.
Dizemos que uma distribuição de dados é as-
simétrica quando se estende mais para a esquerda
ou para a direita. Observe a Figura 3.
Média Moda Moda = Média = Mediana Moda Média
Mediana Mediana

(a) Assimétrica à Esquerda (b) Simétrica (c) Assimetria à Direita


(Negativamente Assimétrica): (Assimetria Zero): (Positivamente Assimétrica):
A média e a mediana estão à A média, mediana e moda A média e a mediana estão à
esquerda da moda. são iguais. direita da moda.

Figura 3 - Assimetria do conjunto de dados


Fonte: Triola (2008, p. 70).

A partir da Figura 3, podemos inferir que, quando os valores de média, mediana e


moda são iguais, teremos assimetria zero.
Quando a média e a mediana situam-se à esquerda da moda, temos uma assimetria
à esquerda. Por sua vez, quando a média e a mediana estão à direita da moda, temos
assimetria à direita.
Além disso, também podemos encontrar uma distribuição uniforme quando to-
das as entradas apresentam a mesma frequência. E, por definição, toda distribuição
uniforme é também simétrica.

11 EXEMPLO O gráfico apresentado, na Figura 4, sobre a quantidade de alunos nas turmas A, B, C,


D e E de uma escola, é simétrico, de modo que média, mediana e moda apresentam
o mesmo valor, no caso de 30.
35
30
30
Quantidade de alunos

25
20 20
20

15

10
10 10

0
a b c d e
Turmas
Figura 4 - Exemplo de distribuição de dados simétricos
Fonte: a autora.

É possível determinar a assimetria de uma distribuição, por meio do coeficiente de


assimetria de Pearson:
x − ^x
AS =
s

UNIDADE 4 113
A partir do resultado, podemos inferir que:
• Se AS < 0 a distribuição será assimétrica à esquerda.
• Se AS = 0 a distribuição será simétrica.
• Se AS > 0 a distribuição será assimétrica à direita.

Quando não for possível determinarmos o desvio padrão, podemos determinar a


assimetria por meio do coeficiente quartil de assimetria:

Q1  Q3  2 x
AS 
Q3  Q1

12 EXEMPLO Verifique o tipo de assimetria para a distribuição de frequências para a quantidade


de alunos por sala de aula de uma determinada escola:
Tabela 3 - Distribuição de frequências para a quantidade de alunos por sala de aula de uma deter-
minada escola

Classes Ponto médio Frequência

10 − 20 15 5

20 − 30 25 10

30 − 40 35 15

40 − 50 45 20

50 − 60 55 5

Fonte: a autora.

Para o cálculo da assimetria, precisamos encontrar a média, moda e o desvio padrão.


Temos que a média é:
(5  15)  (10  25)  (15  35)  (20  45)  (5  55)
x
5  10  15  20  5
75  250  525  900  275

55
2025

55
 36, 82

114 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


Temos que a moda é:

(20 − 15) ⋅ 10
x^ = 40 +
(20 − 15) + (20 − 5)
50
= 40 +
20
= 40 + 2, 5
= 42, 5

Podemos calcular o desvio padrão da seguinte forma:


(x j  x ) ( x j  x )2 (x j x )2 f j
15-36,82=-21,82 (-21,82)2=476,1 476,11•5=2380,55
25-36,82=-11,82 (-11,82) =139,71
2
139,71•10=1397,10
35-36,82=-1,82 (-1,82)2=3,31 3,31•15=49,65
45-36,82=-8,18 (8,18)2=66,91 66,91•20=1338,20
55-36,82=-18,18 (18,18)2=330,51 330,51•5=1652,55

(x j x )2 f j 6818, 05

6818, 05
s 
54
 126, 26
 11, 24

Logo, por meio do coeficiente de assimetria de Pearson, temos que:

36, 82 42, 50
AS
11, 24
5, 68
11, 24
0, 51

O valor obtido nos indica que a distribuição será assimétrica à esquerda.

UNIDADE 4 115
Medidas de Curtose

A medida de curtose nos indica até que ponto a curva de frequências de uma dis-
tribuição é mais achatada ou aguda do que uma curva-padrão, denominada de curva
normal. Podemos ter três tipos de curvas, de acordo com o grau de curtose:
• Curva mesocúrtica: quando a curva de frequências apresenta um grau de
achatamento equivalente ao da curva normal.
• Curva platicúrtica: quando a curva de frequências apresenta alto grau de
achatamento, superior ao da curva normal. Em curvas deste tipo, há várias
classes com frequências similares.
• Curva leptocúrtica: quando a curva de frequências apresenta alto grau de
afilamento, superior ao da curva normal. Neste tipo de curva, os valores en-
contram-se mais agrupados em torno da moda.

A Figura 5 ilustra os tipos de curvas, quanto ao grau de curtose.

LEPTOCÚRTICA

MESOCÚRTICA

PLATICÚRTICA

Figura 5 - Curva de frequências mesocúrtica, platicúrtica e leptocúrtica


Fonte: Lopes (2003, p. 47).

Para avaliarmos o grau de curtose de uma curva, podemos utilizar o coeficiente


percentífico de curtose, dado por:

Q3  Q1
k
2  ( P90  P10 )

A partir do resultado, podemos inferir que:


• Se k > 0, 263 a distribuição será platicúrtica.
• Se k = 0, 263 a distribuição será mesocúrtica.
• Se k < 0, 263 a distribuição será leptocúrtica.

116 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


Tenha sua dose extra de conhecimento assistindo ao vídeo.
Para acessar, use seu leitor de QR Code.

13 EXEMPLO Determine o coeficiente percentífico de curtose para a distribuição de frequências


para a quantidade de alunos por sala de aula de uma determinada escola, apresentada
no Exemplo 12.
Para o primeiro quartil, temos:
 1  55  
  5   10
 4 
Q1  20 
10
 20  (13, 75  5)
 20  8, 75
 28, 75

Para o terceiro quartil, temos que:

  3  55  
  30   10
4
Q3  40   
20
(41, 25  30)
 40 
2
11, 25
 40 
2
 40  5, 625
=45,625

Para o 10 percentil, temos que:

  55  
  100  10   5   10
  
P10  20  
10
 20  (5, 50  5)
 20  0,550
 20, 50

UNIDADE 4 117
Para o 90 percentil, temos que:

  55  
  100  90   30   10
 
P90  40   
20
(49, 5  30)
 40 
2
19, 50
 40 
2
 40  9, 75
 49, 75

Portanto, podemos calcular coeficiente percentífico de curtose da seguinte forma:

45, 625  28, 75


k
2   49, 75  20, 50 
16, 875

 2  29, 25
16, 875

58, 50
 0, 288
Logo, concluímos que a distribuição será platicúrtica.
Caro(a) aluno(a), assim, encerramos nossos estudos sobre as medidas de variação
absoluta e relativa, e também sobre as medidas de assimetria e de curtose.

118 Estatística Descritiva: Medidas de Variação, de Assimetria e de Curtose


Você pode utilizar seu diário de bordo para a resolução.

1. Considere a distribuição de frequências para o salário dos professores (ava-


liado em quantidade de salários mínimos) de uma rede particular de ensino e
determine o desvio padrão:
Quantidade de salários mínimos Frequência absoluta
1 −3 14

3 −5 25

5 −7 18

7 −9 9

9 −11 4

2. Em uma indústria, o salário médio dos homens é de R$ 4.000,00 com desvio pa-
drão de R$ 2.000,00, enquanto que o salário médio das mulheres é de R$ 3.500,00
com desvio padrão de R$ 1.700,00. Sabendo disso, avalie se a dispersão relativa
dos salários é maior para os homens ou para as mulheres.

3. Considerando que uma distribuição apresentou média igual a 18, moda igual a
20 e desvio padrão igual a 6, leia as afirmações que seguem:
I) O coeficiente de assimetria é 0,77.
II) O coeficiente de assimetria é -0,33.
III) A distribuição é assimétrica à esquerda.
IV) Nada podemos afirmar sobre a simetria dos dados.

Assinale a alternativa correta:

a) Apenas I e II estão corretas.


b) Apenas II e III estão corretas.
c) Apenas I está correta.
d) Apenas II, III e IV estão corretas.
e) Nenhuma das alternativas está correta.

119
LIVRO

Estatística Aplicada a Todos os Níveis


Autor: Nelson Pereira Castanheira
Editora: InterSaberes
Sinopse: esse livro traz ao leitor uma visão ampla a respeito da utilização da
estatística nas mais diversas áreas de atuação profissional e educativa. A obra
apresenta noções de técnicas de pesquisa, coleta de dados, cálculos e tabulação
de resultados. O grande diferencial do livro é sua proposta de conteúdo, que
visam a facilitar o aprendizado de alunos tanto do ensino presencial quanto a
distância.

120
BONAFINI, F. C. Estatística. São Paulo: Pearson Education do Brasil, 2012.

CARNIEL, I. G. Estatística. Maringá: Centro Universitário de Maringá, 2014.

LOPES, L. F. D. Apostila estatística. Santa Maria: UFSM, 2003. Disponível em: http://www.inf.ufsc.br/~vera.
carmo/LIVROS/LIVROS/Luis%20Felipe%20Dias%20Lopes.pdf. Acesso em: 19 set. 2019.

MARTINS, G. A. Estatística geral e aplicada. 3. ed. São Paulo: Editora Atlas, 2010.

TOLEDO, G. L.; OVALLE, I. I. Estatística básica. 2. ed. São Paulo: Atlas, 1985.

TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

121
1. A média é:

(2  14)  (4  25)  (6  18)  (8  9)  (10  4)


x
14  25  18  9  4
28  100  108  72  40

70
348

70
 4, 97

Logo, podemos calcular o desvio padrão da seguinte forma:

(x j  x ) ( x j  x )2 (x j x )2 f j

2-4,97=-2,97 (-2,97)2=8,82 8,82•14=123,48


4-4,97=-0,97 (-0,97)2=0,94 0,94•25=23,50
6-4,97=-1,03 (1,03) =1,06
2
1,06•18=19,08
8-4,97=-3,03 (3,03)2=9,18 9,18•9=82,62
10-4,97=-5,03 (5,03)2=25,30 25,03•4=100,12

(x j x )2 f j 348,80

348, 80
s=
69
= 5, 05
= 2, 25

Portanto, o desvio padrão é de 2,25 salários.

2. Para os homens, o coeficiente de variação é:


2000
CV   100%
4000
 0, 5  100%
 50%

122
Para as mulheres, o coeficiente de variação é:

1200
CV 100%
3800
0, 31 100%
31%

Logo, podemos concluir que os salários dos homens têm dispersão relativa maior do que o das mulheres.

3. A alternativa correta é a letra B.

Apenas as afirmações II e III estão corretas. Calculando o coeficiente de assimetria, temos que:

18  20
AS 
6
2

6
 0, 33

123
124
Me. Rebecca Manesco Paixão

Probabilidade

PLANO DE ESTUDOS

Operações com Eventos Contagem

Introdução à Probabilidade Probabilidade Condicional


e Independência Estatística

OBJETIVOS DE APRENDIZAGEM

• Introduzir probabilidade. • Estudar dependência e independência estatística e a mul-


• Estudar as operações que podem ser feitas com eventos. tiplicação de probabilidades.
• Estudar permutação e combinação.
Introdução à
Probabilidade

A palavra probabilidade vem do latim probare e


designa “eventos incertos”. A probabilidade é a base
na qual construímos métodos de inferência esta-
tística. Neste sentido, caro(a) aluno(a), na presente
unidade, vamos aprender como determinar a pro-
babilidade de um determinado evento ocorrer, de
modo que seus valores serão sempre atribuídos
em uma escala de 0 a 1 (ou, ainda, de 0 a 100%).
Um experimento de probabilidade é definido
como um processo ou uma ação, a partir do qual
resultados bem definidos são obtidos. O resul-
tado de um experimento é o resultado de uma
única tentativa.

Um experimento é dito aleatório quando “pode


fornecer diferentes resultados, muito embora
seja repetido toda vez da mesma maneira” (MON-
TGOMERY; RUGER, 2006, p. 11).
Fonte: adaptado de Montgomery e Ruger (2006).
Assim, denominamos de espaço amostral o conjunto de todos os resultados possí-
veis de um experimento. Neste estudo, o espaço amostral será representado pela letra
grega W (ômega).
É importante destacar que um espaço amostral pode ser discreto ou contínuo.
Um espaço amostral discreto consiste em um conjunto finito ou infinito contável
de resultados; já um espaço amostral contínuo apresenta um intervalo (finito ou
infinito) de números reais.
Além disso, o evento é um subgrupo do espaço amostral, podendo consistir em
um ou mais resultados. O evento é dito simples quando consistir em um único re-
sultado; já evento composto é aquele que consiste em mais de um resultado. Neste
estudo, o evento será representado por letras latinas maiúsculas, como A, B, C,

1 EXEMPLO Em um lançamento de moedas, os possíveis resultados são cara ou coroa. Logo, o


espaço amostral é:

W  k , c

Se, neste experimento, o evento de interesse A é obter coroa no lançamento da


moeda, então:

P( A)  c

De acordo com Triola (2008), existem diferentes formas de se definir a probabilidade


de um evento:
• Aproximação da probabilidade pela frequência relativa (método em-
pírico):

Nesta abordagem, realizamos (ou observamos) um experimento e contamos o nú-


mero de vezes que o evento A realmente ocorre. Assim, podemos determinar P(A) :

número de vezes em que ocorreu A


P( A) =
número de vezes que o proce dim ento foi repetido

Para exemplificar, se quisermos saber a probabilidade de um celular cair no chão com


a tela virada para baixo, devemos repetir o experimento várias vezes e, na sequência,
encontrar a razão entre o número de vezes que o evento ocorreu, pelo número de
vezes que o procedimento foi realizado.

UNIDADE 5 127
• Abordagem clássica da probabilidade (método clássico):
Nesta abordagem, supomos que um determinado experimento tenha n diferentes
eventos simples, e que cada um destes tenha igual chance de ocorrer. Se o evento A
pode ocorrer em s dessas n formas, então:

número de maneiras em que A pode ocorrer s


P( A) = =
número de diferentes eventos simples n

Para exemplificar, se quisermos saber a probabilidade de em um jogar de dados tirar


4, considerando que cada uma das 6 faces tem igual chance de ocorrer, temos que:

1
P(4) =
6

• Probabilidades subjetivas (método subjetivo):


Nesta abordagem, a estimativa da probabilidade do evento A é baseada no conhe-
cimento de circunstâncias relevantes.
Como exemplo, para determinar a probabilidade de chuva em um dia qualquer,
os meteorologistas utilizam-se de conhecimentos específicos para fazer tal previsão.

A lei dos grandes números afirma que quando um experimento é repetido por
diversas vezes, a probabilidade empírica de um evento ocorrer se aproxima de sua
probabilidade real.

2 EXEMPLO Qual a probabilidade dos filhos de um casal serem duas meninas e um menino?
Para resolvermos este exemplo, precisamos, primeiramente, identificar o espaço
amostral:
1 Menino Menino Menino
2 Menina Menina Menina
3 Menino Menino Menina
4 Menino Menina Menino
5 Menino Menina Menina

6 Menina Menina Menino


7 Menina Menino Menino
8 Menina Menino Menina

128 Probabilidade
Podemos inferir que das oito possibilidades diferentes, três delas correspondem a
duas meninas e um menino. Assim:

3
P( 2 meninas e 1 menino)= = 0, 375
8

Logo, a probabilidade dos filhos de um casal serem duas meninas e um menino é


de 37,5%.

3 EXEMPLO Uma revendedora online entrevistou 200 clientes para saber se eles estavam satis-
feitos com o tempo de entrega dos produtos. 150 clientes responderam que estavam
satisfeitos, enquanto 50 responderam que estavam insatisfeitos.
Qual a probabilidade de que o próximo cliente entrevistado esteja insatisfeito
com o tempo de entrega?
Temos que a frequência do evento “insatisfeito” é 50. Logo, a probabilidade empírica
do próximo cliente estar insatisfeito com o tempo de entrega é de:

50 1
P(insatisfeito
= ) = = 0, 25
200 4

Isto é, a probabilidade do próximo cliente estar insatisfeito com o tempo de entrega


é de 25%.
Caro(a) aluno(a), é possível estabelecermos algumas regras básicas para a pro-
babilidade:
• A probabilidade é um valor que varia entre 0 e 1. Isto é, 0 ≤ P(A) ≤ 1 .
• A probabilidade de um evento impossível é 0. Isto é, P()  0
• A probabilidade de um evento certo é 1. Isto é, P(W) = 1 .

UNIDADE 5 129
Operações
com Eventos

Em termos de eventos, é possível realizarmos al-


gumas operações básicas de conjuntos, tais como
união e interseção.
A união de dois eventos A e B consiste na
chance do evento A ou B ocorrer (ou ambos).
É denotado por A ∪ B .
A interseção de dois eventos A e B consiste
em todos os resultados que estão contidos nos
dois eventos, simultaneamente. É denotado por
A∩ B .
O complemento de um evento é o conjunto
de resultados do espaço amostral que não estão
no evento.

Regra da Adição
de Probabilidades

Na regra da adição, consideramos a ocorrência do


evento A ou a ocorrência do evento B ou, ainda,
de ambos os eventos. Matematicamente, é deno-
tada por P ( A ∪ B ) .

130 Probabilidade
Na teoria dos conjuntos, o símbolo U corresponde à união; na aritmética, corres-
ponde à soma; e na álgebra boolena, corresponde à disjunção “OU”.
Fonte: Castanheira (2018).

No cálculo da adição de probabilidades, podem surgir duas situações:


• Os eventos A e B são disjuntos, ou seja, não têm elementos em comum.
Neste caso,

P( A  B)  P( A)  P( B)

P (A) P (B)

Figura 1 - Diagrama de Venn para eventos que são disjuntos


Fonte: a autora.

• Os eventos A e B não são mutuamente excludentes, ou seja, têm elementos


em comum. Neste caso,
P( A  B)  P( A)  P( B)  P( A  B)

P (A) P (B)

P (A e B)

Figura 2 - Diagrama de Venn para eventos que não são disjuntos


Fonte: a autora.

UNIDADE 5 131
4 EXEMPLO Considerando W  1, 2, 3, 4, 5, 6 , A  2, 4, 6 e B  4, 5, 6

Temos que:

A  B  2, 4, 6  4, 5, 6
 2, 4, 5, 6

A  B  2, 4, 6  4, 5, 6
 4, 6

5 EXEMPLO Considerando que tenham sido lançadas duas moedas, e que sejam os eventos A
“saída de faces iguais” e B “saída de cara na primeira moeda”. Temos que:

A   k , k  ,  c, c 

B   k , c  ,  k , k 

P( A  B)   k , k 

P( A  B)   k , k  ,  c, c  ,  k , c 

Eventos Complementares

Sabendo que a soma das probabilidades de todos os resultados em um espaço amostral


é 1, é possível determinarmos a probabilidade de um evento complementar ocorrer.
Seja o evento A , o complementar A consiste em todos os resultados em que A
não ocorre, ou seja:

P ( A)  P( A)  1

P ( A)  1  P( A)

P( A)  1  P( A)

132 Probabilidade
6 EXEMPLO Na maternidade de um hospital, durante uma semana, nasceram 300 bebês: 180 me-
ninos e 120 meninas. Se um bebe for escolhido aleatoriamente, qual a probabilidade
de que não seja menino?
Temos que:
180
P(menino)=
300
= 0,6

Portanto,
P(menina) =1 -P (menino)
=1-0,6
=0,4

Dessa forma, podemos concluir que a probabilidade do bebê não ser menino é de 40%.

UNIDADE 5 133
Probabilidade Condicional
e Independência Estatística

Dizemos que dois eventos A e B são indepen-


dentes quando a ocorrência de um não afeta a
probabilidade de ocorrência do outro. Por sua vez,
os eventos A e B são ditos dependentes quan-
do não são independentes.
Normalmente, a probabilidade de um evento
é influenciada pela ocorrência de um evento pa-
ralelo. Assim, utilizamos a notação P( A B) para
representar a probabilidade do evento A ocorrer
depois do evento B ter ocorrido, ou seja, para
denotar a “probabilidade de A , dado B ”.
Para o cálculo de P( A B) , utilizamos a se-
guinte fórmula:

P( A  B) P  A  B 
P( A B)  
P( B) P( B)

134 Probabilidade
A partir desta relação, obtemos a regra formal da multiplicação de probabilidades:

P  A  B   P( B)  P( A B)

7 EXEMPLO Qual a probabilidade de, ao retirar uma carta de um baralho convencional, ser “uma
dama vermelha”, dado que a carta retirada foi uma “figura”?
Para encontrarmos a probabilidade desejada, precisamos fazer algumas consi-
derações:
• O baralho convencional possui 52 cartas; logo o espaço amostral é 52.
• O baralho convencional possui 12 figuras (valete, dama ou rei).

Sejam os eventos A= dama vermelha e B= figura , temos que:

2
P( A  B)  , uma vez que no baralho existem duas damas vermelhas, as quais
52

também são figuras


12
P ( B ) = , uma vez que 12 cartas do baralho são figuras
52
P( A  B)
P(A B) 
P( B)
2
 52
12
52
2

12
1

6
 0, 167

Logo, a probabilidade de uma dama vermelha condicionada à ocorrência de uma


figura é de 0,167.
Atente-se que se os eventos A e B forem independentes, a regra da multiplicação
pode ser simplificada e, assim:
P( A  B)  P( A  B)  P( A)  P( B)

UNIDADE 5 135
8 EXEMPLO Ao lançar simultaneamente um dado de seis faces e uma moeda, a probabilidade de
obter um “dois” e uma “cara” é de:
Para o dado, temos que W  1, 2, 3, 4, 5, 6 e que A  2
1
Logo, P(A) =
6
Para a moeda, temos que W  c, k  e que B  k 
1
Logo, P ( B ) =
2
Os eventos são independentes e, assim, a probabilidade será dada por:
P( A B) P( A B)
P( A) P( B)
1 1
6 2
1
12
0, 083

Portanto, a probabilidade de obter um “dois” no dado e uma “cara” no lançar da moeda


é de 0,083.
Também é possível utilizarmos diagramas de árvores para resolvermos pro-
blemas de probabilidade. Diagramas de árvores são úteis uma vez que ilustram os
possíveis resultados de um experimento, mostrados como segmentos de linha que
se originam de um ponto inicial. Observe os exemplos 9 e 10.

9 EXEMPLO Uma urna contém 5 bolas (2 vermelhas e 3 azuis). Sorteamos 2 bolas ao acaso sem
reposição, ou seja, sorteamos a primeira bola, verificamos sua cor e não a devolvemos
à urna; na sequência, sorteamos a segunda bola e verificamos sua cor.
A Figura 3 ilustra o diagrama de árvore para as probabilidades das cores das bolas
sorteadas sem reposição.

136 Probabilidade
1/4

2/5
3/4

2/4
3/5

2/4

Figura 3 - Diagrama de árvore para a retirada das bolas da urna sem reposição
Fonte: a autora.

Tabela 1 - Eventos e probabilidades para o experimento do Exemplo 9


Eventos Probabilidades
2 1 2
5 4 20
2 3 6
5 4 20

3 2 6
5 4 20
3 2 6
5 4 20

Fonte: a autora.

a) Qual a probabilidade de retirar primeiramente a bola vermelha e depois a


bola azul?
P(V  A)  P(V )  P( A)
2 3
 
5 4
6

20
 0, 3
Assim, a probabilidade de retirar primeiramente a bola vermelha e depois a bola
azul é de 0,3.

UNIDADE 5 137
b) Qual a probabilidade de retirar a bola ver-
melha na segunda extração?
2 6
P (VV )  P ( AV )  
20 20
8

20
 0, 4
Assim, a probabilidade de retirar a bola vermelha
na segunda extração é de 0,4.
Probabilidade: experimento aleatório

c) Qual a probabilidade de retirar a bola azul, dado que a primeira foi vermelha?

2 3
Temos que P (V ) = e que P ( A) =
5 4
3
P( A V ) =
4
= 0, 75

Assim, a probabilidade de retirar a bola azul, dado que a primeira foi vermelha é de 0,75.

Em experimentos com reposição, o elemento escolhido é devolvido para a população,


podendo ser escolhido novamente. Em experimentos sem reposição, o elemento
escolhido não é devolvido à população, logo, não pode ser escolhido novamente.

10 EXEMPLO Uma urna contém 5 bolas (2 vermelhas e 3 azuis). Sorteamos 2 bolas ao acaso com
reposição, ou seja, sorteamos a primeira bola, verificamos sua cor e a devolvemos à
urna; na sequência, sorteamos a segunda bola e verificamos sua cor.
A Figura 4 ilustra o diagrama de árvore para as probabilidades das cores das bolas
sorteadas com reposição.

138 Probabilidade
2/5

2/5
3/5

2/5
3/5

3/5

Figura 4 - Diagrama de árvore para a retirada das bolas da urna com reposição.
Fonte: a autora.

Tabela 2 - Eventos e probabilidades para o experimento do exemplo 10


Eventos Probabilidades
2 2 4
5 5 25
2 3 6
5 5 25
3 2 6
5 5 25
3 3 9
5 5 25
Fonte: a autora.

a) Qual a probabilidade de retirar primeiramente a bola vermelha e depois a


bola azul?
P(V  A)  P(V )  P( A)
2 3
 
5 5
6

25
 0, 24

Assim, a probabilidade de retirar primeiramente a bola vermelha e depois a bola


azul é de 0,24.

UNIDADE 5 139
b) Qual a probabilidade de retirar a bola azul, dado que a primeira foi vermelha?
3
P( A V ) =
5
= 0, 6

Assim, a probabilidade de retirar a bola azul, dado que a primeira foi vermelha é de 0,6.

Teorema de Bayes

Anteriormente, estudamos a probabilidade condicional e verificamos que


P ( A B ) ≠ P( B A) .

Vimos que:

P( A  B)  P( B)  P( A B) ou P( A  B)  P( A)  P( B A)

Igualando ambas expressões, podemos concluir que:

P( A)  P( B A)  P( B)  P ( A B )

P( A)  P( B A)
P( A B) 
P( B)

O Teorema de Bayes é uma generalização de probabilidade condicional no caso de


mais de dois eventos. O Teorema nos diz que a probabilidade de ocorrência do even-
to BK , supondo-se a ocorrência do evento A , é dada por:

P (B K )  P (A B K )
P(B K A)  n
 P( Bi )  P(A Bi )
i 1

11 EXEMPLO Temos cinco urnas, cada uma com seis bolas. Duas dessas urnas (tipo C1 ) têm 3 bolas
brancas; duas outras (tipo C2 ) têm 2 bolas brancas; e a última urna (tipo C3 ) tem
6 bolas brancas. Escolhemos uma urna ao acaso e dela retiramos uma bola. Qual a
probabilidade de a urna escolhida ser do tipo C3 , sabendo-se que a bola sorteada é
branca?

140 Probabilidade
Urna
C1 C2 C3
1 2 3 4 5
C
o B
r
Bc

Figura 5 - Espaço amostral e eventos para o Exemplo 11
Fonte: Bussab e Morettin (2010, p. 116).

Nesse caso, queremos encontrar P(C3 B) , sabendo que:


2 1
P(C1 )
= =, P ( B C1 )
5 2
2 1
P(C2 ) =
= , P( B C2 )
5 3
1
P (C3 ) =
= , P ( B C3 ) 1
5
E também que:
P( B)  P(C1  B)  P(C2  B)  P(C3  B)
 P(C1 )  P( B C1 )  P(C2 )  P ( B C2 )  P(C3 )  P( B C3 )
2 1 2 1 1
     1
5 2 5 3 5
2 2 1
  
10 15 5
8

15
Por definição,
P(C3  B) P (C3 )  P( B C3 )
P(C3 B)  
P( B) P( B)
Logo,
1
1
P (C3 B )  5
8
15
3

8
 0, 375
Portanto, a probabilidade de a urna escolhida ser do tipo C3 , sabendo-se que a bola
sorteada é branca, é de 37,5%.

UNIDADE 5 141
Contagem

Caro(a) aluno(a), em muitos problemas de pro-


babilidade, temos a dificuldade de encontrar o
número total de resultados. Existem vários méto-
dos que nos possibilitam encontrar tais números.
Vamos conhecê-los?

142 Probabilidade
Princípio Fundamental da Contagem

Em uma sequência de eventos, em que o primeiro ocorre de m maneiras e o segundo


ocorre de n maneiras, temos que os eventos juntos podem ocorrer de m ⋅ n maneiras.

12 EXEMPLO Os funcionários de um escritório de contabilidade, ao serem contratados, recebem


duas calças (preta e marrom) e três camisas de cores diferentes (branca, azul claro e
azul escuro). Eles trabalham de segunda a sexta-feira. É possível passarem a semana
sem repetir um mesmo conjunto de calça e camisa?
Utilizando o princípio fundamental da contagem, temos que m = 2 e n = 3 , logo
o número de possibilidades de utilizar a calça e a camisa do uniforme são:
23  6
Assim, como os funcionários da empresa trabalham cinco dias da semana, e existem
seis possibilidades de conjuntos diferentes, conclui-se que é possível passar a semana
sem repetir um mesmo conjunto de calça e camisa.

Regra do Fatorial

Um conjunto de n diferentes itens pode ser organizado em ordem de n! formas


diferentes.

13 EXEMPLO Em uma visita ao parque de diversões “Beto Carreiro World”, você deseja ir em quatro
atrações: Big Tower, Firewhip, Raskapuska e Star Mountain. Quantas rotas diferentes
são possíveis?
Aplicando a regra do fatorial, existem 4! rotas possíveis para visitar as atrações.

Isto é, o número de rotas diferentes é de:

4 !  4  3  2  1  24

UNIDADE 5 143
Regra das Permutações
(Quando Todos os Itens São Diferentes)

Esta regra é utilizada quando há um total de n diferentes itens disponíveis. Consi-


deramos reorganizações dos mesmos itens como sendo sequências diferentes, por
exemplo: a combinação ABC é diferente de CBA, e é contada separadamente.
Assim, o número de permutações de r itens selecionados (sem reposição) dentre
os n diferentes itens disponíveis é:

n!
n Pr 
(n  r )!

14 EXEMPLO De quantas maneiras podemos formar códigos de seis dígitos, de modo que nenhum
seja repetido?
Temos que n = 10 (ou seja, os dígitos podem ser 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9) e que
r = 6 , logo o número de diferentes sequências de arranjos é de:
10 !
10 P6 
(10  6)!
10  9  8  7  6  5  4  3  2  1

4  3  2 1
3628800

24
 151200

Isto é, existem 151.200 maneiras possíveis nas quais o código de seis dígitos não
tenha dígitos repetidos.

Regra das Permutações


(Quando Alguns Itens São Iguais a Outros)

Esta regra é utilizada quando há um total de n itens disponíveis, e alguns são iguais
a outros. Consideramos os rearranjos de itens distintos como sequências diferentes.
Assim, se há n1 iguais entre si, n2 iguais entre si,  , nk iguais entre si, o número
de permutações de todos os n itens selecionados sem reposição é:

n!
n1 !n2 ! nk !

144 Probabilidade
15 EXEMPLO Em uma determinada quadra, uma loteadora deseja construir três casas térreas,
quatro sobrados e uma casa com vários planos. De quantas maneiras diferentes, as
casas podem ser organizadas na quadra?
Temos que, na quadra, serão construídas oito casas, das quais três serão térreas,
quatro sobrados e uma com vários planos, e que a ordem de construção não importa.
Assim:
8! 8 7 6 5 4 3 21
4 ! 3! 1! 4 3 21 3 21 1
40320
=
24 6
40320
144
280

Logo, as casas podem ser organizadas, na quadra, de 280 formas diferentes.

Regra das Combinações

Esta regra é utilizada quando há n diferentes itens disponíveis, de modo que a or-
dem não é importante. Neste caso, considera-se as reorganizações dos mesmos itens
como sendo a mesma; por exemplo: a combinação ABC é igual à combinação CBA.
O número de combinações de r itens escolhidos (sem reposição) dentre n itens
diferentes é:
n!
n Cr 
(n  r )!r!

“Quando diferentes ordenações dos mesmos itens são contadas separadamente,


tem-se um problema de permutação, mas quando as diferentes ordenações
dos mesmos itens não são contadas separadamente, tem-se um problema de
combinação.”
Fonte: Triola (2008, p. 148).

UNIDADE 5 145
16 EXEMPLO A professora de ciências deseja selecionar alunos para serem monitores de classe. 15
alunos se candidatam, mas só existem 5 vagas para o cargo. Quantas combinações
diferentes de 5 alunos podemos selecionar dos 15 candidatos?
Temos que n = 15 e r = 5 . Como a ordem não é importante, podemos calcular
as combinações possíveis da seguinte forma:
15!
15 C5 
(15  5)! 5!
15  14  13  12  11  10  9  8  7  6  5  4  3  2  1

(10  9  8  7  6  5  4  3  2 1)  (5  4  3  2  1)
1307674368000

 3628800 120 
 3003
Logo, existem 3.003 combinações diferentes de 5 alunos serem selecionados, dentre
os 15 candidatos ao cargo de monitor de ciências.
Nos Exemplos 17 e 18, abordaremos a aplicação da contagem em problemas que
envolvam probabilidade.

Tenha sua dose extra de conhecimento assistindo ao vídeo.


Para acessar, use seu leitor de QR Code.

17 EXEMPLO A palavra MISSISSIPPI tem 11 letras: um M, quatro I, quatro S e dois P. Se essas letras
forem organizadas em ordem aleatória, qual a probabilidade de formarmos a própria
palavra MISSISSIPPI?
Por definição, temos que as permutações distinguíveis podem ser calculadas da
seguinte forma:
11! 11 10 9 8 7 6 5 4 3 2 1
1! 4 ! 4 ! 2 ! (1) (4 3 2 1) (4 3 2 1) (2 1)
39916800
1 24 24 2
39916800
1152
34650

146 Probabilidade
Para encontrarmos a probabilidade das letras dispostas em ordem aleatória formarem
a palavra MISSISSIPPI, fazemos:

1
P ( MISSISSIPPI ) =
34650
= 0, 00002886

18 EXEMPLO Em um baralho convencional, qual a probabilidade de retirar cinco cartas do mesmo


naipe?
Por definição, o baralho convencional tem 52 cartas, de modo que 13 delas apre-
sentam o mesmo naipe (seja ouros, copas, paus ou espadas).
Assim, 13 C5 é o número possível de maneiras de escolhermos 5 cartas do mesmo
naipe de 13; enquanto que 52 C5 é o número de mãos de cinco cartas. Logo, a proba-
bilidade de receber 5 cartas do mesmo naipe é de:
13 C5
P(mesmo naipe) =
52 C5
13!
(13-5)!5 !
=
52!
(52-5)! 5!
13!
= 7!5 !
52!
47!! 5!
1287
=
2598960
= 0,0005

Assim, encerramos nossos estudos sobre probabilidade, em que pudemos estudar


alguns conceitos importantes relacionados a este conteúdo, bem como as operações
que podem ser feitas com eventos, finalizando com os conceitos de permutação e
combinação.

UNIDADE 5 147
Você pode utilizar seu diário de bordo para a resolução.

1. Ao jogar um dado de seis lados, qual a probabilidade do número lançado ser


menor do que 4?

2. Assinale a alternativa que contenha a probabilidade de sair uma figura (valete,


dama ou rei) na retirada de uma carta de um baralho comum de 52 cartas:
a) 0,23.
b) 0,40.
c) 0,56.
d) 0,67.
e) 0,81.

3. Encontre a probabilidade de selecionar uma dama e, na sequência, um rei no


baralho convencional, considerando que não haja reposição da primeira carta.

148
LIVRO

Estatística aplicada e probabilidade para engenheiros


Autor: Douglas C. Montgomey e George C. Runger
Editora: LTC
Sinopse: o livro é elaborado para atender os estudantes de Engenharias, Físi-
ca ou Química, bem como os de Administração e Ciências Sociais. Os autores
usaram exemplos reais para lidar com a variabilidade dos dados. Em sua sexta
edição, a obra traz as seguintes novidades em relação à anterior: material sobre
a técnica bootstrap e seu uso na construção de intervalos de confiança; aumento
da ênfase no uso do valor P nos testes de hipóteses; combinação de valores P
ao fazer testes múltiplos; reedição de muitas seções do livro para melhorar as
explicações e tornar os conceitos mais acessíveis; breve introdução da teoria
de decisão no Capítulo 15; breves comentários no final dos exemplos, enfati-
zando as interpretações práticas dos resultados; e muitos novos exemplos e
exercícios propostos.

149
BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.

CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. 2. ed. Curitiba: InterSaberes, 2018.

MONTGOMERY, D. D.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 4. ed. São
Paulo: LTC, 2006.

TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

150
1. Temos que o espaço amostral é:

W  1, 2, 3, 4, 5, 6

E que o evento “rolar um número menor que 4” é dado por:

A  1, 2, 3
3 1
Logo, P(A)= = = 0, 5
6 2
2. A.

Temos que o espaço amostral é:

W  52 resultados possíveis

E o evento é “retirar uma figura”. Lembrando que em um baralho de 52 cartas, 12 serão com figuras, pois
podemos ter 4 valetes, 4 damas e 4 reis.

12
P(retirar uma figura=
) = 0, 23
52
3. Considerando que a primeira carta não é reposta, temos que os eventos são dependentes. Seja a dama
denotada por Q e o rei denotado por K , precisamos encontrar P (Q ∩ K ) :

P(Q K) P(Q) P( K Q)
4 4
52 51
16
2652
4
663
0, 006

Logo, a probabilidade de selecionar uma dama e um rei, sem reposição da primeira carta, é de 0,006.

151
152
153
154
Me. Rebecca Manesco Paixão

Distribuições de
Probabilidade

PLANO DE ESTUDOS

Distribuições Discretas
Distribuições Amostrais
de Probabilidade

Variável Aleatória
Distribuições Contínuas
e Distribuição de
de Probabilidade
Probabilidade

OBJETIVOS DE APRENDIZAGEM

• Compreender o que são variáveis aleatórias e distribuições • Estudar as distribuições contínuas de probabilidade: dis-
de probabilidades. tribuição uniforme, distribuição exponencial e distribuição
• Estudar as distribuições discretas de probabilidade: distri- normal.
buição de Bernoulli, distribuição geométrica, distribuição • Estudar a relação entre a média da população e as médias
binomial e distribuição de Poisson. das amostragens tiradas da população.
Variável Aleatória e
Distribuição de
Probabilidade

Caro(a) aluno(a), na presente unidade, combi-


naremos os conceitos estudados nas unidades
anteriores – de estatística descritiva e de proba-
bilidades – para desenvolvermos os conceitos de
distribuição de probabilidades, os quais vão
nos auxiliar a predizer o que provavelmente acon-
tecerá, ao invés do que realmente aconteceu.
É possível descrever os resultados experimen-
tais por meio de valores numéricos, a partir de
variáveis aleatórias. Neste caso, a palavra alea-
tória nos indica que x é determinado pelo acaso.
Segundo Montgomery e Runger (2006, p. 35),
uma variável aleatória “é uma função que confere
um número real a cada resultado no espaço amos-
tral de um experimento aleatório”.
Uma variável aleatória pode ser discreta ou contínua. Uma variável aleatória
discreta é aquela que pode assumir um número finito ou contável de possíveis re-
sultados. Por sua vez, uma variável aleatória contínua é aquela que pode assumir
infinitos possíveis resultados, os quais podem ser associados com medidas em uma
escala contínua, ou seja, sem pulos ou interrupções.
Para Triola (2008, p. 161), uma distribuição de probabilidade “é uma descrição
que dá a probabilidade para cada valor da variável aleatória. Ela é frequentemente
expressa na forma de um gráfico, de uma tabela ou de uma fórmula”.
É importante destacar, que toda distribuição de probabilidade deve satisfazer os
requisitos:
• A soma de todas as probabilidades deve ser 1:  P ( x)  1 ;
• Cada valor de probabilidade deve estar entre 0 e 1: 0 ≤ P ( x) ≤ 1 .

A distribuição de probabilidades também pode ser representada, graficamente,


por meio de um histograma de frequência relativa, de modo que, na escala vertical,
mostramos as probabilidades.

UNIDADE 6 157
Distribuições Discretas
de Probabilidade

Na distribuição de probabilidade discreta,


para cada valor da variável aleatória discreta, po-
demos determinar uma probabilidade.

1 EXEMPLO Lançam-se duas moedas. Considerando


x o número de ocorrências da face coroa
( c ), podemos ter os seguintes resultados:
x  0  kk
x  1  kc, ck
x  2  cc

Assim, podemos montar a seguinte tabela para a


distribuição das probabilidades de x :
Tabela 1 - Distribuição de probabilidades da ocorrência da face coroa – Exemplo 1

Valor da variável x Probabilidade do resultado P ( x)


1
0
4
2
1
4
1
2
4
P ( x) 1
Fonte: a autora.

2 EXEMPLO Lançam-se dois dados. Seja x a soma das faces, podemos determinar a distribuição
de probabilidades para a soma das faces:

Tabela 2 - Distribuição de probabilidades da soma das faces dos dados – Exemplo 2


Valor da variável x Probabilidade do resultado P ( x)
0 0
1 0
1
2
36
2
3
36
3
4
36
4
5
36
5
6
36
6
7
36
5
8
36
4
9
36
3
10
36
2
11
36
1
12
36
P ( x) 1
Fonte: a autora.
UNIDADE 6 159
Média, Variância e Desvio Padrão

Para uma distribuição de probabilidades discreta, também é possível encontrarmos


a média, a variância e o desvio padrão.
O cálculo da média é feito da seguinte forma:

 =  x  P(x) 

O cálculo da variância é feito da seguinte forma:

2
σ 2    x  µ   P ( x ) 
 

Por outro lado, o cálculo do desvio padrão é obtido a partir da raiz quadrada da
variância:

2
σ   x  µ   P( x) 


3 EXEMPLO A Tabela 3 apresenta a distribuição de frequências para o grau de satisfação do


consumidor com relação aos serviços prestados por uma rede de telefones, em uma
escala de 1 a 5.
Tabela 3 - Distribuição de frequências para o grau de satisfação dos consumidores – Exemplo 3

Escore Frequência
1 12
2 23
3 23
4 20
5 32
Fonte: a autora.

O valor esperado E ( x) , também chamado de esperança matemática, de uma


variável aleatória discreta é igual ao valor da média, ou seja, E ( x ) µ x P( x) .
E representa o que espera-se acontecer em infinitos testes realizados.

160 Distribuições de Probabilidade


A partir dos dados apresentados na Tabela 3, podemos construir a distribuição de
probabilidades e calcular a média:

x P ( x) x  P (x )
1 0,12 1•0,12=0,12
2 0,13 2•0,13=0,26
3 0,23 3•0,23=0,69
4 0,20 4•0,20=0,80
5 0,32 5•0,32=1,60

P (x ) 1 x P (x ) 3, 4 7

Logo, podemos concluir que a média do grau de satisfação é de 3,47, em uma escala
que vai de 1 a 5.
A média da distribuição de probabilidades não nos dá informações sobre como os
resultados variam. Para isso, podemos utilizar a variância e o desvio padrão. Observe
o Exemplo 4.

4 EXEMPLO Podemos calcular a variância e o desvio padrão para os dados apresentados no


Exemplo 3, da seguinte forma:
2 2
x P( x) x µ x µ x P( x)
1 0,12 1-3,47=-2,47 (-2,47)2=6,1009 6,1009•0,12=0,732108
2 0,13 2-3,47=1,47 (-1,47)2=2,1609 2,1609•0,13=0,280917
3 0,23 3-3,47=0,47 (-0,47)2=0,2209 0,2209•0,23=0,050807
4 0,20 4-3,47=0,53 (0,53)2=0,2809 0,2809•0,20=0,056180
5 0,32 5-3,47=1,53 (1,53)2=2,3409 2,3409•0,32=0,749088
2
P ( x) 1 x P ( x) 18691
,

UNIDADE 6 161
Logo, a variância é:

s 2 = 1, 8691

E o desvio padrão é:

s = 1, 8691
= 1, 36715

Isso significa que a maioria dos valores de dados difere da média não mais do que
1,38 pontos.
Caro(a) aluno(a), dentre as principais distribuições discretas de probabilidade,
destacam-se a distribuição de Bernoulli, distribuição geométrica, distribuição bino-
mial e distribuição de Poisson. Veremos cada uma delas a seguir.

Distribuição de Bernoulli

Na distribuição de Bernoulli, existem apenas dois resultados possíveis e mutua-


mente exclusivos; por conveniência, eles são denominados de sucesso ou fracasso;
ou seja, a variável aleatória assume apenas os valores 0 (fracasso) e 1 (sucesso).
Para exemplificar, no lançamento de uma moeda, o resultado pode ser cara ou
não. Na escolha de uma peça, ela pode ser defeituosa ou não.
Denotaremos por p a probabilidade do evento ocorrer em uma tentativa única e
de q  1  p a probabilidade do evento não ocorrer. Como vimos, a variável aleatória
de Bernoulli x assume apenas os valores 0 e 1, de forma que:

p (0)  P( x  0)  1  p
p (1)  P( x  1)  p

Para este tipo de distribuição, temos que:

µ= p

s 2  p  (1  p )

162 Distribuições de Probabilidade


Atente-se que as palavras sucesso e fracasso são arbitrárias e não representam,
necessariamente, algo bom ou ruim.

5 EXEMPLO Supondo que a probabilidade de chuva em um determinado dia é de 0,7, e seja a


variável aleatória “chover”, temos que:

P( x  0)  1  0, 7  0, 3

P( x= 1=
) 0, 7

A média é dada por:

µ = 0, 7

E o desvio padrão é dado por:


s  0, 7  (1  0, 7)
  0, 7  0, 3 
 0, 21
 0, 458

Distribuição Geométrica

Em uma série de tentativas de Bernoulli, considerado x a variável aleatória que diz


respeito ao número de tentativas até que o primeiro sucesso ocorra, temos que x é
denominada de variável aleatória geométrica, tal que:

P( x)  p  q x 1

Atente-se que, na distribuição geométrica, x deve satisfazer as seguintes condições:


• A tentativa é repetida até ocorrer o sucesso.
• As tentativas repetidas são independentes umas das outras.
• A probabilidade de sucesso p é constante para cada tentativa.

UNIDADE 6 163
Para a distribuição geométrica, temos que:

1
µ=
p
(1  p )
s2 
p2

6 EXEMPLO Considerando que a probabilidade de fazer uma venda por telefone é de 0,10, qual a
probabilidade da primeira venda ocorrer na segunda ou na terceira ligação?
Neste exemplo, precisamos fazer a soma das probabilidades de a venda ocorrer
na segunda ( x = 2 ) ou na terceira ligação ( x = 3 ), considerando que p = 0, 10 e
q = 0, 90 .


P ( x  2)  0, 10  0, 9021 
 0, 10  0, 90
 0, 09


P ( x  3)  0, 10  0, 9031 
 0, 10   0, 902 
 0, 10  0, 81
 0, 081

Logo, a probabilidade de a venda ocorrer na segunda ou na terceira ligação, será de:

P( x  2)  P( x  3)  0, 09  0, 081
 0, 171

Distribuição Binomial

Considerando a repetição de n ensaios de Bernoulli independentes e todos com


a mesma probabilidade de sucesso p , temos que a variável aleatória que conta o
número total de sucessos é denominada binomial.
Para a distribuição binomial, o experimento satisfaz os seguintes requisitos:
• Tem-se um número fixo n de tentativas do experimento.
• As tentativas são independentes.
• Cada tentativa tem o resultado classificado em duas categorias: sucesso ( p )
e fracasso ( q ).
• A probabilidade de sucesso permanece constante em todas as tentativas.

164 Distribuições de Probabilidade


No modelo binomial, a probabilidade é dada por:

n!
P( x  k )   p k  (1  p ) nk
k !(n  k )!

Em que:
n =número de tentativas
k =número de sucessos

7 EXEMPLO Uma fábrica de calças jeans opera com média de 5% de produtos defeituosos. Em
uma amostra de 20 unidades, a probabilidade de uma amostra apresentar nenhum
defeito é de:

20 !
P ( x 0) 0, 050 0, 9520
0 ! (20 0)!
20 !
1 0, 358
20 !
1 1 0, 358
0, 358

Para este tipo de distribuição, temos que:

µ = n⋅ p

s2  n  p  q

8 EXEMPLO Considerando que, em Curitiba, cerca de 48% dos dias são nublados, determine a
média e o desvio padrão para o número de dias nublados durante o mês de abril.
O mês de abril tem 30 dias, logo n = 30 . Além disso, temos que p = 0, 48 e q = 0, 52
Assim, a média será:

µ = 30 ⋅ 0, 48
= 14, 4
E o desvio padrão será:

σ 30 0, 48 0, 52
7, 488
2, 74

Isso significa que, no mês de abril, em média, há 14,4 dias que são nublados, com
desvio padrão de 2,74 dias.

UNIDADE 6 165
Distribuição de Poisson

A distribuição de Poisson, elaborada pelo matemático francês Denis Poisson (1781-


1840), aplica-se à ocorrência de eventos em intervalos especificados. Neste sentido,
a distribuição pode ser utilizada para descrever o decaimento de um material ra-
dioativo, a chegada de pessoas em filas, o número de acidentes ocorridos em uma
semana, entre outros.
A probabilidade de ocorrência do evento x vezes, em um intervalo, é dada por:

l x  e l
P( x) 
x!

Em que:
l é o número médio de ocorrência.
x é o número de ocorrências de um evento ao longo de algum intervalo. Aten-
te-se que essas ocorrências devem ser aleatórias, independentes umas das outras e
uniformemente distribuídas sobre o intervalo em uso.

e = 2, 71828...

9 EXEMPLO Considerando que um pronto-atendimento recebe cerca de 5 pacientes por hora, a


probabilidade de receber 2 pacientes em uma hora selecionada aleatoriamente é de:

P ( x  2) 
 52    e5 
2!
25  0, 00674

2 1
0, 168

2
 0, 0842

Para este tipo de distribuição, temos que a esperança média e a variância, são dadas
por:
2
=
µ σ= λ

166 Distribuições de Probabilidade


A distribuição binomial e a distribuição de Poisson diferem em alguns pontos:
- A distribuição binomial é afetada pelo tamanho n da amostra e pela probabilidade
p , enquanto que a distribuição de Poisson é afetada pela média µ.
- Na distribuição binomial, os valores possíveis da variável aleatória x são 0, 1,… , n ,
enquanto que uma distribuição de Poisson tem, para valores possíveis de x, 0, 1, 2,… ,
sem qualquer limite superior.
Fonte: Triola (2008, p. 184).

10 EXEMPLO Em um livro de 200 páginas, há 200 erros de impressão. Qual a probabilidade de uma
página aleatória conter pelo menos 3 erros?
Neste exemplo, precisamos encontrar P ( x ≥ 3) , tal que:

P( x  3)  1  P( x  3)
 1   P( x  0)  P( x  1)  P ( x  2) 

Com l = 1 temos que:

P ( x  3)  1 
            
 10  e1
 
11  e1

12  e1
 0! 1! 2! 
 
 1  0, 3678 1  0, 3678 1  0, 3678 
 1    
 1 1 2 1 
 1   0, 3678  0, 3678  0, 1839 
 1  0, 9195
 0, 0805

É importante destacar que a distribuição de Poisson pode ser utilizada para aproxi-
mar uma distribuição Binomial quando n é muito grande, e a probabilidade p é
pequena. Para tal, os seguintes requisitos devem ser satisfeitos:
• n ≥ 100
• n  p  10

Quando ambas as condições acima forem satisfeitas, precisamos de um valor de l ,


dado por:
l  n p

UNIDADE 6 167
11 EXEMPLO Em um jogo de azar, podemos comprar um ticket com uma sequência de 4 dígitos, de
modo que, se a sequência for sorteada, então ganhamos o prêmio diário. Se durante
120 dias você comprar um ticket por dia, qual a probabilidade de ganhar exatamente
uma vez?
1
Temos que n = 120 e que p = (pois há um conjunto vencedor entre os
10000
10.000 possíveis).
Logo, as condições n ≥ 100 e n  p  10 são satisfeitas, e podemos utilizar a dis-
tribuição de Poisson para aproximar a distribuição Binomial.
1
l  120 
10000
 0, 012

Assim, a probabilidade de ganhar uma vez no jogo de azar será de:

P ( x  1) 
 0, 0121    e0,012 
1!
0, 012  0, 988

1
 0, 012

168 Distribuições de Probabilidade


Distribuições Contínuas
de Probabilidade

Em uma distribuição contínua de probabilida-


de, temos que a variável aleatória será contínua, ou
seja, pode assumir qualquer valor numérico em
um intervalo de números reais. Para exemplificar
quantidades que podem ser modeladas por variá-
veis aleatórias contínuas, cita-se: salário, altura,
tempo de uso de um equipamento entre outros.
Antes de estudamos algumas distribuições
contínuas, precisamos compreender que o gráfico
para este tipo de distribuição é chamado de curva
de densidade, de modo que ele deve satisfazer
algumas propriedades:
• A área total sob a curva deve ser igual a 1.

Ou seja,
 f ( x) dx  1

• Cada ponto na curva deve ter uma altura
vertical maior ou igual a zero (a função
nunca pode ser negativa). Ou seja, f ( x) ≥ 0

UNIDADE 6 169
Por definição, o gráfico deve indicar a probabilidade da variável estar entre o inter-
valo de a até b , o que é expresso por meio da integral:
b
P(a  x  b)   f ( x) dx
a

Sabendo que a integral definida de uma função entre dois pontos determina a área
sob a curva representativa da função, temos que a função f ( x) é chamada de função
densidade de probabilidade da variável aleatória contínua x .

Média e Variância

Para uma distribuição de probabilidade contínua, a média é calculada por meio da


seguinte fórmula:
b
µ = ∫ ( x ⋅ f ( x) ) dx
a

Enquanto que a variância é calculada por:

2
σ 2  µ( x2 )   µ( x) 

k  x se 0  x  1
12 EXEMPLO Considerando f ( x)  
0 se x  0 ou x  1

a) Determine k para que f ( x) seja uma função densidade de probabilidade.

Temos que:
1
k x dx 1
0 1
x2
k 1
2
0
2
(1)
k (0) 1
2
k
1
2
k 2

170 Distribuições de Probabilidade


b) Determine a média e a variância de f ( x) .
Para o cálculo da média, temos que:
1
µ = ∫ ( x ⋅ 2 x ) dx
0
1
( )
= ∫ 2 x2 dx
0
1
 x3 
= 2 
 3  0
 (1)3 
= 2 − (0) 
 3 
 
2
=
3
2
Para o cálculo da variância, temos que encontrar µ ( x ), pois σ  µ( x )   µ( x)  ,
2 2 2

logo:
1
(
µ( x ) = ∫ x2 ⋅ 2 x dx
2
)
0
1
( )
= ∫ 2 x3 dx
0
1
 x4 
= 2 
 4  0
 (1) 4 
= 2 − (0) 
 4 
 
2
=
4
1
=
2

Assim,
2
1 2
s2    
2 3
1 4
 
2 9
1

18

UNIDADE 6 171
Neste estudo, dentre as principais distribuições contínuas, destacam-se: distribuição
uniforme, distribuição exponencial e distribuição normal.

Distribuição Uniforme

Uma variável aleatória contínua tem distribuição uniforme quando seus valores es-
palham-se uniformemente sobre as faixas de valores possíveis em um intervalo  a, b  .
Isso significa que, na representação gráfica, temos uma forma retangular (Figura 1).
A função densidade de probabilidade é dada por:
 1
 se a  x  b
f ( x)   b  a
0 se a  x ou x  b

f (x)

1
b–a

x
a b

Figura 1 - Distribuição uniforme


Fonte: a autora.

Para este tipo de distribuição, temos que a média e a variância são calculadas por,
respectivamente:

a+b
µ=
2

2(b  a )2
s 
12

172 Distribuições de Probabilidade


13 EXEMPLO No intervalo 0, 2 um ponto é escolhido ao acaso. Qual a probabilidade de que
esteja entre 1 e 1,5?
Temos que a função densidade de probabilidade é:
1
 se 0  x  2
f ( x)   2
0 se x  0 ou x  2
Logo,
1,5
1
P (1  x  1, 5)   2 dx
1
1,5
1 
  x
 2 1
1
 1, 5  1
2
 0, 25

Portanto, a probabilidade de se escolher um ponto que esteja entre 1 e 1,5, no inter-


valo de 0, 2 , é de 0,25.

Distribuição Exponencial

A distribuição de probabilidade exponencial é comumente utilizada para descre-


ver o tempo que se leva para completar uma determinada tarefa. A função densidade
de probabilidade que descreve uma variável exponencial é:

l  elx se x  0
f ( x)  
0 se x  0

Em que:
λ = média
x = tempo
e = 2, 71828...

Para esta distribuição, a média e a variância são calculadas por, respectivamente:

1
µ=
λ

1
σ2 =
λ2

UNIDADE 6 173
14 EXEMPLO Em minutos, o intervalo de tempo entre emissões consecutivas de uma fonte radioa-
tiva é uma variável aleatória com distribuição exponencial de parâmetro l = 0, 1 .
Qual a probabilidade de haver uma emissão em um intervalo inferior a 5 minutos?
Temos que:

5

P( x  5)   0, 1  e0,1x dx 
0
5
  e0,1x 
 0
 e0,15  e0
 0, 61  1
 0, 39

Logo, a probabilidade de haver uma emissão de uma fonte radioativa em um intervalo


inferior a 5 minutos é de 39%.

Distribuição Normal

Uma variável aleatória contínua x tem distribuição normal (ou também conhecida
2
por distribuição gaussiana) com parâmetros µ e s se sua função densidade de
probabilidade é dada por:
( x  µ )2
1 
f ( x)  e 2σ 2 para -   x  
σ  2π
Em que:
e = 2, 71828...
p = 3, 14159...

Atente-se que, neste tipo de distribuição, pode-se ter qualquer média e qualquer desvio
padrão positivo, de modo que esses dois parâmetros vão determinar o formato da
2
curva normal. Para simplificar, usaremos a notação x ~ N (µ, σ ) para indicar que
x tem distribuição normal.

174 Distribuições de Probabilidade


O gráfico para este tipo de distribuição encontra-se na Figura 2. A partir dele,
podemos inferir algumas propriedades:
• f ( x) é simétrica em relação à µ .
• O valor máximo de f ( x) é em x = µ.
• Os pontos de inflexão da função são em x  µ  σ e em x  µ  σ .
• f ( x) → 0 quando x   .

ƒ(x)

µ x

Figura 2 - Distribuição normal


Fonte: a autora.

Por definição, a probabilidade dos valores de uma distribuição normal pertencerem


a um intervalo especifico é dada por:
b ( x  µ )2
1 
P ( a  x  b)   e 2σ 2 dx
a
σ  2π

A integração acima não pode ser calculada analiticamente, devendo, portan-


to, ser computada por métodos numéricos. A título ilustrativo, no MS EXCEL,
para calcularmos a distribuição normal, escrevemos a função = DISTNORM
( x; µ; σ; VERDADEIRO ).
Uma forma alternativa para esse cálculo se dá a partir da transformação de variá-
veis, o que nos leva à distribuição normal padronizada.

UNIDADE 6 175
Distribuição Normal Padrão

Quando a média for 0 e o desvio padrão for 1, temos uma distribuição padrão, ou
também denotada por z ~ N (0, 1) . Por definição, toda a distribuição normal pode ser
convertida em uma distribuição normal padrão, por meio do cálculo dos z-escores:

xµ
z
σ

O cálculo da área que há sob a curva normal representa a probabilidade de ocorrência


dos valores de x que a delimitam. O cálculo dessa área é feito por meio de tabelas
que já contém os valores das áreas; no entanto, todas essas tabelas referem-se à distri-
buição normal padrão (com µ = 0 e s = 1 ). Dessa forma, para utilizarmos a Tabela
A apresentada no apêndice do livro, basta fazermos a conversão da distribuição para
uma distribuição normal padrão.

15 EXEMPLO Determine o z-escore que tem uma área de 10,75% à sua direita.
Temos que a área é de 10,75% ou 0,1075. Logo, toda a área anterior a ela é de
1  0, 1075  0, 8925 .
Procurando, na Tabela A que se encontra no apêndice do livro, o z-escore cuja
área correspondente é 0,8925, encontramos o número 1,24.

Tenha sua dose extra de conhecimento assistindo ao vídeo.


Para acessar, use seu leitor de QR Code.

176 Distribuições de Probabilidade


16 EXEMPLO A distribuição da vida útil de aparelhos celulares pode ser aproximada por uma dis-
tribuição normal de média µ = 4 anos e desvio padrão s = 1 ano. Sabendo disso,
determine a probabilidade do aparelho celular durar entre 5 a 7 anos.
Primeiramente, vamos encontrar a área acumulada à esquerda de 5:

54
z 1
1

Utilizando, conforme o apêndice do livro, a Tabela A, vemos que z = 1, 00 corres-


ponde à área de 0,8413.
O próximo passo é encontrar a área acumulada à esquerda de 7:

74
z 3
1

Utilizando a Tabela A, descrita no apêndice do livro, vemos que z = 3, 00 corresponde


à área de 0,9987.
Portanto, a área que estamos procurando está entre 5 e 7:
área = 0, 9987 − 0, 8413
= 0, 1574

Ou seja, a probabilidade do aparelho celular durar entre 5 a 7 anos é de 15,74%.


Para finalizarmos nossos estudos sobre distribuição de probabilidades, caro(a)
aluno(a), sempre que as seguintes condições forem satisfeitas:
• n  p  5
• n  q  5
será possível aproximar uma distribuição de probabilidades binomial por uma dis-
tribuição normal com média µ = n ⋅ p e desvio padrão s  n  p  q e com os
números inteiros discretos x (número de sucessos) ajustados pela correção de
continuidade, de modo que x é representado pelo intervalo de x − 0, 5 a x + 0, 5
(TRIOLA, 2008).
Depois de fazer a correção pela continuidade (adicionando ou subtraindo 0,5 do
último ponto), sombreamos a área correspondente sob a curva normal, encontramos
os z-escores correspondentes e, por fim, encontramos a probabilidade.

UNIDADE 6 177
17 EXEMPLO 51% dos adultos dos Estados Unidos cujas promessas de final de ano foram de se
exercitar mais alcançaram seus objetivos. Você seleciona aleatoriamente 65 adultos
nos EUA que fizeram tais promessas e lhes pergunta se eles cumpriram a promessa.
Qual é a probabilidade de que menos de 40 deles respondam sim? (LARSON; FAR-
BER, 2010).
Temos que: n = 65 , p = 0, 51 e q = 0, 49
Logo,
n p 65 0, 51
33, 15
n  q  65  0, 49
 31, 85

Como n  p  5 e n  q  5 , podemos utilizar a distribuição normal, com:

µ = 65 ⋅ 0, 51
= 33, 15

s  65  0, 51  0, 49 
 16, 2435
 4, 03

Na distribuição binomial, os valores possíveis do centro “menores que 40” são: ..., 37,
38, 39. Para usar distribuição normal, aplicamos a correção pela continuidade para
o valor de x , adicionando 0,5 ao limite 39 à direita para conseguir x = 39, 5 .
O z-escore correspondente é:

39, 5  33, 15
z
4, 03
6, 35

4, 03
 1, 58

Utilizando a Tabela A, apresentada no apêndice do livro:

P( z  1, 58)  0, 9429

Assim, temos que a probabilidade de que menos de 40 pessoas respondam sim é de


aproximadamente 94%.

178 Distribuições de Probabilidade


Distribuições
Amostrais

Anteriormente, vimos alguns modelos de distri-


buição de probabilidade de uma variável contínua
e também medidas que caracterizam uma amos-
tra. Neste tópico, vamos reunir nossos conheci-
mentos sobre estes assuntos para estudar as dis-
tribuições amostrais, ou seja, a “distribuição de
todos os valores daquela estatística quando todas
as amostras possíveis de mesmo tamanho tiverem
sido extraídas da mesma população” (TRIOLA,
2008, p. 212).
Neste caso, uma estatística muito utilizada é
a média amostral. Supondo que estamos fazen-
do um levantamento sobre a média da idade dos
professores de uma universidade, mas não seria
possível aferir os dados dos 1.000 professores. As-
sim, recorremos a amostras de 10 indivíduos cada;
e quando calculamos a média das idades, obtemos
a média amostral.
Um cálculo que surge a partir deste é o da mé-
dia dos grupos de amostras. Se coletarmos dez
amostras distintas, cada uma com dez professores,
é possível verificarmos a representatividade desse
valor em um comparativo com a população.

UNIDADE 6 179
Teorema do Limite Central

O teorema do limite central nos explica porque a distribuição normal é tão im-
portante em estatística. São dois os conceitos definidos:
• Se n ≥ 30 , e amostras de tamanho n são tiradas de qualquer população com
média µ e desvio padrão s , então a distribuição amostral das médias das
amostras se aproxima de uma distribuição normal, de modo que, quanto maior
o número de indivíduos da amostra, maior a aproximação.
• Caso uma distribuição seja normal, a distribuição amostral de médias das
amostras é normalmente distribuída para qualquer amostra de tamanho n .

Se todas as possíveis amostras de tamanho n são selecionadas de uma população


com média µ e desvio padrão s , então a média das amostras será:

µx = µ
Enquanto que o desvio padrão das médias amostrais será:

s
sx =
n

Em que n é o número total de indivíduos da amostra.


Anteriormente, aprendemos a encontrar a probabilidade de que uma variável
aleatória x caia em um dado intervalo de valores da população. De forma análoga,
podemos encontrar a probabilidade de que uma média amostral caia em um dado
intervalo da distribuição amostral, transformando x em um z-escore, utilizando a
seguinte fórmula:

xµ
z
σ
n

180 Distribuições de Probabilidade


18 EXEMPLO Supondo que os pesos de homens sejam normalmente distribuídos, com uma média
de 82 kg e desvio padrão de 5 kg, encontre a probabilidade de 20 homens selecionados,
aleatoriamente, terem peso médio superior a 84 kg.
Como estamos trabalhando com uma distribuição de médias amostrais, temos que:
84  82
z
5
20
84  82

5
4, 47
2

1, 12
 1, 78

No apêndice do livro, na Tabela A vemos que z = 1, 78 corresponde à área acumulada à


esquerda de 0,9625, de modo que a região sombreada é dada por 1  0, 9625  0, 0375.
Portanto, a probabilidade de que 20 homens tenham peso maior do que 84 kg é
de 3,75%.
Caro(a) aluno(a), atente-se que, na aplicação do teorema central do limite, a fór-
mula do desvio padrão supõe que a população seja, infinitamente, grande. No entan-
to, quando amostramos com reposição, a população é efetivamente infinita. Neste
sentido, devemos aplicar uma correção para a população finita, sempre que o tama-
nho amostral n for maior do que 5% do tamanho finito N da população. Assim:

1  N n
sx  s   
n  N 1 

Nesta unidade, pudemos definir uma variável aleatória, assim como estudar sobre as
distribuições de probabilidades discretas e contínuas.

UNIDADE 6 181
Você pode utilizar seu diário de bordo para a resolução.

1. Encontre a distribuição de probabilidade da variável “número de caras”, encon-


trada no lançamento de três moedas.

2. Em um posto de combustível, uma média de 20 clientes param para abastecer


por hora. Qual a probabilidade de 7 clientes pararem qualquer hora para abas-
tecer? Dica: utilize a distribuição de Poisson.

3. A probabilidade de encontrar o sinal de trânsito aberto em uma determinada


rua é de 0,30. Sabendo disso, qual a probabilidade de que seja necessário passar
pelo local 4 vezes, para encontrar o sinal aberto pela primeira vez? Dica: utilize
a distribuição geométrica.

182
LIVRO

Estatística básica: probabilidade


Autor: Luiz Gonzaga Morettin
Editora: Makron Books
Sinopse: agora em um único volume, Estatística básica traz, de fato, todo o
conteúdo programático de um curso de estatística. Seguindo a já reconhecida
metodologia de Luiz Gonzaga Morettin, o livro fornece diversos exemplos para
ilustrar a teoria ao longo dos capítulos e, ao final de cada um deles, apresenta
exercícios resolvidos e propostos para auxiliar na aprendizagem dos estudantes.
Além disso, possui uma diagramação moderna e atual em termos didáticos, que
torna mais eficaz o processo de ensino. Com todas essas características, Esta-
tística básica é um livro ideal para estudantes de graduação nas mais diversas
áreas e também para alunos de MBA

183
BONAFINI, F. C. Estatística. São Paulo: Pearson Education do Brasil, 2012.

BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.

CARNIEL, I. G. Estatística. Maringá: Centro Universitário de Maringá, 2014.

CASTANHEIRA, N. P. Estatística aplicada a todos os níveis. 2. ed. Curitiba: InterSaberes, 2018.

LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 6. ed. São Paulo: Editora da
Universidade de São Paulo, 2008.

MONTGOMERY, D. D.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 4. ed. São
Paulo: LTC, 2006.

TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

184
1. No lançamento de três moedas, temos x sendo o número de caras.

É possível ocorrer os seguintes resultados:


x  0  ccc
x  1  kcc, ckc, cck
x  2  kkc, kck , ckk
x  3  kkk
Logo, a distribuição de probabilidades, será:

x P( x)

1
0
8
3
1
8
3
2
8
1
3
8

P ( x) 1

2. O cálculo é feito por meio da distribuição de Poisson, assim:

P ( x  7) 
 e20    207 
7!
0, 000000002  1280000000

7  6  5  4  3  2 1
2, 638277

5040
 0,0000523

185
3. O cálculo é feito por meio da distribuição geométrica, assim:


P( x  4)  0, 30  0, 704 1 
 0, 30   0, 703 
 0, 30  0, 343
 0, 1029

186
187
188
Me. Rebecca Manesco Paixão

Estatística Inferencial:
Estimação e Teste
de Hipóteses

PLANO DE ESTUDOS

Estimação da Proporção e
da Variância Populacional

Estimação e Tamanhos
Amostrais Teste de Hipótese

OBJETIVOS DE APRENDIZAGEM

• Apresentar a estimação da média populacional para • Compreender os conceitos relacionados ao teste de


amostras grandes e pequenas. hipótese.
• Estudar a estimação da proporção populacional e da
variância populacional.
Estimação e
Tamanhos Amostrais

Caro(a) aluno(a), a estatística inferencial consiste


do conjunto de técnicas adotadas, com vistas a
extrapolar conclusões sobre a população, a par-
tir das evidências fornecidas pela amostra. Neste
sentido, na presente unidade, vamos formalizar
alguns conceitos relacionados à inferência esta-
tística, os quais nos permitem estimar o valor de
um parâmetro populacional, assim como testar
alguma hipótese (afirmação) sobre a população.
No estudo da estimação, precisamos retomar
alguns conceitos como parâmetro, estimador e
estimativa (MAGALHÃES; LIMA, 2008):
• Parâmetro: quantidade da população sobre a qual estamos interessados. De
modo geral, os parâmetros são representados por letras gregas.
• Estimador: combinação dos elementos da amostra que nos possibilitam esti-
mar um parâmetro de interesse da população. Normalmente, os estimadores
são representados por símbolos com acento circunflexo.
• Estimativa: valores numéricos assumidos pelos estimadores.

1 EXEMPLO Uma pesquisa, em uma amostra aleatória, apontou que, de 100 estudantes de engenha-
ria, 65 são homens. Dessa forma, podemos afirmar que a estimativa da proporção de
homens estudantes de engenharia dessa população é de 65%, uma vez que a proporção
amostral é a melhor estimativa pontual da proporção populacional.
Além disso, é importante destacar que a estimativa pode ser pontual ou intervalar.
A primeira diz respeito a um único valor estimado para um parâmetro populacional
(ou seja, é um dado amostral que queremos verificar se é correspondente à popula-
ção). Por sua vez, a estimativa intervalar corresponde ao intervalo, no qual podemos
“encaixar” o parâmetro que estamos buscando.

2 EXEMPLO Encontre a estimativa pontual da média populacional µ para a amostra aleatória do


número de erros gramaticais encontrados nas páginas de um livro:

5 4 2 0
2 3 1 4
3 7 3 7
4 4 6 8
2 2 1 12
10 1 4 4
8 6 3 5
9 5 9 4
6 1 0 10
5 1 0 9

A média amostral dos dados é de:

180
x=
40
= 4, 5

Assim, a estimativa pontual, para os erros gramaticais encontrados em todo o livro,


é de 4,5.

UNIDADE 7 191
Estimação da Média Populacional
(Amostras Grandes)

Neste item, vamos aprender como usar amostras estatísticas para estimar um parâ-
metro populacional desconhecido quando a população é, normalmente, distribuída
e o desvio padrão é conhecido, ou quando o tamanho da amostra for maior que 30.
No Exemplo 2, vimos que a estimativa pontual foi de 4,5 erros gramaticais por
página do livro; no entanto, a probabilidade de que a média populacional seja exa-
tamente este valor é muito pequena. Nesse sentido, é mais lógico procurarmos por
um intervalo no qual o parâmetro buscado seja “encaixado”.
Para obtermos a estimativa intervalar, utilizamos a estimativa pontual como o
centro do intervalo e, depois, adicionamos e subtraímos a margem do erro. A este
intervalo de confiança, associamos um nível de confiança, o qual nos dá a pro-
babilidade de o intervalo estimado conter o parâmetro populacional (LARSON;
FARBER, 2010; TRIOLA, 2008).
A relação entre o intervalo e o nível de confiança é estabelecida por um cálculo
baseado no modelo de distribuição normal. Na Unidade 7, nós estudamos que a área
abaixo da curva corresponde à probabilidade que procuramos, e que os deslocamentos
no eixo x são correspondentes aos z-escores.
A Figura 1 ilustra a forma de obtenção do nível de confiança (c). Este corresponde
à área sob a curva normal padrão entre os valores críticos −zc e zc , de modo que a
área remanescente é dada por 1− c .

1 1
2 (1 - c) 2 (1 - c)

z
- zc z=0 zc
Figura 1 - Nível de confiança – distribuição normal
Fonte: a autora.

192 Estatística Inferencial: Estimação e Teste de Hipóteses


Neste estudo, os níveis de confiança que vamos trabalhar são os apresentados na
Tabela 1:
Tabela 1 - Valores críticos comuns

Nível de confiança Valor crítico ( zc )


0,90 1,645
0,95 1,960
0,99 2,575
Fonte: a autora.

Quanto à margem de erro (E), esta diz respeito à maior distância entre o ponto de
estimativa e o valor do parâmetro estimado. É calculada por:

s
E  zc  s x  zc 
n

Em que zc é o z-escore referente ao distanciamento que estamos procurando.

3 EXEMPLO A diretora de uma universidade deseja estimar a média de idade de todos os estudantes
matriculados no 1º ano de engenharia. Em uma amostra aleatória de 40 estudantes,
a idade média encontrada foi de 21 anos. Em estudos anteriores, verificou-se que
a população é normalmente distribuída e que o desvio padrão conhecido é de 1,2.
Sabendo disso, encontre a margem de erro para a amostra, considerando o nível de
confiança de 95%.
Temos que a margem de erro é de:

1, 2
E  1, 96 
40
1, 2
 1, 96 
6, 32
 1, 96  0, 19
 0, 37

Após encontrarmos a margem de erro, devemos somá-la e subtraí-la da estimativa


pontual, para então encontrarmos o intervalo de confiança, ou seja:

xE    xE

UNIDADE 7 193
Atente-se! No caso a seguir, o tamanho da amostra não depende do tamanho da
população, mas sim do nível de confiança desejado, da margem de erro e do desvio
padrão σ.

4 EXEMPLO Considerando a margem de erro do Exemplo 3, obtenha o intervalo de confiança


para a média populacional da idade dos estudantes do 1º ano de engenharia.
Temos que a estimativa pontual é de x = 21 , logo a estimativa intervalar será de:

21 − 0, 37 < µ < 21 + 0, 37
20,63 < µ < 21, 37

Dessa forma, podemos concluir que o intervalo de confiança, construído no nível


de confiança de 95%, para a média populacional µ está entre 20,63 e 21,37 anos.
Por definição, temos que o tamanho da amostra interfere diretamente na monta-
gem do intervalo de confiança, ou seja, quanto maior a amostra, menor será a margem
de erro e menor a imprecisão.
A partir de agora, veremos que é possível descobrir qual o tamanho mínimo de
uma amostra, para estimar adequadamente um parâmetro populacional. Modificando
os termos da fórmula que vimos anteriormente, temos que:
2
 z s 
n c 
 E 
5 EXEMPLO Uma pesquisa deseja determinar a porcentagem de adolescentes que usam o e-mail
como forma de comunicação. Quantos adolescentes devem ser entrevistados para
que se tenha 95% de confiança em que a porcentagem amostral não terá erro maior
do que 4%? Considere s = 0, 9 .
2
 1, 96  0, 9 
n 
 0, 04 
2
 1, 764 
 
 0, 04 
 (44, 1)2
 1944, 81
Isso quer dizer que devem ser selecionados aleatoriamente 1.945 adolescentes para se
ter 95% de confiança de que a porcentagem amostral esteja a, no máximo, 4 pontos
percentuais da verdadeira porcentagem.

194 Estatística Inferencial: Estimação e Teste de Hipóteses


Estimação da Média Populacional
(Amostras Pequenas)

No item anterior, vimos como estimar a média populacional para amostras grandes.
A partir de agora, veremos como estimar a média populacional para amostras pe-
quenas, quando s não é conhecido.
Sempre que a variável aleatória for normalmente distribuída (ou aproximadamente
normalmente distribuída), podemos utilizar a distribuição t :
x
t
s
n
Como não conhecemos o valor de s , ele é estimado a partir do valor do desvio padrão
amostral s . Isso introduz uma outra fonte de não confiabilidade; assim, para manter
o intervalo de confiança em um nível desejado, compensamos a não confiabilidade
adicional fazendo o intervalo de confiança um pouco mais largo. Para isso, usamos
os valores críticos de t ( tc ), conforme a Tabela B no apêndice do livro.
Um conceito-chave na distribuição t são os graus de liberdade, que dizem respeito
ao número de valores amostrais que podem variar depois da imposição de certas
restrições aos dados amostrais. Para estimar a média da população pela distribuição
t, os graus de liberdade são iguais ao tamanho da amostra menos um:

g .l.  n 1

“Para 30 ou mais graus de liberdade, os valores críticos para a distribuição t estão


próximos ao valor crítico correspondente para a distribuição normal”.
Fonte: Larson e Farber (2010, p. 265).

UNIDADE 7 195
A Figura 2 ilustra a obtenção do nível de confiança para a distribuição t.

1 1
2 (1 - c) 2 (1 - c)

t
- tc tc

Figura 2 - Nível de confiança - distribuição t


Fonte: a autora.

6 EXEMPLO Encontre o valor crítico tc para uma amostra de 13 indivíduos e uma confiança de 95%.
Primeiramente, devemos calcular os graus de liberdade:
g .l.  13  1
 12

Para g .l. = 12 e c = 0, 95 temos que o valor procurado é tc = 2, 179 . Isso quer dizer
que 95% da área sob a curva da distribuição t com 12 graus de liberdade está entre
t  2, 179 .
Por definição, a construção do intervalo de confiança usando a distribuição t é
similar à construção do intervalo de confiança usando a distribuição normal, como
vimos anteriormente.
O intervalo de confiança para a estimativa de µ (com s desconhecido) é dada por:

xE    xE

em que a margem de erro E é obtida por:


s
E  tc 
n

196 Estatística Inferencial: Estimação e Teste de Hipóteses


7 EXEMPLO Determine o intervalo de confiança de 95% para a temperatura média de geladeiras,
ao selecionar aleatoriamente 26 delas de uma mesma marca. A temperatura média
da amostra é de 4º C com desvio padrão da amostra de 0,5 ºC. Assuma que as tem-
peraturas são aproximadamente normalmente distribuídas.
Temos que:

g .l.  26  1
 25
Com g .l. = 25 e c = 0, 95 , temos que tc = 2, 060 .

A margem de erro no intervalo de confiança dado é de:


0, 5
E  2, 060 
26
0, 5
 2, 060 
5, 099
 2, 060  0, 098
 0, 202

Logo, o intervalo de confiança será de:

4 − 0, 202 < µ < 4 + 0, 202


3, 798 < µ < 4, 202
Portanto, com 95% de confiança, podemos dizer que a média de temperatura das
geladeiras está entre 3,798 ºC e 4,202 ºC.

UNIDADE 7 197
Estimação da Proporção
e da Variância Populacional

Neste tópico, caro(a) aluno(a), vamos estudar a


estimação da proporção populacional e da va-
riância populacional.
Estimação da Proporção Populacional

O cálculo de intervalos de confiança também pode ser utilizado para estimar se uma
média amostral de sucessos corresponde à média populacional.
Para isto, vamos considerar as notações:
p = proporção populacional .

p = x = proporção amostral de x sucessos em uma amostra de taamanho n .


n

q = 1- p = proporção amostral de fracassos em uma amostra de tamanho n .

8 EXEMPLO Em uma pesquisa com 800 brasileiros, 500 disseram que seu esporte favorito é fu-
tebol. Encontre a estimativa pontual para a proporção populacional dos brasileiros
que dizem que seu esporte favorito é o futebol.
Temos que:

p = 500
800
= 0, 625

Para as proporções populacionais p , construímos o intervalo de confiança da se-


guinte forma:

p  E  p  p  E

em que:
p  q
E  zc 
n

UNIDADE 7 199
9 EXEMPLO Construa um intervalo de 95% de confiança para a proporção dos brasileiros que
dizem que o futebol é seu esporte favorito, com base nos dados obtidos no Exemplo 8.
Temos que:
p  0, 625

q  1  0, 625  0, 375
A margem de erro será de:

E  1, 96 
 0, 625  0, 375 
800
0, 23
 1, 96 
800
 1, 96  0, 00029
 1, 96  0, 017
 0, 033

Logo, o intervalo de confiança será:

0, 625 − 0, 033 < µ < 0, 625 + 0, 033


0, 592 < µ < 0, 658
Portanto, com confiança de 95%, pode-se afirmar que a proporção de brasileiros que
têm o futebol como esporte preferido está entre 59,2% e 65,8%.
Manipulando a fórmula da margem de erro, é possível utilizá-la para determinação
do tamanho amostral:

2
 z c   p  q
n
E2
10 EXEMPLO Uma pesquisa deseja determinar a porcentagem de adolescentes que usam o e-mail
como forma de comunicação. Quantos adolescentes devem ser entrevistados para
que se tenha 95% de confiança em que a porcentagem amostral não terá erro maior
do que 2%? Considere o resultado de um estudo anterior que verificou que 20% dos
adolescentes usavam o e-mail como forma de comunicação.
De acordo com os dados do estudo anterior, temos que:
p  0, 2

q  1  0, 2  0, 8

200 Estatística Inferencial: Estimação e Teste de Hipóteses


Logo, podemos determinar o número de adolescentes que devem ser entrevistados:
2
n
1, 96   0, 2  0, 8
(0, 02)2
3, 8416  0, 2  0, 8

0, 0004
0, 614656

0, 0004
 1536, 64

Portanto, deverão ser entrevistados 1.537 adolescentes.

Estimação da Variância Populacional

Vamos estudar os métodos que nos permitem encontrar um intervalo de confiança


para um desvio padrão ou para uma variância populacional. Para tanto, vamos uti-
lizar a distribuição qui-quadrado, aplicada sempre que a variável aleatória x tem
distribuição normal:
(n  1)  s 2
χ2 
σ2

Como a qui-quadrado é assimétrica (Figura 3), o intervalo de confiança não se ajusta


2
ao formato s ± E. Assim, devemos fazer cálculos separados para os limites superior
   2
cR2 e inferior cL do intervalo de confiança e, na sequência, consultamos, no
apêndice do livro, a Tabela C para a distribuição qui-quadrado, em que cada área
representa a região sob a curva do qui-quadrado à direita do valor crítico.

1-c c
2

1-c
2
Ȯ2
ȮL2 ȮR2

Figura 3 - Nível de confiança – distribuição qui-quadrado


Fonte: a autora.

UNIDADE 7 201
11 EXEMPLO Encontre os valores críticos e um intervalo de confiança de 90% quando o tamanho
da amostra for 10.
Como n = 10 , temos que:

g .l.  10  1
9
2 2
Assim, as áreas à direita de cR e cL são:
1  0, 90
cR2 
2
0, 10

2
 0, 05
1  0, 90
cL2 
2
1, 90

2
 0, 95

Utilizando g .l. = 9 e as áreas 0,95 e 0,05, podemos encontrar os valores críticos na


2 2
Tabela C: cR = 3, 325 e cL = 16, 919 . Isso quer dizer que 90% da área sob a curva
está situada entre 3,325 e 16,919.
2 2
Também podemos usar os valores críticos cR e cL para construir intervalos de
confiança para a variância e o desvio padrão de uma população.
2
O intervalo de confiança para s é dado por:
(n  1)  s2 (n  1)  s 2
 σ2 
χR2 χL2

Por sua vez, o intervalo de confiança para s é dado por:


(n  1)  s2 (n  1)  s2
σ
χR2 χL2

202 Estatística Inferencial: Estimação e Teste de Hipóteses


12 EXEMPLO Uma pesquisa selecionou 26 aparelhos celulares de uma mesma marca para pesar,
com desvio padrão da amostra de 0,1 gramas. Supondo que os pesos são, normal-
mente, distribuídos, construa intervalos de confiança de 99% para a variância e o
desvio padrão da população.
Como n = 26 , temos que:
g .l.  26  1
 25

2 2
As áreas à direita de cR e cL são:
1  0, 99
cR2 
2
0, 01

2
 0, 005
1  0, 99
cL2 
2
1, 99

2
 0, 995

Utilizando g .l. = 25 e as áreas 0,995 e 0,005, podemos encontrar os valores críticos


2 2
na Tabela C: χR  46, 928 e χL  10, 520.
2
Usando os valores críticos e s = 0, 1 , o intervalo de confiança para s será:
(26  1)  (0, 1)2 (26  1)  (0, 1)2
 s2 
46, 928 10, 520
25  0, 01 25  0, 01
 s2 
46, 928 10, 520
0, 25 0, 25
 s2 
46, 928 10, 520
0, 0053  s 2  0, 024

Por outro lado, para s o intervalo de confiança será:

0, 0053 < s < 0, 024


0, 073 < s < 0, 155

Isso significa que, com 99% de confiança, pode-se dizer que o desvio padrão da po-
pulação está entre 0,073 e 0,155 gramas.

UNIDADE 7 203
Teste de Hipótese

Os testes de hipóteses também são utilizados


para se fazer inferência estatística. Neste estudo,
ao invés de calcularmos a estimativa do parâme-
tro pontual ou intervalar como fizemos anterior-
mente, iremos admitir um valor hipotético para
o parâmetro populacional e, baseado nas infor-
mações da amostra, faremos um teste estatístico
para aceitar ou rejeitar a hipótese estatística. Logo,
são duas as hipóteses:
• H 0 é uma hipótese nula, hipótese estatís-
tica a ser testada.
• H A é uma hipótese alternativa, situação
na qual deve ser verdadeira se H 0 é falso.

“O trabalho com H 0 e H A só pode ser posto em


prática se a hipótese nula contiver uma relação
de igualdade (expressa por , ou = ). Assim
a hipótese alternativa se encarrega de preencher
todo o espectro restante da variável, sendo re-
presentada pelo sinal matemático perfeitamente
oposto ( <, > e  , respectivamente)”.
Fonte: Bonafini (2012, p. 120).
13 EXEMPLO Uma universidade afirma que a proporção dos estudantes que se graduam, sem
reprovar em nenhuma disciplina, é de 75%.
Neste caso, temos que a proporção de 75% pode ser escrita como p = 0, 75 . Assim,
como p = 0, 75 contém a afirmação de igualdade, ela se torna a hipótese nula:
H 0 : p = 0, 75

H A : p ≠ 0, 75

Ao realizar um teste de hipótese, nós assumimos que a condição de igualdade, na


hipótese nula, é verdadeira. Logo, podemos tomar duas decisões:
1. Rejeitar a hipótese nula.
2. Falhar ao rejeitar a hipótese nula.

No entanto, como nossa decisão é baseada em uma amostra, ao invés de ser baseada
na população inteira, sempre há a possibilidade de tomarmos a decisão errada. Assim,
dois tipos de erro podem ocorrer:
• Erro do tipo I: ocorre se a hipótese nula for rejeitada quando é verdadeira;
• Erro do tipo II: ocorre se a hipótese nula não for rejeitada quando é falsa.
Os possíveis erros e acertos de uma decisão encontram-se sintetizados no Quadro 1.
Quadro 1 - Possíveis erros e acertos de uma decisão a partir de um teste de hipótese

Realidade
H0 verdadeira H0 falsa
Decisão Aceitar H0 Decisão correta Erro tipo II
Rejeitar H0 Erro tipo I Decisão correta

Fonte: Martins (2010, p. 203).

Dando continuidade ao estudo do teste de hipóteses, o nível de significância cor-


responde à probabilidade máxima permissível para se cometer um erro tipo I, e é
denotado por a . Em geral, escolhas comuns para a são 0,01, 0,05 e 0,10.
Depois de afirmar as hipóteses e especificar o nível de significância, o próximo
passo é obter uma amostra aleatória de uma população e calcular as estatísticas
amostrais, tais como média e desvio padrão. A estatística que é comparada com o
parâmetro na hipótese nula é chamada de estatística de teste. Esta trata-se de “um
valor usado para se tomar decisão sobre a hipótese nula e é encontrada pela conversão
da estatística amostral em um escore com a suposição de que a hipótese nula seja
verdadeira” (TRIOLA, 2008, p. 310).

UNIDADE 7 205
Neste estudo, serão utilizadas as seguintes estatísticas de teste:
p  p
• Estatística de teste para a proporção: z 
pq
n
xµ xµ
• Estatística de teste para a média: z  σ ou t  s
n n

2 (n  1)  s 2
• Estatística de teste para o desvio padrão: χ 
σ2

Supondo que H 0 seja verdadeira, o valor de probabilidade (ou valor P ) é a proba-


bilidade de se obter um valor da estatística de teste que seja, no mínimo, tão extremo
quanto o que representa os dados amostrais. Se o valor P for muito pequeno, a
hipótese nula é rejeitada.
Em termos de representação gráfica, o valor P e o teste de hipótese podem ser
definidos como unilateral à direita, unilateral à esquerda ou bilateral, de modo que
as caudas são as regiões extremas limitadas pelos valores críticos.
A região crítica diz respeito ao conjunto de todos os valores da estatística de
teste que nos fazem rejeitar H 0 , enquanto que um valor crítico é qualquer valor
que separa a região crítica dos valores da estatística de teste que não levam à rejeição
da hipótese nula.
• Teste bilateral: a região crítica situa-se nas duas regiões extremas sob a cur-
va. O valor P é duas vezes a área à esquerda do valor negativo da estatística
de teste, ou duas vezes a área à direita do valor positivo da estatística do teste.
• Teste unilateral à direita: a região crítica está na região extrema direita sob
a curva. O valor P é a área à direita da estatística de teste.
• Teste unilateral à esquerda: a região crítica está na região extrema esquerda
sob a curva. O valor P é a área à esquerda da estatística de teste.

206 Estatística Inferencial: Estimação e Teste de Hipóteses


Sinal usado em HA: ≠
Teste bilateral

Sinal usado em HA: <


Teste unilateral à esquerda

Sinal usado em HA: >


Teste unilateral à direita
Figura 4 - Testes bilateral, unilateral à esquerda e unilateral à direita
Fonte: Triola (2008, p. 313).

14 EXEMPLO Um fabricante de biscoitos anuncia que o peso médio dos conteúdos de seus pacotes
de 250 gramas é mais do que 250 gramas.
Temos que a afirmação é: “o peso médio dos conteúdos dos pacotes de biscoitos
é mais do que 250 gramas”, logo as hipóteses são:
H 0 : µ  250

H A : µ > 250

Por definição, o teste é de hipóteses unilateral à direita, pois o sinal usado em H A é > .
Já vimos que a tomada de decisão será baseada na hipótese nula, ou seja, rejeitá-la
ou deixar de rejeitá-la. E a forma mais segura de efetuarmos a decisão é relacionando
o nível de significância com o valor P . Se P ≤ a podemos rejeitar H 0 ; e se P > a
deixamos de rejeitar H 0 .
Além disso, uma forma alternativa de rejeitar ou deixar de rejeitar a hipótese nula
é o método tradicional (ou método clássico) de teste de hipótese. A partir deste,
rejeitamos H 0 se a estatística de teste ficar dentro da região crítica; e deixamos de
rejeitar H 0 se a estatística de teste não ficar dentro da região crítica.

UNIDADE 7 207
15 EXEMPLO Pesquisas afirmam que, usando sistema ABS, a média das distâncias de frenagem é
menor do que 30 metros.
• Neste caso, temos que a hipótese nula será “a média das distâncias de frenagem
é maior ou igual a 30 metros”, ou seja, H 0 : µ ≥ 30.
• Se você rejeitar H 0 então você deve concluir que “há evidências suficientes
para apoiar a afirmação”. Se você falha em rejeitar H 0 , então você deve concluir
que “não há evidência suficiente para apoiar a afirmação”.

A Figura 5 traz as instruções para realização do teste de hipótese pelo método do


valor P e pelo método tradicional. Observe.

MÉTODO DO VALOR P MÉTODO TRADICIONAL

Identifique a afirmativa a ser testada e Identifique a afirmativa a ser testada e


expresse-a de forma simbólica, identificando expresse-a de forma simbólica, identificando
a hipótese nula e a hipótese alternativa a hipótese nula e a hipótese alternativa

Selecione o nível de significância Selecione o nível de significância

Identifique a estatística de teste relevante Identifique a estatística de teste relevante


para esse teste e determine a distribuição para esse teste e determine a distribuição
amostral amostral

Encontre a estatística de teste e o valor P. Encontre a estatística de teste, os valores


Desenhe um gráfico e mostre a estatística de críticos e a região crítica. Desenhe um
gráfico e inclua a estatística de teste, os
teste e o valor P valores críticos e região crítica

Rejeite a hipótese nula se o valor P for menor Rejeite a hipótese nula se a estatística de
ou igual ao nível de significância. Deixe de teste estiver na região crítica. Deixe de
rejeitar a hipótese nula quando o valor P for rejeitar a hipótese nula se a estatística de
maior que o nível de significância teste não estiver na região crítica

Expresse a decisão, remetendo à Expresse a decisão, remetendo à


afirmativa original afirmativa original

Figura 5 - Instruções para o teste de hipótese


Fonte: a autora.

Nos próximos tópicos, vamos estudar alguns exemplos de teste de hipótese para a
média de amostras grandes e pequenas, para uma proporção e para o desvio padrão.

208 Estatística Inferencial: Estimação e Teste de Hipóteses


Teste de Hipóteses para a Média
(Amostras Grandes)

Utilizaremos o passo a passo, descrito na Figura 5, para testar afirmativas sobre uma
média populacional para amostras grandes. Para encontrarmos o valor P, primei-
ramente, vamos verificar se o teste de hipótese é bilateral, unilateral à direita ou
unilateral à esquerda. Na sequência, calculamos seu valor tendo como base a siste-
mática dos z-escores.

16 EXEMPLO Uma hamburgueria afirma que a média do tempo de produção dos hambúrgueres é
menor que 20 minutos. Uma seleção aleatória de 32 tempos de produção tem média
de 18 minutos e desvio padrão de 2,5 minutos. Há evidência suficiente para apoiar
a afirmação em a = 0, 01 ? Utilize o método do valor P .
Temos que a afirmação é: “a média do tempo de produção dos hambúrgueres é
menor que 20 minutos”, logo, as hipóteses são:
H 0 : µ ≥ 20
H A : µ < 20

A estatística do teste padronizado, com a = 0, 01 é:


18, 8  20
z
2, 5
32
1, 2

2, 5
5, 65
1, 2

0, 44
 2, 72
Na Tabela C, inserida no apêndice do livro, temos que a área correspondente à
z  2, 72 é 0,0033. Como o teste é unilateral à esquerda, o valor P é igual à área à
esquerda de z  2, 72 , ou seja, P = 0, 0033 .
Como P < 0, 01 , devemos rejeitar a hipótese nula.
Isso significa que, no nível de significância 1%, temos evidências suficientes para con-
cluir que a média do tempo de produção dos hambúrgueres é menor que 20 minutos.

UNIDADE 7 209
Teste de Hipóteses para a Média
(Amostras Pequenas)

Vamos utilizar os mesmos procedimentos descritos anteriormente para testar afir-


mativas sobre uma média populacional para amostras pequenas. Os métodos, aqui
apresentados, usam a distribuição de amostragem t com n −1 graus de liberdade,
cujos valores críticos e valores P encontram-se na Tabela B, inserida no apêndice
do livro.

Tenha sua dose extra de conhecimento assistindo ao vídeo.


Para acessar, use seu leitor de QR Code.

17 EXEMPLO Uma revendedora de carros diz que o preço médio do Onix 2015 é de no mínimo R$
33.000,00. Para testar a afirmação, coletamos 16 preços e dessa amostra extraímos uma
média de R$ 32.500,00 e desvio padrão de R$ 1.500,00. Considerando que a variável
é normalmente distribuída, verifique se temos condições de rejeitar a hipótese, para
um nível de significância de 0,05.
Temos que a afirmação é: “a média do preço do Onix 2015 é de no mínimo R$
33.000,00”, logo as hipóteses são:
H 0 : µ ≥ 33000
H A : µ < 33000

O teste é unilateral à esquerda, e são 15 os graus de liberdade ( g .l.  16  1  15 ).


Consultando na Tabela B, descrita no apêndice do livro, temos que o valor critico é
tc  1, 753 , ou seja, a região de rejeição é t  1, 753 .
Calculando a estatística do teste padronizado t, temos que:
32500  33000
t
1500
16
500

1500
4
500

375
 1, 33

210 Estatística Inferencial: Estimação e Teste de Hipóteses


Como t não está na região de rejeição, falhamos em rejeitar a hipótese nula.
Assim, pode-se concluir que não há evidência suficiente, no nível de significância
de 5%, para apoiar a afirmação que a média do preço do Onix 2015 é de no mínimo
R$ 33.000,00.

Teste de Hipótese para Proporção

Iremos testar uma afirmativa feita sobre uma proporção populacional. Lembrando
que, se n  p  5 e n  q  5 para uma distribuição binomial, então um distribuição
amostral para p é normal, com µ = p e σ p q .
n
18 EXEMPLO Uma pesquisa declara que entre 500 trabalhadores selecionados aleatoriamente, 65%
obtiveram seus empregos por meio de anúncios na internet. Use os dados amostrais
com um nível de significância de 0,05 para testar a afirmativa de que a maioria dos
trabalhadores (mais de 50%) obtém seus empregos por meio de anúncios na internet.
Os produtos n  p  500  0, 5  250 e n  q  500  0, 5  250 são maiores que 5 e,
portanto, podemos usar um teste z.
A afirmação é: “mais de 50% dos trabalhadores obtém seus empregos por meio
de anúncios na internet”. Então as hipóteses são:

H 0  p  0, 5
H A  p  0, 5

A estatística de teste é:
0, 65  0, 5
z
0, 5  0, 5
500
0, 15

0, 25
500
0, 15

0, 0005
0,15

0, 022
 6, 81

UNIDADE 7 211
Como o teste é unilateral à direita, com uma estatística de teste z = 6, 81 , o valor P
é a área à direita de z = 6, 81 . Consultando a Tabela A, inserida no apêndice do livro,
temos que, para valores de z = 3, 50 e maiores, usamos 0,0001 para a área acumulada
à direita da estatística de teste. Logo, o valor P é 0,0001.
Como o valor P de 0,0001 é menor do que nível de significância a = 0, 05 , re-
jeitamos a hipótese nula.
Portanto, podemos concluir que há evidências amostrais suficientes para apoiar
a afirmativa de que a maioria dos trabalhadores obtém seus empregos por meio de
anúncios na internet.

Teste de Hipótese para Variância

Os procedimentos para o teste de hipótese, para a variância e o desvio padrão, se-


guem os mesmos procedimentos que vimos até o momento, mas, agora, utilizando
a distribuição qui-quadrado.

19 EXEMPLO Uma pizzaria afirma que o desvio padrão no tempo de entrega das pizzas é menor
que 4 minutos. Uma amostra aleatória de 24 tempos de entrega tem um desvio padrão
de 3,2 minutos. Com a = 0, 01 , há evidência suficiente para suportar a afirmação da
pizzaria? Suponha que a população seja normalmente distribuída.
A afirmação é: “o desvio padrão no tempo de entrega das pizzas é menor que 4
minutos”. Logo, as hipóteses são:

H0 : s  4
HA :s  4

212 Estatística Inferencial: Estimação e Teste de Hipóteses


O teste é unilateral à esquerda, com nível de significância a = 0, 01 , e 23 graus de
liberdade ( g .l.  24  1  23 ). Procurando na Tabela C, encontramos que o valor
2
crítico é χ 0  14 848.
2
A região de rejeição é χ 0  14 848. A estatística de teste padronizado é:

(24  1)  (3, 2)2


c2 
( 4 )2
23  10, 24

16
235, 52

16
 14, 72
2
Como c está na região de rejeição, devemos rejeitar a hipótese nula.
Assim, no nível de significância de 10%, há evidência suficiente para dar suporte
à afirmação de que o desvio padrão para o tempo de entrega das pizzas é menor que
4 minutos.
Finalizamos os estudos da Unidade 7, em que pudemos aprofundar nossos conhe-
cimentos sobre a inferência estatística, no que diz respeito às estimativas e tamanhos
amostrais, e também sobre os testes de hipóteses.

UNIDADE 7 213
Você pode utilizar seu diário de bordo para a resolução.

1. Sabendo que os testes de QI são comumente planejados de forma que a média


seja 100, com desvio padrão 15, determine quantos professores de matemática
devem ser selecionados aleatoriamente para que estejamos 95% confiantes em
que a média amostral estará a menos de 3 pontos de QI da média populacional.

2. Na opinião de 65% de 500 brasileiros entrevistados, os jovens são os motoristas


mais imprudentes. Sabendo disso, construa um intervalo de 90% de confiança
para a população de adultos que acham que os adolescentes são os motoristas
mais imprudentes.

3. Os professores de uma universidade afirmam que a média dos seus salários é


menor que a de sua concorrente, que é de R$40.000,00 por ano. Uma amostra
aleatória de 30 professores tem média de salário de R$ 38.500,00 com desvio
padrão de R$ 3.000,00. Com α = 0,05 , teste a afirmação dos professores, utili-
zando o método tradicional.

214
LIVRO

Estatística geral e aplicada


Autor: Gilberto de Andrade Martins
Editora: Atlas
Sinopse: este livro é resultado de longa experiência profissional do autor no
campo da Estatística Geral e Aplicada, Cálculo das Probabilidades e Metodologia
Científica, disciplinas lecionadas e aplicadas nos cursos de graduação e pós-gra-
duação, nas áreas de Humanas e Exatas. O objetivo básico desta publicação
é estimular e energizar alunos e profissionais interessados em compreender
e aplicar, com segurança, conhecimentos técnicos da Estatística para tomada
de decisões e suporte às análises de resultados quantitativos e qualitativos de
pesquisas empírico-analíticas.

215
BONAFINI, F. C. Estatística. São Paulo: Pearson Education do Brasil, 2012.

LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 6. ed. São Paulo: Editora da
Universidade de São Paulo, 2008.

MARTINS, E. Contabilidade de custos. 10. ed. São Paulo: Atlas, 2010.

TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

216
1. Para encontrarmos n fazemos:
2
 15 
n   1, 96  
 3
 (1, 96  5)2
 (9, 8)2
 96, 04
2. Temos que:
p  0, 65

q  1  0, 65  0, 35
Considerando 90% de confiança, temos que:

E  1, 645 
 0, 65  0, 35 
500
0, 2275
 1, 645 
500
 1, 645  0, 000455
 1, 645  0, 021
 0, 035
Portanto, o intervalo de confiança é de:
0, 65  0, 035  p  0, 65  0, 035
0, 615  p  0, 685

217
3. Temos que a afirmação é: “a média dos salários é menor do que R$ 40.000,00”. Logo, as hipóteses são:

H 0 : µ ≥ 40000
H A : µ < 40000
O teste é unilateral à esquerda com a = 0, 05 , então o valor critico é z0  1, 645 , de modo que a região
de rejeição é z0  1, 645 .

A estatística do teste padronizada é:

38500  40000
z
3000
30
1500

3000
5, 48
1500

547, 45
 2, 74

Como z está na região de rejeição, pode-se concluir que há evidências suficientes no nível de significância
de 5% para apoiar a afirmação dos professores de que a média do salário é menor do que R$ 40.000,00.

218
219
220
Me. Rebecca Manesco Paixão

Inferência a Partir
de Duas Amostras

PLANO DE ESTUDOS

Diferença entre Teste de Ajuste


Proporções Qui-Quadrado

Diferença entre Teste F para Comparação


as Médias de Variâncias

OBJETIVOS DE APRENDIZAGEM

• Testar a diferença entre as médias de amostras indepen- • Estudar o teste de ajuste qui-quadrado para testar se uma
dentes e dependentes. distribuição de frequência se encaixa em uma distribuição
• Testar a diferença entre duas proporções amostrais. esperada.
• Estudar o teste F para comparar variâncias.
Diferença Entre
as Médias

Caro(a) aluno(a), na presente unidade vamos


continuar os estudos sobre estatística inferencial
e teste de hipóteses, mas, agora, comparando duas
populações. Para isso, precisamos, primeiramente,
diferenciar amostras dependentes de amostras
independentes.
Duas amostras são independentes se a amos-
tra selecionada de uma das populações não é re-
lacionada ou, de alguma forma, emparelhada ou
combinada à amostra selecionada da outra popu-
lação. Por outro lado, duas amostras são depen-
dentes (ou consistem em dados emparelhados)
se cada elemento de uma amostra corresponde a
um elemento da outra amostra.
Diferença entre as Médias
(Amostras Grandes e Independentes)

Considerando duas amostras independentes, para testar uma afirmativa sobre a


diferença µ1 − µ2 , as seguintes condições devem ser atendidas:

• As amostras devem ser selecionadas aleatoriamente.


• Cada tamanho de amostra deve ser pelo menos 30 ou, se não, cada população
deve ter uma distribuição normal com desvio padrão conhecido.

A média da diferença da média amostral é a diferença presumida entre as duas médias


populacionais. Quando nenhuma diferença é presumida, a média é 0:
µx  µx  µx
1  x2 1 2

 µ1  µ2

A variância de distribuição amostral é a soma das variâncias das distribuições amos-


trais individuais para x1 − x2 . O erro padrão é a raiz quadrada da soma das variâncias:
s x1  x2  s 2x1  s 2x2

s12 s22
 
n1 n2
Como a distribuição amostral para x1  x2 é uma distribuição normal, podemos
utilizar o teste z para testar a diferença entre as duas médias populacionais:

z
 x1  x2    µ1  µ2 
σ x1  x2

em que

s12 s22
s x1  x2  
n1 n2

Atente-se que, quando as amostras são grandes, podemos usar s1 e s2 no lugar de s1


e s2 .

UNIDADE 8 223
No teste de hipótese, temos que:

• A hipótese nula H 0 é uma hipótese estatística que geralmente diz que não
há diferença entre os parâmetros de duas populações. Essa hipótese sempre
contém os símbolos ,  ou  .
• A hipótese alternativa H A é uma hipótese estatística que é verdadeira quando
é falso. Essa hipótese sempre contém o símbolo >, ≠ ou < .

Se a hipótese nula diz µ1 = µ2 , µ1 ≤ µ2 ou µ1 ≥ µ2 , então presume-se que µ1 = µ2 , e


que a expressão µ1 − µ2 é igual a zero.
Atente-se que o teste de hipóteses pode ser feito da forma como vimos na uni-
dade anterior, tanto determinando os valores críticos e as regiões de rejeição como
usando valores P.

1 EXEMPLO Uma organização afirma que há uma diferença entre a média de salário de homens e
de mulheres. Os resultados de uma pesquisa aleatória de 200 indivíduos encontram-se
na Tabela 1. As duas amostras são independentes. Usando a = 0, 05 , os resultados
apoiam a afirmação?
Tabela 1 - Estimação amostral das médias salariais – Exemplo 1

Mulheres Homens

R $2290
x1  R$2290 R $2370
x2  R$2370
R $750
s1  R$750 R $800
s2  R$800
200
n1  200 200
n2 200
Fonte: a autora.

Queremos testar a afirmação de que “há uma diferença na média dos salários”. As
hipóteses são:

H 0 : µ1 = µ2

H A : µ1 ≠ µ2

Como as amostras são grandes, podemos usar s1 e s2 no lugar de s1 e s2 . Logo, a


estatística de teste padronizado é dada por:

224 Inferência a Partir de Duas Amostras


z
 2290  2370   0
 750 2   800 2
200 200
80

562500 640000

200 200
80

2812, 5  3200
80

6012, 5
80

77, 5
 1, 03

Como o teste é bilateral, e o nível de significância é a = 0, 05 , os valores críticos são


 zc  1, 96 e zc = 1, 96 , ou seja, as regiões de rejeição são z  1, 96 e z > 1, 96 .
Como z não está na área de rejeição, falhamos em rejeitar a hipótese nula.
Isso significa que, no nível de significância de 5%, há evidência suficiente para
apoiar a afirmação da organização de que existe uma diferença na média dos salários
de homens e mulheres.

Diferença entre as Médias


(Amostras Pequenas e Independentes)

Neste item, vamos aprender a testar a diferença entre as médias de duas populações
pequenas, utilizando o teste t. Para tanto, as seguintes condições são necessárias:
• As amostras devem ser independentes.
• As amostras devem ser selecionadas aleatoriamente.
• Cada população deve ter uma distribuição normal.

A estatística de teste padronizada é dada por:

t
 x1  x2    µ1  µ2 
σ x1  x2

O erro padrão e os graus de liberdade dependem se as variâncias das populações


s12 e s22 são iguais.

UNIDADE 8 225
No caso em que as variâncias da população são iguais, a informação das duas
amostras é combinada para calcular uma estimativa coligada do desvio padrão s :

s 
 n1  1 s12   n2  1 s22
n1  n2  2

O erro padrão para a distribuição de amostragem x1 − x2 é:

1 1
s x1  x2  s 
n1 n2

g .l.  n1  n2  2

No caso em que as variâncias da população não são iguais, o erro padrão é:

s12 s22
s x1  x2  
n1 n2

g .l.  menor que n1 - 1 ou n2  1

2 EXEMPLO Um fabricante afirma que o alcance de chamada do seu telefone sem fio é maior do
que o do seu principal concorrente. Você realiza um estudo com 6 telefones selecio-
nados aleatoriamente deste fabricante e 8 telefones similares, do concorrente, sele-
cionados aleatoriamente. Os resultados encontram-se na Tabela 2. Assumindo que
as populações são, normalmente, distribuídas e que as variâncias de população são
iguais, em a = 0, 05 , você pode apoiar a afirmação do fabricante?

Tabela 2 - Estatística amostral para alcance de chamada – Exemplo 2

Fabricante Concorrente

1250metros
x1  1250 1200
x2 120 metros

40metros
s1  40 25metros
s2  25
n1  66 n2  68
Fonte: a autora.

226 Inferência a Partir de Duas Amostras


Queremos testar a afirmação de que “a média de alcance do telefone sem fio do fa-
bricante é maior que a média de alcance do principal concorrente”. As hipóteses são:

H 0 : µ1 ≤ µ2

H A : µ1 > µ2

Já que as variâncias são iguais, g .l.  6  (8  2)  6  6  12 .


Como o teste é unilateral à direita, com g .l. = 12 e a = 0, 05 , o valor critico é
tc = 1, 782 ; logo, a região de rejeição é t > 1, 782 .
O erro padrão é:
(5)(40)2 (7)(25)2 1 1
σx x2
1 6 8 2 6 8
(5)(1600) (7)(625) 1 1
6 8 2 6 8
8000 4375 7
12 24
12375 7
12 24
32, 11 0, 54
17, 34

A estatística de teste padronizada é:


(1250  1200)  0
t
17, 34
50

17, 34
 2, 88
Como t está na região de rejeição, devemos rejeitar a hipótese nula.
Portanto, no nível de significância 5%, há evidência suficiente para apoiar a afir-
mação do fabricante de que o seu telefone tem um alcance de chamada maior do
que o do concorrente.

UNIDADE 8 227
A Figura 1 ilustra um resumo para os testes para as médias de duas amostras
independentes. Observe:

O tamanho de ambas
amostras é pelo Sim Use o teste z.
menos 30?
Não

Ambas populações Você não pode usar


Não
são normais? o teste z ou o teste t.

Sim
Use o teste t com
Os desvios padrões As variâncias da σ x1 - x2 = 1 1
+
de ambas populações Não Sim n1 n2
população são iguais?
são conhecidos?
e g.l = n1 - 1 + n2 - 2.
Sim Não

Use o teste z. Use o teste t com

σ x1 - x2 = s12 + s12
n1 n2
e g.l = menor que
n1 - 1 or n2 - 1.

Figura 1 - Testes para duas amostras independentes


Fonte: Larson e Farber (2010, p. 363).

Diferença entre as Médias


(Amostras Dependentes)

Anteriormente, aprendemos a testar hipóteses de duas amostras independentes,


usando o teste estatístico x1  x2 . Agora, para realizar um teste de hipótese de duas
amostras dependentes, vamos usar um método diferente.
Primeiramente, precisamos encontrar a diferença para cada dado emparelhado,
dada por:

d  x1  x2

A estatística do teste é a média d dessas diferenças:

228 Inferência a Partir de Duas Amostras


d
d
n

Cuja estatística de teste padronizada é:

d − µd
t=
sd
n

em que µd é a média hipotética das diferenças de dados emparelhados na população,


e sd é o desvio padrão das diferenças entre entradas de dados emparelhados nas
amostras dependentes, calculada por:

d  d 
2

sd 
n 1

Os graus de liberdade são: g .l.  n 1 .


Atente-se que, para conduzir o teste, as seguintes condições devem ser atendidas:
• As amostras devem ser selecionadas aleatoriamente.
• As amostras devem ser dependentes (emparelhadas).
• As populações devem ser, normalmente, distribuídas.

Quando estes requisitos são atendidos, a distribuição é aproximada por uma distri-
buição t com n −1 graus de liberdade, onde n é o número de dados emparelhados.

3 EXEMPLO Um fabricante de tênis afirma que os corredores podem diminuir seus tempos
de corrida com seu novo tênis para corrida. Oito corredores são selecionados
aleatoriamente e têm seus tempos medidos antes e após usarem os tênis. Os
tempos são mostrados na Tabela 3. Assumindo que sejam distribuídos
normalmente, existe evidência suficiente para apoiar a afirmação em a = 0, 10 ?
Tabela 3 - Tempos de corrida antes e após usar o tênis de corrida, em segundos – Exemplo 3
Corredor Tempo antigo Tempo novo
1 91 91
2 89 88
3 87 80
4 74 76
5 92 96
6 84 83
7 85 80
8 79 73
Fonte: a autora.

UNIDADE 8 229
A afirmação é que “os corredores podem diminuir seus tempos de corrida”, ou seja, o
tempo de corrida será maior sem usar o tênis, do que usando os novos tênis de corrida.
As hipóteses são:

H 0 : µd ≤ 0
H A : µd > 0

Para o cálculo da estatística de teste, precisamos encontrar d e sd :

Corredor Tempo antigo (s) Tempo novo (s) d d2


1 91 91 91-91=0 0
2 89 88 89-88=1 (1)2=1

3 87 80 87-80=7 (7)2=49

4 74 76 74-76=-2 (-2)2=4

5 92 96 92-96=-4 (-4)2=16

6 84 83 84-83=1 (1)2=1

7 85 80 85-80=5 (5)2=25

8 79 73 79-73=6 (6)2=36
14 132
14
d
= = 1, 75
8
2
 14 
132   
sd   8 
8 1
132  3, 0625

7
 18, 42
 4, 29

230 Inferência a Partir de Duas Amostras


Logo, assumindo µd = 0 a estatística de teste é:

1, 75  0
t
4, 29
8
1, 75

1, 52
 1, 15

Como o teste é unilateral à direita, com a = 0, 10 e g .l.  8  1  7 , o valor crítico é


tc = 1, 415 , logo, a área de rejeição é t > 1, 415 . Como t não está na região de rejeição,
falhamos em rejeitar a hipótese nula.
Isso significa que, no nível de significância de 10%, não há evidência suficiente
para apoiar a afirmação do fabricante.

UNIDADE 8 231
Diferença entre
Proporções

Neste item, vamos aprender a usar o teste z para


testar a diferença entre duas proporções de popu-
lação p1 e p2 , usando uma proporção amostral
de cada população.
Para usar o teste z para testar tal diferença, as
seguintes condições são necessárias:
• As amostras devem ser selecionadas aleatoriamente.
• As amostras devem ser independentes.
• As amostras devem ser grandes o suficiente para usar uma distribuição normal
amostral. Ou seja, n1  p1  5 , n1  q1  5 , n2  p2  5 e n2  q2  5 .

Caso as condições sejam satisfeitas, então a distribuição de amostragem para p1 − p2 ,
a diferença entre as proporções de amostra, é uma distribuição normal com média:

µ p  = p1 − p2
1 − p2

com erro padrão de:

p1q1 p2 q2
s p   
1  p2 n1 n2

Para calcular o erro padrão, precisamos saber as proporções de população. Como um


teste de hipótese p1 − p2 é baseado na suposição de que p1 = p2 , podemos calcular
uma estimativa ponderada de p1 − p2 usando:

x1  x2
p
n1  n2

em que x1  n1  p1 e x2  n2  p2 , de modo que x indica o número de sucessos na


amostra.
Com a estimativa ponderada p , o erro padrão da distribuição de amostragem
para p1 − p2 é:

1 1 
s p   pq   
1  p2
 n1 n2 

em que q  1  p .
Se a hipótese nula indica p1 = p2 , p1 ≤ p2 ou p1 ≥ p2 , então p1 = p2 é assumido
e a expressão p1 − p2 é igual a 0 no teste anterior.

UNIDADE 8 233
Tenha sua dose extra de conhecimento assistindo ao vídeo.
Para acessar, use seu leitor de QR Code.

4 EXEMPLO Em um estudo de 150 mulheres e 200 homens, selecionados aleatoriamente, ambos


usuários de dados móveis em aparelhos celulares, 35% das mulheres e 43% dos
homens disseram que usam os dados móveis ao menos uma vez durante o dia. Em
a = 0, 10 , teste a afirmação de que há uma diferença entre a proporção de mulheres
e a proporção de homens usuários de dados móveis.
Queremos determinar se há uma diferença entre as proporções. Então as hipó-
teses são:
H 0 : p1  p2
H A : p1  p2

O teste é bilateral, com nível de significância a = 0, 10 , logo, os valores críticos


são  zc  1, 645 e zc = 1, 645 . As áreas de rejeição são z  1, 645 e z > 1, 645 .
A estimativa ponderada da proporção da população é:

(150)(0, 35)  (200)(0, 43)


p
150  200
52, 5  86

350
138, 5

350
 0, 39
q  1  0, 39
 0, 61

234 Inferência a Partir de Duas Amostras


A estatística de teste padronizada é:

(0, 35  0, 43)  0
z
 1 1 
(0, 39)(0, 61)   
 150 200 
0, 08

(0, 2379)(0, 0016)
0, 08

0, 00038
0, 08

0, 0195
 4, 10

Como z está na área de rejeição, devemos rejeitar a hipótese nula.


Isso significa que temos evidências suficiente, no nível de significância de 10%,
para concluir que existe uma diferença entre a proporção de mulheres e de homens
usuários de dados móveis.

UNIDADE 8 235
Teste F para Comparação
de Variâncias

Este item apresenta o teste F que usa duas amos-


tras na comparação de duas variâncias (ou desvios
padrões) populacionais. Para isso, os seguintes
requisitos devem ser atendidos:
• As amostras devem ser aleatoriamente se-
lecionadas.
• As amostras devem ser independentes
uma da outra.
• As amostras são ambas normalmente dis-
tribuídas.

236 Inferência a Partir de Duas Amostras


A estatística de teste é dada por:
s12
F=
s22

Os graus de liberdade para o numerador é g .l.N  n1  1, e os graus de liberdade para


o denominador é g .l.D  n2  1; onde n1 é o tamanho da amostra tendo variâncias
s12, e n2 é o tamanho da amostra tendo variâncias s22 .
Atente-se que, matematicamente, não importa qual amostra é designada por
2
amostra 1, de modo que s1 é usado para representar a maior das duas variâncias
amostrais; isso significa que F é sempre maior ou igual a 1.
A Figura 2 ilustra as distribuições F, enquanto a Tabela D, inserida no apêndice
do livro, lista os valores críticos para a distribuição F para níveis de significância
selecionados a e graus de liberdade g .l.N e g .l.D . Atente-se que, se o teste de hipó-
tese for unilateral, usamos a da Tabela D, descrita no apêndice do livro; caso o
1
teste de hipótese for bilateral, então usamos a da Tabela F.
2

g.l.N = 1 e g.l.D = 8
g.l.N = 8 e g.l.D = 26

g.l.N = 16 e g.l.D = 7

g.l.N = 3 e g.l.D = 11

F
1 2 3 4

Figura 2 - Distribuições F
Fonte: Larson e Farber (2010, p. 462).

UNIDADE 8 237
5 EXEMPLO O gerente de uma rede fast food está fazendo um sistema, que diminui a variância de
tempo que os clientes esperam antes das suas refeições ficarem prontas. No antigo
sistema, uma amostra aleatória de 25 clientes teve uma variância de 300 segundos2.
Com o novo sistema, uma amostra aleatória de 17 clientes teve uma variância de
180 segundos2. Com µ = 0, 10 , há evidência suficiente para adotar o sistema novo?
Suponha que as populações sejam normalmente distribuídas.
A afirmação é “a variância do tempo de espera no novo sistema é menor que a
variância do tempo de espera no antigo sistema”. Logo, as hipóteses são:

H 0 : s12  s22
H A : s12  s22
O teste é unilateral à direita. Com α  0, 10, g .l.N  25  1  24 e g .l.D  17  1  16,
o valor crítico é Fc = 1, 87 .
O teste estatístico é:

300
F=
180
= 1, 667

Como F não está na área de rejeição, não devemos rejeitar a hipótese nula.
Isso significa que não há evidência suficiente para a rede de fast food trocar para
o novo sistema.

238 Inferência a Partir de Duas Amostras


Teste de Ajuste
Qui-Quadrado

O teste de ajuste qui-quadrado é usado para


testar se uma distribuição de frequência se encaixa
em uma distribuição esperada.
Para o teste de ajuste qui-quadrado, primeira-
mente, devemos determinar as hipóteses nula e
alternativa. A hipótese nula geralmente determina
que a distribuição de frequência se encaixa na
distribuição específica, enquanto que a hipótese
alternativa determina que a distribuição de fre-
quência não se encaixa na distribuição específica.

UNIDADE 8 239
No cálculo do teste estatístico, usamos as frequências observadas e as frequências
esperadas. A frequência observada O diz respeito à frequência da categoria obser-
vada nos dados da amostra, enquanto que a frequência esperada E é a frequência
calculada para a categoria.
A frequência esperada é obtida supondo a distribuição específica (ou hipotética),
dada por:

Ei  n  pi

em que n é o tamanho da amostra e pi é a probabilidade afirmada da i-ésima ca-


tegoria.
A estatística de teste para o teste de ajuste qui-quadrado, com k −1 graus de
liberdade, é dada por:

c 
2  O  E 2
E

“Quando há grandes discrepâncias entre as frequências observadas e as frequências


esperadas, as diferenças entre O e E serão grandes, resultando em uma grande
estatística qui-quadrada. Uma estatística de teste grande qui-quadrado é uma evi-
dência para rejeitar a hipótese nula. Então, o teste de ajuste qui-quadrado é sempre
um teste unilateral à direita”.
Fonte: Larson e Farber (2010, 442).

A diretora de uma escola faz uma pesquisa sobre as preferências musicais de 200
estudantes selecionados aleatoriamente. Os resultados encontram-se na Tabela 4.
Usando a = 0, 01 , faça um teste de ajuste qui-quadrado para testar se as distribuições
são diferentes.

240 Inferência a Partir de Duas Amostras


Tabela 4 - Preferência musical dos estudantes – Exemplo 6
Frequência Frequência
Tipo de música % de ouvintes
observada esperada
Rock 20 17 200•0,2=40
MPB 5 31 200•0,05=10
Sertanejo 35 58 200•0,35=70
Funk 15 34 200•0,15=30
POP 25 60 200•0,25=50
Fonte: a autora.

Como as frequências observadas foram obtidas usando uma amostra aleatória, e cada
frequência esperada é no mínimo 5, podemos usar o teste de ajuste qui-quadrado
para testar a distribuição proposta. As hipóteses são:
H 0 : a distribuição de preferências musicais dos estudantes é de 20% rock,
5% MPB, 35% sertanejo, 15% funk e 255% POP
H A : a distribuição de preferências musicais dos estudantes difere da
distribuição esperada ou afirmada

Com as frequências observadas e esperadas, o teste estatístico qui-quadrado é:


2 2 2 2 2
c 2

17  40   31  10   58  70   34  30   60  50 
   
40 10 70 30 50
2 2 2 2 2

 23  
 21 
 12  
4 
10 
40 10 70 30 50
529 441 144 16 100
    
40 10 70 30 50
 13, 225  44,1  2, 057  0, 533  2
 61, 915

Como há 5 categorias musicais, a distribuição qui-quadrado tem g .l.  5  1  4


2
graus de liberdade. Com a = 0, 01 , o valor crítico é χc  13, 277.
2
Como c está na região de rejeição, devemos decidir rejeitar a hipótese nula.
Isso significa que, no nível de 1% de significância, há evidência suficiente para
concluir que a distribuição de preferências musicais difere da distribuição esperada.
Assim, finalizamos nossos estudos sobre a inferência a partir de duas amostras.
Na Unidade 9, vamos estudar sobre correlação e regressão linear.

UNIDADE 8 241
Você pode utilizar seu diário de bordo para a resolução.

1. Classifique o par de amostras como dependente ou independente:


Amostra 1: ritmo cardíaco em descanso de 20 indivíduos.
Amostra 2: ritmo cardíaco dos mesmos indivíduos depois de correr por meia
hora na esteira.

2. Uma equipe médica conduziu um estudo para testar o efeito de um medicamento


na cura do câncer de mama. Ao final do estudo, os pesquisadores descobriram
que, das 1.800 mulheres selecionadas aleatoriamente que tomaram o medica-
mento, 360 morreram. Das 2.000 mulheres selecionadas aleatoriamente que
tomaram o placebo, 500 morreram. Em a = 0, 10 , você pode concluir que a
taxa de mortalidade por câncer de mama é menor para aquelas mulheres que
tomaram a medicação do que para aquelas que tomaram o placebo? Teste a
diferença de proporções.

3. O produtor de confetes afirma que o número de unidades de confetes de cores


diferentes nas embalagens é uniformemente distribuído. Para testar a afirmação,
você seleciona aleatoriamente uma embalagem que contém 100 confetes. Os
resultados encontram-se na Tabela abaixo. Usando a = 0, 10 , faça um teste de
ajuste qui-quadrado para testar as distribuições esperadas e afirmadas.

Cor Frequência
Amarelo 17
Azul 15
Laranja 20
Marrom 13
Verde 14
Vermelho 21

242
LIVRO

Estatística aplicada
Autor: Ron Larson e Betsy Farber
Editora: Pearson
Sinopse: este livro apresenta os temas essenciais da estatística, como probabili-
dade, intervalos de confiança e testes de hipóteses. Esta 6ª edição foi totalmente
revista e atualizada, principalmente os tópicos sobre coleta de dados, medidas de
variação, medidas de posição e, em especial, o uso e a definição da distribuição
normal e a distribuição T. Além disso, conta com mais de 200 exemplos e 2.300
exercícios propostos. Obra fundamental para alunos dos cursos de administra-
ção, ciências contábeis, economia e de graduação em tecnológica em gestão.

243
BONAFINI, F. C. Estatística. São Paulo: Pearson Education do Brasil, 2012.

LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 6. ed. São Paulo: Editora da
Universidade de São Paulo, 2008.

TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

244
1. As amostras são dependentes, uma vez que o ritmo cardíaco dos mesmos indivíduos é analisado tanto em
descanso como após a atividade física.

2. Queremos determinar se a taxa de mortalidade por câncer de mama é menor para aquelas que tomaram
a medicação do que para aquelas que tomaram o placebo. As hipóteses são:

H 0 : p1  p2
H A : p1  p2

O teste é unilateral à esquerda, com a = 0, 10 . O valor critico é zc  2, 33 , e portanto a área


de rejeição é z  2, 33 .

A estimativa ponderada é:

p  360  500
1800  2000
860

3800
 0, 23
q  1  0, 23
 0, 77
O teste z é:

 360 500 
  0
 1800 2000 
z
 1 1 
(0, 23)(0, 77)   
 1800 2000 


 0, 2  0, 25   0
(0, 23)(0, 77)(0, 00105)
0, 05

0, 000186
0, 05

0, 0136
 3, 67

Como z está na região de rejeição, devemos decidir em rejeitar a hipótese nula.

245
Isso significa que, no nível de significância de 1%, há evidência suficiente para concluir que a taxa
de mortalidade por câncer de mama é menor para aquelas mulheres que tomaram a medicação
do que para aquelas que tomaram o placebo.

3. A afirmação do fabricante de confetes é que a distribuição é uniforme, o que quer dizer que as
frequências esperadas das cores são iguais. Para encontrar E, basta dividirmos o tamanho das
frequências pelo número de cores; logo, E=100/6=16,67.

As hipóteses são:

H 0 : a distribução de confetes de cores diferentes nas embalagens é uniforme


H A : a distribução de confetes de cores diferentes nas embalagens não é uniforme

Como há seis categorias, a distribuição qui-quadrado tem g .l. = 5 e com a = 0, 10 , o valor critico
2
é cc = 9, 236 .

O teste estatístico qui-quadrado é:


2 2 2 2 2 2
2
c 
17  16, 67  15  16, 67   20  16, 67  13  16, 67  14  16, 67   21  16, 67 
    
16, 67 16, 67 16, 67 16, 67 16, 67 16, 67
2 2 2 2 2 2

 0, 33   1, 67   3, 33   3, 67   2, 67   4, 33 
    
16, 67 16, 67 16, 67 16, 67 16, 67 16, 67
0, 1089 2, 7889 11, 0889 13, 4689 7,1289 18, 7489
     
16, 67 16, 67 16, 67 16, 67 16, 67 16, 67
 0, 0065  0,1673  0, 6652  0, 8079  0, 4276  1, 1247
 3, 1994
Como c2 não está na região de rejeição, devemos decidir não rejeitar a hipótese nula.
Isso significa que, com um nível de significância de 10%, não há evidência suficiente para se opor
à afirmação do fabricante de que a distribuição de confetes de cores diferentes em embalagens
seja uniforme.

246
247
248
Me. Rebecca Manesco Paixão

Correlação e
Regressão

PLANO DE ESTUDOS

Regressão Linear

Correlação Linear Erro Padrão da Estimativa

OBJETIVOS DE APRENDIZAGEM

• Estudar a correlação linear entre duas variáveis. • Calcular o erro padrão da estimativa para construir um
• Determinar a linha de regressão. intervalo estimado para y .
Correlação Linear

Caro(a) aluno(a), comumente estamos interes-


sados no comportamento conjunto de várias va-
riáveis. Dessa forma, para finalizarmos nossos es-
tudos sobre Estatística e Probabilidade, vamos
estudar duas medidas estatísticas que permitem
medir o grau de associação entre duas variáveis:
a correlação e a regressão linear.
Dizemos que existe correlação entre duas va-
riáveis quando ambas se relacionam de alguma
forma. Logo, no estudo da correlação linear, de-
sejamos verificar a existência de uma dependência
linear entre as variáveis, assim como seu grau.
A base de referência da correlação é o par ordenado ( x, y ) , de modo que um
valor é disposto no eixo x (independente) e o outro valor no eixo y (dependente).
Neste sentido, poderá haver os seguintes tipos de correlação linear, ilustrados nos
diagramas de dispersão apresentados na Figura 1:
• Correlação linear positiva: ocorre quando, à medida que x aumenta, y
também aumenta.
• Correlação linear negativa: ocorre quando, à medida que x aumenta, y
decresce.
• Correlação não linear: a relação entre as duas variáveis não se dá no formato
de uma reta.
• Não há correlação: quando os pares ordenados não apresentam correlação
entre si.

Correlação linear Correlação linear


positiva negativa
15 20
15
10
10
5 5
0 0
0 5 10 15 20 0 5 10 15 20

Correlação não linear Não há correlação


8 25
6 20
15
4
10
2 5
0 0
0 5 10 15 0 5 10 15 20

Figura 1 - Tipos de correlações lineares


Fonte: a autora.

Dessa forma, apenas observando um diagrama de dispersão, podemos inferir so-


bre a correlação dos dados. No entanto, essa inferência pode ser subjetiva. Assim, é
conveniente calcular o grau de correlação por meio do coeficiente de correlação
linear, cujo nome formal é “coeficiente de correlação produto-momento de Pearson”
em homenagem ao estatístico inglês Karl Pearson (1857-1936).

UNIDADE 9 251
Coeficiente de Correlação Linear

O coeficiente de correlação linear amostral é representado pela letra r , cuja


fórmula de cálculo é dada por:

n  x  y   x  y
r
 n x    x     n y    y  
2 2 2 2

em que n é a quantidade de dados, enquanto que os outros termos são relativos às


somatórias dos valores para x e para y . É importante destacar que, se tivéssemos
todos os pares dos valores populacionais x e y , o resultado da fórmula seria um
parâmetro populacional, representado por r .
A intensidade do coeficiente pode variar entre os valores de −1 e 1 , de modo
que, quanto mais próximo de −1 ou de 1 , maior será a associação entre as duas
variáveis. Quando r = 1 , há uma correlação perfeita positiva, de modo que os pares
estão alinhados em linha reta com coeficiente angular positivo. Quando r  1 , há
uma correlação perfeita negativa, de modo que os pares estão alinhados em linha
reta com coeficiente angular negativo. Quando r = 0 , não há dependência linear
entre as variáveis.

2
Não confunda x com  x2 . No primeiro, fazemos a soma de todos os valores, e
elevamos ao quadrado o valor final; no segundo, calculamos o quadrado de cada
um dos termos e depois somamos todos os valores.

252 Correlação e Regressão


1 EXEMPLO Verifique se há correlação entre a massa corporal e o consumo anual de água de 5
indivíduos entrevistados.
Tabela 1 - Relação entre a massa corporal e o consumo anual de água de 5 indivíduos – Exemplo 1
Consumo anual de
Individuo Massa corporal (kg)
água (L)
1 80 480
2 65 320
3 85 500
4 50 280
5 70 450
Fonte: a autora.

O cálculo do coeficiente de correlação é dado por:


Massa Consumo
corporal anual de x•y x2 y2
(kg) água (L)

80 480 80 • 480 = 38400 80 • 80 = 6400 480 • 480 = 230400

65 320 65 • 320 = 20800 65 • 65 = 4225 320 • 320 = 102400

85 500 85 • 500= 42500 85 • 85 = 7225 500 • 500 = 250000

50 280 50 • 280 = 14000 50 • 50 = 2500 280 • 280 = 78400

70 450 70 • 450 = 31500 70 • 70 = 4900 450 • 450 = 202500

2 2
x 350 y 2030 x y 147200 x 25250 y 863700

r
 5 147200    350  2030 
5  25250  350   5  863700  2030 
2 2

736000  710500

126250  122500  4318500  4120900
25500

3750  197600
25500

61, 24  444, 52
25500

27221, 4
 0, 936

UNIDADE 9 253
Assim, podemos concluir que há uma forte correlação linear positiva entre os dados,
uma vez que r é próximo de 1. Ou seja, quanto maior a massa corporal do individuo,
maior é o consumo anual de água.
Ao traçarmos um diagrama de dispersão para as duas variáveis, essa relação fica
mais clara. Observe a Figura 2.
Consumo anual de água (L) 600

500

400

300

200

100

0
0 20 40 60 80 100
Massa corporal (kg)
Figura 2 - Dispersão da massa corporal e o consumo de água por ano – Exemplo 1
Fonte: a autora.

O coeficiente r mede a intensidade da relação linear existente entre x e y. Dessa


forma, o coeficiente não pode ser utilizado para medir a intensidade de uma relação
que não seja linear.

Será que, baseado em poucos pares de dados, é possível fazer uma inferência sobre
uma população de todos pares de dados?
Muitas vezes, queremos determinar se há evidências suficientes para decidir se o
coeficiente de correlação é significante. E esta determinação pode ser feita a partir
do valor calculado de r . Se o valor absoluto de r excede o valor crítico (Tabela E,
no apêndice do livro) no nível de significância adotado, podemos concluir que há
evidências suficientes para dizer que há correlação significante entre as duas variáveis.
Dessa forma, seja r = 0, 936, calculado no Exemplo 1, utilizando um nível de
significância de 0,05, podemos concluir que há correlação entre x e y , uma vez que
r > 0, 878 . No entanto, se utilizarmos o nível de significância de 0,01, concluiremos
que não há correlação, uma vez que r < 0, 959 .

254 Correlação e Regressão


Atente-se! Por mais que existam duas variáveis com alto coeficiente de correlação
entre si, devemos ser cautelosos ao afirmarmos que existe uma relação de
causalidade entre elas. Isso por que, quando estamos trabalhando com estatística,
não podemos inferir uma relação de causalidade: uma variável não “causa” a
outra variável.
Fonte: Bonafini (2012).

Teste de Hipótese para Existência de Correlação

Também é possível usar um teste de hipóteses para determinar se o coeficiente de


correlação de amostra r fornece evidência suficiente para concluir que o coeficien-
te de correlação r de uma população é significante. As possíveis hipóteses são:

• Teste unilateral à esquerda

H 0 : r  0 (não há correlação negativa significante)


H A : r  0 (correlação negativa significante)

• Teste unilateral à direita

H 0 : r  0 (não há correlação positiva significante)


H A : r  0 (correlação positiva significante)

• Teste bilateral

H 0 : r  0 (não há correlação significante)


H A : r  0 (correlação significante)

Um teste t pode ser usado se a correlação entre duas variáveis for significante. A
estatística de teste é dada por:

r
t
1  r2
n2
Os valores críticos de t encontram-se na Tabela F com n − 2 graus de liberdade.

UNIDADE 9 255
2 EXEMPLO Uma amostra revelou que o coeficiente de correlação entre o nível de renda e a
porcentagem de doações para um grupo de 47 pessoas é de 0,78. Teste a hipótese de
existência de correlação entre as variáveis, com a = 5% .
Temos que as hipóteses são:

H0 : r  0
HA :r  0

Com a = 5% e com 45 graus de liberdade ( g .l.  47  2  45 ), temos que os valores


críticos são tc  2, 014 e tc = 2, 014 .
A estatística de teste padronizada é:
0, 78
t
1  (0, 78)2
47  2
0, 78

1  0, 6084
45
0, 78

0, 0087
0, 78

0, 093
 8, 38

Como t está na região de rejeição, devemos rejeitar a hipótese nula.


Logo, no nível de significância de 5%, há evidência suficiente para concluir que
há correlação linear significante entre o nível de renda e a porcentagem de doações.

256 Correlação e Regressão


Regressão
Linear

A determinação da linha de regressão é o próxi-


mo passo a ser feito após determinarmos que duas
variáveis têm correlação entre si. Por meio de um
modelo matemático, a análise de regressão busca
descrever a relação existente entre duas variáveis,
a partir de n observações delas. Assim, podemos
dizer que ela objetiva estimar os valores de uma
variável, com base nos valores conhecidos de uma
outra variável.
Considerando o diagrama de dispersão e a li-
nha mostrados na Figura 3, para cada ponto de
dado, di representa a diferença entre o valor y
observado e o valor y previsto ( y − y ) . Essas
diferenças são chamadas de resíduos, os quais
podem ser positivos, negativos ou nulos. Por de-
finição, de todas as linhas possíveis que podem ser
desenhadas por meio de um conjunto de dados,
a linha de regressão é aquela para a qual a soma
dos quadrados de todos os resíduos é um mínimo
(LARSON; FARBER, 2010).

UNIDADE 9 257
y

Valor y d6
observado
d4

d3 d5
Valor y
previsto
d2
Para um dado valor x,
d1
d = (valor y observado) - (valor y previsto)
x

Figura 3 - Representação gráfica dos resíduos


Fonte: Bonafini (2015, p. 216).

A equação de uma reta de regressão para uma variável independente x e uma variável
dependente y é dada por:

y  mx  b

em que y é o valor y previsto para um dado valor x . A inclinação m e a interseção


b são dadas por:

 x   y
 xy  n
m
 x2
 x2  n

b  y  mx 
 y mx
n n
em que y e x são as médias de y e de x , respectivamente. Atente-se que a linha de
regressão sempre passa pelo ponto ( x, y ) .

3 EXEMPLO Determine a equação de uma reta de regressão para os dados apresentados, no Exem-
plo 1, para a correlação entre a massa corporal e o consumo anual de água de 5
indivíduos entrevistados.

258 Correlação e Regressão


O cálculo é dado por:
Massa corporal Consumo anual
x•y x2
(kg) de água (L)
80 480 80 • 480 = 38400 80 • 80 = 6400

65 320 65 • 320 = 28000 65 • 65 = 4225

85 500 85 • 500 = 42500 85 • 85 = 7225

50 280 50 • 280 = 14000 50 • 50 = 2500

70 450 70 • 450 = 31500 70 • 70 = 4900


2
x 350 y 2030 x y 147200 x 25250

(350 2030)
(147200)
m 5
3502
(25250)
5
710500
147200
5
122500
25250
5
147200 142100
25250 24500
5100
750
6, 8

350
x=
5
= 70
2030
y=
5
= 406
b  406  6, 8  70
 406  476
 70
Logo, a equação de regressão é:
y  6, 8 x  70 Correlação e regreção linear

UNIDADE 9 259
Quando a reta de regressão se ajusta bem aos dados, podemos utilizá-la para prever
o valor de uma variável, a partir do conhecimento de um valor particular da outra
variável.

4 EXEMPLO A equação de regressão para os dados sobre tempo gasto estudando e a nota do ves-
tibular dos alunos do ensino médio é dada por y  50 x  25 . Use essa equação para
prever a nota esperada de um aluno que estudou 7 horas por dia.
Para prever a nota tirada no vestibular, substituímos x na equação de regressão
pelo tempo gasto estudando; logo, a nota no vestibular será de:

y   50  7   25
 350  25
 375

Variação Sobre Uma Linha de Regressão

Como vimos, a equação de regressão é uma ótima ferramenta para se fazer previsões
para y . No entanto, quase sempre haverá um erro entre y e y .
A Figura 4 apresenta a reta de regressão, as linhas para x e y e um ponto defini-
do por ( xi , y i ) , que representa uma aferição “real” das variáveis. A partir do ponto
( xi , y i ) , podemos calcular três desvios.
y

( xi , yi ) Desvio não
Desvio explicado
total yi - y^i
yi - y
( xi , y^i ) Desvio
y explicado
( xi , yi )
y^i - y
x
x
Figura 4 - Desvio total, desvio explicado e desvio não explicado
Fonte: Bonafini (2012, p. 145).

• Desvio total: yi − y ;
• Desvio explicado: y i − y ;
• Desvio não explicado: yi − y i .

260 Correlação e Regressão


Não use a equação de regressão para fazer previsões se não houver correlação linear.

A relação entre os desvios é dada por:


(desvio total) = (desvio explicado) + (desvio não explicado)
( y − y) =
i ( y − y )
i + ( y − y )
i i

A expressão acima envolve desvios a partir da média e se aplica a qualquer ponto


particular ( x, y ) . Se somarmos os quadrados dos desvios, podemos definir estatísti-
cas correspondentes à amostra como um todo: variação total, variação explicada
e variação não explicada.

(variação total) = (desvio explicado) + (desvio não explicaado)


 ( y  y )2 
i  ( y  y )2 
i ( y  y )2
 i i

Caro(a) aluno(a), a partir da variação explicada e da variação total, podemos definir


2
o coeficiente de determinação (r ) :

variação explicada
r2 =
variação total

O coeficiente de determinação representa um número entre 0 e 1, que determi-


na a proporção em y que pode ser explicada pela relação linear entre x e y .
2
Quando r = 0 , temos que a variável dependente não pode ser prevista a partir
da variável independente.

5 EXEMPLO O coeficiente de correlação entre a massa corporal e o consumo anual de água é dado
por r = 0, 936 . Sabendo disso, encontre o coeficiente de determinação.
Temos que o coeficiente de determinação é dado por:
2
r 2   0, 936 
 0, 876
Isso significa que cerca de 87,6% da variação, no consumo anual de água, pode ser
explicada pela variação na massa corporal, enquanto que o restante (12,4%) da va-
riação deve ser atribuído a outros valores.

UNIDADE 9 261
Erro Padrão
da Estimativa

Como sabemos, todas as estimativas têm uma cer-


ta possiblidade de erro. No caso das equações de
regressão, o erro é denominado de erro padrão
da estimativa ( se ) , que é uma medida das dife-
renças entre os valores amostrais de y observa-
dos e os valores previstos y que são obtidos com
o uso da equação de regressão:

se 
 ( yi  yi )2
n2
em que n é o número de pares pedidos no con-
junto de dados.
Outra fórmula que nos leva ao cálculo de se é:

se 
 y 2  b y  m x  y
n2

262 Correlação e Regressão


6 EXEMPLO A equação de regressão, para o conjunto de dados que relaciona o tempo de propa-
ganda na rádio e as vendas semanais, é dada por y  1, 405 x  7, 311 . Sabendo disso,
encontre o erro padrão da estimativa.
O cálculo é dado por:
Te mpo de Vendas
propaganda semanais y
no rádio (1.000 de i ( yi  y i )2
(min) R$)

15 26 1,405.15+7,311=28,386 (26-28,386)²=5,692996

20 32 1,405.20+7,311=35,411 (32-35,411)²=11,634921

20 38 1,405.20+7,311=35,411 (38-35,411)²=6,702921

30 56 1,405.30+7,311=49,461 (56-49,461)²=42,758521

40 54 1,405.40+7,311=63,511 (54-63,511)²=90,459121

45 78 1,405.45+7,311=70,536 (78-70,536)²=55,711296

50 80 1,405.50+7,311=77,561 (80-77,561)²=5,948721

60 88 1,405.60+7,311=91,611 (88-91,611)²=13,039321

2
( yi yi ) 231, 947818

231, 947818
se
8 2
231, 947818
6
38, 6579
6, 21

O erro padrão da estimativa pode ser usado para construir estimativas intervalares
que nos ajudarão a verificar quão confiáveis são nossas estimativas pontuais de y .

UNIDADE 9 263
Supondo que, para cada valor fixado de x , os valores amostrais correspondentes
de y sejam normalmente distribuídos ao longo da reta de regressão e que as dis-
tribuições normais tenham a mesma variância, o intervalo de previsão para um y
individual é dado por:

y  E  y  y  E

cuja margem de erro é:

 
1 n( x0  x)2
E  tc  se   1   
 n


n   x2  2
  x 

em que:
tc é o valor crítico correspondente ao nível de confiança dado, encontrado por
meio da tabela de distribuição t
se é o erro padrão
x0 é o valor de x correspondente ao y que queremos calcular
x é a média amostral.

Tenha sua dose extra de conhecimento assistindo ao vídeo.


Para acessar, use seu leitor de QR Code.

7 EXEMPLO Usando os resultados do exemplo anterior, construa um intervalo de previsão 95%


para as vendas semanais quando o tempo de propaganda na rádio é de 42 minutos.
Usando a equação de regressão y  1, 405 x  7, 311 e x = 25 , o ponto estimado é:
y  1, 405  42   7, 311
 59, 01  7, 311
 66, 321

Como n = 8 , há 6 graus de liberdade ( g .l.  8  2  6 ) e, assim, consultando a Tabela


F, encontramos que o valor crítico é tc = 2, 447 ; além disso, também já sabemos que
se = 6, 21 . Assim, a margem de erro é dada por:

264 Correlação e Regressão


1 8  (42  35)2
E   2, 447  6, 21  1  
8 8  (11650)  (280)2
1 8  49
 15, 19587  1  
8 93200  78400
1 392
 15, 19587  1  
8 14800
 15, 19587  1, 15148
 15, 19587  1, 073
 16, 30

Portanto, o intervalo de precisão será:

66, 321  16, 30  y  66, 321  16, 30


50, 021  y  82, 621

Neste sentido, temos 95% de confiança que, quando o tempo de propaganda na rádio
é de 42 minutos, as vendas semanais estão entre R$ 50.021,00 e R$ 82.621,00.
Finalizamos nossos estudos sobre a correlação e a regressão linear. Vimos que,
após verificarmos a existência de correlação entre os dados, o próximo passo é de-
terminar a equação da linha que melhor modela os dados. Essa equação pode ser
usada para prever os valores de y dado um valor de x .

UNIDADE 9 265
Você pode utilizar seu diário de bordo para a resolução.

1. Calcule o coeficiente de correlação linear, entre as variáveis x e y, dos dados


apresentados abaixo:

x 2 4 6 8 10

y 10 8 6 10 12

2. Obtenha a equação de regressão linear para os dados apresentados abaixo e


faça o diagrama de dispersão:

x y
23 26
21 25
28 31
27 29
23 27
28 31
27 32
22 28
26 30
25 30

3. A tabela abaixo mostra a área de oito espaços (em pés quadrados) e a capaci-
dade de resfriamento (em BTU por hora) de ares-condicionados usados neles. A
equação de regressão é y = 9,468x + 3002,991 (LARSON; FARBER, 2010). Sabendo
disso, determine o erro padrão da estimativa.

Esp aços, x Capacidade de resfriamento, y


730 10200
485 7000
205 5300
420 6800
550 7250
590 9000
385 6900
630 9400

266
LIVRO

Estatística geral e aplicada


Autores: Gilberto de Andrade Martins e Osmar Domingues
Editora: Atlas
Sinopse: este livro é resultado de longa experiência profissional do autor no
campo da Estatística Geral e Aplicada, Cálculo das Probabilidades e Metodologia
Científica, disciplinas lecionadas e aplicadas nos cursos de graduação e pós-gra-
duação, nas áreas de Humanas e Exatas. O objetivo básico desta publicação é
estimular e energizar alunos e profissionais interessados em compreender e
aplicar, com segurança, conhecimentos técnicos da Estatística para tomada de
decisões e suporte às análises de resultados quantitativos e qualitativos empí-
rico-analíticas. Alguns dos assuntos abordados neste livro: O que é estatística?
Estatística descritiva, Probabilidades, Distribuições amostrais, Inferências esta-
tísticas, Correlação entre variáveis, Regressões lineares, e muitos outros tópicos.

267
BONAFINI, F. C. Estatística. São Paulo: Pearson Education do Brasil, 2012.

BONAFINI, F. C. Estatística II. São Paulo: Pearson Education do Brasil, 2015.

CARNIEL, I. G. Estatística. Maringá: Centro Universitário de Maringá, 2014.

LARSON, R.; FARBER, B. Estatística aplicada. 4. ed. São Paulo: Pearson Prentice Hall, 2010.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 6. ed. São Paulo: Editora da
Universidade de São Paulo, 2008.

TRIOLA, M. F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

268
1. O cálculo do coeficiente de correlação linear é dado por:

x y x•y x2 y2

2 10 2.10=20 2.2=4 10.10=100

4 8 4.8=32 4.4=16 8.8=64

6 6 6.6=36 6.6=36 6.6=36

8 10 8.10=80 8.8=64 10.10=100

10 12 10.12=120 10.10=100 12.12=144


2 2
x 30 y 46 x y 288 x 220 y 444

r
 5  288    30  46 
5  220  30   5  444    46 
2 2

1440  1380

1100  900  2220  2116
60

200  104
60

14, 14  10, 20
60

144, 23
 0, 416

269
2. O cálculo da regressão linear é dado por:

x y x•y x2
23 26 23.26=598 23.23=529
21 25 21.25=525 21.21=441
28 31 28.31=868 28.28=784
27 29 27.29=783 27.27=729
23 27 23.27=621 23.23=529
28 31 28.31=868 28.28=784
27 32 27.32=864 27.27=729
22 28 22.28=616 22.22=484
26 30 26.30=780 26.26=676
25 30 25.30=750 25.25=625
2
x 250 y 289 x y 7273 x 6310

(250  289)
(7273) 
b 10

(6310) 

2502 
10
72250
7273 
 10
62500
6310 
10
7273  7225

6310  6250
48

60
 0, 8
250
x=
10
= 25

270
289
y=
10
= 28, 9
a  28, 9  0, 8  25
 28, 9  20
 8, 9
Logo, a equação da reta de regressão é dada por:

y  8, 9  0, 8 x
O diagrama de dispersão é representado por:

35

30

25
y = 8.9 + 0.8x
20

15

10

0
0 5 10 15 20 25 30

271
3. O cálculo do erro é dado por:

x y x •y y2

730 10200 730.10200=7446000 10200.10200=104040000

485 7000 485.7000=3395000 7000.7000=49000000

205 5300 205.5300=1086500 5300.5300=28090000

420 6800 420.6800=2856000 6800.6800=46240000

550 7250 550.7250=3987500 7250.7250=52562500

590 9000 590.9000=5310000 9000.9000=81000000

385 6900 358.6900=2656500 6900.6900=47610000

630 9400 630.9400=5922000 9400.9400=88360000


2
x 3995 y 61850 x y 32659500 y 449292500

496902500  (3002, 991  61850)  (9, 468  32659500)


se 
82
496902500  185734993, 4  309220146

6
1947360, 6

6
 324560, 1
 569, 70

272
CONCLUSÃO

Caro(a) aluno(a), neste estudo fomos situados no universo da


estatística.
Para retomarmos, na primeira unidade, definimos conceitos
fundamentais como população, amostra, dados, assim como as
fases do método estatístico e a importância de um bom planeja-
mento experimental.
Na Unidade 2, tivemos a oportunidade de conhecer as diversas
formas de apresentação dos dados coletados, que nos auxiliam
na análise e interpretação deles, seja por tabelas ou por gráficos.
Na Unidade 3, estudamos as medidas de posição. Aprendemos
a calcular as medidas de tendência central média, mediana e moda,
além das separatrizes quartis, decis e percentis, e vimos que pelo
menos uma dessas medidas deve auxiliar na descrição dos dados.
Na Unidade 4, estudamos as medidas de dispersão, as quais
nos dão uma indicação de como os dados variam. Aprendemos a
calcular amplitude total, desvio médio, variância e desvio padrão,
além das medidas de variação relativa e medidas de assimetria e
de curtose.
Na Unidade 5, iniciamos nossos estudos sobre probabilidade
e definimos alguns conceitos importantes como evento e espaço
amostral. Aprendemos a operar com eventos, a identificar quando
os eventos são dependentes ou independentes e, por fim, apren-
demos a permutar e combinar.
Na Unidade 6, demos procedimento ao estudo da probabi-
lidade, aprofundando nossos conhecimentos nas distribuições
discretas e contínuas de probabilidade.
Na Unidade 7, iniciamos os estudos à inferência estatística, em
que usamos dados amostrais para fazer inferências sobre popu-
lações: estimação do valor de um parâmetro populacional, assim
como o teste de uma hipótese sobre a população.
Na Unidade 8, demos continuidade aos estudos da inferência
estatística, mas agora a partir de duas amostras. Os estudos foram
finalizados com o teste F e o teste de ajuste qui-quadrado.
Por fim, na Unidade 9, estudamos sobre a correlação e a re-
gressão linear. Vimos que, na correlação, tem-se o grau de asso-
ciação entre duas variáveis e que, na regressão, é possível obter a
estimação de uma variável, a partir da outra.
Espero que este material tenha fornecido a você o entendi-
mento da estatística como um todo. Sua participação nas aulas,
a leitura das unidades, a resolução dos exemplos e exercícios e a
busca de informações complementares nos livros recomendados
são essenciais para o aprendizado.
Bons estudos e até mais!
275
276
Tabela A - Distribuição normal padrão: área acumulada à esquerda

Área

z
z 0
z 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00
-3.4 0.0002 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003
-3.3 0.0003 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0005 0.0005 0.0005
-3.2 0.0005 0.0005 0.0005 0.0006 0.0006 0.0006 0.0006 0.0006 0.0007 0.0007
-3.1 0.0007 0.0007 0.0008 0.0008 0.0008 0.0008 0.0009 0.0009 0.0009 0.0010
-3.0 0.0010 0.0010 0.0011 0.0011 0.0011 0.0012 0.0012 0.0013 0.0013 0.0013
-2.9 0.0014 0.0014 0.0015 0.0015 0.0016 0.0016 0.0017 0.0018 0.0018 0.0019
-2.8 0.0019 0.0020 0.0021 0.0021 0.0022 0.0023 0.0023 0.0024 0.0025 0.0026
-2.7 0.0026 0.0027 0.0028 0.0029 0.0030 0.0031 0.0032 0.0033 0.0034 0.0035
-2.6 0.0036 0.0037 0.0038 0.0039 0.0040 0.0041 0.0043 0.0044 0.0045 0.0047
-2.5 0.0048 0.0049 0.0051 0.0052 0.0054 0.0055 0.0057 0.0059 0.0060 0.0062
-2.4 0.0064 0.0066 0.0068 0.0069 0.0071 0.0073 0.0075 0.0078 0.0080 0.0082
-2.3 0.0084 0.0087 0.0089 0.0091 0.0094 0.0096 0.0099 0.0102 0.0104 0.0107
-2.2 0.0110 0.0113 0.0116 0.0119 0.0122 0.0125 0.0129 0.0132 0.0136 0.0139
-2.1 0.0143 0.0146 0.015 0.0154 0.0158 0.0162 0.0166 0.0170 0.0174 0.0179
-2.0 0.0183 0.0188 0.0192 0.0197 0.0202 0.0207 0.0212 0.0217 0.0222 0.0228
-1.9 0.0233 0.0239 0.0244 0.025 0.0256 0.0262 0.0268 0.0274 0.0281 0.0287
-1.8 0.0294 0.0301 0.0307 0.0314 0.0322 0.0329 0.0336 0.0344 0.0351 0.0359
-1.7 0.0367 0.0375 0.0384 0.0392 0.0401 0.0409 0.0418 0.0427 0.0436 0.0446
-1.6 0.0455 0.0465 0.0475 0.0485 0.0495 0.0505 0.0516 0.0526 0.0537 0.0548
-1.5 0.0559 0.0571 0.0582 0.0594 0.0606 0.0618 0.0630 0.0643 0.0655 0.0668
-1.4 0.0681 0.0694 0.0708 0.0721 0.0735 0.0749 0.0764 0.0778 0.0793 0.0880
-1.3 0.0823 0.0838 0.0853 0.0869 0.0885 0.0901 0.0918 0.0934 0.0951 0.0968
-1.2 0.0985 0.1003 0.1020 0.1038 0.1056 0.1075 0.1093 0.1112 0.1131 0.1151
-1.1 0.1170 0.1190 0.1210 0.1230 0.1251 0.1271 0.1292 0.1314 0.1335 0.1357
-1.0 0.1379 0.1401 0.1423 0.1446 0.1469 0.1492 0.1515 0.1539 0.1562 0.1587
-0.9 0.1611 0.1635 0.166 0.1685 0.1711 0.1736 0.1762 0.1788 0.1814 0.1814
-0.8 0.1867 0.1894 0.1922 0.1949 0.1977 0.2005 0.2033 0.2061 0.2090 0.2119
-0.7 0.2148 0.2177 0.2206 0.2236 0.2266 0.2296 0.2327 0.2358 0.2389 0.242
-0.6 0.2451 0.2483 0.2514 0.2546 0.2578 0.2611 0.2643 0.2676 0.2709 0.2743
-0.5 0.2776 0.281 0.2843 0.2877 0.2912 0.2946 0.2981 0.3015 0.3050 0.3085
-0.4 0.3121 0.3156 0.3192 0.3228 0.3264 0.3300 0.3336 0.3372 0.3409 0.3446
-0.3 0.3486 0.352 0.3557 0.3594 0.3632 0.3669 0.3707 0.3745 0.3783 0.3821
-0.2 0.3859 0.3897 0.3936 0.3974 0.4013 0.4052 0.409 0.4129 0.4168 0.4207
-0.1 0.4247 0.4286 0.4325 0.4364 0.4404 0.4443 0.4483 0.4522 0.4562 0.4602
-0.0 0.4641 0.4681 0.4721 0.4761 0.4801 0.4840 0.4880 0.4920 0.4960 0.5000

Fonte: Larson e Farber (2010, p. A16).

277
Tabela A - Distribuição normal padrão: área acumulada à esquerda – continuação

Área

z
0 z
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5949 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7518 0.7549
0.7 0.7580 0.7612 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8108 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.883
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 ou
0,9999
mais
Fonte: Larson e Farber (2010, p. A17).
278
Tabela B - Distribuição t
Nível de
g.l. 0,50 0,80 0,90 0,95 0,98 0,99
confiança, c
Unilateral, a 0,25 0,10 0,05 0,025 0,01 0,005
Bilateral, a 0,50 0,20 0,10 0,05 0,02 0,01
1 1,000 3,078 6,314 12,706 31,821 63,657
2 0,816 1,886 2,920 4,303 6,965 9,925
3 0,765 1,638 2,353 3,182 4,541 5,841
4 0,741 1,533 2,132 2,776 3,747 4,604
5 0,727 1,476 2,015 2,571 3,365 4,032
6 0,718 1,440 1,943 2,447 3,143 3,707
7 0,711 1,415 1,895 2,365 2,998 3,499
8 0,706 1,397 1,860 2,306 2,896 3,355
9 0,703 1,383 1,833 2,262 2,821 3,250
10 0,700 1,372 1,812 2,228 2,764 3,169
11 0,697 1,363 1,796 2,201 2,718 3,106
12 0,695 1,356 1,782 2,179 2,681 3,055
13 0,694 1,350 1,771 2,160 2,650 3,012
14 0,692 1,345 1,761 2,145 2,624 2,997
15 0,691 1,341 1,753 2,131 2,602 2,947
16 0,690 1,337 1,746 2,120 2,583 2,921
17 0,689 1,333 1,740 2,110 2,567 2,898
18 0,688 1,330 1,734 2,101 2,552 2,878
19 0,688 1,328 1,729 2,093 2,539 2,861
20 0,687 1,325 1,725 2,086 2,528 2,845
21 0,686 1,323 1,721 2,080 2,518 2,831
22 0,686 1,321 1,717 2,074 2,508 2,819
23 0,685 1,319 1,714 2,069 2,500 2,807
24 0,685 1,318 1,711 2,064 2,492 2,797
25 0,684 1,316 1,708 2,060 2,485 2,787
26 0,684 1,315 1,706 2,056 2,479 2,779
27 0,684 1,314 1,703 2,052 2,473 2,771
28 0,683 1,313 1,701 2,048 2,467 2,763
29 0,683 1,311 1,699 2,045 2,462 2,756
∞ 0,674 1,282 1,645 1,960 2,326 2,576
Fonte: Larson e Farber (2010, p. A18).

279
Tabela C - Distribuição qui-quadrado
Área à direita do valor crítico
g.l.
0,995 0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,005

1 - - 0,001 0,004 0,016 2,706 3,841 5,024 6,635 7,879


2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597
3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 9,236 11,071 12,833 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,13 18,475 20,278
8 1,344 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666 23,589
10 2,156 0,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209 25,188
11 2,603 3,053 3,816 4,575 5,578 17,275 19,675 21,920 24,725 16,757
12 3,074 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217 28,299
13 3,565 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688 29,819
14 4,075 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 23,542 26,296 48,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409 35,718
18 6,265 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,907 10,117 11,651 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,851 12,443 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,591 13,240 29,615 32,671 36,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,042 30,813 33,924 36,781 40,289 42,796
23 9,260 10,196 11,689 13,091 47,848 32,007 35,172 38,076 41,638 44,181
24 9,886 10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980 45,559
25 10,520 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314 46,928
26 11,160 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290
27 11,808 12,879 14,573 16,151 18,114 36,741 40,113 43,194 46,963 49,645
28 12,461 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278 50,993
29 13,121 14,257 16,047 17,708 19,768 39,087 42,557 45,722 49,588 52,336
30 13,787 14,954 16,791 18,493 20,599 40,256 43,773 46,979 50,892 53,672
40 20,707 22,164 24,433 26,509 29,051 51,805 55,758 59,342 63,691 66,766
50 27,991 29,707 32,357 34,764 37,689 63,167 67,505 71,420 76,154 79,490
60 35,534 37,485 40,482 43,188 46,459 74,397 79,082 83,298 88,379 91,952
70 43,275 45,442 48,758 51,739 55,329 85,527 90,531 95,023 100,425 104,215
80 51,172 53,540 57,153 60,391 64,278 96,578 101,879 106,629 112,329 116,321
90 59,196 61,754 65,647 69,126 73,291 107,565 113,145 118,136 124,116 128,299
100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169

Fonte: Triola (2008, p. 621).

280
Tabela D - Distribuição F - a = 0, 01

g .l.D α = 0, 01

g .l.N
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 4052 4999 5403 5625 5764 5859 5928 5982 6022 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366
2 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 4.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57

281
282
g .l.D α = 0, 01

g .l.N
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17
26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10
28 7.64 5.45 5.47 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06
29 7.6 5.42 5.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
∞ 6.63 4.61 3.78 3.23 3.02 2.80 2.64 2.51 2.41 2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
Tabela D - Distribuição F - a = 0, 05

g .l.D α = 0, 05

g .l.N
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 161.40 199.50 215.70 224.60 230.20 234.00 236.80 238.90 240.50 241.90 243.90 245.90 248.00 249.10 250.10 251.10 252.20 253.30 254.30
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.03 2.01
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88

283
284
g .l.D α = 0, 05

g .l.N
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
∞ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
Tabela D - Distribuição F - a = 0, 10

α = 0, 10
g .l.D
g .l.N
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞
1 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 60.71 61.22 61.74 62.00 62.26 62.53 62.79 63.06 63.33
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.22 5.20 5.18 5.18 5.17 5.16 5.15 5.14 5.13
4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.14 3.12 3.10
6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72
7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47
8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29
9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2.18 2.16
10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06
11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.03 2.00 1.97
12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.15 2.10 2.06 2.04 2.01 1.99 1.96 1.93 1.90
13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85
14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.05 2.01 1.96 1.94 1.91 1.89 1.86 1.83 1.80
15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76
16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.99 1.94 1.89 1.87 1.84 1.81 1.78 1.75 1.72
17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.96 1.91 1.86 1.84 1.81 1.78 1.75 1.72 1.69

285
286
α = 0, 10
g .l.D
g .l.N
18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66
19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63
20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61
21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.87 1.83 1.78 1.75 1.72 1.69 1.66 1.62 1.59
22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.64 1.60 1.57
23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.84 1.80 1.74 1.72 1.69 1.66 1.62 1.59 1.55
24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53
25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.82 1.77 1.72 1.69 1.66 1.63 1.59 1.56 1.52
26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.81 1.76 1.71 1.68 1.65 1.61 1.58 1.54 1.50
27 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.80 1.75 1.70 1.67 1.64 1.60 1.57 1.53 1.49
28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.79 1.74 1.69 1.66 1.63 1.59 1.56 1.52 1.48
29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.78 1.73 1.68 1.65 1.62 1.58 1.55 1.51 1.47
30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46
40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38
60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.66 1.60 1.54 1.51 1.48 1.44 1.40 1.35 1.29
120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.60 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19
∞ 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63 1.60 1.55 1.49 1.42 1.38 1.34 1.30 1.24 1.17 1.00
Tabela E - Valores críticos do coeficiente de correlação de Pearson

n α = 0, 05 α = 0, 01

4 0,950 0,999
5 0,878 0,959
6 0,811 0,917
7 0,754 0,875
8 0,707 0,834
9 0,666 0,798
10 0,632 0,765
11 0,602 0,735
12 0,576 0,708
13 0,553 0,684
14 0,532 0,661
15 0,514 0,641
16 0,497 0,623
17 0,482 0,606
18 0,468 0,590
19 0,456 0,575
20 0,444 0,561
25 0,396 0,505
30 0,361 0,463
35 0,335 0,430
40 0,312 0,402
45 0,294 0,378
50 0,279 0,361
60 0,254 0,330
70 0,236 0,305
80 0,220 0,286
90 0,207 0,269
100 0,196 0,256
Fonte: a autora.

287
Tabela F - Distribuição t

Nível de
g.l. 0,50 0,80 0,90 0,95 0,98 0,99
confiança, c

Unilateral, a 0,25 0,10 0,05 0,025 0,01 0,005


Bilateral, a 0,50 0,20 0,10 0,05 0,02 0,01
1 1,000 3,078 6,314 12,706 31,821 63,657
2 0,816 1,886 2,920 4,303 6,965 9,925
3 0,765 1,638 2,353 3,182 4,541 5,841
4 0,741 1,533 2,132 2,776 3,747 4,604
5 0,727 1,476 2,015 2,571 3,365 4,032
6 0,718 1,440 1,943 2,447 3,143 3,707
7 0,711 1,415 1,895 2,365 2,998 3,499
8 0,706 1,397 1,860 2,306 2,896 3,355
9 0,703 1,383 1,833 2,262 2,821 3,250
10 0,700 1,372 1,812 2,228 2,764 3,169
11 0,697 1,363 1,796 2,201 2,718 3,106
12 0,695 1,356 1,782 2,179 2,681 3,055
13 0,694 1,350 1,771 2,160 2,650 3,012
14 0,692 1,345 1,761 2,145 2,624 2,997
15 0,691 1,341 1,753 2,131 2,602 2,947
16 0,690 1,337 1,746 2,120 2,583 2,921
17 0,689 1,333 1,740 2,110 2,567 2,898
18 0,688 1,330 1,734 2,101 2,552 2,878
19 0,688 1,328 1,729 2,093 2,539 2,861
20 0,687 1,325 1,725 2,086 2,528 2,845
21 0,686 1,323 1,721 2,080 2,518 2,831
22 0,686 1,321 1,717 2,074 2,508 2,819
23 0,685 1,319 1,714 2,069 2,500 2,807
24 0,685 1,318 1,711 2,064 2,492 2,797
25 0,684 1,316 1,708 2,060 2,485 2,787
26 0,684 1,315 1,706 2,056 2,479 2,779
27 0,684 1,314 1,703 2,052 2,473 2,771
28 0,683 1,313 1,701 2,048 2,467 2,763
29 0,683 1,311 1,699 2,045 2,462 2,756
∞ 0,674 1,282 1,645 1,960 2,326 2,576

Fonte: Larson e Farber (2010, p. A18).

288

Você também pode gostar