Apostila Contabilidade

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 61

FATEC

LUIGI PAPAIZ

APOSTILA DE
ESTATÍSTICA

Diadema
2023
INTRODUÇÃO À ESTATÍSTICA
Desde a antiguidade, governantes têm apresentado interesse por suas populações e riquezas,
tendo em vista, principalmente finalidades militares e tributárias.

Há registros que por volta de 3000 a.C., já se realizavam censos na China, Babilônia, Egito e
Grécia. Os romanos faziam um registro cuidadoso dos nascimentos e mortes de sua
população, com objetivos de taxação, cobrança de impostos e homens aptos para a guerra.

A etimologia da palavra Estatística está ligada ao sentido alemão como “Ciência Política do
Estado” (Statistik) que por sua vez deriva do latim “status”, que significa “Estado”.

No início do século XX ocorreu a transição da visão antiga de Estatística, deixando de ser


apenas dados coletados e analisados de forma superficial, para uma nova visão, onde estes
dados são explorados do ponto de vista da Probabilidade.

Atualmente, podemos entender a Estatística como a ciência que estuda a forma de coletar,
analisar, representar, interpretar e fazer inferências nos dados que estão relacionados à
fenômenos aleatórios associados a eventos em massa.

Grande parte dos conhecimentos obtidos na Antiguidade se deu por empirismo e observação,
sem a aplicação de um método que comprovasse determinada conclusão.

Atualmente, praticamente todo acréscimo de conhecimento, para ser validado, deve estar
atrelado a um método que apresenta fundamentação científica.

Dois métodos são muito utilizados: o Experimental e o Estatístico.

O Método Experimental consiste em manter constantes todos os fatores, menos um e variar


este fator de modo que se identifique seus efeitos. É extensamente utilizado em Física e
Química, por exemplo.

O Método Estatístico é utilizado quando não há a possibilidade ou se torna muito difícil a


situação de tornar constantes todos os fatores menos um. Assim, o Método Estatístico admite
todos os fatores variando e essas variações são registradas, buscando determinar no
resultado final quais influências cabe a cada uma delas.
FASES DO MÉTODO ESTATÍSTICO

1. COLETA DE DADOS:

É uma das fases mais importantes de uma análise estatística, pois se a coleta não for rigorosa
do ponto de vista das características do fenômeno que se quer pesquisar, todo o tratamento
posterior destes dados não terá validade, pois se iniciou com dados que não representam
devidamente o fenômeno em estudo.

Para a coleta de dados, existem técnicas específicas para conjuntos de fenômenos distintos.

A coleta de dados pode ocorrer de forma direta ou indireta.

A forma direta de coleta de dados pode ocorrer por meio de um questionário, observação,
medição, etc.

A forma indireta se dá pelo aproveitamento de dados coletados (diretamente) por outros


pesquisadores, como por exemplo, dados do censo obtidos em sites oficiais.

Após a obtenção dos dados, deve-se fazer uma análise para retirar dados que apresentam
grande discrepância, pois podem ser frutos de erros, falhas.

2. APURAÇÃO DOS DADOS

É o processamento dos dados obtidos e disposição mediante critérios de classificação.

3. APRESENTAÇÃO DOS DADOS

É o uso de tabelas, gráficos, diagramas, etc, de modo a facilitar a interpretação dos dados
coletados. A apresentação tem a finalidade de fazer um resumo ou expor valores importantes
do estudo.

4. ANÁLISE DOS RESULTADOS

Após todo o processo de coleta, apuração e representação dos dados (Estatística Descritiva)
a análise dos dados implica em tirar conclusões, fazer previsões e se necessário, tomar
decisões. Esta é a Estatística Indutiva ou Inferencial. De um modo geral está atrelada à
cálculos ligados à Probabilidade ou modelos probabilísticos.

De modo geral, a coleta de dados ocorre numa amostra da população em estudo, pois é
menos oneroso. Essa amostra deve representar bem a população, daí a importância de se
fazer uma coleta de uma amostra significativa.

Inicialmente, devemos entender a relação entre amostra e população.


População é o conjunto de todos os elementos que apresentam uma ou mais características
consideradas no estudo. À essa população podemos atribuir um Parâmetro, que é um valor
associado a uma de suas características.

Podemos citar como exemplo de população, todos os fornecedores de insumos para uma
empresa.

Amostra é uma fração ou parte dessa população que preserva todas as características
importantes da população. Estimador é um valor obtido da amostra que se aproxima (com
um certo nível de erro) do parâmetro.

A amostragem tem por objetivo principal determinar meios e métodos de estudar populações
por meio da amostra. Considerando que esta representa uma parte da população, deve ser
necessariamente finita.

Uma vez tomada a decisão de se fazer um estudo de uma população por meio de uma
amostra, deve-se analisar a maneira pelo qual será “retirada” a amostra e também qual o seu
tamanho.

Podemos considerar dois tipos de amostragem:

Probabilística: é aquela em que todos os elementos da população apresentam uma


probabilidade conhecida e diferente de zero de pertencer à amostra.

Não Probabilística: é aquela em que ocorre uma escolha deliberada dos elementos da
amostra, ou seja, não se conhece a probabilidade de um elemento da população pertencer à
amostra.
Aleatória Simples: é utilizada quando a população é homogênea em relação à variável em
estudo. Uma forma de executar esta amostragem é atribuir um número para cada elemento
da população e fazer um sorteio aleatório para compor a amostra.

Sistemática: é quando os elementos que vão compor a amostra são retirados da população
de forma cíclica ou periódica. É uma variação da Amostragem Aleatória Simples. Deve-se ter
o cuidado de analisar se a variável em estudo não apresenta ciclo de variação igual a retirada.
Para executar esta amostragem os elementos da população devem apresentar uma
ordenação natural qualquer.

De uma população de tamanho N, vai ser retirada uma a mostra de tamanho n. O período ou
o ciclo se dá pela constante obtida por (N/n) = k. A partir de um número inicial (aleatório), os
elementos serão retirados da população de k em k.

Estratificada: este tipo de amostragem é indicado quando a variável de interesse ocorre na


população de forma heterogênea, porém de forma homogênea em grupos (estratos). Assim,
se faz uma amostragem dentro de cada grupo, buscando garantir a representatividade da
amostra sobre a população.

Conglomerados: quando não se tem muita informação sobre a população para realizar uma
amostragem por estratificação se recorre à amostragem por conglomerado. Este por sua vez
representa a população devido à sua heterogeneidade. Divide-se então a população em
grupos (conglomerados), por algum fator, geográfico, por exemplo e sorteia-se um deles de
forma aleatória e se faz a análise de seus elementos. Este é chamado de amostragem por
conglomerado de um estágio. Pode-se recorrer em fazer o sorteio aleatório de um elemento
de cada conglomerado para formar a amostra. Este é chamado de amostragem por
conglomerados em dois estágios.

Esmo ou Conveniência: os elementos são escolhidos sem nenhum critério pré-determinado,


levando em consideração a homogeneidade da população ou semelhança presumida. Um
exemplo simples seria determinar uma a mostra de parafusos, numa população de 1000
unidades, produzidos por uma máquina. A enumeração de cada unidade seria oneroso, então
se escolhe a esmo uma quantidade e verifica-se a característica em questão.

Intencional: ocorre quando o pesquisador (amostrador) escolhe determinados elementos ao


qual julga serem representativos da população, formando assim a amostra.

Cotas: Neste tipo de amostragem, a população é dividida em grupos, por meio de algumas
características (nível de escolaridade, faixa etária, renda, etc) após isso, seleciona-se uma
cota proporcional ao tamanho de cada grupo. Dentro de cada grupo, os elementos são
selecionados (ou procurados) até que a cota de cada grupo seja cumprida. Este tipo de
amostragem é muito utilizado em pesquisas eleitorais.
VARIÁVEIS

Variável é uma característica apresentada por cada elemento da população ou da amostra.


Os dados coletados são os valores da variável em estudo, da amostra ou da população.

De acordo com a natureza da variável, ela pode ser:

Qualitativa: valores expressos por atributos: gênero, cor da pele, local de origem, religião,
nível de escolaridade, etc.

Quantitativa: valores expressos em números: salário, número de alunos de uma escola,


pressão medida em ensaios físico-químicos, acidez de uma substância, etc.

Trataremos neste material da variável quantitativa. Esta é dividida em:

Discreta: é uma variável que só pode assumir valores pertencentes a um conjunto


enumerável: número de filhos de um casal, quantidade de cadeiras numa sala de aula, etc.

Contínua: é aquela que pode assumir, teoricamente, qualquer valor entre dois extremos
(intervalo numérico): massa de um parafuso, altura de uma pessoa, tempo de execução de
uma operação de manufatura, etc.

Dentro dos conteúdos abordados na Estatística Descritiva, a representação dos dados pode
ser por meio de gráficos e tabelas. A representação gráfica não é melhor ou pior ou substitui
a representação tabelar ou vice-versa, uma completa a outra.
Considerando a variável discreta (neste exemplo: número de ações/quotas de ativos
financeiros), utilizamos a representação tabela abaixo e a respectiva representação gráfica.

Para a variável discreta, utilizamos o gráfico de colunas (poderia ser o de barras). Observe
que existe um espaçamento entre as colunas, indicando a característica discreta da variável.

Gráfico 1 – Alocação de ativos na Carteira em Janeiro de 2023

ATIVOS DA CARTEIRA
350
300
300

250
QUANTIDADE

200
200

150 125
100
100

50 35

0
BBAS3 PETR4 ABCP11 VALE3 TAEE11
ATIVO

Fonte: Próprio autor


Neste caso, o gráfico de setores também pode ser utilizado para representar as quantidades.

Gráfico 1 – Alocação de ativos na Carteira em Janeiro de 2023

ATIVOS DA CARTEIRA

TAEE11; 200

BBAS3; 300

VALE3; 125

ABCP11; 35 PETR4; 100

Fonte: Próprio autor

Gráfico em linha: é um dos mais importantes gráficos; representa observações feitas ao


longo do tempo. Tais conjuntos de dados constituem as chamadas séries históricas ou
temporais.
Considerando que a variável em estudo é de natureza contínua, seus gráficos e tabelas
correspondentes apresentam diferenças em relação à representação da variável discreta.

Tabela 2 – Notas obtidas no teste mensal

Fonte: Próprio autor

Gráfico 2 – Notas obtidas no teste mensal

Fonte: Próprio autor


Quando coletamos os dados e simplesmente os anotamos na ordem em que ocorrem, temos
o que chamamos de Dados Brutos. Ao fazer a organização destes dados brutos em ordem
crescente, temos o Rol. Estes conceitos iniciais são importantes, pois a partir deles que
iniciamos a parte descritiva do trabalho de pesquisa da variável em estudo.

Exemplo: Resultado obtido sobre a quantidade de vezes um indivíduo vai ao mercado em um


mês.

X: 8 – 4 – 10 – 7 – 3 – 5 – 9 – 6 – 5 – 2. (Dados Brutos)

X: 2 – 3 – 4 – 5 – 5 – 6 – 7 – 8 – 9 – 10 (Rol)

DETERMINAÇÃO DE UMA TABELA NA VARIÁVEL DISCRETA

Como já foi mencionado, a representação dos dados por meio de tabelas e gráficos permite
sintetizar as particularidades da variável em estudo.

Inicialmente trataremos da construção de uma tabela na variável discreta. Assim, após a coleta
dos dados, estes serão alocados numa tabela de frequência em ordem crescente.

EXEMPLO

Os valores abaixo indicam o número de dias que cada aluno faltou à aula, durante um bimestre
letivo. Construa uma tabela de frequência para estes dados.

5 6 4 0 2 2 1 0 5 6
5 1 2 4 1 0 2 2 1 1
4 6 3 3 1 0 4 4 2 0

0 5 OBS: representa a variável. Neste caso,


1 6
2 6 é a quantidade de faltas de cada aluno no
3 2 bimestre. representa a frequência de
4 5
5 3 ocorrência de cada .
6 3
EXERCÍCIOS:

1) Numa agência bancária, foi registrada a quantidade de atendimentos, por hora, de cada
caixa eletrônico, durante um dia. Construa uma tabela de frequência para estes dados.

8 10 11 8 12 8 10 13 13 10
8 12 12 11 13 8 10 10 11 12
12 13 8 8 8 12 13 8 11 11
12 13 12 11 10 8 8 8 12 12

2) Numa confecção, todas as peças fabricadas são inspecionadas pelo controle de qualidade
e aquelas com algum defeito são retiradas para serem remanufaturadas ou para serem
vendidas como segunda linha. Abaixo estão as quantidades diárias de peças com defeito,
verificadas em 30 dias. Construa uma tabela de frequência para estes dados.

20 20 21 25 22 21 22 21 22 22
21 23 25 25 23 21 24 23 22 21
21 22 25 23 21 22 25 21 23 20

COMPLEMENTAÇÃO DA TABELA DISCRETA

Já com os dados tabelados, podemos fazer uma complementação das informações contidas
nestes dados, buscando mais particularidades sobre o comportamento da variável estudada.

Frequência Relativa

É a porcentagem que cada representa em relação à quantidade total dos dados coletados.

Para determinar cada valor correspondente, dividimos a frequência simples de cada elemento
pelo total de dados coletados:

(%)
0 5 16,67
1 6 20,00
2 6 20,00
3 2 6,67
4 5 16,67
5 3 10,00
6 3 10,00
Frequência Acumulada

É a soma da frequência simples de um dado elemento com as frequências simples dos


elementos que o antecedem.

= + + + + …+

(%)
0 5 16,67 5
1 6 20,00 11
2 6 20,00 17
3 2 6,67 19
4 5 16,67 24
5 3 10,00 27
6 3 10,00 30

Frequência Relativa Acumulada

É obtida pela divisão da frequência acumulada de um dado elemento pela quantidade total de
elementos da série.

(%) (%)
0 5 16,67 5 16,67
1 6 20,00 11 36,67
2 6 20,00 17 56,67
3 2 6,67 19 63,33
4 5 16,67 24 80,00
5 3 10,00 27 90,00
6 3 10,00 30 100,00

EXERCÍCIOS: Utilize as tabelas dos exercícios 1 e 2 da página anterior para fazer seu
complemento.
Para se extrair mais informações dos dados coletados, podemos determinar as Medidas de
Tendência Central, que são: Média, Mediana e Moda. Cada uma delas fornece mais
detalhes do comportamento da variável em estudo.

Elas podem ser determinadas diretamente dos dados coletados ou por meio dos valores
organizados nas tabelas ou gráficos, nas variáveis discreta e contínua.

Para operar o cálculo das várias medidas estatísticas, se faz necessário a soma de um grande
número de parcelas. Para isso, utiliza-se o Somatório.

SOMATÓRIO – NOTAÇÃO SIGMA – ∑

∑ É a letra grega Sigma. Utilizada para representar operações se adição entre parcelas.

= + + + + …

Representa a parcela genérica.

É a última parcela a ser utilizada na soma.

É a primeira parcela a ser utilizada na soma.

Dessa forma, os valores que serão utilizados no somatório, devem estar num Rol.

OBS: Na maioria das aplicações estatísticas, o somatório será de todos os valores da série.
Dessa forma, para facilitar a notação utilizamos simplesmente ∑ .

EXEMPLOS

1) ∑ = + + +

2) ∑ 6 =6 + 6 + 6

3) ∑ +7 = +7 + +7 + +7 + +7 + +7

Vale considerar que:

a) ∑ . ≠ ∑ . ∑

b) ∑ ≠ ∑
MÉDIA

Existem vário tipos de médias: geométrica, harmônica, móvel, etc.

Quando se menciona apenas “média”, convencionou-se a ser a média aritmética, que é


determinada pela divisão entre a soma dos valores dos elementos da série e o total de
elementos da série.


!=

EXEMPLO 1

x: 5, 8, 4, 7, 2, 1

"#$# #%# #
!=
&

! = 4,5

EXEMPLO 2

Para determinar a média dos dados e estes estiverem já tabelados, utilizamos a frequência
simples de cada elemento, por meio da fórmula:

∑ .
!=

Para facilitar e organizar os cálculos, utilizamos a própria tabela como suporte.

.
%%
!=
0 5 0
'
1 6 6
12
! ≅ 2,57
2 6
3 2 6
4 5 20
5 3 15
6 3 18

EXERCÍCIOS: determine a média, considerando as tabelas do exercício anterior.


MEDIANA

É o valor real que separa o Rol em duas partes de modo que à sua esquerda e à sua direita,
tenham a mesma quantidade de elementos. É o elemento que ocupa a posição central da
série.

Sendo n o número de elementos da série, este pode ser ímpar ou pode ser par.

1. Se n é ímpar, o Rol apresenta um termo central cuja posição é determinada por:

)* = + ,
# o
Após determinar sua posição no Rol, verifica-se seu valor.

EXEMPLO 1:

x: 3, 6, 7, 10, 11, 14, 20

)* = + ,
%# o

)* = 4o

)* = 10

2. Se n é par, não existe um elemento central e sim dois. Convencionou-se então que a
mediana é a média aritmética desses dois termos centrais.

+ ,° # + # ,°
)* = - /

EXEMPLO 2:

y: 27, 30, 31, 33, 40, 44, 45, 50, 60, 100

' '
+ ,° # + # ,° )* = 0 1
'#

)* = - /
)* = 42
" °# & °
)* = 0 1
Perceba que o valor (42) não ocorre na série, mas ele representa a mediana, ou seja, metade
dos valores da série são menores ou iguais a 42, assim como metade são maiores ou iguais
a 42.

Se os dados já estão representados numa tabela, eles já estão naturalmente ordenados.

Desta forma, verifica-se se n é par ou ímpar e aplica-se a fórmula adequada para localizar o

valor da mediana e determiná-la.

EXEMPLO 1

Dado que ∑ = 33 (ímpar), então:

)* = + ,
0 1 # o
1 4
2 10
)* = + ,
3 6 # o
4 5
5 4
)* = %
6 3 o

% , utilizamos a
o
Para facilitar a determinação de qual elemento ocupa a posição
Frequência Acumulada, na própria tabela.

0 1 1
1 4 5
2 10 15
3 6 21
4 5 26
5 4 30
6 3 33

%
o
Por meio da tabela, na coluna da Frequência Acumulada, o elemento que ocupa a
posição é = .
EXEMPLO 2

+ ,° # + # ,°
3 4 )* = - /
4 5

" "
+ ,° # + # ,°
6 8

)* = - /
7 12
10 10
11 7
15 6

Dado que ∑ = 52 (par), então: & °# % °


)* = 0 1

Por meio da tabela, na coluna da Frequência Acumulada, os elementos que ocupam as


posições 26o e 27o são 7 e 7, cuja média aritmética é 7, portanto:

3 4 4 )* = %
4 5 9
6 8 17
7 12 29
10 10 39
11 7 46
15 6 52

EXERCÍCIOS: determine a mediana, considerando as tabelas do exercício anterior.

MODA

É o valor que ocorre com maior frequência num conjunto de dados.

EXEMPLO 1

x: 2, 6, 2, 4, 1, 4, 5, 2, 8

)5 = Como os dados apresentam uma única moda, dizemos que é uma sequência
unimodal.
OBS: Para determinar a moda de um conjunto de dados, os valores não precisam estar
organizados num Rol.

EXEMPLO 2

y: 1, 1, 1, 4, 5, 8, 8, 8, 10, 16

)5 = e )5 = $ Como os dados apresentam duas modas, indicamos que se trata de uma


sequência bimodal.

Quando não ocorrer um elemento de uma sequência que apresente uma frequência maior que
a frequências dos outros elementos, dizemos que o conjunto de dados em questão é amodal.

Para dados organizados em uma tabela (discreta), basta identificar o elemento que apresenta
maior frequência.

EXEMPLO

0 1
1 4
2 10
3 6
4 5
5 4
6 3

)5 =

EXERCÍCIOS: determine a mediana, considerando as tabelas do exercício anterior


MEDIDAS DE DISPERSÃO

As medidas de dispersão buscam mostrar o comportamento dos valores que compõem a série
no que diz respeito à variação dos valores em relação a uma referência, de modo geral, a
média ou entre os próprios valores da série.

Consideremos as três séries abaixo:

X: 2, 5, 8, 3, 4, 8

Y: 4, 5, 4, 6, 5, 6

Z: 5, 5, 5 ,5 ,5, 5

A média destas três séries é 5, porém são séries distintas. A análise apenas da média, poderia
apresentar a conclusão errônea de que as três séries são iguais. Assim, as medidas de
dispersão permitem analisar a variabilidade dos elementos.

AMPLITUDE TOTAL

É a diferença entre o maior e o menor elemento da série.

67 = )8 − )

EXEMPLO 1

X: 8, 1, 7, 10, 4, 3, 15, 9, 6

67 = 15 – 1

67 = 14

EXEMPLO 2

67 = 10 – 3

67 = 7
3 4
5 2
6 12
9 8
10 1

OBS: A frequência de cada elemento não afeta a determinação da Amplitude Total.


DESVIO MÉDIO SIMPLES (DMS)

O DMS determina a média da diferença de cada elemento da série em relação à sua média.
Este conceito corresponde ao conceito matemático de distância, o que justifica o uso do
MÓDULO.

∑| > !|
:;< =

EXEMPLO 1

X: 3, 5, 1, 4, 2

!=3

| > | #|" > | # | > | # | > | # | > |


:;< =
"

|'| #| | # |> | # | | # |> |


:;< =
"

'# # # #
:;< =
"

:;< = 1,2

Este resultado indica que, em média, cada elemento da série, se dispersa da média aritmética
(3) em 1,2 unidades.

EXEMPLO 2

.
2 5 2 5 10
3 2 3 2 6
5 4 5 4 20
6 9 6 9 54

∑ .
!=

Inicialmente, devemos calcular a média.
Para isso, utilizamos a estrutura da tabela
para facilitar e organizar os cálculos:
?'
!=
'

! = 4,5

∑| > !| .
:;< =

. | − !| . :;< =
12,5 '
2 5 10
:;< = 1,55
3 2 6 3,0
5 4 20 2,0
6 9 54 13,5

EXERCÍCIOS

1) Determine o DMS das séries abaixo

a) X: 4, 12, 5, 8, 10, 20

b) Y: 22, 25, 26, 20, 23, 24

c) Z: 18, 19, 19, 18, 20, 18, 20

2) Determine o DMS de acordo com as tabelas abaixo

a) b)

2 3
1 3
3 1
2 5
4 5
5 6
7 8
6 2
10 4
VARIÂNCIA

Outra forma de conseguir que as diferenças − ! sejam sempre positivas (ou nulas) é
utilizar o quadrado dessa diferença: − ! . Ao substituir, na fórmula do DMS, o módulo
pelo quadrado da diferença, obtemos uma outra medida de dispersão chamada variância.

Assim, para dados brutos ou Rol, podemos calcular a variância por:

∑ >!
@ =

EXEMPLO 1

X: 5, 8, 12, 3

!=7

">% # $>% # >% # >%


@ =

> # # " # >


@ =

# # "# &
@ =

@ = 11,5

EXEMPLO 2

4 1
5 8
8 3
10 2

∑ .
!=
Para a determinação da média, temos:

.

!=
4 1 4 $$
5 8 40

! ≅ 6,29
8 3 24
10 2 20
. − ! . ∑ >! .
@ =
4 1 4 5,24 ∑
5 8 40 13,31
" ,$"
@ =
8 3 24 8,77
10 2 20 27,53

@ ≅ 3,92

Os dados têm, geralmente, suas unidades de medida em metro, quilograma, segundo, grau
Celsius, etc. Para determinar a Variância, os valores são elevados ao quadrado
(bidimensional), dessa forma, a comparação do resultado indicado pela variância, com os
dados coletados pode trazer confusão. Para resolver este problema de comparação,
determina-se a raiz quadrada positiva da variância, chegando no Desvio Padrão, assim:

@ = B@

Para o exemplo 1 anterior, temos: Para o exemplo 2 anterior, temos:

@ = 11,5 então seu desvio padrão é: @ = 3,92 então seu desvio padrão é:

@ = B ," @ = √ ,?

@ ≅ 3,39 @ ≅ 1,98
EXERCÍCIOS

1. Os valores abaixo são relativos à distância percorrida (em quilômetros) diariamente por um
taxista, durante duas semanas de trabalho. Determine a média diária percorria e também o
desvio padrão.

60 85 56 73 81 90
67 59 79 83 87 65

2. Para o controle de qualidade, uma empresa verifica uma amostra de 50 peças do total diário
de produção de cada máquina. Para uma máquina, no período de 30 dias obteve-se a seguinte
quantidade de peças com defeito:

0 3 2 6 1 4 0 3 3 4
5 5 6 0 0 2 2 1 5 6
3 4 4 2 5 1 6 6 3 3

a) Monte uma tabela de distribuição de frequência para estes dados.

b) Determine a média e o desvio padrão para os dados coletados.

3. Determine o Desvio Padrão de cada distribuição abaixo:

a) b)

3 5 0 10
4 10 1 5
5 7 2 5
6 10 5 10
7 5 10 17
DETERMINAÇÃO DE UMA TABELA NA VARIÁVEL CONTÍNUA

A representação de dados por meio de uma tabela de variável contínua se dá quando ocorre
uma grande variação nos valores dos dados coletados o que implica na inviabilidade no uso
da tabela discreta, pois esta apresentaria uma grande quantidade de linhas.

Para a construção de uma tabela na variável contínua, se faz necessário determinar valores
que orientarão essa construção. Assim, para exemplificar, determinaremos a tabela para os
dados a seguir:

Variável x: notas obtidas por alunos numa determinada avaliação.

Amplitude Total: É a diferença entre o maior valor e o menor valor da série.

67 = D)8 − D)

EF = 9,5 – 2

EF = 7,5

Intervalo de Classe: É qualquer subdivisão da amplitude total.

Para executarmos a subdivisão da amplitude total, devemos determinar a quantidade de


classes da tabela, para isso temos os seguintes conceitos:

Limite de Classe: São os valores extremos de cada classe. O menor é chamado de Limite
Inferior (I) e o maior e Limite Superior (L). Estes valores são importantes para classificação
dos valores obtidos na pesquisa.

Neste exemplo, 4 é o limite inferior e 6, o limite superior. Esta notação indica que valores iguais
a 4 pertencem ao intervalo, mas valores iguais a 6 limitam, mas não pertencem ao intervalo.
Os valores iguais a 6 (ou mais) pertencem à classe subsequente.

Amplitude de Classe: É a diferença entre o limite superior e inferior da classe.

G=H−I
Número de Classes: É a quantidade de classes que será utilizada na tabela. Existem
algumas formas de determinar o número de classes.

Critério da Raiz: Critério de Sturges:

J= √ J= + , . OPQ

De acordo com o exemplo: De acordo com o exemplo:

K = √30 K = 1 + 3,3. log 30

K ≅ 5,48 K ≅ 5,87

Lembrando que a quantidade de classes deve ser um número NATURAL. Podemos decidir
em utilizar uma unidade acima, uma abaixo ou o valor do inteiro determinado por um dos
critérios utilizados. De acordo com o exemplo: 4, 5 ou 6.

Dessa forma, determinamos a amplitude do intervalo por:

67
G=
J

Para cada valor de K, obtemos um correspondente valor de h e decidimos em utilizar aquele


mais adequado, buscando determinar a tabela de forma mais simples de ser compreendida.

Vamos utilizar K = 4 e com isso temos:

%,"
G=

G = 1,875

Para tornar a tabela mais compreensível, utilizaremos h = 2, evitando valores decimais que
eventualmente não trarão prejuízos à precisão da tabela.

Após isso, contabilizamos os elementos de cada classe e por fim, indicamos a tabela.
Observações:

1) Na primeira classe, podemos colocar como limite inferior um valor menor ou igual ao menor
valor da varável x.

2) Existem tabelas em que o intervalos de classe não são homogêneos. Neste conteúdo,
usaremos apenas intervalos de mesmo tamanho.

3) O limite superior da última classe pode ser “fechado”, se este valor ocorrer nos dados
coletados, não sendo necessário inserir outra classe.

O HISTOGRAMA relativo à tabela segue abaixo:

Exercícios:

1) No quadro abaixo, encontram-se os valores de tempo (em minutos) utilizados por alunos
para desenvolver um experimento no laboratório. Determine a representação dos dados numa
tabela e também num histograma.
2) Complemente a tabela abaixo com os valores da frequência relativa, frequência acumulada
e da frequência relativa acumulada.

3) Determine a tabela relativa ao histograma abaixo:

Para determinar as Medidas de Tendência Central a partir de uma tabela na variável contínua,
ocorrem algumas diferenças nas fórmulas utilizadas para o mesmo conceito:

Média: Para determinar a média, se faz necessário determinar o valor do de cada intervalo
de classe. Para isso, basta determinar a média aritmética entre limite inferior e superior de
cada intervalo de classe. Para facilitar e organizar os valores, utilizaremos a própria tabela de
maneira auxiliar.
!=
∑ .
!=
%' ! = 22,5

Para calcular a Mediana, se faz necessário a determinação da frequência acumulada da


distribuição. Isso permite obter a classe em que ocorre a mediana.

O último elemento da frequência acumulada indica a quantidade (n) de elementos da


distribuição. Neste exemplo é 19.

A posição ocupada pela mediana é o centro dos valores, se estes estivessem dispostos num
Rol. Dado que os valores estão resumidos numa tabela, então dividimos (n) por dois. Assim:

5
)* = + , posição ocupada pela mediana.

? 5
)* = + ,

)* = ?, " 5

A mediana ocorre entre o nono e o décimo elemento da distribuição (Rol), consequentemente


está no terceiro intervalo de classe. Para determinar o valor da mediana, utilizaremos
proporção.

"−% ?, " − %
=
−? )* − ?

$ ,"
=
)* − ?

$ )* − ? = . ,"

)* − ? = ', ? %"

)* = ?, ? %"
Para a determinação da Moda, entre outras formas, utilizaremos a de Czuber, que leva em
consideração a frequência simples da classe modal, assim como as frequências anterior e
posterior a esta.

A forma de Czuber está baseada na proporção entre triângulos semelhantes. Pra melhor
visualizar esta situação, determinemos o HISTOGRAMA associado à tabela:

O valor da moda é obtido pela soma do Limite Inferior da classe modal com valor (x), de acordo
com a figura, considerando que os triângulos APB e DPC são semelhantes (caso AAA). Assim:

6V
=
W: G−

=
> X 4 = 30 − 3
> Y>X
7 = 30
=
X
Y>X = 4,2857

4 = 3 10 −
) 5 = I )5 + Z[ ≅ 20 + 4,29 Z[ ≅ 24,29

Exercícios:

Determine os valores da média, mediana e moda para as distribuições abaixo:

a) c)

b)
MEDIDAS DE DISPERSÃO

Amplitude Total

Para determinar a amplitude total a partir de uma tabela na variável contínua é necessário
determinar os valores de xi da primeira e última classe e operar a diferença:

]^ =3

]_X = 11

EF = 11 − 3

EF = 8

Variância e Desvio Padrão

Para a determinação da variância e desvio padrão a partir da tabela na variável contínua, é


necessário determinar, inicialmente, sua média. Esta é a diferença no processo em relação à
variável discreta, por conta de calcular os valores de xi de cada intervalo de classe.

Para facilitar e organizar esta determinação, podemos utilizar a tabela:

∑ . ∑ >! .
!= @ =
∑ ∑

?' % ,&
!= @ =

! = &, "? @ = ,? variância


@ = B@ @ = , ?$ desvio padrão

@ = √ ,?

Exercícios

Determine o valor do desvio padrão para as distribuições abaixo:

a)

b)
Medidas Separatrizes

São valores que separam o Rol em partes iguais. Os mais utilizados são:

Quartil (Q) quatro partes iguais. Decil (D) dez partes iguais.

Quintil (K) cinco partes iguais. Percentil (P) cem partes iguais.

Exemplos

a) Rol

X: 3,5,5,7,9,12,15,16,19,24,25,30,33,38,40,50

Determinar o valor do Q1 primeiro quartil.

A quantidade de elementos da distribuição é (n) = 16, assim:

` = 16 .

` =4 isso implica que o valor do primeiro quartil é o elemento que está na quarta posição
do Rol. Neste exemplo este valor é o 7.

b) Tabela na Variável Discreta.

Determinar o valor do K3 terceiro quintil

Para isso, precisamos determinar a frequência acumulada:


A quantidade de elementos da distribuição é (n) = 27, assim:

K = 27 .

K = 16,2 isso implica que o valor do terceiro quintil é o elemento que está posição 16,2.
Considerando a variável discreta, não existe elemento nesta posição. Para determinar o K3,
vamos calcular a média entre os elementos que ocupam as posições 16 e 17.

Y# Y
K =

K = 10

c) Tabela na Variável Contínua

Determinar o valor do P67.

Para isso, precisamos determinar a frequência acumulada:

A quantidade de elementos da distribuição é (n) = 39, assim:

b
a = 39 .
b
YY

a b = 26,13 isso implica que o valor do P67 é o elemento que está na posição 26,13. Dado
que a variável é contínua, podemos fazer o cálculo de forma análoga à mediana.
=
> , >
>c def > c

=
b ,
def > c

7 a b − 8 = 4,52

a b ≅ 8,65

Exercícios

1) Calcule os valores de Q3, D8 e P60 da tabela abaixo:

2) Calcule os valores de K2, D3 e P80 da tabela abaixo:


Diagrama de Dispersão

Para fazer a análise do comportamento de duas grandezas envolvidas em algum fenômeno,


podemos utilizar o diagrama de dispersão. Este permite verificar a existência de algum tipo de
relação entre as duas.

Nestas duas variáveis, uma delas vai ser a variável controlável e a outra, a variável não
controlável. De modo geral, buscamos controlar a variável não controlável por meio da variável
controlável.

Variável Controlável Variável Não Controlável


Preço de um produto Quantidade vendida
Dose de um remédio Temperatura do corpo
Intensidade de atividade física Perda de massa corpórea
Tempo de aquecimento (Energia) Temperatura

O diagrama de dispersão é construído em um sistema de eixos cartesianos, tal que a variável


controlável ocorre no eixo horizontal (x) e a variável não controlável, no eixo vertical (y). Dessa
forma, dois valores correspondentes, geram um ponto cartesiano.

Exemplo

No quadro abaixo, estão os valores dos tempos (em horas) de estudo para a realização de
uma prova e a nota correspondente obtida por seis alunos observados.

Tempo – Var. Contr. (x) 4 5 6,5 8 9,5 11


Nota – Var. Não Contr. (y) 2 3 5 6,5 7,5 8
Correlação

Por meio do diagrama de dispersão, podemos verificar o comportamento entre as variáveis,


portanto, o tipo de correlação que existe entre elas.

Quando um aumento nos valores da variável controlável (x) implica num aumento nos valores
da variável não controlável (y), dizemos que elas apresentam correlação positiva, como é o
caso do exemplo.

Quando um aumento nos valores da variável controlável (x) implica numa diminuição dos
valores da variável não controlável (y), dizemos que elas apresentam correlação negativa.

Quando duas variáveis não apresentam uma correlação positiva ou negativa, o diagrama de
dispersão apresenta pontos espalhados de forma aleatória. Podemos dizer que as duas
variáveis em análise são independentes.

Regressão Linear

A regressão linear determina a equação de reta que busca determinar o comportamento entre
as duas variáveis envolvidas em um fenômeno. Conhecida esta equação, podemos fazer
previsões de resultados com valores diferentes daqueles observados.

Uma reta é descrita, na Geometria Analítica de seguinte forma: y = a + bx, em que a é o


coeficiente linear e b o coeficiente angular.

Observe que para determinar os coeficientes a e b, são necessários apenas dois pontos. Mas
no diagrama de dispersão, são considerados vários pontos (quanto mais pontos, mais precisa
é a equação) e por meio destes, determinaremos uma reta que mais se ajusta ao
comportamento entre as duas variáveis.
O coeficiente linear (a) é o valor da variável não controlável, em que a reta intercepta o eixo
y, quando seu valor corresponde (x) da variável controlável for igual a zero.

O coeficiente angular (b) é a razão ou taxa de crescimento ou decrescimento que existe entre
as variáveis. Do ponto de vista geométrico é o valor da tangente do ângulo existente entre o
eixo (x) e a reta, no sentido anti-horário.

Para determinar os valores de a e b, utilizamos o Método dos Mínimos Quadrados, de


acordo com as expressões abaixo:

Exemplo

No quadro abaixo, estão os valores dos tempos (em horas) de estudo para a realização de
uma prova e a nota correspondente obtida por seis alunos observados.

Tempo – Var. Contr. (x) 4 5 6,5 8 9,5 11


Nota – Var. Não Contr. (y) 2 3 5 6,5 7,5 8

Para facilitar e organizar os cálculos, vamos utilizar o quadro abaixo:

xi yi xi . yi xi2
4,0 2,0 8,00 16,00
5,0 3,0 15,00 25,00
6,5 5,0 32,50 42,25
8,0 6,5 52,00 64,00
9,5 7,5 71,25 90,25
11,0 8,0 88,00 121,00
Σ = 44,0 Σ = 32,0 Σ = 266,75 Σ = 358,50
−g.
&. &&,%" > .
g= 8=
&. "$," > & &

g ≅ ', ? 8 = ", − ', ? . %,

8=− , %

h=8+g h = − , % + ', ?

Conhecida a equação que busca modelar o comportamento entre as variáveis, podemos fazer
previsões considerando valores da variável controlável ou não controlável:

a) Nas condições dos valores pesquisados, se um aluno estudar 9 horas, qual a previsão de
sua nota?

h = − , % + ', ? h = − , % + ', ? . ? h = &, $

b) Nas condições dos valores pesquisados, se um aluno pretende obter nota igual a 8,5, qual
deve ser o tempo de estudo?

h = − , % + ', ? $, " + , % = ', ?

$, " = − , % + ', ? = ', $& Gi


Exercícios

1) Obtenha a equação da reta que melhor se ajusta aos dados da tabela abaixo e determine:

x 0,9 1,4 2,0 2,8 3,7 4,1 5,2


y 15,2 13,5 11,0 9,5 9,0 8,5 8,0

a) y se x = 3,0

b) x se y = 10,0

2) Devido ao rompimento de um oleoduto submarino, uma macha de óleo foi formada na


superfície oceânica. A evolução da mancha de óleo (em m2) em relação ao tempo (em horas),
foi mensura e indicada na tabela. Os valores têm referência no instante do rompimento.

Mancha 50 120 200 300 320 500


Horas 1,0 2,0 3,0 4,0 5,0 6,0

Considerando linear a relação entre a área da mancha de petróleo, determine a área da


mancha no tempo 9,5 horas.

3) Em uma câmara de armazenamento, fez-se um teste que buscou relacionar a umidade


relativa do ar e o percentual de germinação de grãos armazenados. Para isso, foram
colocados 100 grãos em diferentes percentuais de U.R. pelo mesmo período de tempo e
contou-se os grãos germinados. Os resultados foram indicados no quadro abaixo:

U.R.(%) 20 30 40 50 60 70 80
Grãos germinados 5 8 15 20 30 45 60

Determine o percentual de germinação, considerando a U.R. de 15%.


Interpretação do Desvio Padrão

O Desvio Padrão é a mais importante medida de dispersão devido à sua aplicabilidade e uso,
entre elas uma das mais importantes está associada à Curva Normal ou Curva de Gauss.

Esta curva descreve um comportamento simétrico dos valores da série, no que diz respeito às
frequências dos elementos.

Dessa forma pode-se afirmar que o intervalo j ̅ − l, ̅ + lm contém aproximadamente 68,3%


dos valores da série.

O intervalo j ̅ − 2l, ̅ + 2lm abrange 95,4% dos dados da série e o intervalo j ̅ − 3l, ̅ + 3lm,
contém 99,7% dos dados da série.

A Curva Normal e o Desvio Padrão são as


principais ferramentas do modelo
probabilístico chamado de Distribuição
Normal. É o modelo mais utilizado nas
diversas áreas do conhecimento, devido à
sua versatilidade e simplicidade.

Numa série de dados que apresenta simetria na sua distribuição, podemos associar uma curva
normal. Este fato implica que para cada série de dados, uma curva normal pode ser gerada
tornando a aplicação do modelo muito trabalhoso. Para facilitar os cálculos, desenvolveu-se
uma curva normal que atende à todas as diferentes curvas normais, a chamada Curva Normal
Padronizada. Essa curva está associada a uma tabela que relaciona valores do Desvio Padrão
com a porcentagem (probabilidade) correspondente, num dado intervalo.

Para o uso da tabela, deve-se determinar o valor de n padronizado por meio da seguinte
fórmula:

X>p
o=
q X

é um dos valores do intervalo.

r é o valor da média populacional dos dados considerados.


l é o desvio padrão populacional dos dados considerados.
Exemplo

Uma variável aleatória x que admite distribuição Normal tem média 20 e desvio padrão 2,
calcule:

a) s 20 < < 21,5

>u
n=
@

Y> Y
o = =0

, > Y
o = = 0,75

s 0 < o < 0,75 = 0,2734

Este valor pode ser obtido diretamente na tabela. O resultado (0,2734) indica que 27,34% dos
valores da distribuição estão entre 20 e 21,5. Uma outa forma de interpretar o resultado é do
ponto de vista probabilístico. Contextualizando a situação de modo que os valores
correspondem às idades de uma turma de alunos, a probabilidade de sortear aleatoriamente
um deles e este apresentar idade entre 20 e 21,5 anos é de 27,34%.
b) s > 22

>u
n=
@

> Y
o = =1

s o > 1 = 0,5 − 0,3413


s o > 1 = 0,1587

Os valores tabelados correspondem à área abaixo da curva entre z e o eixo de simetria da


curva. Assim, sendo a curva dividida em duas partes iguais, cada “lado” corresponde à 0,5
ou 50% da área.

c) s 19 < < 21

>u
n=
@

w> Y
o = = – 0,5 (como a tabela é
unicaudal, utilizamos seu simétrico positivo)

> Y
o = = 0,5

s −0,5 < o < 0,5 = 0,1915 + 0,1915


s −0,5 < o < 0,5 = 0,3830
d) s < 23

>u
n=
@

> Y
o = = 1,5

s o > 1,5 = 0,5 + 0,4332


s o > 1,5 = 0,9332

Exercícios

1. O tempo que os alunos utilizam para fazer uma prova é normalmente distribuído, com média
de 72 minutos e desvio padrão de 5 minutos. Determine a probabilidade de um aluno utilizar:
a) mais de 84 minutos;
b) mais de 48 minutos;
c) entre 70 e 84 minutos;
d) entre 60 e 70 minutos

2. O conteúdo líquido das garrafas destinadas ao envase de 300 ml de um refrigerante é


normalmente distribuído com média de 300 ml e desvio padrão de 4 ml.
a) Determine o percentual de garrafas cujo conteúdo possa apresentar menos de 302 ml.
b) Entre 200 garrafas, quantas poderão ter menos de 295 ml?

3. Um fabricante de baterias sabe, por experiência passada, que as baterias de sua fábrica
têm vida média de 800 dias e desvio padrão de 30 dias, sendo que a duração segue uma
distribuição normal. Oferece uma garantia de 730 dias, isto é, troca as baterias que
apresentarem falhas nesse período. Fabrica 10000 baterias mensalmente. Quantas deverá
trocar, mensalmente, pelo uso da garantia?
4) Considerando que a massa de determinado artigo produzido por uma fábrica seja
normalmente distribuído com média de 360 gramas e desvio padrão de 15 gramas, determine
a probabilidade de que uma unidade, selecionada ao acaso, tenha massa:

a) entre 350 e 365 gramas;

b) entre 362 e 370 gramas:

c) maior que 372 gramas:

5) A bauxita extraída de uma mina apresenta concentração média de 40% de Alumina (Óxido
de Alumínio – Al2O3), com desvio padrão de 4,5%. Num determinado processo de fabricação,
sua viabilidade econômica, ocorre com Alumina acima de 35%. Considerando que o nível de
concentração é Normal, determine a massa, em uma tonelada de bauxita, que não seria viável
economicamente.

6) Suponha que as notas de um exame são normalmente distribuídas com média de 76 e


desvio-padrão de 13. Os estudantes que ficarem entre as 15% melhores notas, receberão
conceito A e os estudantes que ficarem entre as 10% piores notas, receberão conceito F.
Determine a nota mínima para um estudante:

a) receber o conceito A

b) não receber o conceito F

Inferência Estatística

A inferência estatística consiste em fazer afirmações sobre uma característica de uma


população tendo apenas observado o comportamento de uma amostra dessa população.

Como a afirmação tem como base uma amostra, muitas vezes pequena, da população, esta
afirmação está associada a uma probabilidade.

Para as diversas situações possíveis sobre o comportamento de alguma característica da


população, existe um modelo probabilístico adequado a ser aplicado.
Estimação

Tem a finalidade de avaliar parâmetros de uma distribuição através de estimadores obtidos


em uma amostra. Lembrando que:

• Parâmetros: são medidas populacionais, neste caso é impossível fazer inferências, pois
toda a população foi investigada.

• Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as
teorias inferenciais para que possamos fazer conclusões sobre a população.

Considerando a variância populacional @ , seu estimador i é calculado para uma


amostra de tamanho n por:

∑ >!
i =
>

Numa série com média fixa, temos a liberdade de escolha de (n – 1) elementos. Pois um deles
deverá ser determinado arbitrariamente para que a média da distribuição seja aquela
previamente calculada. Esse fato denominamos de graus de liberdade.

! u
ESTIMADOR PARÂMETRO
Média
i @ Variância
i @ Desvio Padrão
y
x x Proporção

Uma distribuição amostral é a distribuição de probabilidade por um modelo probabilístico da


amostra, formada quando amostras de tamanho (n) são repetidamente coletadas de uma
população (com reposição ou não). Sendo o modelo probabilístico fundamentado na amostra,
tem-se uma distribuição amostral de médias das amostras.
Propriedades de distribuições amostrais das médias de amostras

1. A média das amostras u ! é igual a média da população (u

2. O desvio padrão das médias das amostras @! é igual ao desvio padrão da população

[@ m dividida pela raiz quadrada de (n), em que (n) é o tamanho da amostra.

@
@! =

O desvio padrão de uma distribuição amostral de médias das amostras é chamado de erro
padrão de média.

Exemplo

Considere a seguinte população:

X: 5,10,15,20

r = 12,5 e l = 5,59

Considere todas as amostras de tamanho n = 2, com reposição:

(5,5) !=5 (10,5) ! = 7,5

(5,10) ! = 7,5 (10,10) ! = 10

(5,15) ! = 10 (10,15) ! = 12,5

(5,20) ! = 12,5 (10,20) ! = 15

(15,5) ! = 10 (20,5) ! = 12,5

(15,10) ! = 12,5 (20,10) ! = 15

(15,15) ! = 15 (20,15) ! = 17,5

(15,20) ! = 17,5 (20,20) ! = 20


xi fi Relembrando que:

@
@! =
5,0 1


7,5 2
10,0 3 z = 12,5

@! = 3,953 ","?
@! =
12,5 4


15,0 3

@! = 3,953
17,5 2
20 1

Teorema do Limite Central

Este teorema fundamenta o ramo inferencial da estatística. Ele descreve a relação entre a
distribuição amostral de médias das amostras e a população à qual foram retiradas as
amostras. Este teorema nos permite fazer inferências sobre a média de uma população.

1. Se amostras de tamanho n em que n≥30, são tiradas de uma população com média u e

desvio padrão @, então a distribuição amostral de médias das amostras se aproxima da


distribuição Normal. Vale salientar que quanto maior o tamanho da amostra, maior é esta
aproximação.

2. Se uma população é normalmente distribuída, a distribuição amostral de médias das


amostras é normalmente distribuída para qualquer amostra de tamanho n.

Probabilidade Associado ao TLC

Considerando O TLC e a Curva Normal Padronizada (z) podemos determinar a probabilidade


de que a média de uma amostra ocorra num dado intervalo da distribuição amostral.

>u !>u !>u


n= n= n= @
@ @! |

Exemplo:
De acordo com uma fundação de proteção às tartarugas, a espécie Dermochelys coriácea,
coloca, em média 80 ovos em cada ninho, com desvio padrão de 10 ovos. Considerando esta
distribuição normal, determine a probabilidade de numa amostra de 15 ninhos, a média ser
maior que 78 unidades.
P(x > 78) = ? n = − ', %%"
!>u
n= @ P(z > – 0,775) = 0,5 + 0,2823
|
√ P(z > – 0,775) = 0,7823

%$ > $'
n= '}
√ "

Exercícios

1) O valor da tonelada de minério de ferro é de 120 dólares, cuja média de pureza é de 62%
com desvio padrão de 7%. Um lote é aceito se apresentar pureza mínima de 59% na amostra.
Trinta e cinco pontos de coleta são necessários para formar a amostra que vai para análise,
determine a probabilidade do lote ser reprovado.

2) Um piscicultor acredita que tem lucro máximo quando seus peixes apresentam massa igual
a 2,2 Kg e desvio padrão de 180 gramas. Uma amostra com 20 exemplares é retirada para
análise. Determine a probabilidade dessa amostra apresentar massa entre 2,10 Kg e 2,25 Kg,
considerando essa distribuição Normal.

3) Uma empresa recicladora de alumínio, buscando qualidade de seus produtos, faz ensaios
de dureza nas barras fundidas que serão vendidas à outras indústrias de transformação. Numa
determinada composição, a média de dureza é de 39,80 HB (Brinell) com desvio padrão de
3,52 HB. Numa amostra de 50 barras, qual a probabilidade de se obter dureza entre 39,00 HB
e 40,50 HB?

Intervalo de Confiança

É um intervalo Real, centrado na estimativa pontual ao qual se busca incluir o parâmetro,


considerando um determinado nível de confiança.

Este nível de confiança é a probabilidade do parâmetro estar contido no intervalo.

Uma estimativa pontual é um valor único estimado para o parâmetro populacional. A estimativa
pontual menos tendenciosa de uma média populacional u é a média amostral !.

Uma estimativa intervalar é um intervalo, ou amplitude de valores, utilizado para estimar um


parâmetro populacional.
Retomando o conceito de que o nível de confiança é a probabilidade de o intervalo conter o

da curva Normal entre os pontos − n~ e n~ dado que (1 − •) é o nível de confiança adotado.


parâmetro estimado, em termos da variável normal padrão (z), isto representa a área abaixo

Sendo:

!>u
n= @
|

Temos:

x €−n~ < < n~ • = –~


!>u
@

x +−n~ . < ! − u < n~ . ,= –~


@ @
√ √

x + − ! − n~ . < − u < −! + n~ . ,= –~
@ @
√ √

x + ! + n~ . > u > ! − n~ . ,= –~
@ @
√ √
ou:
@ @
x € ! − n~ . < u < ! + n~ . •= –~
√ √
Intervalo de confiança para a estimativa da média populacional

Exemplo

Uma empresa fabricante de baterias para celulares está testando um novo modelo. Para
manter um determinado padrão de qualidade, busca aperfeiçoar o modelo aumentando o
tempo de uso, quando totalmente carregada até sua descarga completa, com desvio padrão
de 40 minutos. Uma amostra aleatória de 50 baterias foi testada e indicou duração média de
30 horas. Determine um intervalo de confiança de 90% para o tempo médio de duração da
bateria.

! = 30h (média da amostra)

@ = 0,67h (desvio padrão populacional)

n = 50 (número de observações da amostra)

– ~ = 1 – 0,90 = 0,1 ( nível de confiança) n~ = 1,65

@ @
x € ! − n~ . < u < ! + n~ . •= –~
√ √

', &% ', &%


x ƒ ' − , &" . <u< ' + , &" . „ = ?'%
√"' √"'

x† ' − ', & < u < ' + ', &‡ = ?'%

x† ?, $ < u < ', &‡ = ?'%

Assim, podemos afirmar, com 90% de confiança, que o tempo médio de duração da bateria é
um valor entre 29,84h e 30,16h. Podemos ter 90% de confiança de que não estamos errando
por mais de 0,16h nesta estimação.
Exercícios

1) Uma amostra aleatória de 5 elementos retirados de uma população normal com desvio
padrão 2, apresentou um valor médio de 52. Determine um intervalo de confiança de 95%
para a média populacional.

2) Num restaurante “por quilo”, oito refeições indicaram os seguintes preços (em Reais):
22,17,21,24,15,18,16,19. Considerando esta distribuição normal com desvio padrão de IR$
5,00, determine um intervalo de confiança de 90% para a média populacional das refeições
servidas neste restaurante.

3) A tabela abaixo indica o tempo (em dias) para o consumo total de um creme hidratante com
conteúdo de 100 gramas.

28 27 32 33 34 26 30 29 30 31

Considerando que o tempo de uso é normal, com desvio padrão de 3 dias, determine:

a) Um intervalo de confiança de 99% para a população.

b) Um intervalo de confiança de 90% para a população.

Como podemos observar, o intervalo de confiança é composto pela média da amostra


subtraída ou somada ao erro padrão:

I = j! − ˆ, ! + ˆm
Este erro padrão é determinado por:

@
ˆ = n~ .

O nível de confiança e o erro padrão constitui a precisão de uma estimativa. À medida que
aumentamos o nível de confiança do intervalo, o erro padrão também aumenta, se
considerarmos o mesmo tamanho da amostra. Em termos de precisão, o ideal seria aumentar
o nível de confiança de diminuir o erro padrão. Se consegue isso, aumentando o tamanho da
amostra. Dessa forma, se pré-estabelecidos os valores do erro padrão e o nível de confiança,
podemos determinar o tamanho da amostra:

n~ . @
=€ •

Exemplo

Considerando uma distribuição Normal, com desvio padrão de 3,1 unidades, qual o tamanho
de uma amostra para se ter 98% de nível de confiança e não cometer um erro maior que 0,6
unidades na estimação da média populacional?

n~ . @
=€ •

=+ ,
, . ,
Y,

= 145

Fator de correção

A expressão indicada para o intervalo de confiança para a média, foi desenvolvida


considerando amostras obtidas com reposição. Dessa forma, podemos considerar uma
população infinita, pois poderíamos obter infinitas amostras devido à essa reposição.

Se uma população for muito grande em relação à amostra, a não reposição de um elemento
praticamente não altera a probabilidade da seleção do próximo elemento. Mas se a amostra
for muito grande em relação à população, a não reposição de um elemento modificará a
probabilidade de escolha dos próximos elementos, alterando a distribuição de probabilidades.

Para minimizar os erros cometidos com esta situação, aplica-se o fator de correção para
amostras maiores que 5% do tamanho da população.

Este fator de correção é dado por: Š


‹>
‹>

Em que N é o tamanho da população e n é o tamanho da amostra.

Dessa forma, o intervalo de confiança é representado por:

@ ‹ − @ ‹ −
x Œ ! − n~ . . • < u < ! + n~ . .• Ž= –~
√ ‹ − √ ‹ −
Exemplo:

Sabe-se que as despesas mensais com alimentação dos 1000 alunos de uma faculdade no
período letivo apresentam distribuição normal com desvio padrão de US$ 3,00. Uma amostra,
sem reposição de 100 estudantes, indicou um gasto médio mensal de US$ 50,00. Determine
um intervalo de confiança de 90% para a despesa média dos alunos no período letivo.

Resolução:

Sendo o nível de confiança de 90%, o valor correspondente de n~ é 1,64.

” • – − • ” • – − •
• Œ •‘ − ’“ . . • < — < •‘ + ’“ . .• Ž= –“
√• – − √• – −

3 1000 − 100 3 1000 − 100


s = Œ50 − 1,64 . .• < r < 50 + 1,64 . .• Ž = 0,90
√100 1000 − 1 √100 1000 − 1

x= ?, " < u < "', % = ', ?'

Exercícios

1) Em uma cidade de uma região metropolitana há 30 supermercados que comercializam um


determinado produto cujo preço de venda admite distribuição normal. Uma amostra aleatória
de preços deste produto em sete supermercados desta cidade indicou os seguintes valores
em Unidades Monetárias:

5,90 6,10 7,50 6,30 6,00 7,20 8,00

O desvio padrão dos preços deste produto na região metropolitana é 0,50 (u.m.). Determine
um intervalo de confiança de 90% para o preço médio deste produto na cidade pesquisada.
2) Buscando ajustar a ajuda de custo de seus 50 vendedores, uma empresa considerou os
gastos de 15 vendedores, constatando uma despesa média de 20 u.m.

Historicamente a empresa considera um desvio padrão de 2 u.m. para os gastos de seus


vendedores. Sendo esta distribuição normal, determine um intervalo de confiança de 95% para
a média de gastos dos vendedores desta empresa.

3) Para estimar o tempo necessário para realizar a manutenção preventiva de 40 tornos


automáticos de uma empresa, o encarregado da manutenção escolheu ao acaso 5 operações
e verificou que o tempo médio de manutenção foi de 7 horas. De acordo com sua experiência,
o encarregado considera que o desvio padrão do tempo necessário para a operação é de 15%
do tempo médio obtido na amostra.

Determine o tempo máximo e mínimo previsto para a manutenção preventiva de cada torno,
com nível de 98% de confiança, considerando essa distribuição normal.

Observação

Utilizamos até aqui, intervalos de confiança considerando o conhecimento prévio do desvio


padrão populacional @ . Num processo experimental em que este valor não é conhecido
ou não pode ser obtido com certa facilidade, substituímos o desvio padrão populacional pelo
desvio padrão amostral i . Para distribuições cujas amostras têm característica Normal, o
erro cometido por esta substituição pode ser desconsiderado. Lembrando que:

∑ >!
i =
>

!>u
Substituindo @ em n = @ por i
|
temos a distribuição t (Student).

!>u
7=i
|

Exemplo 1

O comprimento das peças produzidas por uma máquina tem suas dimensões distribuídas
normalmente. Uma amostra aleatória de 10 peças apresentou os seguintes valores (em
milímetros).

8,75 8,72 8,73 8,76 8,78 8,74 8,73 8,77 8,74 8,72

Determine um intervalo de confiança de 95% para o comprimento médio das peças produzidas
por esta máquina.

Dados:

n = 10 (tamanho da amostra)

1 − • = 95% (nível de confiança)

̅ = 8,744 (calculado)

∑ >! Y,YY c
i = i =
> w
. Assim o desvio padrão amostral s(x) = 0,0207

Para a aplicação da fórmula abaixo, não se aplica o fator de correção, pois não se conhece o
tamanho da população.

O valor de 7~ é obtido na tabela de distribuição (t Student) levando em consideração os

GRAUS DE LIBERDADE, que é dado por (n – 1). Dessa forma 7~ = 2,262

i i
x € ! − 7~ . < u < ! + 7~ . •= –~
√ √
0,0207 0,0207
s = ƒ8,744 − 2,262 . < r < 8,744 + 2,262 . „ = 0,95
√10 √10

s = 8,744 − 0,0148 < r < 8,744 + 0,0148 = 0,95

s = 8,7292 < r < 8,7588 = 0,95


Exemplo 2

Um pequeno produtor de queijos se utiliza de processos rudimentares em sua produção. Um


cliente, proprietário de uma loja que comercializa produtos provenientes de produção familiar,
deseja encomendar 200 peças do produto padronizadas em 1 kg.

Após a produção, para verificar se o lote entregue atende ao padrão desejado, o comerciante
selecionou ao acaso uma amostra de 15 peças que apresentou “peso” médio de 1,03 kg com
desvio padrão de 0,06 kg.

Determinar um intervalo de confiança de 90% para o “peso” médio das peças desse lote.

Resolução

Dados: ̅ = 1,03 kg (média amostral)

N = 200 (tamanho da população) s(x) = 0,06 kg (desvio padrão amostral)

n = 15 (tamanho da amostra) 1 − • = 90% (nível de confiança)

Como o desvio padrão populacional é desconhecido, utilizamos a distribuição t.

Com (15 – 1) = 14 graus de liberdade e 1 − • = 90%, o valor de 7~ = 1,761.

Observando que o tamanho da amostra é maior que 5% do tamanho da população, se faz


necessário o uso do fator de correção. Assim temos:

™ • – − • ™ • – − •
• Œ •‘ − ˜ “ . . • < — < •‘ + ˜ “ . .• Ž= –“
√• – − √• – −

0,06 200 − 15 0,06 200 − 15


s = Œ1,03 − 1,761 . . • < r < 1,03 + 1,761 . . • Ž = 0,90
√15 200 − 1 √15 200 − 1

s = 1,03 − 0,0263 < r < 1,03 + 0,0263 = 0,90

s = 1,004 < r < 1,056 = 0,90

Neste nível de exigência (90% de confiança), o lote está dentro do padrão.


Exercícios

1) Uma amostra de 15 peças produzidas por uma máquina, forneceu um comprimento médio
de 20 mm, com desvio padrão de 0,1 mm. Considerando que este comprimento apresenta
distribuição normal, determine um intervalo de confiança de 95% para o comprimento das
peças produzidas por esta máquina.

2) Um restaurante do tipo self – service, cobra suas refeições por “peso”. Uma amostra
aleatória de 12 refeições escolhidas ao acaso, num período em que 80 refeições foram
servidas apresentou peso médio de 460g com desvio padrão de 80g. Determine o intervalo
de confiança de 90% para o peso médio das refeições servidas neste período, considerando
esta distribuição normal.

3) Para estimar o intervalo de tempo de estacionamento em via pública, uma amostra foi
observada, indicando os tempos (em minutos) abaixo:

32 40 25 20 33 28 50 45 18 20 38 48 33 21 12

Determine o intervalo de confiança para a média de tempo de estacionamento à 90%.


Área subtendida pela Curva Normal reduzida de 0 a z
Tabela da variável aleatória normal padronizada (z)

zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 *0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936

2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 *0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986

3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990

3,10 ou + 0,4999
TABELA DE DISTRIBUIÇÃO T STUDENT

Você também pode gostar