Apostila Contabilidade
Apostila Contabilidade
Apostila Contabilidade
LUIGI PAPAIZ
APOSTILA DE
ESTATÍSTICA
Diadema
2023
INTRODUÇÃO À ESTATÍSTICA
Desde a antiguidade, governantes têm apresentado interesse por suas populações e riquezas,
tendo em vista, principalmente finalidades militares e tributárias.
Há registros que por volta de 3000 a.C., já se realizavam censos na China, Babilônia, Egito e
Grécia. Os romanos faziam um registro cuidadoso dos nascimentos e mortes de sua
população, com objetivos de taxação, cobrança de impostos e homens aptos para a guerra.
A etimologia da palavra Estatística está ligada ao sentido alemão como “Ciência Política do
Estado” (Statistik) que por sua vez deriva do latim “status”, que significa “Estado”.
Atualmente, podemos entender a Estatística como a ciência que estuda a forma de coletar,
analisar, representar, interpretar e fazer inferências nos dados que estão relacionados à
fenômenos aleatórios associados a eventos em massa.
Grande parte dos conhecimentos obtidos na Antiguidade se deu por empirismo e observação,
sem a aplicação de um método que comprovasse determinada conclusão.
Atualmente, praticamente todo acréscimo de conhecimento, para ser validado, deve estar
atrelado a um método que apresenta fundamentação científica.
1. COLETA DE DADOS:
É uma das fases mais importantes de uma análise estatística, pois se a coleta não for rigorosa
do ponto de vista das características do fenômeno que se quer pesquisar, todo o tratamento
posterior destes dados não terá validade, pois se iniciou com dados que não representam
devidamente o fenômeno em estudo.
Para a coleta de dados, existem técnicas específicas para conjuntos de fenômenos distintos.
A forma direta de coleta de dados pode ocorrer por meio de um questionário, observação,
medição, etc.
Após a obtenção dos dados, deve-se fazer uma análise para retirar dados que apresentam
grande discrepância, pois podem ser frutos de erros, falhas.
É o uso de tabelas, gráficos, diagramas, etc, de modo a facilitar a interpretação dos dados
coletados. A apresentação tem a finalidade de fazer um resumo ou expor valores importantes
do estudo.
Após todo o processo de coleta, apuração e representação dos dados (Estatística Descritiva)
a análise dos dados implica em tirar conclusões, fazer previsões e se necessário, tomar
decisões. Esta é a Estatística Indutiva ou Inferencial. De um modo geral está atrelada à
cálculos ligados à Probabilidade ou modelos probabilísticos.
De modo geral, a coleta de dados ocorre numa amostra da população em estudo, pois é
menos oneroso. Essa amostra deve representar bem a população, daí a importância de se
fazer uma coleta de uma amostra significativa.
Podemos citar como exemplo de população, todos os fornecedores de insumos para uma
empresa.
Amostra é uma fração ou parte dessa população que preserva todas as características
importantes da população. Estimador é um valor obtido da amostra que se aproxima (com
um certo nível de erro) do parâmetro.
A amostragem tem por objetivo principal determinar meios e métodos de estudar populações
por meio da amostra. Considerando que esta representa uma parte da população, deve ser
necessariamente finita.
Uma vez tomada a decisão de se fazer um estudo de uma população por meio de uma
amostra, deve-se analisar a maneira pelo qual será “retirada” a amostra e também qual o seu
tamanho.
Não Probabilística: é aquela em que ocorre uma escolha deliberada dos elementos da
amostra, ou seja, não se conhece a probabilidade de um elemento da população pertencer à
amostra.
Aleatória Simples: é utilizada quando a população é homogênea em relação à variável em
estudo. Uma forma de executar esta amostragem é atribuir um número para cada elemento
da população e fazer um sorteio aleatório para compor a amostra.
Sistemática: é quando os elementos que vão compor a amostra são retirados da população
de forma cíclica ou periódica. É uma variação da Amostragem Aleatória Simples. Deve-se ter
o cuidado de analisar se a variável em estudo não apresenta ciclo de variação igual a retirada.
Para executar esta amostragem os elementos da população devem apresentar uma
ordenação natural qualquer.
De uma população de tamanho N, vai ser retirada uma a mostra de tamanho n. O período ou
o ciclo se dá pela constante obtida por (N/n) = k. A partir de um número inicial (aleatório), os
elementos serão retirados da população de k em k.
Conglomerados: quando não se tem muita informação sobre a população para realizar uma
amostragem por estratificação se recorre à amostragem por conglomerado. Este por sua vez
representa a população devido à sua heterogeneidade. Divide-se então a população em
grupos (conglomerados), por algum fator, geográfico, por exemplo e sorteia-se um deles de
forma aleatória e se faz a análise de seus elementos. Este é chamado de amostragem por
conglomerado de um estágio. Pode-se recorrer em fazer o sorteio aleatório de um elemento
de cada conglomerado para formar a amostra. Este é chamado de amostragem por
conglomerados em dois estágios.
Cotas: Neste tipo de amostragem, a população é dividida em grupos, por meio de algumas
características (nível de escolaridade, faixa etária, renda, etc) após isso, seleciona-se uma
cota proporcional ao tamanho de cada grupo. Dentro de cada grupo, os elementos são
selecionados (ou procurados) até que a cota de cada grupo seja cumprida. Este tipo de
amostragem é muito utilizado em pesquisas eleitorais.
VARIÁVEIS
Qualitativa: valores expressos por atributos: gênero, cor da pele, local de origem, religião,
nível de escolaridade, etc.
Contínua: é aquela que pode assumir, teoricamente, qualquer valor entre dois extremos
(intervalo numérico): massa de um parafuso, altura de uma pessoa, tempo de execução de
uma operação de manufatura, etc.
Dentro dos conteúdos abordados na Estatística Descritiva, a representação dos dados pode
ser por meio de gráficos e tabelas. A representação gráfica não é melhor ou pior ou substitui
a representação tabelar ou vice-versa, uma completa a outra.
Considerando a variável discreta (neste exemplo: número de ações/quotas de ativos
financeiros), utilizamos a representação tabela abaixo e a respectiva representação gráfica.
Para a variável discreta, utilizamos o gráfico de colunas (poderia ser o de barras). Observe
que existe um espaçamento entre as colunas, indicando a característica discreta da variável.
ATIVOS DA CARTEIRA
350
300
300
250
QUANTIDADE
200
200
150 125
100
100
50 35
0
BBAS3 PETR4 ABCP11 VALE3 TAEE11
ATIVO
ATIVOS DA CARTEIRA
TAEE11; 200
BBAS3; 300
VALE3; 125
X: 8 – 4 – 10 – 7 – 3 – 5 – 9 – 6 – 5 – 2. (Dados Brutos)
X: 2 – 3 – 4 – 5 – 5 – 6 – 7 – 8 – 9 – 10 (Rol)
Como já foi mencionado, a representação dos dados por meio de tabelas e gráficos permite
sintetizar as particularidades da variável em estudo.
Inicialmente trataremos da construção de uma tabela na variável discreta. Assim, após a coleta
dos dados, estes serão alocados numa tabela de frequência em ordem crescente.
EXEMPLO
Os valores abaixo indicam o número de dias que cada aluno faltou à aula, durante um bimestre
letivo. Construa uma tabela de frequência para estes dados.
5 6 4 0 2 2 1 0 5 6
5 1 2 4 1 0 2 2 1 1
4 6 3 3 1 0 4 4 2 0
1) Numa agência bancária, foi registrada a quantidade de atendimentos, por hora, de cada
caixa eletrônico, durante um dia. Construa uma tabela de frequência para estes dados.
8 10 11 8 12 8 10 13 13 10
8 12 12 11 13 8 10 10 11 12
12 13 8 8 8 12 13 8 11 11
12 13 12 11 10 8 8 8 12 12
2) Numa confecção, todas as peças fabricadas são inspecionadas pelo controle de qualidade
e aquelas com algum defeito são retiradas para serem remanufaturadas ou para serem
vendidas como segunda linha. Abaixo estão as quantidades diárias de peças com defeito,
verificadas em 30 dias. Construa uma tabela de frequência para estes dados.
20 20 21 25 22 21 22 21 22 22
21 23 25 25 23 21 24 23 22 21
21 22 25 23 21 22 25 21 23 20
Já com os dados tabelados, podemos fazer uma complementação das informações contidas
nestes dados, buscando mais particularidades sobre o comportamento da variável estudada.
Frequência Relativa
É a porcentagem que cada representa em relação à quantidade total dos dados coletados.
Para determinar cada valor correspondente, dividimos a frequência simples de cada elemento
pelo total de dados coletados:
(%)
0 5 16,67
1 6 20,00
2 6 20,00
3 2 6,67
4 5 16,67
5 3 10,00
6 3 10,00
Frequência Acumulada
= + + + + …+
(%)
0 5 16,67 5
1 6 20,00 11
2 6 20,00 17
3 2 6,67 19
4 5 16,67 24
5 3 10,00 27
6 3 10,00 30
É obtida pela divisão da frequência acumulada de um dado elemento pela quantidade total de
elementos da série.
(%) (%)
0 5 16,67 5 16,67
1 6 20,00 11 36,67
2 6 20,00 17 56,67
3 2 6,67 19 63,33
4 5 16,67 24 80,00
5 3 10,00 27 90,00
6 3 10,00 30 100,00
EXERCÍCIOS: Utilize as tabelas dos exercícios 1 e 2 da página anterior para fazer seu
complemento.
Para se extrair mais informações dos dados coletados, podemos determinar as Medidas de
Tendência Central, que são: Média, Mediana e Moda. Cada uma delas fornece mais
detalhes do comportamento da variável em estudo.
Elas podem ser determinadas diretamente dos dados coletados ou por meio dos valores
organizados nas tabelas ou gráficos, nas variáveis discreta e contínua.
Para operar o cálculo das várias medidas estatísticas, se faz necessário a soma de um grande
número de parcelas. Para isso, utiliza-se o Somatório.
∑ É a letra grega Sigma. Utilizada para representar operações se adição entre parcelas.
= + + + + …
Dessa forma, os valores que serão utilizados no somatório, devem estar num Rol.
OBS: Na maioria das aplicações estatísticas, o somatório será de todos os valores da série.
Dessa forma, para facilitar a notação utilizamos simplesmente ∑ .
EXEMPLOS
1) ∑ = + + +
2) ∑ 6 =6 + 6 + 6
3) ∑ +7 = +7 + +7 + +7 + +7 + +7
a) ∑ . ≠ ∑ . ∑
b) ∑ ≠ ∑
MÉDIA
∑
!=
EXEMPLO 1
x: 5, 8, 4, 7, 2, 1
"#$# #%# #
!=
&
! = 4,5
EXEMPLO 2
Para determinar a média dos dados e estes estiverem já tabelados, utilizamos a frequência
simples de cada elemento, por meio da fórmula:
∑ .
!=
∑
.
%%
!=
0 5 0
'
1 6 6
12
! ≅ 2,57
2 6
3 2 6
4 5 20
5 3 15
6 3 18
É o valor real que separa o Rol em duas partes de modo que à sua esquerda e à sua direita,
tenham a mesma quantidade de elementos. É o elemento que ocupa a posição central da
série.
Sendo n o número de elementos da série, este pode ser ímpar ou pode ser par.
)* = + ,
# o
Após determinar sua posição no Rol, verifica-se seu valor.
EXEMPLO 1:
)* = + ,
%# o
)* = 4o
)* = 10
2. Se n é par, não existe um elemento central e sim dois. Convencionou-se então que a
mediana é a média aritmética desses dois termos centrais.
+ ,° # + # ,°
)* = - /
EXEMPLO 2:
y: 27, 30, 31, 33, 40, 44, 45, 50, 60, 100
' '
+ ,° # + # ,° )* = 0 1
'#
)* = - /
)* = 42
" °# & °
)* = 0 1
Perceba que o valor (42) não ocorre na série, mas ele representa a mediana, ou seja, metade
dos valores da série são menores ou iguais a 42, assim como metade são maiores ou iguais
a 42.
Desta forma, verifica-se se n é par ou ímpar e aplica-se a fórmula adequada para localizar o
EXEMPLO 1
)* = + ,
0 1 # o
1 4
2 10
)* = + ,
3 6 # o
4 5
5 4
)* = %
6 3 o
% , utilizamos a
o
Para facilitar a determinação de qual elemento ocupa a posição
Frequência Acumulada, na própria tabela.
0 1 1
1 4 5
2 10 15
3 6 21
4 5 26
5 4 30
6 3 33
%
o
Por meio da tabela, na coluna da Frequência Acumulada, o elemento que ocupa a
posição é = .
EXEMPLO 2
+ ,° # + # ,°
3 4 )* = - /
4 5
" "
+ ,° # + # ,°
6 8
)* = - /
7 12
10 10
11 7
15 6
3 4 4 )* = %
4 5 9
6 8 17
7 12 29
10 10 39
11 7 46
15 6 52
MODA
EXEMPLO 1
x: 2, 6, 2, 4, 1, 4, 5, 2, 8
)5 = Como os dados apresentam uma única moda, dizemos que é uma sequência
unimodal.
OBS: Para determinar a moda de um conjunto de dados, os valores não precisam estar
organizados num Rol.
EXEMPLO 2
y: 1, 1, 1, 4, 5, 8, 8, 8, 10, 16
Quando não ocorrer um elemento de uma sequência que apresente uma frequência maior que
a frequências dos outros elementos, dizemos que o conjunto de dados em questão é amodal.
Para dados organizados em uma tabela (discreta), basta identificar o elemento que apresenta
maior frequência.
EXEMPLO
0 1
1 4
2 10
3 6
4 5
5 4
6 3
)5 =
As medidas de dispersão buscam mostrar o comportamento dos valores que compõem a série
no que diz respeito à variação dos valores em relação a uma referência, de modo geral, a
média ou entre os próprios valores da série.
X: 2, 5, 8, 3, 4, 8
Y: 4, 5, 4, 6, 5, 6
Z: 5, 5, 5 ,5 ,5, 5
A média destas três séries é 5, porém são séries distintas. A análise apenas da média, poderia
apresentar a conclusão errônea de que as três séries são iguais. Assim, as medidas de
dispersão permitem analisar a variabilidade dos elementos.
AMPLITUDE TOTAL
67 = )8 − )
EXEMPLO 1
X: 8, 1, 7, 10, 4, 3, 15, 9, 6
67 = 15 – 1
67 = 14
EXEMPLO 2
67 = 10 – 3
67 = 7
3 4
5 2
6 12
9 8
10 1
O DMS determina a média da diferença de cada elemento da série em relação à sua média.
Este conceito corresponde ao conceito matemático de distância, o que justifica o uso do
MÓDULO.
∑| > !|
:;< =
EXEMPLO 1
X: 3, 5, 1, 4, 2
!=3
'# # # #
:;< =
"
:;< = 1,2
Este resultado indica que, em média, cada elemento da série, se dispersa da média aritmética
(3) em 1,2 unidades.
EXEMPLO 2
.
2 5 2 5 10
3 2 3 2 6
5 4 5 4 20
6 9 6 9 54
∑ .
!=
∑
Inicialmente, devemos calcular a média.
Para isso, utilizamos a estrutura da tabela
para facilitar e organizar os cálculos:
?'
!=
'
! = 4,5
∑| > !| .
:;< =
∑
. | − !| . :;< =
12,5 '
2 5 10
:;< = 1,55
3 2 6 3,0
5 4 20 2,0
6 9 54 13,5
EXERCÍCIOS
a) X: 4, 12, 5, 8, 10, 20
a) b)
2 3
1 3
3 1
2 5
4 5
5 6
7 8
6 2
10 4
VARIÂNCIA
Outra forma de conseguir que as diferenças − ! sejam sempre positivas (ou nulas) é
utilizar o quadrado dessa diferença: − ! . Ao substituir, na fórmula do DMS, o módulo
pelo quadrado da diferença, obtemos uma outra medida de dispersão chamada variância.
∑ >!
@ =
EXEMPLO 1
X: 5, 8, 12, 3
!=7
# # "# &
@ =
@ = 11,5
EXEMPLO 2
4 1
5 8
8 3
10 2
∑ .
!=
Para a determinação da média, temos:
∑
.
!=
4 1 4 $$
5 8 40
! ≅ 6,29
8 3 24
10 2 20
. − ! . ∑ >! .
@ =
4 1 4 5,24 ∑
5 8 40 13,31
" ,$"
@ =
8 3 24 8,77
10 2 20 27,53
@ ≅ 3,92
Os dados têm, geralmente, suas unidades de medida em metro, quilograma, segundo, grau
Celsius, etc. Para determinar a Variância, os valores são elevados ao quadrado
(bidimensional), dessa forma, a comparação do resultado indicado pela variância, com os
dados coletados pode trazer confusão. Para resolver este problema de comparação,
determina-se a raiz quadrada positiva da variância, chegando no Desvio Padrão, assim:
@ = B@
@ = 11,5 então seu desvio padrão é: @ = 3,92 então seu desvio padrão é:
@ = B ," @ = √ ,?
@ ≅ 3,39 @ ≅ 1,98
EXERCÍCIOS
1. Os valores abaixo são relativos à distância percorrida (em quilômetros) diariamente por um
taxista, durante duas semanas de trabalho. Determine a média diária percorria e também o
desvio padrão.
60 85 56 73 81 90
67 59 79 83 87 65
2. Para o controle de qualidade, uma empresa verifica uma amostra de 50 peças do total diário
de produção de cada máquina. Para uma máquina, no período de 30 dias obteve-se a seguinte
quantidade de peças com defeito:
0 3 2 6 1 4 0 3 3 4
5 5 6 0 0 2 2 1 5 6
3 4 4 2 5 1 6 6 3 3
a) b)
3 5 0 10
4 10 1 5
5 7 2 5
6 10 5 10
7 5 10 17
DETERMINAÇÃO DE UMA TABELA NA VARIÁVEL CONTÍNUA
A representação de dados por meio de uma tabela de variável contínua se dá quando ocorre
uma grande variação nos valores dos dados coletados o que implica na inviabilidade no uso
da tabela discreta, pois esta apresentaria uma grande quantidade de linhas.
Para a construção de uma tabela na variável contínua, se faz necessário determinar valores
que orientarão essa construção. Assim, para exemplificar, determinaremos a tabela para os
dados a seguir:
67 = D)8 − D)
EF = 9,5 – 2
EF = 7,5
Limite de Classe: São os valores extremos de cada classe. O menor é chamado de Limite
Inferior (I) e o maior e Limite Superior (L). Estes valores são importantes para classificação
dos valores obtidos na pesquisa.
Neste exemplo, 4 é o limite inferior e 6, o limite superior. Esta notação indica que valores iguais
a 4 pertencem ao intervalo, mas valores iguais a 6 limitam, mas não pertencem ao intervalo.
Os valores iguais a 6 (ou mais) pertencem à classe subsequente.
G=H−I
Número de Classes: É a quantidade de classes que será utilizada na tabela. Existem
algumas formas de determinar o número de classes.
J= √ J= + , . OPQ
K ≅ 5,48 K ≅ 5,87
Lembrando que a quantidade de classes deve ser um número NATURAL. Podemos decidir
em utilizar uma unidade acima, uma abaixo ou o valor do inteiro determinado por um dos
critérios utilizados. De acordo com o exemplo: 4, 5 ou 6.
67
G=
J
%,"
G=
G = 1,875
Para tornar a tabela mais compreensível, utilizaremos h = 2, evitando valores decimais que
eventualmente não trarão prejuízos à precisão da tabela.
Após isso, contabilizamos os elementos de cada classe e por fim, indicamos a tabela.
Observações:
1) Na primeira classe, podemos colocar como limite inferior um valor menor ou igual ao menor
valor da varável x.
2) Existem tabelas em que o intervalos de classe não são homogêneos. Neste conteúdo,
usaremos apenas intervalos de mesmo tamanho.
3) O limite superior da última classe pode ser “fechado”, se este valor ocorrer nos dados
coletados, não sendo necessário inserir outra classe.
Exercícios:
1) No quadro abaixo, encontram-se os valores de tempo (em minutos) utilizados por alunos
para desenvolver um experimento no laboratório. Determine a representação dos dados numa
tabela e também num histograma.
2) Complemente a tabela abaixo com os valores da frequência relativa, frequência acumulada
e da frequência relativa acumulada.
Para determinar as Medidas de Tendência Central a partir de uma tabela na variável contínua,
ocorrem algumas diferenças nas fórmulas utilizadas para o mesmo conceito:
Média: Para determinar a média, se faz necessário determinar o valor do de cada intervalo
de classe. Para isso, basta determinar a média aritmética entre limite inferior e superior de
cada intervalo de classe. Para facilitar e organizar os valores, utilizaremos a própria tabela de
maneira auxiliar.
!=
∑ .
!=
%' ! = 22,5
∑
A posição ocupada pela mediana é o centro dos valores, se estes estivessem dispostos num
Rol. Dado que os valores estão resumidos numa tabela, então dividimos (n) por dois. Assim:
5
)* = + , posição ocupada pela mediana.
? 5
)* = + ,
)* = ?, " 5
"−% ?, " − %
=
−? )* − ?
$ ,"
=
)* − ?
$ )* − ? = . ,"
)* − ? = ', ? %"
)* = ?, ? %"
Para a determinação da Moda, entre outras formas, utilizaremos a de Czuber, que leva em
consideração a frequência simples da classe modal, assim como as frequências anterior e
posterior a esta.
A forma de Czuber está baseada na proporção entre triângulos semelhantes. Pra melhor
visualizar esta situação, determinemos o HISTOGRAMA associado à tabela:
O valor da moda é obtido pela soma do Limite Inferior da classe modal com valor (x), de acordo
com a figura, considerando que os triângulos APB e DPC são semelhantes (caso AAA). Assim:
6V
=
W: G−
=
> X 4 = 30 − 3
> Y>X
7 = 30
=
X
Y>X = 4,2857
4 = 3 10 −
) 5 = I )5 + Z[ ≅ 20 + 4,29 Z[ ≅ 24,29
Exercícios:
a) c)
b)
MEDIDAS DE DISPERSÃO
Amplitude Total
Para determinar a amplitude total a partir de uma tabela na variável contínua é necessário
determinar os valores de xi da primeira e última classe e operar a diferença:
]^ =3
]_X = 11
EF = 11 − 3
EF = 8
∑ . ∑ >! .
!= @ =
∑ ∑
?' % ,&
!= @ =
@ = √ ,?
Exercícios
a)
b)
Medidas Separatrizes
São valores que separam o Rol em partes iguais. Os mais utilizados são:
Quartil (Q) quatro partes iguais. Decil (D) dez partes iguais.
Quintil (K) cinco partes iguais. Percentil (P) cem partes iguais.
Exemplos
a) Rol
X: 3,5,5,7,9,12,15,16,19,24,25,30,33,38,40,50
` = 16 .
` =4 isso implica que o valor do primeiro quartil é o elemento que está na quarta posição
do Rol. Neste exemplo este valor é o 7.
K = 27 .
K = 16,2 isso implica que o valor do terceiro quintil é o elemento que está posição 16,2.
Considerando a variável discreta, não existe elemento nesta posição. Para determinar o K3,
vamos calcular a média entre os elementos que ocupam as posições 16 e 17.
Y# Y
K =
K = 10
b
a = 39 .
b
YY
a b = 26,13 isso implica que o valor do P67 é o elemento que está na posição 26,13. Dado
que a variável é contínua, podemos fazer o cálculo de forma análoga à mediana.
=
> , >
>c def > c
=
b ,
def > c
7 a b − 8 = 4,52
a b ≅ 8,65
Exercícios
Nestas duas variáveis, uma delas vai ser a variável controlável e a outra, a variável não
controlável. De modo geral, buscamos controlar a variável não controlável por meio da variável
controlável.
Exemplo
No quadro abaixo, estão os valores dos tempos (em horas) de estudo para a realização de
uma prova e a nota correspondente obtida por seis alunos observados.
Quando um aumento nos valores da variável controlável (x) implica num aumento nos valores
da variável não controlável (y), dizemos que elas apresentam correlação positiva, como é o
caso do exemplo.
Quando um aumento nos valores da variável controlável (x) implica numa diminuição dos
valores da variável não controlável (y), dizemos que elas apresentam correlação negativa.
Quando duas variáveis não apresentam uma correlação positiva ou negativa, o diagrama de
dispersão apresenta pontos espalhados de forma aleatória. Podemos dizer que as duas
variáveis em análise são independentes.
Regressão Linear
A regressão linear determina a equação de reta que busca determinar o comportamento entre
as duas variáveis envolvidas em um fenômeno. Conhecida esta equação, podemos fazer
previsões de resultados com valores diferentes daqueles observados.
Observe que para determinar os coeficientes a e b, são necessários apenas dois pontos. Mas
no diagrama de dispersão, são considerados vários pontos (quanto mais pontos, mais precisa
é a equação) e por meio destes, determinaremos uma reta que mais se ajusta ao
comportamento entre as duas variáveis.
O coeficiente linear (a) é o valor da variável não controlável, em que a reta intercepta o eixo
y, quando seu valor corresponde (x) da variável controlável for igual a zero.
O coeficiente angular (b) é a razão ou taxa de crescimento ou decrescimento que existe entre
as variáveis. Do ponto de vista geométrico é o valor da tangente do ângulo existente entre o
eixo (x) e a reta, no sentido anti-horário.
Exemplo
No quadro abaixo, estão os valores dos tempos (em horas) de estudo para a realização de
uma prova e a nota correspondente obtida por seis alunos observados.
xi yi xi . yi xi2
4,0 2,0 8,00 16,00
5,0 3,0 15,00 25,00
6,5 5,0 32,50 42,25
8,0 6,5 52,00 64,00
9,5 7,5 71,25 90,25
11,0 8,0 88,00 121,00
Σ = 44,0 Σ = 32,0 Σ = 266,75 Σ = 358,50
−g.
&. &&,%" > .
g= 8=
&. "$," > & &
8=− , %
h=8+g h = − , % + ', ?
Conhecida a equação que busca modelar o comportamento entre as variáveis, podemos fazer
previsões considerando valores da variável controlável ou não controlável:
a) Nas condições dos valores pesquisados, se um aluno estudar 9 horas, qual a previsão de
sua nota?
b) Nas condições dos valores pesquisados, se um aluno pretende obter nota igual a 8,5, qual
deve ser o tempo de estudo?
1) Obtenha a equação da reta que melhor se ajusta aos dados da tabela abaixo e determine:
a) y se x = 3,0
b) x se y = 10,0
U.R.(%) 20 30 40 50 60 70 80
Grãos germinados 5 8 15 20 30 45 60
O Desvio Padrão é a mais importante medida de dispersão devido à sua aplicabilidade e uso,
entre elas uma das mais importantes está associada à Curva Normal ou Curva de Gauss.
Esta curva descreve um comportamento simétrico dos valores da série, no que diz respeito às
frequências dos elementos.
O intervalo j ̅ − 2l, ̅ + 2lm abrange 95,4% dos dados da série e o intervalo j ̅ − 3l, ̅ + 3lm,
contém 99,7% dos dados da série.
Numa série de dados que apresenta simetria na sua distribuição, podemos associar uma curva
normal. Este fato implica que para cada série de dados, uma curva normal pode ser gerada
tornando a aplicação do modelo muito trabalhoso. Para facilitar os cálculos, desenvolveu-se
uma curva normal que atende à todas as diferentes curvas normais, a chamada Curva Normal
Padronizada. Essa curva está associada a uma tabela que relaciona valores do Desvio Padrão
com a porcentagem (probabilidade) correspondente, num dado intervalo.
Para o uso da tabela, deve-se determinar o valor de n padronizado por meio da seguinte
fórmula:
X>p
o=
q X
Uma variável aleatória x que admite distribuição Normal tem média 20 e desvio padrão 2,
calcule:
>u
n=
@
Y> Y
o = =0
, > Y
o = = 0,75
Este valor pode ser obtido diretamente na tabela. O resultado (0,2734) indica que 27,34% dos
valores da distribuição estão entre 20 e 21,5. Uma outa forma de interpretar o resultado é do
ponto de vista probabilístico. Contextualizando a situação de modo que os valores
correspondem às idades de uma turma de alunos, a probabilidade de sortear aleatoriamente
um deles e este apresentar idade entre 20 e 21,5 anos é de 27,34%.
b) s > 22
>u
n=
@
> Y
o = =1
c) s 19 < < 21
>u
n=
@
w> Y
o = = – 0,5 (como a tabela é
unicaudal, utilizamos seu simétrico positivo)
> Y
o = = 0,5
>u
n=
@
> Y
o = = 1,5
Exercícios
1. O tempo que os alunos utilizam para fazer uma prova é normalmente distribuído, com média
de 72 minutos e desvio padrão de 5 minutos. Determine a probabilidade de um aluno utilizar:
a) mais de 84 minutos;
b) mais de 48 minutos;
c) entre 70 e 84 minutos;
d) entre 60 e 70 minutos
3. Um fabricante de baterias sabe, por experiência passada, que as baterias de sua fábrica
têm vida média de 800 dias e desvio padrão de 30 dias, sendo que a duração segue uma
distribuição normal. Oferece uma garantia de 730 dias, isto é, troca as baterias que
apresentarem falhas nesse período. Fabrica 10000 baterias mensalmente. Quantas deverá
trocar, mensalmente, pelo uso da garantia?
4) Considerando que a massa de determinado artigo produzido por uma fábrica seja
normalmente distribuído com média de 360 gramas e desvio padrão de 15 gramas, determine
a probabilidade de que uma unidade, selecionada ao acaso, tenha massa:
5) A bauxita extraída de uma mina apresenta concentração média de 40% de Alumina (Óxido
de Alumínio – Al2O3), com desvio padrão de 4,5%. Num determinado processo de fabricação,
sua viabilidade econômica, ocorre com Alumina acima de 35%. Considerando que o nível de
concentração é Normal, determine a massa, em uma tonelada de bauxita, que não seria viável
economicamente.
a) receber o conceito A
Inferência Estatística
Como a afirmação tem como base uma amostra, muitas vezes pequena, da população, esta
afirmação está associada a uma probabilidade.
• Parâmetros: são medidas populacionais, neste caso é impossível fazer inferências, pois
toda a população foi investigada.
• Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as
teorias inferenciais para que possamos fazer conclusões sobre a população.
∑ >!
i =
>
Numa série com média fixa, temos a liberdade de escolha de (n – 1) elementos. Pois um deles
deverá ser determinado arbitrariamente para que a média da distribuição seja aquela
previamente calculada. Esse fato denominamos de graus de liberdade.
! u
ESTIMADOR PARÂMETRO
Média
i @ Variância
i @ Desvio Padrão
y
x x Proporção
2. O desvio padrão das médias das amostras @! é igual ao desvio padrão da população
@
@! =
√
O desvio padrão de uma distribuição amostral de médias das amostras é chamado de erro
padrão de média.
Exemplo
X: 5,10,15,20
r = 12,5 e l = 5,59
@
@! =
5,0 1
√
7,5 2
10,0 3 z = 12,5
@! = 3,953 ","?
@! =
12,5 4
√
15,0 3
@! = 3,953
17,5 2
20 1
Este teorema fundamenta o ramo inferencial da estatística. Ele descreve a relação entre a
distribuição amostral de médias das amostras e a população à qual foram retiradas as
amostras. Este teorema nos permite fazer inferências sobre a média de uma população.
1. Se amostras de tamanho n em que n≥30, são tiradas de uma população com média u e
Exemplo:
De acordo com uma fundação de proteção às tartarugas, a espécie Dermochelys coriácea,
coloca, em média 80 ovos em cada ninho, com desvio padrão de 10 ovos. Considerando esta
distribuição normal, determine a probabilidade de numa amostra de 15 ninhos, a média ser
maior que 78 unidades.
P(x > 78) = ? n = − ', %%"
!>u
n= @ P(z > – 0,775) = 0,5 + 0,2823
|
√ P(z > – 0,775) = 0,7823
%$ > $'
n= '}
√ "
Exercícios
1) O valor da tonelada de minério de ferro é de 120 dólares, cuja média de pureza é de 62%
com desvio padrão de 7%. Um lote é aceito se apresentar pureza mínima de 59% na amostra.
Trinta e cinco pontos de coleta são necessários para formar a amostra que vai para análise,
determine a probabilidade do lote ser reprovado.
2) Um piscicultor acredita que tem lucro máximo quando seus peixes apresentam massa igual
a 2,2 Kg e desvio padrão de 180 gramas. Uma amostra com 20 exemplares é retirada para
análise. Determine a probabilidade dessa amostra apresentar massa entre 2,10 Kg e 2,25 Kg,
considerando essa distribuição Normal.
3) Uma empresa recicladora de alumínio, buscando qualidade de seus produtos, faz ensaios
de dureza nas barras fundidas que serão vendidas à outras indústrias de transformação. Numa
determinada composição, a média de dureza é de 39,80 HB (Brinell) com desvio padrão de
3,52 HB. Numa amostra de 50 barras, qual a probabilidade de se obter dureza entre 39,00 HB
e 40,50 HB?
Intervalo de Confiança
Uma estimativa pontual é um valor único estimado para o parâmetro populacional. A estimativa
pontual menos tendenciosa de uma média populacional u é a média amostral !.
Sendo:
!>u
n= @
|
√
Temos:
x + − ! − n~ . < − u < −! + n~ . ,= –~
@ @
√ √
x + ! + n~ . > u > ! − n~ . ,= –~
@ @
√ √
ou:
@ @
x € ! − n~ . < u < ! + n~ . •= –~
√ √
Intervalo de confiança para a estimativa da média populacional
Exemplo
Uma empresa fabricante de baterias para celulares está testando um novo modelo. Para
manter um determinado padrão de qualidade, busca aperfeiçoar o modelo aumentando o
tempo de uso, quando totalmente carregada até sua descarga completa, com desvio padrão
de 40 minutos. Uma amostra aleatória de 50 baterias foi testada e indicou duração média de
30 horas. Determine um intervalo de confiança de 90% para o tempo médio de duração da
bateria.
@ @
x € ! − n~ . < u < ! + n~ . •= –~
√ √
Assim, podemos afirmar, com 90% de confiança, que o tempo médio de duração da bateria é
um valor entre 29,84h e 30,16h. Podemos ter 90% de confiança de que não estamos errando
por mais de 0,16h nesta estimação.
Exercícios
1) Uma amostra aleatória de 5 elementos retirados de uma população normal com desvio
padrão 2, apresentou um valor médio de 52. Determine um intervalo de confiança de 95%
para a média populacional.
2) Num restaurante “por quilo”, oito refeições indicaram os seguintes preços (em Reais):
22,17,21,24,15,18,16,19. Considerando esta distribuição normal com desvio padrão de IR$
5,00, determine um intervalo de confiança de 90% para a média populacional das refeições
servidas neste restaurante.
3) A tabela abaixo indica o tempo (em dias) para o consumo total de um creme hidratante com
conteúdo de 100 gramas.
28 27 32 33 34 26 30 29 30 31
Considerando que o tempo de uso é normal, com desvio padrão de 3 dias, determine:
I = j! − ˆ, ! + ˆm
Este erro padrão é determinado por:
@
ˆ = n~ .
√
O nível de confiança e o erro padrão constitui a precisão de uma estimativa. À medida que
aumentamos o nível de confiança do intervalo, o erro padrão também aumenta, se
considerarmos o mesmo tamanho da amostra. Em termos de precisão, o ideal seria aumentar
o nível de confiança de diminuir o erro padrão. Se consegue isso, aumentando o tamanho da
amostra. Dessa forma, se pré-estabelecidos os valores do erro padrão e o nível de confiança,
podemos determinar o tamanho da amostra:
n~ . @
=€ •
‰
Exemplo
Considerando uma distribuição Normal, com desvio padrão de 3,1 unidades, qual o tamanho
de uma amostra para se ter 98% de nível de confiança e não cometer um erro maior que 0,6
unidades na estimação da média populacional?
n~ . @
=€ •
‰
=+ ,
, . ,
Y,
= 145
Fator de correção
Se uma população for muito grande em relação à amostra, a não reposição de um elemento
praticamente não altera a probabilidade da seleção do próximo elemento. Mas se a amostra
for muito grande em relação à população, a não reposição de um elemento modificará a
probabilidade de escolha dos próximos elementos, alterando a distribuição de probabilidades.
Para minimizar os erros cometidos com esta situação, aplica-se o fator de correção para
amostras maiores que 5% do tamanho da população.
@ ‹ − @ ‹ −
x Œ ! − n~ . . • < u < ! + n~ . .• Ž= –~
√ ‹ − √ ‹ −
Exemplo:
Sabe-se que as despesas mensais com alimentação dos 1000 alunos de uma faculdade no
período letivo apresentam distribuição normal com desvio padrão de US$ 3,00. Uma amostra,
sem reposição de 100 estudantes, indicou um gasto médio mensal de US$ 50,00. Determine
um intervalo de confiança de 90% para a despesa média dos alunos no período letivo.
Resolução:
” • – − • ” • – − •
• Œ •‘ − ’“ . . • < — < •‘ + ’“ . .• Ž= –“
√• – − √• – −
Exercícios
O desvio padrão dos preços deste produto na região metropolitana é 0,50 (u.m.). Determine
um intervalo de confiança de 90% para o preço médio deste produto na cidade pesquisada.
2) Buscando ajustar a ajuda de custo de seus 50 vendedores, uma empresa considerou os
gastos de 15 vendedores, constatando uma despesa média de 20 u.m.
Determine o tempo máximo e mínimo previsto para a manutenção preventiva de cada torno,
com nível de 98% de confiança, considerando essa distribuição normal.
Observação
∑ >!
i =
>
!>u
Substituindo @ em n = @ por i
|
temos a distribuição t (Student).
√
!>u
7=i
|
√
Exemplo 1
O comprimento das peças produzidas por uma máquina tem suas dimensões distribuídas
normalmente. Uma amostra aleatória de 10 peças apresentou os seguintes valores (em
milímetros).
8,75 8,72 8,73 8,76 8,78 8,74 8,73 8,77 8,74 8,72
Determine um intervalo de confiança de 95% para o comprimento médio das peças produzidas
por esta máquina.
Dados:
n = 10 (tamanho da amostra)
̅ = 8,744 (calculado)
∑ >! Y,YY c
i = i =
> w
. Assim o desvio padrão amostral s(x) = 0,0207
Para a aplicação da fórmula abaixo, não se aplica o fator de correção, pois não se conhece o
tamanho da população.
i i
x € ! − 7~ . < u < ! + 7~ . •= –~
√ √
0,0207 0,0207
s = ƒ8,744 − 2,262 . < r < 8,744 + 2,262 . „ = 0,95
√10 √10
Após a produção, para verificar se o lote entregue atende ao padrão desejado, o comerciante
selecionou ao acaso uma amostra de 15 peças que apresentou “peso” médio de 1,03 kg com
desvio padrão de 0,06 kg.
Determinar um intervalo de confiança de 90% para o “peso” médio das peças desse lote.
Resolução
™ • – − • ™ • – − •
• Œ •‘ − ˜ “ . . • < — < •‘ + ˜ “ . .• Ž= –“
√• – − √• – −
1) Uma amostra de 15 peças produzidas por uma máquina, forneceu um comprimento médio
de 20 mm, com desvio padrão de 0,1 mm. Considerando que este comprimento apresenta
distribuição normal, determine um intervalo de confiança de 95% para o comprimento das
peças produzidas por esta máquina.
2) Um restaurante do tipo self – service, cobra suas refeições por “peso”. Uma amostra
aleatória de 12 refeições escolhidas ao acaso, num período em que 80 refeições foram
servidas apresentou peso médio de 460g com desvio padrão de 80g. Determine o intervalo
de confiança de 90% para o peso médio das refeições servidas neste período, considerando
esta distribuição normal.
3) Para estimar o intervalo de tempo de estacionamento em via pública, uma amostra foi
observada, indicando os tempos (em minutos) abaixo:
32 40 25 20 33 28 50 45 18 20 38 48 33 21 12
zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 *0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 *0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,10 ou + 0,4999
TABELA DE DISTRIBUIÇÃO T STUDENT