Estatistica Geral
Estatistica Geral
Estatistica Geral
Texto de Apoio
ESTATÍSTICA GERAL
O conjunto dos métodos e técnicas estão descritas na estatística. Se entendermos Estatística como a
Ciência dos Dados, será de grande valia o domínio que seu corpo de conhecimento pode nos
oferecer.
Algumas ciências usam a estatística aplicada tão extensivamente que elas tem uma terminologia
especializada. Estas disciplinas incluem:
Bioestatística
Estatística Comercial
Estatística Económica
Estatística Engenharia
Estatística Física
Estatística Populacional
Estatística Psicológica
Estatística Social (para todas as ciências sociais)
Análise de Processo e Quimiometria (para análise de dados da química analítica e da
engenharia química)
Estatística forma uma ferramenta chave nos negócios e na industrialização como um todo. É utilizada
a fim de entender sistemas variáveis, controle de processos (chamado de "controle estatístico de
processo" ou CEP), para sumarização de dados, e para tomada de decisão baseada em dados.
Nessas funções ela é uma ferramenta chave, e é a única ferramenta segura.
A Estatística é uma ferramenta matemática que nos informa sobre o quanto os nossos erros das
nossas observações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição
do erro que existe entre a estimativa de quanto um pequeno conjunto representa adequadamente ao
todo (conjunto maior) da qual foi extraído. Assim o conhecimento de teoria de conjuntos, análise
combinatória e cálculo são indispensáveis para compreender como o erro se comporta e a magnitude
do mesmo. É o erro (erro amostral) que define a qualidade da observação e do delineamento
experimental. A faceta dessa ferramenta mais palpável é a Estatística Descritiva. A descrição dos
dados colectados é comumente apresentado em gráficos ou relatórios e serve tanto a prospecção de
uma ou mais variáveis para posterior aplicação ou não de testes estatísticos bem como a
apresentação de resultados de delineamentos experimentais.
Qualquer ciência experimental não pode prescindir das técnicas proporcionadas pela Estatística,
como por exemplo a Medicina, a Física, a Biologia, a Administração, a Economia, etc. Todos esses
ramos de actividade profissional têm necessidade de um instrumental que se preocupa com o
tratamento quantitativo dos fenómenos de massa ou colectivos, cuja medição e análise requerem um
conjunto de observações de fenómeno ou particulares.
Estatística Indutiva (Amostral ou Inferêncial): é a aquela que partindo de uma amostra, estabelece
hipóteses, tira conclusões sobre a população de origem e que formula previsões fundamentando-se
na teoria das probabilidades. A estatística indutiva cuida da análise e interpretação dos dados.
O processo de generalização do método indutivo está associado a uma margem de incerteza. Isto se
deve ao facto de que a conclusão que se pretende obter para o conjunto de todos os indivíduos
analisados quanto a determinadas características comuns baseia-se em uma parcela do total de
observações.
A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar dados oriundos de
uma amostra para generalizações sobre a população. Constitui esse conjunto de técnicas: a
determinação do número de observações (tamanho da amostra); o esquema de seleção das
unidades observacionais; o cálculo das medidas estatísticas; a determinação da confiança nas
estimativas; a significância dos testes estatísticos; a precisão das estimativas; dentre outras. Essa
generalização é feita a partir do processo de estimação das medidas estatísticas que podem ser
calculadas, porém não sem antes se antecipar um grau de certeza de que a amostra esteja
fornecendo os dados que seriam de se esperar caso toda a população fosse estudada. Nesse caso, o
ramo da matemática que será utilizado para se avaliar tal grau de certeza é a probabilidade. Com ela
teremos condições de mensurar a fidedignidade de cada inferência feita com base na amostra.
Antes de começarmos a estudar os métodos estatísticos que nos permitirão analisar dados, sejam
eles qualitativos ou quantitativos, é importante introduzirmos alguns conceitos preliminares a fim não
apenas de dar nomes aos instrumentos, mas também adequar e eqüalizar a terminologia a ser
utilizada ao longo do curso. Você verá que uma nova linguagem será desenvolvida ao longo desse
curso e o seu domínio é fundamental para um melhor aproveitamento.
Como em qualquer estudo estatístico temos em mente estudar uma ou mais características dos
elementos de uma população, é importante definir bem essas características de interesse para que
seja delimitado os elementos que pertencem à população e quais os que não pertencem.
Exemplos:
1 Conjunto dos 5507 municípios moçambicanos.
2 Conjunto constituído pelos estudantes deste curso.
3 Conjunto dos discursos do presidente da república desde a sua posse.
4 Todos os pacientes do Hospital Central de Maputo.
5 Conjunto das informações colectadas pela Estação Pluviométrica, durante o ano.
DIVISÃO DA POPULAÇÃO
podemos dividir a população quanto ao tamanho em Finita e Infinita
Exemplo
Idade dos estudantes Universitários da Cidade de Maputo.
População: Todos os universitários da Cidade de Maputo.
População Infinita: apresenta um número ilimitado de elementos. Não é possível enumerar todos os
elementos componentes. Entretanto, tal definição existe apenas no campo teórico, uma vez que, na
prática, nunca encontraremos populações com infinitos elementos, mas sim, populações com grande
número de componentes; e nessas circunstâncias, tais populações são tratadas como se fossem
infinitas.
Exemplo
Tipos de bactérias no corpo humano
População: Todas as bactérias existentes no corpo humano.
O objectivo é fazer inferências, tirar conclusões sobre populações com base nos resultados da
amostra, para isso é necessário garantir que amostra seja representativa, ou seja, a amostra deve
conter as mesmas características básicas da população, no que diz respeito ao fenómeno que
desejamos pesquisar.
Ao induzir estamos sujeitos a erros. Entretanto, a Estatística Indutiva, que obtém resultados sobre
populações a partir das amostras, diz qual a precisão dos resultados e com que probabilidade se
pode confiar nas conclusões obtidas.
Exemplos:
1 Conjunto dos municípios da Região Norte.
2 Estudantes da cidade de Maputo.
3 Discursos proferidos em recintos abertos.
N
n
temos a fórmula original:
N 1
2
CARACTERÍSTICA
É preciso definir qual(is) a(s) característica(s) de interesse que será(ão) analisada(s). A característica
de interesse pode ser de natureza qualitativa ou quantitativa.
ATRIBUTO
São todas as características de uma população que não podem ser medidas. Os indivíduos ou
objectos são colocados em categorias ou tipos e conta-se a frequência com que ocorrem.
Exemplos: género (masculino e feminino); estado civil (solteiro, casado, viúvo, etc.); tipo de moradia
(madeira, tijolo), situação do aluno (aprovado, reprovado), religião.
VARIÁVEL
é o conjunto de resultados possíveis de um fenómeno (ou observação, ou característica). É a
representação simbólica da característica ou propriedade que se deseja investigar.
Exemplos:
1 Receita tributária municipal arrecadada no ano passado.
2 Gênero dos alunos.
3 Número de filhos tidos de um grupo de casais
4 Peso de pessoas adultas
5 velocidade máxima de tilápia fugido de um prepador
TIPOS DE VARIÁVEIS
Cada uma das características de interesse observadas ou medidas durante o estudo é denominada
de variável. As variáveis que assumem valores numéricos são denominadas quantitativas, enquanto
que as não numéricas, qualitativas.
Variável Qualitativa: quando seus valores são expressos pôr atributos ou qualidade.
Exemplos:
. População: Estudantes universitários da Província de Nampula.
Variáveis: sexo, profissão, escolaridade, religião, meio onde vivem (rural, urbano).
Variável Quantitativa: quando seus valores são expressos pôr números. Esses números podem ser
obtidos pôr um processo de contagem ou medição.
Exemplos:
População: Todos os pacientes do Hospital Central de Maputo
1. Variável Discreta: são aquelas que podem assumir apenas valores inteiros em pontos da recta
real. É possível enumerar todos os possíveis valores da variável.
Exemplos:
População: Universitários da Cidade de Maputo
Variáveis: número de filhos, número de quartos da casa, número de moradores, número de irmãos.
2. Variável Contínua: são aquelas que podem assumir qualquer valor num certo intervalo
(contínuo) da recta real. Não é possível enumerar todos os possíveis valores. Essa variáveis,
geralmente, provém de medições.
Exemplos:
População: Todos os agricultores da Província de Manica.
Variáveis: idade, renda familiar; extensão da área plantada (em m2 ) , peso e altura das crianças
agricultoras.
CENSO
É o exame completo de toda população. Quanto maior a amostra mais precisas e confiáveis deverão
ser as induções feitas sobre a população. Logo, os resultados mais perfeitos são obtidos pelo Censo.
Na prática, esta conclusão muitas vezes não acontece, pois, o emprego de amostras, com certo rigor
técnico, pode levar a resultados mais confiáveis ou até mesmo melhores do que os que seriam
obtidos através de um Censo.
As razões de se recorrer a amostras são: menor custo e tempo para colectar dados e melhor
investigação dos elementos observados.
PARÂMETRO: valor (usualmente desconhecido) que caracteriza uma população (por exemplo, a
média populacional “μ” e o desvio-padrão populacional “σ”).
AMOSTRAGEM
É a colecta das informações de parte da população, chamada amostra (representada por pela letra
“n”), mediante métodos adequados de selecção destas unidades.
A estatística indutiva busca tira conclusões sobre a população baseado em resultados retirados das
amostras. Porém o processo não é tão simples, porque precisamos garantir que a amostras sejam
representativas da população, ou seja, a amostra deve ter as mesmas características básicas da
população em relação à variável em estudo.
Poderíamos utilizar o mesmo método para retirar uma amostra de uma população de determinada
rua. Se a rua contêm 500 prédios, e queremos que a amostra contenha 10% da população (50
prédios), podemos escolher aleatoriamente o 1º prédio e ir “pulando” de 10 em 10 prédios até chegar
ao 50º elemento.
Se por acaso nossa população contiver subpopulações ou estratos, é importante utilizar uma
amostragem estratificada, em que os elementos da amostra são proporcionais aos elementos dos
estratos da população. Um bom exemplo é uma turma com 60 alunos, contendo 40 meninos e 20
meninas. Temos uma proporção 2:1. É importante que a amostra contenha esta mesma proporção.
Assim, se tivermos uma amostra com 15 elementos, 10 deverão ser meninos e 5 meninas. Mantendo
a proporção 2:1.
APRESENTAÇÃO TABULAR
É uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas
distribuídos de modo ordenado. As tabelas têm a vantagem de conseguir expor, sistematicamente em
um só local, os resultados sobre determinado assunto, de modo a se obter um visão global mais
rápida daquilo que se pretende analisar. Grosso modo, utilizaremos as duas abordagens sugeridas no
quadro:
SÉRIE ESTATÍSTICA
Um dos objectivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir,
para que se tenha uma visão global dessa ou dessas variáveis. Isto é possível apresentando esses
valores em tabelas e gráficos, que irão fornecer rápidas e seguras informações a respeito das
variáveis em estudo, permitindo determinações mais coerentes.
SÉRIES MISTAS
As combinações entre as séries anteriores constituem novas séries que são denominadas séries
compostas ou mistas e são apresentadas em tabelas de dupla entrada.
Tabela 5
Exportação Moçambina de alguns produtos agrícolas - 1990 - 1992
Quantidade
Produto
(1000 ton.)
1990 1991 1992
Feijão 5600 6200 7300
Arroz 8600 9600 10210
Soja 4000 5000 6000
Fonte: Ministério XYZ
Nota: Produtos mais exportados no período.
SÉRIE HOMÓGRADA
A Série homógrada é aquela em que a variável descrita apresenta variação discreta ou descontínua.
São séries homógradas a série temporal, a geográfica e a específica.
Tabela 6
Situação dos espectáculos cinematográficos no Brasil - 1967
Especificação Quantidade
Número de cinemas 2.488
Lotação dos cinemas 1.722.348
Sessões pôr dia 3.933
Filme de longa metragem 131.330.488
Meia entrada 89.581.234
Fonte: Anuário Estatístico XYTK
DISTRIBUIÇÃO DE FREQUÊNCIAS
INTRODUÇÃO
As tabelas estatísticas, geralmente, condensam informações de fenómenos que necessitam da
colecta de grande quantidade de dados numéricos. No caso das distribuições de frequências que é
um tipo de série estatística, os dados referentes ao fenómeno objecto de estudo se repetem na
maioria das vezes sugerindo a apresentação em tabela onde apareçam valores distinto um dos
outros.
a. Dados brutos: são aqueles que não foram numericamente organizados, ou seja, estão na forma
com que foram colectados.
1. Dados brutos
Tabela 9 – Percentagem de doentes curados durante o I Semestre - 1970
8 24 46 13 38 54 44 20 17 14
18 15 30 24 20 8 24 18 9 10
38 79 15 62 23 13 62 18 8 22
11 17 9 35 23 22 37 36 8 13
10 6 92 16 15 23 37 36 8 13
44 17 9 30 26 18 37 43 14 9
28 41 42 35 35 42 71 50 52 17
19 7 28 23 29 29 58 77 72 34
12 40 25 7 32 34 22 7 44 15
9 16 31 30
2. Rol
b. Frequência simples absoluta (fi ): é o número de vezes que o elemento aparece na amostra, ou
o número de elementos pertencentes a uma classe ( grupo de valores).
Ex.: f 13 = 4 , f 1ª classe = 28
Tabela 12
Número de
Taxas (em %) Centros de Saúde
(fi)
6 --- 16 28
16 --- 26 24
26 --- 36 15
36 --- 46 15
46 --- 56 4
56 --- 66 3
66 --- 76 2
76 --- 86 2
86 --- 96 1
Total () 94
c. Classe: é cada um dos grupos de valores do conjunto de valores observados, ou seja, são os
intervalos de variação da variável.
Identifica-se uma classe pêlos seus extremos ou pela ordem em que se encontra na
tabela.
6 --- 16 (1ª classe); 86 --- 96 (9ª classe)
Ponto médio das classes ( xi ): é o valor representativo da classe para efeito de cálculo de certas
medidas. Para qualquer representação tabular, basta acrescentar ao seu limite inferior a metade da
amplitude do intervalo de classe.
x i = h/2 + li
Exemplo: 6 16, h = 10 h/2 = 10/2 = 5 x i = 5 + 6 = 11
Quando o limite superior de uma classe for igual ao inferior da seguinte, o intervalo de classe poderá
ser calculado através da média aritmética dos limites do intervalo.
Exemplo: 6 16 : x i = 6 + 16 = 11
2
Para obter os pontos médios das classes seguintes, basta acrescentar ao ponto médio da classe
precedente a amplitude do intervalo de classe (se for constante).
Tabela 13
Xi (Ponto Médio)
Número de
Taxas (em %)
Centros de Saúde ( f i )
6 --- 16 28 11
16 --- 26 24 21
26 --- 36 15 31
36 --- 46 15 41
46 --- 56 4 51
56 --- 66 3 61
66 --- 76 2 71
76 --- 86 2 81
86 --- 96 1 91
Total () 94
TIPOS DE FREQUÊNCIAS
a. Frequência simples absoluta ( fi ): é o número de repetições de um valor individual ou de uma
classe de valores da variável.
k
f
i 1
i n
b. Frequência simples relativa ( fri): representa a proporção de observações de um valor individual
ou de uma classe em relação ao número total de observações. Para calcular a frequência relativa
basta dividir a frequência absoluta da classe ou do valor individual pelo número total de observações.
É um valor importante para comparações.
fr 1
56 --- 66 3 3,19
66 --- 76 2 2,13 i
76 --- 86 2 2,13
i 1
86 --- 96 1 1,06
Total () 94 100,01
DISTRIBUIÇÕES CUMULATIVAS
A frequência absoluta acumulada “abaixo de” uma classe ou de um valor individual é a soma das
frequências simples absoluta da classe ou de um valor com as frequências simples absoluta das
classes ou dos valores anteriores. A expressão “abaixo de” refere-se ao facto de que as frequências a
serem acumuladas corresponde aos valores menores ou anteriores ao valor ou à classe cuja
frequência acumulada se quer obter, incluindo no cálculo a frequência do valor ou da classe. Quando
se quer saber quantas observações existem até uma determinada classe ou valor individual, recorre-
se à frequência acumulada “abaixo”.
Tabela 15
Taxas (em %) Número de j
Fj fi
Fi
Centros de Saúde ( fi )
6 --- 16 28 28
i 1
16 --- 26 24 52
26 --- 36
36 --- 46
15
15
67
82
F1 f1
46 --- 56 4 86
56 --- 66
66 --- 76
3
2
89
91 Fk n
76 --- 86 2 93
86 --- 96 1 94
Total () 94
Fr1 fr1
6 --- 16 29,79 29,79 j
16 --- 26 25,53 55,32 Fr j fri
26 --- 36 15,96 71,28 i 1
36 --- 46 15,96 87,24
Fi
Frk 1 Fri
46 --- 56 4,26 91,50
56 --- 66 3,19 94,69
66 --- 76 2,13 96,82 n
76 --- 86 2,13 98,95
86 --- 96 1,06 100,01
Total () 100,01
Tabela 17 k
Taxas (em %) Número de
Centros de Saúde ( f i )
F’i F j f i
6 --- 16 28 94 i j
16 --- 26
26 --- 36
24
15
66
42
F1 n
36 --- 46 15 27
Fk f k
46 --- 56 4 12
56 --- 66 3 8
66 --- 76 2 5
76 --- 86 2 3
86 --- 96 1 1
Total () 94
F ri
86 --- 96 1,06 1,06
Total () 100,01
n
Relação entre as frequências cumulativas
Fi Fi1 n
Fri F ri1 1
APRESENTAÇÃO GRÁFICA
Constitui uma apresentação geométrica dos dados. Permite ao analista obter uma visão tão rápida,
fácil e clara do fenómeno e sua variação.
REPRESENTAÇÃO GRÁFICA
A Estatística Descritiva pode descrever os dados através de gráficos.
A apresentação gráfica é um complemento importante da apresentação tabular. A vantagem de um
gráfico sobre a tabela está em possibilitar uma rápida impressão visual da distribuição dos valores ou
das frequências observadas. Os gráficos propiciam uma ideia inicial mais satisfatória da concentração
e dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos
de grandezas visualmente interpretáveis.
2. Gráficos de análise
Estes gráficos fornecem informações importantes na fase de análise dos dados, sendo também
informativos.
Os gráficos de análise, geralmente, vêm acompanhados de uma tabela e um texto onde se destaca
os pontos principais revelados pelo gráfico ou pela tabela.
Tabela 19 - Parturientes atendidas numa maternidade de um Hospital Rural nos anos 1984-1994
Anos Parturientes
1984 816
1985 904
1986 1.203
1987 1.147
1988 1.239
1989 1.565
1990 1.620
1991 1.833
1992 1.910
1993 1.890
1994 1.903
2000
1500
1000
500
0
84 85 86 87 88 89 90 91 92 93 94
GRÁFICOS DE BARRAS
É a representação de uma série estatística através de rectângulos, dispostos em colunas.
Este tipo de gráfico representa praticamente qualquer série estatística.
As regras para a construção são as mesmas do gráfico em curvas. As bases das colunas são
iguais e as alturas são proporcionais aos respectivos dados.
Exemplo:
Tabela 20 - Crianças atendidas na pediatria do Hospital Municipal ABC- 1991-1995
Anos Numero de crianças
1991 117.579
1992 148.550
1993 175.384
1994 220.272
1995 265.626
Para cada ano é construído uma coluna, variando a altura (proporcional a cada quantidade). As
colunas são separadas uma das outras.
Observação: O espaço entre as colunas pode variar de 1/3 a 2/3 do tamanho da base da coluna.
300000
250000
200000
150000
100000
50000
0
1991 1992 1993 1994 1995
0
1992 1993 1994
GRÁFICO EM SECTORES
É a representação gráfica de uma série estatística em um círculo de raio qualquer, pôr meio de
sectores com ângulos centrais proporcionais às ocorrências. É utilizado quando se pretende
comparar cada valor da série com o total. O total da série corresponde a 360 (total de graus de um
arco de circunferência). O gráfico em sectores representam valores absolutos ou porcentagens
complementares.
As séries geográficas, específicas e as categorias em nível nominal são mais representadas em
gráficos de sectores, desde que não apresentem muitas parcelas (no máximo sete).
Cada parcela componente do total será expressa em graus, calculada através de uma regra de três:
Total - 360
Parte - x
f
si n
i
360º ou s 360º f r
i
i
f 400000 f 200000
s
1
n
1
360º
720000
360º 200º s 2
n
2
360º
720000
360º 100º
f 100000 f 20000
s3 n
3
360º
720000
360º 50º s4 n
4
360º
720000
360º 10º
Chá
Açucar 55%
28%
450.000
400.000
350.000
300.000
250.000
200.000
150.000
100.000
50.000
0
Chá Açucar Milho Feijão
Quantidade (t)
A largura da base de cada célula deve ser proporcional à amplitude do intervalo da classe que ela
representa e a área de cada célula deve ser proporcional à frequência da mesma classe.
Se todas as classes tiverem igual amplitude, então as alturas dos rectângulos serão proporcionais às
frequências das classes que eles representam.
Gráfico 7
Gráfico 8
Gráfico 10.
Tabela 11
6 --- 16 28 20
16 --- 26 24 22,75
26 --- 36 15 17,25
36 --- 46 15 12,25
46 --- 56 4 6,5
56 --- 66 3 3
66 --- 76 2 2,25
76 --- 86 2 1,75
86 --- 96 1 1
Total () 94
Gráfico 9
Para construí-lo, divide-se cada número em duas partes. A primeira é denominada ramo e
asegunda, folhas. O ramo consistirá de um ou mais dígitos iniciais se o valor da variável for
umnúmero inteiro e do número inteiro, se o valor da variável for um número com decimais.
Nas folhas, colocam-se os dígitos restantes se o valor observado for número inteiro, ou os
decimais, casocontrário.
Há que se fazer uma distinção entre a notação utilizada para as medidas estatísticas relativas a uma
população e uma amostra. Por convenção, parâmetros populacionais são representados por letras
gregas enquanto os parâmetros estimados de uma amostra são representados por letras latinas.
MEDIDAS DE POSIÇÃO
São as estatísticas que representam uma série de dados orientando-nos quanto à posição da
distribuição em relação ao eixo horizontal do gráfico da curva de frequência.
SEPARATRIZES
MEDIANA (ME)
A mediana de um conjunto de valores, dispostos segundo uma ordem ( crescente ou
decrescente), é o valor situado de tal forma no conjunto que o separa em dois subconjuntos
de mesmo número de elementos.
Existem duas fórmulas para o cálculo da mediana, para dados não agrupados em intervalos
de classe e para dados agrupados em intervalos de classe, que são:
M e (1 d ) X I d X I 1
Onde:
n 1 n 1
d é a parte decimal da divisão e I é a parte inteira da divisão
2 2
Exemplos:
Determine a mediana dos valores:
1) 5, 2, 6, 13, 9, 15, 10
Rol crescente: 2, 5, 6, 9, 10, 13, 15.
7 1 8
n7 4 I 4 d 0
2 2
M e (1 0) X 4 0 X 5 X 4 9
2) 1, 3, 0, 0, 2, 4, 1, 3, 5, 6, 2, 6.
Rol crescente: 0, 0, 1, 1, 2, 2, 3, 3, 4, 5, 6, 6.
12 1 13
n 12 6,5 I 6 d 0,5
2 2
M e (1 0,5) X 6 0,5 X 7 0,5 2 0,5 3 2,5
n 94
A mediana encontra-se na segunda classe porque 47 comparando com as
2 2
frequências acumuldas, o elemento 47 encontra-se na segunda classe. Logo a classe
medianal é a segunda, isto é, 16 --- 26
li l 2 16 n
Fi 1 F1 28 Fi 1
47 28
M e li 2 hi 16 10 23,92
f i f 2 24 fi 24
hi h2 10
Emprego da Mediana
Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
Quando há valores extremos que afectam de maneira acentuada a média aritmética.
Quando a variável em estudo é salário.
QUARTIS
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais.
Precisamos portanto de 3 quartis (Q1, Q2 e Q3) para dividir a série em quatro partes iguais.
Existem duas fórmulas para o cálculo da mediana, para dados não agrupados em intervalos
de classe e para dados agrupados em intervalos de classe, que são:
Qk (1 d ) X I d X I 1 ; K 1,3
Onde:
K n 1 K n 1
d é a parte decimal da divisão e I é a parte inteira da divisão
4 4
2 7 1 16
k2 4 I 4 d 0
4 4
Q2 1 0 X 4 0 X 5 X 4 9
3 7 1 24
k 3 6 I 6 d 0
4 4
Q3 1 0 X 6 0 X 7 X 6 13
2 12 1 26
k2 6,5 I 6 d 0,5
4 4
Q2 1 0,5 X 6 0,5 X 7 0,5 X 6 0,5 X 7
Q2 0,5 5 0,5 6 6,5
3 12 1 39
k 3 9,75 I 9 d 0,75
4 4
Q3 1 0,75 X 9 0,75 X 10 0,25 X 9 0,75 X 10
Q3 0,25 9 0,75 9 9
Exemplo:
Determine os quartis para a tabela abaixo
Taxas (em %) Número de
Fi
Centros de Saúde ( f i )
6 --- 16 28 28
16 --- 26 24 52
26 --- 36 15 67
36 --- 46 15 82
46 --- 56 4 86
56 --- 66 3 89
66 --- 76 2 91
76 --- 86 2 93
86 --- 96 1 94
Total () 94
1 94
Fi 1
4 23,5 0
Q1 li hi 6 10 14,39
fi 28
2 94
Fi 1
4 47 28
Q2 l i hi 16 10 23,92
fi 24
3 94
Fi 1
70,5 67
Q3 li 4 hi 36 10 38,33
fi 15
Existem duas fórmulas para o cálculo da mediana, para dados não agrupados em intervalos
de classe e para dados agrupados em intervalos de classe, que são:
Dk (1 d ) X I d X I 1 ; K 1,9
Onde:
K n 1 K n 1
d é a parte decimal da divisão 10 e I é a parte inteira da divisão 10
Exemplo
Calcule os decis dos dados seguintes: 0, 1, 1, 2, 4, 0, 1, 1, 3, 4, 0, 1, 2, 3, 5, 0, 1, 2, 3, 5, 0, 1,
2, 3, 5, 0, 1, 2, 3, 6, 1, 1, 2, 3, 6, 1, 1, 2, 3, 6, 1, 1, 2, 3, 6, 1, 1, 2, 3, 7, 1, 1, 2, 4, 7
Role crescente: 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2,
3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7.
1 50 1 51
k 1 5,1 I 5 d 0,1
10 10
D1 1 0,1 X 5 0,1 X 6 0,9 X 5 0,1 X 6 0,9 0 0,1 0 0
2 50 1 102
k2 10,2 I 10 d 0,2
10 10
D2 1 0,2 X 10 0,2 X 11 0,8 X 10 0,2 X 11 0,8 1 0,2 1 1
3 50 1 153
k 3 15,3 I 15 d 0,3
10 10
D3 1 0,3 X 15 0,3 X 16 0,7 X 15 0,3 X 16 0,7 1 0,3 1 1
4 50 1 204
k4 20,4 I 20 d 0,4
10 10
D4 1 0,4 X 20 0,4 X 21 0,6 X 20 0,4 X 21 0,6 1 0,4 1 1
5 50 1 255
k 5 25,5 I 25 d 0,5
10 10
D5 1 0,5 X 25 0,5 X 26 0,5 X 25 0,5 X 26 0,5 2 0,5 2 2
7 50 1 357
k 7 35,7 I 35 d 0,7
10 10
D7 1 0,7 X 35 0,7 X 36 0,3 X 35 0,7 X 36 0,3 3 0,7 3 3
8 50 1 408
k 8 40,8 I 40 d 0,8
10 10
D8 1 0,8 X 40 0,8 X 41 0,2 X 40 0,8 X 41 0,2 4 0,8 4 4
9 50 1 459
k 9 45,9 I 45 d 0,9
10 10
D9 1 0,9 X 45 0,9 X 46 0,1 X 45 0,9 X 46 0,1 5 0,9 6 5,9
De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim
sendo, o quinto decil é igual ao segundo quartil, que por sua vez é igual à mediana.
Exemplo:
Determine os decis
Taxas (em %) Número de
Fi
Centros de Saúde ( fi )
6 --- 16 28 28
16 --- 26 24 52
26 --- 36 15 67
36 --- 46 15 82
46 --- 56 4 86
56 --- 66 3 89
66 --- 76 2 91
76 --- 86 2 93
86 --- 96 1 94
Total () 94
2 94
Fi 1
10 18,8 0
D2 l i hi 6 10 12,71
fi 28
3 94
Fi 1
10 28,2 28
D3 li hi 16 10 16,08
fi 24
4 94
Fi 1
37,6 28
D4 li 10 hi 16 10 20
fi 24
5 94
Fi 1
47 28
D5 li 10 hi 16 10 23,92
fi 24
6 94
Fi 1
10 56,4 52
D6 li hi 26 10 28,93
fi 15
7 94
Fi 1
10 65,8 52
D7 li hi 26 10 35,2
fi 15
8 94
Fi 1
10 75,2 67
D8 li hi 36 10 41,47
fi 15
9 94
Fi 1
10 84,6 82
D9 li hi 46 10 52,5
fi 4
Pk (1 d ) X I d X I 1 ; K 1,99
Onde:
d K n 1 I K n 1
é a parte decimal da divisão e é a parte inteira da divisão
100 100
Exemplo
Calcule os percentis 15, 25, 75 e 90 dos dados seguintes: 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7.
15 50 1 765
k 15 7,65 I 7 d 0,65
100 100
P15 1 0,65 X 7 0,63 X 8 0,35 X 7 0,35 X 8 0,9 1 0,1 1 1
25 50 1 1275
k 25 12,75 I 12 d 0,75
100 100
P25 1 0,75 X 12 0,75 X 13 0,25 X 12 0,75 X 13 0,25 1 0,75 1 1
75 50 1 3825
k 75 38,25 I 38 d 0,25
100 100
P75 1 0,25 X 38 0,25 X 39 0,75 X 38 0,25 X 39 0,75 3 0,25 3 3
90 50 1 4590
k 90 45,9 I 45 d 0,9
100 100
P90 1 0,9 X 45 0,9 X 46 0,1 X 45 0,9 X 46 0,1 5 0,9 6 5,9
50 94
Fi 1
47 28
P50 li 100 hi 16 10 23,92
fi 24
75 94
Fi 1
70,5 67
P75 li 100 hi 36 10 38,33
fi 15
OUTLIERS:
As observações que apresentam um grande afastamento das restantes ou são inconsistentes
com elas são habitualmente designadas por outliers. Estas observações são também
designadas por observações “anormais”, contaminantes, estranhas, extremas ou aberrantes.
A preocupação com observações outliers é antiga e data das primeiras tentativas de analisar
um conjunto de dados. Inicialmente pensava-se que a melhor forma de lidar com este tipo de
observações seria através da sua eliminação da análise.
As opiniões não eram unânimes: uns defendiam a rejeição das observações “inconsistentes
com as restantes”, enquanto outros afirmavam que as observações nunca deveriam ser
rejeitadas simplesmente por parecerem inconsistentes com os restantes dados e que todas as
observações deviam contribuir com igual peso para o resultado final.
Aplicação Práticas
• Detecção de fraudes.
• Comportamento de gastos de consumidores.
• Em análises médicas (resultados não esperados de tratamentos).
• Pesquisa farmacêutica. • Marketing. • Etc.
O estudo de outliers, independentemente da(s) sua(s) causa(s), pode ser realizado em várias
fases:
• A fase inicial é a da identificação das observações que são potencialmente aberrantes. A
identificação de outliers consiste na detecção, com métodos subjectivos, das observações
surpreendentes. A identificação é feita, geralmente, por análise gráfica ou, no caso de um
número de dados ser pequeno, por observação directa dos mesmos. São assim
identificadas as observações que têm fortes possibilidades de virem a ser designadas por
outliers.
• Na segunda fase, tem-se como objectivo a eliminação da subjectividade inerente à fase
anterior. Pretende-se saber se as observações identificadas como outliers potenciais o são,
efectivamente. São efectuados testes à ou às observações “preocupantes”. Devem ser
escolhidos os testes mais adequados para a situação em estudo. As observações suspeitas
são testadas quanto à sua discordância. Se for aceite a hipótese de algumas observações
serem outliers, elas podem ser designadas como discordantes. Uma observação diz-se
discordante se puder considerar-se inconsistente com os restantes valores depois da
aplicação de um critério estatístico objectivo. Muitas vezes o termo discordante é usado
como sinónimo de outlier.
• Na última fase é necessário decidir o que fazer com as observações discordantes. A
maneira mais simples de lidar com essas observações é eliminá-las. Como já foi dito, esta
abordagem, apesar de ser muito utilizada, não é aconselhável. Ela só se justifica no caso
de os outliers serem devidos a erros cuja correcção é inviável. Caso contrário, as
observações consideradas como outliers devem ser tratadas cuidadosamente pois contêm
informação relevante sobre características subjacentes aos dados e poderão ser decisivas
no conhecimento da população à qual pertence a amostra em estudo.
Métodos de identificação
• Gráfico de Box-Plot
• Modelos de discordância
• Teste de Dixon
• Teste de Grubbs
• Z-scores
O boxplot pode ainda ser utilizado para uma comparação visual entre dois ou mais grupos.
Por exemplo, duas ou mais caixas são colocadas lado a lado e se compara a variabilidade
entre elas, a mediana e assim por diante. Outro ponto importante é a diferença entre os
quartis que é uma medida da variabilidade dos dados.
Um segmento de reta vertical conecta o topo da caixa ao maior valor observado e outro
segmento conecta a base da caixa ao menor valor observado, este segmento denomina-se
Whisker, ou fio de bigode.
MODA (MO)
É o valor que ocorre com maior freqüência em uma série de valores.
Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto
é, o salário recebido pelo maior número de empregdos dessa fábrica.
Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça
mais vezes que outros.
Exemplo: { 3 , 5 , 8 , 10 , 12 } não apresenta moda. A série é amodal.
.Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então,
que a série tem dois ou mais valores modais.
Exemplo: { 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 } apresenta duas modas: 4 e 7. A série
é bimodal.
Exemplo: Qual o número de filhos mais comum num grupo de 50 casais abaixo:
Nº de filhos Nº de casais
0 6
1 16
2 9
3 8
4 3
5 3
6 3
7 2
f i f i 1 1
M o li hi ou M o li hi
2 f i ( f i 1 f i 1 ) 1 2
Onde
li é o limite inferior da classe modal
fi é a frequência simples absoluta da classe modal
fi-1 é a frequência simples absoluta da classe anterior (inferior) à modal
fi+1 é a frequência simples absoluta da classe posterior (superior) à modal
hi é o amplitude da classe modal
Δ1 = fi - fi-1, e Δ2 = fi - fi+1
f i f i 1 f5 f4 28 24
M o li hi l5 h5 46 10
2 f i ( f i 1 f i 1 ) 2 f5 ( f4 f6 ) 2 28 (24 15)
4 40
M o 46 10 46 48
56 36 20
li Li 46 56
M o 51 Moda bruta
2 2
A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou
quando a medida de posição deva ser o valor mais típico da distribuição.
MÉDIA ARITMÉTICA
A média aritmética ( ou X ) é a soma de todos os valores observados da variável dividida
pelo número total de observações.
Sob uma visão geométrica a média de uma distribuição é o centro de gravidade, representa o
ponto de equilíbrio de um conjunto de dados. É a medida de tendência central mais utilizada
para representar a massa de dados.
Xi X i
i 1
X i 1
para dados populacionais e amostrais, respectivamente.
N n
X i fi X i fi
i 1
X i 1
N n
Entretanto, incluindo ao grupo uma nova família com 10 filhos, a média passa a ser X
= 2,788, o que eleva em 48,16% o número médio de filhos por família. Assim, ao
observar a média, pode-se pensar que a maior parte das famílias deste grupo tem três
filhos quando, na verdade, apenas uma tem três filhos.
MEDIDAS DE DISPERSÃO
De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam-se por
suas semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de tendência
central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou não,
próximos uns dos outros.
Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos seus
elementos. Existe ausência de dispersão e a medida de dispersão é igual a zero. Por outro lado,
aumentando-se a dispersão, o valor da medida aumenta e se a variação for muito grande, a média
não será uma medida de tendência central representativa.
Faz-se necessário, portanto, ao menos uma medida de tendência central e uma medida de dispersão
para descrever um conjunto de dados.
As medidas de variação constituem importante instrumento para avaliar: a amplitude com que as
observações variam; e como os valores estão distribuídos em torno de algum valor-critério. Podem
ser de caráter absoluto ou relativo (percentual), como apresentadas a seguir.
DESVIO-MÉDIO (Dm)
A diferença entre cada valor observado e a média é denominado desvio e é dado por (Xi−μ)
se o conjunto de dados é populacional, ou por (Xi− X ) se os dados são amostrais.
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado
em relação a média, o resultado é igual a zero (propriedade 5 da média). Isto significa que
esta medida não mede a variabilidade dos dados. Para resolver este problema, pode-se
desconsiderar o sinal da diferença, considerando-as em módulo e a média destas diferenças
em módulo é denominada desvio médio:
N n
Xi X i X
Dm i 1
ou Dm i 1
,
N n
para dados populacionais ou amostrais, respectivamente. Caso os dados estejam
apresentados segundo uma distribuição de freqüência, tem-se:
X fi X
K k
i i X fi
Dm i 1
ou Dm i 1
,
N n
X
N n
X i
2
X
2
i
2 i 1
ou S 2 i 1 ,
N n 1
se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam
apresentados segundo uma distribuição de freqüência, tem-se:
X X
K k
fi
2
X fi
2
i i
2 i 1
ou S 2 i 1
N n 1
X
N n
X i
2
X
2
i
i 1
ou S, i 1
N n 1
se os dados são populacionais ou amostrais e, se estiverem em distribuição de freqüências:
X X
K k
fi
2
X fi
2
i i
i 1
ou S i 1
N n 1
É importante destacar que se duas populações apresentam a mesma média, mas os desvios
padrão não são iguais, isto não significa que as populações têm o mesmo comportamento.
Como se vê, a medida absoluta de dispersão dos dados tem limitações no tocante às conclusões.
Principalmente na comparação de grupos com médias diferentes. Como o desvio padrão varia com a
ordem de grandeza da média, comparar grupos, quanto à sua variação, quando as respectivas
médias são diferentes não pode ser feita com os desvios padrões. Surge, então, a medida
adimensional, isto é, sem unidade de medida, definida como Coeficiente de Variação:
MEDIDAS DE ASSIMETRIA
A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma
distribuição de freqüências e/ou um histograma, está-se buscando, também, identificar
visualmente, a forma da distribuição dos dados que é ou não confirmada pelo coeficiente de
assimetria de Pearson (As) definido como:
MO X MO
CAP ou CAP , para dados populacionais e amostrais,
S
respectivamente.
assimétrica negativa se média ≤ mediana ≤ moda ou CAP < 0. O lado mais longo do
polígono de freqüência (cauda da distribuição) está à esquerda do centro.
assimétrica positiva se moda ≤ mediana ≤ média ou CAP>0. O lado mais longo do polígono
de freqüência está à direita do centro.
MEDIDAS DE CURTOSE
A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta
distribuição. É definido como:
P75 P25 Q3 Q1
CPC
2 ( P90 P10 ) 2 D9 D1
Platicúrtica: quando a distribuição apresenta uma curva de freqüência mais aberta, com os
dados fracamente concentrados em torno de seu centro, CPC>0,263.
Segundo Triola (2004), um outlier ou ponto discrepante é um valor que se localiza distante de
quase todos os outros pontos da distribuição. A distância a partir da qual considera-se um
valor como discrepante é aquela que supera 1,5Dq. De maneira geral, são considerados
outliers todos os valores inferiores ei=Q1-1,5Dq ou os superiores a Ei=Q3+1,5Dq.
Note-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos
quais, 25% estão entre a linha da mediana e a linha do primeiro quartil e os outros 25% estão
entre a linha da mediana e a linha do terceiro quartil. Cada linha da cauda mais os valores
discrepantes contêm os 25% restantes da distribuição. A Figura acima mostra que a
distribuição das idades dos alunos apresenta assimetria positiva, ou seja, dispersam-se para
os valores maiores.
REGRA DA ADIÇÃO
Se existirem k procedimentos e o i-ésimo procedimento puder ser realizado de ni
maneiras, i = 1,2,3,…,k, então, o número de maneiras pelas quais poderemos
realizar ou o procedimento1, ou o procedimento 2, ou …, ou o procedimento k,
é dado por n1+n2+n3+…+nk, supondo-se que dois quaisquer deles não se
possam realizar conjuntamente.
Exemplo
1- Suponha-se que estejamos planeando uma viagem e devamos escolher entre o
transporte por autocarro ou comboio. Se existirem cinco rodovias e três ferrovias.
Quantos caminhos disponíveis existem para a viagem.
Dados:
n1 5
n n1 n2 5 3 8
n2 3
REGRA DA MULTIPLICAÇÃO
Se existirem k procedimentos e o i-ésimo procedimento puder ser executado de n i
maneiras, i = 1, 2, 3, …, k, então a tarefa formado por 1, seguido por 2, …, seguido
pelo procedimento k, poderá ser executada de n1xn2xn3x…xnk maneiras
Exemplos
1- Suponhamos que a matricula de carro contem três letras distintas, seguidas por quatro
dígitos, com o primeiro diferente de zero. Quantas placas podem ser impressas?
Dados:
FACTORIAL
O produto dos números naturais de 1 a n, inclusive, aparece frequentemente em matemática
e, por isso, é representado pelo símbolo especial n! (lê-se “n factorial”):
n! = 1x2x3x4x5x…xn ou n! = nx…x4x3x2x1
por definição 0!=1
Exemplo
5!= 1x2x3x4x5 =120 saiba também que 5!=5x4x3x2x1=120
e 5! = 5x4!
PERMUTAÇÕES E ARRANJOS
Arranjos – é um agrupamento com uma certa ordem de p elementos tomados de um
determinado de um determinado conjunto de n elementos
n!
a) se não existir repetição de elementos na sequência a fórmula será: An ,k ,
(n k )!
neste caso deve-se respeitar a condição n p
não há restrições.
Exemplos
1. Com os elementos do conjunto {1,2,3,4} quantos números diferentes:
a) de três algarismos diferentes podem ser formados?
Dados
4!
n4
k 3
A4,3 (4 3)!
4 3 2 24
A4,3 4 64
3
n4
k 3
Exemplos:
1. De quantas maneiras 6 pessoas podem sentar-se numa fila?
Dados
n6 P6 6! 6 5 4 3 2 1 720
2. Quantas palavras com ou sem significado na língua portuguesa se podem escrever com
a palavra: Perco, Arriscado
Dados
n5 P 5
5! 5 4 3 2 1 120
Dados
n9
9!
90720
k1 2 9P 2, 2 2!2!
k2 2
3. Quantos anéis diferentes podem ser formados usando as letras da palavra: letras, poder
n5 Pc 5
(5 1)! 4! 4 3 2 1 24
COMBINAÇÕES
Combinação – é um agrupamento de n elementos p a p. Neste caso nos interessa os
n!
conjuntos possíveis não a colocação dos elementos no agrupamento: C n,k
p!(n k )!
Exemplo
Quantos conjuntos diferentes de três letras diferentes podemos formar com os
elementos do conjunto {a, q, e, r, t, u, g}
Dados
n7 7! 7!
k 3
C 7 ,3
3!7 3! 3!4!
35
INTRODUÇÃO
A ciência manteve-se ate pouco tempo atrás, firmemente apegada a lei da “causa e efeito”.
Quando o efeito esperado não se concretizava, atribuía-se o facto ou a uma falha na
experiência ou a uma falha na identificação da causa. Não poderia haver quebra da cadeia
lógica. Segundo Laplace (Pierre Simon) uma vez conhecidas a vizinhanca, a velocidade e a
direcão de cada átomo no universo, poder-se-ia, a partir daI, predizer com certeza, o futuro
ate a eternidade.
Sabe-se hoje, através do princIpio da incerteza, que não é bem assim. Que não existem
meios que permitam determinar Os movimentos dos elétrons individuais se conhecido a sua
velocidade, conforme o estabelecido em 1927, pelo fisico alemão W. Heinsenberg.
MODELOS
Conforme J. Neymann, toda a vez que se emprega Matemática com a finalidade de estudar
algum fenômeno deve-se começar por construir um modelo matemático. Este modelo pode
ser: determinístico ou então probabilístico.
MODELO DETERMINISTICO
Neste modelo as condicoes sob as quais o experimento é executado, determinam o resultado
do experimento. Tome-se, por exemplo, a lei de 0hm, V=IR. Se R e I forem conhecidos,
então V estará precisamente determinado.
O ESPAÇO AMOSTRAL
DEFINIÇÃO
É o conjunto de todos os resultados possíveis de um experimento aleatório. Anota-se por S,
E ou Ω.
EVENTOS
DEFINIÇÃO:
Qualquer subconjunto de um espaço amostral Ω é denominado evento. Assim tem-se que:
Ω é o evento certo;
{ a } é o evento elementar e Ø é 0 evento impossIvel.
COMBINAÇÃO DE EVENTOS
Pode-se realizar operações entre eventos da mesma forma que elas são realizadas entre
conjuntos. Antes de definir as operacões é conveniente definir o que se entende por
ocorrência de um evento.
Seja E um experimento com um espaço amostral associado Ω. Seja A um evento de Ω. É
dito que o evento A ocorre se realizada a experiência, isto é, se executado E, o resultado for
um elemento de A.
Sejam A e B dois eventos de um mesmo espaço amostrall Ω. Diz-se que ocorre o evento:
1. A união B ou A soma B, anotado por AUB, se e somente se A ocorre ou B ocorre.
AUB
2. A produto B ou A intersecão B, anotado por A∩B ou AR, se e somente A ocorre e B
ocorre. A∩B
3. A menos B ou A diferença B, anota-se A - B, se e somente se A ocorre e B não
ocorre. A-B
4. O complementar de A, anotado por A , se somente se A não ocorre.
CONCEITOS DE PROBABILIDADE
Existem trés formas de se definir probabilidade. A definição clássica, a definição frequencial
e a definição axiomática.
Exemplo
(I) Uma moeda foi lançada 200 vezes e fomeceu 102 caras. Então a frequência relativa
de “caras” é: fr= 102/200=0,51=51%
(II) Um dado foi lançado 100 vezes e a face 6 apareceu 18 vezes. Então a frequência
relativa do evento A={ face 6 } é: fr= 18/100= 0,18=18%
Definição
Seja E um experimento e A um evento de um espaço amostral associado Ω. Suponhamos
que E é repetido “n” vezes e seja frA a frequência relativa do evento. Então a probabilidade
de A é definida como sendo o limite de frA quando “n” tende ao infinito. Ou seja:
P( A) lim frA
n
Deve-se notar que a frequência relativa do evento A é uma aproximacão da probabilidade de
A. As duas se igualam apenas no limite. Em geral, para um valor de n, razoavelmente grande
a frA é uma boa aproximacão de P(A).
Então, se a extracão for com reposicão P(A) = P(B) = 20 / 100 = 1 / 5 = 20%, porque existem
20 peças defeituosas num total de 100.
Agora se a extracão for sem reposicão tem-se ainda que P(A) = 20 / 100 = 20%, mas o
mesmo não é verdadeiro para P(B). Neste caso, é necessário conhecer a composição do lote
no momento da extração da segunda peça, isto é, é preciso saber se a primeira peça retirada
foi ou não defeituosa. Neste caso é necessário saber se A ocorreu ou não. O que mostra a
necessidade do conceito de probabilidade condicionada.
DEFINIÇÃO
Sejam A e B dois eventos de um espaço amostral 5, associado a um experimento E, onde
P(A)> 0. A probabilidade de B ocorrer condicionada a A ter ocorrido, será representada por
P(B/A), e lida como: “probabilidade de B dado A” ou “probabilidade de B condicionada a A”, e
calculada por:
P( A B)
P( B / A)
P( A)
No exemplo acima, então P(B/A) = 19 / 99, pois se A ocorreu (isto é, se saiu peça defeituosa
na primeira retirada) existirão na urna apenas 99 peças das quais 19 defeituosas.
Sempre que se calcular P(B/A) está se calculando a probabilidade de ocorrência do evento B
em relacão ao epaço amostral reduzido A, ao invés de fazé-lo em relacão ao espaço
amostral original Ω.
Quando se calcula P(B) está se calculando a probabilidade de estar em B, sabendo-se que
se está em Ω, mas quando se calcula P(B/A) está calculando a probabilidade de B, sabendo-
se que se está em A agora e não mais em Ω, isto é, o espaço amostral fica reduzido de Ω
para A.
Observe-se que estas propriedades são idénticas aos axiomas de probabilidade. Pode-se
também comparar P(A/B) e P(A).
TEOREMA DA MULTIPLICAÇÃO
Com o conceito de probabilidade condicionada é possIvel apresentar uma maneira de se
calcular a probabilidade da intersecção de dois eventos A e B em função destes eventos.
Esta expressão é denominada de teorema da multiplicação. P(A∩B) = P(A)xPB/A) =
P(A/B)xP(B).
Exemplo
Trés componentes C1, C2, e C3, de um mecanismo são postos em série (em linha recta).
Suponha que esses componentes sejam dispostos em ordem aleatória. Seja R o evento {C2
está a direita de C1 }, e seja S o evento { C3 está a direita de C1 }. Os eventos R e S são
independentes? Justifique.
Para que R e S sejam independentes deve-se ter: P(R∩S) = P(R)xP(S). 0 espaço amostral
para este caso é: Ω = { C1C2C3, C1C3C2, C2C1C3, C2C3C1, C3C1C2, C3C2C1 } As sequências
em que C2 está à direita de C1 são: R= {C1C2C3, C1C3C2, C3C1C2}. Logo: P(R)= 3/6 = 50%
Definição
Diz-se que os conjuntos A1, A2, ..., An eventos de um mesmo espaço amostral Ω, formam
uma partição deste espaço se:
(a) Ai∩Aj =Ø, para todo i≠ j.
(b) A1UA2...U An=Ω
(c) P(A1)> 0, para todo i
Exemplo
Considere-se o espaço amostral obtido pelos números das
faces no lançamento de um dado equilibrado e sejam os eventos: A1= {1,2,3}, A2={4,5} e
A3={6}
Então, pode-se verificar facilmente que, os eventos acima formam uma partição do espaço
amostral Ω={ 1, 2, 3, 4, 5, 6}.
É claro que, alguns destes conjuntos B∩Ai poderão ser vazios, mas isto não representa
nenhum problema na decomposicão de B. 0 importante é que todos os conjuntos B∩A1,
B∩A2, ..., B∩An são dois a dois mutuamente excludentes. E por isto, pode-se aplicar a
propriedade da adição de eventos mutuamente excludentes e escrever.
P(B) =P[(B∩A1)U(B∩A2)U... U(B∩An)] = P(B∩A1) + P(B∩A2) + ... + P(B∩An) Mas cada um dos
termos P(B∩Ai) pode ser escrito na forma: P(B∩Ai) = P(Ai)xP(B/Ai), pela definição de
probabilidade condicionada, obtém-se então o denominado teorema da probabilidade total:
P(B) = P(A1)xP(B/A1) + P(A2)xP(B/A2) + ...+ ..P(An).P(B/An)
Exemplo
Uma determinada peça é manufaturada por 3 fábricas: A, B e C. Sabe-se que A produz o
dobro de peças que B e que B e C produzem o mesmo número de peças. Sabe-se ainda que
2% das peças produzidas por A e por B são defeituosas, enquanto que 4% das produzidas
por C são defeituosas. Todas as peças produzidas são misturadas e colocadas em um
depósito. Se do depósito for retirada uma peça ao acaso, qual a probabilidade de que ela
seja defeituosa?
TEOREMA DE BAYES
Suponha-se que no exemplo acima, uma peca é retirada do depósito e se verifica que é
defeituosa. Qual a probabilidade de que tenha sido produzida pela fábrica A? ou B? ou ainda
C?
Neste caso, o que se quer calcular é a probabilidade condicionada P(A/D). Pela notação já
vista acima, e generalizando a questão o que se está interessado em obter é a probabilidade
de ocorrência de um dos Ai dado que B ocorreu, isto é, o que se quer é saber o valor de
P(Ai/B), onde os eventos A1, A2, ..., An formam uma partição de Ω e B é um evento qualquer
de Ω.
P( Ai ) P( B / Ai )
P( Ai / B)
P( A1 ) P( B / A1 ) P( A2 ) P( B / A2 ) ... P( An ) P( B / An )
Exemplo
Considerando a pergunta acima vem então: P(A/D), isto é a probabilidade de ter sido
produzida pela máquina A dado que a peça é defeituosa é:
P( A) P( D / A)
P ( A / D)
P( A) P( D / A) P( B) P( D / B) P(C ) P( D / C )
0,50 0,02
P ( A / D) 0,40 40%
0,50 0,02 0,25 0,02 0,25 0,04
Exemplos:
– número de coroas obtido no lançamento de 2 moedas;
– número de itens defeituosos em uma amostra retirada, aleatoriamente, de um lote;
– número de defeitos em um azulejo que sai da linha de produção;
– número de pessoas que visitam um determinado site, num certo período de tempo;
– volume de água perdido por dia, num sistema de abastecimento;
– resistência ao desgaste de um certo tipo de aço, num teste padrão;
– tempo de resposta de um sistema computacional;
– grau de empeno em um azulejo que sai da linha de produção.
– uma caixa contem 5 parafusos defeituosos e 5 não defeituosos. O número de parafusos
defeituosos extraídas em uma amostra de 2 parafusos extraídos sem reposição
– As peças que saem de uma linha de produção s ão inspeccionadas e o seu estado é
registado: boa ou com defeito. Quando e encontrada uma peça defeituosa a operação pára
para se averiguar qual a causa do defeito. O número de peças inspeccionadas é uma variável
aleatória
– O rendimento familiar mensal de um habitante de uma determinada cidade seleccionado ao
acaso e uma variável aleatória.
– O tempo de vida de uma pilha produzida no sector C de uma fabrica é uma variável
aleatória.
Variável aleatória
Formalmente, uma variável aleatória é uma função que associa elementos do espaço
amostral ao conjunto de números reais.
Formalização
Uma V.A. é contínua se os seus valores não podem ser listados, mas podem assumir um
número infinito de valores em um intervalo finito ou infinito.
Exemplo:
Intervalo de tempo entre chegadas,
Altura de pessoas em uma sala.
O exercício com teste de celulares a seguir exemplifica o levantamento de resultados
elementares, definição de uma variável aleatória e a construção das funções pmf e CDF.
Seja X uma variável aleatória discreta, então X pode assumir os valores x 1 , x2 ,....
Chamaremos de função de probabilidade da variável aleatória X a função que a cada x i
associa sua probabilidade de ocorrência, ou seja,
tal que:
então,
Exercício
a) Determine o valor da constante “c" que torna legítima a função de probabilidade acima.
b) Determine a função de distribuição acumulada F e construa o gráfico.
c) Calcule a P(X>1), P(X≥3), P(X≤4), P(5/2<X≤5).
2) Seja X uma variável aleatória discreta com função de distribuição acumulada dada por:
F(-2)=0,3, F(0)=0,5, F(1)=0,6, F(2)=0,8 e F(5)=1. Calcule P(-1≤X≤4).
Uma variável aleatória X é contínua se existir uma função f, denominada denominada função
de densidade densidade de probabilidade probabilidade (fdp) de X, que satisfaça as seguintes
condições:
Exemplo
Exercício
1) Seja X uma variável aleatória com densidade
a) Determine Determine o valor da constante constante “d" que torna legítima legítima a
função de densidade de probabilidade acima.
b) Determine a função de distribuição acumulada F.
c) Calcule a P(X>1), P(X<1/2) e P(-1/2<X≤2/3)
Calcule:
a) f(x)
b) P(X=0) e P(-1/2<X≤1/2)
Esperança
Variância
Seja uma variável aleatória discreta X, que assume os valores x1, x2, ... , xr. Diz-se que X tem
distribuição uniforme discreta se, e somente se, para todo i= 1 , 2 , ... , r:
Medidas descritivas
Média ou valor esperado
Variância
Exemplo
Seja X a variável aleatória que representa o resultado observado no lançamento de um dado.
Determine a distribuição de probabilidade.
Distribuição Hipergeométrica
Função de Probabilidade
De modo geral, se X é uma variável que tem distrisbuição hipergeométrica, então a sua
função de probabilidade será:
Parâmetros
A distribuição hipergeométrica tem três parâmetros:
N= tamanho da população
M= número de elementos da sub-população de interesse
n= número de elementos retirados
Medidas descritivas
Média ou valor esperado
Variância
Exemplo:
De entre 10 painéis solares apresentados numa exposição, sete são do tipo placa plana e três
são do tipo concentrador. Uma pessoa que visita a exposição escolhe, ao acaso, três painéis
para observer. Se a variável X é definida como o número de painéis do tipo placa plana
observados, construa a distribuição de probabilidade de X.
Esta distribuição foi deduzida no final do século XVII pelo matemático suiço Jacob Bernoulli.
Modelo de descrição probabilística dos resultados de um experiment de Bernolli. O
experimento (ou ensaio) de Bernoulli é definido como o experiment aleatório que possui
apenas dois resultados possíveis, que são 0 que representa fracasso e 1 que representa
sucesso.
Função de Probabilidade
De modo geral, se X é uma variável que tem distrisbuição Bernoulli, então a sua função de
probabilidade será:
Parâmetros
A distribuição de Bernoulli tem um parâmetro:
p= probabilidade de sucesso
Medidas descritivas
Média ou valor esperado
Variância
Exemplo:
Um experimento aleatório consiste em lançar um dado e observar o seu resultado. Seja X a
variável aleatória que representa aparecimento da face “6’ numa única jogada. Determine a
função de probabilidade da variável X.
Parâmetros
A distribuição geométrica tem um parâmetro:
p= probabilidade de sucesso
Medidas descritivas
Média ou valor esperado
Variância
Exemplo
A proporção de não conformidade de certo componente é 8%. Ao se inspeccionar um lote
desses componentes, qual a probabilidade de se encontrar uma unidade defeituosa na
quarta observação?
Parâmetros
A distribuição de Pascal tem dois parâmetros:
p= probabilidade de sucesso
r= número de sucessos
Medidas descritivas
Média ou valor esperado
Variância
Distribuição Binomial
Seja X uma variável aleatória que indica o número de sucessos observados em n eventos de
um experimento de Bernoulli, com probabilidade p de sucesso. Então diz-se que X tem
distribuição binomial com parâmetros n e p, e modelo de probabilidade dado por:
Parâmetros
A distribuição de Pascal tem dois parâmetros:
p= probabilidade de sucesso
n= número de tentativas ou repetição do experimento (tamanho da amostra)
Variância
Exemplo:
A proporção de não conformidade de certo componente é 8%. Ao se inspeccionar um lote de
12 unidades deste componente, qual a probabilidade de se encontrar três unidades não
conformes?
Distribuição Multinomial
Parâmetros
A distribuição de Multinomial tem 2 vezes r parâmetros:
P1, P2 , …, Pr = probabilidades de sucessos
X1, X2, ... , Xr = as variáveis discretas que representam cada sucesso
Medidas descritivas
Média ou valor esperado
Variância
Distribuição de Poisson
Parâmetros
A distribuição de Poisson tem um parâmetro:
λ= o valor médio no interval considerado
Medidas descritivas
Média ou valor esperado
Variância
Exemplo
1. Um aeroporto regista em média oito aterragens a cada período de seis horas. Qual a
probabilidade de registar duas aterragens em uma hora?
6. Uma instituição financeira classifica os clientes em três grupos de risco: Alto risco, médio
risco e baixo risco. Um levantamento apontou que 6% dos clientes pertencem ao primeiro
grupo, 12% ao segundo e 82% ao terceiro. Qual a probabilidade de um grupo de 15
clientes apresentar um cliente do primeiro grupo, dois do segundo e 12 do terceiro?
7. Certo tipo de cabo é vendido em rolos de 50m. Verificou-se que cada rolo apresenta em
média duas imperfeições. Qual a probabilidade de um segmento de 10m apresentar uma
falha?
10. Uma rede de auto-atendimento possui 12 unidades, que operam oito horas por dia. Em
média são atendidos dois clientes por hora. Qual a probabilidade de que, em um intervalo
de 15 minutos, oito unidades estejam ocupadas?
Distribuição Uniforme
Parâmetros
A distribuição de uniforme tem dois parâmetros:
= o menor valor para o qual a variável X está definida;
Medidas descritivas
Média ou valor esperado
Variância
Exemplo:
Seja X uma variável aleatória contínua com distribuição uniforme no interval [5, 10].
Determine as probabilidades
a) P(X<7)
b) P(X>8,5)
c) P(8<X<9)
d) P(|X-7,5|>2
Seja X uma variável aleatória contínua que só assume valores não negativos. Se esta variável
é o tempo decorrido entre ocorrências sucessivas de um processo de Poisson, então ela tem
distribuição exponencial
Parâmetros
A distribuição exponencial tem um parâmetro:
= número médio de ocorrências em determinado período de tempo (λ>0)
= o maior valor para o qual a variável X está definida;
Medidas descritivas
Média ou valor esperado
Variância
P(Y=-4)=P(X<0,9)=0,59343
P(Y=6)=P(X≥0,9)=0,40657
E(Y)=-4x0,59343+6x0,40657=0,0657
Distribuição Normal
É uma distribuição teórica de frequências, onde a maioria das observações se situa em torno
da média (Centro da distribuição) e diminui gradual e simetricamente no sentido dos
extremos. A distribuição normal é representada graficamente pela curva normal (também
chamada curva de Gauss) que tem a forma de sino e é simétrica em relaç~ao ao centro,
onde se localiza a média
Parâmetros
A distribuição normal tem dois parâmetros:
= média (determina o centro da distribuição);
= variância (Determina a dispers~ao da distribuição);
Medidas descritivas
Média ou valor esperado
Variância
3. Os pontos de inflexão (onde a curva passa de covexa para côncava) são exactamente
É uma distribuição normal de uma variável Z que tem média igual a zero ( ) e desvio
padrão igual a um ( ). Para a variável Z, a funç~ao densidade de probabilidade resulta
Suponha ainda que o custo de fabric de um item seja de 3 Meticais e o preço de venda
seja 7 Meticais. O fabricante garante total devolução se X≤0,8. Qual o lucro esperado
por item?
4. Seja Z uma variável aleatória com distribuição normal padrão. Determine as seguintes
probabilidades
a) P(0<Z<1,73)
b) P(0,81<Z<+∞)
c) P(-1,25<Z<-0,63)
6. Suponha que as notas de uma prova sejam normalmente distribuídas, com média 72 e
desvio padrão 1,3. Considerando que 18% dos alunos mais adiantados receberam letra
“A” e 10% dos mais atrasados a letra “R”, encontre a nota minima para receber “A” e
a nota máxima para receber “R”.
8. Os diâmetros dos tubos produzidos por uma máquina são normalmente distribuídos,
com média igual a 49,7 mm e desvio padrão igual a 0,18 mm. Um cliente rejeita
qualquer unidade com diâmetro superior a 50,2 mm. Qual a probabilidade de uma
unidade ser rejeitada ?
9. O peso líquido dos potes de margarina de certa marca é normalmente distribuído, com
média igual a 500 g e desvio padrão igual a 8 g. Um cliente rejeitou 15% de um lote,
alegando que o peso líquido era inferior ao seu limite de tolerância. Quanto vale este
limite?
10. Um aeroporto regista em média cinco aterragens por hora. Qual a probabilidade de
que o intervalo entre duas aterragens seja superior a 20 minutos?
11. O tempo médio até a ocorrência da primeira falha em um componente é igual a 500
horas. O fabricante oferece uma garantia de 200 horas. Qual a probabilidade de que a
primeira falha ocorra dentro deste prazo?
12. Seja uma variável aleatória X, tal que X ~ N (μ, 2). Calcular:
a) P(X ≤ μ + )
b) P(X ≤ μ + 2 )
c) P(μ – ≤ X ≤ μ + )
d) P(μ – 3 µ X ≤ μ + 3 )
13. O tempo médio até a ocorrência da primeira falha em um componente é igual a 500
horas. O fabricante oferece uma garantia de 200 horas. Um equipamento utiliza oito
unidades deste componente. Qual a probabilidade de no máximo duas unidades
apresentarem defeito no prazo de garantia?