Estatistica Descritiva - Resumo
Estatistica Descritiva - Resumo
Estatistica Descritiva - Resumo
População – é um conjunto de indivíduos ou objectos que apresentam pelo menos uma característica em
comum. A população pode finita ou infinita. Na prática, quando uma população é finita, com um número
grande de elementos, considera-se população infinita.
Censo – Se todos os elementos da população é observada diz-se que se fez um levantamento exaustivo,
ou recenseamento, ou apenas censo.
Sondagem – um estudo estatístico feito a partir de uma amostra, chama-se sondagem ou amostragem
Carácteres Estatísticos
- Carácteres quantitativos ou variáveis quantitativas – são os que podem medir ou referenciar usando
números.
A variável é contínua se pode assumir teoricamente qualquer valor em certo intervalo da recta real,
Dados brutos
O conjunto de dados numéricos obtidos após a crítica dos valores colectados constitui-se no dados brutos,
assim: 24, 23, 22, 28, 34, 35, 21, 23, 33, 34, 21, 25, 36, 26, 22, 30, 32, 25, 26, 33, 34 , 21, 31, 25, 31, 26,
25, 35, 33, 33, 31 são exemplos de dados brutos. (idades dos estudantes de um turma).
Rol
É o arranjo dos dados brutos em ordem crescente ou decrescente. 21, 21, 21, 22, 22, 23, 23, 24, 25, 25,
25, 25, 26, 26, 26, 28, 30, 31, 31, 32, 33, 33, 33, 34, 34, 34, 35, 35, 36.
Frequência absoluta do valor xi é o número de vezes que o elemento xi aparece na amostra, ou é o número
de elementos pertencentes a uma classe.
∑ f i=N
i=1
Frequência relativa (fr)
Frequência relativa de um valor xi é o quociente entre a frequência absoluta desse valor eo número total
da população. Representa-se por:
fi fr
f r= onde 0 ≤ f r ≤1 ou f r= .100 %
N N
3 3.100
Exemplo: f r ( 26 )= =0,3 ou f r ( 26 )= =10 %
30 30
Quando a variável é contínua ou quando o número de valores observados é grande, é conveniente fazer o
seu agrupamento em classes.
Não há uma fórmula exacta para o cálculo no número de classes. Temos duas sugestões:
R
h= O número de classes (k) assim como a amplitude das classes (h), deve ser aproximado para o
k
maior inteiro.
Apesar das tabelas estatística se das representações gráficas nos darem uma ideia clara da distribuição de
frequências da variável estudada, torna-se necessária simplificar ainda mais o conjunto de dados, de
forma a caracterizar a distribuição por um número reduzido de medidas (parâmetros) que evidenciem o
que demais significativo existe no conjunto.
Média Aritmética ( X́ )
Dados não agrupados
X 1+ X 2+ X 3+ …+ X n
X́ =
N
3+ 7+8+12+15
A média aritmética simples de valores 3,7,8,12,15, é: X́ = =9
5
Média ponderada
Se x é uma variável discreta que toma os valores x1, x2, x3, …, xn com as frequência absolutas f1,
f2, f3,…,fn respectivamente, a media ponderada será por:
n
xi . f i
x 1 . f 1 + x 2 . f 2 + x 3 . f 3 +…+ x n . f n ∑i=1
X́ = =
N N
xi 1 2 3 4
fi 1 3 5 2
xi fi Xi.fi
1 1 1
2 3 6
3 5 15
4 2 8
Total N=11 30
X́ =
∑ X i. f i = 30 =2,72
N 11
Mediana¿
A mediana é a medida de posição que divide a série estatística em duas partes iguais, ou seja, é o
valor da variável estatística precedida por 50% das observações.
Chama-se Moda (ou valor modal) da distribuição de frequências ao valor da variável que
corresponde a maior frequência.
X́ =
∑ xi . f i = 3524 =48,9 Kg
N 72
~
Mediana( X )
N
−f ac
~ 2
X =linf + .h
fi
h é a amplitude da classe.
Usando os dados do exemplo anterior podemos calcular a mediana:
N 72
−f ac −34
~ 2 2 4
X =linf + . h=48+ .4=48+ =48+0,4=48,8
fi 20 10
Moda (Mo)
Se a variável (xi) é contínua e todos os dados estão agrupados em classes, da-se o nome de classe modal à
classe de maior frequência.
∆1
M o=l inf + .h
∆1 +∆ 2
Onde:
∆ 1 é a diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe anterior;
∆ 2 é a diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe posterior;
∆1 ( 23−11 ) 48
M o=l inf + . h=44+ .4=44+ =44 +3,2=47,2
∆1 +∆ 2 ( 23−11 )+ ( 23−20 ) 15
As três medidas de tendência central média, moda e mediana, pretendem localizar os valores em torno
dos quais os dados se agrupam.
Média
- É uma medida de precisão, cuja definição e propriedades são tratadas por meios algébricos e que
intervém em cálculos estatísticos avançados.
- É uma medida complexa, isto é, faz intervir todos os dados, pelo que é muito sensível a qualquer
alteração de um ou mais valores.
O seu valor não pertence, geralmente ao conjunto inicial de dados (pode não ter existência real).
Mediana
- Permite situar um individuo na metade inferior ou superior da população quanto ao carácter em estudo;
- É um parâmetro “robusto” não afectado por flutuações dos externos é uma medida de posição;
- Usa-se em geral quando as distribuições são muito assimétricas, ou seja, desequilibradas nos externos.
Moda
- É a medida mais fácil e rápida de observar. Mas, com dados agrupados, seu cálculo é mais trabalhoso.
Para curvas de distribuições de frequências unimodais com um grande número de observações verificam-
se as seguintes relações:
a) Distribuição simétrica: X́ =M e =M o
Karl Pearson desenvolveu uma fórmula empírica da relação entre as três medidas de localização, a média
(ponto de equilíbrio), a moda (ponto de máxima frequência) e a mediana (ponto do meio).
X́ −M o=3. ( X́ −M e )
Quartís – enquanto que a mediana divide um conjunto de dados estatísticos ordenados em duas partes
iguais, os quartís dividem-no em quatro. São por isso, em número de três e representam-se
respectivamente por Q1, Q2 e Q3.
O segundo quartil correspondem a mediana, ou seja, Q 2=Me. Para a determinação dos quartís, teremos que
atender ao tipo de distribuição apresentada.
¿ −F
ac
4
Qi=l inf + .h
fi
Onde:
i – É a ordem do quartíl
h - Amplitude da classe
O valor central mais usado é o valor médio, que contudo, nem sempre dá uma ideia suficiente da série
estatística.
Exemplo:
Calculando a média nota-se que os dois estudantes têm o mesmo valor médio , isto é , X́=11.
Mas a distribuição dos valores é muito diferente. Os valores de Y são muito disperso, enquanto que os de
X são mais concentrados. Assim, a média é mais representativa para X do que para Y .
É necessário completar o estudo de uma distribuição com outras medidas que permitem determinar o grau
de dispersão dos dados em torno dos valores central.
As medidas de dispersão mais usadas são: Amplitude total, desvio quartilico, desvio médio, variância e
desvio padrão.
Amplitude total (ranger) – é a diferença entre o valor máximo e mínimo. R=V máx−V min
Q3−Q1
Semi amplitude quartilica – é a metade do interquartil.
2
Q3−Q 1
Desvio quartílico relativo Q=
Q2
d= xi − X́
Chama-se desvio médio de uma distribuição (Dx) a média aritmética dos valores absolutos dos desvios
em relação a média.
n
∑|x i− X́|. f i
D (x)= i=1
N
Chama-se variância, a média aritmética dos quadradosdos desvios em relação a média aritmética.
n
2
∑ ( x i− X́ ) . f i
V ( x )= i=1
N
√
2
∑ ( x i− X́ ) . f i
i=1
σ =√ V ( x) ou σ=
N
- O desvio padrão informa sobre dispersão, isto é, sobre o afastamento dos dados em relação a média.
- O intervalo ¿ X́ −σ , X́ +σ ¿ contem sempre mais de 50% dos dados; isto significa que mais de metade
dos dados se situam a uma distancia da média que é inferior a um desvio padrão.
O coeficiente de variação Cv, é uma medida de dispersão útil para a comparação em termos relativos, do
σ σ
grau de concentração em torno da média de séries distintas, e é dado por: C v = ouC v = .100 %
X́ X́
Diz-se que a distribuição possui pequena variabilidade (dispersão) quando o coeficiente der até 15%;
média dispersão quando estiver entre acima de 15% até 30% e grande dispersão se estiver acima de 30%,
isto é,:
Uma curva de distribuição, tem assimetria positiva quando ela está desviada esquerda, caso contrario a
assimetria é negativa. Se a curva não está desviada nem a esquerda nem a direita, então acurva é
simétrica, e diz-se que temos uma distribuição normal.
a) Distribuição simétrica: X́ =M e =M o
1
X́−M o 3. ( X́ −M e ) ∑ ( x i− X́ )3
e 1= ; e2 = ou n
σ σ C Ass=
σ3