Parte 2 - Estatística e Probabilidade ME951 Unicamp
Parte 2 - Estatística e Probabilidade ME951 Unicamp
Parte 2 - Estatística e Probabilidade ME951 Unicamp
Probabilidade I
Parte 2
Análise Descritiva
Análise Descritiva Univariada
Na aula passada trabalhamos na análise descritiva univariada para variáveis
categóricas (nominal e ordinal) e quantitativas (discreta e contínua).
3/40
Medidas Resumo
Vimos na aula anterior como usar gráficos e tabelas de frequência para resumir
os dados.
4/40
Medidas de Posição Central
Média Aritmética
Se x1 , x2 , … , xn são as n observações, a média aritmética é:
n
1
x̄ = xi
n ∑
i=1
6/40
Exemplo: Cereais matinais
Temos cereias matinais de várias marcas e observamos a quantidade de calorias
e carboidratos em porções de 30g.
7/40
Exemplo: Cereais matinais
Calorias dos 9 cereais: 109, 81, 102, 115, 113, 119, 113, 84, 113
xi : calorias do cereal i.
n 9
1 1
x̄ = xi = xi = 105.44
n ∑ 9 ∑
i=1 i=1
8/40
Mediana
Mediana: valor que separa os dados em dois grupos de tamanhos iguais, ou
seja, 50% das observações em cada, de acordo com seus valores ordenados.
⎩ , se n é par
2
9/40
Exemplo: Cereais matinais
Calorias dos 9 cereais:
109 + 113
mediana = = 111.
2
10/40
Moda
A moda é o valor com maior número de ocorrências nos dados.
Tabela de frequências:
81 84 102 109 113 115 119
1 1 1 1 3 1 1
11/40
Exemplo: Emissão de CO2
Veja a tabela com dados da emissão de CO2 per capita (em toneladas) para 8
países, em 2009.
China 5.8
Índia 1.7
EUA 17.3
Indonésia 1.9
40.9
Brasil 1.9 Média: x̄ = ≈ 5.11
8
Rússia 11.1
Paquistão 0.9 Dados Ordenados: 0.3, 0.9, 1.7, 1.9, 1.9, 5.8, 11.1, 17.3
Mediana = 1.9
Bangladesh 0.3
Fonte: A mediana é bem menor do que a média.
http://data.worldbank.org
12/40
Exemplo: Emissão de CO2
Veja a tabela com dados da emissão de CO2 per capita (em toneladas) para 8
países, em 2009.
Indonésia 1.9
Mediana = 1.9
Brasil 1.9
Mediana é menos afetada por valores muito extremos
Rússia 11.1
(muito diferentes do resto das observações) que a média.
Paquistão 0.9
Bangladesh 0.3 Dizemos que a mediana é mais robusta que a média.
Fonte:
http://data.worldbank.org
13/40
Exemplo: SleepStudy
Vamos voltar no exemplo SleepStudy: amostra de
253 alunos universitários que fizeram testes para
medir função cognitiva, além de outras informações
sobre hábitos relacionados ao sono.
14/40
Exemplo: número de casamentos
Os dados abaixo referem-se ao número de vezes que homens e mulheres se
casaram.
Número de Casamentos Mulheres Homens Você acha que existe diferença entre
homens e mulheres quanto ao número
0 5861 7074
de casamentos ?
1 2773 1561
Qual medida de posição você usaria para
2 105 43
apresentar a diferença entre homens e
Total 8739 8678 mulheres: média, mediana ou moda?
Moda
Fonte: http://www.census.gov/prod/2002pubs/p70-80.pdf
15/40
Exemplo: número de casamentos
Número de Casamentos Mulheres Homens Mediana
0 5861 7074 Para as mulheres, a amostra ordenada é:
1 2773 1561
0 0 0 … 0 1 1 1 … 1 2 2 2 … 2
2 105 43
mulheres.
Para dados discretos com poucos valores diferentes, a mediana ignora muita
informação.
16/40
Exemplo: número de casamentos
Número de Casamentos Mulheres Homens Média
0 5861 7074 Para as mulheres, a média é:
1 2773 1561
0 × 5861 + 1 × 2773 + 2 × 105
2 105 43 x̄ = = 0.34
8739
Nesse caso, temos que a média é a medida de posição que consegue diferenciar
homens e mulheres quanto ao número de casamentos.
17/40
Exemplo: número de casamentos
Como o número de casamentos assume apenas os valores 0, 1 e 2, podemos
apresentar os dados usando um gráficos de barra.
0 5861 7074
1 2773 1561
2 105 43
Total 8739 8678
18/40
Mediana é resistente a observações discrepantes
Considere os três conjuntos de dados abaixo:
A : 8, 9, 10, 11, 12
Média de A: 10 Mediana de A: 10
19/40
Exemplo: Transporte
Uma empresária cuja empresa está localizada na Av. Paulista, em São Paulo, está
preocupada com a quantidade de gasolina gasta pelos seus funcionários. Ela
quer promover o uso de transporte público entre seus funcionários. Ela decide
investigar a extensão, em km, do trajeto percorrido por cada funcionário caso
usassem transporte público durante um dia típico.
1, 1, 4, 1, 1, 1, 10, 1, 6, 1
Média é 2.7.
20/40
Exemplo: Transporte
A empresária acabou de contratar um novo funcionário. Ele percorre 90 km em
transporte público. Recalcule a média e a mediana.
1, 1, 4, 1, 1, 1, 10, 1, 6, 1, 90
Mediana é 1.
Média é 10.64.
21/40
Exemplo: Acidentes com Moto
Dados: entrevistas com 60 pessoas,
em que cada uma relata o número de
acidentes com moto que sofreu no
último ano.
22/40
Exemplo: Salários
A média salarial anual em 1998 nos EUA para pessoas com ensino superior era
$528.200.
A mediana do salário anual em 1998 nos EUA para pessoas com ensino superior
era $146.400.
2. Qual medida de posição você acredita que retrata de maneira mais realística
um salário típico de pessoas com ensino superior nos EUA em 1998?
23/40
Exemplo: Sindicato
O sindicato dos trabalhadores está reivindicando aumento de salário em uma
certa fábrica.
Explique por que o sindicato poderia usar a mediana dos salários de todos os
empregados para justificar um aumento, enquanto que o gerente da fábrica
poderia usar a média para argumentar que um aumento não é necessário?
24/40
Média, mediana e a distribuição dos dados
A figura a seguir mostra gráficos para três conjuntos de dados: A, B e C.
O que você esperaria da relação entre média e mediana para esses dados?
25/40
Média, mediana e a distribuição dos dados
Para cada uma das distribuições (A, B, C), qual medida seria maior: média ou
mediana?
26/40
Assimetria (Caso Unimodal)
27/40
Medidas de Dispersão
Exemplo: Salário professor de música
Salário anual hipotético de professores de música na Dinamarca (esquerda) e
nos EUA (direita).
29/40
Amplitude
Uma medida de dispersão é amplitude: a diferença entre o maior e o menor
valor observado na amostra.
Na Dinamarca:
· Amplitude = 52 − 27=25.
Nos EUA:
· Amplitude = 75 − 9 = 66.
30/40
Medidas de Dispersão
Considere dois conjuntos de dados:
Que medida podemos usar para considerar essa característica dos dados?
31/40
Medidas de Dispersão
Podemos observar quão afastadas de uma determinada medida de posição
estão as observações.
Qual o problema?
32/40
Medidas de Dispersão
Além do mais, uma medida de dispersão onde os desvios positivos e negativos
se cancelam, não seria útil.
Alternativas:
n n
2
∣ xi − x̄ ∣ ou (xi − x̄)
∑ ∑
i=1 i=1
Ambas alternativas evitam que desvios iguais em módulo, mas com sinais
opostos, se anulem.
n n
33/40
Variância e Desvio padrão
A média dos desvios ao quadrado é denominada variância:
n
1
2 2
s = (xi − x̄)
n − 1 ∑
i=1
‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾
n ‾
1
2
s = (xi − x̄)
n − 1 ∑
i=1
⎷
34/40
Exemplo A
Conjunto de dados A : {1, 2, 5, 6, 6} .
20
A média é x̄ = = 4.
5
Então, a variância é:
9 + 4 + 1 + 4 + 4
2
s = = 5.5,
5 − 1
e o desvio padrão:
2
s = √‾
s‾ = √5.5
‾‾‾ = 2.35.
35/40
Exemplo B
Conjunto de dados B : {−40, 0, 5, 20, 35} .
20
A média é x̄ = = 4.
5
Então, a variância é:
e o desvio padrão:
2
s = √‾
s‾ = √792.5
‾‾‾‾‾ = 28.15.
36/40
Exemplo: Salário professor de música
37/40
Exemplo: “Qual o número ideal de filhos?”
Homens: 0, 0, 0, 4, 4, 4, 2
Mulheres: 0, 2, 2, 2, 2, 2, 4
Desvio padrão: s = 2
38/40
Exemplo: Prova 1 de ME414
A primeira prova de ME414 teve um total de 100 pontos. Suponha que a média
tenha sido 80.
Qual seria um valor plausível para o desvio padrão das notas da classe? s: 0, 10
ou 50.
mesma nota.
· s = 50 : uma nota típica da classe
estaria 50 pontos distante da média,
ou seja, 30 ou 130 pontos.
· s = 10 : notas típicas seriam de 70
ou 90.
39/40
Leitura
· Ross: seções 3.1, 3.2, 3.3, 3.4, 3.5
· Samara Kiihl
· Tatiana Benaglia
· Benilton Carvalho
· Larissa Matos
40/40