Bizu Estratégico de Estatística
Bizu Estratégico de Estatística
Bizu Estratégico de Estatística
Estatística
Bizu Estratégico p/ Receita Federal
(Auditor Fiscal)
Autor:
3 de Novembro de 2020
Neste material, trazemos uma seleção de bizus da disciplina de Estatística para o concurso para Auditor
Fiscal da Receita Federal.
Nosso objetivo é trazer um material conciso, com os principais pontos dos assuntos exigidos no edital, para
uma revisão eficaz próximo à prova.
Os bizus destinam-se a alunos que já estejam na fase final de revisão (que já estudaram bastante o conteúdo
teórico da disciplina e, nos últimos dias, precisam revisar por algum material bem curto e objetivo).
1835287
Probabilidade 12 a 14 https://questoes.estrategiaconcursos.com.br/cadernos/542ca5ae-4f10-4656-865a-d3cb8e4df0a6
Observação: Os cadernos de questões foram montados utilizando questões específicas de Auditor Fiscal e
Analista de concursos da Banca CESPE, FCC e FGV nos últimos anos.
ANÁLISE ESTATÍSTICA
Galera, para sabermos quais são os assuntos mais exigidos pelas Bancas CESPE (CEBRASPE), FGV e FCC (que
são as mais cotadas para a realização desse concurso) na disciplina de Estatística nos últimos anos e também
considerando os últimos editais da área fiscal. Vejamos a seguinte análise estatística realizada em questões
já aplicadas:
Assunto %
Distribuições de Probabilidade 23,03%
Probabilidade 14,61%
Estimação 9,27%
Amostragem 2,81%
Com essa análise podemos verificar quais são os temas mais cobrados pelas Bancas CESPE (CEBRASPE), FCC
e FGV e, com isso, focar nos principais pontos para revisar e detonar na prova!!
Vamos para a nossa missão, futuros (as) Auditores (as) Fiscais da Receita Federal!
Por fim, farei uma breve apresentação sobre a minha jornada no “mundo dos concursos”.
2
APRESENTAÇÃO
Antes de mais nada, permitam-me uma breve apresentação para quebrarmos o gelo:
Meu nome é Roberto Cambraia, tenho 26 anos e sou natural de Guaraciaba do Norte, interior do Ceará.
Sou graduado em Matemática e atualmente sou professor nessa área. Além disso, sou pós-graduado em
Administração Pública.
Meu contato com o “mundo” de concursos públicos começou em 2013, quando fui
aprovado em alguns certames para o cargo de professor de matemática. Após quase 5 anos
na carreira, decidi buscar novos horizontes e voltei a estudar para concursos públicos.
Dessa vez concursos da área fiscal, tendo a felicidade de ser aprovado em alguns deles, dois
em 1° lugar inclusive.
Superei os percalços, dediquei-me e colhi os louros da vitória. Que tal seguirmos juntos
nessa empreitada para que você, também, possa experimentar algo que é para poucos, o
sabor da vitória!?
Serei o responsável pelo Bizu Estratégico de Estatística e, com ele, pretendo abordar os
tópicos mais cobrados nesta disciplina, de maneira concisa e objetiva, por meio de uma
linguagem bem clara!
Vamos juntos?
"Destino não é uma questão de sorte, mas uma questão de escolha; não é uma coisa que se espera, mas
que se busca." (William Jennings Bryan)
Medidas de Posição
1. Média Aritmética
➢ Se um problema simplesmente pedir para calcular a média sem especificar qual o tipo de média, você
deverá calcular a média aritmética.
➢ Se é dada a média de um conjunto, basta multiplicar a média pela quantidade de termos para calcular
==1c0117==
a soma total.
✓ Por exemplo, se a média salarial de 8 pessoas é de 1.500 reais, então, juntos, eles recebem 8
x 1.500 = 12.000 reais.
2. Média Ponderada
𝒙𝟏 𝒑𝟏 + 𝒙𝟐 𝒑𝟐 + 𝒙𝟑 𝒑𝟑 + ⋯ + 𝒙𝒏 𝒑𝒏
𝑀é𝑑𝑖𝑎 =
𝒑𝟏 + 𝒑𝟐 + 𝒑𝟑 + ⋯ + 𝒑𝒏
3. Média Geométrica
➢ Se temos uma lista de números (𝑥1 , 𝑥2 , 𝑥3 , . . . , 𝑥𝑛 ) então a média geométrica será dada por:
𝑮 = 𝒏√𝒙𝟏 . 𝒙𝟐 . 𝒙𝟑 . … . 𝒙𝒏
➢ Se temos uma lista de números (𝑥1 , 𝑥2 , 𝑥3 , . . . , 𝑥𝑛 ) então a média Harmônica será dada por:
4. Média Harmônica
𝒏
𝑯=
𝟏 𝟏 𝟏 𝟏
+ + + ⋯+
𝒙𝟏 𝒙𝟐 𝒙𝟑 𝒙𝒏
5. Desigualdade de Médias
➢ Se pelo menos um número de uma lista é diferente dos demais, a média aritmética será SEMPRE
maior que a média geométrica e esta será maior do que a média harmônica, ou seja:
𝑴𝑨 > 𝑴𝑮 > 𝑴𝑯
6. Mediana
➢ Medida de posição definida como número que se encontra no centro de uma série de números,
estando estes dispostos segundo uma ordem.
➢ Estando ordenados os dados numéricos e sendo n o número de elementos, o valor mediano será:
𝒏+𝟏
• O termo de ordem , se n por ímpar.
𝟐
𝒏 𝒏
• A média aritmética dos termos de ordem e + 𝟏, se n for par.
𝟐 𝟐
➢ O valor da mediana pode coincidir ou não com um elemento da série. Quando o número de
elementos da série é ímpar, há coincidência. O mesmo não acontece, porém quando esse número é
par.
➢ A mediana depende da posição e não é influenciada por valores extremos dos elementos na série
ordenada. Essa é uma das diferenças marcantes entre a mediana e a média (que se deixa influenciar,
e muito, pelos valores extremos, também chamados de outliers).
𝒏
+ 𝒇𝒂𝒄𝒂𝒏𝒕
𝑴𝒅 = 𝒍𝒊 + [𝟐 ].𝒉
𝒇𝒊
Em que:
• 𝒍𝒊 é o limite inferior da classe mediana.
• 𝒇𝒂𝒄𝒂𝒏𝒕 é a frequência acumulada da classe anterior à classe mediana.
• 𝒇𝒊 é a frequência simples da classe mediana.
• 𝒉 é a amplitude da classe mediana.
7. Moda
➢ A moda é definida como sendo aquele valor ou valores que ocorrem com maior frequência em um
rol.
➢ Baseado neste contexto, um conjunto de valores pode apresentar mais de uma moda. Nesse caso,
dizemos ser plurimodal (ou polimodal), caso contrário, será unimodal (apenas uma moda), ou
ainda, amodal (quando todos os valores das variáveis em estudo apresentarem uma mesma
frequência).
Medidas de dispersão
8. Conceitos Iniciais
➢ Também chamadas de Medidas de Variabilidade, procuram descrever o quão homogêneo
ou não são os dados de um conjunto. São medidas que analisam o afastamento dos
valores em uma sequência. Algumas são bem simples:
9. Desvio
➢ O desvio é basicamente a diferença de um número, em relação a outro. É bastante
comum, calcular a diferença de cada elemento X da sequência em relação à média desse
conjunto de dados. Nesse caso particular, temos a seguintes consequências:
̅
𝚺|𝒙𝒊 − 𝒙|
𝑫𝑴 =
𝒏
➢ A variância é a média aritmética dos quadrados dos desvios (diferenças em relação à média).
➢ Em outras palavras, para calcular a variância, devemos elevar cada um dos desvios ao quadrado,
somar todos os valores, e dividir por n, que é quantidade de elementos.
∑(𝒙𝒊 − 𝒙
̅)²
𝝈𝟐 =
𝒏
➢ Variância Populacional:
∑(𝒙𝒊 − 𝒙
̅)²
𝝈𝟐 =
𝒏
➢ Variância Amostral:
∑(𝒙𝒊 − 𝒙
̅)²
𝑺𝟐 =
𝒏−𝟏
𝝈
𝑪𝒗 =
̅
𝒙
Probabilidade
➢ Combinações de eventos:
✓ União de dois eventos: Considere dois eventos A e B. O evento união ocorre se e somente se
A ou B (ou ambos) ocorrerem.
✓ A intersecção de dois eventos: Considere dois eventos A e B. O evento interseção ocorre se
e somente se os dois eventos ocorrerem (A e B ocorrerem)
✓ Complementar de um evento: Considere um evento A. O evento complementar de A ocorre
se e somente se não ocorre A.
✓ Se 𝑨 ∪ 𝑩 = 𝑼, dizemos que A e B são eventos exclusivos.
✓ Se 𝑨 ∩ 𝑩 = ∅ , dizemos que A e B são eventos mutuamente exclusivos (ou excludentes).
➢ A probabilidade de que um evento B ocorra, sabendo que um evento A ocorreu é dada por:
𝑷(𝑨 ∩ 𝑩)
𝑷(𝑩 ∖ 𝑨) =
𝑷(𝑨)
➢ Se a ocorrência do evento A não influir no cálculo da probabilidade do evento B, os eventos são ditos
independentes e neste caso tem-se:
➢ Esse é um assunto bem teórico, difícil de ser explicado e bem compreendido mesmo quando
temos mais tempo. Mas na prática fica bem mais simples de aplicá-lo. A "fórmula" do
teorema é a seguinte:
𝑷(𝑬𝒊 ) . 𝑷(𝑩|𝑬𝒊 )
𝑷(𝑬𝒊 |𝑩) =
∑ 𝑷(𝑬𝒊 ) . 𝑷(𝑩|𝑬𝒊 )
➢ Estranha né?! Não se preocupe, você não precisa decorá-la. Para dominar bem esse assunto,
aprenda através de alguma questão resolvida. Se você sabe como montar aqueles
"diagramas" saberá responder praticamente qualquer questão sobre Teorema de Bayes e
Probabilidade Total.
➢ Variável aleatória (v.a.) é uma variável que é associada a uma distribuição de probabilidade. Ela
pode assumir valores de uma maneira completamente aleatória, ou seja, não temos como prever o
seu resultado. Por outro lado, podemos associar valores de probabilidade a cada um dos possíveis
resultados.
➢ Uma variável aleatória discreta pode assumir apenas certos valores, usualmente números racionais,
e resultam basicamente de contagens.
➢ Uma variável aleatória contínua é aquela que resulta de uma medida e pode assumir qualquer valor
dentro de um dado intervalo.
➢ A esperança matemática (também chamada de expectância, valor médio ou média) é, por definição,
o número:
𝝁 = 𝑬(𝑿) = ∑ 𝑿𝒊 . 𝑷( 𝑿𝒊 )
𝒊=𝟏
• Esta expressão significa que, para calcular a esperança de uma variável aleatória, devemos
multiplicar cada valor da variável pela sua respectiva probabilidade e depois somar tudo.
➢ A distribuição uniforme discreta é aquela em que todos os elementos têm a mesma probabilidade
de ocorrer.
➢ Em uma distribuição uniforme discreta, a esperança é a média aritmética dos valores.
∑ 𝑿𝒊
𝑬(𝑿) =
𝒏
10
𝒏
( ) 𝒑𝒌 . 𝒒𝒏−𝒌
𝒌
➢ A média do número X de resultados favoráveis em uma distribuição binomial é 𝑛𝑝 e a variância é
𝑛𝑝𝑞.
𝟏
𝑬(𝑿) =
𝒑
𝒒
𝑽𝒂𝒓(𝑿) =
𝒑²
11
𝒔 𝑵−𝒔
( )( )
𝒌 𝒏−𝒌
𝑷(𝑿 = 𝒌) =
𝑵
(𝒏)
𝑬(𝑿) = 𝒏𝒑
𝑵−𝒏
𝑽𝒂𝒓(𝑿) = 𝒏𝒑𝒒.
𝑵−𝟏
➢ Para explicar essa distribuição, vamos utilizar como exemplo um objeto muito utilizado no cotidiano:
o telefone. Talvez até sejamos capazes de dizer quantas vezes, em média, nosso telefone toca por
dia. Mas quantas vezes o telefone não toca? Essa pergunta é muito difícil de responder. Quando uma
variável aleatória tem um comportamento parecido com esse, dizemos que ela segue uma
distribuição de Poisson.
➢ Se considerarmos que sucesso é tocar o telefone, é muito difícil calcular p, a probabilidade de isso
ocorrer, já que não temos como calcular a não-ocorrência do evento.
➢ A solução é imaginar que p é muito pequeno (𝑝 → 0), já que o toque do telefone dura apenas
alguns segundos em um dia de 24 horas (86.400 segundos). Dessa forma, o número de vezes que o
experimento é realizado (telefone toca ou não toca), que é o n da distribuição binomial, é realizado
muitas vezes (𝑛 → ∞).
➢ É assim que modelamos a distribuição de Poisson: partimos de uma distribuição binomial,
considerando que p é muito pequeno (tende a zero) e que n é muito grande (tende a infinito).
𝝀 = 𝒏𝒑
12
➢ Esse número 𝜆 é exatamente o número médio de vezes que o evento ocorre. No exemplo do telefone,
é o número de vezes que o telefone toca por dia.
𝝈𝟐 = 𝝀
𝒆−𝝀 . 𝝀𝒌
𝑷(𝑿 = 𝒌) =
𝒌!
➢ Este é o modelo mais simples de variável aleatória contínua. Sua função densidade de
probabilidade é representada através de um segmento de reta horizontal. É igual a zero em
toda a reta real, com exceção de um dado intervalo, onde assume um valor constante. Se o
intervalo em que a função é constante for limitado pelos números “a” e “b”, seu gráfico terá
a seguinte representação.
13
➢ Uma variável aleatória contínua X, que tome todos os valores não-negativos, terá uma distribuição
exponencial com parâmetro 𝜆 > 0, se a sua função densidade de probabilidade for dada por:
𝑓(𝑥) = 𝜆 ∙ 𝑒 −𝜆𝑥 𝑠𝑒 𝑥 ≥ 0
𝑓(𝑥) = 0, 𝑠𝑒 𝑥 < 0
➢ A esperança ou valor médio desta variável aleatória é dada por:
𝟏
𝐸(𝑥) =
𝝀
➢ A variância desta variável aleatória é dada por:
𝟏
𝑉𝐴𝑅(𝑋) =
𝝀²
Amostragem e Estimadores
𝑁
✓ CN,n ou 𝐶𝑁𝑛 ou ( ) se o processo for feito sem reposição. Todos esses
𝑛
𝑵!
símbolos significam combinação de N elementos n a n. = (𝑵−𝒏)!∗𝒏!
✓ Por Julgamento: o elemento é escolhido por alguma razão. Ex.: O mesmo repórter
escolhe para entrevistar uma pessoa que ele percebeu estar revoltada com a falta
de leitos.
✓ Por cotas: a proporcionalidade entre os "tipos" de elementos na amostra é mantida
em relação às da população. a diferença para amostragem estratificada é que os
elementos não são selecionados por uma amostragem aleatória simples. Ex.: no
exemplo da escola, manteríamos a proporção meninos / meninas, mas
escolheríamos propositalmente os melhores alunos.
➢ O ideal é que, pelas características do tipo de amostra, você consiga determinar se ela é
probabilística ou não. De qualquer forma os exemplos são:
16
17
▪
Como é uma estimativa baseada em um único ponto, não é possível julgar a
magnitude do erro que podemos estar cometendo.
✓ ESTIMAÇÃO POR INTERVALO
▪ Essa estimativa busca determinar um intervalo que possua o valor do parâmetro
populacional, obtendo através desta uma margem de segurança razoável, onde é
possível julgar se estamos ou não cometendo um erro de amostragem.
✓ INTERVALO DE CONFIANÇA
▪ Na estimativa por intervalo de confiança é possível determinar dois limites para a
amostragem populacional, ou seja, temos aqui uma margem de erro conhecida.
▪ Quando a margem de erro é baixa, temos que o nível de confiança daquela pesquisa
ou amostra é alto. Caso a margem de erro seja alta, a confiança tende a ser menor.
▪ Geralmente esses intervalos de confiança são expressos assim: (1 – a), onde a é o
grau de desconfiança.
▪ Encontramos em nosso dia a dia, desta forma α = grau de desconfiança, nível de
incerteza ou nível de significância. 1-α = coeficiente de confiança ou nível de
confiabilidade;
➢ O teste de Hipótese é utilizado no dia a dia para a tomada de decisões. Quando estamos diante de
um teste de hipóteses, devemos examinar as duas possibilidades possíveis que fará com que se
aceite ou rejeite uma alegação sobre determinada população de acordo com as evidências obtidas
por uma amostra de dados.
➢ Dentro do teste de hipóteses temos as hipóteses estatísticas, o qual podemos definir como uma
suposição de um parâmetro populacional, ou seja, iremos pegar uma amostra e buscar os
parâmetros daquela amostra. Iremos calcular através da amostra se esta hipótese deve ser aceita
ou rejeitada.
➢ Para testarmos um parâmetro populacional, teremos uma hipótese que seja falsa e outra que seja
verdadeira. Essas duas hipóteses são chamadas de hipótese nula e hipótese alternativa.
✓ HIPÓTESE NULA
▪ É a hipótese que possui uma afirmação de igualdade, ou seja: <, =, >.
▪ Só poderemos montar hipóteses nulas com estes três símbolos.
✓ HIPÓTESE ALTERNATIVA
▪ Utilizado como complemento da Hipótese nula, sendo a afirmação que deve ser
verdadeira se H0 for falsa. Na hipótese alternativa, teremos uma afirmação de
desigualdade. Devemos utilizar os seguintes símbolos.
▪ <, >, ≠
➢ Teremos os seguintes testes:
✓ 1 – Teste Bilateral ou Bicaudal
18
➢ Para qualquer teste de hipóteses devemos montar a hipótese nula e a hipótese alternativa.
➢ Cada teste geralmente irá te fornecer uma fórmula, que você saberá o valor observado.
➢ Quando estamos diante da decisão de optarmos pela hipótese nula ou pela alternativa, existem
dois tipos de erros. Se rejeitarmos uma hipótese nula verdadeira, estaremos cometendo o erro de
tipo I, já se rejeitar a hipótese alternativa verdadeira, estaremos cometendo o erro tipo II.
➢ A probabilidade de rejeitar a hipótese nula quando ela é falsa é igual a 1–β. Esse valor é a potência
do teste. E a probabilidade de cometer um erro de tipo II é β.
19
REGRESSÃO LINEAR
𝑦 = 𝑝 + 𝑚𝑥
➢ O coeficiente 𝑝 é o coeficiente linear da reta (indica onde a reta corta o eixo 𝑦) e o coeficiente 𝑚 é
chamado de taxa de variação (ou coeficiente angular da reta). O coeficiente 𝑚 indica se a função é
crescente (𝑚 > 0), decrescente (𝑚 < 0) ou constante (𝑚 = 0).
➢ O coeficiente 𝑚 é a taxa de variação (também conhecido como “coeficiente angular” da reta). Se a
reta passa pelos pontos (𝑥1 , 𝑦1 ) e (𝑥2 , 𝑦2 ), então a taxa de variação é dada por:
∆𝒚 𝒚𝟐 − 𝒚𝟏
𝒎= =
∆𝒙 𝒙𝟐 − 𝒙𝟏
𝒀𝒊 = 𝛼 + 𝛽𝑿𝒊 + 𝒖𝒊
✓ Com 𝑖 = 1, 2, 3, … , 𝑛.
✓ Nesse modelo, a expressão 𝛼 + 𝛽𝑿𝒊 é o componente de 𝑌𝑖 que varia linearmente com 𝑋𝑖 ,
enquanto que 𝒖𝒊 é o componente aleatório de 𝑌𝑖 (também chamado de erro ou desvio). Em
outras palavras, 𝑢𝑖 é a variável aleatória que descreve o erro cometido quando tentamos
aproximar a relação entre 𝑋 e 𝑌 por uma reta.
✓ Nesse modelo, dizemos que 𝑿𝒊 é a variável explanatória (ou independente) e 𝒀𝒊 é a variável
dependente. A variável dependente Y é a variável que desejamos prever ou explicar. É
também chamada de variável resposta.
✓ A variável independente X é também chamada de variável explicativa.
➢ O método usual para a obtenção dos estimadores de 𝛼 e 𝛽 é denominado método de mínimos
quadrados.
➢ O método dos mínimos quadrados é aquele que determina as estimativas 𝑎 e 𝑏 dos parâmetros
minimizando a soma dos quadrados dos desvios.
➢ Por esse método, o valor de 𝑏 é dado por:
20
21