Estatística - Resumo

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 19

SEMANA 1

Estatística é Ciência que descreve, organiza, analisa e interpreta dados, transformando-os em


informação facilmente compreendida.

A estatística se divide nas dimensões DESCRITIVAS e INFERENCIAL


1. DESCRITIVA: tabulares, gráficos ou numéricos Técnicas univariadas e algumas bivariadas
2. INFERENCIAL: Uso de amostras para se estudar (fazer estimativas e testar hipóteses) características
de uma população, Testes de significância e Técnicas multivariadas

Possui várias escalas de medidas, são elas:


1. Variável QUALITATIVA: Compreende dados qualitativos, rótulos para identificar os atributos de
cada caso, pode usar códigos numéricos medidos em escala nominal ou ordinal.
2. Variável QUANTITATIVA: Compreende dados quantitativos: quantificação da variável medidos em
escala intervalar ou razão.
3. Variáveis CONTÍNUAS: podem assumir qualquer valor em um continuum (decimais). Ex. Renda,
faturamento, gastos mensais, custos etc.
4. Variáveis DISCRETAS: toma valores que podem ser contados, valores inteiros. Ex. Número de filhos,
número de acidentes de trabalho.
5. NOMINAL: Dá nome a categorias, mutuamente excludentes e coletivamente exaustivas; Rótulos ou
nomes para identificar um atributo do caso; Pode usar um rótulo numérico. Ex. setor econômico,
país de origem.
6. ORDINAL: Exibe as propriedades dos dados nominais, Há um rankeamento, uma hierarquia, Pode
utilizar códigos numéricos, porém continuam sendo dados qualitativos. Ex. estrutura de cargos,
faixa de renda, nível de escolaridade.
7. INTERVALAR: Exibe as propriedades dos dados ordinais, Intervalos da escala são equivalentes, Zero
arbitrário. Ex. Escala de temperatura, teste de inteligência (zero não indica ausência total de
inteligência).
8. RAZÃO: Exibe propriedades dos dados Intervalares, Zero absoluto (ausência total de determinado
atributo). Ex. faturamento, número de dependentes, idade, renda.

1.1 ESTATÍSTICA DESCRITIVA


Organizam e descrevem as características de um conjunto de dados, por meio de tabelas, gráficos e
medidas de dispersão.
Tipos de gráficos e suas aplicações:

• Gráfico de barras: usado para comparar tantos em diferentes categorias.


• Gráfico de linhas: usado para mostrar tendências e mudanças ao longo do tempo.
• Gráfico de pizza: usado para mostrar a composição de um todo em relação às partes.
• Gráfico de dispersão: usado para mostrar a relação entre duas variáveis.
• Gráfico de radar: usado para comparar várias categorias em relação a várias variáveis.
• Gráfico de colunas empilhadas: usado para comparar a composição de diferentes categorias em
relação a um todo.
• Gráfico de área: usado para mostrar a tendência de uma quantidade ao longo do tempo e a área total
que ela ocupa.
Cada tipo de gráfico é adequado para uma finalidade específica e pode ser usado para comunicar
informações de maneira clara e concisa. É importante escolher o tipo de gráfico que melhor representa
os dados que você deseja comunicar.
Tipos de tabelas e suas aplicações:

• Tabela simples: usada para apresentar dados quantitativos ou qualitativos em uma única coluna ou
linha.
• Tabela de frequência: usada para apresentar a frequência com que cada valor aparece em uma
distribuição.
• Tabela de contingência: usada para apresentar a relação entre duas variáveis categóricas.
• Tabela de dados cruzados: usada para apresentar a relação entre duas ou mais variáveis.
Cada tipo de tabela é adequado para uma finalidade específica e pode ser usado para comunicar
informações de maneira clara e organizada. É importante escolher o tipo de tabela que melhor
representa os dados que você deseja comunicar.
1.2 MEDIDAS DE DISPERSÃO
• Média (aritmética):
∑ 𝑥̅
𝑥̅ =
𝑛

Exemplo: Para obter a média aritmética das notas de uma turma com 5 alunos, foram realizadas
as seguintes observações:

A nota do primeiro aluno é 7,5;


A nota do segundo aluno é 8,0;
A nota do terceiro aluno é 6,5;
A nota do quarto aluno é 9,0;
A nota do quinto aluno é 7,0.

Calcule a média aritmética das notas dos alunos.

Resolução:

Para calcular a média aritmética, basta somar todas as notas e dividir pelo número de alunos:

Média = (7,5 + 8,0 + 6,5 + 9,0 + 7,0) / 5 Média = 38,0 / 5 Média = 7,6

Portanto, a média aritmética das notas dos alunos é 7,6.

• MEDIANA: ponto central de um conjunto de dados, “divisor de águas”, 50% dos valores estão
acima e abaixo da mediana:

Encontrando a mediana em um conjunto de números ímpares, vamos ordenar e apontar o valor


central, veja o exemplo abaixo:

Dado o conjunto de números {2, 5, 7, 9, 12, 15, 18}, encontre a mediana.

O termo central é 9, portanto a mediana é 9.

Encontrando a mediana em um conjunto de números pares, vamos ordenar e apontar a média


dos valores centrais, veja o exemplo abaixo:

Dado o conjunto de números {2, 5, 7, 9, 12, 15, 18, 30}, encontre a mediana.

Os termos centrais são 9 e 12, calculando a média (9+12)/2=21/2=10,5, portanto a mediana é


10,5.

• MODA: valor que se repete com maior frequência, por exemplo.

Dado o conjunto de dados {1,0,5,9,2,1,8,10,15,20}. Nesse conjunto o valor que mais repete é o
número 1.
E QUAL EU USO?
• Média: séries com pouca variabilidade
• Mediana: não é influenciada por valores extremos e alta variabilidade
• Valores extremos: valores muito discrepantes, para cima ou para baixo
• Moda: caso todos os valores apareçam com a mesma frequência, não há uma moda – dados
categóricos e classes mutuamente excludentes;
• Caso mais de um valor apareça com a mesma frequência, a série é multimodal

SEMANA 2
2.1 Probabilidade

• Probabilidades variam entre 0 e 1.


• A soma das probabilidades de todos os resultados possíveis do experimento é igual a 1.
• União de dois eventos
𝑃 𝐴 𝖴 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)

• Intersecção de dois eventos independentes

𝑃𝐴∩ 𝐵 = 𝑃𝐴 ∗ 𝑃𝐵
Ao se jogar uma moeda não viesada (eventos independentes), o evento pode obter dois resultados
possíveis: Cara o u Coroa
Ao se retirar duas cartas do baralho (eventos dependentes), retira-se uma e a segunda jamais será a carta
já retirada.

2.2 Combinações

Em uma dinâmica, em um grupo de 5 colaboradores, quantas duplas podem ser formadas?


𝑛 𝑛!
𝐶𝑛,𝑝 = (𝑝) =
𝑝! ⋅ (𝑛 − 𝑝)!

Aplicando os dados do exercício


5! 5 ⋅ 4 ⋅ 3! 5⋅4 20
𝐶5,2 = = = = = 10
2! ⋅ 3! 2 ⋅ 1 ⋅ 3! 2⋅1 2

2.3 Distribuições de probabilidade

Variáveis aleatórias: descrição numérica do resultado de um experimento


• Variável Aleatória Discreta: assume valores inteiros e finitos
Exemplo: status de quem compra produtos verdes. Resultados possíveis do experimento:
pratica atividade física - Sim/Não
• Variável Aleatória Contínua: pode assumir qualquer valor em um intervalo, x pode assumir infinitos
valores
Exemplo: teste de mercado para o lançamento de um novo produto; preço que o cliente
está disposto a pagar. Resultados possíveis: x > =0
2.3.1 Distribuição Binomial:
A distribuição binomial é um modelo matemático que descreve o número de sucessos em um
determinado número de tentativas independentes, onde cada tentativa tem uma probabilidade fixa de
sucesso. É frequentemente usada para modelar eventos aleatórios, como jogos de azar, testes de
hipóteses e pesquisas de opinião.
A distribuição binomial é caracterizada pelos parâmetros n e p, onde n é o número de tentativas e p
é a probabilidade de sucesso em cada tentativa. A função de probabilidade da distribuição binomial calcula
a probabilidade de obter um número específico de sucessos em n tentativas.
A distribuição binomial é simétrica quando a probabilidade de sucesso é igual a 0,5 e se aproxima
de uma distribuição normal quando o número de tentativas é grande o suficiente. Ela também possui
propriedades importantes, como a média, a variância e o desvio padrão, que podem ser usados para fazer
inferências estatísticas sobre os dados observados.
Se a distribuição de probabilidade for DISCRETA usamos a distribuição BINOMIAL, que possui a
seguinte fórmula
𝑛
] = )⋅𝑝 (
𝑘
[ )𝑛−𝑘
𝑃𝑋=𝑘 (𝑘 ⋅ 1−𝑝

Onde:
n= tamanho da amostra
k=número de sucessos
p=probabilidade de sucesso

1- p=probabilidade de fracasso

• Lembre-se, o sucesso e o fracasso não complementares, sua soma sempre deve ser igual a 1.
Exemplo:

Suponha que em uma fábrica de produção de peças, 80% das peças produzidas são consideradas de
qualidade. Um inspetor seleciona aleatoriamente 10 peças para inspeção. Qual é a probabilidade de que
exatamente 7 das 10 peças sejam de qualidade?
Para resolver esse problema, podemos usar a distribuição binomial com os seguintes parâmetros: n = 10
(número de peças selecionadas) e p = 0,8 (probabilidade de uma peça ser de qualidade). A probabilidade
de exatamente 7 das 10 peças serem de qualidade é dada pela seguinte fórmula:

Lembre-se que
10 10!
( )=
7 7! ⋅ (10 − 7)!

Isso significa que a probabilidade de escolher exatamente 7 das 10 peças que são de qualidade é igual a:
( ) 10 7 3
𝑃 𝑋 = 7 = ( ) ⋅ 0,8 ⋅ 0,2 = 0,2013
7

Portanto, a probabilidade de exatamente 7 das 10 peças selecionadas serem de qualidade é de


aproximadamente 20,13%.

2.3.2 Distribuição Normal


A distribuição normal, também conhecida como distribuição gaussiana, é uma distribuição de
probabilidade contínua que é amplamente utilizada em estatística e ciência. A curva de distribuição normal
é simétrica em torno da média e tem a forma de um sino. A área sob a curva representa a probabilidade de
um determinado evento ocorrer dentro de um intervalo específico.
A distribuição normal é caracterizada por dois parâmetros: a média e o desvio padrão. A média é o
ponto central da distribuição e o desvio padrão mede a dispersão dos dados em torno da média. A
distribuição normal padrão é uma forma especial da distribuição normal em que a média é igual a zero e o
desvio padrão é igual a um.
A distribuição normal é amplamente utilizada em análise estatística e modelagem matemática,
devido à sua propriedade de se ajustar a muitos conjuntos de dados do mundo real. Alguns exemplos de
sua aplicação incluem o cálculo de probabilidades em testes estatísticos, a modelagem de fenômenos
naturais, financeiros e econômicos, e a análise de dados em campos como a biologia e a psicologia.
Suponha que a altura de uma população de estudantes do ensino médio segue uma distribuição
normal com média de 1,70 metros e desvio padrão de 0,10 metros. Qual a probabilidade de um estudante
selecionado aleatoriamente ter uma altura entre 1,60 e 1,80 metros?
Para resolver este problema, precisamos primeiro padronizar a distribuição normal, ou seja,
transformá-la em uma distribuição normal padrão, que tem média igual a zero e desvio padrão igual a um.
Para isso, usamos a seguinte fórmula:
(𝑥̅ − 𝜇)
𝑧=
𝜎
Onde:

x é a altura que estamos interessados em encontrar a probabilidade


μ é a média da distribuição normal
σ é o desvio padrão da distribuição normal
z é o valor padronizado correspondente à altura x
Substituindo os valores dados, temos:
(1,60 − 1,70)
𝑧1 = = −1
0,10
(1,80 − 1,70)
𝑧2 = =1
0,10

Agora, podemos usar uma tabela da distribuição normal padrão para encontrar a probabilidade de z estar
entre -1 e 1. A partir da tabela, encontramos que a probabilidade de z estar entre -1 e 1 é de
aproximadamente 0,6827.

Finalmente, podemos concluir que a probabilidade de um estudante selecionado aleatoriamente ter uma
altura entre 1,60 e 1,80 metros é de aproximadamente 0,6827 ou 68,27%.

SEMANA 3
Em estatística, "população" se refere ao conjunto completo de indivíduos, objetos, eventos ou medidas
que se deseja estudar e analisar. Essa população pode ser de qualquer tamanho e pode ser formada por
pessoas, animais, plantas, objetos, dados ou qualquer outra coisa que seja relevante para a análise em questão.
Por outro lado, "amostragem" se refere ao processo de selecionar uma parte representativa da população
para ser estudada e analisada. É impossível estudar todos os indivíduos da população em questão, seja por
questões de custo, tempo ou outros fatores, por isso uma amostra é usada para fazer inferências sobre a
população como um todo.
Uma boa amostra deve ser representativa da população em questão e ter tamanho suficiente para garantir
a precisão das estimativas. Além disso, é importante usar técnicas de amostragem adequadas para evitar vieses
ou distorções nos resultados da análise. A escolha da amostra pode ser feita de maneira aleatória, sistemática,
estratificada ou por conglomerados, dependendo do objetivo da pesquisa e da disponibilidade de recursos.

3.1 Amostragem

Existem vários tipos de amostragem que podem ser utilizados em estatística, cada um com suas vantagens
e desvantagens. Abaixo estão alguns dos tipos mais comuns de amostragem:

3.1.1 Amostragem Aleatória Simples

Nesse tipo de amostragem, cada indivíduo da população tem a mesma chance de ser selecionado. É
como jogar uma moeda para decidir se cada indivíduo será incluído ou não na amostra. Por exemplo, se você
deseja selecionar uma amostra aleatória simples de 100 alunos de uma escola com 1000 alunos, você pode
escrever o nome de cada aluno em um pedaço de papel, colocar todos os papéis em uma caixa e sortear 100
papéis aleatoriamente.

3.1.2 Amostragem Sistemática

Nesse tipo de amostragem, os indivíduos são selecionados de acordo com um sistema ou ordem
definida previamente. Por exemplo, se você deseja selecionar uma amostra sistemática de 100 alunos deuma
escola com 1000 alunos, você pode selecionar um número aleatório de 1 a 10 e, a partir desse número,
selecionar a cada 10 alunos, como o aluno 1, o aluno 11, o aluno 21 e assim por diante.
3.1.3 Amostragem Estratificada

Nesse tipo de amostragem, a população é dividida em grupos (estratos) com características


semelhantes e, em seguida, uma amostra é selecionada de cada estrato. Por exemplo, se você deseja
selecionar uma amostra estratificada de alunos de uma escola, você pode dividir a população em grupos de
acordo com o nível de escolaridade (fundamental, médio e superior) e, em seguida, selecionar uma amostra
de cada grupo.

3.1.4 Amostragem por Conglomerados

Nesse tipo de amostragem, a população é dividida em grupos maiores (conglomerados), como cidades
ou bairros, e uma amostra de cada conglomerado é selecionada. Por exemplo, se você deseja selecionar uma
amostra por conglomerados de consumidores de um determinado produto, você pode dividir a população em
cidades e, em seguida, selecionar aleatoriamente algumas cidades para coletar dados dos consumidores.

3.1.5 Amostragem por Conveniência

É um tipo de amostragem não probabilística que é utilizada quando os indivíduos são selecionados com
base em sua disponibilidade e acessibilidade, ou seja, aqueles que estão mais próximos ou mais fáceisde serem
alcançados. Essa técnica de amostragem é considerada menos rigorosa do que as técnicas de amostragem
probabilísticas, pois não garante a representatividade da amostra em relação à população.
Um exemplo de amostragem por conveniência pode ser encontrado em um estudo sobre hábitos de
alimentação de estudantes universitários. Nesse caso, o pesquisador pode decidir selecionar os alunos que
frequentam a cantina da universidade durante o horário do almoço. Esses alunos são convenientes para o
pesquisador, pois estão disponíveis e acessíveis. No entanto, a amostra resultante pode não ser representativa
de toda a população de estudantes universitários, já que muitos alunos podem não frequentar a cantina ou
podem ter hábitos alimentares diferentes dos alunos que frequentam a cantina.
Embora a amostragem por conveniência possa ser rápida e fácil de ser realizada, ela apresenta algumas
limitações importantes. Como mencionado anteriormente, a amostra resultante pode não ser representativa
da população em questão, o que pode levar a resultados imprecisos ou tendenciosos. Portanto, a amostragem
por conveniência deve ser utilizada com cuidado e apenas quando não é possível ou viável utilizar técnicas de
amostragem probabilísticas mais rigorosas.

3.2 Inferências

A inferência estatística é o processo de tirar conclusões ou fazer generalizações sobre uma população a partir de
informações obtidas em uma amostra. Existem duas abordagens principais para a inferência estatística: inferência por
ponto e inferência por intervalo.
Inferência por ponto é o processo de estimar um único valor numérico para um parâmetro desconhecido da
população, com base nas informações obtidas a partir da amostra. Por exemplo, podemos querer estimar a média
populacional de altura dos homens de uma determinada região a partir de uma amostra de 100 homens. Nesse caso,
podemos utilizar a média amostral como uma estimativa pontual para a média populacional.
Por outro lado, a inferência por intervalo é o processo de estimar um intervalo de valores para um parâmetro
desconhecido da população, com base nas informações obtidas a partir da amostra. Por exemplo, podemos querer
estimar o intervalo de altura populacional dos homens de uma determinada região com um certo nível de confiança, a
partir de uma amostra de 100 homens. Nesse caso, podemos utilizar um intervalo de confiança para a média
populacional, calculado a partir da amostra, como uma estimativa por intervalo.
Um intervalo de confiança é construído com base na distribuição de probabilidade da estatística de amostragem
relevante (como a média amostral ou a proporção amostral), assumindo que a amostra foi selecionada aleatoriamente
e que a distribuição populacional é conhecida ou pode ser aproximada por uma distribuição normal. A largura do
intervalo de confiança depende do tamanho da amostra, do nível de confiança escolhido e do desvio padrão da
distribuição populacional.
Em resumo, a inferência por ponto e inferência por intervalo são duas abordagens importantes na estatística
inferencial. A inferência por ponto fornece uma estimativa pontual para um parâmetro desconhecido da população,
enquanto a inferência por intervalo fornece um intervalo de valores possíveis para o parâmetro, com um certo nível de
confiança. Ambas as abordagens são úteis na tomada de decisões baseadas em dados e na formulação de conclusões
sobre populações com base em amostras.

Vamos aplicar em um exercício a inferência por intervalo: Um pesquisador quer estimar a média de idade da
população de uma cidade. Ele seleciona aleatoriamente uma amostra de 50 indivíduos e encontra uma média amostral
de 35 anos e um desvio padrão amostral de 5 anos. Construa um intervalo de confiança de 95% para a média de idade
populacional.

Resolução:

O primeiro passo é determinar a distribuição da estatística de amostragem relevante, neste caso, a média
amostral. Assumindo que a população segue uma distribuição normal, a distribuição amostral da média segue também
uma distribuição normal, com média igual à média populacional e desvio padrão igual ao desvio padrão populacional
dividido pela raiz quadrada do tamanho da amostra. Nesse caso, como o tamanho da amostra é grande o suficiente (n
> 30), podemos utilizar o teorema do limite central para assumir normalidade da distribuição amostral da média.
O segundo passo é determinar o nível de confiança desejado. Neste caso, é solicitado um intervalo de confiança
de 95%, o que significa que há 95% de probabilidade de que a média populacional esteja dentro do intervalo de
confiança.
O terceiro passo é determinar o valor crítico para o intervalo de confiança. Como o nível de confiança é de 95%,
podemos utilizar uma tabela de distribuição normal padrão para encontrar o valor crítico correspondente. Para um
nível de confiança de 95% (5%=0,05/2=0,025), temos um valor crítico de 1,96.

O quarto passo é calcular a margem de erro,

𝜎
𝑚𝑒𝑟𝑟𝑜 = 𝑍𝛼 ⋅
2 √𝑛
5

𝑚𝑒𝑟𝑟𝑜 = 1,96 ⋅ = 1,39


√50

O quinto passo é construir o intervalo de confiança, que é dado por:

Intervalo de confiança = média amostral +/- 𝑚𝑒𝑟𝑟𝑜

Substituindo os valores encontrados:

Intervalo de confiança = 35 +/- 1,39

Intervalo de confiança = [33,61; 36,39]


Portanto, com 95% de confiança, podemos afirmar que a média de idade populacional está entre 33,61 e 36,39
anos.

SEMANA 4
Os testes de hipóteses são uma ferramenta estatística utilizada para avaliar se uma afirmação sobre uma
população é verdadeira ou não, com base em uma amostra de dados. Existem três tipos de testes de hipóteses:
unilateral à direita, unilateral à esquerda e bilateral.

4.1 Teste unilateral à direita

Este teste é utilizado quando a hipótese nula (H0) do parâmetro populacional é menor ou igual a um
determinado valor, enquanto a hipótese alternativa (Ha) do parâmetro populacional é maior do que esse valor. Por
exemplo, suponha que desejamos testar se a média de altura dos homens é maior do que 1,75 metros. A hipótese nula
seria que da média de altura dos homens é menor ou igual a 1,75 metros, enquanto a hipótese alternativa seria que a
média de altura dos homens é maior do que 1,75 metros.

4.2 Teste unilateral à esquerda

Este teste é utilizado quando a hipótese nula do parâmetro populacional é maior ou igual a um determinado
valor, enquanto a hipótese alternativa é quando o valor do parâmetro populacional é menor do que esse valor. Por
exemplo, suponha que desejamos testar se a média de idade dos usuários de um determinado serviço é menor do que
35 anos. A hipótese nula seria que a média de idade é maior ou igual a 35 anos, enquanto a hipótese alternativa seria
que a média de idade é menor do que 35 anos.

4.3 Teste bilateral

Este teste é utilizado quando a hipótese nula é quando o valor do parâmetro populacional é igual a um
determinado valor, enquanto a hipótese alternativa é quando valor do parâmetro populacional é diferente desse valor.
Por exemplo, suponha que desejamos testar se a média de peso dos pacientes de um hospital é diferente de 70 kg. A
hipótese nula seria que a média de peso é igual a 70 kg, enquanto a hipótese alternativa seria que a média de peso é
diferente de 70 kg.

Para realizar um teste de hipóteses, precisamos definir um nível de significância (geralmente 5%) e calcular uma
estatística de teste apropriada com base na amostra de dados. Em seguida, comparamos o valor da estatística de teste
com um valor crítico, que depende do tipo de teste que estamos realizando. Se o valor da estatística de teste for maior
do que o valor crítico (valor-p <𝛼), rejeitamos a hipótese nula e concluímos que há evidências suficientes para suportar
a hipótese alternativa. Caso contrário, não rejeitamos a hipótese nula e concluímos que não há evidências suficientes
para suportar a hipótese alternativa.

𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≤ 𝛼 𝑅𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
𝑣𝑎𝑙𝑜𝑟 − 𝑝 > 𝛼 𝐴𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0

4.4 Teste-t

O teste t é um teste de hipóteses utilizado para avaliar se a média de uma população é estatisticamente
diferente de um valor específico, com base em uma amostra de dados. O teste t é usado quando a distribuição da
população não é conhecida e a amostra é relativamente pequena (geralmente, com menos de 30 observações). O teste
t é adequado para amostras com distribuição normal ou aproximadamente normal, ou quando o tamanho da amostra
é grande o suficiente para aplicar o teorema central do limite.
O teste t envolve o cálculo da estatística de teste t, que é definida como a diferença entre a média amostral e o
valor hipotético (ou estimado) da média populacional, dividida pelo erro padrão da média amostral. O erro padrão é
uma medida da variabilidade dos dados na amostra e é calculado a partir do desvio padrão amostral e do tamanho da
amostra.
O teste t é um teste paramétrico, o que significa que requer algumas suposições sobre a distribuição dos
dados, como a normalidade e a homogeneidade da variância. Se essas suposições não forem atendidas, pode ser
necessário usar um teste não paramétrico, como o teste de Mann-Whitney ou o teste de Wilcoxon.

Exemplo:
Suponha que um pesquisador deseja testar se a média de altura de uma população é diferente de 1,75 metros. Ele
coleta uma amostra de 20 indivíduos e encontra uma média de 1,80 metros, com um desvio padrão de 0,10 metros.
Ele realiza um teste t com um nível de significância de 5% e encontra uma estatística de teste t de 4,00. Com base em
uma tabela de distribuição t, ele encontra um valor crítico de 2,093 (para um teste bilateral com 19 graus de
liberdade). Como o valor absoluto da estatística de teste t é maior do que o valor crítico, ele rejeita a hipótese nula e
conclui que há evidências suficientes para suportar a hipótese alternativa de que a média de altura da população é
diferente de 1,75 metros.

4.5 Teste qui-quadrado

O teste qui-quadrado é um teste estatístico utilizado para avaliar a independência ou a associação entre duas
variáveis categóricas. O teste é chamado de qui-quadrado porque a estatística de teste é calculada a partir da soma
dos quadrados dos desvios entre as frequências observadas e as frequências esperadas, assumindo que as duas
variáveis são independentes.
O teste qui-quadrado é usado quando se deseja verificar se há uma relação entre duas variáveis categóricas
em uma população, como por exemplo, verificar se há uma relação entre gênero e preferência por determinado
produto ou serviço, ou se há uma relação entre o tipo de atividade física e o índice de massa corporal.
Para realizar o teste qui-quadrado, é necessário formular as hipóteses nula e alternativa. A hipótese nula é que
não há relação entre as variáveis, enquanto a hipótese alternativa é que há uma relação. A estatística de teste é
calculada a partir de uma tabela de contingência, que mostra as frequências observadas em cada combinação de
categoria das duas variáveis.

Exemplo:
Suponha que um pesquisador deseja testar se há uma relação entre o nível de escolaridade e o voto em um candidato
nas últimas eleições. Ele coleta dados de uma amostra aleatória de 500 eleitores e registra o nível de escolaridade
(fundamental, médio, superior) e o voto (candidato A, candidato B, candidato C). Ele realiza um teste qui-quadrado
com um nível de significância de 5% e encontra uma estatística de teste qui-quadrado de 20,00 com 4 graus de
liberdade.
Com base em uma tabela de distribuição qui-quadrado, ele encontra um valor crítico de 9,488 (para um teste bilateral
com 4 graus de liberdade). Como o valor da estatística de teste qui-quadrado é maior do que o valor crítico, ele rejeita
a hipótese nula e conclui que há evidências suficientes para suportar a hipótese alternativa de que há uma relação
entre o nível de escolaridade e o voto em um candidato nas últimas eleições. Ele pode então realizar análises
adicionais, como a análise de resíduos, para identificar as combinações de categorias que contribuem para a relação.

SEMANA 5
A Análise de Variância (ANOVA) é uma técnica estatística que é utilizada para avaliar se há diferenças
significativas entre as médias de três ou mais grupos independentes de dados. Para aplicar a Anova, é
necessário seguir alguns conceitos fundamentais:
• Hipóteses: A hipótese nula afirma que não há diferença significativa entre as médias dos grupos,
enquanto a hipótese alternativa afirma que pelo menos uma das médias é diferente.
• Fator: É a variável independente que está sendo analisada. Por exemplo, em um estudo que compara
a eficácia de três medicamentos diferentes no tratamento de uma doença, o fator é o tipo de
medicamento.
• Variância: É uma medida de quão diferentes os valores em um grupo são uns dos outros. A variação
entre os grupos é comparada com a variação dentro dos grupos para determinar se há diferenças
significativas nas médias.
• Graus de liberdade: São os valores que indicam quantos dados são independentes na amostra. Eles
são usados para calcular a estatística F.
• Estatística F: É a razão entre a variação entre os grupos e a variação dentro dos grupos. Quanto maior
a estatística F, maior é a evidência de que pelo menos uma das médias é significativamente diferente.

Para ilustrar a aplicação da Anova, vamos considerar um exemplo hipotético:

Um pesquisador quer avaliar se existem diferenças significativas na altura média de três variedades de plantas
de tomate (A, B e C) em diferentes condições de luz (alta, média e baixa). Ele mediu a altura de 10 plantas de
cada variedade em cada condição de luz e obteve os seguintes dados:

Variedade A: 20, 23, 25, 22, 18, 21, 20, 24, 22, 23
Variedade B: 25, 28, 30, 26, 27, 29, 24, 26, 28, 25
Variedade C: 18, 20, 16, 19, 21, 17, 20, 18, 19, 22

Para analisar esses dados usando Anova, o pesquisador pode seguir os seguintes passos:

1. Formular hipóteses: A hipótese nula é que não há diferenças significativas nas alturas médias das
plantas entre as variedades e as condições de luz. A hipótese alternativa é que pelo menos uma das
médias é diferente.

2. Identificar os fatores: As variedades de plantas são um fator, e as condições de luz são outro fator.

3. Calcular as variâncias: O pesquisador calcula a variação dentro de cada grupo (variabilidade dentro
das plantas de cada variedade em cada condição de luz) e a variação entre os grupos (variabilidade
entre as médias de cada variedade em cada condição de luz).

4. Calcular os graus de liberdade: O pesquisador calcula os graus de liberdade para cada fonte de
variação.

5. Calcular a estatística F: O pesquisador calcula a estatística F, que é a razão entre a variação entre os
grupos e a variação

Calcular a ANOVA manualmente não é tão trivial, mas estou aqui para te ajudar nisso. Suponha que a
Voitto Computadores, produz impressoras e máquinas de fax em suas fábricas localizadas em Juiz de Fora,
Belo Horizonte e Rio de Janeiro.
Para medir quanto os empregados dessas fábricas sabem sobre gerenciamento da qualidade total,
uma amostra aleatória de seis empregados de cada fábrica foi selecionada e seus integrantes foram
submetidos a um exame de seus conhecimentos sobre qualidade.

As notas do exame obtidas estão na tabela abaixo.


Os gerentes querem usar esses dados para testar a hipótese de que a média das notas de exame é a mesma para
todas as 3 fábricas. Para isso, primeiramente temos que definir quais serão as hipóteses nulas e alternativas, certo?
Então vamos lá:
A hipótese nula é de que todas as três fábricas possuem média significativamente iguais e a hipótese alternativa
é de que pelo menos uma delas têm médias significativamente diferentes das demais.
Feito isso, iremos calcular os valores da média para cada amostra bem como os valores de variância amostral.
Depois disso, faremos também o cálculo da média global. Os dados são apresentados na tabela a seguir:

Temos agora que utilizar tais valores para calcular os quadrados médios entre os tratamentos e o quadrado
médio do erro, com base nas fórmulas a seguir.

Onde g é o graus de liberdade, que nesse caso vale 3, pois temos 3 amostras, e N é a quantidade total de dados
que possuímos, que nesse caso possui valor igual a 18. E F é o valor que iremos comparar com os dados tabelados.

Realizando tais operações encontramos os seguintes resultados.


Chegamos agora a um momento crucial da nossa análise, vamos comparar o valor F obtido com o valor tabelado.
Para encontrar o valor na tabela, basta utilizarmos a tabela de distribuição F para um nível de confiança de 5%,
com os dados g - 1 = 3-1 = 2 no numerador e N - g = 18 - 3 = 15 no denominador, e dessa forma iremos encontrar o valor
crítico de 3,68.
Como o nosso valor calculado F = 9 é maior do que o valor crítico de 3,68, nos encontramos na área de rejeição
da hipótese nula.

Ou seja, rejeitamos a hipótese de que as médias das notas de todas as filiais da Voitto Computadores são
significativamente iguais.

SEMANA 6
A covariância e a correlação são duas medidas estatísticas que descrevem a relação entre duas variáveis
aleatórias. Ambas são amplamente utilizadas para analisar a associação entre diferentes conjuntos de dados.
Vamos explicar cada uma delas separadamente:

Covariância: A covariância mede a variabilidade conjunta de duas variáveis aleatórias. Ela indica a direção do
relacionamento (positivo ou negativo) e a magnitude da associação entre as variáveis. A covariância pode ser
calculada usando a seguinte fórmula:

[(𝑋ᵢ − 𝑋̄)(𝑌ᵢ − Ȳ)]


𝑐𝑜𝑣(𝑋, 𝑌) = ∑
𝑛−1

Onde:

X e Y são as duas variáveis aleatórias;


Xᵢ e Yᵢ são os valores observados das variáveis;
X̄ e Ȳ são as médias das variáveis;
n é o número de observações.
A covariância pode ter um valor positivo, indicando que as variáveis tendem a variar na mesma direção (quando
uma aumenta, a outra também aumenta) ou um valor negativo, indicando que as variáveis tendem a variar em
direções opostas (quando uma aumenta, a outra diminui).

Correlação: A correlação é uma medida padronizada que quantifica a relação linear entre duas variáveis
aleatórias. Ela é calculada dividindo a covariância pelo produto dos desvios padrão das variáveis. A correlação
varia entre -1 e 1, onde -1 indica uma correlação perfeitamente negativa, 1 indica uma correlação
perfeitamente positiva e 0 indica ausência de correlação linear.

𝑐𝑜𝑣(𝑋, 𝑌)
𝑐𝑜𝑟(𝑋, 𝑌) =
(𝜎ₓ ∗ 𝜎ᵧ)

Onde:

X e Y são as duas variáveis aleatórias;


cov(X, Y) é a covariância entre X e Y;
σₓ e σᵧ são os desvios padrão de X e Y, respectivamente.

A correlação é uma medida mais útil do que a covariância porque ela é independente da escala das variáveis,
tornando-a comparável entre diferentes conjuntos de dados.

Aplicações e exemplos: A covariância e a correlação têm diversas aplicações em estatística e análise de dados.
Algumas delas incluem:

• Análise financeira: A covariância e a correlação são usadas para medir a relação entre os retornos de
diferentes ativos financeiros, como ações, títulos e commodities. Isso auxilia na diversificação de
portfólios de investimentos.

• Estudos científicos: Essas medidas são usadas para analisar a relação entre variáveis em diferentes
campos científicos, como medicina, biologia e psicologia. Por exemplo, é possível analisar a correlação
entre a ingestão de certos nutrientes e a saúde de uma população.

• Análise de risco: A covariância e a correlação são aplicadas para avaliar o risco em situações como
seguros e empréstimos. A relação entre diferentes variáveis, como idade e histórico de saúde, pode
ajudar a determinar os prêmios de seguro ou a taxa de juros de um empréstimo.

• Modelagem estatística: A covariância e a correlação são fundamentais na construção de modelos


estatísticos, como regressão linear e análise de séries temporais. Essas medidas ajudam a identificar as
variáveis independentes mais relevantes e a entender a interdependência entre as variáveis
dependentes e independentes.

• Análise de mercado: A covariância e a correlação são usadas para analisar a relação entre diferentes
produtos ou mercados. Por exemplo, pode-se calcular a correlação entre o preço de um determinado
produto e o número de vendas para determinar se há uma relação significativa entre essas variáveis.

• Estudos de pesquisa: Na área de pesquisa, a covariância e a correlação são usadas para avaliar a relação
entre as variáveis medidas. Por exemplo, em um estudo educacional, pode-se calcular a correlação
entre o tempo de estudo e o desempenho acadêmico dos alunos.

Em resumo, a covariância e a correlação são medidas estatísticas que descrevem a relação entre duas variáveis
aleatórias. A covariância mede a variabilidade conjunta, enquanto a correlação quantifica a relação linear.
Ambas têm aplicações em diversos campos, como finanças, ciências, análise de risco, modelagem estatística e
pesquisa. Elas fornecem insights valiosos sobre a associação entre as variáveis e ajudam a tomar decisões
informadas com base nos dados disponíveis.

REGRESSÃO LINEAR

Regressão linear simples é um modelo estatístico utilizado para analisar a relação entre duas variáveis, uma
sendo a variável dependente (ou resposta) e a outra sendo a variável independente (ou preditora). Esse modelo
assume que a relação entre as variáveis pode ser descrita por uma equação linear.

O conceito básico da regressão linear simples envolve encontrar a linha reta que melhor se ajusta aos pontos
de dados. Essa linha é determinada através da minimização dos erros quadráticos entre os valores observados
e os valores previstos pelo modelo.

A equação da regressão linear simples é representada por:

𝑌 = 𝛽₀ + 𝛽₁𝑋 + 𝜀
Onde:

Y é a variável dependente (ou resposta);


X é a variável independente (ou preditora);
β₀ é o intercepto, que representa o valor de Y quando X é igual a zero;
β₁ é o coeficiente de regressão, que mede a mudança média em Y para cada unidade de mudança em X;
ε é o termo de erro, que representa a variação não explicada pelo modelo.

Através da análise dos coeficientes β₀ e β₁, é possível entender a direção e a magnitude da relação entre as
variáveis. Um β₁ positivo indica uma relação positiva entre as variáveis, enquanto um β₁ negativo indica uma
relação negativa.

Aplicações e exemplos de regressão linear simples incluem:

• Previsão: A regressão linear simples pode ser usada para prever valores futuros da variável dependente
com base nos valores conhecidos da variável independente. Por exemplo, prever o preço de uma casa
com base em sua área.

• Análise de tendências: A regressão linear simples pode ser usada para analisar e descrever tendências
ao longo do tempo. Por exemplo, analisar a relação entre a temperatura média anual e o ano para
identificar se há um aumento gradual.

• Avaliação de impacto: A regressão linear simples pode ser usada para avaliar o impacto de uma variável
independente sobre a variável dependente. Por exemplo, avaliar o efeito da educação no salário de
uma pessoa.

• Estudos científicos: A regressão linear simples é amplamente utilizada em pesquisas científicas para
analisar a relação entre variáveis. Por exemplo, investigar a relação entre a ingestão de açúcar e o índice
de massa corporal (IMC).

• Análise de causa e efeito: A regressão linear simples pode ser usada para investigar a relação causal
entre duas variáveis. Por exemplo, analisar a relação entre a quantidade de publicidade e as vendas de
um produto, buscando determinar se o investimento em publicidade afeta diretamente as vendas.

• Controle de qualidade: A regressão linear simples é aplicada no controle de qualidade para analisar a
relação entre variáveis de entrada e saída em processos industriais. Por exemplo, estudar a relação
entre a temperatura de um forno e a resistência de um produto, visando otimizar o processo de
produção.

• Avaliação de intervenções: A regressão linear simples pode ser usada para avaliar o impacto de
intervenções ou tratamentos em experimentos controlados. Por exemplo, analisar o efeito de um novo
medicamento sobre a redução dos níveis de colesterol em pacientes.

É importante ressaltar que a regressão linear simples tem pressupostos, como a linearidade da relação entre
as variáveis, a independência dos erros e a homocedasticidade (variância constante dos erros). Além disso, é
fundamental realizar uma análise cuidadosa dos resultados, incluindo a interpretação dos coeficientes, a
significância estatística e a avaliação da qualidade do ajuste do modelo.

A regressão linear simples é uma técnica estatística poderosa e amplamente utilizada para modelar e
compreender a relação entre duas variáveis. Ela oferece insights valiosos e quantitativos, permitindo tomar
decisões embasadas em evidências e realizar previsões com base nas relações observadas nos dados.

SEMANA 7
A regressão múltipla é uma técnica estatística usada para modelar a relação entre uma variável
dependente e várias variáveis independentes. Ela é uma extensão da regressão linear simples, onde apenas
uma variável independente é considerada.
No caso da regressão múltipla, a ideia é encontrar a melhor equação linear que descreve a relação entre
a variável dependente e as variáveis independentes, levando em conta a influência de todas as variáveis
simultaneamente. Essa equação pode ser usada para fazer previsões ou inferências sobre a variável
dependente com base nos valores das variáveis independentes.
O processo de regressão múltipla envolve a estimativa dos coeficientes de regressão para cada variável
independente. Esses coeficientes representam a contribuição de cada variável independente na previsão da
variável dependente, mantendo as outras variáveis constantes. Eles são estimados usando métodos como o
método dos mínimos quadrados, que busca minimizar a diferença entre os valores observados e os valores
previstos.
Além dos coeficientes de regressão, a regressão múltipla também fornece outras estatísticas úteis,
como o coeficiente de determinação (R²), que mede a proporção da variação total da variável dependente
explicada pelas variáveis independentes, e os testes de significância para determinar se os coeficientes de
regressão são estatisticamente diferentes de zero.
Nos testes de significância associados à regressão múltipla sempre teremos as hípoteses formuladas
dessa forma:
𝐻0 : 𝑁ã𝑜 ℎá 𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜, 𝑝𝑜𝑖𝑠 𝑜𝑠 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑛𝑒𝑡𝑒𝑠 𝑑𝑎𝑠 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠 𝑠ã𝑜 𝑛𝑢𝑙𝑜𝑠
𝐻1 : 𝐻á 𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜, 𝑝𝑜𝑖𝑠 𝑒𝑥̅𝑖𝑠𝑡𝑒 𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜

Lembrando que para o teste de hipótese temos que analisar a significância (𝛼) e o valor-p (podendo
apracer como F significativo) e, observar o seguinte:

𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≤ 𝛼 𝑅𝑒𝑗𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0
𝑣𝑎𝑙𝑜𝑟 − 𝑝 > 𝛼 𝐴𝑐𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0

Os níveis de correlação apontam se regressão linar é:

• Fraca: para r<0,5


• Moderada: para 0,5<r<0,7
• Forte: r>0,7

Para verificar qual das variáveis na regresssão múltipla possui maior influência na variável resposta temos
que analisar o valor Stat-t, quando maior o valor de Stat-t maior é a influência sobre a variável resposta.

Você também pode gostar