Estatística - Resumo
Estatística - Resumo
Estatística - Resumo
• Tabela simples: usada para apresentar dados quantitativos ou qualitativos em uma única coluna ou
linha.
• Tabela de frequência: usada para apresentar a frequência com que cada valor aparece em uma
distribuição.
• Tabela de contingência: usada para apresentar a relação entre duas variáveis categóricas.
• Tabela de dados cruzados: usada para apresentar a relação entre duas ou mais variáveis.
Cada tipo de tabela é adequado para uma finalidade específica e pode ser usado para comunicar
informações de maneira clara e organizada. É importante escolher o tipo de tabela que melhor
representa os dados que você deseja comunicar.
1.2 MEDIDAS DE DISPERSÃO
• Média (aritmética):
∑ 𝑥̅
𝑥̅ =
𝑛
Exemplo: Para obter a média aritmética das notas de uma turma com 5 alunos, foram realizadas
as seguintes observações:
Resolução:
Para calcular a média aritmética, basta somar todas as notas e dividir pelo número de alunos:
Média = (7,5 + 8,0 + 6,5 + 9,0 + 7,0) / 5 Média = 38,0 / 5 Média = 7,6
• MEDIANA: ponto central de um conjunto de dados, “divisor de águas”, 50% dos valores estão
acima e abaixo da mediana:
Dado o conjunto de números {2, 5, 7, 9, 12, 15, 18, 30}, encontre a mediana.
Dado o conjunto de dados {1,0,5,9,2,1,8,10,15,20}. Nesse conjunto o valor que mais repete é o
número 1.
E QUAL EU USO?
• Média: séries com pouca variabilidade
• Mediana: não é influenciada por valores extremos e alta variabilidade
• Valores extremos: valores muito discrepantes, para cima ou para baixo
• Moda: caso todos os valores apareçam com a mesma frequência, não há uma moda – dados
categóricos e classes mutuamente excludentes;
• Caso mais de um valor apareça com a mesma frequência, a série é multimodal
SEMANA 2
2.1 Probabilidade
𝑃𝐴∩ 𝐵 = 𝑃𝐴 ∗ 𝑃𝐵
Ao se jogar uma moeda não viesada (eventos independentes), o evento pode obter dois resultados
possíveis: Cara o u Coroa
Ao se retirar duas cartas do baralho (eventos dependentes), retira-se uma e a segunda jamais será a carta
já retirada.
2.2 Combinações
Onde:
n= tamanho da amostra
k=número de sucessos
p=probabilidade de sucesso
1- p=probabilidade de fracasso
• Lembre-se, o sucesso e o fracasso não complementares, sua soma sempre deve ser igual a 1.
Exemplo:
Suponha que em uma fábrica de produção de peças, 80% das peças produzidas são consideradas de
qualidade. Um inspetor seleciona aleatoriamente 10 peças para inspeção. Qual é a probabilidade de que
exatamente 7 das 10 peças sejam de qualidade?
Para resolver esse problema, podemos usar a distribuição binomial com os seguintes parâmetros: n = 10
(número de peças selecionadas) e p = 0,8 (probabilidade de uma peça ser de qualidade). A probabilidade
de exatamente 7 das 10 peças serem de qualidade é dada pela seguinte fórmula:
Lembre-se que
10 10!
( )=
7 7! ⋅ (10 − 7)!
Isso significa que a probabilidade de escolher exatamente 7 das 10 peças que são de qualidade é igual a:
( ) 10 7 3
𝑃 𝑋 = 7 = ( ) ⋅ 0,8 ⋅ 0,2 = 0,2013
7
Agora, podemos usar uma tabela da distribuição normal padrão para encontrar a probabilidade de z estar
entre -1 e 1. A partir da tabela, encontramos que a probabilidade de z estar entre -1 e 1 é de
aproximadamente 0,6827.
Finalmente, podemos concluir que a probabilidade de um estudante selecionado aleatoriamente ter uma
altura entre 1,60 e 1,80 metros é de aproximadamente 0,6827 ou 68,27%.
SEMANA 3
Em estatística, "população" se refere ao conjunto completo de indivíduos, objetos, eventos ou medidas
que se deseja estudar e analisar. Essa população pode ser de qualquer tamanho e pode ser formada por
pessoas, animais, plantas, objetos, dados ou qualquer outra coisa que seja relevante para a análise em questão.
Por outro lado, "amostragem" se refere ao processo de selecionar uma parte representativa da população
para ser estudada e analisada. É impossível estudar todos os indivíduos da população em questão, seja por
questões de custo, tempo ou outros fatores, por isso uma amostra é usada para fazer inferências sobre a
população como um todo.
Uma boa amostra deve ser representativa da população em questão e ter tamanho suficiente para garantir
a precisão das estimativas. Além disso, é importante usar técnicas de amostragem adequadas para evitar vieses
ou distorções nos resultados da análise. A escolha da amostra pode ser feita de maneira aleatória, sistemática,
estratificada ou por conglomerados, dependendo do objetivo da pesquisa e da disponibilidade de recursos.
3.1 Amostragem
Existem vários tipos de amostragem que podem ser utilizados em estatística, cada um com suas vantagens
e desvantagens. Abaixo estão alguns dos tipos mais comuns de amostragem:
Nesse tipo de amostragem, cada indivíduo da população tem a mesma chance de ser selecionado. É
como jogar uma moeda para decidir se cada indivíduo será incluído ou não na amostra. Por exemplo, se você
deseja selecionar uma amostra aleatória simples de 100 alunos de uma escola com 1000 alunos, você pode
escrever o nome de cada aluno em um pedaço de papel, colocar todos os papéis em uma caixa e sortear 100
papéis aleatoriamente.
Nesse tipo de amostragem, os indivíduos são selecionados de acordo com um sistema ou ordem
definida previamente. Por exemplo, se você deseja selecionar uma amostra sistemática de 100 alunos deuma
escola com 1000 alunos, você pode selecionar um número aleatório de 1 a 10 e, a partir desse número,
selecionar a cada 10 alunos, como o aluno 1, o aluno 11, o aluno 21 e assim por diante.
3.1.3 Amostragem Estratificada
Nesse tipo de amostragem, a população é dividida em grupos maiores (conglomerados), como cidades
ou bairros, e uma amostra de cada conglomerado é selecionada. Por exemplo, se você deseja selecionar uma
amostra por conglomerados de consumidores de um determinado produto, você pode dividir a população em
cidades e, em seguida, selecionar aleatoriamente algumas cidades para coletar dados dos consumidores.
É um tipo de amostragem não probabilística que é utilizada quando os indivíduos são selecionados com
base em sua disponibilidade e acessibilidade, ou seja, aqueles que estão mais próximos ou mais fáceisde serem
alcançados. Essa técnica de amostragem é considerada menos rigorosa do que as técnicas de amostragem
probabilísticas, pois não garante a representatividade da amostra em relação à população.
Um exemplo de amostragem por conveniência pode ser encontrado em um estudo sobre hábitos de
alimentação de estudantes universitários. Nesse caso, o pesquisador pode decidir selecionar os alunos que
frequentam a cantina da universidade durante o horário do almoço. Esses alunos são convenientes para o
pesquisador, pois estão disponíveis e acessíveis. No entanto, a amostra resultante pode não ser representativa
de toda a população de estudantes universitários, já que muitos alunos podem não frequentar a cantina ou
podem ter hábitos alimentares diferentes dos alunos que frequentam a cantina.
Embora a amostragem por conveniência possa ser rápida e fácil de ser realizada, ela apresenta algumas
limitações importantes. Como mencionado anteriormente, a amostra resultante pode não ser representativa
da população em questão, o que pode levar a resultados imprecisos ou tendenciosos. Portanto, a amostragem
por conveniência deve ser utilizada com cuidado e apenas quando não é possível ou viável utilizar técnicas de
amostragem probabilísticas mais rigorosas.
3.2 Inferências
A inferência estatística é o processo de tirar conclusões ou fazer generalizações sobre uma população a partir de
informações obtidas em uma amostra. Existem duas abordagens principais para a inferência estatística: inferência por
ponto e inferência por intervalo.
Inferência por ponto é o processo de estimar um único valor numérico para um parâmetro desconhecido da
população, com base nas informações obtidas a partir da amostra. Por exemplo, podemos querer estimar a média
populacional de altura dos homens de uma determinada região a partir de uma amostra de 100 homens. Nesse caso,
podemos utilizar a média amostral como uma estimativa pontual para a média populacional.
Por outro lado, a inferência por intervalo é o processo de estimar um intervalo de valores para um parâmetro
desconhecido da população, com base nas informações obtidas a partir da amostra. Por exemplo, podemos querer
estimar o intervalo de altura populacional dos homens de uma determinada região com um certo nível de confiança, a
partir de uma amostra de 100 homens. Nesse caso, podemos utilizar um intervalo de confiança para a média
populacional, calculado a partir da amostra, como uma estimativa por intervalo.
Um intervalo de confiança é construído com base na distribuição de probabilidade da estatística de amostragem
relevante (como a média amostral ou a proporção amostral), assumindo que a amostra foi selecionada aleatoriamente
e que a distribuição populacional é conhecida ou pode ser aproximada por uma distribuição normal. A largura do
intervalo de confiança depende do tamanho da amostra, do nível de confiança escolhido e do desvio padrão da
distribuição populacional.
Em resumo, a inferência por ponto e inferência por intervalo são duas abordagens importantes na estatística
inferencial. A inferência por ponto fornece uma estimativa pontual para um parâmetro desconhecido da população,
enquanto a inferência por intervalo fornece um intervalo de valores possíveis para o parâmetro, com um certo nível de
confiança. Ambas as abordagens são úteis na tomada de decisões baseadas em dados e na formulação de conclusões
sobre populações com base em amostras.
Vamos aplicar em um exercício a inferência por intervalo: Um pesquisador quer estimar a média de idade da
população de uma cidade. Ele seleciona aleatoriamente uma amostra de 50 indivíduos e encontra uma média amostral
de 35 anos e um desvio padrão amostral de 5 anos. Construa um intervalo de confiança de 95% para a média de idade
populacional.
Resolução:
O primeiro passo é determinar a distribuição da estatística de amostragem relevante, neste caso, a média
amostral. Assumindo que a população segue uma distribuição normal, a distribuição amostral da média segue também
uma distribuição normal, com média igual à média populacional e desvio padrão igual ao desvio padrão populacional
dividido pela raiz quadrada do tamanho da amostra. Nesse caso, como o tamanho da amostra é grande o suficiente (n
> 30), podemos utilizar o teorema do limite central para assumir normalidade da distribuição amostral da média.
O segundo passo é determinar o nível de confiança desejado. Neste caso, é solicitado um intervalo de confiança
de 95%, o que significa que há 95% de probabilidade de que a média populacional esteja dentro do intervalo de
confiança.
O terceiro passo é determinar o valor crítico para o intervalo de confiança. Como o nível de confiança é de 95%,
podemos utilizar uma tabela de distribuição normal padrão para encontrar o valor crítico correspondente. Para um
nível de confiança de 95% (5%=0,05/2=0,025), temos um valor crítico de 1,96.
𝜎
𝑚𝑒𝑟𝑟𝑜 = 𝑍𝛼 ⋅
2 √𝑛
5
SEMANA 4
Os testes de hipóteses são uma ferramenta estatística utilizada para avaliar se uma afirmação sobre uma
população é verdadeira ou não, com base em uma amostra de dados. Existem três tipos de testes de hipóteses:
unilateral à direita, unilateral à esquerda e bilateral.
Este teste é utilizado quando a hipótese nula (H0) do parâmetro populacional é menor ou igual a um
determinado valor, enquanto a hipótese alternativa (Ha) do parâmetro populacional é maior do que esse valor. Por
exemplo, suponha que desejamos testar se a média de altura dos homens é maior do que 1,75 metros. A hipótese nula
seria que da média de altura dos homens é menor ou igual a 1,75 metros, enquanto a hipótese alternativa seria que a
média de altura dos homens é maior do que 1,75 metros.
Este teste é utilizado quando a hipótese nula do parâmetro populacional é maior ou igual a um determinado
valor, enquanto a hipótese alternativa é quando o valor do parâmetro populacional é menor do que esse valor. Por
exemplo, suponha que desejamos testar se a média de idade dos usuários de um determinado serviço é menor do que
35 anos. A hipótese nula seria que a média de idade é maior ou igual a 35 anos, enquanto a hipótese alternativa seria
que a média de idade é menor do que 35 anos.
Este teste é utilizado quando a hipótese nula é quando o valor do parâmetro populacional é igual a um
determinado valor, enquanto a hipótese alternativa é quando valor do parâmetro populacional é diferente desse valor.
Por exemplo, suponha que desejamos testar se a média de peso dos pacientes de um hospital é diferente de 70 kg. A
hipótese nula seria que a média de peso é igual a 70 kg, enquanto a hipótese alternativa seria que a média de peso é
diferente de 70 kg.
Para realizar um teste de hipóteses, precisamos definir um nível de significância (geralmente 5%) e calcular uma
estatística de teste apropriada com base na amostra de dados. Em seguida, comparamos o valor da estatística de teste
com um valor crítico, que depende do tipo de teste que estamos realizando. Se o valor da estatística de teste for maior
do que o valor crítico (valor-p <𝛼), rejeitamos a hipótese nula e concluímos que há evidências suficientes para suportar
a hipótese alternativa. Caso contrário, não rejeitamos a hipótese nula e concluímos que não há evidências suficientes
para suportar a hipótese alternativa.
𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≤ 𝛼 𝑅𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
𝑣𝑎𝑙𝑜𝑟 − 𝑝 > 𝛼 𝐴𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
4.4 Teste-t
O teste t é um teste de hipóteses utilizado para avaliar se a média de uma população é estatisticamente
diferente de um valor específico, com base em uma amostra de dados. O teste t é usado quando a distribuição da
população não é conhecida e a amostra é relativamente pequena (geralmente, com menos de 30 observações). O teste
t é adequado para amostras com distribuição normal ou aproximadamente normal, ou quando o tamanho da amostra
é grande o suficiente para aplicar o teorema central do limite.
O teste t envolve o cálculo da estatística de teste t, que é definida como a diferença entre a média amostral e o
valor hipotético (ou estimado) da média populacional, dividida pelo erro padrão da média amostral. O erro padrão é
uma medida da variabilidade dos dados na amostra e é calculado a partir do desvio padrão amostral e do tamanho da
amostra.
O teste t é um teste paramétrico, o que significa que requer algumas suposições sobre a distribuição dos
dados, como a normalidade e a homogeneidade da variância. Se essas suposições não forem atendidas, pode ser
necessário usar um teste não paramétrico, como o teste de Mann-Whitney ou o teste de Wilcoxon.
Exemplo:
Suponha que um pesquisador deseja testar se a média de altura de uma população é diferente de 1,75 metros. Ele
coleta uma amostra de 20 indivíduos e encontra uma média de 1,80 metros, com um desvio padrão de 0,10 metros.
Ele realiza um teste t com um nível de significância de 5% e encontra uma estatística de teste t de 4,00. Com base em
uma tabela de distribuição t, ele encontra um valor crítico de 2,093 (para um teste bilateral com 19 graus de
liberdade). Como o valor absoluto da estatística de teste t é maior do que o valor crítico, ele rejeita a hipótese nula e
conclui que há evidências suficientes para suportar a hipótese alternativa de que a média de altura da população é
diferente de 1,75 metros.
O teste qui-quadrado é um teste estatístico utilizado para avaliar a independência ou a associação entre duas
variáveis categóricas. O teste é chamado de qui-quadrado porque a estatística de teste é calculada a partir da soma
dos quadrados dos desvios entre as frequências observadas e as frequências esperadas, assumindo que as duas
variáveis são independentes.
O teste qui-quadrado é usado quando se deseja verificar se há uma relação entre duas variáveis categóricas
em uma população, como por exemplo, verificar se há uma relação entre gênero e preferência por determinado
produto ou serviço, ou se há uma relação entre o tipo de atividade física e o índice de massa corporal.
Para realizar o teste qui-quadrado, é necessário formular as hipóteses nula e alternativa. A hipótese nula é que
não há relação entre as variáveis, enquanto a hipótese alternativa é que há uma relação. A estatística de teste é
calculada a partir de uma tabela de contingência, que mostra as frequências observadas em cada combinação de
categoria das duas variáveis.
Exemplo:
Suponha que um pesquisador deseja testar se há uma relação entre o nível de escolaridade e o voto em um candidato
nas últimas eleições. Ele coleta dados de uma amostra aleatória de 500 eleitores e registra o nível de escolaridade
(fundamental, médio, superior) e o voto (candidato A, candidato B, candidato C). Ele realiza um teste qui-quadrado
com um nível de significância de 5% e encontra uma estatística de teste qui-quadrado de 20,00 com 4 graus de
liberdade.
Com base em uma tabela de distribuição qui-quadrado, ele encontra um valor crítico de 9,488 (para um teste bilateral
com 4 graus de liberdade). Como o valor da estatística de teste qui-quadrado é maior do que o valor crítico, ele rejeita
a hipótese nula e conclui que há evidências suficientes para suportar a hipótese alternativa de que há uma relação
entre o nível de escolaridade e o voto em um candidato nas últimas eleições. Ele pode então realizar análises
adicionais, como a análise de resíduos, para identificar as combinações de categorias que contribuem para a relação.
SEMANA 5
A Análise de Variância (ANOVA) é uma técnica estatística que é utilizada para avaliar se há diferenças
significativas entre as médias de três ou mais grupos independentes de dados. Para aplicar a Anova, é
necessário seguir alguns conceitos fundamentais:
• Hipóteses: A hipótese nula afirma que não há diferença significativa entre as médias dos grupos,
enquanto a hipótese alternativa afirma que pelo menos uma das médias é diferente.
• Fator: É a variável independente que está sendo analisada. Por exemplo, em um estudo que compara
a eficácia de três medicamentos diferentes no tratamento de uma doença, o fator é o tipo de
medicamento.
• Variância: É uma medida de quão diferentes os valores em um grupo são uns dos outros. A variação
entre os grupos é comparada com a variação dentro dos grupos para determinar se há diferenças
significativas nas médias.
• Graus de liberdade: São os valores que indicam quantos dados são independentes na amostra. Eles
são usados para calcular a estatística F.
• Estatística F: É a razão entre a variação entre os grupos e a variação dentro dos grupos. Quanto maior
a estatística F, maior é a evidência de que pelo menos uma das médias é significativamente diferente.
Um pesquisador quer avaliar se existem diferenças significativas na altura média de três variedades de plantas
de tomate (A, B e C) em diferentes condições de luz (alta, média e baixa). Ele mediu a altura de 10 plantas de
cada variedade em cada condição de luz e obteve os seguintes dados:
Variedade A: 20, 23, 25, 22, 18, 21, 20, 24, 22, 23
Variedade B: 25, 28, 30, 26, 27, 29, 24, 26, 28, 25
Variedade C: 18, 20, 16, 19, 21, 17, 20, 18, 19, 22
Para analisar esses dados usando Anova, o pesquisador pode seguir os seguintes passos:
1. Formular hipóteses: A hipótese nula é que não há diferenças significativas nas alturas médias das
plantas entre as variedades e as condições de luz. A hipótese alternativa é que pelo menos uma das
médias é diferente.
2. Identificar os fatores: As variedades de plantas são um fator, e as condições de luz são outro fator.
3. Calcular as variâncias: O pesquisador calcula a variação dentro de cada grupo (variabilidade dentro
das plantas de cada variedade em cada condição de luz) e a variação entre os grupos (variabilidade
entre as médias de cada variedade em cada condição de luz).
4. Calcular os graus de liberdade: O pesquisador calcula os graus de liberdade para cada fonte de
variação.
5. Calcular a estatística F: O pesquisador calcula a estatística F, que é a razão entre a variação entre os
grupos e a variação
Calcular a ANOVA manualmente não é tão trivial, mas estou aqui para te ajudar nisso. Suponha que a
Voitto Computadores, produz impressoras e máquinas de fax em suas fábricas localizadas em Juiz de Fora,
Belo Horizonte e Rio de Janeiro.
Para medir quanto os empregados dessas fábricas sabem sobre gerenciamento da qualidade total,
uma amostra aleatória de seis empregados de cada fábrica foi selecionada e seus integrantes foram
submetidos a um exame de seus conhecimentos sobre qualidade.
Temos agora que utilizar tais valores para calcular os quadrados médios entre os tratamentos e o quadrado
médio do erro, com base nas fórmulas a seguir.
Onde g é o graus de liberdade, que nesse caso vale 3, pois temos 3 amostras, e N é a quantidade total de dados
que possuímos, que nesse caso possui valor igual a 18. E F é o valor que iremos comparar com os dados tabelados.
Ou seja, rejeitamos a hipótese de que as médias das notas de todas as filiais da Voitto Computadores são
significativamente iguais.
SEMANA 6
A covariância e a correlação são duas medidas estatísticas que descrevem a relação entre duas variáveis
aleatórias. Ambas são amplamente utilizadas para analisar a associação entre diferentes conjuntos de dados.
Vamos explicar cada uma delas separadamente:
Covariância: A covariância mede a variabilidade conjunta de duas variáveis aleatórias. Ela indica a direção do
relacionamento (positivo ou negativo) e a magnitude da associação entre as variáveis. A covariância pode ser
calculada usando a seguinte fórmula:
Onde:
Correlação: A correlação é uma medida padronizada que quantifica a relação linear entre duas variáveis
aleatórias. Ela é calculada dividindo a covariância pelo produto dos desvios padrão das variáveis. A correlação
varia entre -1 e 1, onde -1 indica uma correlação perfeitamente negativa, 1 indica uma correlação
perfeitamente positiva e 0 indica ausência de correlação linear.
𝑐𝑜𝑣(𝑋, 𝑌)
𝑐𝑜𝑟(𝑋, 𝑌) =
(𝜎ₓ ∗ 𝜎ᵧ)
Onde:
A correlação é uma medida mais útil do que a covariância porque ela é independente da escala das variáveis,
tornando-a comparável entre diferentes conjuntos de dados.
Aplicações e exemplos: A covariância e a correlação têm diversas aplicações em estatística e análise de dados.
Algumas delas incluem:
• Análise financeira: A covariância e a correlação são usadas para medir a relação entre os retornos de
diferentes ativos financeiros, como ações, títulos e commodities. Isso auxilia na diversificação de
portfólios de investimentos.
• Estudos científicos: Essas medidas são usadas para analisar a relação entre variáveis em diferentes
campos científicos, como medicina, biologia e psicologia. Por exemplo, é possível analisar a correlação
entre a ingestão de certos nutrientes e a saúde de uma população.
• Análise de risco: A covariância e a correlação são aplicadas para avaliar o risco em situações como
seguros e empréstimos. A relação entre diferentes variáveis, como idade e histórico de saúde, pode
ajudar a determinar os prêmios de seguro ou a taxa de juros de um empréstimo.
• Análise de mercado: A covariância e a correlação são usadas para analisar a relação entre diferentes
produtos ou mercados. Por exemplo, pode-se calcular a correlação entre o preço de um determinado
produto e o número de vendas para determinar se há uma relação significativa entre essas variáveis.
• Estudos de pesquisa: Na área de pesquisa, a covariância e a correlação são usadas para avaliar a relação
entre as variáveis medidas. Por exemplo, em um estudo educacional, pode-se calcular a correlação
entre o tempo de estudo e o desempenho acadêmico dos alunos.
Em resumo, a covariância e a correlação são medidas estatísticas que descrevem a relação entre duas variáveis
aleatórias. A covariância mede a variabilidade conjunta, enquanto a correlação quantifica a relação linear.
Ambas têm aplicações em diversos campos, como finanças, ciências, análise de risco, modelagem estatística e
pesquisa. Elas fornecem insights valiosos sobre a associação entre as variáveis e ajudam a tomar decisões
informadas com base nos dados disponíveis.
REGRESSÃO LINEAR
Regressão linear simples é um modelo estatístico utilizado para analisar a relação entre duas variáveis, uma
sendo a variável dependente (ou resposta) e a outra sendo a variável independente (ou preditora). Esse modelo
assume que a relação entre as variáveis pode ser descrita por uma equação linear.
O conceito básico da regressão linear simples envolve encontrar a linha reta que melhor se ajusta aos pontos
de dados. Essa linha é determinada através da minimização dos erros quadráticos entre os valores observados
e os valores previstos pelo modelo.
𝑌 = 𝛽₀ + 𝛽₁𝑋 + 𝜀
Onde:
Através da análise dos coeficientes β₀ e β₁, é possível entender a direção e a magnitude da relação entre as
variáveis. Um β₁ positivo indica uma relação positiva entre as variáveis, enquanto um β₁ negativo indica uma
relação negativa.
• Previsão: A regressão linear simples pode ser usada para prever valores futuros da variável dependente
com base nos valores conhecidos da variável independente. Por exemplo, prever o preço de uma casa
com base em sua área.
• Análise de tendências: A regressão linear simples pode ser usada para analisar e descrever tendências
ao longo do tempo. Por exemplo, analisar a relação entre a temperatura média anual e o ano para
identificar se há um aumento gradual.
• Avaliação de impacto: A regressão linear simples pode ser usada para avaliar o impacto de uma variável
independente sobre a variável dependente. Por exemplo, avaliar o efeito da educação no salário de
uma pessoa.
• Estudos científicos: A regressão linear simples é amplamente utilizada em pesquisas científicas para
analisar a relação entre variáveis. Por exemplo, investigar a relação entre a ingestão de açúcar e o índice
de massa corporal (IMC).
• Análise de causa e efeito: A regressão linear simples pode ser usada para investigar a relação causal
entre duas variáveis. Por exemplo, analisar a relação entre a quantidade de publicidade e as vendas de
um produto, buscando determinar se o investimento em publicidade afeta diretamente as vendas.
• Controle de qualidade: A regressão linear simples é aplicada no controle de qualidade para analisar a
relação entre variáveis de entrada e saída em processos industriais. Por exemplo, estudar a relação
entre a temperatura de um forno e a resistência de um produto, visando otimizar o processo de
produção.
• Avaliação de intervenções: A regressão linear simples pode ser usada para avaliar o impacto de
intervenções ou tratamentos em experimentos controlados. Por exemplo, analisar o efeito de um novo
medicamento sobre a redução dos níveis de colesterol em pacientes.
É importante ressaltar que a regressão linear simples tem pressupostos, como a linearidade da relação entre
as variáveis, a independência dos erros e a homocedasticidade (variância constante dos erros). Além disso, é
fundamental realizar uma análise cuidadosa dos resultados, incluindo a interpretação dos coeficientes, a
significância estatística e a avaliação da qualidade do ajuste do modelo.
A regressão linear simples é uma técnica estatística poderosa e amplamente utilizada para modelar e
compreender a relação entre duas variáveis. Ela oferece insights valiosos e quantitativos, permitindo tomar
decisões embasadas em evidências e realizar previsões com base nas relações observadas nos dados.
SEMANA 7
A regressão múltipla é uma técnica estatística usada para modelar a relação entre uma variável
dependente e várias variáveis independentes. Ela é uma extensão da regressão linear simples, onde apenas
uma variável independente é considerada.
No caso da regressão múltipla, a ideia é encontrar a melhor equação linear que descreve a relação entre
a variável dependente e as variáveis independentes, levando em conta a influência de todas as variáveis
simultaneamente. Essa equação pode ser usada para fazer previsões ou inferências sobre a variável
dependente com base nos valores das variáveis independentes.
O processo de regressão múltipla envolve a estimativa dos coeficientes de regressão para cada variável
independente. Esses coeficientes representam a contribuição de cada variável independente na previsão da
variável dependente, mantendo as outras variáveis constantes. Eles são estimados usando métodos como o
método dos mínimos quadrados, que busca minimizar a diferença entre os valores observados e os valores
previstos.
Além dos coeficientes de regressão, a regressão múltipla também fornece outras estatísticas úteis,
como o coeficiente de determinação (R²), que mede a proporção da variação total da variável dependente
explicada pelas variáveis independentes, e os testes de significância para determinar se os coeficientes de
regressão são estatisticamente diferentes de zero.
Nos testes de significância associados à regressão múltipla sempre teremos as hípoteses formuladas
dessa forma:
𝐻0 : 𝑁ã𝑜 ℎá 𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜, 𝑝𝑜𝑖𝑠 𝑜𝑠 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑛𝑒𝑡𝑒𝑠 𝑑𝑎𝑠 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠 𝑠ã𝑜 𝑛𝑢𝑙𝑜𝑠
𝐻1 : 𝐻á 𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜, 𝑝𝑜𝑖𝑠 𝑒𝑥̅𝑖𝑠𝑡𝑒 𝑝𝑒𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑑𝑒 𝑧𝑒𝑟𝑜
Lembrando que para o teste de hipótese temos que analisar a significância (𝛼) e o valor-p (podendo
apracer como F significativo) e, observar o seguinte:
𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≤ 𝛼 𝑅𝑒𝑗𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0
𝑣𝑎𝑙𝑜𝑟 − 𝑝 > 𝛼 𝐴𝑐𝑒𝑖𝑡𝑎𝑚𝑜𝑠 𝐻0
Para verificar qual das variáveis na regresssão múltipla possui maior influência na variável resposta temos
que analisar o valor Stat-t, quando maior o valor de Stat-t maior é a influência sobre a variável resposta.