Bioestatistica Claro
Bioestatistica Claro
Bioestatistica Claro
Maurício Cagy
Depto. de Epidemiologia e Bioestatística
Instituto de Saúde da Comunidade
Bibliografia Recomendada
Díaz, F. R., López, F. J. B., Bioestatística, São Paulo:
Thomson Learning, 2007.
Morettin, P. A., Bussab, W. O., Estatística Básica, 5a.
Ed., São Paulo: Editora Saraiva, 2006.
Medronho R.A. et al. (eds.), Epidemiologia, São Paulo:
Editora Atheneu, 2002.
Soares J.F., Siqueira A.L., Introdução à Estatística
Médica,
– 1a. Ed., Belo Horizonte: Departamento de Estatística –
UFMG, 1999;
– 2a. Ed., Belo Horizonte: Coppemed, 2002.
Epidemiologia
“… o que os epidemiologistas estudam são os
determinantes e as condições de ocorrência de
doenças e agravos à saúde em populações
humanas. E o fazem empregando os mais
diversos métodos e técnicas, de acordo com suas
próprias visões de mundo, posicionamentos
teóricos, e propósitos, imediatos ou não, de seus
estudos.” (Carvalho, D.M., “Epidemiologia - História e Fundamentos” in: [2], p.6)
Bioestatística
“…o conjunto de métodos estatísticos usados no
tratamento da variabilidade nas ciências médicas
e biológicas. A Bioestatística fornece métodos
para se tomarem decisões ótimas na presença de
incerteza, estabelecendo faixas de confiança
para a eficácia dos tratamentos e verificando a
influência de fatores de risco no aparecimento de
doenças.” ([3], p.11)
Variável
“…a quantificação ou a categorização da característica
de interesse do estudo.” ([3], p.33)
Tipos:
– Categóricas:
Ordinal (Ex.: nível de gravidade de uma doença;
– Histogramas:
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
Medidas de Tendência Central ou Centralidade:
– Em torno de que valor se encontram nossas
observações?
Medidas de Dispersão ou Variabilidade:
– Estes valores são parecidos uns com os outros ou
apresentam grande variabilidade?
Medidas de Simetria...
Medidas de Curtose...
...
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
Medidas de Tendência Central:
– Média: somam-se os N valores e divide-se por N;
– Mediana: valor abaixo do qual se encontra metade das
observações;
– Moda: valor (ou intervalo de valores) mais freqüente.
– Exemplo: altura de indivíduos do gênero masculino (cm)
173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169
N
Média: x
1
N xi 3540 / 20 177 cm
i 1
Mediana: 163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193
xm= (176+177)/2 = 176,5 cm
– Demonstração: ( x x ) x x x x
N N N N N N
1 1
i i N i i N i
i 1 i 1 i 1 i 1 i 1 i 1
N N N N
xi 1
N N xi xi xi 0
i 1 i 1 i 1 i 1
d ( xi a ) 2 d ( xi a ) 2 d ( xi2 2axi a 2 )
0 0
da da da
(2 xi 2a) 0 ( xi a) 0 a xi
N N N N
Na xi a 1
N xi x
N N
Exemplo:
173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169
– Soma dos desvios quadráticos com relação à média (177): 938
– Soma dos desvios quadráticos com relação a 176: 958
– Soma dos desvios quadráticos com relação a 178: 958
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
Medidas de Dispersão ou Variabilidade:
– Desvio Absoluto Médio: valor médio da distância dos
indivíduos com relação à média;
– Variância e desvio padrão;
173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169
-4 -14 0 1 -10 9 9 -1 2 0 -2 5 -6 16 -2 0 8 -1 -2 -8
N
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
4,75 9,5 14,25
Q1=174,5 cm xm=176,5 cm Q3=179,75 cm
DI = 179,75-174,5 = 5,25 cm
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
Tabelas e Gráficos:
163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193
– Histograma
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
Mais Gráficos:
163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193 (cm)
(Q1 = 174,5; xm = 176,5; Q3 = 179,75 cm) ( x = 177,0; sx = 7,026 cm)
Box-plot Média e DP
195,5 cm
Q3+3,0.DI 187,625 cm
Q3+1,5.DI
Q1-1,5.DI
Q1-3,0.DI 166,625 cm
158,75 cm
1,5.DI = 7,875 cm
3,0.DI = 15,75 cm
Box-Plot com Variáveis
Gaussianas
Introdução à Probabilidade
Conceitos Fundamentais:
– Espaço Amostral (E): é o conjunto de todos valores
possíveis que uma variável aleatória pode assumir.
Ex.:
– Lançamento de um dado E = {1;2;3;4;5;6}
– Pressão sistólica E = [60;320] mmHg
– Evento Probabilístico ou Aleatório: é qualquer sub-
conjunto de E, e que traga um significado conceitual
dentro do fenômeno estudado.
Ex.:
– Lançamento de um dado A = {1;2} (números em que eu apostei...)
– Pressão sistólica A = [110;130] mmHg (pressão normal...)
Introdução à Probabilidade
Conceitos Fundamentais:
– Relação entre Probabilidade e Proporção:
Qual a probabilidade de sair o número 3 no lançamento de um
dado de 6 faces?
– Dado honesto: p(3) = 1/6;
– Nada se sabe sobre a estrutura do dado:
• Lançamos um número muito grande de vezes e estimamos a
probabilidade pela proporção de vezes que saiu o número 3
N
pˆ (3) 3
NT
onde N3 é o número de vezes que resultou o número 3 e NT é o
número total de lançamentos.
N3
– Definição: p (3) lim N T
NT
Introdução à Probabilidade
Propriedades:
– Seja A um evento probabilístico:
1. 0 p(A) 1 E
p(A) = 0 A é impossível 1 2
0 < p(A) < 1
p(A) = 1 A é certo de acontecer
A
3 4
Ex.: p(A) = 2/6 = 1/3
5 6
2. p( A ) 1 p( A)
p( A) 4 / 6 2 / 3 1 1 / 3
Conjunto complemento Lógica “Não”
3. p(E) = 1 p({ }) = 0,
onde {} = (conjunto vazio)
Introdução à Probabilidade
Sejam A e B dois eventos...
Excludência Probabilística: dois eventos são excludentes entre si (ou
mutuamente excludentes) se a ocorrência de um EXCLUI a
possibilidade de o outro ocorrer.
4. p(A B) = p(A) + p(B)
se A e B são excludentes;
p(A B) = p(A) + p(B) – p(A ∩ B) E
caso contrário (caso geral); 1 2
AA 3
344
BB
Conjunto União Lógica “Ou” 55 66
Conjunto Interseção Lógica “&”
Introdução à Probabilidade
Independência Probabilística: dois eventos são independentes
entre si se o conhecimento sobre a ocorrência de um
deles não traz qualquer informação sobre a probabilidade
de o outro ocorrer, ou seja, a ocorrência de um não
depende da ocorrência do outro.
5. p(A ∩ B) = p(A) · p(B)
se A e B são independentes;
p(O O)
CeO |C C| OeC
p(
Teorema de Bayes
)
p(O ∩ C) = p(O) · p(C | O) = p(C) · p(O | C) = p(C ∩ O)
p(A ∩ B) = p(A) · p(B | A) = p(B) · p(A | B) = p(B ∩ A)
30.000
p(B | A) = p(B) · p(A | B)
30.000
p(A)
Cardio. Obesos
100.000
p(
)
200.000
p(O
C)
C e NO O e NC
170.000 70.000
População
1.000.000
NC e O NO e C
70.000 Não Obesos 170.000
Não Cardio.
800.000 900.000
NO e NC
NC e NO
730.000
730.000
Distribuições de Probabilidade
São modelos probabilísticos que descrevem alguns
comportamentos “padrões” de fenômenos aleatórios.
Costuma-se “eleger” o modelo que seja mais adequado
ao fenômeno analisado.
A. Variáveis Discretas:
1. Distribuição Uniforme (Valores equiprováveis)
Ex.: Lançamento de um dado de 6 faces
– p(1) = 1/6;
– p(2) = 1/6;
– p(3) = 1/6;
– p(4) = 1/6;
– p(5) = 1/6;
– p(6) = 1/6.
Distribuições de Probabilidade
2. Distribuição Triangular
Ex.: Lançamento de dois dado de 6 faces Resultado = soma das faces
E Resultados p _
2 1+1 1/36
3 1+2, 2+1 2/36
4 1+3, 2+2, 3+1 3/36
5 1+4, 2+3, 3+2, 4+1 4/36
6 1+5, 2+4, 3+3, 4+2, 5+1 5/36
7 1+6, 2+5, 3+4, 4+3, 5+2, 6+1 6/36 = 1/6
8 2+6, 3+5, 4+4, 5+3, 6+2 5/36
9 3+6, 4+5, 5+4, 6+3 4/36
10 4+6, 5+5, 6+4 3/36
11 5+6, 6+5 2/36
12 6+6 1/36
Distribuições de Probabilidade
3. Distribuição Binomial
Seja uma população de tamanho “infinitamente” grande, na qual a
proporção de indivíduos com uma dada característica vale P. Qual a
probabilidade de, em uma amostra de N indivíduos selecionados
aleatoriamente desta população, k terem a tal característica?
– Ex.: P(C) = 0,1 ; N = 3 (C = canhotos; D = não canhotos ) P(D) = 0,9
E Indivíduos X, Y e Z p _
0 DDD 0,9 3 = 0,729
1 CDD, DCD, DDC 3 0,1 0,9 2 = 0,243
2 DCC, CDC, CCD 3 0,1 2 0,9 = 0,027
3 CCC 0,1 3 = 0,001
p(k ) P
N
k
k
(1 P ) N k
Distribuições de Probabilidade
4. Distribuição de Poisson
Seja um evento que se repete a uma taxa média de vezes por unidade
de tempo (UT). Qual a probabilidade de, em um determinado período de
1 UT, este evento ocorrer k vezes?
– Ex.: = 1 e = 4
e k
p(k )
k!
Distribuições de Probabilidade
B. Variáveis Contínuas:
1. Distribuição Uniforme
Ex.: Ângulo de parada de um disco: E = [0, 360)
– Qual a probabilidade do ângulo 200? É a altura do gráfico? NÃO.
– Qual a probabilidade de o ângulo estar entre 0 e 360? 100%.
– A área abaixo do gráfico vale 100% por definição.
– Só tem sentido falar de probabilidade para intervalos!
– Logo, o eixo vertical refere-se à Função Densidade de Probabilidade (pdf).
Distribuições de Probabilidade
2. Distribuição Gaussiana
Teorema do Limite Central (TLC) [quem é central é o limite, e não o teorema!]
Ex.: Altura da população masculina adulta ( = 175,7 cm e = 7,3 cm)
x 2
1
pdf ( x) e 2 2
2
68,27%
95,45%
Distribuições de Probabilidade
3. Distribuição Qui-Quadrada
Resultante da soma de K variáveis gaussianas e independentes elevadas
ao quadrado: K é o número de graus de liberdade;
Ex.: Grandezas quadráticas por natureza, p.ex. Potência.
Ilustração do TLC
1. Soma de dados de 6 faces:
2. Binomial aumentando-se o N:
Ilustração do TLC
3. Poisson aumentando-se :
N = 38 gl = 37
= 161,84 cm
sx = 7,25 cm 158 162 158
= 1,177 cm
164 154
Intervalo de Confiança de 95%:
160
153 155 173
162 163 157
154 165 162
168 165 164
173 168 169
156 154 175
160 156 179
162 167 155
165 172 154
151 172 151
158 156
^
EP( x )
β
α/2
/2 /2
Aceita-se H 0
Testes de Hipótese
Compromisso entre α e β:
Sem se alterarem as curvas de H0 e HA (mesmos dados):
Redução de α: aumenta-se k (alarga-se o intervalo de aceitação de H0);
Neste caso, facilita-se a aceitação de H0 (mesmo se ela for falsa);
Isto equivale a aumentar a área verde (β).
Vice-versa, caso se reduza β...
Para se ter α e β arbitrariamente pequenos:
Deve-se estreitar as curvas N deve ser suficientemente grande!
β
α/2
/2 /2
Aceita-se H 0
Testes de Hipótese
Lateralidade do Teste:
Alguns testes permitem a escolha entre várias opções de H A;
Por exemplo: comparação entre médias
A B x A xB 0 ou x A xB 0 Teste Bilateral ou Bicaudal;
A B x A x B 0 ;
Teste Unilateral ou Unicaudal
A B x A x B 0 .
Utiliza-se um teste unilateral quando, pela teoria, não se espera ou não é
justificável que haja diferença verdadeira em um dos “lados da
desigualdade”.
α/2 α/2
Testes de Hipótese
Comparações com base em variáveis categóricas:
Usualmente, usam-se testes que comparam proporções, tais
como o Teste Qui-Quadrado e o Exato de Fisher.
N H 25 N M 28 s P2 49,15 cm 2
x H 176,54 cm x M 165,21 cm
176,54 165,21
s H 7,02 cm s M 7,00 cm T 5,92
1 1
49,15
25 28
valor-p <
valor-p >
Parâmetros calculados:
Grande média:
x
X GM
N
Variação total:
SST x X GM
2
Variação intragrupos: i
SS I ( N i 1) si2
i
ANOVA
SS gl MS f
Paramétrico Não-Paramétrico
Teste t para amostras Mann-Witney
independentes
Teste t para amostras Wilcoxon
pareadas
ANOVA
– Paramétricos: médias
Kruskal-Wallis
– Não-Paramétricos: medianas
Embora não requeiram uma distribuição específica, estes testes não-
paramétricos, sob a hipótese nula, pressupõem que as amostras
possuam mesma distribuição.
Teste Qui-Quadrado
Comparação entre proporções de indivíduos classificados de
acordo uma variável categórica em dois ou mais grupos.
H0: igualdade entre proporções (todos grupos são amostras de
uma mesma população).
Exemplo: comparação entre dois grupos considerando-se uma
variável categórica dicotômica Tabela de Contingência 22
Variável Sim Não Total
Grupo
1 a b N1 = a + b
2 c d N2 = c + d
Total NS = a + c NN = b + d N=a+b+c+d
Teste Qui-Quadrado
Variável Sim Não Total
Grupo
1 a b N1
2 c d N2
Total NS NN N
Sob H0, as proporções seria iguais entre os grupos; logo, seriam iguais à
proporção no total. Portanto, os valores esperados seriam:
N ~ N N ~ N
a~ S N1 , b N N1 , c~ S N 2 , d N N 2
N N N N
X2
~ 2
~
~2
~ 2
~
~
a a b b c c d d 2
~
a b ~
c d
Teste Qui-Quadrado
Simplificando, temos:
N ad bc
2
X
2
N1 N 2 N S N N
N1 N 2 N S N N
Caso o N seja menor que 20 ou se alguma das células da tabela de
contingência tiver valor menor que 5, o Teste Qui-quadrado não deve ser
utilizado, devendo-se optar pelo Teste Exato de Fisher.
Teste Qui-Quadrado
Exemplo: comparação da proporção de óbitos em dois grupos que
receberam dois tratamentos diferentes:
Fracasso s l
Fracasso s l
Sob H0: r e s são fruto do acaso, esperando-se que sejam semelhantes (metade
de todas discordâncias em cada). Assim, usando-se a correção de
continuidade, temos:
X 2
r rs
2 1
2
s
2
rs
2 1
2
2
r s 1
2
McN rs
2
rs
2
rs
sendo que X2McN segue aproximadamente uma distribuição qui-quadrada com 1
grau de liberdade: X2McN ~ 21. Assim, rejeita-se H0 caso X2 > 2crit.
Regressão Linear e Correlação
Em vários fenômenos, parte da variação de uma das variáveis (dependente)
pode ser explicada pela variação de outra(s) variável(is) (independentes).
Deste modo, busca-se obter uma função matemática que melhor associe a
variação entre estas variáveis: a mais comum é a função linear.
Sejam duas variáveis, uma tida como independente (x) e outra como
dependente (y), tal como ilustrado no exemplo abaixo:
x x y i i y x y i i N xy
a i 1
N
i 1
N b y ax
ix x 2
i
x 2
N x 2
i 1 i 1
x x y
i i y x y i i Nxy
r i 1
i 1
N N
N 2 2
N
2
x x y
i
2
i y
2
xi N x yi N y
2
i 1 i 1 i 1 i 1
Regressão Linear e Correlação
Exemplo: relação entre idade e nível de colesterol...
a = -0,125 mg/dl/ano
b = 304,5 mg/dl
r = -0,04
r2 = 0,0016
Conceitos Básicos de Testes
Diagnósticos
A qualidade de um teste diagnóstico refere-se à sua capacidade de refletir o
verdadeiro status da doença em um indivíduo (doente [D] ou não-doente [ND]).
Portanto, para se avaliar um teste diagnóstico, deve-se conhecer o verdadeiro
status de um número suficientemente grande de indivíduos (tanto doentes quanto
não doentes) por meio de outro método diagnóstico altamente confiável (padrão-
ouro) e aplicar o teste nestes indivíduos:
Padrão-Ouro D ND Total
Teste
+ VP FP T+
- FN VN T-
VP = Número de Verdadeiros Positivos; VN = Número de Verdadeiros Negativos;
Total T
FP = Número de Falsos Positivos; FN = Número de Falsos Negativos;
D T
ND N
TD = Número Total de Doentes; TND = Número Total de Não Doentes;
T+ = Número Total de Diagnósticos Positivos; T- = Número Total de Diagnósticos Negativos.
Testes Diagnósticos
Padrão-Ouro D ND Total
Teste
+ VP FP T+
- FN VN T-
Total TD TND N
sP
VPˆ P
s P (1 e)(1 P )
e(1 P)
VPˆ N
(1 s ) P e(1 P)
Medidas de Associação
Um determinado desfecho (p.ex.: uma doença) é
associado à exposição a um determinado fator (de
risco ou de proteção)?
Exemplos de medidas de associação:
Risco Relativo: o risco (probabilidade) de apresentar o
desfecho é maior (ou menor) entre os indivíduos expostos
que entre os não expostos?
Razão de Chances (Odds Ratio - OR) de Desfecho: a
chance de apresentar o desfecho entre os expostos é
diferente da chance entre os não expostos?
Razão de Chances de Exposição: a chance de ter sido
exposto entre os indivíduos que apresentam o desfecho é
diferente da chance entre os que não apresentam o
desfecho?
Probabilidade vs. Chance
Desfecho Sim Não Total
Exposição
Sim a b TE
Não c d TNE
Total TD TND N
p( D | E ) ^ a
a b a (c d )
RR RR
p( D | E ) c
cd c ( a b)
Valores de risco relativo em torno de 1 sugerem não haver
associação entre exposição e desfecho (H0):
Como estimador: aceita-se H0 se IC95% engloba a unidade;
Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05)
Razão de Chances (OR)
Desfecho Sim Não Total
Exposição
Sim a b TE
Não c d TNE
Total TD TND N
OR de desfecho: razão entre a chance de apresentar o desfecho entre os
indivíduos expostos e a chance entre os não expostos:
odds ( D | E ) ^ a ad
ORD ORD b
odds ( D | E ) c
d bc
OR de exposição: razão entre a chance de ter sido exposto entre os
indivíduos que apresentam o desfecho e a chance entre os sem desfecho:
odds ( E | D) ^ a ad
ORE ORE c
odds ( E | D ) b
d bc
Valores de OR em torno de 1 sugerem não haver associação entre exposição
e desfecho (H0):
Como estimador: aceita-se H0 se IC95% engloba a unidade;
Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05)
Relação entre OR e RR
Desfecho Sim Não Total
Exposição
Sim a b TE
Não c d TNE
Total TD TND N
Risco Relativo:
a (c d )
RR
( a b) c
Razão de Chances:
ad
OR
bc
No caso de uma doença ter uma prevalência (P) muito baixa:
a << b a + b b ad
RR OR
c << d c + d d bc
ou seja, a Razão de Chances pode ser vista como uma estimativa do Risco Relativo.
Visão Geral sobre Desenhos
de Estudos Epidemiológicos
Tipos de Estudos Mais Comuns
Seccionais ou Transversais
Observacionais: Coorte
Caso-Controle