Dimensionamento de Amostra PDF
Dimensionamento de Amostra PDF
Dimensionamento de Amostra PDF
Dimensionamento
de amostra
para estudos
na área da saúde
Dimensionamento
de amostra para estudos
na área da saúde
Folium Editorial
Av. Carandaí, 161 – Sala 702
30130-060 – Belo Horizonte – MG
Tel.: (31) 3287-1960
folium@folium.com.br
Ficha catalográfica
413p.
ISBN: 978-85-84500-22-2
Todos os direitos autorais reservados e protegidos pela Lei nº 9.610, de fevereiro de 1998. É proibi-
da a duplicação desta obra, no todo ou em parte, sob quaisquer formas ou por quaisquer meios (ele-
trônico, mecânico, gravação, fotocópia ou outros) sem a permissão prévia, por escrito, do Autor.
A Autora
A determinação do tamanho da amostra, cuja notação tradicional é 𝑛, está entre as tarefas mais
comumente encontradas na prática estatística. Existe ampla gama de métodos para o cálculo de 𝑛 e do
poder de teste, assunto relacionado. Inoue et al. (2005) exploram paralelos entre métodos clássicos
(frequentistas) e bayesianos para determinar o tamanho da amostra e ilustram com vários exemplos.
Neste texto, o enfoque é exclusivamente baseado em métodos frequentistas. Os métodos podem ser
aproximados ou exatos, sendo que a implementação do segundo é bem mais complexa.
Por muito tempo e por vários motivos, não havia tanta preocupação e até mesmo negligência com a
questão do dimensionamento de amostra. Mais recentemente, pela exigência da informação do
tamanho de amostra em protocolos de pesquisas da área da saúde, há mais relato da metodologia
empregada, mas não necessariamente os métodos são os mais adequados, ainda se percebendo carência
de conhecimentos sobre o assunto, sendo pouco frequente ver-se um trabalho com um plano amostral e
dimensionamento do estudo que sejam impecáveis.
Frequentemente a forma padrão para a determinação do tamanho de amostras é por meio de fórmulas
fechadas, com métodos aproximados ou não. Às vezes processos iterativos são necessários ou ainda as
soluções podem ser obtidas por simulações. Deve-se mencionar que as contas necessárias para o
dimensionamento de amostra e cálculo de poder dos testes são geralmente elementares, pois envolvem
operações matemáticas básicas ou funções matemáticas não muito complicadas.
Por outro lado, existem várias dificuldades na prática. Por exemplo, tipicamente as fórmulas de
tamanho de amostra/poder dependem de parâmetros associados às distribuições das variáveis
estudadas, que na prática em geral são desconhecidos. Na etapa do planejamento, incluindo o cálculo
do tamanho da amostra, naturalmente os dados não foram coletados e, portanto, as estimativas dos
parâmetros só serão conhecidas após o término do estudo. Como solução, informações sobre os
parâmetros são buscadas na literatura (embora nunca sejam exatamente correspondentes ao que o
estudo planejado trata) ou o desenvolvimento de um estudo-piloto.
Este livro é fruto de muitos anos de atuação no tema, com o desenvolvimento de projetos acadêmicos,
orientação de alunos e publicação de alguns trabalhos tanto em eventos científicos como em periódicos
indexados. Além da compilação de publicações da literatura, estão incluídos vários trabalhos de
pesquisas pessoais, a maioria com colaboradores. O texto cobre grande variedade de situações e há
vasta lista de referências bibliográficas. Procurou-se apresentar todos os métodos de forma bem
didática, com muitos exemplos para fácil utilização de profissionais que não são da área da Estatística.
Propositalmente, os detalhes técnicos foram evitados, mas podem ser encontrados nas referências
citadas. A seguir, apresenta-se uma resenha do livro.
O capítulo 2 é sobre a determinação do tamanho da amostra em estudos envolvendo médias para uma,
duas ou várias amostras. São consideradas várias situações, segundo tipo de planejamento (amostras
independentes ou pareadas) e ocorrência ou não do pressuposto de homocedastidade.
O capítulo 10 reúne vários temas especiais relacionados ao dimensionamento de amostras, tais como:
métodos não paramétricos, modelos lineares generalizados, dados grupados e longitudinais, além de
poder exato. Também são apresentados comentários sobre estudos sequenciais e metanálise.
O livro finaliza com dois apêndices. O Apêndice A resume as noções básicas sobre inferência
estatística utilizadas ao longo do texto, que também servirão para tornar a nomenclatura e notação o
mais uniforme possível. No Apêndice B apresentam-se uma tabela de números aleatórios e algumas
tabelas das distribuições de probabilidades mencionadas no texto.
Mesmo com certa experiência e gosto na preparação de textos acadêmicos, foi grande desafio a
organização do material, ao qual me dediquei por tempo considerável. Uma das dificuldades na prática
foi verificar a correspondência dos termos e enfoques e unificar as notações dos trabalhos, além de
manter certa uniformidade de quantidade expressiva de publicações sobre as mais variadas técnicas
estatísticas. Apesar do grande esforço, reconheço que alguns detalhes ou até mesmo inacurácias
possam ter passado despercebidos e tenho consciência de que sempre há possibilidade de
aprimoramentos do texto.
Apesar de ser a única autora, houve contribuições, mesmo que indiretas, especialmente de
colaboradores em trabalhos científicos, as provenientes de discussões e/ou interações com colegas e
alunos sobre alguns tópicos tratados no livro, entre outras. Para não haver omissões, minha opção foi
não citar nomes, exceto o de Eduardo Abreu, pela sua dedicação e ajuda na preparação do livro,
fazendo inúmeras revisões e conferências do material, além de suas sugestões.
Finalmente, espero ter produzido material útil para auxiliar no dimensionamento de amostras de
estudos na área da saúde, especialmente para profissionais que não sejam da área da Estatística.
Minha expectativa é de que o cuidadoso uso do texto possa direcionar os leitores a serem capazes de
identificar fórmulas do tamanho de amostra adequadas, tal que estudos sejam dimensionados de forma
apropriada tecnicamente e aceitável do ponto de vista econômico e ético.
Capítulo 1
Considerações sobre planejamento e dimensionamento de amostras em estudos na área da saúde
1.1 Introdução
1.2 Conceitos básicos relacionados a dimensionamento de amostra
1.2.1 Critérios para determinação do tamanho da amostra
1.2.2 Significância, poder, erros do tipo I e do tipo II
1.2.3 Curva de poder
1.2.4 Tamanho mínimo do efeito (diferença mínima esperada)
1.2.5 Precisão (margem de erro), desvio absoluto e desvio relativo
1.3 Aspectos práticos relacionados a dimensionamento de amostra
1.3.1 Dificuldades na aplicação das fórmulas de tamanho de amostra
1.3.2 Alguns cuidados ou ajustes necessários na aplicação das fórmulas de tamanho de amostra
a) Uso do erro-padrão em vez do desvio-padrão
b) Ajuste para desistências
1.3.3 Estudos balanceados e não balanceados
1.3.4 Fórmulas fechadas versus solução via simulação
1.3.5 Minimização do tamanho de amostra
1.3.6 Como aumentar o tamanho da amostra de forma a atingir o poder desejado
1.3.7 Estratégia quando há mais de um desfecho primário
1.3.8 Situações mais complexas (métodos multivariados)
1.3.9 Cálculo do poder post hoc
1.3.10 Arredondamento e precisão utilizados nos cálculos
1.3.11 Indicação das fórmulas de tamanho da amostra
1.4 Considerações adicionais
1.5 Leitura recomendada
1.6 Notação utilizada no texto
1.7 Resumo do capítulo
Capítulo 2
Dimensionamento de amostras para estudos envolvendo médias
2.1 Introdução
2.2 Tamanho de amostra para estimação e testes de hipóteses para uma média para variáveis
com distribuição normal
2.2.1 Estimação de uma média no caso em que a variância é conhecida
2.2.2 Teste para uma média no caso em que a variância é conhecida
2.2.3 Teste para uma média no caso em que a variância é desconhecida
2.3 Tamanho de amostra para estimação e testes de hipóteses para duas médias no caso de
amostras independentes
2.3.1 Estimação da diferença de duas médias
2.3.2 Teste para a diferença de duas médias para três casos, dependendo se as variâncias e
tamanhos de amostras são ou não iguais
1º caso: variâncias e tamanhos iguais (𝜎!! = 𝜎!! = 𝜎 ! e 𝑛! = 𝑛! = 𝑛),
variância (𝜎 ! ) conhecida
2º caso: variâncias iguais e tamanhos desiguais (𝜎!! = 𝜎!! = 𝜎 ! e 𝑛! ≠ 𝑛! )
3º caso: variâncias e tamanhos desiguais (𝜎!! ≠ 𝜎!! e 𝑛! ≠ 𝑛! )
2.3.3 Incorporação do custo no cálculo do tamanho da amostra
2.4 Tamanho de amostra para a comparação de duas médias no caso de amostras pareadas
2.4.1 Intervalo de confiança para a diferença de médias no caso de amostras pareadas
2.4.2 Teste de hipóteses para a diferença de médias no caso de variância conhecida e
amostras pareadas
2.4.3 Teste de hipóteses para a diferença de médias no caso de variância não conhecida e
amostras pareadas
2.5 Tamanho de amostra para várias médias para variáveis com distribuição normal
2.5.1 Comparações pareadas
2.5.2 Comparações simultâneas
2.6 Considerações adicionais
2.6.1 Desconhecimento dos parâmetros que aparecem nas fórmulas de tamanho de amostra
2.6.2 Comparação de grupos de forma não paramétrica
2.7 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 3
Dimensionamento de amostras para estudos envolvendo proporções
3.1 Introdução
3.2 Tamanho de amostra para estimação e testes de hipóteses para uma proporção
3.2.1 Estimação de uma proporção
3.2.2 Teste para uma proporção
3.3 Tamanho de amostra para estimação e testes de hipóteses para proporções no caso
de duas amostras independentes
3.3.1 Estimação da diferença de duas proporções
3.3.2 Teste para a diferença de duas proporções
3.3.3 Teste para a razão de chances (odds ratio)
3.4 Tamanho de amostra para duas proporções no caso de duas amostras pareadas
3.5 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 4
Dimensionamento de amostras para planejamentos básicos de estudos epidemiológicos
e clínicos e para os esquemas amostrais tradicionais
4.1 Introdução
4.2 Estudos de coorte
4.2.1 Tamanho de amostra para estimação do risco relativo usando precisão relativa em estudos de coorte
4.2.2 Tamanho de amostra para testes de hipóteses para a diferença entre proporções
em estudos de coorte
1º caso: hipóteses bilaterais
2º caso: hipóteses unilaterais
4.3 Estudos caso-controle
4.3.1 Tamanho de amostra para estimação da razão de chances (odds ratio) usando
a precisão relativa (𝑑!"# ) em estudos caso-controle
4.3.2 Tamanho de amostra para testes de hipóteses sobre diferença entre proporções
em estudos caso-controle
1º caso: hipóteses bilaterais
2º caso: hipóteses unilaterais
4.4 Estudos com amostras pareadas ou emparelhadas para respostas categóricas
4.4.1 Tamanho de amostra para o caso de amostras pareadas (duas categorias)
4.4.2 Tamanho de amostra para o caso de amostras emparelhadas (três ou mais categorias)
4.5 Estudos transversais
4.5.1 Tamanho de amostra em estudos transversais
4.6 Ensaios clínicos controlados
4.6.1 Tamanho de amostra em ensaios clínicos controlados
4.7 Noções de amostragem e cálculos do tamanho da amostra para
os esquemas amostrais tradicionais
4.7.1 Amostragem aleatória simples (AAS)
Tamanho de amostra usando amostragem aleatória simples (AAS)
Tamanho de amostra para estimação de médias usando
amostragem aleatória simples (AAS)
Tamanho de amostra para estimação de proporções usando
amostragem aleatória simples (AAS)
4.7.2 Amostragem sistemática (AS)
Tamanho de amostra usando amostragem sistemática (AS)
4.7.3 Amostragem estratificada (AE)
Tamanho de amostra usando amostragem estratificada (AE)
Tamanho de amostra para estimação de proporções usando
amostragem estratificada (AE)
Tamanho de amostra para estimação da proporção 𝑃! com precisão absoluta
usando amostragem estratificada (AE)
Tamanho de amostra para estimação da proporção 𝑃! com precisão relativa
usando amostragem estratificada (AE)
Tamanho de amostra para estimação de médias usando
amostragem estratificada (AE)
4.7.4 Amostragem por conglomerados (AC)
Tamanho de amostra usando amostragem por conglomerados (AC)
4.7.5 Combinação dos esquemas básicos de amostragem
4.8 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 5
Dimensionamento de amostras para ensaios de não inferioridade, superioridade e equivalência
5.1 Introdução
5.1.1 Conceitos básicos
5.2 Ensaios de não inferioridade e de superioridade
5.2.1 Tamanhos de amostra de ensaios de não inferioridade para o caso de
grupos paralelos e resposta contínua (diferença de médias)
Método de amostras grandes
Método de Satterwaite
Método para o caso em que as variâncias são iguais, mas desconhecidas
5.2.2 Tamanho de amostra de ensaios de não inferioridade para o caso de
grupos paralelos e resposta binária
Teste de Wald
Teste do escore
Métodos exatos
Diferença de proporções versus odds ratio
Acurácia das fórmulas fechadas para o tamanho de amostra via o teste de Wald
e o teste do escore quando a medida odds ratio é usada
5.3 Estudos de bioequivalência
5.3.1 Tamanho de amostra em estudos de bioequivalência
5.3.2 Impacto da má-especificação de parâmetros envolvidos no cálculo do
tamanho da amostra em estudos de bioequivalência
5.3.3 Considerações finais
5.4 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 6
Dimensionamento de amostras para estudos envolvendo
correlação entre variáveis e modelos de regressão
6.1 Introdução
6.2 Correlação e regressão linear
6.2.1 Correlação e regressão linear simples
6.2.2 Tamanho de amostra para teste de correlação e regressão linear simples
6.2.3 Regressão linear múltipla
6.2.4 Tamanho de amostra em regressão linear múltipla
6.3 Regressão logística (resposta binária)
6.3.1 Modelo de regressão logística com uma variável explicativa
6.3.2 Modelo de regressão logística múltipla
6.3.3 Tamanho de amostra em modelos de regressão logística
6.4 Modelos para dados ordinais
6.4.1 Tamanho de amostra para dados ordinais
6.4.2 Comparação de métodos de cálculo de tamanho de amostra para dados ordinais
6.5 Regressão de Poisson
6.5.1 Tamanho de amostra em regressão de Poisson
6.6 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 7
Dimensionamento de amostras para métodos de sobrevivência
7.1 Introdução
7.1.1 Conceitos básicos em análise de sobrevivência
Tempo do paciente e tempo do estudo
Censura
Função de sobrevivência
Função de risco ou risco instantâneo ou de taxa de falha (hazard)
Curvas de sobrevivência
Método de Kaplan-Meier
Comparação de curvas de sobrevivência
7.2 Comparação de dois grupos em análise de sobrevivência
7.2.1 Tamanho de amostra para a comparação de funções de taxas de risco
sob a condição de riscos proporcionais
1º enfoque: cálculo do número de eventos (mortes ou de forma geral, falhas)
2º enfoque: cálculo do número total de participantes do estudo
7.2.2 Tamanho de amostra com o pressuposto de sobrevivência com distribuição exponencial
para os dois grupos e com ajuste de abandonos (dropouts) de participantes
7.3 Modelo de regressão de Cox
Modelo de Cox
Interpretação dos coeficientes
Inferência estatística
7.3.1 Tamanho de amostra para o modelo de Cox
Modelo de Cox com uma única variável binária
Modelo de Cox com uma única covariável não binária
Efeito de ajuste de covariáveis
7.4 Comparação de dois grupos em ensaios de superioridade, não inferioridade
e equivalência em análise de sobrevivência
7.4.1 Comparação de dois grupos usando o modelo exponencial
Testes de superioridade, não inferioridade e equivalência (modelo exponencial)
Tamanho de amostra para ensaios de igualdade, superioridade,
não inferioridade e equivalência (modelo exponencial)
Tamanho de amostra para ensaios de igualdade, superioridade, não inferioridade
e equivalência (modelo exponencial) com ajuste para perdas
7.4.2 Comparação de dois grupos utilizando o modelo de Cox
Testes de superioridade, não inferioridade e equivalência (modelo de Cox)
Tamanho de amostra para ensaios de não inferioridade,
superioridade e equivalência (modelo de Cox)
7.4.3 Comparação de dois grupos para ensaios de não inferioridade utilizando o teste log-rank
Tamanho de amostra para a comparação de dois grupos em ensaios
de não inferioridade utilizando o teste log-rank
7.5. Tópicos adicionais
7.5.1 Outras considerações sobre o modelo de riscos proporcionais e alternativas
7.5.2 Análise de sobrevivência para dados grupados
7.5.3 Análise de sobrevivência com eventos múltiplos
7.6 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 8
Dimensionamento de amostras para estudos de acurácia de testes diagnósticos
8.1 Introdução
8.1.1 Medidas usadas em estudos de acurácia de testes diagnósticos
Sensibilidade e especificidade
Estimação da sensibilidade e especificidade
Medidas obtidas pela combinação da sensibilidade e da especificidade
Odds ratio
Índice de Youden
Razão de verossimilhanças
Acurácia ou probabilidade de um resultado de teste correto
8.1.2 Valores de predição
8.1.3 Decisões incorretas: falso-positivo e falso-negativo
8.1.4 Testes diagnósticos baseados em variáveis contínuas
Efeito do ponto de corte na qualidade de um teste diagnóstico
Escolha do ponto de corte
Curva ROC
8.2 Tamanho de amostra para estudos de acurácia de testes diagnósticos
8.2.1 Estimação da sensibilidade e/ou especificidade
8.2.2 Teste de hipóteses ou intervalo de confiança para a comparação
da acurácia de um único teste com um valor pré-especificado
Razões de verossimilhanças
8.2.3 Utilização da curva ROC
Comparação de dois testes diagnósticos usando a diferença
entre medidas de acurácia baseadas na curva ROC
Área total sob a curva ROC
Área parcial sob a curva ROC
8.2.4 Comparação da acurácia de dois testes
Comparação de sensibilidade/especificidade no caso de grupos independentes
Comparação de sensibilidade/especificidade no caso de amostras pareadas
Estudo de equivalência de sensibilidade baseado no teste de McNemar
Teste de McNemar para amostras pareadas em estudos de acurácia
8.3 Considerações finais
8.4 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 9
Dimensionamento de amostras para estudos de concordância
9.1 Introdução
9.1.1 O coeficiente kappa com dois resultados possíveis (categorias binárias)
9.1.2 O coeficiente kappa com dois ou mais resultados possíveis (categorias multinomiais)
9.1.3 O coeficiente kappa ponderado (categorias ordinais)
9.2 Tamanho de amostra em estudos de concordância baseados no coeficiente kappa
quando há dois avaliadores
9.2.1 Tamanho de amostra em estudos de concordância usando o coeficiente kappa
quando a variável resposta apresenta apenas duas categorias
Hipóteses simples (comparação de kappa com um valor pré-especificado)
Teste de hipóteses (comparação de dois coeficientes de concordância kappa)
9.2.2 Tamanho de amostra em estudos de concordância usando o coeficiente kappa
quando a variável resposta apresenta duas ou mais categorias
Tamanho de amostra e poder do teste de concordância
Tamanho de amostra com o enfoque de intervalo de confiança
Tamanho de amostra com o enfoque de testes de hipóteses
9.2.3 Tamanho de amostra em estudos de concordância usando o coeficiente kappa ponderado
9.3 Considerações finais
9.4 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 10
Tópicos especiais em dimensionamento de amostras
10.1 Introdução
10.2 Métodos não paramétricos
10.2.1 Tamanho de amostra para testes não paramétricos no caso de uma amostra
Teste de Wilcoxon para uma amostra
Teste de Wilcoxon para dados pareados
Teste do sinal
10.2.2 Tamanho de amostra para o teste de Wilcoxon para duas amostras
(teste Wilcoxon-Mann-Whitney ou teste de Mann-Whitney)
10.2.3 Tamanho de amostra para o teste de Kruskal-Wallis (comparação de mais de dois grupos)
10.3 Modelos lineares generalizados
10.3.1 Tamanho de amostra para modelos lineares generalizados
10.4 Dados grupados e longitudinais
10.4.1 Tamanho de amostra para dados grupados e longitudinais
10.5 Poder exato
10.6 Estudos sequenciais e delineamentos adaptativos
10.7 Metanálise
10.8 Recursos computacionais para os cálculos do tamanho da amostra e/ou do poder
Capítulo 11
Implementações computacionais para dimensionamento de amostras
11.1 Introdução
11.2 Softwares para cálculo do tamanho de amostra e do poder
11.2.1 Softwares comerciais
1- Pass®
2- nQuery Advisor®
3- Minitab®
11.2.2 Softwares acadêmicos, governamentais, pacotes do software livre R e uso de planilhas Excel®
1- PS: Power and Sample Size Calculation
2- Programa desenvolvido pelo LEE para o cálculo de tamanho de amostra
para pesquisas em ciências da saúde
3- Epi Info
4- OpenEpi
5- Software livre R
a) Pacote pwr do software livre R
b) Pacote TrialSize do software livre R
c) Pacote HMISC do software livre R
d) Pacote MESS do software livre R
e) Pacote powerSurvEpi do software livre R
6- Excel®
11.3 Exemplos utilizando os recursos computacionais
11.3.1 Pacote prw do software livre R
11.3.2 Pacote TrialSize do software livre R
11.3.3 Pacote HMISC do software livre R
11.3.4 Planilhas Excel®
11.3.5 Pass®
11.3.6 nQuery Advisor®
11.3.7 Epi Info
11.4 Resumo de softwares/programas utilizados por capítulo
Referências
Apêndice A
Noções sobre inferência estatística
Apêndice B
Tabelas de números aleatórios e distribuições de probabilidades
1.1 Introdução
A unidade amostral é definida como a menor parte enumerável da população, também chamada de
elemento, e pode ser simples (por exemplo, o indivíduo) ou um conglomerado (por exemplo, um grupo,
uma escola, um hospital, um conjunto de elementos). Uma amostra pode ser probabilística, com
probabilidade de cada elemento igual ou distinta, não probabilística ou intencional. Mais detalhes
podem ser obtidos, por exemplo, em Bolfarine e Bussab (2005).
A AAS é um esquema conceitualmente simples, que serve como referência, mas não considera a
heterogeneidade da população e também nem sempre é de fácil implementação e pode ter alto custo,
por isso nem sempre é viável. A AS é um dos esquemas de amostragem mais simples para serem
implementados na prática. Para o mesmo tamanho de amostra, a precisão da AE é superior à da AAS e
tem a vantagem de considerar a heterogeneidade da população. Já o esquema AC, embora seja de baixo
custo, apresenta precisão inferior ao AAS e AE. Em resumo, para o mesmo tamanho de amostra, com a
AE é possível diminuir o erro amostral e aumentar a precisão dos estimadores que seriam obtidos pela
AAS. A AC é recomendada especialmente em populações muito grandes e dispersas. Sua principal
vantagem é a redução de custos, mas a variabilidade amostral é geralmente superior à que seria obtida
pela AAS ou AE. Em cada caso deve ser investigado qual será o esquema amostral mais adequado.
No capítulo 4 serão apresentados comentários sobre esquemas amostrais de maneira resumida bem
como algumas fórmulas de cálculo de tamanho de amostra nesse contexto. A literatura estatística sobre
este tema é vasta e diversa. Livros clássicos de técnicas de amostragem, como Kish (1965) e Cochran
(1977), além de outros mais recentes, como Silva (2004), Bolfarine e Bussab (2005) e Levy e
Lemeshow (2008), são de leitura obrigatória.
O processo de amostragem começa com a determinação do tamanho da amostra adequado para garantir
a precisão, confiabilidade e poder de generalização das informações obtidas. De maneira geral, o plano
amostral tem dois componentes interligados: o método de seleção (aleatório, por sorteio, ou não) e o
método estatístico, que será usado na análise dos dados. Um determina o outro, observados os cuidados
que cada parte exige para ser bem executada.
A chave de uma pesquisa é como e quanto amostrar. A representatividade da população na amostra, ou
validade, é assegurada pelo planejamento científico da pesquisa, que pode, grosso modo, ser dividida
nas seguintes etapas: formulação do problema; escolha do tipo de estudo (experimental ou
observacional, aleatorizado); escolha da unidade amostral (paciente, família, enfermaria, hospital,
bairro, cidade, turma de escola, etc.); escolha dos fatores que devem ser incluídos no estudo (hábitos
pessoais, história da doença na família, etc.); escolha das variáveis que serão consideradas; definição de
critérios de inclusão e exclusão dos elementos; adoção de procedimentos claros, simples, reprodutíveis
e acordados pela comunidade científica, pelos quais os tratamentos serão alocados às unidades
amostrais; coleta de dados; produção de resultados; análise dos resultados e relatório contendo as
conclusões; discussão das limitações do estudo e possíveis aprimoramentos para pesquisas futuras.
A Estatística exerce importante papel em todas essas etapas, como ferramenta da organização da
acumulação e validação do conhecimento.
Estudo na área da saúde pode ser observacional ou experimental (por exemplo, para comparar
medicamentos e tratamentos). Neste segundo tipo, o pesquisador interfere de maneira deliberada no
curso natural dos acontecimentos, em contraposição aos estudos observacionais. Naturalmente, existem
questões éticas envolvidas, mas que são disciplinadas pela Convenção de Helsinque. O protocolo do
estudo é avaliado por um comitê de ética.
No Brasil, a Resolução 196/96, emitida em 1996 pelo Conselho Nacional de Saúde, regulamentou os
aspectos éticos envolvendo seres humanos. Foi substituída e atualizada pela Resolução 466/2012, que
foi publicada em 13 de junho de 2013 no Diário Oficial da União e encontra-se disponível na Internet.
A Comissão Nacional de Ética em Pesquisa (CONEP) tem como principal atribuição examinar
aspectos éticos das pesquisas que envolvem seres humanos. Também é de responsabilidade da Conep
elaborar e atualizar as diretrizes e normas para a proteção dos participantes de pesquisa, além de
coordenar a rede de Comitês de Ética em Pesquisa das instituições.
Os protocolos de todos os estudos envolvendo seres humanos devem ser submetidos a um Comitê de
Ética em Pesquisa (CEP). Os estudos devem atender a todos os requisitos éticos necessários a uma
pesquisa científica realizada com seres humanos, tais como a participação voluntária, a privacidade dos
participantes e a confidencialidade de informações. O estudo deve começar após sua aprovação no CEP
e assinatura por todos os voluntários no documento chamado consentimento livre e esclarecido.
Pesquisas na área de saúde realizadas com cobaias também estão sujeitas às normas das boas práticas
em pesquisa e aprovação por um comitê de ética para uso de animais. Em algumas instituições é
denominado Comitê de Ética em Experimentação Animal (CETEA).
Estudo observacional pode ser: descritivo, analítico (coorte, caso-controle, de corte transversal) ou
ecológico. O estudo experimental é chamado de ensaio clínico aleatorizado ou ensaio clínico
controlado e o termo mais usado na comunidade médica é ensaio clínico randomizado. O planejamento
(delineamento ou desenho) de um estudo depende basicamente do seu tipo (por exemplo, se
observacional ou experimental, se prospectivo, retrospectivo ou de corte transversal, etc.) e da forma
como a amostra vai ser coletada (por exemplo, se há ou não pareamento, além do tipo de amostragem).
O roteiro para o planejamento de um estudo na área da saúde consiste basicamente em: a) explicitar
os objetivos e as hipóteses de pesquisa; b) especificar claramente a população-alvo; c) listar as
variáveis a serem consideradas; d) determinar o tamanho da amostra e esquematizar os métodos de
coletar os dados, incluindo o tipo de amostragem; e) preparar o questionário, a ficha de coleta de dados
ou, de forma geral, o instrumento que deve ser validado, caso isso não tenha sido feito em estudos
anteriores; f) especificar o cronograma do estudo; g) submeter o projeto/protocolo do estudo a um
comitê de ética em pesquisa; h) selecionar a amostra e coletar os dados; i) editar, codificar e entrar os
dados de forma eletrônica e fazer a consistência dos mesmos; j) analisar os dados; k) relatar os achados.
Aspecto importante do planejamento na maioria dos estudos é o tamanho da amostra (𝑛), isto é, o
número de participantes ou, de forma mais geral, de unidades amostrais. O dimensionamento da
amostra deve ser específico a cada situação e obviamente deve ser adequado para se obter a desejada
precisão – o valor de 𝑛 não deve ser menor nem maior do que seria necessário.
No capítulo 4 serão apresentados, de forma resumida, alguns tipos de delineamentos de estudos na área
da saúde, como tipo caso-controle, de coorte, transversal e ensaio clínico controlado. No capítulo 5
também é citado brevemente o estudo de bioequivalência.
De forma geral, pode-se dizer que o principal objetivo de ensaios clínicos é demonstrar a eficácia e
segurança de medicamentos e tratamentos. Além disso, tais estudos podem ser usados para encontrar
novos usos e mesmo o aprimoramento de drogas e tratamentos já existentes. Em geral, ensaios clínicos
são muito caros e quase sempre trabalhosos, frequentemente complexos, envolvendo muitos recursos
financeiros, pessoais e mesmo demanda de tempo considerável. Assim, é fundamental o bom
planejamento do estudo, sendo que o tamanho da amostra é um dos elementos.
Se existe um tratamento comprovadamente eficaz, seria eticamente inaceitável alocar mais pacientes ao
tratamento a ser testado. Assim, no cálculo do tamanho de amostra de um ensaio clínico, devem-se
levar em consideração as características dos participantes (pacientes), demandas clínicas, financeiras e
aspectos éticos e gerais do estudo.
Métodos de dimensionamento de amostra devem ser específicos a cada tipo de dados: binários,
ordinais, contínuos (por exemplo, normal), de sobrevivência, etc. Além disso, sempre que possível
deve-se fazer o cálculo para o tipo de análise estatística que deverá ser feita. Por exemplo, se será
utilizada regressão logística, o dimensionamento deve ser feito para esta técnica estatística e cálculos
para métodos mais simples, como baseados em proporções, devem ser evitados.
Como já comentado, a maioria dos ensaios clínicos é bem complexa. Entretanto, para o
dimensionamento da amostra é aceitável fazer certas simplificações, como, por exemplo, inicialmente
fazer os cálculos apenas para a variável considerada mais importante. Posteriormente, o tamanho da
amostra deve ser ajustado por alguns fatores, tais como desistências, covariáveis, a fim de obter um
número suficiente de indivíduos tal que a avaliação estatística seja válida.
O dimensionamento de amostras frequentemente é determinado por fórmulas fechadas, aproximadas ou
não. Embora fórmulas fechadas sejam práticas e convenientes, suas acurácias variam e podem até
mesmo ser questionadas. Por exemplo, Kupper e Hafner (1989) discutem se algumas fórmulas simples
e difundidas de tamanho da amostra são apropriadas. Eventualmente, soluções alternativas podem ser
preferidas. Fórmulas fechadas podem ser calculadas manualmente, isto é, com auxílio de calculadoras
ou usando tabelas que são disponíveis em muitos textos e sites. A utilização de tabelas específicas para
tamanho de amostra ou poder em geral não é um procedimento muito prático e acurado, já que
apresenta a limitação de ter a solução apenas para as entradas da tabela. Em muitos casos, há grande
sensibilidade a alterações dos termos envolvidos nas fórmulas, isto é, para valores relativamente
próximos de um termo que entra na fórmula, os tamanhos da amostra correspondentes são bem
distintos. Este fato é ilustrado em alguns exemplos no texto.
Acredita-se que atualmente o quadro tenha melhorado, mas ainda há necessidade de mais atenção para
este tópico em trabalhos de pós-graduação e em geral em publicações científicas na área da saúde.
1.2 Conceitos básicos relacionados a dimensionamento de amostra
O dimensionamento de amostras pode ser direcionado para a estimação de parâmetros ou para testes de
hipóteses sobre eles. Kupper e Hafner (1989) fornecem evidências empíricas de que ocorre
subestimação com as fórmulas de dimensionamento de amostra destinadas à estimação, mas que as
fórmulas que incorporam o poder do teste funcionam muito bem, mesmo para situações de pequenas
amostras, ao menos no caso de comparação de duas médias.
Por outro lado, outros autores, como Gardner e Altman (1986) e Bland (2009), argumentam a tendência
a dimensionar amostras utilizando intervalos de confiança em vez dos tradicionais valores-p.
Tal conduta é muito mais interessante pela dificuldade de interpretar testes de significância,
especialmente quando o resultado não for significante. De fato, vários periódicos têm sugerido que o
método baseado em intervalos de confiança seja preferido e foi até mesmo endossado pelo
Consolidated Standards of Reporting Trials (CONSORT) como forma padrão para a apresentação de
ensaios clínicos. O CONSORT é um manual a respeito dos ensaios clínicos, criado na década de 90 e
que apresenta uma série de recomendações.
Neste texto, serão apresentados os dois enfoques (estimação e testes de hipóteses) para o
dimensionamento de amostra, sendo que em muitas situações serão consideradas as duas versões.
Noções básicas sobre inferência estatística estão abordadas no Apêndice A.
De forma geral, os critérios estabelecidos na determinação do tamanho da amostra são: precisão, erros
associados a testes de hipóteses, alguma estrutura da população estudada (por exemplo, razão entre o
número de casos e controles ou entre indivíduos expostos a um determinado fator em relação aos não
expostos), custo ou, ainda, a combinação de alguns deles.
Como definido no Apêndice A, 𝛼 e 𝛽 denotam as probabilidades dos erros tipo I e II. O nível de
confiança e o poder do teste associados são, respectivamente, 1 − 𝛼 e 1 − 𝛽. Assim, o intervalo será
construído com nível de confiança de (1 − 𝛼)100% e o poder do teste, o complementar do erro do
tipo II, será fixado em (1 − 𝛽)100 %. Para o nível de significância mais comum (5%), o
correspondente intervalo teria 95% de confiança.
Em muitas situações, são utilizadas aproximações pela distribuição normal e os percentis dependem do
procedimento com que se vai trabalhar: intervalo de confiança, teste de hipótese bilateral ou unilateral.
Para a notação usual são apresentados no Quadro 1.1 os percentis (𝑧) mais utilizados na prática, por
exemplo, 𝑧1−𝛼/2 para hipóteses bilaterais e 𝑧1−𝛼 para hipóteses unilaterais.
Se houver testes alternativos, naturalmente será escolhido aquele que tiver mais poder. Em geral,
quanto maior o tamanho da amostra (𝑛), maior será o poder correspondente e tipicamente a função
cresce monotonicamente com 𝑛, embora em alguns casos (por exemplo, para resposta binária) a função
não tem tal comportamento, aparentando uma serra.
Em geral, fixa-se um valor do poder, frequentemente 80%, 85%, 90%, 95% ou até mesmo 99%, mas
especialmente para variáveis discretas, o poder real, isto é, o valor atingido, não é exatamente o valor
fixado, como mostrado na Figura 1.2, referente à saída do Pass®14: note a diferença entre o poder
fixado em 90% (Target Power) e o poder real (Actual Power). Trata-se do dimensionamento de
amostras quando duas curvas ROC são comparadas. Este assunto será discutido no capítulo 8 e a saída
do Pass®14 para essa situação será comentada no capítulo 11.
(a) Tipo de dados: contínuo
Figura 1.2 - Saída (Output) do Pass®14 referente ao dimensionamento de amostras quando duas curvas
ROC são comparadas, com destaque para o poder fixado (Target Power) e poder real (Actual Power)
para dois tipos de dados (contínuo e discreto).
1.2.3 Curva de poder
Quando se fala em um único valor de poder, significa que foi fixado um valor do parâmetro na hipótese
alternativa. Na realidade, para tamanho de amostra 𝑛, pode-se construir a curva de poder, que consiste
em colocar no eixo vertical o valor do poder (1 − 𝛽) para vários valores do parâmetro testado (em
geral, de forma padronizada) no eixo horizontal.
Como exemplo, considere-se a situação em que há interesse em testar as seguintes hipóteses sobre uma
média (𝜇), 𝐻0 : 𝜇 = 𝜇0 = 67 versus 𝐻1 : 𝜇 ≠ 67, supondo-se que a variável estudada tem distribuição
normal, que o desvio-padrão (𝜎) é conhecido e igual a 3, que o tamanho de amostra é 25 (𝑛 = 25) e
que o nível de significância é fixado em 5% (𝛼 = 0,05). A Figura 1.3 apresenta a curva do poder
(1 − 𝛽) em função de alguns valores de 𝜇 (que por estarem no eixo 𝑥 serão chamados de 𝑥), em torno
𝜎 𝜎 𝜎 𝜎 𝜎 𝜎
de 𝜇0 : {𝜇0 − 3 ; 𝜇0 − 2 ; 𝜇0 − 1 ; 𝜇0 ; 𝜇0 + 1 ; 𝜇0 + 2 ; 𝜇0 + 3 } = {65,2; 65,8; 66,4;
√ 𝑛 √ 𝑛 √ 𝑛 √ 𝑛 √ 𝑛 √𝑛
0,6
0,5
0,4
Poder
0,3
0,2
0,1
0,0
65,5 66,0 66,5 67,0 67,5 68,0 68,5
x
O número de pacientes necessários para se fazer uma comparação adequada dos efeitos de dois
tratamentos depende da magnitude da diferença entre eles a ser detectada, denominada tamanho do
efeito, tamanho mínimo do efeito ou diferença mínima esperada.
Podem-se procurar diferenças de todas as magnitudes, mas para detectar diferenças muito pequenas são
necessárias amostras grandes, o que na prática pode ser inviável. Por outro lado, para detectar
diferenças grandes entre os grupos a serem comparados, por exemplo, grandes efeitos terapêuticos,
pouquíssimos pacientes precisam ser recrutados, mas isso pode não interessar na prática.
Em outras palavras, a diferença mínima esperada mede a menor diferença da comparação entre os
grupos que o investigador gostaria que o estudo detectasse. Quanto menor for a diferença mínima
esperada, maior será o tamanho da amostra necessário para detectar a significância estatística.
A definição da diferença mínima esperada é subjetiva e é baseada em julgamento clínico e na
experiência com o problema investigado. Os resultados de estudos-pilotos ou de uma revisão da
literatura também podem orientar a seleção de uma diferença mínima razoável.
Uma distinção que deve ser feita aqui é entre o efeito estatisticamente significativo e o efeito
clinicamente relevante; na maioria das vezes, eles são coincidentes. Quando não o forem, deve-se
discutir e interpretar cuidadosamente essa discrepância.
A precisão 𝑑𝑎𝑏𝑠 é especificada diretamente e na mesma unidade da estimativa que se pretende calcular.
Já para 𝑑𝑟𝑒𝑙 a precisão não é direta e sim proporcional, isto é, é expressa como porcentagem em relação
ao verdadeiro parâmetro.
Nomenclatura alternativa para precisão que aparece na literatura é margem de erro. Uma pergunta de
interesse é qual é a margem de erro aceitável. Barros e Victora (1998) exemplificam com o problema
de desnutrição infantil cuja prevalência supostamente seria esperada em torno de 10%. Argumentam
que não seria razoável fixar o erro em 10% nem em 1%, mas um valor de 3% poderia ser escolhido.
Além da identificação da forma apropriada para o cálculo do tamanho da amostra, uma grande
dificuldade encontrada na prática diz respeito aos valores populacionais desconhecidos que aparecem
nas fórmulas. Para se ter ideia de tais valores, são utilizados como fontes estudos anteriores realizados
em populações e condições semelhantes, estudos-pilotos e estudos-pilotos internos, em que os dados
iniciais são posteriormente incorporados ao estudo (BIRKETT e DAY, 1994, entre outros).
Outro procedimento estatístico altamente recomendável é a análise de sensibilidade, que consiste em
variar os parâmetros e/ou termos envolvidos nas fórmulas entre um leque de valores plausíveis e então
determinar o tamanho que seja viável na prática.
1.3.2 Alguns cuidados ou ajustes necessários na aplicação das fórmulas de tamanho de amostra
Em várias situações, deve-se tomar cuidado com as informações necessárias para o cálculo do tamanho
de amostra. Por exemplo, no dimensionamento de médias, tipicamente é necessário entrar com o valor
do desvio-padrão (𝐷𝑃). Como já comentado, quase sempre tais valores são desconhecidos, sendo
portanto necessário buscar as informações em artigos científicos. Nem sempre, o 𝐷𝑃 aparece explícito
na publicação, mas muitas vezes pode ser recuperado, por exemplo, a partir de um
intervalo de confiança.
Um erro comum é a utilização do erro-padrão (𝐸𝑃) que tipicamente é bem menor que o 𝐷𝑃 e é o valor
que aparece com mais frequência em artigos científicos. Por exemplo, seja uma variável aleatória 𝑋
com distribuição normal, 𝑋~𝑁(𝜇, 𝜎), 𝜎 = 𝐷𝑃. A média obtida a partir de uma amostra de tamanho 𝑛
𝜎 𝜎
(𝑋̅) também tem distribuição normal, 𝑋̅~𝑁(𝜇, ); o erro-padrão da média é 𝐸𝑃(𝑋̅) = . Se 𝐷𝑃 =
√𝑛 √𝑛
𝜎 100
𝜎 = 100 e 𝑛 = 100, 𝐸𝑃(𝑋̅) = = = 10, ou seja, neste caso, 𝐸𝑃(𝑋̅) = 10 é 10 vezes menor que
√𝑛 10
𝐷𝑃 = 100. Como será discutido no capítulo 2, um fato intuitivo é que quanto menor o valor de 𝐷𝑃,
menor será 𝑛. Assim, se no cálculo do tamanho da amostra for usado 𝐸𝑃 no lugar de 𝐷𝑃, o tamanho de
amostra (𝑛) será bem menor do que o necessário.
Em Altman e Bland (2005) da série de notas sobre Estatística publicadas no British Medical Journal,
são encontrados alguns comentários sobre 𝐷𝑃 e 𝐸𝑃.
b) Ajuste para desistências
Para os cálculos de tamanho de amostra/poder, deve-se levar em conta que os pacientes elegíveis
podem desaparecer, recusar a participar do estudo ou até mesmo desistir. Além disso, a equipe
responsável pelo estudo pode falhar no registro de pacientes elegíveis. Assim, uma recomendação é
aumentar o tamanho de amostra em 10 a 20%, mas nem sempre isso é possível.
Em geral, há a possibilidade de se planejar estudos balanceados ou não, isto é, grupos com tamanhos de
amostra iguais ou diferentes. O caso balanceado é o mais comum, mesmo porque em geral proporciona
simplificações nos desenvolvimentos do tamanho de amostra, sendo que muitas vezes não é possível ou
é bastante complexo o desenvolvimento para o caso não balanceado. O desbalanceamento pode ocorrer
por diversos motivos, por exemplo, em consequência às desistências dos participantes, e não por
planejamento do estudo.
Um ponto importante é sobre a razão ótima entre o número de pacientes com e sem a condição
estudada. Poder máximo é geralmente atingido tendo igual número de observações nos grupos - quando
há balanceamento - embora isso nem sempre seja possível e ideal e, neste caso, fórmulas apropriadas
devem ser utilizadas. Dependendo da doença investigada, pode ser mais fácil recrutar pacientes com ou
sem a doença. Nessas situações, um planejamento balanceado pode não ser prático. Além disso, nem
sempre um delineamento balanceado é ótimo.
Existem também questões particulares a determinado tipo de planejamento. Por exemplo, Taylor
(1986) discute como o tamanho da amostra, o poder e a eficiência de um teste estatístico estão
relacionados ao número de controles em um estudo caso-controle com emparelhamento.
Nos capítulos seguintes, a grande maioria das fórmulas apresentadas é específica para estudos
balanceados e em alguns casos é incluído o caso mais geral de estudos não balanceados.
A forma mais tradicional e prática de calcular o tamanho de amostra ou poder do teste é utilizar
fórmulas fechadas. Em situações em que tais fórmulas não existem, métodos de simulação podem ser
utilizados como importante ferramenta geral.
Landau e Stahl (2013) discutem o cálculo do poder e do tamanho de amostra em estudos médicos por
meio de simulação quando expressões fechadas não são disponíveis. Exemplificam com três situações
práticas bastante importantes: estudos longitudinais quando há desistências; estudos observacionais
com erros de medição; ensaios clínicos aleatorizados para estimativa de efeito causal quando
não há conformidade.
Beam (1992) ressalta que quando dois testes diagnósticos são comparados, se for adotado o
delineamento pareado no qual cada paciente é submetido aos dois testes, o poder dos testes estatísticos
é sempre superior ou igual ao não pareado (amostras independentes) e que o poder para hipóteses
unilaterais é sempre maior do que o de bilaterais. Naturalmente, quanto mais poder, maior a
possibilidade de redução do tamanho de amostra.
Browner et al. (2015) listam várias estratégias para minimizar o tamanho de amostra e maximizar o
poder. Uma delas é usar medidas contínuas em vez de adotar categorias. É muito comum expressar o
resultado do diagnóstico de doenças em termos binários (por exemplo, alternado ou normal; tipo de
lesão classificada como pequena ou grande, etc.). Para tamanho fixo de amostra, a utilização da medida
real em vez da proporção referente à categoria produz aumento de poder. Isso acontece porque, para o
mesmo tamanho da amostra, testes estatísticos que incorporam a utilização de valores contínuos são
mais poderosos do que os que utilizam proporções. Outra estratégia para minimizar o tamanho da
amostra é utilizar medidas mais precisas e esquemas de dados pareados, como já comentado no
parágrafo anterior.
Frequentemente os resultados de estudos isolados não são decisivos porque cada estudo inclui poucos
pacientes ou escassos eventos clínicos. Consequentemente, as estimativas de medidas de interesse
(média, proporção, risco relativo, razão de chances, etc.) desses estudos são instáveis e há risco
acentuado de se obter “resultado negativo” associado ao erro do tipo II - a não identificação de
diferença realmente existente. Uma possível solução consiste na agregação de resultados de vários
estudos, procedimento conhecido como estudo multicêntrico, geralmente cada um com pequeno
tamanho de amostra, para formar um estudo com grande tamanho de amostra. A contribuição de cada
estudo pode ser ponderada de acordo com seu tamanho. A vantagem é que esse procedimento pode
resultar em poder estatístico adequado para detectar diferenças significativas se elas existem.
É particularmente útil quando a doença e/ou os resultados dos eventos de interesse são raros.
O planejamento de um estudo multicêntrico exige cuidados especiais, como a uniformização de
protocolos e de condutas.
Se houver mais de um desfecho e um deles for considerado mais importante do que os outros, ele pode
servir como base para o cálculo do tamanho de amostra. Um problema surge quando existem vários
desfechos considerados igualmente importantes. Estratégia comumente adotada é repetir os cálculos do
tamanho da amostra para cada desfecho, um de cada vez, e em seguida selecionar o maior número
como o tamanho da amostra necessário para responder a todas as perguntas de interesse.
Os dados de muitos estudos são coletados por meio de questionários e uma pergunta frequente que
surge é sobre o número de questionários (portanto, o número de participantes, ou seja, o tamanho de
amostra do estudo) necessários para garantir a precisão desejada. Alguns comentários sobre quantos
questionários são suficientes estão disponíveis em https://intentionalmuseum.com/2016/02/24/sample-
size-how-many-questionnaires-is-enough/. Na literatura não há muito material sobre a determinação do
tamanho da amostra nesse contexto, portanto, sendo necessário fazer algumas adaptações da
metodologia, mas isso não será tratado neste texto.
Cohen (1988) dedica um capítulo a métodos multivariados e Ryan (2013) apresenta alguns comentários
e referências sobre o assunto. No software Pass® há alguns métodos de cálculo de tamanho de amostra
para métodos multivariados.
1.3.9 Cálculo do poder post hoc
O cálculo do poder é sabidamente útil no planejamento de estudos. Há vasta literatura e até mesmo um
costume difundido entre pesquisadores de, no final do estudo, fazer o cálculo do poder referente ao
tamanho de amostra do estudo. Assim, o cálculo do poder é feito depois que os dados forem coletados e
analisados. Em outras palavras, se o estudo já foi realizado, alternativamente pode-se calcular o poder
associado ao tamanho de amostra considerado. Os cálculos de poder post hoc são em geral feitos
quando os resultados não são significantes. Naturalmente, o grau de dificuldade encontrado é
exatamente o mesmo nos dois procedimentos: fixar o tamanho da amostra e determinar o poder ou
dimensionar a amostra de forma a obter determinado poder. O ponto principal é se o cálculo do poder
a posteriori faz sentido. Vários autores argumentam que não!
Hoenig e Hensey publicaram, em 2001, um artigo com um curioso título cuja tradução é “O abuso de
poder: a falácia generalizada de cálculos de poder para análise de dados”. Os autores apresentam vários
argumentos, mostrando que a abordagem de cálculo de poder post hoc é falha. A proposta deles é a
utilização da equivalência de testes de hipótese e intervalo de confiança.
Walters (2009) debate sobre a polêmica questão do poder post hoc, não aprovando tal abordagem.
O método alternativo mais interessante e recomendado por ele e outros autores, como no site pessoal de
Lenth (2001) e Hoenig e Heisey (2001) é utilizar intervalos de confiança.
Na regra básica de arredondamento, os dígitos excedentes devem ser descartados se o último deles é
menor que cinco e, caso contrário, o último dígito retido é acrescido de um. Por exemplo, se os dados
forem anotados como 87,72; 90,58 e 98,04, então os arredondamentos para apenas uma casa decimal
serão, respectivamente, 87,7; 90,6 e 98,0. Já em dimensionamento de amostra, a convenção é sempre
arredondar o valor obtido para cima, isto é, o inteiro imediatamente superior, e não usar a regra básica
de arredondamento. Por exemplo, se o cálculo do tamanho de amostra fornece o valor 652,33, deve-se
arredondar para 653. Para os números citados anteriormente (87,72; 90,58 e 98,04), o arredondamento
para cima resulta em 88, 91 e 99.
Algumas fórmulas são bastante sensíveis à precisão dos dados, isto é, número de casas decimais
utilizado nos cálculos. Esse fato será demonstrado no capítulo 11 para dimensionamento de amostra
pelo método não paramétrico para dados ordinais (exemplo 6.6 do capítulo 6).
1.3.11 Indicação das fórmulas de tamanho da amostra
Nas fórmulas de tamanho de amostra, é sempre correto escrever 𝑛 ≥ ⋯ em vez de 𝑛 = ⋯ (ou seja, usar
o sinal de ≥ no lugar do sinal de igualdade depois de 𝑛), já que um valor superior certamente atenderá
ao critério estabelecido - um tamanho de amostra maior sempre atende às condições preestabelecidas.
Essa duplicidade de indicação nas fórmulas aparece em artigos, livros e textos sobre o assunto.
Entretanto, por uniformidade, neste texto será utilizado apenas o sinal de igualdade.
A equipe de pesquisadores deve ter domínio dos procedimentos de identificação e recrutamento dos
indivíduos que deverão participar do estudo, das técnicas de medidas ou variáveis em geral, da análise
dos dados, além da forma de apresentar e divulgar os resultados. A obtenção da amostra é uma questão
central, já que, além de garantir boa representatividade da população, a quantidade de elementos
amostrados é essencial para o poder de generalização das conclusões.
A boa interação entre profissionais das áreas de Estatística e do estudo considerado é de extrema
importância, desde o planejamento da pesquisa, incluindo o tamanho da amostra, até a análise e
interpretação dos resultados dos métodos aplicados. Assim, um aspecto importante é que o responsável
pelos cálculos, especialmente se for da área da Estatística, tenha pelo menos conhecimentos básicos da
área da pesquisa e que se envolva o máximo possível com a equipe que vai conduzir o estudo e não se
ater apenas aos aspectos técnicos/estatísticos.
Antes de iniciar o estudo, além do importante problema de determinar qual o tamanho de amostra que
garanta suficiente poder de teste para o nível de confiança desejado, deve-se sondar se há condições
que permitam a realização da pesquisa, como, por exemplo, se o tempo a ser gasto para incorporar o
número necessário de pacientes é viável, além do custo e outros fatores para a execução do estudo.
O planejamento de um estudo, e em particular o dimensionamento adequado de amostras, apresenta
ainda outras características que devem ser mencionadas e que serão comentadas a seguir.
Não realizar estudos sem capacidade de detectar potenciais diferenças entre os grupos pode ser melhor
do que publicar resultados “negativos”, que não indicam diferença dos grupos, por questões ligadas ao
planejamento e aos métodos estatísticos. Um dos problemas que podem acompanhar a não detecção de
diferença significativa em um estudo é o tamanho de amostra insuficiente. Freiman et al. publicaram,
em 1978, importante trabalho sobre a influência do pequeno tamanho dos grupos de ensaios clínicos
“negativos”. Em cada uma das 71 publicações revisadas, todas com variável discreta como desfecho
principal (redução de mortalidade ou do número de pacientes com complicações, por exemplo),
fixando-se o nível de significância em 5% (𝛼 = 0,05), estudou-se a probabilidade de erro tipo II (𝛽)
resultante. Considerando clinicamente importante uma redução de 25% em relação ao controle,
somente quatro ensaios (5,63%) possuíam tamanho que garantia poder de pelo menos 90%
(𝛽 ≤ 0,10), o padrão de ensaios clínicos. Concluíram que, mais do que a ausência de diferença entre os
grupos, existia a incapacidade de detectá-la.
Caso ocorra interrupção precoce, o poder do estudo também pode ser avaliado. Em ensaios clínicos, o
compromisso ético determina a necessidade de se testar periodicamente as hipóteses de interesse para
se interromper o estudo se for constatada ineficácia da nova terapia, sua superioridade ou efeitos
adversos claramente superiores. Este é um dos princípios básicos de estudos sequenciais. Como já
comentado, se o tamanho da amostra não for adequado, pode ter como consequência a não detecção de
eventuais diferenças dos tratamentos. O recomendado é não finalizar o estudo enquanto não se tenha
alcançado um número de indivíduos que garanta poder de teste suficiente.
A possibilidade de se incorporar a estrutura dos dados ao cálculo do tamanho de amostra, por exemplo,
se as amostras serão independentes ou pareadas, é de vital importância. Também se deve ter em mente
que a característica e o tipo da variável de interesse, o tipo de estudo, além do método de amostragem
adotado, interferem no dimensionamento de amostra.
1.5 Leitura recomendada
Neste capítulo foi apresentada uma compilação dos principais conceitos gerais ligados ao tema de
tamanho de amostra e poder de teste. Comentários adicionais e mais detalhes podem ser obtidos nos
dois primeiros capítulos de Chow et al. (2008) e especialmente no primeiro capítulo da tese de Tracy
(2009), disponível na Internet. Além disso, no quadro 1.3 são citados vários textos, alguns até com
títulos curiosos. Alguns tópicos resumidos anteriormente foram parcialmente extraídos destes textos,
mas a leitura completa e cuidadosa é fortemente recomendada.
Houve tentativa de unificação de notação nos capítulos seguintes, embora nem sempre tenha sido
completamente possível. A notação básica está listada a seguir para evitar alguma dúvida ou no caso de
eventual omissão:
1. 𝑛 designa o tamanho de amostra. Em vários casos, houve a introdução de índices para distinguir a
situação e/ou o método considerado.
Nos quadros 1.4 a 1.7 apresentam-se resumos, incluindo as principais ideias sobre dimensionamento de
amostras, os cuidados ao se utilizar uma fórmula e/ou comparar métodos, erros comuns que devem ser
evitados e recomendações no processo de dimensionamento de amostras.
É errôneo pensar que quanto maior for o tamanho da população (𝑁), maior terá que ser o tamanho da
amostra (𝑛). As fórmulas mostram que a relação de 𝑛 em função de 𝑁 é crescente, mas se estabiliza
à medida que 𝑁 aumenta. Em outras palavras, para se ter uma amostra representativa, não
necessariamente se deve tomar determinado percentual do tamanho da população.
Este capítulo é sobre a determinação do tamanho da amostra em estudos envolvendo médias para uma,
duas ou várias amostras. No caso de duas amostras, são considerados grupos paralelos ou não.
Entende-se por planejamento de grupos em paralelo o caso em que as amostras são independentes. Não
sendo independentes, as amostras podem ser, por exemplo, pareadas.
O caso de várias médias é analisado pelo modelo de análise de variância (ANOVA) com apenas um
fator. Para o dimensionamento de amostras utilizam-se comparações pareadas e simultâneas.
2.2 Tamanho de amostra para estimação e testes de hipóteses para uma média para
variáveis com distribuição normal
Nesta seção considera-se o dimensionamento para médias no caso de uma amostra. Um exemplo típico
é o estudo clínico com único braço, no qual a intervenção é aplicada a um grupo de participantes do
estudo. Supõe-se que a variável de interesse 𝑋 tenha distribuição normal com média 𝜇 e variância 𝜎 2 .
2.2.1 Estimação de uma média no caso em que a variância é conhecida
Para uma amostra de tamanho 𝑛, um intervalo aproximado com (1 − 𝛼)100% de confiança é dado por
(𝑥̅ − 𝑧1−𝛼/2 𝜎/√𝑛; 𝑥̅ + 𝑧1−𝛼/2 𝜎/√𝑛), sendo 𝑥̅ a média amostral e 𝑧1−𝛼/2 o percentil de ordem
(1 − 𝛼/2)100% da normal padrão.
Especificando que o máximo comprimento do intervalo de confiança (IC) permitido seja, por exemplo,
2𝐷, resulta que 𝐷 = 𝑧1−𝛼/2 𝜎/√𝑛. O tamanho de amostra (𝑛) é o que satisfaz a equação apresentada e
é dado por:
𝑧1−𝛼/2 𝜎 2 (𝑧1−𝛼/2 )2 𝜎 2
𝑛=( ) = (2.1)
𝐷 𝐷2
Nota-se que à medida que o nível de significância diminui e a variância aumenta, 𝑛 aumenta, mas sua
relação com 𝐷 é inversa, já que este termo aparece no denominador, ou seja, quanto menor for 𝐷,
maior deverá ser o valor de 𝑛, o que é intuitivo.
Exemplo 2.1 - Tamanho de amostra para a estimação de uma média no caso em que a variância
é conhecida ╬╬
Suponha-se que a variável aleatória nível da hemoglobina (𝑋) em mulheres jovens com determinada
faixa etária gozando de boa saúde tenha distribuição normal com desvio-padrão de 1 g/dL. A questão é
a determinação do tamanho de amostra necessário para realizar um estudo que tenha como objetivo
estimar a média de 𝑋, fixando-se o nível de significância em 5% e o comprimento do IC em 0,4, ou
1
seja, 𝐷 = 0,2. Pela fórmula (2.1), 𝑛 = (1,96)2 × (0,2)2 = 96,04. Assim, deverão ser recrutadas
97 mulheres.
Para grupos de mulheres com outras características, por exemplo, com diagnóstico de determinada
doença e/ou em outras faixas etárias, espera-se que a variabilidade seja superior e, consequentemente,
também o tamanho de amostra vai aumentar. A Tabela 2.1 ilustra algumas possibilidades, mantendo-se
constante o valor de 𝐷.
Tabela 2.1 - Cálculo de tamanho de amostra (𝑛), utilizando a fórmula (2.1), para
estimação de uma média (𝜇) no caso em que a variância (𝜎 2 ) é conhecida
𝜎 2 (g/dL)2 𝜎 (g/dL) 𝑛
1 1 97
2,25 1,5 217
4 2 385
6,25 2,5 601
9 3 865
Nota: nível de significância = 5%; 𝐷 = 0,2.
Por exemplo, tomando-se por referência o grupo de menor variabilidade (𝜎 = 1), quando o desvio-
padrão dobra (𝜎 = 2), o tamanho da amostra torna-se praticamente quatro vezes maior (385/97=3,97);
se o desvio-padrão é o triplo do valor inicial, o tamanho de amostra correspondente aumenta quase
nove vezes (865/97=8,92).
2
(𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎 2
𝑛= (2.2)
(𝜇 − 𝜇0 )2
Pela fórmula (2.2) percebe-se claramente que há relação de aumento do tamanho da amostra (𝑛) à
medida que o valor da variância (𝜎 2 ) cresce. Isso é importante especialmente se durante a execução do
estudo houver suspeita de que a variância que está sendo encontrada na amostra é superior àquela
utilizada no cálculo de 𝑛. Além disso, ao fixar menor erro do tipo I (nível de significância 𝛼) e maior
poder (1 − 𝛽), há necessidade de aumentar 𝑛. Por outro lado, quanto menor a diferença esperada entre
a média 𝜇 e o valor de referência 𝜇0 (𝜇 − 𝜇0 ), maior deverá ser 𝑛.
Para testar hipóteses unilaterais, por exemplo, 𝐻0 : 𝜇 = 𝜇0 e 𝐻1 : 𝜇 > 𝜇0 , basta substituir 𝑧1−𝛼/2 por
𝑧1−𝛼 , o percentil de ordem (1 − 𝛼)100% da normal padrão, ou seja, o tamanho da amostra é
2
(𝑧1−𝛼 +𝑧1−𝛽 ) 𝜎2
𝑛= . Ryan (2013) apresenta apenas a fórmula para o caso unilateral e discute a validade
(𝜇−𝜇0 )2
do cálculo do poder no caso de hipóteses bilaterais, o que não chega a ser unanimidade na literatura.
Exemplo 2.2 - Tamanho de amostra para teste de uma média no caso em que a variância
é conhecida ╬╬
2
2 (𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎 2 (1,96 + 1,2816)2 100
10 = 100 𝑛= = = 42,03 ≅ 43
(𝜇 − 𝜇0 )2 52
2
2 (𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎 2 (1,96 + 1,2816)2 225
15 = 225 𝑛= = = 94,57 ≅ 95
(𝜇 − 𝜇0 )2 52
Na fórmula (2.2) deve-se substituir a variância teórica (𝜎 2 ) pela variância amostral (𝜎̂ 2 ) e os percentis
da normal padrão pelos da distribuição 𝑡 de Student. Fixando-se o nível de significância em 𝛼 e o poder
do teste em (1 − 𝛽), a fórmula para o tamanho da amostra fica então:
(𝑡1−𝛼,𝑛−1 + 𝑡1−𝛽,𝑛−1 )2 𝜎̂ 2
𝑛= (2.3)
(𝜇 − 𝜇0 )2
Embora aparentemente seja uma fórmula simples, a solução de (2.3), 𝑛, deve ser resolvida de forma
iterativa, já que os percentis da distribuição 𝑡 são função de 𝑛. Para hipóteses bilaterais, basta substituir
(𝑡1−𝛼/2,𝑛−1 +𝑡1−𝛽,𝑛−1 )2 𝜎
̂2
𝑡1−𝛼,𝑛−1 por 𝑡1−𝛼/2,𝑛−1 , neste caso, a fórmula (2.3) torna-se 𝑛 = .
(𝜇−𝜇0 )2
Exemplo 2.3 - Tamanho de amostra para teste de uma média no caso em que a variância
é desconhecida
Para ilustrar a utilização da fórmula (2.3), vamos considerar poder de 80%, 𝛼 = 0,05, 𝜇 = 52,
𝜇0 = 50, 𝜎̂ = 3 e hipótese unilateral. Assumindo que o desvio-padrão seja conhecido (𝜎 = 3),
utilizando-se a fórmula (2.2) para hipótese unilateral (substituir 𝑧1−𝛼/2 por 𝑧1−𝛼 ), obtém-se
2
(𝑧1−𝛼 +𝑧1−𝛽 ) 𝜎2 (1,64+0,84)2 32
𝑛= = = 13,84, ou seja, 𝑛 = 14 participantes do estudo devem ser
(𝜇−𝜇0 )2 (52−50)2
2.3 Tamanho de amostra para estimação e testes de hipóteses para duas médias no
caso de amostras independentes
Assim como na seção para uma amostra (seção 2.2), nesta será considerado o dimensionamento para
duas amostras no contexto de estimação e testes de hipóteses.
Sejam 𝑋1 e 𝑋2 as variáveis de interesse referentes aos grupos 1 e 2, cujas médias são 𝜇1 e 𝜇2 e suas
variâncias são 𝜎12 e 𝜎22 , respectivamente. As seções a seguir mostram formas de determinação do
tamanho de amostra dos dois grupos: 𝑛1 e 𝑛2 .
A diferença entre as médias de duas populações independentes 𝜇1 − 𝜇2 é estimada pela diferença das
médias amostrais 𝑥̅1 − 𝑥̅2 . Lembrando que a variância do estimador da diferença das médias (𝑋̅1 − 𝑋̅2 )
é 𝑉𝑎𝑟(𝑋̅1 − 𝑋̅2 ) = 𝑉𝑎𝑟(𝑋̅1 ) + 𝑉𝑎𝑟(𝑋̅2 ) = 𝜎12 /𝑛1 + 𝜎22 /𝑛2 e assumindo homocedasticidade
(𝜎12 = 𝜎22 = 𝜎 2 ), 𝑉𝑎𝑟(𝑋̅1 − 𝑋̅2 ) = 𝜎 2 /𝑛1 + 𝜎 2 /𝑛2 = 𝜎 2 (1/𝑛1 + 1/𝑛2 ). Além disso, se os grupos têm
tamanhos iguais (𝑛1 = 𝑛2 = 𝑛), 𝑉𝑎𝑟(𝑋̅1 − 𝑋̅2 ) = 2𝜎 2 /𝑛.
O desvio da estimativa de 𝜇1 − 𝜇2 em relação ao valor verdadeiro em ambas as direções é dado por
𝐷 = 𝑧1−𝛼/2 √2𝜎 2 /𝑛. Alternativamente, 𝐷 pode ser pensado como a diferença mínima a ser detectada.
Assim, o tamanho da amostra para as situações em que se quer estimar as médias nos dois grupos
estudados é:
(𝑧1−𝛼/2 )2 (2𝜎 2 )
𝑛= (2.4)
𝐷2
Exemplo 2.4 - Tamanho de amostra para estimação da diferença de duas médias no caso em que
a variância é conhecida ╬╬
2.3.2 Teste para a diferença de duas médias para três casos, dependendo se as variâncias e
tamanhos de amostras são ou não iguais
Para os casos discutidos a seguir, supõe-se que a variável analisada siga a distribuição normal. De
forma esquemática, para os dois grupos (1 e 2), 𝑋1𝑗 ~𝑁(𝜇1 , 𝜎12 ), 𝑗 = 1, ⋯ , 𝑛1 e 𝑋2𝑗 ~𝑁(𝜇2 , 𝜎22 ),
𝑗 = 1, ⋯ , 𝑛2 .
Para testar as hipóteses 𝐻0 : 𝜇1 = 𝜇2 versus 𝐻1 : 𝜇1 ≠ 𝜇2 , são considerados três casos que podem
acontecer na prática: variâncias e tamanhos iguais, variâncias iguais, mas grupos com tamanhos
desiguais e variâncias e tamanhos desiguais.
Estipula-se que a razão entre os tamanhos de amostras dos dois grupos seja 𝛾 = 𝑛2 /𝑛1 . Assim, o
problema consiste em calcular o tamanho de amostra do grupo 1 (𝑛1 ), já que o do grupo 2 está
determinado a partir do primeiro: 𝑛2 = 𝛾𝑛1 .
1º caso: variâncias e tamanhos iguais (𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 e 𝒏𝟏 = 𝒏𝟐 = 𝒏), variância (𝝈𝟐 ) conhecida
normal padrão.
A fórmula para cálculo do tamanho de amostra para cada um dos dois grupos (𝑛1 = 𝑛2 = 𝑛, portanto,
o tamanho de amostra total é 2𝑛) e que incorpora o nível de significância (𝛼) e o poder do teste
(1 − 𝛽), além da diferença mínima das médias que se quer detectar (𝐷), é dada por:
2
2𝜎 2 (𝑧1−𝛼/2 + 𝑧1−𝛽 ) (2.5)
𝑛=
𝐷2
Exemplo 2.5 - Tamanho de amostra com o enfoque de teste para diferença de duas médias
no caso de variâncias e tamanhos iguais ╬╬
Para verificar-se a existência de diferença no tempo médio de permanência na instituição entre dois
grupos submetidos à cirurgia abdominal eletiva e não eletiva, é necessário calcular os tamanhos de
amostras necessários para detectar diferença mínima de dois dias entre os grupos (𝐷 = 2) para nível de
significância de 5% (𝛼 = 0,05) e poder igual a 0,90 e 0,80. Sabendo-se que o desvio-padrão do tempo
de permanência no hospital é idêntico nos dois grupos e que seu valor é igual a quatro dias (𝜎 = 4),
utilizando-se a fórmula (2.5), obtêm-se 85 e 63, respectivamente.
Se fosse utilizada a fórmula (2.4), que não leva em consideração o poder do teste, mantendo 𝛼 = 0,05,
o tamanho de amostra seria 31, muito inferior aos valores obtidos a partir de (2.5). Para 𝛼 = 0,01 e
𝛼 = 0,10, os tamanhos de amostra são 54 e 22, respectivamente.
Guenther (1981) derivou fórmulas simples para calcular tamanho de amostra baseado no teste 𝑡 de
Student que utiliza a variância combinada, supondo a igualdade das variâncias dos dois grupos (ver,
por exemplo, capítulo 7 de SIQUEIRA e TIBÚRCIO, 2011).
Schouten (1999) apresenta fórmulas que são a extensão do trabalho de Guenther, válidas para a
situação em que os tamanhos das amostras são diferentes. Além disso, considera também o caso de
heterocedasticidade, isto é, variâncias dos dois grupos diferentes. Nos dois casos, mostra qual é a
situação em que os custos totais são mínimos. Inicialmente, é apresentada a conhecida fórmula para se
obter poder ≥ 1 − 𝛽. O número de elementos no primeiro grupo (𝑛₁) é dado por:
1+𝛾 𝜎 2
𝑛₁ = (𝑡𝑣;1−𝛼/2 + 𝑡𝑣;1−𝛽 )2 ( )( ) (2.6)
𝛾 𝜇1 − 𝜇2
Como os percentis 𝑡𝑣;1−𝛼/2 e 𝑡𝑣;1−𝛽 que aparecem em (2.6) dependem de 𝑛1 e 𝑛2 , a solução deve ser
obtida de forma iterativa. Uma simplificação muito comum, válida para amostras “grandes”, é a
substituição dos percentis da distribuição 𝑡 de Student pelos da distribuição normal padrão. Assim, a
fórmula (2.6) seria reescrita como:
1+𝛾 𝜎 2
𝑛₁ ≅ (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( )( ) (2.7)
𝛾 𝜇1 − 𝜇2
O procedimento é utilizado em dois passos. Primeiro, obtém-se por meio da fórmula (2.7) o valor de 𝑛₁
(portanto, os graus de liberdade correspondentes) e, em seguida, o percentil da distribuição 𝑡 é usado
para a aplicação da fórmula (2.6). Ainda assim, é uma forma de cálculo aproximada.
Utilizando o trabalho de Guenther (1981), Schouten (1999) deriva uma fórmula simples que
aproximadamente fornece os mesmos resultados da solução exata e que é especialmente útil nos casos
de amostras pequenas. Seguindo os detalhes técnicos da seção 2 de Schouten (1999), chega-se que a
fórmula de 𝑛₁ que garante poder ≥ (1 − 𝛽) é dada por:
1+𝛾 𝜎 2 (𝑧1−𝛼/2 )2
𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( )( ) + (2.8)
𝛾 𝜇1 − 𝜇2 2(1 + 𝛾)
De qualquer maneira, a melhor opção para o cálculo é utilizar algum software especializado,
como o Pass®14.
Para as três situações consideradas, as fórmulas (2,6), (2.7) e (2.8), o tamanho de amostra total é
𝑛1 + 𝑛2 , sendo que 𝑛2 é obtido a partir da relação 𝛾 = 𝑛2 /𝑛1 . Em outras palavras, primeiro calcula-se
𝑛1 pela fórmula (2.6), (2.7) ou (2.8) e depois 𝑛2 é obtido por 𝑛2 = 𝛾𝑛1 .
O Quadro 2.4 resume os resultados das fórmulas (2.6), (2.7) e (2.8). Para a aplicação da fórmula (2.6) é
necessário um software específico em que tenha sido implementado algum algoritmo apropriado. Por
exemplo, o software Pass®14 fornece as seguintes soluções: 𝑛1 = 17; 𝑛2 = 34 (correspondendo ao
poder real de 90,985%).
Alternativamente, uma solução aproximada pode ser obtida iniciando-se com o valor do percentil da
normal padrão. Por exemplo, pela fórmula (2.7), 𝑛1 = 16, 𝑛2 = 32, tal que 𝜈 = 16 + 32 − 2 = 46 e
𝑡𝜈;1−𝛼/2 = 2,01290, 𝑡𝜈;1−𝛽 = 1,30023 tal que 𝑛1 = 17 e 𝑛2 = 34 a partir da simplificação do uso
da fórmula (2.6).
Os resultados obtidos pelas fórmulas são exatamente os mesmos ou diferem de apenas um elemento
no grupo 1. Dependendo dos valores dos termos que aparecem nas fórmulas, pode haver diferença
mais acentuada.
Quadro 2.4 - Cálculos de tamanho de amostra utilizando as fórmulas (2.6), (2,7) e (2.8)
Fórmula 𝑛1 𝑛2
2
1+𝛾 𝜎 2 × 17
𝑛1 = (𝑡𝑣;1−𝛼/2 + 𝑡𝑣;1−𝛽 )2 ( ) (𝜇 ) = 17 (Pass®14)
𝛾 1 −𝜇2 = 34
2
1+𝛾 𝜎
𝑛1 = (𝑡𝑣;1−𝛼/2 + 𝑡𝑣;1−𝛽 )2 ( ) (𝜇 ) (2.6).
𝛾 1 −𝜇2
Por simplificação, iniciando com os percentis da normal
padrão, fórmula (2.7):
(2.6) 1+𝛾 𝜎 2
𝑛1 ≅ (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( ) (𝜇 ) = 2 × 17
𝛾 1 −𝜇2
3 4 2 = 34
(1,96 + 1,28)2 2 (4) = 15,75 ≅ 16. Os graus de liberdade
são 𝜈 = 𝑛1 + 𝑛2 − 2 = 16 + 32 − 2 = 46 e 𝑡𝜈;1−𝛼/2 =
2,01290, 𝑡𝜈;1−𝛽 = 1,30023. Substituindo os valores em
3 0,5 2
(2.6): 𝑛1 = (2,01290 + 1,30023)2 2 (0,5) = 16,47 ≅ 17.
1+𝛾 𝜎 2
(2.7) 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 ( )( ) 2 × 16
𝛾 𝜇1 − 𝜇2
3 4 2 = 32
= (1,96 + 1,28)2 2 (4) = 15,75 ≅ 16
1+𝛾 𝜎 2 (𝑧1−𝛼/2 )2
(2.8) 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 ) ( 2
)( ) + 2 × 17
𝛾 𝜇1 − 𝜇2 2(1 + 𝛾)
3 4 2 1,96 = 34
= (1,96 + 1,28)2 2 (4) + = 16,07 ≅ 17
6
Quando não é assumido que as variâncias são iguais, o teste de Smith-Welch-Satterthwaite (𝑆𝑊𝑆) pode
ser utilizado para a comparação de médias. A estatística do teste é 𝑆𝑊𝑆 = (𝑥̅1 − 𝑥̅2 )/𝑆𝐸,
𝑆𝐸 = √𝑠12 /𝑛₁ + 𝑠22 /𝑛2 , sendo (𝑥̅1 ; 𝑥̅2 ) e (𝑠12 ; 𝑠22 ), respectivamente, as médias e as variâncias amostrais
dos dois grupos. Sob 𝐻0 , 𝑆𝑊𝑆 tem distribuição 𝑡 de Student com graus de liberdade que dependem de
𝑛₁, 𝑛2 e de 𝜏 = 𝜎22 /𝜎12 .
Schouten (1999) mostra que para se obter poder do teste ≥ (1 − 𝛽) em hipóteses bilaterais, o número
de elementos do grupo 1 (𝑛1 ) depende: a) dos percentis 𝑧1−𝛼/2 e 𝑧1−𝛽 da distribuição normal padrão,
correspondentes ao nível de significância 𝛼 e ao poder (1 − 𝛽), respectivamente; b) da razão entre as
variâncias (𝜏 = 𝜎22 /𝜎12 ); c) da razão entre as alocações dos dois grupos (𝛾 = 𝑛2 /𝑛1 ); d) da diferença
das médias a ser detectada (𝜇1 − 𝜇2 ). A expressão para 𝑛1 é dada por:
𝜏+𝛾
2
𝜎1 2 𝜏2 + 𝛾 3
𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 ) ( )( ) + (𝑧 )2 (2.9)
𝛾 𝜇1 − 𝜇2 2𝛾(𝜏 + 𝛾)2 1−𝛼/2
(𝜏+𝛾)𝜎12
Naturalmente a fórmula (2.9) pode ser reescrita como 𝑛1 = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 × 𝛾(𝜇 2
+
1 −𝜇2 )
𝜏2 +𝛾3
(𝑧1−𝛼/2 )2, como aparece em Schouten (1999).
2𝛾(𝜏+𝛾)2
Na prática, uma questão importante no dimensionamento do estudo é incorporar o custo. Supondo que
os custos unitários dos tratamentos 1 e 2 sejam, respectivamente, 𝑐1 e 𝑐2 , o custo total é 𝑛1 𝑐1 + 𝑛2 𝑐2 .
Pode-se mostrar que, para o caso de variâncias iguais, ao se utilizar a fórmula (2.7), o custo total
mínimo é obtido quando a razão 𝑛2 /𝑛1 é estabelecida de acordo com a seguinte condição:
𝑐1
𝛾𝑚𝑖𝑛 = √ (2.10)
𝑐2
Para o caso de variâncias desiguais, a condição para se obter custo total mínimo utilizando a
fórmula (2.10) negligenciando o último termo é:
𝜎2 𝑐1 𝜎22 𝑐1
𝛾𝑚𝑖𝑛 = √ = √ (2.11)
𝜎1 𝑐2 𝜎12 𝑐2
Para o caso particular em que 𝑐1 = 𝑐2 = 1, o custo total mínimo acontece quando 𝑛2 /𝑛1 = 𝜎2 /𝜎1 .
Exemplo 2.7 - Tamanho de amostra para a comparação das médias de dois tratamentos
levando-se em consideração os custos ╬╬
𝑛 𝑐
Nessas condições, segundo a fórmula (2.10) o custo total mínimo acontece se 𝛾 = 𝑛2 = √𝑐1 = √4 = 2,
1 2
(1+𝛾)𝜎2
ou seja, 𝑛2 = 2𝑛1. Assim, pela fórmula (2.7), 𝑛₁ = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 = (1,96 +
𝛾(𝜇1 −𝜇2 )2
(1+2)10
1,28)2 = 39,3660. Portanto, 𝑛₁ = 40, 𝑛2 = 80 e o total da amostra é 𝑛₁ + 𝑛2 = 120.
2(2)2
Caso 2: A suposição de homocedasticidade não é razoável e por estudos anteriores estima-se que a
variância do tratamento 2 seja o dobro da variância do tratamento 1, que é igual a 10 (𝜎₁² = 10 e
𝜎22 = 20 ⟺ 𝜏 = 𝜎22 /𝜎12 = 2)
𝑛 𝜎2 𝑐
Nessas condições, segundo a fórmula (2.11), o custo total mínimo acontece se 𝛾 = 𝑛2 = √𝜎22 𝑐1 =
1 1 2
𝑛 𝜎2 𝑐
Nessas condições, segundo a fórmula (2.11), o custo total mínimo acontece se 𝛾 = 𝑛2 = √𝜎22 𝑐1 =
1 1 2
é 𝑛₁ + 𝑛2 = 179.
No planejamento do estudo, deve-se tomar cuidado para que as características importantes dos
indivíduos que integram o mesmo par sejam tão semelhantes quanto possível. O tratamento é
administrado a um dos elementos do par e o outro é mantido como controle. Como os indivíduos no
par são semelhantes, exceto no que se refere ao tratamento recebido, a principal vantagem do
procedimento é isolar na medida do possível o efeito do tratamento. Em algumas situações o par é
constituído do mesmo indivíduo em duas ocasiões diferentes.
O pareamento é muito utilizado em planejamento de estudos da área da saúde, tanto para variáveis
quantitativas, em especial contínuas, como para respostas binárias (discutido no capítulo 3). Além da
situação em que medidas são tomadas no mesmo indivíduo, por exemplo, em ocasiões diferentes, o
esquema de pareamento inclui o delineamento em que um caso é pareado com um controle, tendo
como objetivo o controle de eventuais fatores de confusão. Nesses exemplos, as amostras são pareadas
e não independentes.
Para amostras pareadas, por exemplo, na situação de uma medida basal e a outra após o tratamento, a
ideia fundamental é trabalhar com a diferença das medidas dentro de cada par, já que ela reflete o efeito
do tratamento.
O autopareamento ocorre quando o indivíduo serve como seu próprio controle, como na situação em
que recebe duas drogas administradas em ocasiões diferentes. Por exemplo, o nível de colesterol foi
medido antes e depois do programa. A comparação de dois órgãos no mesmo indivíduo, como braços,
pernas, olhos, narinas, segundo alguma característica estudada, também constitui um autopareamento.
O pareamento natural consiste em formar pares tão homogêneos quanto possível, controlando os
fatores que possam interferir na resposta, sendo que o pareamento aparece de forma natural.
Por exemplo, em experimentos de laboratório, podem-se formar pares de cobaias selecionadas da
mesma ninhada; em investigações clínicas, gêmeos univitelinos são muitos usados.
Na prática, podem existir dificuldades no conhecimento das características que devem ser controladas e
mesmo as conhecendo pode ser difícil formar pares homogêneos, como, por exemplo, no caso em que
o número de fatores é muito alto. Em muitas situações, embora desejável, torna-se difícil ou mesmo
impossível a implementação do planejamento com amostras pareadas.
A situação de interesse é a comparação de dois grupos com variável resposta contínua e com o
planejamento de amostras pareadas. A variável resposta é denotada por X1 e 𝑋2, respectivamente, para
os dois grupos a serem comparados e os dados são pares de observações:
(𝑥11 , 𝑥21 ), (𝑥12 , 𝑥22 ), ⋯ , (𝑥1𝑛 , 𝑥2𝑛 ).
Para cada par, toma-se a diferença das duas observações: 𝑑1 = 𝑥11 − 𝑥21 , 𝑑2 = 𝑥12 − 𝑥22 , ⋯ ,
𝑑𝑛 = 𝑥1𝑛 − 𝑥2𝑛 . A partir dessas diferenças, a média e o desvio-padrão são calculados da forma usual:
∑ 𝑛 𝑛
∑ (𝑑𝑖 −𝑑) ̅ 2
𝑑𝑖
𝑑̅ = 𝑖=1 e 𝑠𝑑 = √ 𝑖=1𝑛−1 . Outra notação adotada para 𝑠𝑑 é 𝜎̂𝑑 .
𝑛
2.4.1 Intervalo de confiança para a diferença de médias no caso de amostras pareadas
O intervalo de (1 − 𝛼)100% de confiança para a média das diferenças (𝜇𝑑 ) ou, equivalentente, para a
𝑠𝑑 𝑠𝑑
diferença das médias (𝜇1 − 𝜇2 ) dos dois grupos é dado por: (𝑑̅ − 𝑡1−𝛼/2;𝑛−1 ; 𝑑̅ + 𝑡1−𝛼/2;𝑛−1 ).
√𝑛 √𝑛
torno de 𝑑̅.
Assumindo que a variância das diferenças (𝜎𝑑2 ) seja conhecida, o intervalo de (1 − 𝛼)100% de
𝜎 𝜎
confiança para a média das diferenças (μd ) é dado por: (𝑑̅ − 𝑧1−𝛼/2 𝑛𝑑 ; 𝑑̅ + 𝑧1−𝛼/2 𝑛𝑑 ).
√ √
(𝑧1−𝛼/2 )2 𝜎𝑑2
𝑛= (2.12)
𝐷2
Se a variância 𝜎𝑑2 não for conhecida, ela pode ser estimada a partir de um estudo-piloto ou obtida por
outra forma, por exemplo, de informações de estudos preliminares similares. O raciocínio para obter a
fórmula do tamanho de amostra no caso em que o parâmetro 𝜎𝑑2 é desconhecido é o mesmo que o
anterior, bastando trocar o percentil da normal padrão (𝑧1−𝛼/2 ) pelo da 𝑡 de Student. Neste caso,
a solução é numérica e fixando-se o comprimento do intervalo de (1 − 𝛼)100% de confiança em 2𝐷
(ou metade igual a 𝐷), a fórmula para o tamanho de amostra é dada por:
(𝑡1−𝛼/2;𝑛−1 )2 𝜎̂𝑑2
𝑛= (2.13)
𝐷2
Supondo que 𝜎𝑑 = 4 e que o comprimento do intervalo seja 2 (𝐷 = 1), para construir intervalo de 95%
(𝑧1−𝛼/2 )2 𝜎𝑑2
de confiança para a média das diferenças 𝜇𝑑 pela fórmula (2.12) chega-se a 𝑛 = =
𝐷2
(1,96)2 (4)2
= 61,47, ou seja, 62 participantes.
12
Supondo agora que a variância não seja conhecida, a solução obtida pelo software Pass® 14 é 𝑛 = 64,
o mesmo resultado obtido pela fórmula (2.13) após arredondamento para cima e empregando o
̂𝑑2
(𝑡1−𝛼/2;𝑛−1 )2 𝜎 (1,99962)2 (4)2
mesmo raciocínio descrito no exemplo 2.6: 𝑛 = = = 63,9757. Assim,
𝐷2 12
De maneira geral, o problema de comparação de dois grupos, com médias μ1 e μ2 , é formulado pelas
hipóteses 𝐻0 : 𝜇1 = 𝜇2 versus 𝐻1 : 𝜇1 ≠ 𝜇2 , que é equivalente a testar 𝐻0 : 𝜇1 − 𝜇2 = 0 versus
𝐻1 : 𝜇1 − 𝜇2 ≠ 0. Entretanto, no caso de amostras pareadas, é o mesmo que fazer testes para a média
das diferenças (𝜇𝑑 ). Assim, a hipótese de diferença de médias (𝜇1 − 𝜇2 ) é igual à hipótese da média
das diferenças (𝜇𝑑 ).
Nesta seção considera-se uma situação não muito encontrada na prática em que a variância das
diferenças (𝜎𝑑2 ) é conhecida, mas que é ilustrativa em termos de tamanho de amostra. Neste caso, a
estatística do teste é 𝑍 = 𝑑̅ /𝜎𝑑 , sendo 𝑑̅ a média, cuja fórmula foi apresentada no início da seção 2.4.
A fórmula para o desvio-padrão das diferenças é 𝜎𝑑 = 𝜎X1 − X2 = √𝜎𝑋21 + 𝜎𝑋22 − 2𝜎𝑋1 𝑋2 , sendo 𝜎𝑋1 𝑋2 a
covariância entre 𝑋1 e 𝑋2 , que também pode ser escrita em termos da correlação (𝜌𝑋1 𝑋2 ) e dos desvios-
padrão das duas variáveis (𝜎𝑋1 e 𝜎𝑋2 ): 𝜎𝑋1 𝑋2 = 𝜌𝑋1 𝑋2 𝜎𝑋1 𝜎𝑋2 .
Como os dados são transformados nas diferenças (𝑑1 , 𝑑2 , ⋯ , 𝑑𝑛 ), o tamanho de amostra (𝑛) é similar
ao caso do teste para uma média, dado pela fórmula (2.2), substituindo-se 𝜇 − 𝜇0 e 𝜎 por 𝜇𝑑 e 𝜎𝑑 ,
respectivamente. Para testar hipóteses bilaterais, 𝑛 é dado por:
2
(𝑧1−𝛼/2 + 𝑧1−𝛽 ) 𝜎𝑑2
𝑛= (2.14)
𝜇𝑑
Para testar hipóteses unilaterais, basta substituir o percentil 𝑧1−𝛼/2 por 𝑧1−𝛼 . A fórmula (2.14) torna-se,
2
então, 𝑛 = (𝑧1−𝛼 + 𝑧1−𝛽 ) 𝜎𝑑2 /𝜇𝑑 .
Exemplo 2.9 - Tamanho de amostra para o teste para a diferença de médias supondo-se que a
variância seja conhecida no caso de amostras pareadas ╬╬
Sabe-se que os desvios-padrão das duas medidas são iguais e numericamente iguais a cinco
(𝜎𝑋1 = 𝜎𝑋2 = 5) e que a correlação entre as variáveis é 0,80 (𝜌𝑋1 𝑋2 = 0,80). Portanto, o desvio-padrão
da diferença é calculado como 𝜎𝑑 = √𝜎𝑋21 + 𝜎𝑋22 − 2𝜎𝑋1 𝑋2 = √𝜎𝑋21 + 𝜎𝑋22 − 2𝜌𝑋1 𝑋2 𝜎𝑋1 𝜎𝑋2 =
Fixando o nível de significância em 5% e o poder em 80%, a aplicação da fórmula (2.14) com hipótese
2
(𝑧1−𝛼 +𝑧1−𝛽 ) 𝜎𝑑2 (1,645+0,84)2 10
unilateral será 𝑛 = = = 61,75. Dessa forma, será necessário recrutar 62
𝜇𝑑 1
A Tabela 2.2 mostra os resultados da aplicação da fórmula (2.14) para vários valores da correlação
entre as variáveis, mantendo as outras entradas constantes: 𝜇𝑑 = 1, 𝜎𝑋1 = 𝜎𝑋2 = 5, 𝛼 = 0,05 e poder
de 80%. Nota-se que à medida que a correlação entre as duas variáveis (𝜌𝑋1 𝑋2 ) diminui, o tamanho da
amostra (𝑛) aumenta.
Tabela 2.2 - Tamanhos de amostras (𝑛), obtidos pela fórmula (2.14), para diversos valores de
coeficientes de correlação entre as variáveis (𝜌𝑋1 𝑋2 ) para poder 80% e nível de significância de 5%
𝜌𝑋1 𝑋2 𝑛
0,01 307
0,05 294
0,10 279
0,20 248
0,30 217
0,40 186
0,50 155
0,60 124
0,70 93
0,80 62
0,85 47
0,90 31
0,95 16
0,99 4
Nota: 𝜇𝑑 = 1, 𝜎𝑋1 = 𝜎𝑋2 = 5
2.4.3 Teste de hipóteses para a diferença de médias no caso de variância não conhecida
e amostras pareadas
Considerando a mesma formulação anterior, mas agora para a situação mais realística em que a
variância não é conhecida, o teste 𝑡 para amostras pareadas é utilizado para testar as hipóteses de
diferença de média de dois grupos. Para testar as hipóteses 𝐻0 : 𝜇𝑑 = 0 versus 𝐻1 : 𝜇𝑑 ≠ 0, a estatística
𝑑̅
do teste é 𝑡𝑑 = , sendo 𝑛 o número de pares, 𝑑̅ e 𝑠𝑑 , respectivamente, a média e desvio-padrão,
𝑠𝑑 /√𝑛
cujas fórmulas foram apresentadas no início da seção 2.4. Nesse caso, a distribuição de referência é a 𝑡
de Student com (𝑛 − 1) graus de liberdade. A regra do teste consiste em rejeitar 𝐻0 se
|𝑡𝑑 | ≥ 𝑡𝑛−1; 1−𝛼/2 , sendo 𝑡𝑛−1; 1−𝛼/2 o percentil de ordem (1 − 𝛼/2)100% da distribuição 𝑡 de Student
com (𝑛 − 1) graus de liberdade.
Para hipóteses unilaterais, a modificação da regra de decisão citada anteriormente para hipóteses
bilaterais é apenas trocar o percentil da distribuição de referência. Por exemplo, para testar as hipóteses
𝐻0 : 𝜇𝑑 ≤ 0 versus 𝐻1 : 𝜇𝑑 > 0, rejeita-se 𝐻0 se 𝑡𝑑 ≥ 𝑡𝑛−1; 1−𝛼 , sendo 𝑡𝑛−1; 1−𝛼 o percentil de ordem
(1 − 𝛼)100% da distribuição 𝑡 de Student com (𝑛 − 1) graus de liberdade.
Assim como no teste para comparação de duas médias no caso de amostras independentes “grandes”,
a distribuição da estatística do teste para médias com alto número de pares (𝑛) pode ser aproximada
pela distribuição normal, ou seja, o valor da estatística apresentada (do teste 𝑡) pode ser comparado ao
percentil da distribuição normal padrão (z). Neste caso, para testar 𝐻0 : 𝜇𝑑 = 0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 : 𝜇𝑑 ≠ 0,
rejeita-se 𝐻0 se 𝑑̅/(𝑠𝑑 /√𝑛) = 𝑑̅/(𝜎̂𝑑 /√𝑛) ≥ 𝑧1−𝛼/2 . Esta pode ser uma aproximação interessante em
termos de fórmula para tamanho de amostra, pela facilidade de cálculo.
Utilizando o teste 𝑡, o tamanho de amostra pode ser uma simples modificação da fórmula (2.13), que
para hipóteses bilaterais é dado por:
2
(𝑡1−𝛼/2,𝑛−1 + 𝑡1−𝛽,𝑛−1 ) 𝜎̂𝑑2
𝑛= (2.15)
𝜇𝑑
Como explicado anteriormente, para hipóteses unilaterais basta substituir o percentil 𝑡1−𝛼/2,𝑛−1 por
2
̂𝑑2
(𝑡1−𝛼,𝑛−1 +𝑡1−𝛽,𝑛−1 ) 𝜎
𝑡1−𝛼,𝑛−1 , tornando-se a fórmula (2.15): 𝑛 = .
𝜇𝑑
Exemplo 2.10 - Tamanho de amostra com o enfoque de teste de hipóteses para a diferença de
médias supondo-se variância não conhecida no caso de amostras pareadas
Com as mesmas informações do exemplo 2.9, o resultado obtido pelo software Pass® 14 é 𝑛 = 64 e o
poder correspondente é 0,80495. A partir desse resultado (𝑛 = 64), pode-se fazer mais uma
2
̂𝑑2
(𝑡1−𝛼,𝑛−1 +𝑡1−𝛽,𝑛−1 ) 𝜎
verificação da fórmula (2.15), com a adaptação para o caso unilateral: 𝑛 = =
𝜇𝑑
2
̂𝑑2
(𝑡1−𝛼,64−1 +𝑡1−𝛽,64−1 ) 𝜎 (1,66940+0,84736)2 10
= = 63,34. Arredondado esse número para cima, chega-se ao
𝜇𝑑 1
No exemplo 2.9, os dois desvios-padrão e a correlação foram assumidos conhecidos, mas na prática
eles precisam ser estimados, por exemplo, a partir de um estudo-piloto. Para as medidas antes e depois,
especialmente as últimas, e para outros tipos de dados pareados, pode ser inviável estimar desvios-
padrão, sendo, portanto, necessário assumir que a variabilidade antes e depois seja a mesma, ainda que
seja um pressuposto muito instável.
2.5 Tamanho de amostra para várias médias para variáveis com distribuição
normal
Análise de variância (ANOVA, abreviatura que vem do inglês, ANalysis Of VAriance) é um conjunto
de técnicas estatísticas apropriadas para a comparação de vários grupos (por exemplo, tratamentos),
tendo como resposta uma variável quantitativa (𝑌), sendo que a média é a medida usada para
caracterizar o grupo. Apesar do nome, análise de variância é uma técnica estatística relativa a teste para
médias e não de variâncias! Pode ser aplicada em vários tipos de delineamentos: um fator, dois ou mais
fatores (experimentos fatoriais ou hierárquicos), completos ou incompletos, balanceados (mesmo
tamanho de amostra para todos os grupos) ou não balanceados.
Nesta seção será considerada apenas a ANOVA com um fator (em inglês, One-Way ANOVA ou
Single-Factor ANOVA). Uma discussão sobre o dimensionamento de amostra para outros
planejamentos experimentais pode ser encontrada, por exemplo, no capítulo 6 de Ryan (2013).
Considere-se a situação de 𝑘 grupos balanceados a serem comparados, cada grupo com 𝑛 observações.
O modelo para a ANOVA com um fator é 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 , 𝑖 = 1,2, ⋯ , 𝑘, 𝑗 = 1,2, ⋯ , 𝑛
sendo 𝑦𝑖𝑗 a observação do 𝑗-ésimo indivíduo no 𝑖-ésimo tratamento, 𝜇 é a média geral, 𝜏𝑖
e 𝜇𝑖 = 𝜇 + 𝜏𝑖 são, respectivamente, o efeito e a média do 𝑖-ésimo tratamento e 𝜀𝑖𝑗 é o erro
aleatório não observável.
Para o modelo considerado, supõe-se que 𝜀𝑖𝑗 ~𝑁(0, 𝜎 2 ) e que cada uma dessas variáveis são
mutuamente independentes. Consequentemente, as respostas são independentes e seguem o modelo
normal, isto é, 𝑌𝑖𝑗 ~𝑁(𝜇𝑖 , 𝜎 2 ), e os grupos apresentam a mesma variabilidade, havendo
homocedasticidade.
Quando o resultado do teste 𝐹 for significante, o próximo passo é fazer comparações múltiplas e a
questão que pode ser levantada é como elas afetam na determinação do tamanho de amostra.
Witte et al. (2000) tratam desse assunto no contexto do ajuste de Bonferroni. Outras referências sobre
determinação do tamanho de amostra relacionadas a comparações múltiplas são: Schwertman (1987),
Pan e Kupper (1999) e Bang et al. (2005).
A referência para as seções a seguir sobre cálculo de poder e cálculo do tamanho de amostra para
comparações pareadas e simultâneas é o trabalho de Chow et al. (2008).
Na prática, há interesse em fazer comparações de médias dos tratamentos duas a duas. Neste caso, as
hipóteses de interesse são 𝐻0 : 𝜇ℎ = 𝜇𝑙 versus 𝐻1 : 𝜇ℎ ≠ 𝜇𝑙 , para alguns pares (ℎ, 𝑙). Como são 𝑘
tratamentos (ou grupos), há 𝑘(𝑘 − 1)/2 possíveis comparações.
√𝑛𝐷ℎ𝑙 √𝑛𝐷ℎ𝑙
1 − Γ𝑘(𝑛−1) (𝑡1−𝛼/2𝜏,𝑘(𝑛−1) | ) + Γ𝑘(𝑛−1) (−𝑡1−𝛼/2𝜏,𝑘(𝑛−1) | )
√2 𝜎 √2 𝜎
(2.16)
√𝑛|𝐷ℎ𝑙 |
≈ 1 − Γ𝑘(𝑛−1) (𝑡1−𝛼/2𝜏,𝑘(𝑛−1) | )
√2 𝜎
√𝑛ℎ𝑙 |𝐷ℎ𝑙 |
Em (2.17), 𝑛ℎ𝑙 é obtido resolvendo-se a equação Γ𝑘(𝑛ℎ𝑙−1) (𝑡1−𝛼/2𝜏,𝑘(𝑛ℎ𝑙−1) | ) = 𝛽.
√2 𝜎
2(𝑧1−𝛼/2𝜏 + 𝑧1−𝛽 )2 𝜎 2
𝑛ℎ𝑙 = (2.18)
(𝐷ℎ𝑙 )2
2
Sob a hipótese alternativa, o poder do teste é 𝑃𝑟(𝐹𝜇 > 𝐹1−𝛼,𝑘−1,𝑘(𝑛−1) ) ≈ 𝑃𝑟(𝑛𝑆𝑄𝑒𝑛𝑡𝑟𝑒 > 𝜎 2 𝜒1−𝛼,𝑘−1 ),
2
sendo 𝜒1−𝛼,𝑘−1 o percentil de ordem (1 − 𝛼)100% da distribuição qui-quadrado com (𝑘 − 1) graus de
liberdade. Sob a hipótese alternativa, 𝑛𝑆𝑄𝑒𝑛𝑡𝑟𝑒 /𝜎 2 tem distribuição qui-quadrado com (𝑘 − 1) graus de
1 1
liberdade e parâmetro de não centralidade 𝜆 = 𝑛Δ, sendo Δ = 𝜎2 ∑𝑘i=1(𝜇𝑖 − 𝜇̅ )2 e 𝜇̅ = 𝑘 ∑𝑘𝑗=1 𝜇𝑗 .
Para atingir poder igual a (1 − 𝛽), primeiro deve-se determinar 𝜆 resolvendo-se a seguinte equação:
2 2
Χ𝑘−1 (𝜒1−𝛼,𝑘−1 |𝜆) = 𝛽 (2.19)
2 (. |𝜆)
Em (2.19), Χ𝑘−1 é a função distribuição acumulada da distribuição qui-quadrado não central com
(𝑘 − 1) graus de liberdade e parâmetro de não centralidade 𝜆. O tamanho de amostra para cada grupo
é dado por:
𝜆 (2.20)
𝑛=
Δ
Exemplo 2.11 - Tamanho de amostra de um ensaio clínico utilizando ANOVA com um fator
(comparações pareadas e simultâneas) ╬╬
Supondo-se que haja interesse na comparação do tratamento 1 com os demais tratamentos, há três
possíveis comparações pareadas. A Tabela 2.3 apresenta os tamanhos de amostra obtidos pela fórmula
(2.18), considerando-se o nível de significância de 5% e poder de 80% e 90%.
Tabela 2.3 - Tamanhos de amostra (𝑛ℎ𝑙 ), aplicando-se a fórmula (2.18), para comparações
pareadas, considerando-se o nível de significância de 5%
1
Para comparações simultâneas, Δ = 𝜎2 ∑𝑘i=1(𝜇𝑖 − 𝜇̅ )2 = 1,05 e resolvendo a equação (2.19) para o
nível de significância de 5% e poder de 80%, obtém-se que o parâmetro de não centralidade (𝜆) é
10,91. Assim, pela fórmula (2.20), o tamanho de amostra é 𝑛 = 𝜆/Δ = 10,91/1,05 = 10,39, sendo de
11 o tamanho de amostra por grupo. Já para o poder de 90% e mantendo-se 𝛼 = 0,05, 𝑛 = 𝜆/Δ =
14,18/1,05 = 13,50, são 14 indivíduos por grupo.
Nesta seção serão apresentados brevemente alguns comentários práticos relacionados ao cálculo de
tamanho da amostra no contexto de comparação de médias, tais como: o que fazer quando os
parâmetros que aparecem nas fórmulas não são conhecidos e a utilização de métodos alternativos não
detalhados neste capítulo.
2.6.1 Desconhecimento dos parâmetros que aparecem nas fórmulas de tamanho de amostra
Como já comentado, os parâmetros necessários para o cálculo do tamanho da amostra são normalmente
desconhecidos. Por exemplo, em geral o desvio-padrão não é conhecido e pode até mesmo haver
dificuldade na obtenção de alguma informação acerca de quais seriam os valores razoáveis.
Uma sugestão seria usar o valor do desvio-padrão igual a 1/6 do intervalo esperado da variável
estudada (𝑋). Isso é especialmente verdade (ou pelo menos é bastante razoável) quando 𝑋 segue a
distribuição normal.
Quando não se conhece os parâmetros, uma estratégia típica é a utilização de estimativas de estudos-
piloto como se fossem os verdadeiros parâmetros. No entanto, essa abordagem não leva em
consideração o erro de amostragem. Uma solução alternativa seria utilizar o enfoque bayesiano.
No contexto de ensaios clínicos, Wang et al. (2005) sugerem o método bayesiano com priori não
informativa para refletir a incerteza dos parâmetros induzida por erros amostrais.
Vários métodos tratados neste capítulo assumem que a variável analisada segue a distribuição normal.
Quando não se conhece a distribuição ou para outros tipos de distribuição além da normal, uma opção é
utilizar métodos não paramétricos. O dimensionamento de amostra com esse enfoque para algumas
situações está descrito no capítulo 10.
A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e encontram-se disponíveis para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬).
Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass®, nQuery Advisor®, PS: Power and Sample Size Calculation, o programa
desenvolvido pelo Laboratório de Epidemiologia e Estatística (LEE) do Instituto Dante Pazzanese de
Cardiologia e os pacotes pwr e HMISC do software livre R, entre outros.
3.1 Introdução
Muitos problemas da área da saúde podem ser formalizados em termos de proporções. Em algumas
situações, há o interesse em avaliar apenas uma proporção ou seu correspondente percentual.
Por exemplo, o objetivo pode ser estimar a prevalência de determinada doença na população.
Outra situação muito comum na prática é comparar duas proporções, por exemplo, as prevalências
de uma doença em duas regiões ou em dois grupos de pacientes, sendo um deles submetido a
determinada intervenção.
De maneira geral, em muitas situações existe interesse em estudar a proporção de elementos em certa
população que possuem determinada característica, como a proporção de crianças que desenvolveram
reações adversas à vacinação, a proporção de alunos em uma escola com distúrbios visuais ou a
prevalência de diabetes mellitus em determinada região com específica faixa etária. Nessas situações,
cada elemento da população está associado à variável binária 𝑌 (𝑌𝑖 = 1, se o elemento 𝑖 possui a
∑𝑁
𝑖=1 𝑌𝑖
característica e 𝑌𝑖 = 0, caso contrário). Então, para uma população de tamanho 𝑁, 𝑃 = é a
𝑁
proporção de elementos que possuem a característica de interesse. Como 𝑌𝑖 assume apenas os valores
∑𝑁
𝑖=1(𝑌𝑖 −𝑃)
2
0 e 1, a variância é dada por 𝜎 2 = = 𝑃(1 − 𝑃).
𝑁
Nesta seção será considerado o dimensionamento no caso de uma amostra no contexto de estimação e
testes de hipóteses.
Dada uma amostra observada de tamanho 𝑛, seja 𝑚 o número de elementos da amostra que possuem a
∑ 𝑛
𝑌𝑖 𝑚
característica investigada. Um estimador não viciado de 𝑃 é dado por 𝑃̂ = 𝑖=1 = 𝑛 e sua variância é
𝑛
O objetivo é determinar o tamanho da amostra 𝑛 de tal forma que o estimador 𝑃̂ obtido tenha erro
máximo de estimação igual a 𝑑𝑎𝑏𝑠 , com determinado grau de confiança: (1 − 𝛼)100%. De maneira
mais específica, o problema consiste em determinar 𝑛 de modo que:
Alternativamente, pode-se dizer que o termo 𝑑𝑎𝑏𝑠 que aparece em (3.1) representa a precisão ou
distância de 𝑃̂, em ambas as direções, do verdadeiro valor populacional 𝑃.
Como o estimador 𝑃̂segue aproximadamente uma distribuição normal, com média 𝑃 e variância
𝑃(1 − 𝑃)/𝑛, tem-se que:
𝑃(1 − 𝑃)
𝑃𝑟 (|𝑃̂ − 𝑃| ≤ 𝑧1−𝛼/2 √ )≅1−𝛼 (3.2)
𝑛
Para 𝑑𝑎𝑏𝑠 fixo e sendo 𝑧1−𝛼/2 o percentil de ordem (1 − 𝛼/2)100% da distribuição normal padrão,
comparando (3.1) e (3.2), a solução para o problema proposto consiste em determinar 𝑛 de tal
forma que:
𝑃(1 − 𝑃)
𝑑𝑎𝑏𝑠 = 𝑧1−𝛼/2 √ (3.3)
𝑛
𝑃(1 − 𝑃)
𝑛 = (𝑧1−𝛼/2 )2 (3.4)
(𝑑𝑎𝑏𝑠 )2
Lembrando que a precisão relativa é definida como 𝑑𝑟𝑒𝑙 = (𝑃̂ − 𝑃)/𝑃, após manipulação da
probabilidade apresentada em (3.2), fazendo o mesmo tipo de raciocínio para obter a fórmula (3.4) e
chamando 𝑑𝑟𝑒𝑙 = 𝑑𝑎𝑏𝑠 /𝑃, o tamanho da amostra em termos da precisão relativa é dado por:
1−𝑃
𝑛 = (𝑧1−𝛼/2 )2 (3.5)
(𝑑𝑟𝑒𝑙 )2 𝑃
Para utilizar a fórmula (3.4), é necessário inserir um valor (uma estimativa) para 𝑃. Tal valor pode ser
obtido utilizando-se pesquisas anteriores ou uma amostra-piloto. Uma forma alternativa consiste em
utilizar o fato de que a função 𝑃(1 − 𝑃) = 𝑃 − 𝑃2 tem representação gráfica de uma parábola, como
mostra a Figura 3.1, característica que pode auxiliar o pesquisador que desconhece o valor de 𝑃.
0,25
0,20
0,15
P(1-P)
0,10
0,05
0,00
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
P
Como a função 𝑃(1 − 𝑃) atinge seu máximo quando 𝑃 = 0,50, o maior valor de 𝑛 em (3.4) é obtido
nessa condição, isto é, ocorre quando 𝑃(1 − 𝑃) = 1/4. Substituindo-se 𝑃(1 − 𝑃) = 1/4 em (3.4),
obtém-se:
(𝑧1−𝛼/2 )2
𝑛= (3.6)
4(𝑑𝑎𝑏𝑠 )2
Neste caso, possivelmente a amostra estará super dimensionada e por isso esta fórmula é conhecida
como método conservador de dimensionamento de amostra.
Exemplo 3.1 - Tamanho da amostra para a estimação de prevalência de uma doença – precisão
absoluta e precisão relativa ╬╬
Para estimar a prevalência de uma doença em uma população, foi realizado estudo-piloto obtendo-se
prevalência de 5% (𝑃 = 0,05).
Exemplo 3.2 - Tamanho da amostra para a estimação de prevalência de uma doença usando
precisão absoluta (continuação do exemplo 3.1) ╬╬
Neste exemplo será investigado o impacto da troca dos elementos que aparecem na fórmula para o
cálculo do tamanho de amostra para uma proporção. A Tabela 3.1 apresenta os resultados da aplicação
da fórmula (3.4) para possíveis valores de 𝑃, três níveis de significância e cinco valores de precisão
absoluta de estimativa (𝑑𝑎𝑏𝑠 ). A Figura 3.2 mostra graficamente os resultados dispostos na Tabela 3.1.
Pode-se notar a simetria dos valores de 𝑛 em torno do valor máximo de elementos necessários quando
𝑃 = 0,50. Como esperado, quanto mais alto o valor de𝛼, menor será o tamanho da amostra para o
valor de 𝑑𝑎𝑏𝑠 fixo. Por outro lado, fixando 𝛼, à medida que o valor de 𝑑𝑎𝑏𝑠 cresce, 𝑛 diminui.
Na Tabela 3.2 são apresentados os valores da razão entre 𝑛 obtido quando 𝑑𝑎𝑏𝑠 = 0,01 e os demais
valores (𝑑𝑎𝑏𝑠 = 0,02; 0,03; 0,05; 0,10). Por exemplo, para 𝛼 = 0,01, 𝑛 = 3152 e 𝑛 = 788, para
𝑑𝑎𝑏𝑠 = 0,01 e 𝑑𝑎𝑏𝑠 = 0,02, respectivamente. Assim, 3152/788 = 4,00.
Há um padrão na Tabela 3.2: a razão entre os valores de 𝑛 quando 𝑑𝑎𝑏𝑠 = 0,01 e 𝑑𝑎𝑏𝑠 = 0,02 é de
aproximadamente 4; comparando 𝑑𝑎𝑏𝑠 = 0,01 com 𝑑𝑎𝑏𝑠 = 0,03 e 𝑑𝑎𝑏𝑠 = 0,05, as razões de 𝑛 são
aproximadamente 9 e 25; e para 𝑑𝑎𝑏𝑠 = 0,10, a razão quase chega a 100.
Tabela 3.1 - Tamanho de amostra (𝑛), obtido pela fórmula (3.4), para diferentes proporções (𝑃),
para três níveis de significância (𝛼 = 0,01; 0,05; 0,10) e cinco valores da precisão da
estimação (𝑑𝑎𝑏𝑠 = 0,01; 0,02; 0,03; 0,05; 0,10)
𝑃
𝛼 𝑑𝑎𝑏𝑠
0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
0,01 3152 5972 10616 13934 15924 16588 15924 13934 10616 5972 3152
0,02 788 1493 2654 3484 3981 4147 3981 3484 2654 1493 788
0,01 0,03 351 664 1180 1549 1770 1844 1770 1549 1180 664 351
0,05 127 239 425 558 637 664 637 558 425 239 127
0,10 32 60 107 140 160 166 160 140 107 60 32
0,01 1825 3458 6147 8068 9220 9604 9220 8068 6147 3458 1825
0,02 457 865 1537 2017 2305 2401 2305 2017 1537 865 457
0,05 0,03 203 385 683 897 1025 1068 1025 897 683 385 203
0,05 73 139 246 323 369 385 369 323 246 139 73
0,10 19 35 62 81 93 97 93 81 62 35 19
0,01 1286 2435 4329 5682 6494 6764 6494 5682 4329 2435 1286
0,02 322 609 1083 1421 1624 1691 1624 1421 1083 609 322
0,10 0,03 143 271 481 632 722 752 722 632 481 271 143
0,05 52 98 174 228 260 271 260 228 174 98 52
0,10 13 25 44 57 65 68 65 57 44 25 13
Tabela 3.2 - Razão entre os tamanhos de amostra da Tabela 3.1 calculados para 𝑑𝑎𝑏𝑠 = 0,01 e os
outros valores (𝑑𝑎𝑏𝑠 = 0,02; 0,03; 0,05; 0,10) para três níveis de significância (𝛼 = 0,01; 0,02; 0,05)
𝑑𝑎𝑏𝑠 =0,01 𝑃
𝛼
versus 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
0,02 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00
0,03 8,98 8,99 9,00 9,00 9,00 9,00 9,00 9,00 9,00 8,99 8,98
0,01
0,05 24,82 24,99 24,98 24,97 25,00 24,98 25,00 24,97 24,98 24,99 24,82
0,10 98,50 99,53 99,21 99,53 99,53 99,93 99,53 99,53 99,21 99,53 98,50
0,02 3,99 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 3,99
0,03 8,99 8,98 9,00 8,99 9,00 8,99 9,00 8,99 9,00 8,98 8,99
0,05
0,05 25,00 24,88 24,99 24,98 24,99 24,95 24,99 24,98 24,99 24,88 25,00
0,10 96,05 98,80 99,15 99,60 99,14 99,01 99,14 99,60 99,15 98,80 96,05
0,02 3,99 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 3,99
0,03 8,99 8,99 9,00 8,99 8,99 8,99 8,99 8,99 9,00 8,99 8,99
0,10
0,05 24,73 24,85 24,88 24,92 24,98 24,96 24,98 24,92 24,88 24,85 24,73
0,10 98,92 97,40 98,39 99,68 99,91 99,47 99,91 99,68 98,39 97,40 98,92
𝛼 = 0,01
18000 d_abs
0,01
16000 0,02
0,03
14000 0,05
0,10
12000
10000
n
8000
6000
4000
2000
𝛼 = 0,05
10000 d_abs
0,01
0,02
0,03
8000 0,05
0,10
6000
n
4000
2000
𝛼 = 0,10
7000 d_abs
0,01
0,02
6000 0,03
0,05
0,10
5000
4000
n
3000
2000
1000
Figura 3.2 - Tamanho de amostra em função da proporção (𝑃), para três níveis de significância (𝛼 =
0,01; 0,05; 0,10) e cinco valores da precisão da estimação (𝑑𝑎𝑏𝑠 = 0,01; 0,02; 0,03; 0,05; 0,10).
3.2.2 Teste para uma proporção
Seja 𝑃 a proporção de certo atributo encontrada em uma população e suponha-se que a investigação
consista em comparar a proporção populacional com um valor preestabelecido 𝑃0 . Assim, esse
problema pode ser formalizado por meio do teste das hipóteses 𝐻0 :𝑃 = 𝑃0 versus 𝐻1 :𝑃 ≠ 𝑃0 , aqui
ilustrado pelo caso bilateral.
𝑃0 (1 − 𝑃0 )
𝑐 = 𝑃0 + 𝑧1−𝛼/2 √ (3.7)
𝑛
𝑃1 (1 − 𝑃1 )
𝑐 = 𝑃1 + 𝑧1−𝛽 √ (3.8)
𝑛
Igualando (3.7) a (3.8) e considerando-se 𝑃0 o valor preestabelecido ou fixado com o qual se compara
a proporção obtida na amostra e o valor da hipótese alternativa 𝑃₁, pode-se calcular 𝑛 a partir
da fórmula:
2
(𝑧1−𝛼/2 √𝑃0 (1 − 𝑃0 ) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 )) (3.9)
𝑛=
(𝑃1 − 𝑃₀)2
Como não se sabe se 𝑃1 é maior ou menor que 𝑃0 (a hipótese é bilateral), deve-se calcular 𝑛 duas
vezes: 𝑃1 < 𝑃₀ e 𝑃1 > 𝑃₀. O tamanho da amostra será o maior dos dois números. Para o caso de
hipóteses unilaterais, basta substituir o percentil 𝑧1−𝛼/2 que aparece em (3.9) pelo percentil 𝑧1−𝛼 .
Dessa forma, 𝛼 não deve ser distribuído nas duas caudas (𝛼/2 em cada cauda da curva), mas deve ser
2
(𝑧1−𝛼 √𝑃0 (1−𝑃0 )+𝑧1−𝛽 √𝑃1 (1−𝑃1 ))
acumulado completamente em uma cauda, resultando na fórmula 𝑛 = (𝑃1 −𝑃0 )2
.
Exemplo 3.3 - Tamanho da amostra para o teste para uma proporção ╬╬
Após mudar a abordagem terapêutica padrão em um hospital, deseja-se verificar se a taxa de sucesso
no tratamento continua a mesma, no caso, 70%, com capacidade de detectar diferença de pelo menos
10 pontos percentuais.
Fixando-se o poder em 80% e a confiança em 95%, a questão é calcular o número de pacientes para um
estudo que tem como objetivo avaliar a nova terapêutica. Pela informação fornecida, 𝑃₀ = 0,70 e, por
precaução, devem-se considerar as duas situações: 10 pontos percentuais acima de 70% (80%) ou a
situação menos favorável de estar abaixo de 70%, correspondendo a apenas 60% de sucesso.
Os cálculos necessários aplicando a fórmula (3.9) são apresentados no Quadro 3.1.
Assim, se 𝑃1 > 𝑃₀ o tamanho de amostra necessário será 153 e 172 quando 𝑃1 < 𝑃₀. Neste exemplo,
o valor de 𝑛 obtido com 𝑃1 < 𝑃₀é superior e, portanto, deve ser escolhido para a realização do estudo.
Um problema comum em pesquisa na área da saúde, que aparece frequentemente em todos os tipos de
estudos clínicos, é comparar dois grupos a partir do resultado observado em uma variável dicotômica.
A variável de interesse é a ocorrência de um evento, como o desenvolvimento de uma doença ou a
existência de certo atributo, por exemplo, albinismo.
O problema de comparação das probabilidades de ocorrência do evento ou do atributo nos dois grupos
(𝑃1 e 𝑃2 ) pode ser formulado, assim como na seção para uma amostra (seção 3.2), no contexto de
estimação e testes de hipóteses. As seções a seguir referem-se ao dimensionamento de amostras para a
estimação da diferença de duas proporções e para testes de hipóteses baseados em dois parâmetros:
diferença de duas proporções ou na medida conhecida como odds ratio.
Sejam 𝑃1 e 𝑃2 as proporções dos elementos em duas populações independentes que possuem a
característica de interesse e 𝑃̂1 e 𝑃̂2 seus respectivos estimadores. A diferença absoluta entre as
proporções (𝑃1 − 𝑃2 ) é denominada diferença de risco e pode ser estimada por 𝑃̂1 − 𝑃̂2 , isto é,
a diferença das proporções amostrais.
O estimador (𝑃̂1 − 𝑃̂2 ) tem aproximadamente distribuição normal, com média (𝑃1 − 𝑃2 ) e variância
𝑃1 (1 − 𝑃1 )/𝑛1 + 𝑃2 (1 − 𝑃2 )/𝑛2 .
Seguindo a mesma lógica da situação de uma única proporção, supondo que os grupos são de igual
tamanho (𝑛1 = 𝑛2 = 𝑛), a quantidade 𝑑𝑎𝑏𝑠 equivalente à distância em ambas as direções dos erros de
estimativas das diferenças das proporções pode ser escrita como:
Exemplo 3.4 - Tamanho de amostra para a estimação da diferença de duas proporções no caso de
duas amostras independentes ╬╬
Para determinar a prevalência de obesidade em duas diferentes populações definidas pela condição
socioeconômica, foi realizado estudo-piloto tendo sido obtidas as seguintes estimativas: 𝑃̂1 = 0,40
e 𝑃̂2 = 0,28.
Considerando-se que os dois grupos deverão ter o mesmo tamanho (𝑛1 = 𝑛2 = 𝑛), fixando-se o nível
de significância em 5% (𝛼 = 0,05) e erro máximo de estimação igual a 0,10 (𝑑𝑎𝑏𝑠 = 0,10),
o tamanho de amostra para cada grupo, obtido a partir da fórmula (3.11) é 170. Os cálculos estão
mostrados no Quadro 3.2.
No contexto de testes de hipóteses, o problema de comparação das proporções dos dois grupos
(𝑃1 e 𝑃2 ) é formulado pelas hipóteses: 𝐻0 :𝑃1 = 𝑃2 𝑣𝑒𝑟𝑠𝑢𝑠𝐻1 :𝑃1 ≠ 𝑃2 .
Para o cálculo do tamanho de cada grupo (𝑛1 e 𝑛2 ), deve-se estabelecer a diferença mínima que
se quer detectar juntamente com o nível de significância e o poder apropriados. Assim, como na
seção anterior, 𝑉𝑎𝑟(𝑃̂1 − 𝑃̂2 ) = 𝑉𝑎𝑟(𝑃̂1 ) + 𝑉𝑎𝑟(𝑃̂2 ) = 𝑃1 (1 − 𝑃1 )/𝑛1 + 𝑃2 (1 − 𝑃2 )/𝑛2 . Sob 𝐻0 ,
considerando 𝑃1 = 𝑃2 = 𝑃, 𝑉𝑎𝑟(𝑃̂1 − 𝑃̂2 ) = 𝑃(1 − 𝑃)/𝑛1 + 𝑃(1 − 𝑃)/𝑛2 = 𝑃(1 − 𝑃)(1/𝑛1 +
1/𝑛2 ) e se 𝑛1 = 𝑛2 = 𝑛, 𝑉𝑎𝑟(𝑃̂1 − 𝑃̂2 ) = 2𝑃(1 − 𝑃)/𝑛.
Definindo o ponto médio das proporções 𝑃̅ = (𝑃1 + 𝑃2 )/2e assumindo balanceamento (𝑛1 = 𝑛2 =
𝑛), o tamanho de cada grupo (𝑛) necessário para se testar hipóteses bilaterais será obtido por:
2
(𝑧1−𝛼/2 √2𝑃̅ (1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃2 (1 − 𝑃2 ))
𝑛= (3.12)
(𝑃1 − 𝑃2 )2
Para o caso de hipóteses unilaterais, basta substituir o percentil 𝑧1−𝛼/2 que aparece em (3.12) pelo
percentil por 𝑧1−𝛼 . Dessa forma, 𝛼 não deve ser distribuído nas duas caudas como para hipóteses
bilaterais (𝛼/2 em cada cauda da curva), mas acumulado completamente em uma cauda.
Exemplo 3.5 - Tamanho de amostra utilizando o teste para a diferença de duas proporções ╬╬
Deseja-se realizar estudo para comparar eventual diferença entre dois tratamentos. Por estudos
anteriores, sabe-se que os percentuais nos dois grupos são 60% e 80%, isto é, 𝑃1 = 0,60 e 𝑃2 = 0,80.
Fixando-se nível de significância igual a 5% (𝛼 = 0,05) e poder igual a 0,90 e 0,80, os números de
pacientes em cada grupo (𝑛)são 109 e 82, respectivamente. Os cálculos da aplicação da fórmula (3.12)
estão mostrados no Quadro 3.3.
2
90% (1,96√2(0,7)(0,3) + 1,28√0,60(0,40) + 0,80(0,20))
𝑛= = 108,24 ≅ 109
(0,60 − 0,80)2
2
80% (1,96√2(0,7)(0,3) + 0,84√0,60(0,40) + 0,80(0,20))
𝑛= = 81,22 ≅ 82
(0,60 − 0,80)2
Suponha-se estudo planejado com dois grupos (por exemplo, o grupo que recebeu o tratamento e o
grupo-controle) a serem comparados em termos de proporções (respectivamente 𝑃1 e 𝑃2 ) e que a
medida de comparação seja do tipo razão, com a chamada razão de chances (em inglês, odds ratio),
1 𝑃 2 𝑃
definida como 𝑂𝑅 = (1−𝑃 ) / (1−𝑃 ). É muito comum utilizar a transformação logarítmica:
1 2
Se o objetivo é avaliar a evidência de diferença estatística entre os dois grupos utilizando a medida 𝑂𝑅
ou, equivalentemente, 𝜃 = 𝑙𝑜𝑔{𝑂𝑅}, as hipóteses podem ser formuladas como 𝐻0 : os dois tratamentos
têm igual efeito (𝑂𝑅 = 1 ⟺ 𝜃 = 0) versus 𝐻1 : os dois tratamentos não têm igual efeito (𝑂𝑅 ≠ 1 ⟺
𝜃 ≠ 0). A partir dessas hipóteses, uma fórmula para calcular o tamanho da amostra pode ser
determinada (CAMPBELL et al., 1995; JULIOUS et al., 1997, 2000; WHITEHEAD, 1993).
Segundo Whitehead (1993), a variância da estatística 𝑙𝑜𝑔 de odds ratio é 6/[𝑛1 (1 − (𝑃̅3 + (1 − 𝑃̅ )3 )],
sendo 𝑃̅ = (𝑃1 + 𝑃2 )/2. E segundo Julious (2010), o tamanho da amostra para cada grupo, supondo-se
balanceamento (𝑛1 = 𝑛2 = 𝑛), é dado por:
2
6(𝑧1−𝛼/2 + 𝑧1−𝛽 ) /(𝜃)2
𝑛= (3.13)
1 − (𝑃̅3 + (1 − 𝑃̅ )3 )
Outra possibilidade é fazer a comparação das proporções baseando-se na medida odds ratio utilizando-
se o teste de Wald. Segundo Wang et al. (2002), para hipóteses bilaterais, o tamanho de amostra para o
grupo 2 é dado por:
𝑧1−𝛼/2 + 𝑧1−𝛽 2 1 1
𝑛2(𝑊) = ( ) ( + ) (3.14)
𝜃1 𝑟𝑃1 (1 − 𝑃1 ) 𝑃2 (1 − 𝑃2 )
Finalmente, uma possibilidade bem simples para o dimensionamento de amostra que leva em conta a
medida odds ratio (𝑂𝑅) é pensar que, fixado um valor para 𝑂𝑅 e conhecido o valor da probabilidade
𝑃 (𝑂𝑅)
do grupo-controle (𝑃2 ), a probabilidade do outro grupo (𝑃1 ) pode ser reescrita como 𝑃1 = 1+𝑃2 (𝑂𝑅−1).
2
O próximo passo é utilizar a fórmula (3.12) para o dimensionamento de amostras baseado em diferença
de proporções, entrando como dados os valores de 𝑃1 e 𝑃2 além dos percentis 𝑧1−𝛼/2 e 𝑧1−𝛽 de ordem
(1 − 𝛼/2)100% e (1 − 𝛽)100% da normal padrão.
Exemplo 3.6 - Tamanho de amostra utilizando a medida odds ratio no caso de duas
amostras independentes ╬╬
Quando se espera observar 2% do evento pesquisado no grupo-controle (𝑃2 = 0,02) e supondo que um
valor de odds ratio igual a três (𝑂𝑅 = 3) seja considerado razoável para detectar a diferença entre os
𝑃 (𝑂𝑅) 0,02(3)
dois grupos, o percentual do grupo-tratamento é aproximadamente 6% (𝑃1 = 1+𝑃2 (𝑂𝑅−1) = 1+0,02(2) ≅
2
Aplicando a fórmula (3.13) na versão de hipótese bilateral com 𝑃1 = 0,06 e 𝑃2 = 0,02, que
corresponde a 𝑂𝑅 = 3,13, chega-se à conclusão de que 𝑛 = 521; invertendo-se os valores das
probabilidades, isto é, 𝑃1 = 0,02 e 𝑃2 = 0,06, que corresponde a 𝑂𝑅 = 1/3,13 = 0,32, 𝑛 = 521,
exatamente o mesmo valor obtido anteriormente. Já quando o valor de 𝑂𝑅 é forçado em ser
praticamente 3, 𝑛 = 577, bem superior aos obtidos anteriormente, havendo significante impacto do
valor de 𝑂𝑅 no valor de 𝑛.
Aplicando a fórmula (3.14) na versão de hipótese bilateral com 𝑃1 = 0,06, 𝑃2 = 0,02 e 𝑂𝑅 = 3,13,
o tamanho da amostra em cada grupo é 688 e, portanto, um total de 1.376. Quando 𝑃1 = 0,0577,
𝑃2 = 0,02 e 𝑂𝑅 = 3,0, 𝑛 = 748, totalizando 1.496. A Tabela 3.3 resume os resultados utilizando as
três fórmulas: (3.12), (3.13) e (3.14).
Tabela 3.3 - Tamanhos de amostra obtidos pelas fórmulas (3.12), (3.13) e (3.14) para algumas
combinações de valores de probabilidade (𝑃1 e 𝑃2 ) de ocorrência do evento nos dois grupos
Em resumo, para a fórmula (3.12), como esperado, o tamanho de amostra é bem superior no caso de
hipótese bilateral comparado à hipótese unilateral. Quando 𝑃1 = 0,06, 𝑃2 = 0,02 e 𝑂𝑅 = 3,13,
o tamanho da amostra fornecido pela fórmula (3.14), 𝑛 = 688, é bem superior ao da fórmula (3.13):
𝑛 = 521, ou seja, são 167 indivíduos a mais por grupo ou 334 no total.
3.4 Tamanho de amostra para duas proporções no caso de duas amostras pareadas
É muito frequente o planejamento em que cada caso é pareado com um controle (ou emparelhado com
vários controles). Em inglês, esse planejamento é conhecido como Matched Case-Control.
O teste de McNemar é a forma usual para a comparação de proporções nos estudos em que os dados
foram coletados de forma pareada, quando cada caso tem apenas um controle. Será considerado o
contexto de experimento clínico com pareamento, mas o teste pode ser aplicado para outros tipos de
dados pareados, por exemplo, estudo caso-controle pareado ou avaliações feitas em duas ocasiões.
De forma geral, a nomenclatura adotada é sucesso (𝑆) e fracasso (𝐹) para a ocorrência ou não do
evento de interesse. Assim, os pares de elementos dos grupos tratamento e controle são: (𝑆, 𝑆), (𝑆, 𝐹),
(𝐹, 𝑆) e (𝐹, 𝐹). A distribuição de probabilidades e a forma de apresentação genérica dos dados a serem
analisados no processo de comparação estão mostradas nas tabelas 3.4 e 3.5.
𝑟+𝑠 1 2
(|s− |− ) (|r−s|−1)2
2 2
𝑟+𝑠 = . A regra de decisão do teste consiste em se rejeitar 𝐻0 quando
𝑟+𝑠
2
2 (|𝑟−𝑠|−1)2 2 2
𝑋𝑀𝑐𝑁 = > 𝜒1,1−𝛼 , sendo 𝜒1,1−𝛼 o percentil de ordem (1 − 𝛼)100% da distribuição qui-
𝑟+𝑠
No caso de amostras pareadas, a razão de chances (odds ratio) é definida por: 𝑂𝑅𝑀𝑐𝑁 = 𝑝12 /𝑝21 e sua
̂ 𝑀𝑐𝑁 = 𝑟/𝑠, cujo desvio-padrão na escala logarítmica é dado por
estimativa reduz-se a 𝑂𝑅
̂ 𝑀𝑐𝑁 ) ±
chances na escala logarítmica é construído da forma usual, ou seja, é dado por 𝑙𝑜𝑔(𝑂𝑅
̂ 𝑀𝑐𝑁 )) = (𝐿𝑖𝑛𝑓 ; 𝐿𝑠𝑢𝑝 ). 𝐼𝐶 depende da estimativa da razão de chances (𝑂𝑅
𝑧1−𝛼/2 𝐷𝑃(𝑙𝑜𝑔(𝑂𝑅 ̂ 𝑀𝑐𝑁 ) e de
seu desvio-padrão e ambos dependem dos números das discordâncias, além do percentil 𝑧1−𝛼/2 da
distribuição normal.
Para a obtenção do intervalo de confiança para o parâmetro 𝑂𝑅𝑀𝑐𝑁 , basta exponenciar 𝐿𝑖𝑛𝑓 e 𝐿𝑠𝑢𝑝 .
̂ 𝑀𝑐𝑁 ) ± 𝑧1−𝛼/2 𝐷𝑃(𝑙𝑜𝑔(𝑂𝑅
Assim, 𝑒𝑥𝑝{𝑙𝑜𝑔(𝑂𝑅 ̂ 𝑀𝑐𝑁 ))}. Existem formas alternativas para se calcular o
intervalo de confiança para a razão de chances para dados pareados (𝑂𝑅𝑀𝑐𝑁 ). Por exemplo, o método
utilizado no software EpiInfo difere do apresentado aqui.
Para dados pareados com resposta binária, usualmente a forma de cálculo de tamanho de amostra é
baseada na medida odds ratio (𝑂𝑅𝑀𝑐𝑁 = 𝑝12 /𝑝21 ). A seguir serão apresentadas as fórmulas de Connett
et al. (1987), que também aparecem em Julious et al. (1999). O nível de significância e o poder do teste
serão fixados em 𝛼 e (1 − 𝛽), respectivamente.
2
(𝑧1−𝛼/2 (𝑂𝑅𝑀𝑐𝑁 + 1) + 2𝑧1−𝛽 √𝑂𝑅𝑀𝑐𝑁 )
𝑛𝑑𝑖𝑠𝑐 = (3.15)
(𝑂𝑅𝑀𝑐𝑁 − 1)2
Na prática pode ser difícil estabelecer os valores de 𝑝12 e 𝑝21 , consequentemente a proporção de
discordâncias (𝑝𝑑𝑖𝑠𝑐 ) que aparece na fórmula (3.16), mas pode ser relativamente mais fácil especificar
as probabilidades marginais 𝑝1. e 𝑝.1. Como o tamanho de amostra máximo é obtido se as distribuições
forem independentes, de forma conservadora Royston (1993) sugeriu estimar 𝑝12 por 𝑝1. (1 − 𝑝.1 ) e
𝑝21 por 𝑝.1 (1 − 𝑝1. ).
Exemplo 3.7 - Tamanho de amostra utilizando a medida odds ratio no caso de duas
amostras pareadas ╬╬
Julious et al. (1999) apresentam dados de Morrison et al. (1991) sobre um estudo do tipo caso-controle
pareado baseado em 40 pares. O objetivo era identificar as razões pelas quais algumas crianças
recebem mais atendimentos de clínicos gerais fora do horário de atendimento que outras. Os casos
consistiam de crianças abaixo de 10 meses que foram identificadas como usuárias de alto atendimento
fora do horário, enquanto que os controles, crianças na mesma faixa de idade, foram as de baixo
atendimento dentro do horário. Houve pareamento de caso e controle por idade e sexo. As demais
condições avaliadas referem-se ao estado civil da mãe, classificadas da seguinte forma: ser solteira ou
divorciada (𝑆) e ser casada ou morar com o companheiro (𝐹).
Suponha-se que novo estudo similar ao de Morrison et al. (1991) tenha que ser planejado, mas os
pesquisadores esperam que 40% dos casos difiram de seus controles (𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + 𝑝21 = 0,40).
Além disso, os pesquisadores acreditam que a chance de uma mãe solteira ou divorciada ser uma
usuária de alto atendimento fora do horário é cerca de três vezes maior que a de uma mãe casada ou
que mora com o companheiro (𝑂𝑅𝑀𝑐𝑁 = 3).
Por exemplo, para o nível de significância de 5% e poder de 80%, aplicando a fórmula (3.16), são
necessários 77 casos e 77 controles (cálculos no Quadro 3.4), o que significa 156 participantes.
2
(𝑧1−𝛼/2 (𝑂𝑅𝑀𝑐𝑁 + 1) + 𝑧1−𝛽 √(𝑂𝑅𝑀𝑐𝑁 + 1)2 − (𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑝𝑑𝑖𝑠𝑐 )
𝑛𝑂𝑅,𝑀𝑐𝑁 =
(𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑝𝑑𝑖𝑠𝑐
2
(1,96(3 + 1) + 0,84√(3 + 1)2 − (3 − 1)2 0,40) 121,61
= = = 76,0046 ≈ 77
(3 − 1)2 0,40 1,60
Agora, suponha-se que seja impossível especificar 𝑝12 e 𝑝21 , mas que se tenha a informação de que
10% de controles sejam de mães solteiras ou divorciadas comparadas com 30% dos casos, logo tem-se
ideia acerca das probabilidades marginais (𝑝1. = 0,1 e 𝑝.1 = 0,3). Assumindo independência, estima-se
que 𝑝12 seja 𝑝1. (1 − 𝑝.1 ) = 0,1 × 0,7 = 0,07, enquanto que 𝑝21 é estimado por 𝑝.1 (1 − 𝑝1. ) = 0,3 ×
0,9 = 0,27. Assim, 𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + 𝑝21 = 0,07 + 0,27 = 0,34 e 𝑂𝑅𝑀𝑐𝑁 = 𝑝12 /𝑝21 = 0,07/0,27 =
0,26.
A Tabela 3.6 e a Figura 3.3 mostram os números de pares calculados pela fórmula (3.16) para alguns
valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 ) e da proporção de discordâncias 𝑝𝑑𝑖𝑠𝑐 = 𝑝12 + 𝑝21 quando o poder é
fixado em 90%. Como 𝑛𝑀𝑐𝑁 fornece o número de casos que é igual ao número de controles, para obter
o número total de participantes basta multiplicar por dois.
A Tabela 3.7 mostra a relação entre os tamanhos das amostras apresentados na Tabela 3.6, com as seis
possíveis comparações dos valores de odds ratio. A notação 𝑛𝑖 /𝑛𝑗 denota a razão entre os tamanhos de
amostras, comparando 𝑂𝑅𝑀𝑐𝑁 = 𝑖 (no numerador) com 𝑂𝑅𝑀𝑐𝑁 = 𝑗 (no denominador). Por exemplo,
𝑛2 /𝑛3 é a razão entre os tamanhos de amostra referentes a 𝑂𝑅𝑀𝑐𝑁 = 2 e 𝑂𝑅𝑀𝑐𝑁 = 3.
Tabela 3.6 - Números de pares (𝑛𝑀𝑐𝑁 ), calculados pela fórmula (3.16), em um estudo do tipo
caso-controle pareado, para alguns valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 ) e da proporção de
discordâncias (𝑝𝑑𝑖𝑠𝑐 ), nível de significância de 5% e poder de 90%
n_McN 1000
500
Figura 3.3 - Números de pares (𝑛𝑀𝑐𝑁 ), calculados pela fórmula (3.16), em estudo do tipo caso-controle
pareado, em função da proporção de discordâncias (𝑝𝑑𝑖𝑠𝑐 ) para alguns valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 ),
nível de significância de 5% e poder de 90%.
Pela Tabela 3.6, nota-se que, além do esperado efeito inversamente proporcional do valor de odds ratio
no tamanho da amostra, isto é, à medida que 𝑂𝑅𝑀𝑐𝑁 aumenta, o número de pares (𝑛𝑀𝑐𝑁 ) necessário
diminui, há também o efeito da proporção de discordâncias (𝑝𝑑𝑖𝑠𝑐 ) nesse mesmo sentido: quanto maior
for o valor de 𝑝𝑑𝑖𝑠𝑐 , menor será o número de pares (𝑛𝑀𝑐𝑁 ) necessário para garantir o poder fixado.
Destaca-se que a proporcionalidade existe tanto ao se comparar entre os valores de odds ratio (𝑂𝑅𝑀𝑐𝑁 )
como também entre os valores de 𝑝𝑑𝑖𝑠𝑐 . Tal fato se reflete nas entradas da Tabela 3.7 (por exemplo, os
valores da coluna 𝑛2 /𝑛3 estão em torno de 2,32) e nas curvas bem suaves que aparecem na Figura 3.3.
Embora os cálculos não sejam mostrados, pode-se facilmente notar que na comparação dos tamanhos
de amostra entre os valores de proporção de discordâncias (𝑝𝑑𝑖𝑠𝑐 ), a constante de proporcionalidade é
bem próxima da razão entre os valores de 𝑝𝑑𝑖𝑠𝑐 . Por exemplo, as razões dos valores da linha da tabela
referente a 𝑝𝑑𝑖𝑠𝑐 = 0,05 com os da linha 𝑝𝑑𝑖𝑠𝑐 = 0,10 são aproximadamente dois, que é exatamente o
valor da razão entre os valores de 𝑝𝑑𝑖𝑠𝑐 (0,05/010 = 2). O mesmo acontece com todas as outras
comparações, a proporcionalidade sempre é mantida.
3.5 Recursos computacionais para os cálculos do tamanho da amostra
e/ou do poder
Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo (por exemplo, utilizando métodos exatos) podem ser obtidos pelos
seguintes softwares/programas citados no capítulo 11: Pass®, nQuery Advisor®, Minitab®, PS: Power
and Sample Size Calculation, o programa desenvolvido pelo Laboratório de Epidemiologia e Estatística
(LEE) do Instituto Dante Pazzanese de Cardiologia, Epi Info, OpenEpi e os pacotes pwr e MESS do
software livre R.
4.1 Introdução
Neste capítulo são apresentadas fórmulas para dimensionamento de amostras de planejamentos muito
utilizados em pesquisas epidemiológicas e clínicas. Três deles (estudo de coorte, estudo caso-controle e
estudo transversal) são observacionais, isto é, o pesquisador restringe-se à coleta de dados.
Especialmente em estudos do tipo caso-controle, deve-se prestar atenção no fato de ter ou não
pareamento entre casos e controles. Taylor (1986) discute sobre o número de controles em um estudo
caso-controle com emparelhamento. Também é destacado um estudo do tipo experimental, comumente
chamado de ensaio clínico.
Detalhes sobre os tipos de delineamentos de estudos na área da saúde considerados no capítulo podem
ser encontrados em Breslow e Day (1980, 1987), Chow e Liu (2013), Jekel et al. (2005), Haynes et al.
(2006), Matthews (2006), Pereira (2008), Rothman et al. (2008), Medronho et al. (2009), Gordis
(2010), Siqueira e Tibúrcio (2011) e Hulley et al. (2015), entre outros.
Assim como nos capítulos anteriores, o dimensionamento de amostras pode ser feito usando tanto o
enfoque de estimação como o de testes de hipóteses. Neste último caso, podem ser utilizadas hipóteses
unilaterais ou bilaterais, dependendo da situação analisada.
O capítulo finaliza com uma seção dedicada a noções de amostragem e aos cálculos do tamanho de
amostra para os esquemas amostrais tradicionais, já citados no capítulo 1.
Estudo de coorte é uma forma de pesquisa observacional que acompanha indivíduos ao longo do
tempo, com interesse em avaliar algum desfecho, por exemplo, a ocorrência de uma doença.
Inicialmente, os participantes são distribuídos em grupos, de acordo com sua situação quanto à
exposição investigada. Identificam-se um grupo exposto ao fator de risco e o grupo-controle,
constituído de pessoas que não foram expostas. Os dois grupos são acompanhados por um período
de tempo e as incidências da doença são calculadas. A Figura 4.1 ilustra o esquema geral de um
estudo de coorte.
E+: Exposto; E-: Não Exposto; D+: Doente; D-: Não Doente.
Figura 4.1 - Esquema ilustrativo de estudo de coorte.
4.2.1 Tamanho de amostra para estimação do risco relativo usando precisão relativa em
estudos de coorte
Note-se que uma das proporções pode ser escrita em função de 𝑅𝑅, por exemplo, 𝑃1 = 𝑅𝑅 × 𝑃0 , tal
que 𝑛 é função de 𝑅𝑅.
Exemplo 4.1 - Tamanho da amostra em estudo de coorte com enfoque em intervalo de confiança
do risco relativo utilizando a precisão relativa ╬╬
A partir das informações fornecidas de que 𝑃1 = 0,20 e que 𝑅𝑅 = 2,0, é possível calcular
𝑃0 = 𝑃1 /𝑅𝑅 = 0,20/2,0 = 0,10. Substituindo os valores de 𝑃1 , 𝑃0 , 𝑅𝑅 e da precisão relativa
estipulada (𝑑𝑟𝑒𝑙 = 0,10) na fórmula (4.1), obtém-se: 𝑛𝐶,𝐼𝐶,𝑅𝑅 = (1,96)2 [(0,80/0,20) + (0,90/0,10)]/
[𝑙𝑜𝑔(1 − 0,10)]2 = 4498,67. Após o arredondamento deste valor, conclui-se que 𝑛1 = 𝑛0 = 4.499,
ou que, no planejamento do estudo, será necessário recrutar 4.499 indivíduos para cada grupo (exposto
e não exposto), totalizando, assim, 8.998 indivíduos.
Supondo que o conhecimento seja acerca da prevalência do grupo não exposto (𝐸 − ), 𝑃0 = 0,20, tal
que 𝑃1 = 𝑅𝑅 × 𝑃0 = 2 × 0,20 = 0,40, 𝑛𝐶,𝐼𝐶,𝑅𝑅 = 1.904. Neste caso, devem ser recrutados 1.904
indivíduos em cada grupo, totalizando 3.808.
4.2.2 Tamanho de amostra para testes de hipóteses para a diferença entre proporções em
estudos de coorte
A comparação entre os grupos pode ser formulada pelo teste de hipóteses de diferenças entre as
proporções: 𝐻0 : 𝑃0 − 𝑃1 = 0 versus 𝐻1 : 𝑃0 − 𝑃1 ≠ 0 ou, equivalentemente, 𝐻0 : 𝑅𝑅 = 1 e 𝐻1 : 𝑅𝑅 ≠ 1.
Definindo a média entre as duas proporções, 𝑃̅ = (𝑃1 + 𝑃0 )/2, o tamanho da amostra necessário para
cada grupo, supondo balanceamento, isto é, 𝑛1 = 𝑛0 = 𝑛, pode ser obtido pela expressão:
2
[𝑧1−𝛼/2 √2𝑃̅(1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻2,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 = (4.2)
(𝑃1 − 𝑃0 )2
2
[𝑧1−𝛼 √2𝑃̅ (1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻1,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 = (4.3)
(𝑃1 − 𝑃0 )2
Note que a única diferença entre (4.2) e (4.3) são os primeiros percentis que aparecem nas fórmulas,
relacionados ao termo 𝛼: 𝑧1−𝛼/2 e 𝑧1−𝛼 para hipóteses bilaterais e unilaterais, respectivamente.
2
1 1
[𝑧1−𝛼/2 √2𝑃̅(1 − 𝑃̅ ) + 𝑧1−𝛽 √𝑃1 (1 + 𝑅𝑅 ) − 𝑃12 (1 + )]
𝑅𝑅 2 (4.4)
𝑛𝐶,𝑇𝐻2,𝑅𝑅 = 2
1
[𝑃1 (1 − 𝑅𝑅 )]
2
1 1
[𝑧1−𝛼 √2𝑃̅(1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 + ) − 𝑃12 (1 + )]
𝑅𝑅 𝑅𝑅2 (4.5)
𝑛𝐶,𝑇𝐻1,𝑅𝑅 =
1 2
[𝑃1 (1 − 𝑅𝑅 )]
As expressões (4.4) e (4.5) são interessantes na prática, já que às vezes pode ser difícil conhecer ou
estimar as duas probabilidades (𝑃1 e 𝑃0 ). Assim, o cálculo de 𝑛 depende somente da incidência da
doença no grupo exposto (𝑃1 ) e do risco relativo (𝑅𝑅), possivelmente mais fácil de ser estipulado.
Uma vez especificado o valor de 𝑃0 , o valor de 𝑅𝑅 é limitado por 0 < 𝑅𝑅 < 1/𝑃0 . Essa desigualdade
contrasta com o fato de que tamanhos de amostra são possíveis para qualquer valor de 𝑃0 .
Por exemplo, se é esperado que no grupo dos não expostos aproximadamente 40% apresentam o
desfecho pesquisado, então os valores de 𝑅𝑅 estão no intervalo: 0 < 𝑅𝑅 < 1/0,4 = 2,5. Assim, neste
caso, a hipótese alternativa 𝐻1 : 𝑅𝑅 = 3 não faz sentido. Este tipo de restrição não acontece para o
planejamento do tipo caso-controle.
Exemplo 4.2 - Tamanho da amostra em estudo de coorte com enfoque em teste de hipóteses para
o risco relativo ╬╬
2
̅ (1 − 𝑃
[𝑧1−𝛼/2 √2𝑃 ̅ ) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻2,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 =
(𝑃1 − 𝑃0 )2
2
[1,96√2(0,2625)(0,7375) + 1,28√0,175(0,825) + 0,35(0,65)]
= = 130,63
(0,350 − 0,175)2
No exemplo 4.2, foi utilizada a fórmula (4.2). Pelo enunciado do exemplo, 𝑅𝑅 = 0,50 e já foi
calculado que 𝑃1 = 0,175 e 𝑃̅ = 0,2625. Aplicando agora a fórmula (4.4), como demonstrado no
Quadro 4.2, chega-se ao mesmo tamanho de amostra: 131 participantes em cada grupo.
Quadro 4.2 - Cálculos do tamanho de amostra utilizando a fórmula (4.4)
2
1 1
[𝑧1−𝛼/2 √2𝑃̅ (1 − 𝑃̅) + 𝑧1−𝛽 √𝑃1 (1 + 𝑅𝑅 ) − 𝑃12 (1 + )]
𝑅𝑅 2
𝑛𝐶,𝑇𝐻2,𝑅𝑅 =
1 2
[𝑃1 (1 − 𝑅𝑅 )]
2
1 1
[1,96√2(0,2625)(0,7375) + 1,28√0,175 (1 + ) − (0,175)2 (1 + )]
0,50 (0,50)2
= 2
1
[0,175 (1 − )]
0,50
Uma pergunta que pode surgir é sobre o impacto da incidência da doença no tamanho da amostra.
Espera-se que, para determinada precisão, o tamanho da amostra necessário para o estudo de doenças
raras seja maior que para o de outras situações, isto é, para incidências mais altas. Entretanto, se em um
grupo a incidência da doença é a metade que em outro grupo, o que acontece com o tamanho da
amostra? Para saber exatamente o valor, é necessário fazer as contas.
Para ilustrar o impacto da incidência no cálculo do tamanho da amostra em estudos de coorte, serão
consideradas três situações: doenças a) raras; b) não tão raras; c) relativamente comuns. Para o grupo
exposto, serão considerados os seguintes percentuais (incidências): a) 0,1% (𝑃1 = 0,001); b) 1%
(𝑃1 = 0,01); c) 10% (𝑃1 = 0,10). A Tabela 4.1 mostra os tamanhos de amostras obtidos pela
aplicação da fórmula (4.2) para diferentes valores de risco relativo, considerando nível de significância
de 5% e poder de 90%.
Tabela 4.1 - Tamanhos de amostras (𝑛), obtidos pela fórmula (4.2), em cada grupo
(exposto e não exposto) para diferentes riscos relativos e para três incidências
no grupo exposto: 𝑃1 = 0,001; 𝑃1 = 0,01; 𝑃1 = 0,10
Por exemplo, para 𝑃1 = 0,10 e 𝑅𝑅 = 2, 𝑃0 = 𝑃1 /𝑅𝑅 = 0,10/2 = 0,05 e 𝑃̅ = (𝑃1 + 𝑃0 )/2 = 0,075.
O Quadro 4.3 ilustra o cálculo de 𝑛 correspondente.
2
[𝑧1−𝛼/2 √2𝑃̅(1 − 𝑃̅ ) + 𝑧1−𝛽 √𝑃1 (1 − 𝑃1 ) + 𝑃0 (1 − 𝑃0 )]
𝑛𝐶,𝑇𝐻2,𝐷𝑖𝑓𝑃𝑟𝑜𝑝 =
(𝑃1 − 𝑃0 )2
2
[1,96√2 × 0,075(0,925) + 1,28√0,10(0,90) + 0,05(0,95)] (0,730 + 0,475)2
= = = 580,81 ≅ 581
(0,10 − 0,05)2 0,0025
Os resultados da Tabela 4.1 foram obtidos com auxílio de uma planilha Excel® e a pequena diferença
em relação ao cálculo apresentado (582 na tabela e 581 na demonstração do cálculo) ocorre por questão
de aproximação.
Estudo caso-controle é uma pesquisa observacional, em geral de forma retrospectiva, em que dois
grupos são comparados em relação à exposição ao fator de risco. O caso é definido como aquele com a
doença (ou que apresenta o desfecho ou uma condição específica) e o controle é o que não apresenta
a doença. Nesta pesquisa, busca-se estimar a proporção de expostos ao fator de risco nos grupos de
casos e de controles.
O estudo começa com o levantamento da história clínica de todos os pacientes selecionados. A seguir,
procura-se saber se o fator de risco está presente mais frequentemente entre os casos do que entre os
controles. Se a evidência for suficiente, o pesquisador concluirá que existe associação entre o fator de
risco e a doença. Sejam 𝑃1∗ e 𝑃0∗ a proporção de expostos entre doentes e não doentes, respectivamente.
A medida de associação frequentemente utilizada é chamada de razão de chances (odds ratio) e é
𝑃 ∗ /(1−𝑃 ∗ ) 𝑃 ∗ (1−𝑃 ∗ )
definida por 𝑂𝑅 = 𝑃1∗/(1−𝑃1∗) = 𝑃1∗(1−𝑃0∗). Com esse tipo de delineamento estima-se a prevalência e não a
0 0 0 1
incidência de determinado desfecho de interesse. A Figura 4.2 ilustra o esquema geral de um estudo do
tipo caso-controle.
F+: Fator de risco presente; F-: Fator de risco ausente; C+: Caso; C- : Controle
Figura 4.2 - Esquema ilustrativo de estudo do tipo caso-controle.
A seguir serão apresentadas algumas formas de calcular o tamanho de amostra dentro do enfoque de
intervalo de confiança ou de teste de hipóteses utilizando a medida razão de chances (odds ratio) ou
diferença de proporções baseadas em trabalhos tradicionais. As seguintes referências tratam da
determinação do tamanho de amostra em estudos do tipo caso-controle em diferentes contextos:
Lubin et al. (1988), Satten e Kupper (1990), Nam e Fears (1992), Hwang et al. (1994), Foppa e
Spiegelman (1997), Qiu et al. (2000), Gauderman (2002), Santis et al. (2004), Hanley et al. (2005) e
M’Lan et al. (2006).
4.3.1 Tamanho de amostra para estimação da razão de chances (odds ratio) usando a precisão
relativa (𝒅𝒓𝒆𝒍 ) em estudos caso-controle
O tamanho da amostra em cada grupo, 𝑛1 = 𝑛0 = 𝑛, necessário para estimar a razão de chances (odds
ratio) com confiança (1 − 𝛼) e dentro de uma precisão relativa 𝑑𝑟𝑒𝑙 , é dado por:
1 1
(𝑧1−𝛼/2 )2 ( + )
𝑃1∗ (1 − 𝑃1∗ ) 𝑃0∗ (1 − 𝑃0∗ ) (4.6)
𝑛𝐶𝐶,𝐼𝐶 =
[𝑙𝑜𝑔(1 − 𝑑𝑟𝑒𝑙 )]2
Como comentado no início da seção, em (4.6), 𝑃1∗ e 𝑃0∗ representam as proporções de expostos entre
doentes e não doentes, respectivamente, usando a definição de odds ratio, a proporção 𝑃1∗ pode ser
𝑂𝑅(𝑃 ∗ )
escrita como 𝑃1∗ = 𝑂𝑅(𝑃∗)+(1−𝑃
0
∗ ).
0 0
Planeja-se estudo caso-controle e espera-se que a proporção de expostos entre os controles seja de 0,30
e a razão de chances seja de 2. Deseja-se calcular o tamanho de amostra em cada grupo (de casos e de
controles), com balanceamento dos grupos, com 95% de confiança, supondo-se que a distância entre a
razão de chances estimada e a verdadeira esteja dentro de: a) 10%; b) 25%; c) 50%. Ou seja, os desvios
relativos são a) 𝑑𝑟𝑒𝑙 = 0,10 b) 𝑑𝑟𝑒𝑙 = 0,25; c) 𝑑𝑟𝑒𝑙 = 0,50.
A partir das informações fornecidas (𝑃0∗ = 0,30 e 𝑂𝑅 = 2), conclui-se que a proporção de expostos
𝑂𝑅(𝑃 ∗ ) 2(0,30)
entre os casos seja 𝑃1∗ = 𝑂𝑅(𝑃∗)+(1−𝑃
0
∗ ) = 2(0,30)+0,70 = 0,46. Os cálculos dos tamanhos da amostra
0 0
utilizando a fórmula (4.6) estão mostrados no Quadro 4.4 (a notação 𝑛𝐶𝐶,𝐼𝐶 foi simplificada para 𝑛).
1 1 𝑛
(𝑧1−𝛼/2 )2 ( ∗ + )
Item 𝑃1 (1 − 𝑃1∗ ) 𝑃0∗ (1 − 𝑃0∗ ) (nº de casos = nº de
𝑛=
[𝑙𝑜𝑔(1 − 𝑑𝑟𝑒𝑙 )]2 controles)
4.3.2 Tamanho de amostra para testes de hipóteses sobre diferença entre proporções em
estudos caso-controle
Sejam 𝑃1∗ e 𝑃0∗ a proporção de expostos entre doentes (casos) e não doentes (controles).
Em estudos do tipo caso-controle, a associação entre o fator de risco e a doença pode ser formalizada
em termos das diferenças entre as proporções pelas hipóteses 𝐻0 : 𝑃1∗ − 𝑃0∗ = 0 versus 𝐻1 : 𝑃1∗ − 𝑃0∗ ≠ 0,
o que é equivalente a testar as hipóteses em termos de razão de chances (𝑂𝑅) 𝐻0 : 𝑂𝑅 = 1 versus
𝐻1 : 𝑂𝑅 ≠ 1. A fórmula para calcular o tamanho de amostra é dada por:
2
[𝑧1−𝛼/2 √2𝑃0∗ (1 − 𝑃0∗ ) + 𝑧1−𝛽 √𝑃1∗ (1 − 𝑃1∗ ) + 𝑃0∗ (1 − 𝑃0∗ ) ]
𝑛𝐶𝐶,𝑇𝐻2 = (4.7)
(𝑃1∗ − 𝑃0∗ )2
Note-se a semelhança da fórmula (4.7) com a (4.2), que também é para dimensionamento de amostra
usando a diferença de proporção, mas para estudos de coorte. A diferença básica entre as duas fórmulas
é que dentro da primeira raiz quadrada, para o planejamento caso-controle, aparece 2𝑃0∗ (1 − 𝑃0∗ ),
enquanto que na fórmula (4.2), 2𝑃̅(1 − 𝑃̅ ). Como definido na seção anterior, 𝑃0∗ representa a proporção
de expostos entre o grupo de não doentes e 𝑃̅ é a média entre as proporções dos dois grupos
comparados. O raciocínio para explicar tal modificação é que, em estudos do tipo caso-controle, a
média das proporções não seria tão apropriada já que eventualmente o grupo de controles é muito
maior. Além disso, o conhecimento acerca da taxa de exposição entre os controles é, em geral, melhor
do que entre os casos. Daí a lógica de usar 𝑃0∗ . Por outro lado, usar a média 𝑃̅ reflete a incerteza em
relação à proporção comum dos dois grupos.
Para o dimensionamento de amostras quando se quer testar hipóteses unilaterais, por exemplo, em
termos das proporções, 𝐻0 : 𝑃1∗ − 𝑃0∗ = 0 versus 𝐻1 : 𝑃1∗ − 𝑃0∗ > 0, ou de forma equivalente em termos
de odds ratio, 𝐻0 : 𝑂𝑅 = 1 versus 𝐻1 : 𝑂𝑅 > 1, de forma análoga ao caso de hipóteses bilaterais, (basta
trocar 𝑧1−𝛼/2 por 𝑧1−𝛼 ), tem-se que:
2
[𝑧1−𝛼 √2𝑃0∗ (1 − 𝑃0∗ ) + 𝑧1−𝛽 √𝑃1∗ (1 − 𝑃1∗ ) + 𝑃0∗ (1 − 𝑃0∗ ) ]
𝑛𝐶𝐶,𝑇𝐻1 = (4.8)
(𝑃1∗ − 𝑃0∗ )2
Exemplo 4.6 - Tamanho da amostra em estudo caso-controle com enfoque em teste de hipóteses
para vários valores da razão de chances (𝑶𝑹) ╬╬
A Tabela 4.2 mostra os tamanhos de amostras para vários valores de 𝑂𝑅, quando o nível de
significância e o poder foram fixados em 5% e 95%, utilizando-se as fórmulas (4.7) e (4.8), para
hipóteses bilaterais e unilaterais, respectivamente.
Tabela 4.2 - Tamanho de amostra (𝑛) em cada grupo (casos e controles) para diferentes valores
de razão de chance (𝑂𝑅) com os correspondentes valores de 𝑃1∗ quando 𝑃0∗ = 0,02
Como esperado, à medida que a razão de chances (𝑂𝑅) aumenta, 𝑛 diminui. Além disso, os valores
referentes a hipóteses bilaterais são superiores aos das hipóteses unilaterais, um acréscimo que vai
de 15 a 20%.
Exemplo 4.7 - Tamanho da amostra em estudo caso-controle com enfoque em teste de hipóteses
para a razão de chances (𝑶𝑹) ╬╬
Em estudo caso-controle não pareado com o objetivo de verificar possíveis fatores de risco de
determinada doença, constatou-se que um dos fatores estudados está presente em 9,5% dos controles.
Para conduzir novo estudo, com confiança de 95%, poder de 80% e odds ratio que se quer identificar
com valor mínimo igual a 2, o tamanho de amostra para cada grupo calculado a partir da fórmula (4.7)
será de 240. Se o poder for aumentado para 90%, o tamanho da amostra sobe para 330. Os cálculos do
tamanho de amostra estão mostrados no Quadro 4.5 (a notação 𝑛𝐶𝐶,𝑇𝐻2 foi simplificada para 𝑛).
2
90% [1,96√2(0,095)(0,905) + 1,28√0,1735(0,8265) + (0,095)(0,905) ]
𝑛= = 329,89
(0,1735 − 0,095)2
Nota: a notação 𝑛𝐶𝐶,𝑇𝐻2 da fórmula (4.7) foi simplificada para 𝑛; 𝑃1∗ : proporção de expostos entre doentes (casos);
𝑃0∗ : proporção de expostos entre não doentes (controles).
O teste de McNemar é uma forma apropriada para comparação de proporções nos estudos em que os
dados foram coletados de forma pareada, quando cada caso tem apenas um controle.
No contexto de experimento clínico com pareamento, a nomenclatura usualmente adotada é sucesso (S)
e fracasso (F) para a ocorrência ou não do evento de interesse. Assim, os pares de elementos dos
grupos tratamento e controle são: (S,S), (S,F), (F,S) e (F,F). O teste pode ser aplicado para outros tipos
de dados pareados, por exemplo, estudo caso-controle pareado ou avaliações feitas em duas ocasiões.
Uma formulação mais geral seria considerar a resposta binária (𝑋 = 0 ou 𝑋 = 1), cujos pares formados
são (00), (01), (10) e (11). A distribuição de probabilidades bem como a forma de apresentação
genérica dos dados encontram-se na Tabela 4.3 para a situação específica de avaliação pré e
pós-tratamento.
𝑝 +𝑝 1 1
̂ 𝑀𝑐𝑁 )) = √ 01 10 = √ + . Intervalo de confiança
padrão na escala logarítmica é 𝐷𝑃 (𝑙𝑜𝑔(𝑂𝑅 𝑝 𝑝 𝑝 𝑝
01 10 01 10
aproximado para razão de chances na escala logarítmica é construído da forma usual, ou seja, é dado
̂ 𝑀𝑐𝑁 ) ± 𝑧1−𝛼/2 𝐷𝑃 (𝑙𝑜𝑔(𝑂𝑅
por 𝑙𝑜𝑔(𝑂𝑅 ̂ 𝑀𝑐𝑁 )) = (𝐿𝑖𝑛𝑓 , 𝐿𝑠𝑢𝑝 ), sendo 𝑧1−𝛼/2 o percentil de ordem
(1 − 𝛼/2)100% da distribuição normal padrão. Para a obtenção do intervalo de confiança para
̂ 𝑀𝑐𝑁 ) ±
𝑂𝑅𝑀𝑐𝑁 , basta aplicar a função exponencial em 𝐿𝑖𝑛𝑓 e 𝐿𝑠𝑢𝑝 , isto é, 𝑒𝑥𝑝 {𝑙𝑜𝑔(𝑂𝑅
̂ 𝑀𝑐𝑁 ))}.
𝑧1−𝛼/2 𝐷𝑃 (𝑙𝑜𝑔(𝑂𝑅
Existem formas alternativas para se calcular o intervalo de confiança para a razão de chances para
dados pareados. Por exemplo, o método utilizado no EpiInfo difere do apresentado aqui.
Os pares que produziram os mesmos resultados nos dois elementos do par, tanto para o elemento do
pré como do pós-tratamento, a saber, os pares (0,0) e (1,1), não contêm informação para discriminar
𝑝1. de 𝑝.1. Pode-se pensar que, se 𝐻0 é verdadeira, se os dois grupos são equivalentes, as discordâncias
observadas são fruto do acaso. Então, se 𝑛01 e 𝑛10 são valores semelhantes, sob 𝐻0 espera-se a metade
do número de discordâncias: (𝑛01 + 𝑛10 )/2. Portanto, a hipótese 𝐻0 deve ser rejeitada se a distância
entre os valores observados e esperados for grande.
𝑛 +𝑛 1 2
(|𝑛10 − 01 10 |− ) (|𝑛01 −𝑛10 |−1)2 (𝑛01 −𝑛10 )2
2 2 2
𝑛01 +𝑛10 = e 𝑋𝑀𝑐𝑁,𝑠/𝑐𝑐 = , respectivamente. A regra de decisão do
𝑛01 +𝑛10 𝑛01 +𝑛10
2
Segundo Chow et al. (2008), utilizando o teorema central do limite, pode-se mostrar que para um
tamanho de amostra 𝑛, o poder do teste de McNemar referente à estatística 𝑍𝑀𝑐𝑁 é dado por:
√𝑛(𝑝01 − 𝑝10 ) − 𝑧1−𝛼/2 √𝑝01 + 𝑝10
Φ( ) (4.9)
√𝑝01 + 𝑝10 − (𝑝01 − 𝑝10 )2
2
(𝑧1−𝛼/2 √𝑝01 + 𝑝10 + 𝑧1−𝛽 √(𝑝01 + 𝑝10 ) − (𝑝01 − 𝑝10 )2 ) (4.10)
𝑛𝑀𝑐𝑁 =
(𝑝10 − 𝑝01 )2
A fórmula (4.10) expressa em termos da razão (𝑅𝐷𝑖𝑠𝑐 ) entre as probabilidades das discordâncias e da
soma (𝑆𝐷𝑖𝑠𝑐 ) delas (𝑅𝐷𝑖𝑠𝑐 = 𝑝01 /𝑝10 e 𝑆𝐷𝑖𝑠𝑐 = 𝑝01 + 𝑝10 ) fica sendo:
2
(𝑧1−𝛼/2 (𝑅𝐷𝑖𝑠𝑐 + 1) + 𝑧1−𝛽 √(𝑅𝐷𝑖𝑠𝑐 + 1)2 − (𝑅𝐷𝑖𝑠𝑐 − 1)2 𝑆𝐷𝑖𝑠𝑐 ) (4.11)
𝑛𝑀𝑐𝑁,𝑅𝐷𝑖𝑠𝑐,𝑆𝐷𝑖𝑠𝑐 =
(𝑅𝐷𝑖𝑠𝑐 − 1)2 𝑆𝐷𝑖𝑠𝑐
Existem outros trabalhos que apresentam fórmulas alternativas para o cálculo do tamanho de amostra
quando o teste McNemar for utilizado, em geral empregando as probabilidades de discordâncias.
Entretanto, segundo Lachenbruch (1992), é mais difícil especificar tais probabilidades do que as
probabilidades marginais nas quais a proposta de seu trabalho foi baseada. Lachenbruch (1992)
desenvolve fórmulas para o cálculo do tamanho de amostra utilizando enfoque de análise condicional,
não condicional e o que ele denomina de método não ajustado. Compara seu método com os de
Schlesselman (1982) e de Connett et al. (1987).
2
(𝑧1−𝛼/𝑆 (𝑂𝑅𝑀𝑐𝑁 + 1) + 𝑧1−𝛽 √(𝑂𝑅𝑀𝑐𝑁 + 1)2 − (𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑃𝐷)
𝑛 𝑀𝑎𝑐ℎ𝑖𝑛 = (4.12)
𝑒𝑡 𝑎𝑙 (1997) (𝑂𝑅𝑀𝑐𝑁 − 1)2 𝑃𝐷
Em (4.12), 𝑃𝐷 = 𝑝01 + 𝑝10 é a soma das proporções dos pares discordantes, 𝑂𝑅𝑀𝑐𝑁 = 𝑝01 /𝑝10 é a
razão de chances, 𝛼 é o nível de significância, (1 − 𝛽) é o poder do teste e 𝑧1−𝛼/𝑆 é o percentil da
distribuição normal padrão, sendo que 𝑠 = 1 ou 𝑠 = 2 para hipóteses unilaterais ou bilaterais,
respectivamente. Note-se que essa é exatamente a fórmula (3.16) apresentada no capítulo 3.
Com a unificação da notação, 𝑆𝐷𝑖𝑠𝑐 = 𝑃𝐷 e 𝑅𝐷𝑖𝑠𝑐 = 𝑂𝑅𝑀𝑐𝑁 , observe-se também a equivalência das
fórmulas (4.11) e (4.12).
Schork e Williams (1980) publicaram uma fórmula que fornece os resultados exatos para o caso não
condicional utilizando a enumeração de todos os possíveis desfechos da distribuição binomial.
Essa formulação encontra-se implementada no software Pass®.
58,57 ≈ 59. Se o valor de 𝑝10 aumentasse para 0,55 (𝑝10 = 0,55), mesmo mantendo o valor de
𝑝01 (𝑝01 = 0,20), 𝑛𝑀𝑐𝑁 cairia para 46.
Se o poder for trocado para 90%, 𝑛𝑀𝑐𝑁 = 78 quando 𝑝10 = 0,50 e 𝑝01 = 0,20; o tamanho da amostra
necessário cai para 61 quando 𝑝10 = 0,55, mantendo 𝑝01 = 0,20.
4.4.2 Tamanho de amostra para o caso de amostras emparelhadas (três ou mais categorias)
Na seção anterior foi discutido o teste de McNemar para variáveis dicotômicas, ou seja, referente a
duas categorias. Para situações com três ou mais categorias, outros testes devem ser aplicados.
A Tabela 4.4 apresenta a distribuição de probabilidades bem como a forma de apresentação genérica
dos dados com três ou mais categorias para a situação específica de avaliação pré e pós-tratamento.
Tabela 4.4 - Distribuição de probabilidades e frequências (entre parênteses) obtidas
em uma classificação de dados emparelhados, tendo 𝑟 ≥ 3 categorias
Para testar a inexistência do efeito de tratamento, formulam-se as seguintes hipóteses: 𝐻0 : 𝑝𝑖𝑗 = 𝑝𝑗𝑖
para todo 𝑖 ≠ 𝑗 e 𝐻1 : 𝑝𝑖𝑗 ≠ 𝑝𝑗𝑖 para alguns casos em que 𝑖 ≠ 𝑗. Segundo Chow et al. (2008),
(𝑛𝑖𝑗 −𝑛𝑗𝑖 )2
a estatística do teste de Stuart-Maxwell é dada por 𝑆𝑀 = ∑𝑖<𝑗 . Entretanto, essa estatística
𝑛𝑖𝑗 +𝑛𝑗𝑖
aparece em Bowker (1949) e Maxwell (1970) e, segundo Tang et al. (2012), ela é a do teste de Bowker
(e não a do teste de Stuart-Maxwell, para este é fornecida outra estatística).
Como o dimensionamento de amostra a ser apresentado a seguir foi baseado em Chow et al. (2008),
serão fornecidos os mesmos detalhes. Mas para evitar a confusão acerca do nome do teste (Stuart-
Maxwell ou Bowker), ao nome da estatística será acrescentada a letra 𝐵. Assim, a estatística é a mesma
(𝑛𝑖𝑗 −𝑛𝑗𝑖 )2
anterior, mas recebeu novo nome: 𝐵𝑆𝑀 = ∑𝑖<𝑗 . Sob 𝐻0 , 𝐵𝑆𝑀 segue distribuição
𝑛𝑖𝑗 +𝑛𝑗𝑖
qui-quadrado com 𝑟(𝑟 − 1)/2 graus de liberdade. Fixando o nível de significância em 𝛼, a hipótese
nula é rejeitada se 𝐵𝑆𝑀 > 𝜒1−𝛼,𝑟(𝑟−1)/2, sendo 𝜒1−𝛼,𝑟(𝑟−1)/2 o percentil de ordem (1 − 𝛼)100% da
distribuição qui-quadrado com 𝑟(𝑟 − 1)/2 graus de liberdade.
Assintoticamente, 𝐵𝑆𝑀 tem distribuição qui-quadrado não central com 𝑟(𝑟 − 1)/2 graus de liberdade
e parâmetro de não centralidade igual a 𝛿. Fixando o poder em (1 − 𝛽), 𝛿 pode ser obtido resolvendo-
se a seguinte equação: 𝐹𝑟(𝑟−1) (𝜒 2 𝑟(𝑟−1) |𝛿) = 𝛽, sendo 𝐹𝑟(𝑟−1) (. |𝛿) a função acumulada da
2 1−𝛼, 2
2
−1
(𝑝𝑖𝑗 − 𝑝𝑗𝑖 )2
𝑛𝐵𝑆𝑀 = 𝛿𝛼,𝛽 (∑ ) (4.13)
𝑝𝑖𝑗 + 𝑝𝑗𝑖
𝑖<𝑗
Exemplo 4.9 - Tamanho de amostra para o caso de amostras emparelhadas com três categorias
Para uma situação com três categorias (𝑟 = 3) com distribuição de probabilidades obtida em um
estudo-piloto mostrada na Tabela 4.5, quer-se fazer o dimensionamento para o estudo definitivo,
fixando-se o nível de significância em 5% e o poder do teste em 80%.
(𝑝𝑖𝑗 −𝑝𝑗𝑖 )2
∑𝑖<𝑗 = 0,027 + 0,072 + 0,008 = 0,107. O tamanho de amostra é obtido a partir da fórmula
𝑝𝑖𝑗 +𝑝𝑗𝑖
−1
(𝑝𝑖𝑗 −𝑝𝑗𝑖 )2 10,903
(4.13), 𝑛𝐵𝑆𝑀 = 𝛿𝛼,𝛽 (∑𝑖<𝑗 𝑝𝑖𝑗 +𝑝𝑗𝑖
) = 0,107
= 101,897 ≈ 102, sendo necessário recrutar, então,
102 participantes.
4.5 Estudos transversais
O estudo transversal - também conhecido como estudo de corte transversal, estudo seccional ou, ainda,
estudo de prevalência, em inglês, cross-sectional study - é uma forma de pesquisa que consiste em
coletar dados em determinado tempo, após um corte no tempo, sem seguimento (follow-up). Assim,
para cada participante do estudo, tanto a exposição como também o desfecho (por exemplo, a doença)
são observados simultaneamente. Funciona como uma fotografia do que acontece naquele instante,
como ilustrado na Figura 4.3.
E+: Exposto; E-: Não Exposto; D+: Doente; D-: Não Doente
F+: Fator de Risco presente; F-: Fator de Risco ausente; C+: Caso; C-: Controle
Figura 4.3 - Esquema ilustrativo de estudo transversal.
Estudos tranversais são apropriados para medir prevalência de condições de saúde, determinadas
exposições (por exemplo, fatores de risco de certas doenças) e outras características da população.
Podem medir atitudes, comportamentos, história pessoal ou familiar, fatores genéticos, existentes
ou condições de saúde anteriores ou qualquer outro fator que não necessita de acompanhamento
para ser avaliado.
Para dados discretos, podem ser utilizadas as seguintes medidas de efeito: razão ou diferença de
proporção ou, ainda, razão de chances (odds ratio).
4.5.1 Tamanho de amostra em estudos transversais
Ensaio clínico controlado, também conhecido como ensaio clínico aleatorizado ou, ainda, ensaio
clínico randomizado, é realizado geralmente com o objetivo de verificar, entre dois ou mais
tratamentos, qual é o mais efetivo. Trata-se de estudo prospectivo planejado, por exemplo, para avaliar
o tratamento mais apropriado para futuros pacientes com determinada condição médica.
Os critérios de inclusão e exclusão de pacientes e também de suas alocações nos tratamentos devem ser
cuidadosamente estabelecidos. Após um critério de admissão ter sido definido, os pacientes são,
à medida que entram no experimento, alocados de maneira aleatória no grupo-controle, que recebe a
terapêutica padrão, ou no grupo-tratamento, que recebe a terapêutica sendo testada. Naturalmente,
os mesmos cuidados devem ser oferecidos aos grupos a serem comparados. Terminado o experimento,
técnicas estatísticas são aplicadas para se decidir se há ou não diferença na eficácia das terapias
envolvidas.
O conhecimento, pelo paciente ou pelo médico, do tratamento a ser administrado pode influir na
resposta ao mesmo, não a partir de fatores extrínsecos, mas diretamente pelo processo de
autossugestão, o que pode trazer vícios ao estudo clínico. Uma maneira de eliminar esse problema é
realizar, sempre que possível, experimentos cegos, nos quais o paciente ou o médico não conhece o
tratamento, ou duplo-cego, no qual ambas as partes desconhecem o tratamento. Esse ideal, entretanto,
nem sempre é viável. Esse tipo de estudo propicia intervenções dos pesquisadores, por exemplo, a
interrupção da pesquisa antes do prazo previsto.
Ensaios clínicos podem assumir diferentes formas. Entretanto, todos são prospectivos, já que as
observações são tomadas ao longo do tempo após a alocação no tratamento. A variável resposta pode
ser quantitativa ou qualitativa. Podem ser considerados grupos paralelos, correspondendo a amostras
independentes, ou do tipo crossover, para o caso de amostras pareadas ou emparelhadas (FLEISS,
1986). Comparação entre esses dois tipos de esquemas pode ser encontrada em Senn (2002) e Jones e
Kenward (2015).
Em estudos para desenvolvimento de medicamentos, dois agentes ativos podem ser comparados ou
eventualmente um dos grupos pode receber o placebo. Além disso, dois aspectos devem ser avaliados:
segurança e eficácia. Em geral, as pesquisas são realizadas em várias etapas ou fases. Detalhes sobre
essas fases podem ser encontrados, por exemplo, em Everitt e Pickles (2004).
Todos os comentários feitos nesta seção, que estão longe de ser extensivos, apenas dão a ideia de quão
ampla é a metodologia de dimensionamento de tamanho de amostra para ensaios clínicos controlados.
Por exemplo, se a comparação de tratamentos será feita por meio de proporções ou médias, pode-se
utilizar a mesma metodologia apresentada nos capítulos 2 e 3. O próximo capítulo trata do
dimensionamento de estudos especiais, os ensaios de não inferioridade e equivalência. De forma geral,
é necessário identificar a forma apropriada de dimensionar o estudo em cada caso específico.
O capítulo 7 de Ryan (2013), dedicado a ensaios clínicos, apresenta mais comentários e pouquíssimas
fórmulas. O livro de Chow et al. (2008) traz excelente conteúdo e trata-se de referência no assunto
por ser bastante completo, mas o leitor deve estar atento para errinhos, a maioria tipográficos,
em muitas fórmulas.
O termo amostragem remete imediatamente aos grandes levantamentos de dados (surveys), pesquisas
de opinião, de mercado e de intenção de voto, por serem as situações mais conhecidas e tradicionais
das técnicas de amostragem, embora seu leque de aplicações seja mais amplo. Nesta seção, serão
resumidos brevemente os esquemas amostrais mais utilizados na prática, especialmente voltados para
os estudos epidemiológicos e clínicos, seguidos de comentários ligados ao dimensionamento de
amostra. Além disso, serão apresentadas fórmulas de cálculo do tamanho de amostra para algumas
situações, baseadas especialmente em Bolfarine e Bussab (2005) e Levy e Lemeshow (2008).
Segundo o livro de Bolfarine e Bussab (2005), plano amostral refere-se ao protocolo que descreve os
métodos e as medidas utilizadas na amostragem. Eles apresentam uma lista de tópicos no Apêndice B
que devem ser levados em conta em um levantamento amostral. O plano amostral está intimamente
ligado ao processo de sorteio dos elementos que vão compor a amostra e aos métodos de estimação dos
parâmetros, geralmente médias e totais, e de modo que se possam obter suas variâncias. Na literatura
estatística, os esquemas amostrais são mais voltados para a estimação do que para testes de hipóteses.
O efeito do tipo de amostragem pode ser avaliado por uma medida conhecida como design effect, em
geral abreviada por deff. É definida como a razão entre duas variâncias do estimador de interesse:
no numerador referente a determinada amostragem (por exemplo, AE) e no denominador a variância
calculada para AAS, que é considerada a referência. Por exemplo, para avaliar o efeito da estratificação
𝑉𝑎𝑟(𝑋̅ )𝐴𝐸
na estimação da média, calcula-se 𝑑𝑒𝑓𝑓𝐴𝐸,𝑋̅ = .
𝑉𝑎𝑟(𝑋̅ )𝐴𝐴𝑆
A seguir, são apresentados comentários sobre os esquemas amostrais de maneira resumida. Para mais
detalhes, textos sobre o assunto devem ser consultados. Destacam-se os clássicos como Kish (1965),
Cochran (1977) e Levy e Lemeshow (2008), além das publicações em português: Silva (2004), com
aplicações na área da saúde, e Bolfarine e Bussab (2005), com detalhes bem mais técnicos do que a
referência anterior. Naturalmente, cada esquema amostral requer um tipo de dimensionamento de
amostra apropriado. São apresentadas também algumas fórmulas de cálculos de tamanhos de amostra
dentro desse contexto.
4.7.1 Amostragem aleatória simples (AAS)
Para aplicar a amostragem aleatória simples (AAS), é necessário ter um sistema de referência (em
inglês frame), que é a lista de todos os elementos da população. O sorteio é feito entre todos os
elementos do sistema de referência de forma aleatória, utilizando uma tabela de números aleatórios (ver
Apêndice B). O procedimento para o sorteio encontra-se implementado em vários programas
de computador, tanto comerciais como de uso livre, e em geral sua utilização é extremamente simples.
A amostragem pode ser com ou sem reposição.
A grande vantagem desse tipo de sorteio é o fato de não deixar dúvida quanto às probabilidades dos
elementos que devem entrar na amostra. Esse tipo de amostragem é a referência para comparação entre
os esquemas amostrais, pelas propriedades teóricas advindas do sorteio equiprovável.
Entretanto, uma desvantagem considerável da AAS é que, para se realizar o sorteio, há necessidade da
lista de todos os elementos da população de base (frame), completa e atualizada, o que nem sempre é
possível. Em estudos epidemiológicos e clínicos, existem situações em que a população pode ser muito
bem definida pelos critérios de inclusão e de exclusão, mas não ser possível reunir todos os elementos
em uma única lista para, então, proceder ao sorteio. Um exemplo disso são os estudos prospectivos
(estudos de coorte e ensaios clínicos) de pacientes recrutados em um serviço de saúde; sabe-se quem é
elegível para fazer parte do estudo, mas não se tem a lista de todos os possíveis pacientes. Também em
estudos retrospectivos (estudos caso-controle ou coortes históricas), pode-se ter acesso a uma lista de
todos os pacientes atendidos em um determinado período de tempo passado, mas deve-se filtrá-los para
compor a amostra.
Como exemplo em que a ASS é viável, pode-se citar o sorteio de um tipo de profissional, por exemplo,
médicos, para participar de um estudo. A partir da lista completa do Conselho Regional desse tipo de
profissional, é possível sortear a amostra e, então, obter as informações desejadas. Outro exemplo é a
pesquisa sobre a satisfação dos afiliados de um plano de saúde. Nesse caso, é possível realizar uma
AAS já que existe a lista de todos os afiliados.
O exemplo descrito a seguir está ilustrado na Figura 4.4. Suponha-se que de um grupo de 100 pacientes
cujos dados estão organizados em uma planilha será selecionada uma AAS de tamanho n = 20,
sem reposição. Para o sorteio, pode-se utilizar a tradicional urna ou, alternativamente, uma tabela
de números aleatórios ou, ainda, um algoritmo de geração de números aleatórios. Nesse caso, a amostra
será composta pelos elementos marcados: 3, 7, 12, 15, 19, 27, 30, 43, 45, 49, 51, 64, 68, 72, 76, 79, 81,
83, 98, 100.
Levy e Lemeshow (2008) apresentam fórmulas de dimensionamento de amostra para a média e para a
proporção quando for utilizado o esquema AAS, supondo-se que o tamanho da população (𝑁) seja
conhecido e as fórmulas aproximadas correspondentes quando 𝑁 for considerado grande. Os outros
termos que aparecem nas fórmulas são definidos a seguir.
Tamanho de amostra para estimação de médias usando amostragem aleatória simples (𝐀𝐀𝐒)
Supondo-se que a variável analisada (𝑋) tenha média 𝜇𝑋 e variância 𝜎𝑋2 , a fórmula para o cálculo de
tamanho de amostra quando se quer estimar a média sob o esquema de AAS é:
(𝑧1−𝛼/2 )2 𝑁𝑉𝑋2
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆) = (4.14)
(𝑧1−𝛼/2 )2 𝑉𝑋2 + (𝑁 − 1)𝑑 2
(𝑧1−𝛼/2 )2 𝑉𝑋2
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆,𝑁↑) = (4.15)
𝑑2
Tamanho de amostra para estimação de proporções usando amostragem aleatória simples (AAS)
Para a estimação de proporção, a fórmula para cálculo de tamanho de amostra sob o esquema
de AAS é:
(𝑧1−𝛼/2 )2 𝑁𝑃𝑌 (1 − 𝑃𝑌 )
𝑛𝑝𝑟𝑜𝑝(𝐴𝐴𝑆) = (4.16)
(𝑧1−𝛼/2 )2 𝑃𝑌 (1 − 𝑃𝑌 ) + (𝑁 − 1)𝑑2 𝑃𝑌2
(𝑧1−𝛼/2 )2 (1 − 𝑃𝑌 )
𝑛𝑝𝑟𝑜𝑝(𝐴𝐴𝑆,𝑁↑) = (4.17)
𝑑2 𝑃𝑌
O nível de confiança é fixado de forma arbitrária, usualmente 95%, mas Levy e Lemeshow (2008)
utilizam o termo certeza virtual quando o nível de significância é bastante alto, quase 100%. Quando a
distribuição subjacente é a normal padrão, N(0,1), é equivalente a três desvios para cima e para baixo,
que cobre aproximadamente 99,7% da curva, caso em que 𝑧1−𝛼/2 = 3,0.
Exemplo 4.10 - Tamanho de amostra para estimar a média quando for adotada a amostragem
aleatória simples ╬╬
definitivo, cujo tamanho da população é 2.500 (𝑁 = 2.500), fixando a precisão em 𝑑 = 0,1 e o nível
de confiança em 95%, a solução da aplicação da fórmula (4.14) é 16: 𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆) =
(𝑧1−𝛼/2 )2 𝑁𝑉𝑋2 (1,96)2 ×2.500×0,04
= (1,96)2 ×0,04+(2.499)(0,1)2 = 15,28 ≅ 16. Para a certeza virtual (𝑧1−𝛼/2 = 3),
(𝑧1−𝛼/2 )2 𝑉𝑋2 +(𝑁−1)𝑑2
9×2.500×0,04
o tamanho da amostra sobe para 36: 𝑛𝑚é𝑑𝑖𝑎(𝐴𝐴𝑆) = 9×0,04+(2.499)(0,1)2 = 35,5 ≅ 36. O mesmo
Exemplo 4.11 - Tamanho de amostra para estimar a proporção quando for adotada a
amostragem aleatória simples ╬╬
Quer-se determinar o tamanho da amostra para estimar a proporção de indivíduos que estão satisfeitos
com o Plano de Saúde contratado em determinado segmento (por exemplo, pertencentes a certa faixa
de idade, com algum perfil de saúde, que possuem determinado tipo de plano, com direito a enfermaria
ou apartamento, etc.). O tamanho desse segmento de afiliados (“população”) é de 20.000
(𝑁 = 20.000).
O comitê responsável pela pesquisa decidiu que alguma ação corretiva deve ser tomada se menos de
80% dos afiliados estiverem satisfeitos. Neste caso, o comitê estaria preocupado com superestimativas
brutas da verdadeira proporção, mas provavelmente não seria muito problemático se a proporção
estimada fosse de 80% quando a verdadeira proporção fosse de 75%. Este raciocínio pode ser
formulado calculando-se o desvio relativo como 100 [(80 − 75) / 75]% = 6,67%, ou seja,
𝑑 = 0,0667.
Aplicando a fórmula (4.16), adotando a certeza virtual (𝑧1−𝛼/2 = 3) e fazendo 𝑃𝑌 = 0,80, tem-se que
(𝑧1−𝛼/2 )2 𝑁𝑃𝑌 (1−𝑃𝑌 ) 9×20.000×0,80×0,20
𝑛𝑝𝑟𝑜𝑝(𝐴𝐴𝑆) = (𝑧 2 2 2
= 9×0,80×0,20+(19.999)(0,0667)2 (0,80)2 = 493,29 ≅ 494. Assim, é
1−𝛼/2 ) (1−𝑃𝑌 )+(𝑁−1)𝑑 𝑃𝑌
necessário recrutar 494 indivíduos. Se o nível de confiança fosse 95%, o tamanho de amostra seria 214.
Utilizando a fórmula (4.17) para amostras grandes, os tamanhos de amostra correspondentes aos dois
níveis de significância são ligeiramente diferentes: 506 e 216.
Na amostragem sistemática (AS) utiliza-se um tipo de sorteio que segue sistemática preestabelecida,
por exemplo, a amostra pode ser composta dos seguintes elementos: 4º, 14º, 24º, 34º, etc. O esquema
geral consiste em sortear o primeiro elemento da amostra usando AAS e depois os elementos
subsequentes usando AS, isto é, com o mesmo espaçamento. De forma geral, consiste em dividir a
população de 𝑁 elementos em 𝑝 = 𝑁/𝑛 regiões. Seleciona-se aleatoriamente um número 𝑘 entre 1 e 𝑝,
que corresponde ao primeiro elemento da amostra. O segundo elemento será o que ocupa a posição
𝑘 + 𝑝; o terceiro, 𝑘 + 2𝑝, e assim por diante, até completar a amostra de 𝑛 elementos. A população
deve estar ordenada segundo algum critério não relacionado ao tema principal, de modo a tornar o
sorteio completamente aleatório, uma vez que a partida do sorteio é aleatória, embora os elementos
subsequentes não sejam nem sorteados. Existem variações na forma de seleção de amostra no esquema
AS que podem ser verificadas em textos de amostragem.
Uma das vantagens desse tipo de sorteio é que não há necessidade de se conhecer a lista completa
de elementos (frame), apenas o total deles, 𝑁. Além disso, há garantia de cobertura completa da lista,
já que o sorteio varrerá todas as 𝑝 regiões.
A principal vantagem é a facilidade de execução, porque o sorteio pode ser realizado durante o trabalho
de campo, desde que haja regras de seleção dos elementos claras e inequívocas, podendo ainda se fazer
substituições de elementos ausentes no momento do sorteio. Com as amostras de determinado
percentual do Censo Demográfico, desenhadas para pesquisar outras características populacionais que
não só a contagem populacional, é utilizado esse esquema.
A Figura 4.5 ilustra a seleção da amostra em uma listagem de 100 indivíduos, seguindo amostragem
sistemática: primeiro, foi selecionado um número entre um e 10 – supondo-se que o número três tenha
sido sorteado, depois foi sorteado o incremento (saiu seis) e, portanto, o próximo número será
3 + 6 = 9, o seguinte 9 + 6 = 15, e assim por diante. Assim, a partir do esquema de amostragem
sistemática, foi obtida a amostra com 17 elementos correspondentes às seguintes identificações: 3, 9,
15, 21, 27, 33, 39, 45, 51, 57, 63, 69, 75, 81, 87, 93 e 99.
Figura 4.5 - Ilustração da amostragem sistemática (AS).
Se a lista da qual a amostra sistemática será retirada estiver em forma aleatória, pode-se assumir que
AS seja aproximadamente equivalente à amostragem aleatória simples (AAS), caso em que as fórmulas
de tamanho de amostra para AAS podem ser utilizadas. Se este não for o caso, há dificuldades em se
obter as variâncias referentes à amostragem sistemática.
Levy e Lemeshow (2008) propõem uma fórmula que é ilustrada com um exemplo bastante completo e
exposto de forma bem didática. Na fórmula aparecem as estimativas e não os parâmetros, o que foge do
enfoque adotado na maioria das fórmulas apresentadas neste texto, mas que pode ser adaptado.
Para exemplificar, numa pesquisa que tenha como objetivo estimar o número total de leitos hospitalares
em determinado estado, é importante que todos os hospitais de diferentes portes (grande, médio e
pequeno) sejam adequadamente representados. Assim, o procedimento recomendado é primeiramente
estratificar os hospitais em três grupos (denominados estratos) de acordo com o tamanho. A estimativa
do total de leitos deve ser obtida pela combinação dos três estratos. Esta é a essência da amostragem
estratificada. Voltando aos dois exemplos apresentados na descrição de AAS, sorteio de um tipo de
profissional a partir da lista completa do Conselho Regional de Profissionais e estudo de satisfação de
afiliados de plano de saúde utilizando a lista dos afiliados, a AAS não seria tão adequada, já que não há
garantias de que os vários perfis de indivíduos estejam incluídos na amostra. Novamente, um
procedimento razoável seria formar estratos (por características de interesse na pesquisa) e retirar as
amostras de cada estrato.
De forma geral, em muitas situações, deseja-se estimar os parâmetros de interesse relativos a subgrupos
homogêneos da população. São exemplos as estimativas da prevalência de uma doença na zona urbana
e zona rural, estimativas entre homens e entre mulheres ou entre diferentes faixas etárias. Geralmente,
essa divisão da população em subgrupos, ou estratos, é artificial, imposta por necessidade do estudo.
Em termos práticos, quer-se obter estratos internamente homogêneos, de tal modo que as estimativas
de cada estrato sejam bem representativas e eventualmente componham uma estimativa global.
Os estratos são considerados como populações independentes, das quais serão retiradas amostras
igualmente independentes, por exemplo, utilizando AAS. O fato de as subpopulações serem
homogêneas significa que a variância interna é mínima e a variância entre os estratos é máxima.
Essa estrutura faz com que ao se ponderar as estimativas vindas de cada estrato em uma estimativa
global, a variabilidade final seja menor do que se se tivesse usado a AAS.
Em geral, a precisão de estimativas da AE é maior que as obtidas pela AAS. Esse efeito vai depender
do fator de estratificação. Além dessa importante vantagem, na AE é possível estimar quantidades de
interesse dentro de cada estrato e também no geral. Por exemplo, o objetivo pode ser estimar a
prevalência de uma doença na zona urbana e rural ou obter estimativas para cada sexo e para diferentes
faixas etárias. Com a AE é possível manter a composição da população segundo características de
interesse. Finalmente, a AE é muito utilizada por conveniência administrativa ou operacional.
As fórmulas de tamanho de amostra para a amostragem estratificada são específicas para cada tipo de
variável, medida, planejamento e situação em geral. Vários livros de amostragem dedicam alguma
seção para discutir este assunto, utilizando eventualmente diferentes metodologias.
Existem vários tipos de partilha, isto é, para determinado tamanho de amostra geral, pode-se
estabelecer qual é a distribuição da amostra entre os estratos: partilha proporcional, partilha uniforme e
partilha ótima de Neyman. Uma excelente referência sobre o assunto é a seção 4.3 do livro Bolfarine e
Bussab (2005). A aplicação das fórmulas de tamanho de amostra apresentadas a seguir em geral é feita
no contexto das citadas partilhas.
1 𝑁ℎ 2𝑃
ℎ (1−𝑃ℎ )
simplifica-se para 𝑉𝑎𝑟(𝑃̂𝑌 , 𝑁ℎ ↑) = 𝑁2 ∑𝐻
𝑖=1 .
𝑛ℎ
Aplicando o teorema central do limite, a distribuição de 𝑃̂𝑌 é aproximadamente normal, tal que os
desenvolvimentos de fórmulas de tamanho de amostra são obtidos da forma usual. Serão consideradas
duas situações, precisão absoluta (𝑑𝑎𝑏𝑠 ) e precisão relativa (𝑑𝑟𝑒𝑙 ).
(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑎𝑏𝑠 ) = 2 (4.18)
𝑁 (𝑑𝑎𝑏𝑠 )2 + (𝑧1−𝛼/2 )2 ∑𝐻
ℎ=1[𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )]
(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑎𝑏𝑠, 𝑁↑) = (4.19)
𝑁 2 (𝑑𝑎𝑏𝑠 )2
Tamanho de amostra para estimação da proporção 𝑷𝒀 com precisão relativa usando
amostragem estratificada (AE)
Quando a amostragem estratificada é utilizada, segundo Levy e Lemeshow (2008), a fórmula para
obtenção do tamanho amostral total, isto é, para todos os estratos, é dada por
(𝑧1−𝛼/2 )2 𝐻 𝑁2 𝑃ℎ (1−𝑃ℎ )
∑ℎ=1 ℎ
𝑁2 𝑤 ℎ 𝑃2𝑌
(𝑧1−𝛼/2 )2 𝑁 𝑃
, que pode ser reescrita como:
(𝑑𝑟𝑒𝑙 )2 + 𝐻
∑ℎ=1 ℎ ℎ (1−𝑃ℎ )
𝑁2 𝑃2 𝑌
(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑃𝑌) = 2 2 (4.20)
𝑁 𝑃𝑌 (𝑑𝑟𝑒𝑙 )2 + (𝑧1−𝛼/2 )2 ∑𝐻
ℎ=1[𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )]
Na fórmula (4.20), 𝑃𝑌 é a proporção populacional e 𝑑𝑟𝑒𝑙 é a precisão relativa. Na prática pode-se ter
uma ideia do valor de 𝑃𝑌 , que pode ser substituído diretamente na fórmula ou, alternativamente, 𝑃𝑌
pode ser calculado pela definição: 𝑃𝑌 = ∑𝐻
ℎ=1 𝑊ℎ 𝑃ℎ , sendo 𝑊ℎ = 𝑁ℎ /𝑁. Os demais termos foram
Seguindo o raciocínio para a obtenção da fórmula anterior, Lemeshow et al. (1990) apresentam a
seguinte fórmula do tamanho de amostra para estimar a proporção quando a precisão relativa (𝑑𝑟𝑒𝑙 )
for utilizada:
(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑟𝑒𝑙 ) = 2 (4.21)
(𝑑𝑟𝑒𝑙 )2 (∑𝐻 2 𝐻
𝑖=1 𝑁ℎ 𝑃ℎ ) + (𝑧1−𝛼/2 ) ∑ℎ=1[𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )]
Os termos e a notação das fórmulas (4.21) e (4.18) são os mesmos, o único termo distinto que aparece
em (4.21) é 𝑑𝑟𝑒𝑙 , enquanto que em (4.18) é utilizado 𝑑𝑎𝑏𝑠 . Na verdade a fórmula (4.21) pode ser
reescrita exatamente como a (4.20) quando 𝑊ℎ = 𝑁ℎ /𝑁, elas fornecem exatamente os mesmos
resultados. A opção por apresentar ambas as formas é que uma delas pode ser de preferência do leitor e
para esclarecer que as fórmulas dos textos (LEMESHOW et al., 1990; LEVY e LEMESHOW, 2008)
são as mesmas.
(𝑧1−𝛼/2 )2 ∑𝐻 2
ℎ=1 𝑁ℎ 𝑃ℎ (1 − 𝑃ℎ )/𝑤ℎ
𝑛𝑝𝑟𝑜𝑝(𝐴𝐸,𝑑𝑟𝑒𝑙, 𝑁↑) = 2
(4.22)
(𝑑𝑟𝑒𝑙 )2 (∑𝐻
𝑖=1 𝑁ℎ 𝑃ℎ )
Tamanho de amostra para estimação de médias usando amostragem estratificada (AE)
Considerando que a população esteja dividida em 𝐻 estratos, que a média estimada utilizando a
estratificação (∑𝐻
𝑖=1 𝑁ℎ 𝜇ℎ /𝑁) difira da verdadeira média 𝜇 por uma quantidade que não exceda
𝑑𝑎𝑏𝑠 100%, segundo Levy e Lemeshow (2008) a fórmula para calcular o tamanho de amostra é:
do ℎ-ésimo estrato, ℎ = 1, ⋯ , 𝐻.
𝑁(𝑧1−𝛼/2 )2 (𝜎𝑤2 /𝜇 2 )
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸,∝) = (4.24)
𝑁(𝑑𝑎𝑏𝑠 )2 + (𝑧1−𝛼/2 )2 (𝜎𝑤2 /𝜇 2 )
∑𝐻 2
𝑖=1 𝑁ℎ 𝜎ℎ
Em (4.24), 𝜎𝑤2 = representa a variância entre os elementos dentro do mesmo estrato, que
𝑁
também pode ser interpretada como a média ponderada das variâncias dos estratos com pesos iguais
aos tamanhos proporcionais do estrato (𝑁ℎ /𝑁); os demais termos foram definidos em (4.23).
parágrafo anterior.
Definindo 𝑉𝑋2 = 𝜎𝑤2 /𝜇 2 e a razão 𝛾 = 𝜎𝑏2 /𝜎𝑤2 , a fórmula (4.24) pode ser reescrita como:
𝑁
(𝑧1−𝛼/2 )2 1 + 𝛾 𝑉𝑋2
𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸,∝,𝛾) = (4.25)
𝑉𝑋2
𝑁(𝑑𝑎𝑏𝑠 )2 + (𝑧1−𝛼/2 )2 1+𝛾
Levy e Lemeshow (2008) também ilustram o dimensionamento de amostra para médias com
amostragem estratificada para a partilha ótima.
Exemplo 4.12 - Tamanho de amostra para estimar proporções quando for adotada amostragem
estratificada - adaptação do exemplo de Lemeshow et al. (1990) ╬╬
Foi realizado estudo tipo survey em três estratos (A, B e C) compostos de famílias, respectivamente,
com tamanhos de 2.000, 3.000 e 5.000, para estimação de certa proporção de uma característica de
interesse. Espera-se que os percentuais do evento pesquisado sejam 10%, 15% e 20%, respectivamente
nos três estratos (𝑃1 = 0,1; 𝑃2 = 0,15; 𝑃3 = 0,2). As informações sobre os estratos necessárias para o
cálculo do tamanho da amostra encontram-se na Tabela 4.6.
Por definição, 𝑃𝑌 = ∑𝐻
ℎ=1 𝑊ℎ 𝑃ℎ , 𝑊ℎ = 𝑁ℎ /𝑁, 𝑃𝑌 = 0,2 × 0,10 + 0,3 × 0,15 + 0,5 × 0,20 = 0,165.
Considerando 𝑑𝑎𝑏𝑠 = 0,03, confiança de 95% e que a amostra será obtida por meio de alocação
proporcional, 𝑤ℎ = 𝑁ℎ /𝑁, a utilização da fórmula (4.18) indica que o tamanho de amostra necessário
para estimar a proporção do evento pesquisado é 549,59, o que equivale a 550 famílias. Distribuindo
proporcionalmente entre os estratos, têm-se 110 (10% de 550), 165 (15% de 550) e 275 famílias (20%
de 550) nos estratos A, B e C, respectivamente. Aplicando a fórmula (4.19), válida para 𝑁 grande,
chega-se ao número de 582 famílias, valor ligeiramente superior ao resultado anterior (550).
Estimando a proporção do evento pesquisado dentro de 5%, isto é, 𝑑𝑟𝑒𝑙 = 0,05, mantendo as demais
informações anteriores e aplicando as fórmulas (4.20) e (4.21), o número de famílias é de 4.348 e sobe
para 7.690 quando 𝑁 é grande, fórmula (4.22).
Considere-se agora que os tamanhos dos estratos sejam maiores (𝑁1 = 20.000; 𝑁2 = 30.000;
𝑁3 = 50.000) e que as probabilidades dos eventos sejam 𝑃1 = 0,05; 𝑃2 = 0,10; 𝑃3 = 0,15,
𝑃𝑌 = ∑𝐻
ℎ=1(𝑁ℎ /𝑁) × 𝑃ℎ = 0,2 × 0,05 + 0,3 × 0,10 + 0,5 × 0,15 = 0,115. Nas mesmas condições
anteriores e utilizando a fórmula (4.18), os tamanhos de amostra (número de famílias) necessários para
estimar a proporção do evento pesquisado referentes a cinco valores de 𝑑𝑎𝑏𝑠 são 3709 (𝑑𝑎𝑏𝑠 = 0,01),
954 (𝑑𝑎𝑏𝑠 = 0,02), 427 (𝑑𝑎𝑏𝑠 = 0,03), 241 (𝑑𝑎𝑏𝑠 = 0,04) e 154 (𝑑𝑎𝑏𝑠 = 0,05). A distribuição das
famílias para cada estrato é feita de forma proporcional aos pesos (𝑊ℎ = 𝑁ℎ /𝑁).
Exemplo 4.13 - Tamanho de amostra para estimar médias quando for adotada amostragem
estratificada - adaptação do exemplo de Levy e Lemeshow (2008) ╬╬
Um plano de saúde que atende a determinada instituição quer estimar o número médio de
hospitalizações de um segmento de seus afiliados (com determinadas características) com o objetivo de
fazer alguns planejamentos. A partir de um banco de dados nacional foi possível obter as informações
apresentadas na Tabela 4.7 segundo três faixas de idades (< 45 anos, 45 − 64 anos, ≥ 65 anos),
que no plano de saúde tinham, respectivamente, os tamanhos 𝑁1 = 600, 𝑁2 = 500, 𝑁3 = 400,
totalizando 1.500 afiliados.
Tabela 4.7 - Média e variância de episódios de hospitalizações de pacientes, segundo três faixas etárias
Média
Faixa etária (tamanho) Variância (𝜎ℎ2 )
(𝜇ℎ )
< 45 anos (𝑁1 = 600) 0,164 0,245
45 − 64 anos (𝑁2 = 500) 0,166 0,296
≥ 65 anos (𝑁3 = 400) 0,236 0,436
Supondo que as informações apresentadas na Tabela 4.7 representem bem os afiliados do plano de
∑𝐻
𝑖=1 𝑁ℎ 𝜇ℎ
saúde do planejamento, a média geral levando em conta a estratificação seria 𝜇 = =
𝑁
600(0,164)+500(0,166)+400(0,236) ∑𝐻
𝑖=1 𝑁ℎ (𝜇ℎ −𝜇)
2
= 0,184. A variância entre estratos é 𝜎𝑏2 = =
1500 𝑁
600(0,164−0,184)2 +500(0,166−0,184)2 +400(0,236−0,184)2
= 0,000989, enquanto que o outro tipo de variância
1500
∑𝐻 2
𝑖=1 𝑁ℎ 𝜎ℎ 600(0,245)+500(0,296)+400(0,436)
é 𝜎𝑤2 = = = 0,312933. Resumindo, 𝜎 2 = 𝜎𝑏2 + 𝜎𝑤2 =
𝑁 1500
600 500
(faixas etárias) são 𝑛1 = 1500 × 872 = 348,8 ≅ 349, 𝑛2 = 1500 × 872 = 290,67 ≅ 291 e
400
𝑛3 = 1500 × 872 = 232,53 ≅ 233 ou para somar 872: 𝑛3 = 872 − (349 + 291) = 232.
Com confiança de 95%, o tamanho da amostra cai para 558, representando redução de 314 indivíduos
𝑁 2
(𝑧1−𝛼/2 )2 𝑉
1+𝛾 𝑋
ou, ainda, 36%. As contas para chegar a esse resultado são: 𝑛𝑚é𝑑𝑖𝑎(𝐴𝐸,∝,𝛾) = 𝑉 2 =
𝑁(𝑑𝑎𝑏𝑠 )2 +(𝑧1−𝛼/2 )2 𝑋
1+𝛾
1500
(1,96)2 ( )9,27
1+0,003150
2 2 9,27 = 557,59 ≅ 558. Se a confiança for de 90%, o tamanho de amostra é de
1500(0,20) +(1,96) ( )
1+0,003150
Esses aglomerados, chamados conglomerados (em inglês, clusters), são as unidades de sorteio.
Esse esquema amostral traz um complicador, que é a correlação dos elementos dentro do
conglomerado, a correlação intraclasse. Na prática, isso quer dizer que a aglomeração natural pode
levar à tendência a responder positiva ou negativamente a uma questão, como, por exemplo, intenção
de voto em determinado bairro ou a opinião sobre alguma questão de interesse em determinado
município.
A correlação intraclasse tem o efeito de aumentar a variância global ou, muito raramente, diminuir, se
comparada à obtida por uma AAS de elementos individuais. Essa correlação é a base para o
design effect (deff), medida definida no início da seção. No caso de o sorteio ser completamente
aleatório, o dimensionamento de amostras é feito a partir das fórmulas da AAS, multiplicando-se o
resultado lá obtido pelo deff.
Na maioria das vezes, dois ou mais processos de seleção são envolvidos (amostragem em
multiestágios) e a lista explicitando as unidades individuais só é necessária na última etapa.
Exemplificando de maneira simples (dois estágios): num primeiro momento é feita a amostragem
aleatória dos conglomerados e, daqueles selecionados, obtém-se a lista de elementos que serão
submetidos a um novo processo de amostragem.
A Figura 4.7 mostra as nove regionais da região metropolitana de Belo Horizonte-MG. Nesse caso, as
regionais podem ser consideradas conglomerados e, portanto, a amostragem por conglomerados (AC)
seria apropriada.
Na prática, é muito comum a combinação dos esquemas básicos de amostragem. Para exemplificar,
considere-se a seguinte situação: em uma população de 200 mil estudantes distribuídos em 2.000
escolas, deve-se planejar o sorteio de amostra de 500 escolares (n = 500).
Certamente, seria muito complicado implementar a AAS, enquanto que o esquema de AC é bem
prático. Pode-se realizar o sorteio em um estágio (por exemplo, 100 alunos em cinco escolas) ou em
mais de um estágio. Nesse caso, existem inúmeras possibilidades: sortear 10 escolas, duas turmas por
escola e 25 crianças por turma; alternativamente, podem-se sortear 50 escolas e de cada uma delas
sortear uma única turma e, a seguir, sortear 10 crianças de cada turma; uma terceira possibilidade seria
sortear 25 escolas, quatro turmas de cada escola e cinco crianças de cada turma.
No exemplo apresentado na AAS sobre o sorteio de médicos para participar de um estudo a partir da
lista completa do Conselho Regional de Medicina, pode-se fazer estratificação em termos de tempo em
que os médicos são formados, segundo sexo e especialidade, ou, ainda, considerando outras
características ou mesmo a combinação entre elas. Em cada estrato, pode-se usar a AAS, por exemplo.
No artigo intitulado “Fatores associados ao uso pesado de álcool entre estudantes das capitais
brasileiras”, de Galduróz et al. (2010), há o relato de amostragem estratificada por setores censitários
de cada cidade e por conglomerados, correspondentes às escolas selecionadas.
4.8 Recursos computacionais para os cálculos do tamanho da amostra
e/ou do poder
A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e encontra-se disponível para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬ ).
Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder do teste discutidos no capítulo
e/ou relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas
citados no capítulo 11: Pass®, nQuery Advisor®, PS: Power and Sample Size Calculation, Epi Info, o
programa desenvolvido pelo Laboratório de Epidemiologia e Estatística (LEE) do Instituto Dante
Pazzanese de Cardiologia e o pacote pwr do software livre R.
5.1 Introdução
Na prática, a escolha do tipo de comparação depende do objetivo do estudo e três testes comumente
utilizados em ensaios clínicos são conhecidos na literatura, como superioridade, não inferioridade e
equivalência, sendo o primeiro deles o mais tradicional.
É cada vez mais difícil justificar o uso do placebo quando se testa a eficácia de novo tratamento.
Em vez disso, os ensaios clínicos controlados com produtos ativos são utilizados para testar se o novo
tratamento não é muito pior do que o controle ativo em termos de eficácia. Estudos de não
inferioridade são realizados em situações em que existe um tratamento ativo comprovadamente
eficiente enquanto ensaios controlados usando o placebo como controle não são aceitáveis por razões
éticas. Assim, os ensaios de não inferioridade com controle ativo são realizados quando o tratamento
é comparado a um tratamento estabelecido, tendo como objetivo demonstrar que não é inferior
a esse tratamento.
Ao aplicar o teste de não inferioridade, investiga-se se uma terapia nova (por exemplo, menos invasiva,
menos cara ou mais fácil de ser administrada) não é pior do que a terapia padrão por mais que uma
margem prefixada, ou seja, uma eventual diferença deve estar dentro de limites considerados
clinicamente sem importância. Esse limite é chamado de margem de não inferioridade. O teste de
superioridade é caso particular do teste de não inferioridade quando a margem de não inferioridade
assume valor específico, comumente zero.
Em muitas situações o objetivo não é demonstrar que um tratamento seja melhor que o outro, mas sim
que seu efeito não pode ser distinguido daquele esperado com outro tratamento. Em vez de testar se há
diferença estatisticamente significante, buscam-se evidências de que os dois tratamentos são
essencialmente equivalentes, que eventuais diferenças não apresentam consequências na prática.
Nesse caso, é indicado o teste de equivalência, que utiliza intervalo de equivalência. Assim, são
definidos os limites inferior e superior do intervalo e os tratamentos são equivalentes se as diferenças
dos parâmetros avaliados estiverem dentro desse intervalo. Mais detalhes podem ser encontrados em
Wellek, S. (2010), entre outros.
Existe vasta literatura sobre o assunto, destacando-se Pocock (1983), Everitt e Pickles (2004),
Piantadosi (2005), Matthews (2006), Wang e Bakhai (2006), Cook e DeMets (2008), Meinert (2012),
Chow e Liu (2013) e Friedman et al. (2015).
Neste capítulo apresentam-se formas apropriadas de dimensionar amostras para algumas situações de
testes de não inferioridade, com destaque para os testes de médias e proporções. Considera-se, ainda,
o caso especial de equivalência, chamado de bioequivalência, cuja importante aplicação é a avaliação
de medicamentos genéricos. Para ilustrar a metodologia, são adaptados exemplos da literatura e/ou
simulados e também apresentados resultados de estudo(s) de simulação de Monte Carlo, extraídos da
literatura ou de nossa pesquisa pessoal. Não foi dado destaque ao teste de superioridade, que além
de ser um caso particular de não inferioridade, sua formulação já foi tratada indiretamente nos
capítulos anteriores.
5.1.1 Conceitos básicos
Excelentes referências sobre ensaios de não inferioridade são Wellek (2010) e Rothmann et al. (2012).
Os capítulos 1 e 2 do segundo livro são relacionados diretamente a esta seção. As traduções dos títulos
dos capítulos 1 e 2, bem como de algumas seções neles contidas, apresentadas a seguir, servem para
dar ideia de tópicos importantes. Capítulo 1: O que é um ensaio de não inferioridade;
seção 1.1: definição de não inferioridade; seção 1.2: razões para ensaios de não inferioridade;
seção 1.3: diferentes tipos de comparações; seção 1.4: uma história de ensaios de não inferioridade.
Capítulo 2: Considerações sobre ensaio de não inferioridade; seção 2.3.2: planejando um ensaio;
seção 2.3.3: selecionando a margem [de não inferioridade].
Para ilustrar, considere-se a comparação (por exemplo, em termos de médias) do novo tratamento (𝑇)
com o controle (𝐶), que pode ser um agente ativo ou o placebo. Seja 𝜃 = 𝜇 𝑇 − 𝜇𝐶 a diferença das
médias dos dois grupos a serem comparados, que pode ser entendida como a medida de vantagem de 𝑇
em relação a 𝐶. Considere-se a seguinte situação: 𝜃 > 0 significa que 𝑇 é superior a 𝐶 e se 𝜃 < 0,
a interpretação se inverte: 𝑇 é inferior a C; 𝜃 = 0 indica nenhuma diferença entre 𝑇 e 𝐶. Neste caso,
valores maiores da variável estudada (portanto, os correspondentes parâmetros) são resultados
favoráveis. Caso contrário (valores menores da variável estudada são favoráveis), para que a
interpretação de 𝜃 seja a mesma, a definição apropriada seria 𝜃 = 𝜇𝐶 − 𝜇 𝑇 . Portanto, na prática,
deve-se entender o que seria melhor: quando há redução ou aumento do valor da variável.
Em ensaio de não inferioridade, em geral, as hipóteses são: 𝐻0 : 𝜃 ≤ 𝜃0 versus 𝐻1 : 𝜃 > 𝜃0 , sendo que
𝜃0 representa a margem de não inferioridade. Se 𝐻0 é rejeitada no nível de significância 𝛼 (quando
valor-p ≤ 𝛼), há indicação de que 𝑇 é não é inferior a 𝐶. Equivalentemente, a mesma conclusão é
tirada se os limites do intervalo de (1 − 2𝛼)100% de confiança situam-se acima da margem de
não inferioridade (𝜃0 ).
Em ensaio de equivalência, as hipóteses testadas simultaneamente são: 𝐻0− : 𝜃 ≤ 𝜃0− versus 𝐻1− : 𝜃 > 𝜃0−
e 𝐻0+ : 𝜃 ≥ 𝜃0+ versus 𝐻1+ : 𝜃 < 𝜃0+ , sendo 𝜃0− e 𝜃0+ as margens de tolerância inferior e superior,
respectivamente. Conclui-se pela equivalência entre 𝑇 e 𝐶 se ambas as hipóteses nulas forem rejeitadas
(com nível de significância 𝛼 em cada teste) ou, equivalentemente, se o intervalo de (1 − 2𝛼)100% de
confiança está completamente contido no intervalo formado pelas margens de tolerância inferior e
superior: (𝜃0− , 𝜃0+ ). Existem casos nos quais as margens de equivalência selecionadas são simétricas em
relação ao zero. Detalhes sobre os ensaios de equivalência em vários contextos podem ser encontrados,
por exemplo, em Wellek (2010).
O Quadro 5.1 resume as hipóteses típicas acerca de um parâmetro de interesse (𝜃) e a Figura 5.1
mostra a interpretação gráfica por meio de intervalos de confiança. Ressalta-se que na Figura 5.1(b)
o intervalo que contém o valor da margem de tolerância permite concluir que há evidência suficiente
para afirmar que existe não inferioridade entre os efeitos dos tratamentos em estudo.
Figura 5.1 - Intervalos de confiança para um parâmetro de interesse (𝜃) ilustrando conclusões
a serem tiradas em estudos de: (a) superioridade; (b) não inferioridade; (c) equivalência.
Ponto importante é a escolha da margem de não inferioridade ou, para estudos de equivalência, da
margem de tolerância. Existem vários critérios, alguns estabelecidos pelas agências reguladoras, sendo
que o valor pode depender do tipo de variável, por exemplo, pode ser um percentual ou um valor
tomado na unidade da variável resposta. A escolha das margens ou limites depende de aspectos
técnicos e práticos. Alguns comentários relevantes podem ser encontrados, por exemplo, em Wiens
(2002) e Hung et al. (2005). Como pode ser visto em alguns exemplos do capítulo, a margem de não
inferioridade - ou margem de tolerância - tem impacto importante no cálculo do tamanho da amostra.
Exemplo 5.1 - Interpretação de resultados de ensaios de superioridade, não inferioridade
e equivalência
A seguir apresentam-se dois exemplos ilustrando alguns detalhes sobre os ensaios discutidos
anteriormente, especialmente a interpretação dos resultados. O primeiro é sobre a eficácia do novo
tratamento para controlar a pressão arterial. Como ilustração, são considerados os três ensaios:
superioridade, não inferioridade e equivalência. O segundo exemplo, extraído do manual do software
Pass® (cuja utilização é detalhada no capítulo 11), é sobre um ensaio de não inferioridade.
Para este estudo, as perguntas formuladas foram: a) será que com o novo tratamento a pressão arterial
será reduzida de forma significativa comparada com o placebo? b) o novo tratamento é pelo menos tão
eficaz na redução da pressão arterial quanto o tratamento padrão? c) pode-se afirmar que o novo
tratamento não é diferente do tratamento padrão na redução da pressão arterial? O Quadro 5.2 resume
as informações necessárias para a discussão e o Quadro 5.3 mostra possíveis resultados bem como
suas interpretações.
S demonstrada
S (novo tratamento – placebo)
S não demonstrada
NI demonstrada
NI (novo tratamento – padrão)
NI não demonstrada
E demonstrada
E (novo tratamento – padrão)
E não demonstrada
O tratamento padrão prescrito para determinada doença funciona em 70% das vezes (𝑝𝑃 = 0,70), mas
apresenta desvantagens tais como custo alto e eventualmente graves efeitos colaterais. Novo tratamento
promissor tem sido desenvolvido até o ponto de poder ser testado. Uma das primeiras perguntas que
devem ser respondidas é se ele é tão bom quanto o padrão. Mais especificamente, quer-se saber se pelo
menos 70% dos indivíduos tratados respondem ao novo tratamento.
Por causa das muitas vantagens do novo tratamento, os médicos estão dispostos a adotá-lo, mesmo que
seja ligeiramente menos eficaz do que o tratamento padrão. No entanto, eles devem determinar quanto
menos eficaz o novo tratamento pode ser e ainda assim possa ser prescrito. A questão é qual o critério a
ser adotado, por exemplo, se determinado percentual (69% ou 68% ou 65% ou, ainda, 60%)
responderem de forma positiva. Há uma percentagem inferior a 70% em que a diferença entre os dois
tratamentos não é considerada desprezível. Após exaustiva discussão com vários médicos, foi decidido
que, se for alcançada uma resposta de pelo menos 63%, o novo tratamento seria adotado.
A diferença entre essas duas percentagens (proporções) é chamada de margem de não inferioridade,
que neste exemplo é de 7% (0,07). Assim, deve-se projetar um experimento para testar a hipótese de
que a proporção do novo tratamento (𝑝𝑁 ) é de pelo menos 0,63. As hipóteses a serem testadas são
𝐻0 : 𝑝𝑁 − 𝑝𝑃 ≤ −0,07 versus 𝐻1 : 𝑝𝑁 − 𝑝𝑃 > −0,07. A rejeição da hipótese nula significa que 𝑝𝑁 é
pelo menos 0,63, havendo, portanto, indicação de não inferioridade do novo tratamento.
Esta seção trata do dimensionamento de amostra para ensaios de não inferioridade e de seu caso
particular, o ensaio de superioridade, para comparação de médias e de proporções, ambas para o caso
de dois grupos com o planejamento em paralelo, que corresponde a amostras independentes.
Deve-se lembrar que estudos de não inferioridade são realizados com o objetivo de comparar dois
tratamentos, aqui denominados experimental ou teste (𝑇) e controle ativo (𝐶), para determinar se 𝑇
não é menos eficaz que 𝐶. O parâmetro de interesse utilizado para comparar os dois tratamentos será
denotado de forma geral por 𝜃. Em estudos de não inferioridade, as hipóteses a serem testadas são:
Há relação direta entre testes de hipóteses e intervalo de confiança. A hipótese nula (𝐻0 ) é rejeitada em
favor da alternativa (𝐻1 ) se o intervalo de (1 − 2𝛼)100% de confiança (bilateral) para 𝜃 estiver acima
da margem de não inferioridade 𝜃0 . O nível de significância em geral é de 2,5% (e não 5%) e o poder
do teste tradicional é fixado em 80%, 90% ou 95%, sendo bem conhecido o impacto do poder no
tamanho da amostra.
5.2.1 Tamanhos de amostra de ensaios de não inferioridade para o caso de grupos paralelos e
resposta contínua (diferença de médias)
Em muitos estudos de não inferioridade, a variável resposta principal é uma medida contínua.
Em geral, as médias dos dois grupos são comparadas, ou seja, são testadas para verificar se elas
diferem por uma quantidade prefixada (𝜃0 ). Neste caso, existem vários métodos para o
dimensionamento da amostra. São destacados os seguintes métodos: a) método para amostras grandes
que emprega o teorema do limite central; b) método cuja estatística de teste utiliza os graus de
liberdade de Satterwaite; c) método baseado na estatística 𝑡 e que assume que as variâncias dos grupos
são desconhecidas, mas iguais.
Para a comparação dos grupos experimental ou teste (𝑇) e controle ativo (𝐶), em ensaios de não
inferioridade, o parâmetro de interesse é a diferença das médias dos dois grupos: 𝜃 = 𝜇 𝑇 − 𝜇𝐶 .
As hipóteses a serem testadas são formuladas como 𝐻0 : 𝜇 𝑇 − 𝜇𝐶 ≤ 𝜇0 versus 𝐻1 : 𝜇 𝑇 − 𝜇𝐶 > 𝜇0 , sendo
𝜃0 = 𝜇0 a margem de não inferioridade, um valor negativo. Essa formulação supõe que aumento do
valor de 𝜇 𝑇 é resultado favorável. Para o caso em que redução do valor de 𝜇 𝑇 for resultado favorável,
basta definir 𝜃 = 𝜇𝐶 − 𝜇 𝑇 . Assim, ao utilizar um software para realizar os cálculos, é importante
verificar as definições das entradas exigidas pelo programa para haver coerência nas interpretações.
Para cada um dos métodos citados anteriormente, as estatísticas dos testes utilizados e os intervalos de
confiança para 𝜃 = 𝜇 𝑇 − 𝜇𝐶 são apresentados no Quadro 5.4.
(𝑥̅ 𝑇 − 𝑥̅𝐶 ) − 𝜇0
𝑆𝑊 = 𝑠2 𝑠2
2
𝑠𝑇 𝑠𝐶2 (𝑥̅ 𝑇 − 𝑥̅𝐶 ) ± 𝑡1−𝛼⁄2,𝜈 √ 𝑇 + 𝐶
√ + 𝑛𝑇 𝑛𝐶
𝑛𝑇 𝑛𝐶
Satterwaite 2
2
𝑠𝑇 𝑠𝐶2
(𝑛 + )
Distribuição sob 𝐻0 : 𝑡 central com 𝜈 𝑇 𝑛𝐶
𝜈=
graus de liberdade 4
𝑠𝑇 𝑠4
2 + 𝑛2 (𝑛𝐶 −1)
𝑛𝑇 (𝑛𝑇 −1) 𝐶 𝐶
(𝑥̅ 𝑇 − 𝑥̅𝐶 ) − 𝜇0
𝑇=
1 1
Variâncias √𝑠 2 (𝑛 + 𝑛 ) 𝑠2 𝑠2
𝑇 𝐶 (𝑥̅ 𝑇 − 𝑥̅𝐶 ) ± 𝑡1−𝛼⁄2,𝜈 √ 𝑇 + 𝐶
(𝑛𝑇 − 1)𝑠𝑇2 + (𝑛𝐶 − 1)𝑠𝐶2 𝑛𝑇 𝑛𝐶
iguais e
𝑠2 =
desconhecidas 𝑛𝑇 + 𝑛𝐶 − 2
(1+ℎ2 /𝑟)2
graus de liberdade dados por 𝜈 = 1/(𝑛 4 /[𝑟 2 (𝑟𝑛 −1)]
. Na expressão de 𝜈, ℎ = 𝜎𝑇 /𝜎𝐶 e 𝑟 = 𝑛𝑇 /𝑛𝐶 ,
𝐶− 1)+ℎ 𝐶
respectivamente, a razão entre os desvios-padrão e entre os tamanhos de amostra dos dois grupos.
A seguir são apresentadas as fórmulas para o dimensionamento de amostras referentes aos três métodos
considerados. Revendo a notação, para os três casos, 𝜇 𝑇 e 𝜇𝐶 são as médias dos grupos 𝑇 e 𝐶, 𝜎𝐶 é
o desvio-padrão do grupo 𝐶 e 𝜇0 é a margem de não inferioridade. O nível de significância é fixado
em 𝛼 × 100% (tipicamente 2,5%) e o poder é (1 − 𝛽) × 100% (tipicamente 80%, 90% ou 95%).
De forma geral, 𝑛T e 𝑛C são os tamanhos das amostras, respectivamente, para os dois grupos (𝑇 e 𝐶),
mas para mais clareza, haverá uma notação específica de acordo com o método. Por exemplo, para os
três métodos considerados (cujas estatísticas são representadas por 𝑍, 𝑆𝑊 e 𝑇), a notação para o
tamanho de amostra para o grupo-controle (𝐶) será 𝑛𝐶(𝑍) , 𝑛𝐶(𝑆𝑊) e 𝑛𝐶(𝑇) .
Para o método de amostras grandes, aquele baseado no teorema do limite central, o tamanho da
amostra para o grupo-controle é dado por:
ℎ2 𝜎𝐶 2
2
𝑛𝐶(𝑍) = (1 + ) ( ) (𝑧1−𝛼 + 𝑧1−𝛽 ) (5.2)
𝑟 𝜇 𝑇 − 𝜇𝐶 − 𝜇0
𝑛 𝜎
Em (5.2), 𝑟 = 𝑛𝑇 , ℎ = 𝜎𝑇, 𝑧1−𝛼 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da
𝐶 𝐶
Para o método em que são utilizados os graus de liberdade de Satterwaite, o tamanho da amostra para
o grupo-controle é dado por:
ℎ2 𝜎𝐶 2
2
𝑛𝐶(𝑆𝑊) = (1 + )( ) (𝑡1−𝛼,𝜈 + 𝑡1−𝛽,𝜈 ) (5.3)
𝑟 𝜇 𝑇 − 𝜇𝐶 − 𝜇0
Em (5.3), 𝑟 = 𝑛𝑇 /𝑛𝐶 , ℎ = 𝜎𝑇 /𝜎𝐶 , 𝑡1−α,ν e 𝑡1−β,ν são os percentis da distribuição 𝑡 de Student com os
(1+ℎ2 /𝑟)2
graus de liberdade 𝜈 = 1/(𝑛 . Para o grupo 𝑇, 𝑛𝑇(𝑆𝑊) = 𝑟𝑛𝐶(𝑆𝑊) .
4 /[𝑟 2 (𝑟𝑛 −1)]
𝐶 −1)+ℎ 𝐶
Para o método que considera as variâncias dos dois grupos iguais, mas que sejam desconhecidas,
o tamanho da amostra para o grupo-controle é dado por:
1 𝜎𝐶 2
2
𝑛𝐶(𝑇) = (1 + ) ( ) (𝑡1−𝛼,𝜈 + 𝑡1−𝛽,𝜈 ) (5.4)
𝑟 𝜇 𝑇 − 𝜇𝐶 − 𝜇0
A fórmula (5.4) é um caso particular da fórmula (5.3) com ℎ = 𝜎𝑇 /𝜎𝐶 = 1 e 𝜈 = 2𝑛𝐶 − 2. Os demais
termos que aparecem em (5.4) são: 𝑟 = 𝑛𝑇 /𝑛𝐶 ; 𝑡1−α,ν e 𝑡1−β,ν são os percentis da distribuição 𝑡 de
Student com (𝜈 = 2𝑛𝐶 − 2) graus de liberdade. Para o grupo 𝑇, 𝑛𝑇(𝑇) = 𝑟𝑛𝐶(𝑇) .
Para a solução dos segundo e terceiro métodos, ocorre o processo de iteração, já que os graus de
liberdade dependem do tamanho da amostra, que é exatamente o que se quer encontrar. Assim,
naturalmente é mais fácil utilizar o primeiro método, mas que só é apropriado para “amostras grandes”.
O tamanho da amostra obtido para o caso de amostras grandes pode ser usado como valor inicial para
as iterações nos procedimentos envolvendo os percentis da distribuição 𝑡 de Student.
Outra observação importante é que não é essencial o conhecimento dos valores individuais das médias
𝜇 𝑇 e 𝜇𝐶 , basta ter ideia das diferenças 𝜇 𝑇 − 𝜇𝐶 , o que é mais fácil na prática.
Exemplo 5.2 - Interpretação de não inferioridade baseada nos testes e em intervalo de confiança
para os métodos considerados, planejamento em paralelo - adaptação de Rothmann et al. (2012)
Nas Tabelas 5.1 e 5.2 apresentam-se os dados de dois ensaios de não inferioridade, os resultados dos
testes e os intervalos de 95% de confiança para a diferença de médias de dois grupos (controle e
experimental ou tratamento) para os três métodos considerados na seção: a) método para amostras
grandes; b) método de Satterwaite; c) método para o caso em que as variâncias são iguais,
mas desconhecidas.
Ensaio 2
Tamanho da amostra 50 55
Média 29,80 29,31
Desvio-padrão 4,82 6,87
Tabela 5.2 - Resultados dos testes, intervalos de 95% de confiança e sua correspondente
amplitude para os três métodos considerados para dois ensaios de não inferioridade
Já para o segundo ensaio, os intervalos de 95% de confiança não contêm a margem de não
inferioridade, 𝜇0 = −3. A hipótese nula é rejeitada, já que os valores-p encontrados são menores que
o nível de significância fixado em 0,025. Neste caso, há evidência a favor da não inferioridade.
Para amostras grandes, os testes estatísticos obtidos pelos três métodos mostraram similaridades.
Quando as amostras são pequenas, a estatística de teste 𝑍 não deve ser utilizada. Além disso,
o pressuposto da igualdade de variância deve ser validado para a utilização da estatística 𝑇 de forma
apropriada. Aqui os três métodos foram empregados para fins ilustrativos. Também é possível mostrar
o efeito da margem de não inferioridade nas conclusões a serem tiradas, ou seja, para os mesmos
dados, pode-se ou não concluir pela não inferioridade, dependendo da margem de não inferioridade
adotada (𝜇0 ).
Na Tabela 5.3 são apresentados os resultados apenas para o primeiro método: amostras grandes para
dados seguindo a distribuição normal, fórmula (5.2). O nível de significância foi fixado em 2,5%,
foram considerados três valores de poder (80%, 90% e 95%) e três margens de não inferioridade
(−8,0; −9,0; −10,0). Os parâmetros necessários nos cálculos foram: 𝜇𝐶 = 40; 𝜇 𝑇 = 38;
𝜎𝐶 = 12; 𝜎𝑇 = 6, resultando em diferença de média de 𝜇 𝑇 − 𝜇𝐶 = −2 e razão entre os desvios-padrão
de ℎ = 𝜎𝑇 /𝜎𝐶 = 0,5. Foram considerados dois valores para a razão entre os tamanhos de amostra dos
dois grupos: 𝑟 = 𝑛𝑇 /𝑛𝐶 = 1 e 𝑟 = 𝑛𝑇 /𝑛𝐶 = 2.
Tabela 5.3 - Tamanho de amostra do grupo-controle (𝑛𝐶 ) e tamanho de amostra total (𝑁)
obtidos pelo método de amostras grandes (𝑛𝐶 = 𝑛𝐶(𝑍) ), fórmula (5.2)
Como sempre, para garantir mais poder, é necessário aumentar o tamanho da amostra. Quanto maior a
margem de não inferioridade, menor será o tamanho da amostra e, naturalmente, para o caso em que
𝑟 = 𝑛𝑇 /𝑛𝐶 = 2, o tamanho da amostra total será sempre superior ao caso em que 𝑟 = 𝑛𝑇 /𝑛𝐶 = 1.
Para os cálculos dos tamanhos de amostra dos outros dois métodos recomenda-se a utilização de
software apropriado. O software Pass® utiliza a distribuição 𝑡 de Student não central, sendo boa opção
para dimensionar estudos de não inferioridade ou calcular o poder do teste.
A Tabela 5.4 mostra a comparação dos resultados dos três métodos. O nível de significância e o poder
foram fixados em 2,5% e 90%, respectivamente. A margem de não inferioridade foi de -10,0. Os
parâmetros necessários nos cálculos foram os mesmos especificados anteriormente para a Tabela 5.3.
Tabela 5.4 - Tamanho de amostra do grupo-controle (𝑛𝐶 ) para os três métodos para
duas razões entre os tamanhos de amostra dos dois grupos (𝑟 = 1 e 𝑟 = 2)
Razão entre os tamanhos de
Método amostra dos dois grupos
𝑟 = 𝑛𝑇 /𝑛𝐶 = 1 𝑟 = 𝑛𝑇 /𝑛𝐶 = 2
Amostras grandes 14 12
Satterwaite 15 14
Variâncias iguais e desconhecidas 15 11
Nota: nível de significância: 2,5%; poder: 90%; margem de não inferioridade: -10,0.
Neste caso, os resultados dos três métodos são bastante semelhantes, especialmente quando 𝑟 = 1.
Pode haver diferença entre os tamanhos de amostra, especialmente se a razão de alocação entre os dois
grupos distanciar-se de um e se as variâncias amostrais dos dois grupos comparados não são iguais.
Quando as variâncias não são muito diferentes e o tamanho da amostra é grande, os resultados dos três
métodos analisados tendem a ser similares.
5.2.2 Tamanho de amostra de ensaios de não inferioridade para o caso de grupos paralelos e
resposta binária
Em ensaios de não inferioridade quando a resposta é binária, o cálculo do tamanho da amostra depende
de muitos fatores, especialmente: a medida a ser usada - diferença de proporções, razão de chances
(odds ratio); teste (Wald, escore, razão de verossimilhanças, Fisher); tipo de solução (exata, assintótica,
com correção de continuidade); método estatístico (clássico ou bayesiano).
Considere-se um estudo planejado com dois grupos em paralelo tal que os indivíduos foram
aleatorizados em novo tratamento (𝑇) ou no controle ativo (𝐶). Sejam 𝑝𝑇 e 𝑝𝐶 as probabilidades de
sucessos, respectivamente, nos grupos 𝑇 e 𝐶, que têm tamanhos 𝑛𝑇 e 𝑛𝐶 . A comparação entre os dois
tratamentos pode ser feita pela diferença entre as proporções de sucesso dos dois grupos (𝑝𝑇 − 𝑝𝐶 ),
pela razão entre elas (𝑝𝑇 /𝑝𝐶 ), também chamada de risco relativo, ou, ainda, pela medida odds ratio
𝑝 𝑝
(𝑂𝑅), cuja definição é 𝑂𝑅 = (1−𝑝𝑇 ) / (1−𝑝𝐶 ) = [𝑝𝑇 (1 − 𝑝𝐶 )]/[(𝑝𝐶 (1 − 𝑝𝑇 )].
𝑇 𝐶
Inferência estatística e dimensionamento da amostra para estudos de não inferioridade com desfechos
binários tendem a se concentrar no parâmetro diferença de probabilidade, como discutido, por
exemplo, em Chan (2003), Dann e Koch (2008) e Julious e Owen (2011).
O risco relativo também tem sido considerado e, por exemplo, Tu (1998) apresenta um método para
calcular o tamanho da amostra para estudos de equivalência, que podem ser facilmente generalizadas
para a definição de ensaios de não inferioridade. Posteriormente, a medida odds ratio recebeu alguma
atenção. Algumas referências são: Wang et al. (2002), Wellek (2005) e Siqueira et al. (2015).
Julious (2010) realizou revisão usando diferentes medidas e métodos. Determinar o parâmetro de
interesse mais adequado em ensaios com dados binários é uma questão relevante. A hipótese de ter
diferença constante na probabilidade de sucesso, independentemente do valor para o controle ativo,
parece inadequada em muitas situações clínicas. A razão de chances fornece uma solução para esse
problema e também é o parâmetro natural do modelo de regressão logística, frequentemente utilizado
para a análise de dados binários, e pode incluir o ajuste para covariáveis. Para estudos de equivalência
ou de não inferioridade, vários autores recomendam a medida odds ratio em oposição ao risco relativo,
como discutido, por exemplo, em Tu (1998), Garrett (2003) e Wellek (2005).
Na literatura existem vários trabalhos sobre tamanho de amostra para estudos de não inferioridade no
contexto discutido (proporções, grupos paralelos). Julious (2010) apresenta fórmulas para o caso de
diferença de proporções com três métodos: usando respostas antecipadas (valores dos parâmetros
“conhecidos”) ou as respostas sob as hipóteses nulas e alternativas e ainda levando em conta a correção
de continuidade. Ainda para a comparação de dois tratamentos baseada em diferença de proporções e
para grupos paralelos, Julious e Owen (2010) destacam o método bayesiano.
Para comparar dois tratamentos em termos de odds ratio ou, equivalentemente pelo seu logaritmo,
𝜃 = 𝑙𝑜𝑔{[𝑝𝑇 (1 − 𝑝𝐶 )]/[(𝑝𝐶 (1 − 𝑝𝑇 )]}, as hipóteses a serem testadas são: 𝐻0 : 𝜃 = 𝜃0 versus
𝐻1 : 𝜃 > 𝜃0 . Detalhes sobre a inferência podem ser obtidos, por exemplo, em Siqueira et al. (2008).
Teste de Wald
Segundo Wang et al. (2002), para a comparação baseada na medida odds ratio utilizando o teste de
Wald, o número de indivíduos necessários no grupo-controle é dado por:
𝑧1−𝛼 + 𝑧1−𝛽 2 1 1
𝑛𝐶(𝑊) =( ) ( + ) (5.5)
𝜃1 − 𝜃0 𝑟𝑝1𝑇 (1 − 𝑝1𝑇 ) 𝑝𝐶 (1 − 𝑝𝐶 )
Em (5.5), 𝜃0 e 𝜃1 são os valores de 𝑙𝑜𝑔(𝑂𝑅) sob 𝐻0 e 𝐻1 , 𝑂𝑅 foi definido no início desta seção, 𝛼 e
(1 − 𝛽) são o nível de significância e o poder do teste da comparação dos grupos (𝑇 e 𝐶),
respectivamente, 𝑧1−𝛼 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da normal
𝑒𝑥𝑝{𝜃 }𝑝
padrão, 𝑟 é a razão dos tamanhos dos dois grupos, 𝑝1𝑇 = 1+(𝑒𝑥𝑝{𝜃1 }−1)𝑝
𝐶
é a probabilidade de sucesso
1 𝐶
Teste do escore
Ainda para ensaios clínicos de não inferioridade e resposta binária e usando a medida odds ratio,
Siqueira et al. (2015) desenvolvem uma fórmula para o tamanho de amostra derivada utilizando o teste
do escore que também é comparada com a fórmula (5.5), baseada no teste de Wald. Ambas as fórmulas
têm forma fechada e são comparadas com simulações baseadas no teste da razão de verossimilhanças.
Para o dimensionamento de amostra no contexto de estudos de não inferioridade, avaliado com o teste
do escore e utilizando o logaritmo da medida odds ratio (para detalhes sobre o teste, ver
SIQUEIRA et al., 2008), será adotada a seguinte notação: 𝑝𝑇 e 𝑝𝐶 representam as probabilidades de
sucesso nos grupos tratamento e controle ativo, respectivamente; dos 𝑛𝑇 indivíduos do novo
tratamento, 𝑠𝑇 são sucessos e 𝑓𝑇 são fracassos (falhas). Os termos 𝑛𝐶 , 𝑠𝐶 e 𝑓𝐶 são definidos de forma
análoga para o grupo do controle ativo. O total de sucessos, fracassos e total de indivíduos no estudo
são denotados por 𝑠, 𝑓 e 𝑛. Como já definido, o logaritmo da medida odds ratio é dado por
𝜃 = 𝑙𝑜𝑔{[𝑝𝑇 (1 − 𝑝𝐶 )]/[(𝑝𝐶 (1 − 𝑝𝑇 )]}.
A seguir, são apresentados apenas alguns detalhes necessários para a aplicação da fórmula do tamanho
de amostra para testar as hipóteses 𝐻0 : 𝜃 = 𝜃0 versus 𝐻1 : 𝜃 > 𝜃0 ou, equivalentemente,
𝐻0 : 𝛿 = 0 versus 𝐻1 : 𝛿 > 0, com 𝛿 = 𝜃 − 𝜃0 .
Por desenvolvimentos tradicionais, chega-se que a estatística do teste do escore (𝑇𝐸) é dada por
̂0 +𝜃0 }
𝑠𝑇 −𝑓𝑇 𝑒𝑥𝑝{𝜆
𝑇𝐸 = 𝑍 2 /𝑉 e 𝑍/𝑉 fornece uma estimativa de 𝛿 com variância 1/𝑉, sendo 𝑍 = ̂0 +𝜃0 } e
1+𝑒𝑥𝑝{𝜆
̂0 +𝜃0 }
𝑛𝑇 𝑛𝐶 𝑒𝑥𝑝{𝜆
𝑉=𝑛 ̂ 2 ̂ 2
.
𝑇 𝑒𝑥𝑝{𝜃0 }(1+𝑒𝑥𝑝{𝜆0 }) +𝑛𝐶 (1+𝑒𝑥𝑝{𝜆0 +𝜃0 })
𝑧1−𝛼 +𝑧1−𝛽 2
O requerimento do poder do teste do escore é atingido aproximadamente quando 𝑉 = ( ) .
𝜃1 −𝜃0
e usando as raízes positivas (𝜁) resultantes da solução da equação quadrática para substituir 𝑒𝑥𝑝{𝜆̂0 }
por 𝜁 em 𝑉.
Em (5.7), 𝜃0 e 𝜃1 são os valores de 𝑙𝑜𝑔(𝑂𝑅) sob 𝐻0 e 𝐻1 , 𝑂𝑅 foi definido no início desta seção, 𝛼 e
(1 − 𝛽) são o nível de significância e o poder do teste da comparação dos dois grupos (𝑇 e 𝐶),
respectivamente, 𝑧1−𝛼 e 𝑧1−𝛽 são os correspondentes percentis da normal padrão, 𝑟 é a razão dos
tamanhos dos dois grupos e 𝜁 é a raiz positiva da equação quadrática (5.6). Para o grupo 𝑇, 𝑛𝑇(𝑇𝐸) =
𝑟𝑛𝐶(𝑇𝐸) e o total geral da amostra é 𝑁 = 𝑛𝑇(𝑇𝐸) + 𝑛𝐶(𝑇𝐸) = 𝑟𝑛𝐶(𝑇𝐸) + 𝑛𝐶(𝑇𝐸) = (𝑟 + 1)𝑛𝐶(𝑇𝐸) .
Detalhes sobre o método podem ser encontrados em Siqueira et al. (2015).
Métodos exatos
Dimensionamento de amostras usando métodos exatos para avaliar não inferioridade quando a resposta
é binária foi proposto por Chan (2003). O foco é na diferença de duas proporções utilizando o método
não condicional para o teste de não inferioridade. Wellek (2010) apresenta o tradicional teste exato de
Fisher (FLEISS et al., 2003; TANG et al., 2012) para ensaios de não inferioridade em termos da
medida odds ratio e fornece um programa Fortran para calcular o tamanho da amostra.
Exemplo 5.4 - Efeito da escolha da margem de não inferioridade e da medida comparativa dos
grupos nos cálculos do tamanho da amostra para um ensaio de não inferioridade ╬╬
Pocock (2003) discute o efeito da escolha da margem de não inferioridade no tamanho da amostra para
um ensaio de não inferioridade, comparando um novo fármaco com o omeprazol para o tratamento de
infecção por Helicobacter pylori. A resposta binária foi a erradicação da infecção: sim ou não.
Para o cálculo do tamanho da amostra, estabeleceu-se que 𝛼 = 0,025, 𝛽 = 0,10 (ou seja, poder de
90%). E com base em dados anteriores sobre o omeprazol, foram escolhidos os seguintes valores de
probabilidade: 𝑝𝐶 = 0,85 e 𝑝1𝑇 = 0,85. Supondo-se que 𝑝0𝑇 = 0,70, chega-se que 𝜃0 = −0,887,
cuja correspondência ao valor de odds ratio é de 0,412. Os cálculos para obter 𝜃0 foram:
𝜃0 = 𝑙𝑜𝑔{[𝑝0𝑇 (1 − 𝑝𝐶 )] / [(𝑝𝐶 (1 − 𝑝0𝑇 )]} = 𝑙𝑜𝑔{[0,70 (1 − 0,85)] / [0,85 (1 − 0,70)]} =
𝑙𝑜𝑔{[0,70 (0,15)] / [0,85 (0,30)]} = 𝑙𝑜𝑔(0,41) = −0,887.
Considerando igual alocação de indivíduos por grupo de tratamento, a fórmula (5.5) fornece 210
indivíduos por grupo de tratamento, enquanto que o resultado da aplicação da fórmula (5.7) é 237.
A fórmula simples discutida por Pocock (2003), com base na diferença de probabilidades, resultou em
apenas 119 indivíduos por grupo de tratamento. Esse exemplo ilustra que a escolha da parametrização
para avaliar a diferença de tratamento pode impactar significativamente no tamanho da amostra. Em
termos da medida odds ratio, a margem de não inferioridade, neste exemplo, está bem longe de zero.
Rousson e Seifert (2008) fazem uma revisão da literatura e citam opções de margem de não
inferioridade com base em alguns artigos. Por exemplo, Tu (1998) considerou o valor de odds ratio de
0,8 por ser uma escolha habitual (o que dá um valor de 𝜃0 = −0,223), mas depois recomendou o valor
de odds ratio de 0,43 (𝜃0 = −0,844), o que corresponde a uma diferença nas proporções de 0,2 se
𝑝𝐶 = 0,5. Senn (2000) sugeriu odds ratio de 0,55 (𝜃0 = −0,598), o que corresponde a uma diferença
máxima possível em proporções de 0,15. O valor de odds ratio que Garrett (2003) propõe é 0,5
(𝜃0 = −0,693), argumentando que tal valor engloba as filosofias da Food and Drug Administration
(FDA) e do Comitê de Propriedades dos Produtos Medicionais, Committee on the Propriety of
Medicinal Products (CPMP).
No exemplo de Pocock, se 𝑝0𝑇 fosse definido como 0,75, (correspondendo a 𝜃0 = −0,640 e odds ratio
igual a 0,529), os tamanhos de amostra por grupo de tratamento aumentariam para 408 e 434 para as
fórmulas (5.5) e (5.7), respectivamente.
Exemplo 5.5 - Ensaio de não inferioridade usando a medida odds ratio – comparação de métodos
Para o contexto estudado, tamanhos de amostras foram calculados por vários métodos, usando
fórmulas fechadas, processos iterativos e simulações. Os cálculos podem ser programados e/ou obtidos
por programas específicos, tal como o software Pass®.
Adaptou-se aqui um exemplo apresentado por Rousson e Seifert (2008) comparando os resultados do
tamanho de amostra quando foi utilizado o teste de Wald e o teste exato de Fisher para a medida odds
ratio. Evidenciou-se também o impacto da escolha da margem de não inferioridade e da incerteza do
conhecimento de parâmetros envolvidos nos cálculos (no caso, 𝑝𝐶 , a probabilidade de sucesso do
grupo-controle).
Trata-se do planejamento de ensaio de não inferioridade que tinha como objetivo comparar o efeito de
novo medicamento para tratar vaginose bacteriana, a mais prevalente causa de vaginite, com o efeito do
uso do creme vaginal clindamicina, o medicamento de referência. Para mulheres não grávidas,
a literatura relata percentual de cura variando de 80 a 85% após completar o tratamento com o
medicamento de referência.
A Tabela 5.5 mostra o número de pacientes por grupo para valores de 𝑝𝐶 , variando de 80 a 85%,
com incremento de um ponto percentual, comparando dois testes.
À medida que 𝑝𝐶 e a margem de não inferioridade aumentam, há necessidade de mais pacientes. Por
outro lado, os tamanhos das amostras para 𝑂𝑅1 = 1,5 são inferiores aos correspondentes se 𝑂𝑅1 = 1.
Em geral, à medida que o valor de 𝑂𝑅1 aumenta, o tamanho da amostra diminui, mantendo os outros
elementos envolvidos nos cálculos constantes. Para 𝑂𝑅1 = 1,0, todos os tamanhos de amostra obtidos
pelo teste exato de Fisher são maiores do que os de Wald (a diferença varia de 4 a 8) e para
𝑂𝑅1 = 1,5, às vezes esse comportamento se repete ou se inverte, mas a diferença é sempre bem
pequena (varia de 1 a 4).
Neste exemplo são apresentados os resultados de um pequeno estudo de simulação de Monte Carlo
usando a medida odds ratio para a comparação de dois tratamentos (𝑇 e 𝐶) em ensaio de não
inferioridade. A determinação do tamanho de amostra a partir de simulações foi baseada nos testes de
Wald e da razão de verossimilhanças com a medida odds ratio. O nível de significância nominal foi de
2,5% e o poder dos testes foi fixado em 90%. Assumiu-se igual alocação de indivíduos aos
tratamentos, isto é, 𝑛𝑇 = 𝑛𝐶 . Os cálculos de cada poder empírico foram baseados em 1.000.000 de
simulações. A Tabela 5.6 apresenta resultados para casos selecionados.
Tabela 5.6 - Tamanho de amostra para ensaios de não inferioridade usando a medida
odds ratio quando o nível de significância é 2,5% e o poder do teste é 90%
𝑝𝐶 = 0,8 𝑝𝐶 = 0,5
𝑂𝑅0 𝑂𝑅1
𝑊𝑓 𝐹 𝑊𝑆 𝑉𝑆 𝑊𝑓 𝐹 𝑊𝑆 𝑉𝑆
1,5 384 379 379 378 218 217 216 216
0,8 2,0 205 197 197 196 107 105 104 104
2,5 149 139 138 137 73 70 70 69
1,5 126 127 125 126 72 72 71 71
0,5 2,0 90 88 87 87 47 47 46 46
2,5 75 71 70 70 37 36 35 35
Nota: 𝑂𝑅0 : odds ratio sob 𝐻0 ; 𝑂𝑅1 : odds ratio sob 𝐻1 ; 𝑊𝑓 : teste de Wald por fórmula; 𝐹: teste exato de
Fisher; 𝑊𝑆 : teste de Wald por simulação; 𝑉𝑆 : teste da razão de verossimilhanças por simulação.
Os resultados das simulações a partir do teste da razão de verossimilhanças (𝑉𝑆 ) são muito semelhantes
aos do teste exato de Fisher (𝐹). A fórmula baseada no teste de Wald (𝑊𝑓 ) parece fornecer bons
resultados, quando comparados aos obtidos na simulação, tanto para o próprio teste de Wald (𝑊𝑆 )
quanto para o teste de razão de verossimilhanças (𝑉𝑆 ).
À medida que 𝑂𝑅1 aumenta, os tamanhos de amostras (𝑛) diminuem e o inverso vale para a margem
de não inferioridade (𝑂𝑅0 ), o que significa que, fixado o valor de 𝑂𝑅1 , os tamanhos de amostras
quando 𝑂𝑅0 = 0,8 são superiores aos correspondentes tamanhos calculados quando 𝑂𝑅0 = 0,5.
Os tamanhos de amostra relativos a 𝑊𝑓 tendem a ser ligeiramente maiores que os de 𝐹. Para a
diferença (𝑊𝑓 – 𝐹), os valores do mínimo são 1 e -1 e do máximo 10 e 4, respectivamente, para 𝑂𝑅0
igual a 0,8 e 0,5, enquanto que a diferença (𝑊𝑓 − 𝑉𝑆 ) varia de 2 a 12 e de 0 a 5 para os mesmos valores
de 𝑂𝑅0 , isto é, 0,8 e 0,5.
Acurácia das fórmulas fechadas para o tamanho de amostra via o teste de Wald e o teste do
escore quando a medida odds ratio é usada
De forma geral, fórmulas de forma fechada são procedimentos práticos e convenientes para a
estimativa do tamanho da amostra, como é o caso das fórmulas obtidas para os testes de Wald e escore
quando a medida odds ratio é usada para dados de resposta binária. Como em geral há aproximações
no desenvolvimento das fórmulas, torna-se importante a avaliação de suas acurácias e a comparação
entre elas. Siqueira et al. (2015) conduziram estudo de simulação relativamente extensivo, cobrindo
muitas situações que aparecem na prática. Ambas as fórmulas de forma fechada são comparadas com
simulações bastante apuradas (portanto, muito próximas do padrão-ouro) baseadas no teste da
razão de verossimilhanças.
Nenhuma fórmula é acurada para todos os casos considerados, como revelado pela comparação direta
com o resultado do teste da razão de verossimilhanças. Em alguns casos, o tamanho da amostra
calculado pelo método de Wald é maior do que o indicado pelo teste da razão de verossimilhanças, ao
passo que o tamanho da amostra obtido pelo teste do escore é menor do que o tamanho da amostra
determinado pelo teste de razão de verossimilhanças, levando à conclusão de que os testes Wald e
escore têm tendências opostas. A precisão depende da combinação de vários termos envolvidos nos
cálculos, como as probabilidades de sucesso do novo tratamento e controle ativo e a razão de chances
(sob as hipóteses nula e alternativa). Simulações adicionais realizadas para estudos de superioridade
(quando 𝜃0 = 0) mostraram que a fórmula fechada referente ao teste Wald tende a superestimar o
tamanho da amostra, enquanto que a fórmula fechada do teste de escore tende a subestimar o tamanho
da amostra em relação ao resultado do teste da razão de verossimilhanças. Para estudos de não
inferioridade, a acurácia também depende do valor da medida de odds ratio sob a hipótese alternativa.
(a) (b)
Figura 5.2 - (a) Curva de concentração para ilustrar as principais medidas farmacocinéticas
(ASC: área sob a curva; Cmax: concentração máxima; Tmax: tempo para atingir a
concentração máxima); (b) esquema de delineamento crossover 2x2.
Mais detalhes podem ser encontrados em resoluções e manual da ANVISA, bem como em literatura
especializada, como Patterson e Jones (2006), Chellini (2007), Hauschke et al. (2007), Chow e Liu
(2009), Niazi (2015), entre outros.
Assume-se que 𝑆𝑖𝑘 e 𝜀𝑖𝑗𝑘 são independentes e identicamente distribuídos com média zero e variâncias
𝜎𝑠2 e 𝜎𝑡2 , respectivamente, com 𝑡 = 1, 2, ⋯ , 𝐿, sendo 𝐿 o número de formulações a serem comparadas.
𝑅𝑇 (𝑘 = 1) 1 𝐸(𝑌𝑖11 ) = 𝜇 + 𝐹𝑅 + 𝑃1 = 𝜇𝑅 + 𝑃1
𝑅𝑇 (𝑘 = 1) 2 𝐸(𝑌𝑖21 ) = 𝜇 + 𝐹𝑇 + 𝑃2 = 𝜇 𝑇 + 𝑃2
𝑇𝑅 (𝑘 = 2) 1 𝐸(𝑌𝑖12 ) = 𝜇 + 𝐹𝑇 + 𝑃1 = 𝜇 𝑇 + 𝑃1
𝑇𝑅 (𝑘 = 2) 2 𝐸(𝑌𝑖22 ) = 𝜇 + 𝐹𝑅 + 𝑃2 = 𝜇𝑅 + 𝑃2
Quadro 5.6 - Resumo dos dados para o delineamento crossover 2 x 2
Seja 𝑑𝑖𝑘 = (𝑦𝑖2𝑘 − 𝑦𝑖1𝑘 )/2, a metade da diferença entre as medidas dos dois períodos para o 𝑖-ésimo
indivíduo na 𝑘-ésima sequência. A estimativa de 𝜃 = 𝜇 𝑇 − 𝜇𝑅 é 𝜃̂ = 𝑑̅.1 − 𝑑̅.2 = [(𝑦̅.21 − 𝑦̅.11 ) −
(𝑦̅.22 − 𝑦̅.12 )]/2 = 𝑦̅𝑇 − 𝑦̅𝑅 , sendo que 𝑦̅𝑅 = (𝑦̅.11 + 𝑦̅.22 )/2 e 𝑦̅𝑇 = (𝑦̅.21 + 𝑦̅.12 )/2. A variância
associada a 𝑑𝑖𝑘 é 𝜎𝑑2 (1/𝑛1 + 1/𝑛2 ) e uma estimativa não viesada para 𝜎𝑑2 é dada por
𝑛𝑘 2
𝜎̂𝑑2 = (∑2𝑘=1 ∑𝑖=1(𝑑𝑖𝑘 − 𝑑̅.𝑘 ) )/(𝑛1 + 𝑛2 − 2).
Bioequivalência pode ser avaliada testando-se as seguintes hipóteses: 𝐻0+ : 𝜃 ≤ 𝜃𝐼 versus 𝐻1+ : 𝜃 > 𝜃𝐼 e
𝐻0− : 𝜃 ≥ 𝜃𝑆 versus 𝐻1− : 𝜃 < 𝜃𝑆 . Schuirmann (1987) descreve dois testes unilaterais, cujas estatísticas
(𝑦̅𝑇 −𝑦̅𝑅 )−𝜃𝐼 (𝑦
̅𝑇 −𝑦
̅𝑅 )−𝜃𝑆
são dadas, respectivamente, por 𝑇 + = 𝜎̂ e 𝑇− = . Sob as hipóteses nulas, elas têm
𝑑 √1/𝑛1 +1/𝑛2 𝜎
̂ 𝑑 √1/𝑛1 +1/𝑛2
1 1
Intervalo de (1 − 2𝛼)100% de confiança para 𝜃 é dado por ((𝑦̅𝑇 − 𝑦̅𝑅 ) − 𝑡𝜈;1−𝛼 𝜎̂𝑑 √𝑛 + 𝑛 ,
1 2
1 1
(𝑦̅𝑇 − 𝑦̅𝑅 ) + 𝑡𝜈;1−𝛼 𝜎̂𝑑 √ + ), sendo 𝑡𝜈;1−𝛼 o percentil da distribuição 𝑡 de Student central com
𝑛1𝑛 2
𝜈 = 𝑛1 + 𝑛2 − 2 graus de liberdade. Duas formulações são consideradas equivalentes se o intervalo de
confiança para 𝜃 estiver contido completamente dentro do intervalo formado pelos limites inferior e
superior de bioequivalência.
De acordo com a ANVISA (RE nº 1170, 2006), para que dois medicamentos sejam declarados
bioequivalentes, os intervalos de 90% de confiança para a diferença das médias tanto para 𝐴𝑆𝐶 quanto
para 𝐶𝑚𝑎𝑥 devem estar dentro do intervalo de bioequivalência (𝜃𝐼 ; 𝜃𝑆 ) tipicamente especificados
em (0,80; 1,25) ou (−0,2231; 0,2231), nas escalas original e logarítmica, respectivamente.
Em Chellini (2007) há vários exemplos do uso da resolução da ANVISA, além de detalhes adicionais
sobre o assunto.
O número de participantes é parte fundamental do planejamento e está ligado tanto a questões éticas
quanto econômicas. Alguns fatores podem prejudicar a conclusão do estudo, por exemplo, a utilização
de número de voluntários inferior ao necessário, daí a importância da acurácia da determinação do
tamanho da amostra.
É muito comum considerar intervalo de bioequivalência (𝜃𝐼 ; 𝜃𝑆 ) simétrico (𝜃𝑠 = −𝜃𝐼 ) e delineamento
com o mesmo número de voluntários para cada sequência (𝑛1 = 𝑛2 = 𝑛), tal que os graus de liberdade
são 𝜈 = 𝑛1 + 𝑛2 − 2 = 2𝑛 − 2 = 2(𝑛 − 1). Para qualquer valor de 𝜃, o poder do teste de Schiurmann
é por definição Pr (rejeitar 𝐻0+ e 𝐻1− |𝜃). Escolhendo 𝜃𝛾 tal que 𝜃𝐼 < 𝜃𝛾 < 𝜃𝑠 , o poder é dado por:
√𝑛(𝜃̂ − 𝜃𝛾 ) √𝑛(𝜃̂ − 𝜃𝛾 )
𝑃𝑟 ( < −𝑡2𝑛−2; 1−𝛼 e > 𝑡2𝑛−2; 1−𝛼 ) (5.9)
√2𝜎̂𝑑 √2𝜎̂𝑑
̂ − 𝜃𝛾 )
√𝑛(𝜃
A probabilidade conjunta de (5.9) pode ser reescrita como 𝑃𝑟 ( ̂𝑑
< −𝑡2𝑛−2; 1−𝛼 ) −
√2𝜎
̂ − 𝜃𝛾 )
√𝑛(𝜃 ̂ − 𝜃𝛾 )
√𝑛(𝜃 ̂ − 𝜃𝛾 )
√𝑛(𝜃
𝑃𝑟 ( ̂𝑑
< 𝑡2𝑛−2; 1−𝛼 ) + 𝑃𝑟 ( ̂𝑑
> −𝑡2𝑛−2; 1−𝛼 e ̂𝑑
< 𝑡2𝑛−2; 1−𝛼 ), que é
√2𝜎 √2𝜎 √2𝜎
aproximadamente igual a 1 − Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) − Γ2𝑛−2,δ2 (𝑡2𝑛−2; 1−𝛼 ), sendo que Γ2𝑛−2,δi
representa a função de distribuição acumulada da distribuição 𝑡 de Student não central com (2𝑛 − 2)
̂ − 𝜃𝛾 )
√𝑛(𝜃 ̂ + 𝜃𝛾 )
√𝑛(𝜃
graus de liberdade e com parâmetro de não centralidade δ1 = ̂𝑑
ou δ2 = ̂𝑑
.
√2𝜎 √2𝜎
O tamanho da amostra necessário para atingir o poder desejado de (1 − 𝛽)100% pode ser estimado
resolvendo-se a equação: 1 − Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) − Γ2𝑛−2,δ2 (𝑡2𝑛−2; 1−𝛼 ) = 1 − 𝛽.
Uma aproximação conservadora pode ser obtida resolvendo-se a equação Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) = 𝛽/2,
̂ − 𝜃𝛾 )
√𝑛(𝜃
com δ1 = ̂𝑑
. Entretanto, quando 𝜃 ≠ 0, tal solução pode ser muito conservadora na prática,
√2𝜎
̂ − 𝜃𝛾 )
√𝑛(𝜃
o que leva a considerar a seguinte aproximação: Γ2𝑛−2,δ1 (𝑡2𝑛−2; 1−𝛼 ) = 𝛽 com δ1 = ̂𝑑
.
√2𝜎
Outra possível aproximação consiste em substituir a distribuição 𝑡 de Student não central pelas
distribuições 𝑡 de Student central e normal padrão.
Na prática, no caso de planejamentos balanceados (𝑛1 = 𝑛2 = 𝑛), o poder do teste para avaliar a
bioequivalência de dois produtos (𝑇 e 𝑅), que pode ser considerado exato, é calculado a partir da
seguinte expressão:
diferença das médias, 𝑡ν;1−α = 𝑡2𝑛−2; 1−𝛼 é o percentil de ordem (1 − 𝛼)100% da distribuição 𝑡 de
Student central e 𝜎𝑑 é o desvio-padrão associado às metades da diferença entre as medidas dos dois
períodos para cada indivíduo dentro de cada sequência e que está relacionado ao desvio-padrão
intraindividual 𝜎𝑒 (𝜎𝑑 = 𝜎𝑒 /√2).
Com o pressuposto de distribuição lognormal, pode-se mostrar que a relação entre o coeficiente de
variação para a formulação de referência (𝐶𝑉) e a variância 𝜎𝑑2 é dada por 𝐶𝑉 = √𝑒𝑥𝑝{𝜎𝑑2 } − 1.
Se 𝜎𝑑2 tende a zero, 𝐶𝑉 também tende a zero. Quando 𝜎𝑑 for inferior a 0,3, 𝐶𝑉 pode ser aproximado
por 𝜎𝑑 , sendo, então, o valor de 𝐶𝑉 próximo de 𝜎𝑑 . Quanto maior o valor de 𝐶𝑉, mais elevado tende a
ser o número de voluntários a serem incluídos no estudo. A determinação de tamanho de amostra,
segundo alguns autores, como Diletti et al. (1991), deve ser em termos de 𝐶𝑉 e não em função de 𝜎𝑑2 .
Detalhes técnicos sobre o assunto podem ser encontrados em Siqueira et al. (2005), Chow e Liu (2009)
e Julious (2010).
Em resumo, o número de participantes (2𝑛) é a solução da função do poder do teste, fixando-se o nível
de significância 𝛼, a diferença esperada entre as duas médias (𝜃𝛾 ), além da variância entre indivíduos
(𝜎𝑑2 ), ou equivalentemente expressa pelo coeficiente de variação intraindividual (𝐶𝑉).
Como comentado, para o planejamento crossover 2x2, existem várias formas para a determinação do
tamanho de amostra (2𝑛). Recomenda-se, sempre que possível, a utilização do método considerado
padrão-ouro, baseado na distribuição 𝑡 de Student não central apresentado por Owen (1965), entre
outros, que se encontra implementado, por exemplo, no software nQuery Advisor®. Entretanto, nem
sempre o software específico está disponível e, além disso, como os cálculos do método padrão-ouro
não são tão triviais, torna-se importante ter outros métodos à disposição e saber quando cada
um seria razoável.
Método
Distribuição
F.d.a. completa Conservador (𝛽/2) Não conservador (𝛽)
Entre os nove métodos apresentados, quatro apresentam fórmulas fechadas. Destacam-se aqui duas
delas, ambas do método conservador e baseadas, respectivamente, nas distribuições de 𝑡 de Student
central e normal padrão:
2
2
𝑡𝜈;1−𝛼+ 𝑡𝜈;1−𝛽/2
𝑛𝑡𝛽/2 = 2𝜎𝑑 ( ) (5.11)
𝜃𝜀 − |𝜃𝛾 |
2
2
𝑧1−𝛼+ 𝑧1−𝛽/2 (5.12)
𝑛𝑧𝛽/2 = 2𝜎𝑑 ( )
𝜃𝜀 − |𝜃𝛾 |
Nas fórmulas (5.11) e (5.12), como comentado anteriormente, 𝜎𝑑2 é a variância associada à metade da
diferença entre as medidas dos dois períodos para o 𝑖-ésimo indivíduo na 𝑘-ésima sequência e pode-se
mostrar que 𝜎𝑑2 = 𝜎𝑒2 /2, sendo 𝜎𝑒2 a variância intraindivíduos; 𝑡𝜈;1−𝛼 e 𝑡𝜈;1−𝛽/2 são os percentis de
ordem (1 − 𝛼)100% e (1 − 𝛽/2)100% da distribuição 𝑡 de Student com 𝑣 = 2𝑛 − 2 graus de
liberdade; 𝑧1−𝛼 e 𝑧1−𝛽/2 são os percentis de ordem (1 − 𝛼)100% e (1 − 𝛽/2)100% da distribuição
normal padrão.
Com exceção de duas fórmulas usando a distribuição normal (𝑛𝑧𝛽/2 e 𝑛𝑧𝛽 ), os cálculos para tamanho
de amostra para estudos de bioequivalência considerados requerem métodos iterativos, e pacotes
específicos devem ser utilizados ou programas devem ser escritos para a determinação do tamanho da
amostra. Os softwares nQuery Advisor® e Pass® fornecem a solução padrão-ouro baseada na
distribuição 𝑡 de Student não central.
Em Siqueira et al. (2005) são estabelecidas várias comparações para investigar se a utilização de
fórmulas fechadas, especialmente as baseadas na distribuição normal, que são as mais práticas em
termos de cálculo, forneceriam resultados equivalentes ao obtido pela fórmula do padrão-ouro, que
utiliza a distribuição 𝑡 de Student não central (𝑛𝑔𝑠 do Quadro 5.7).
Concluiu-se que, se a diferença entre as médias for zero (𝜃𝛾 = 0) e os parâmetros de não centralidade
são iguais (𝛿 − = 𝛿 + ), 𝑛𝑛𝑐𝑡𝛽/2 = 𝑛𝑔𝑠 , 𝑛𝑡𝛽/2 = 𝑛𝑡 e 𝑛𝑧𝛽/2 = 𝑛𝑧 . Além disso, existe um padrão para os
métodos. Usando a notação do Quadro 5.7: 𝑛𝑛𝑐𝑡𝛽 ≤ 𝑛𝑔𝑠 ≤ 𝑛𝑛𝑐𝑡𝛽/2 ; 𝑛𝑡𝛽 ≤ 𝑛𝑡 ≤ 𝑛𝑡𝛽/2 e
𝑛𝑧𝛽 ≤ 𝑛𝑧 ≤ 𝑛𝑧𝛽/2 .
Para considerar uma situação bem prática, foram escolhidos os seguintes cenários: planejamento
crossover 2x2, dados lognormal com intervalo de bioequivalência (−0,2231; 0,2231), 𝛼 = 0,05 e
𝛽 = 0,20, ou seja, poder de 80%. Foram consideradas 180 combinações dos parâmetros
envolvidos nos cálculos dos métodos do tamanho de amostra, a saber,
𝜃𝛾 = 0; 0,01; 0,02; 0,04; 0,06; 0,08; 0,10; 0,12; 0,14; 0,16; 0,18; 0,20; 𝜎𝑑 variando de 0,02 a 0,30 com
incremento de 0,02. A Tabela 5.7 resume eventuais diferenças entre métodos usando a função de
distribuição acumulada completa com as três distribuições: 𝑡 não central, 𝑡 central e normal.
Pela análise dos dados, foi possível concluir que em todas as situações, 𝑛𝑧 ≤ 𝑛𝑔𝑠 ≤ 𝑛𝑡 e que,
consequentemente, ocorrem as seguintes relações das funções de poder: 𝒫𝑡 (𝜃𝛾 ) ≤ 𝒫𝑛𝑐𝑡 (𝜃𝛾 ) ≤ 𝒫𝑧 (𝜃𝛾 ).
Os cálculos baseados na distribuição 𝑡 central concordam mais frequentemente com o padrão-ouro
(𝑛𝑔𝑠 ) do que o método baseado na distribuição normal, que tende a subestimar o tamanho da amostra
por aproximadamente um indivíduo por sequência.
A próxima comparação apresentada em Siqueira et al. (2005) é a que mais interessa na prática, já que
se avalia o efeito do valor da diferença esperada entre as duas médias (𝜃𝛾 ) levando-se em conta o valor
de 𝜎𝑑 , ou, equivalentemente, do coeficiente de variação (𝐶𝑉) do fármaco. A Tabela 5.8 mostra parte
dos resultados, destacando o método chamado padrão-ouro (𝑛𝑔𝑠 ) e dois métodos com fórmula fechada,
fórmulas (5.11) e (5.12). No artigo original podem ser encontradas as tabelas completas bem como as
figuras ilustrativas correspondentes.
Nota-se que, à medida que 𝜃𝛾 e 𝜎𝑑 aumentam, o tamanho de amostra por sequência (𝑛) e, portanto,
o tamanho de amostra total - o número de participantes do estudo - aumenta. O método que utiliza a
distribuição 𝑡 central, fórmula (5.11), pode coincidir com o método padrão-ouro (𝑛𝑔𝑠 ), mas tende a
superestimar o verdadeiro valor por uma quantidade que varia de um a 13 indivíduos por sequência e,
consequentemente, uma diferença de dois a 26 participantes no estudo. Já os resultados do método que
utiliza a distribuição normal (𝑛𝑧𝛽/2), fórmula (5.12), podem ser coincidentes com os de 𝑛𝑔𝑠 , mas a
tendência em relação ao padrão-ouro é subestimação, cujas diferenças podem variar de um a 12
indivíduos por sequência e, portanto, de dois a 24 participantes no total.
Tabela 5.8 - Tamanho de amostra por sequência (𝑛) obtido
por três métodos para alguns valores de 𝜃𝛾 e de 𝜎𝑑
Método Desvios
𝜃𝛾 𝜎𝑑
𝑛𝑔𝑠 𝑛𝑡𝛽/2 𝑛𝑧𝛽/2 𝑛𝑔𝑠 − 𝑛𝑡𝛽/2 𝑛𝑔𝑠 − 𝑛𝑧𝛽/2
0,10 5 5 4 0 1
0,12 6 6 5 0 1
0,14 8 8 7 0 1
0,00
0,16 10 10 9 0 1
0,18 12 13 12 -1 0
0,20 15 15 14 0 1
0,10 5 6 5 -1 0
0,12 6 7 6 -1 0
0,14 8 10 9 -2 -1
0,02
0,16 10 12 11 -2 -1
0,18 13 15 14 -2 -1
0,20 15 18 17 -3 -2
0,10 6 8 7 -2 -1
0,12 8 11 10 -3 -2
0,14 10 14 13 -4 -3
0,06
0,16 13 18 17 -5 -4
0,18 16 22 21 -6 -5
0,20 20 27 26 -7 -6
0,10 9 13 12 -4 -3
0,12 13 18 17 -5 -4
0,14 17 23 23 -6 -6
0,10
0,16 22 30 29 -8 -7
0,18 28 38 37 -10 -9
0,20 34 47 46 -13 -12
Nota: 𝛼 = 0,05 e poder de 80%; 𝑛𝑔𝑠 : baseado na função acumulada completa da distribuição 𝑡 não central;
𝑛𝑡𝛽/2 e 𝑛𝑧𝛽/2 : método conservador usando as distribuições 𝑡 central e normal padrão, respectivamente.
Em geral, o patrocinador do estudo diria que 𝜃𝛾 = 0,00, que as médias das formulações 𝑅 e 𝑇 são
idênticas. Como na prática o verdadeiro valor 𝜃𝛾 é desconhecido, uma atitude mais conservadora
consiste em fazer um estudo de sensibilidade, considerando possíveis valores para 𝜃𝛾 .
Utilizando o software nQuery Advisor®, foi calculado o tamanho de amostra para cada sequência (𝑛),
como já comentado baseado na distribuição 𝑡 não central, com 𝛼 = 0,05 e poder fixado em 80% e
90%, para as seguintes situações: 𝜃𝛾 = 0,00; 0,05; 0,10 e 𝐶𝑉 de 0,10 a 0,50 (com incremento de 0,01).
Esses valores de 𝐶𝑉 correspondem à seguinte variação de 𝜎𝑑2 : 0,10 a 0,472. Para cada valor de 𝐶𝑉
tomado como sendo o real, foram calculados quantos voluntários seriam recrutados a menos (ou a
mais) quando o valor de CV é estimado incorretamente como menor (maior) do que o verdadeiro valor.
De forma análoga, foi avaliada a má-especificação do valor de 𝜃𝛾 .
Para cada valor de 𝜃𝛾 os resultados podem ser organizados em uma matriz, colocando nas linhas os
valores reais de 𝐶𝑉 e nas colunas os valores de 𝐶𝑉 utilizados na fórmula do cálculo de 𝑛. O corpo da
tabela é a diferença entre o tamanho de amostra total que realmente deveria ser utilizado (2𝑛) e o que
foi obtido com o valor incorreto de 𝐶𝑉. Obviamente a diagonal principal é composta de zeros, acima
aparecem valores positivos (correspondendo a um valor de n maior do que o necessário) e abaixo
valores negativos (correspondendo a um valor de n menor do que o necessário).
Na Tabela 5.9 são apresentados os resultados para valores selecionados de 𝐶𝑉, apenas para o caso em
que 𝜃𝛾 = 0 e com poder de 80%.
Como esperado, quanto maior o valor de 𝐶𝑉, maior o número de voluntários necessários. Alguns casos
especiais merecem destaque:
2. 𝐶𝑉 = 0,18 (2𝑛 = 24 voluntários): quando não se tem informação sobre o valor de 𝐶𝑉, pode-se
usar o número mínimo de 24 voluntários. Se o 𝐶𝑉 real for menor que 0,18, o tamanho da amostra
estará sendo superestimado. Entretanto, se o 𝐶𝑉 real for maior que 0,18, corre-se o risco de obter um
resultado não favorável à bioequivalência, além de diminuir muito o poder do teste.
3. 𝐶𝑉 = 0,50 (2𝑛 = 156 voluntários): fixar 𝐶𝑉 em 0,50 seria uma atitude bastante conservadora,
gerando um número elevado de voluntários, o que aumentaria muito o custo e dificultaria muito a
realização do estudo.
Na Figura 5.3 são apresentados os resultados do poder do teste que avalia a bioequivalência quando são
usados 12 voluntários por sequência em um planejamento crossover 2 x 2. Observa-se que a
recomendação da ANVISA só é válida quando o 𝐶𝑉 é menor que 18,1% (o que corresponde a 𝜎𝑑
menor que 0,18), já que o poder é de pelo menos 80%.
100
80
60
Poder
40
20
0
0,0 0,1 0,2 0,3 0,4 0,5 0,6
CV
Estudos de fármacos de alta variabilidade exigem número expressivo de participantes. Nesses casos,
naturalmente haverá necessidade de maior número de voluntários para “diluir” possíveis diferenças
entre os produtos (𝑅 e T), já que características de alta variabilidade podem causar a conclusão de não
equivalência, mesmo que eles sejam verdadeiramente equivalentes. Assim, realizar o estudo de
bioequivalência com número inferior ao necessário seria temerário e poderia resultar na repetição do
estudo, o que acabaria sendo mais oneroso do que a execução do estudo com o número suficiente.
Como as ordens de grandeza das medidas 𝐴𝑆𝐶 e 𝐶𝑚𝑎𝑥 são bastante diferentes, boa opção como medida
de variabilidade é usar o 𝐶𝑉. A partir dos resultados de estudos das simulações referentes à
comparação da conclusão de bioequivalência para 𝐶𝑚𝑎𝑥 , 𝐴𝑆𝐶, ou ambas, observa-se que na maioria
absoluta das vezes 𝐶𝑚𝑎𝑥 é a medida de maior variabilidade comparada à 𝐴𝑆𝐶. Assim, de modo geral,
o número de voluntários calculado a partir do 𝐶𝑉 da variável 𝐶𝑚𝑎𝑥 é maior que o calculado utilizando-
se o 𝐶𝑉 da variável 𝐴𝑆𝐶.
Várias fórmulas fechadas de tamanho de amostra do capítulo foram programadas em planilhas Excel® e
encontram-se disponíveis para os leitores (ver informações na apresentação do livro; os exemplos com
fórmulas programadas estão sinalizados por ╬╬ ).
Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass® e nQuery Advisor®. Para estudos de bioequivalência, destaca-se o nQuery Advisor®,
que utiliza o método padrão-ouro (ver seção 5.3), mas é restrito ao planejamento crossover 2x2,
enquanto que o software Pass® pode ser utilizado no dimensionamento para mais tipos de
planejamentos e modelos em estudos de bioequivalência.
6.1 Introdução
Frequentemente, em várias áreas, em especial na área biológica e médica, tem-se o interesse em estudar
a relação entre duas ou mais variáveis. Procura-se estudar uma tendência. O objetivo do estudo de
correlação é descobrir se há relação entre duas ou mais variáveis. A variação conjunta de duas
variáveis pode ser visualizada a partir do diagrama de dispersão. De forma mais geral, a técnica
estatística padrão para o estudo entre a relação de variável é chamada análise de regressão.
Em análise de regressão, estuda-se como uma variável de interesse - a variável resposta (𝑌) - pode ser
"entendida" a partir de determinadas variáveis - as variáveis explicativas (𝑋1 , 𝑋2 , ⋯ 𝑋𝑘 ) - que também
são denominadas covariáveis ou preditores.
Os modelos de regressão podem ser classificados como simples (quando só há uma variável
explicativa) ou múltipla (caso de várias variáveis explicativas). Para modelos de regressão simples, os
dados são pares de números; genericamente para n indivíduos, os dados são: (𝑥1 ,𝑦1 ), (𝑥2 ,𝑦2 ), ⋯,
(𝑥𝑛 ,𝑦𝑛 ). Para regressão múltipla, será necessário estender a notação, o que será feito posteriormente.
Há vários tipos de regressão, dependendo da variável resposta. As variáveis explicativas podem ser de
qualquer tipo (por exemplo, binária, ordinal, contínua). O Quadro 6.1 apresenta um resumo dos
modelos de regressão mais comuns.
Quadro 6.1 - Modelos de regressão mais comuns por tipo de variável resposta
Tipo de variável resposta (𝑌) Modelo de regressão
Normal ou gaussiana Linear*
Normal ou gaussiana Não linear*
Binária Logística
Multinomial Logística
Ordinal Logística
Poisson de Poisson
Tempo até a ocorrência de um evento de riscos proporcionais (de Cox)
*Dependendo da forma funcional, sujeito à verificação de ajuste do modelo
Para o dimensionamento de amostras neste contexto aparecem dificuldades, já que na prática, em geral,
há covariáveis envolvidas no estudo e inicialmente não se sabe quais são as realmente importantes.
Além disso, há também o problema da multicolinearidade entre as covariáveis, além das dificuldades
inerentes a modelos de regressão. Assim, para o cálculo de tamanho de amostra, normalmente há
necessidade de simplificações, como comentado nas próximas seções. Naturalmente, há especificidades
a cada tipo de modelo de regressão.
Este capítulo trata do dimensionamento de amostras para estudos envolvendo análise de correlação e
regressão linear bem como ajuste de modelos de regressão logística (para resposta binária e ordinal) e
de Poisson. Em alguns casos, serão considerados regressão simples e múltipla. O dimensionamento
para o caso do modelo de Cox será tratado no capítulo 7.
Para cada modelo de regressão considerado, são apresentadas as informações básicas para facilitar
o entendimento das fórmulas do dimensionamento de amostras e das notações empregadas.
Detalhes técnicos sobre os modelos, em geral fundamentais no dimensionamento da amostra, devem
ser sempre consultados na literatura especializada. Referências sobre os modelos de regressão que
foram tratados no capítulo são fornecidas ao longo do texto.
6.2 Correlação e regressão linear
O estudo de associação entre duas variáveis (𝑌 e 𝑋) pode ser feito por meio de análise de correlação ou
de regressão, no caso, regressão linear simples. Situação mais comum na prática é o estudo do efeito de
diversas variáveis explicativas na variável resposta em vez de apenas uma variável explicativa, como
na regressão linear simples.
Os modelos de regressão linear relacionam uma variável resposta contínua (𝑌) com uma ou várias
variáveis explicativas (representada por um vetor 𝑥 de dimensão 𝑘 ≥ 1), por meio da determinação de
uma equação linear. Nela a constante, ou o intercepto, representa o valor basal, comum a todos
os indivíduos, e os coeficientes representam o efeito em 𝑌 do incremento de uma unidade
em 𝑥𝑖 , 𝑖 = 1, . . . 𝑘.
Dupont e Plummer (1998) apresentam métodos para cálculos de tamanho de amostra (𝑛) e poder para o
caso de uma única regressão linear simples ou duas retas de regressão. Mostram claramente como o
grau de dispersão dos valores da resposta em torno da reta de regressão afeta os cálculos do poder e do
tamanho de amostra. As aplicações estão relacionadas à avaliação do efeito de uma variável em outra
por meio da estimativa da reta de regressão e também quando o interesse é contrastar duas retas de
regressão. Os métodos valem tanto para estudos observacionais como experimentais.
Apresentam a equação geral do poder e do tamanho de amostra e particularizam para os dois casos
citados. Como são função de percentis da distribuição 𝑡 de Student, o cálculo do tamanho de amostra
(𝑛) depende dos graus de liberdade, que por sua vez dependem de 𝑛. Assim, não há uma fórmula
fechada exigindo alguma programação e serão omitidos nesta seção.
A seguir será apresentado um método simples que tem fórmula fechada cuja fonte é o artigo de
Hsieh et al. (1998).
Inicialmente são consideradas duas variáveis: 𝑌 e 𝑋. Há duas maneiras de analisar associação entre
duas variáveis quantitativas: análise de correlação e análise de regressão. A correlação teórica entre 𝑌 e
𝑋 será denotada por 𝜌 e a notação para a correlação estimada a partir de uma amostra de tamanho
𝑛 será 𝑟.
O coeficiente de correlação de Pearson (𝑟) depende da covariância entre 𝑋 e 𝑌,
(𝑥𝑖− 𝑥̅ )(𝑦𝑖 −𝑦̅)
𝑐𝑜𝑣 (𝑋, 𝑌) = ∑𝑛𝑖=1 , mas de forma padronizada, isto é, dividindo-se pelos desvios-padrão de
𝑛−1
𝑐𝑜𝑣 (𝑋,𝑌) ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
̅) ∑𝑛 ̅
𝑖=1 𝑥𝑖 𝑦𝑖 −𝑛𝑥̅ 𝑦
𝑋 (𝑠𝑥 ) e de 𝑌 (𝑠𝑦 ). Assim, 𝑟 é definido por: 𝑟 = = = =
𝑠𝑥 𝑠𝑦 (𝑛−1)𝑠𝑥 𝑠𝑦 (𝑛−1)𝑠𝑥 𝑠𝑦
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 −(∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 )
2 2
.
√[𝑛 ∑𝑛 2 𝑛 𝑛 2 𝑛
𝑖=1 𝑥𝑖 −(∑𝑖=1 𝑥𝑖 ) ][𝑛 ∑𝑖=1 𝑦𝑖 −(∑𝑖=1 𝑦𝑖 ) ]
A forma do modelo de regressão linear simples é da equação de uma reta escrita como
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀. Neste modelo, 𝛽0 é o coeficiente linear, 𝛽1 é o coeficiente angular e ε é o erro
aleatório. Em geral, supõe-se que 𝜀 tenha distribuição normal com média zero e desvio-padrão 𝜎,
que pode ser estimado a partir dos dados, e que os erros sejam independentes. A suposição mais
comum (e adotada nesta seção) é a de igualdade de variância (𝜎 2 ) para todos os participantes do
estudo, pressuposto conhecido como homocedasticidade. A violação dessa suposição pode ser séria e,
quando isso ocorrer, deve-se utilizar algum procedimento apropriado, por exemplo, o uso de
transformação ou fazer um ajuste conveniente.
Em um modelo de regressão linear simples quer-se avaliar se há efeito da variável explicativa (𝑋) na
variável resposta (𝑌). Tecnicamente, isso equivale a testar 𝐻0 : 𝛽1 = 0 versus 𝐻1 : 𝛽1 ≠ 0.
Pode-se mostrar que há a seguinte relação entre a correlação 𝜌 e o coeficiente angular (𝛽1) além dos
desvios-padrão de 𝑌 (𝜎𝑌 ) e de 𝑋 (𝜎𝑋 ): 𝜌 = 𝛽1 𝜎𝑋 /𝜎𝑌 . Como tipicamente 𝜎𝑋 /𝜎𝑌 ≠ 0, 𝜌 = 0 se e somente
se 𝛽1 = 0. Quando tanto 𝑋 como 𝑌 forem variáveis padronizadas, testar a hipótese 𝐻0 : 𝜌 = 0 é
equivalente a testar a hipótese 𝐻0 : 𝛽1 = 0 e, consequentemente, os tamanhos de amostra nos dois casos
são os mesmos.
(𝑧1−𝛼/2 + 𝑧1−𝛽 )2
𝑛(1) = 2 +3
1 1+𝑟 (6.1)
(2 𝑙𝑜𝑔 (1 − 𝑟))
Na fórmula (6.1), 𝛼 é o nível de significância, (1 − 𝛽) é o poder do teste, sendo 𝑧1−𝛼/2 e 𝑧1−𝛽
percentis da distribuição normal padrão de ordem (1 − 𝛼/2)100% e (1 − 𝛽)100%. O índice 1 em
𝑛(1) indica que no modelo de regressão há apenas uma variável explicativa. A função 𝑙𝑜𝑔 indica o
logaritmo na base natural, às vezes denotado por 𝑙𝑛. Note-se que 𝑛(1) é o total de indivíduos do estudo.
O desejável é ter o mesmo número de indivíduos (observações) para cada nível de 𝑋, em todo intervalo
de valores plausíveis. Na prática, é comum ter menos observações nos extremos do intervalo, o que
pode levar à sub ou superestimação do efeito. Outro ponto importante no planejamento é como
distribuir as 𝑛(1) amostras para os possíveis valores de 𝑋. Alguns comentários podem ser encontrados
na literatura especializada, como em Draper e Smith (1998) e Kutner et al. (2004), entre outros.
Em geral, os coeficientes do modelo (𝛽0 e 𝛽1 ) são estimados pelo método de míninos quadrados.
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦
̅)
Fazendo 𝑛(1) = 𝑛, para os dados (𝑥1 ,𝑦1 ), (𝑥2 ,𝑦2 ), ⋯, (𝑥𝑛 ,𝑦𝑛 ), as soluções são: 𝛽̂1 = ∑𝑛 2
e
𝑖=1(𝑥𝑖 −𝑥̅ )
∑ 𝑛 ∑ 𝑛
𝑥𝑖 𝑦𝑖
𝛽̂0 = 𝑦̅ − 𝛽̂1 , sendo 𝑥̅ = 𝑖=1 , 𝑦̅ = 𝑖=1 . Há uma relação matemática entre o coeficiente angular (𝛽̂1)
𝑛 𝑛
𝑛
∑ (𝑦𝑖 −𝑦̅) 2
e o coeficiente de correlação de Pearson (𝑟), que é dada por 𝛽̂1 = √ ∑𝑖=1
𝑛 (𝑥 −𝑥̅ )2 𝑟.
𝑖=1 𝑖
A Tabela 6.1 mostra o tamanho de amostra (𝑛(1) ) utilizando a fórmula (6.1) para vários valores de
coeficiente de correlação (𝑟) e para dois valores de poder (90% e 95%) e quando o nível de
significância é fixado em 5%. Para exemplificar a aplicação da fórmula, para 𝑟 = 0,25 e poder igual a
(𝑧1−𝛼/2 +𝑧1−𝛽 )2 (1,9600+1,2816)2
90%, 𝑛(1) = 1 1+𝑟
2 + 3 = (0,5 𝑙𝑜𝑔(1,25/0,75))2 + 3 = 164,07 ≈ 165.
( 𝑙𝑜𝑔( ))
2 1−𝑟
Para uma amostra de 𝑛 indivíduos, uma forma mais prática é escrever o modelo anterior na seguinte
forma matricial: 𝒀 = 𝑿𝜷 + 𝜺, sendo 𝒀 um vetor de dimensão (𝑛 × 1) das observações da variável
resposta; 𝑿 é uma matriz de dimensão (𝑛 × 𝑘) de forma conhecida envolvendo as variáveis
explicativas; 𝜷 é um vetor de dimensão (𝑘 × 1) dos parâmetros; 𝜺 é um vetor de dimensão (𝑛 × 1) dos
erros aleatórios. O estimador para 𝜷, obtido pelo método de mínimos quadrados, é dado por:
̂ = (𝑿´𝑿)−1 𝑿´𝒀.
𝜷
Um ponto importante no contexto de análise de regressão é a seleção do modelo, isto é, a escolha das
covariáveis que vão entrar no modelo e a forma funcional das covariáveis, se na escala original ou
transformada, por exemplo, a logarítmica.
É errônea a ideia de que quanto mais covariáveis entrarem no modelo, melhor será. Embora
a explicação realmente aumente à medida que as variáveis sejam incluídas, o desvio-padrão
(estimativa de 𝜎) também é inflacionado. Portanto, é necessário ter um balanço entre boa explicação e
um desvio-padrão que não seja “grande”.
Existem vários procedimentos para a escolha das covariáveis que devem entrar no modelo, com
destaque para três deles: a) construir todos os possíveis modelos com uma, duas, três, etc. covariáveis e
escolher o “melhor” modelo seguindo algum critério. O problema é que existem (2𝑘 − 1) possíveis
modelos, o que é inviável em muitos casos. Por exemplo, se 𝑘 = 10, existem 1023 possíveis modelos;
b) método do tipo stepwise: procedimento forward ou backward; c) método de construção baseado "na
experiência", com introdução no modelo das variáveis que sabidamente são importantes, utilizando
algum conhecimento da área, por tentativa, etc. Existe vasta literatura sobre o assunto. Detalhes sobre
estratégias de construção de modelos estão disponíveis em livros sobre regressão.
Detalhes adicionais sobre modelos de regressão linear podem ser encontrados, por exemplo, em Draper
e Smith (1998), Vittinghoff et al. (2012) e Vach (2013).
De certa forma, a maneira de construção do modelo e todos os comentários feitos têm impacto no
cálculo do tamanho da amostra. Na verdade, é uma dificuldade adicional, já que, naturalmente, antes de
coletar os dados não é possível saber qual será o modelo de regressão final. Na prática, dificilmente
consegue-se incorporar toda a complexidade, sendo, portanto, necessário simplificar alguns aspectos da
modelagem. Uma possível sugestão é concentrar-se nas variáveis sabidamente essenciais.
No livro clássico de Cohen (1988), a metodologia para o cálculo de tamanhos das amostras no contexto
de modelos de regressão linear leva em conta o parâmetro de não centralidade da distribuição 𝐹, sob a
hipótese alternativa, os graus de liberdade do numerador e do denominador dessa distribuição, o poder
do teste e seu nível de significância. O livro apresenta diversas tabelas, cobrindo relativamente vasta
gama de valores desses determinantes do tamanho da amostra. De qualquer forma, por mais completa
que uma tabela seja, seu uso é absolutamente limitante, já que sempre haverá um caso não
contemplado. É mais interessante ter disponível uma fórmula para o cálculo, melhor ainda, algum
software específico, como discutido no capítulo 11.
A seguir apresenta-se um método de cálculo de tamanho de amostra bem simples, descrito por
Hsieh et al. (1998), que consiste em utilizar a correlação parcial. De forma genérica, entende-se por
correlação parcial uma medida da correlação entre duas variáveis quando se exclui o efeito, sobre
estas, de uma terceira variável.
𝑛(1)
𝑛(𝑘) = (6.2)
1 − (𝜌1.23⋯𝑘 )2
𝑛(𝑞)
𝑛(𝑘) = (6.3)
1 − (𝜌1.𝑞+1⋯,𝑘)(23⋯𝑘 )2
Exemplo 6.2 - Impacto do 𝑽𝑰𝑭 no tamanho da amostra em modelo de regressão linear com duas
variáveis explicativas ╬╬
Supondo que a correlação entre a variável resposta (𝑌) e uma variável explicativa (𝑋1) seja 0,45,
fixando o nível de significância em 5% e o poder em 90%, usando a fórmula (6.1), a conclusão é de
que o tamanho da amostra necessário é de 48 (𝑛(1) = 48).
A Tabela 6.2 mostra o tamanho de amostra após incorporar nova variável explicativa (𝑋2) para vários
valores de correlação parcial entre 𝑋1 e 𝑋2. Por exemplo, se a correlação parcial entre 𝑋1 e 𝑋2 for
48 48
𝜌1.2 = 0,60, pela fórmula (6.2), 𝑛(2) = 1−(0,60)2 = 0,64 ≅ 75. Com a segunda covariável no modelo,
1
correspondendo a 𝑉𝐼𝐹 = 0,64 = 1,56, haverá aumento de 75 − 48 = 27 participantes em relação ao
Tabela 6.2 - Tamanho de amostra, 𝑛(2) , obtido pela fórmula (6.2), para vários valores de correlação
parcial entre 𝑋1 e 𝑋2 (𝜌1.2 ), considerando-se 𝑛(1) = 48, nível de significância de 5% e poder de 90%
1 48
𝜌1.2 𝑉𝐼𝐹 = 𝑛(2) =
1 − (𝜌1.2 )2 1 − (𝜌1.2 )2
0,10 1/(1 − (0,10)2 ) = 1/0,99 = 1,01 𝑛(2) = 48/0,99 = 48,48 ≅ 49
0,15 1/(1 − (0,15)2 ) = 1/0,98 = 1,02 𝑛(2) = 48/0,98 = 48,98 ≅ 49
0,20 1/(1 − (0,20)2 ) = 1/0,96 = 1,04 𝑛(2) = 48/0,96 = 50,00 ≅ 50
0,25 1/(1 − (0,25)2 ) = 1/0,94 = 1,06 𝑛(2) = 48/0,94 = 51,06 ≅ 52
0,30 1/(1 − (0,30)2 ) = 1/0,91 = 1,10 𝑛(2) = 48/0,91 = 52,75 ≅ 53
0,35 1/(1 − (0,35)2 ) = 1/0,88 = 1,14 𝑛(2) = 48/0,88 = 54,55 ≅ 55
0,40 1/(1 − (0,40)2 ) = 1/0,84 = 1,19 𝑛(2) = 48/0,84 = 57,14 ≅ 58
0,45 1/(1 − (0,45)2 ) = 1/0,80 = 1,25 𝑛(2) = 48/0,80 = 60,00 ≅ 60
0,50 1/(1 − (0,50)2 ) = 1/0,75 = 1,33 𝑛(2) = 48/0,75 = 64,00 ≅ 64
0,55 1/(1 − (0,55)2 ) = 1/0,70 = 1,43 𝑛(2) = 48/0,70 = 68,57 ≅ 69
0,60 1/(1 − (0,60)2 ) = 1/0,64 = 1,56 𝑛(2) = 48/0,64 = 75,00 ≅ 75
0,65 1/(1 − (0,65)2 ) = 1/0,58 = 1,72 𝑛(2) = 48/0,58 = 82,76 ≅ 83
0,70 1/(1 − (0,70)2 ) = 1/0,51 = 1,96 𝑛(2) = 48/0,51 = 94,12 ≅ 95
0,75 1/(1 − (0,75)2 ) = 1/0,44 = 2,27 𝑛(2) = 48/0,44 = 109,09 ≅ 110
0,80 1/(1 − (0,80)2 ) = 1/0,36 = 2,78 𝑛(2) = 48/0,36 = 133,33 ≅ 134
A Figura 6.1 mostra que à medida que a correlação parcial entre 𝑋1 e 𝑋2 (𝜌1.2 ) aumenta, 𝑛(2) cresce de
forma substantiva e não linear, enquanto que à medida que 𝑉𝐼𝐹 cresce, 𝑛(2) cresce de forma linear.
130
120
110
100
n(2)
90
80
70
60
50
Figura 6.1 - Gráfico de dispersão: (a) tamanho de amostra, 𝑛(2) , em função da correlação parcial
entre 𝑋1 e 𝑋2 (𝜌1.2 ); (b) tamanho de amostra, 𝑛(2) , em função de 𝑉𝐼𝐹.
Regressão logística é hoje padrão de análise para muitos estudos da área da saúde cuja variável
resposta é binária, por exemplo: o paciente tem ou não tem a doença; o indivíduo foi ou não exposto ao
fator de risco; o tratamento produziu ou não o efeito desejado.
Em geral, o objetivo de análise de regressão logística é testar o efeito de uma covariável específica,
possivelmente na presença de outras covariáveis, em uma variável resposta binária.
A técnica de regressão logística é utilizada em análise de planejamentos tradicionais, tais como estudos
de coorte, de caso-controle e transversais. É também empregada em ensaios clínicos controlados, como
estudos de não inferioridade e ainda em estudos especiais, como avaliação de concordância e acurácia
de procedimentos laboratoriais.
Seja 𝑌 uma variável binária, assumindo valores 0 e 1. O modelo logístico especifica que a
probabilidade da ocorrência do evento de interesse (𝑝) depende da variável explicativa (𝑋) dada pela
𝑒𝑥𝑝{𝛽 +𝛽1 𝑥}
seguinte expressão: 𝑝 = Pr(𝑌 = 1|𝑋 = 𝑥) = 1+𝑒𝑥𝑝{𝛽0 . A probabilidade do evento complementar,
0 +𝛽1 𝑥}
1
isto é, a não ocorrência do evento de interesse (𝑞 = 1 − 𝑝) é 𝑞 = Pr(𝑌 = 0|𝑋 = 𝑥) = 1+𝑒𝑥𝑝{𝛽 .
0 +𝛽1 𝑥}
𝑝
A forma mais popular de escrever o modelo de regressão logística com uma covariável é 𝑙𝑜𝑔 (1−𝑝) =
𝛽0 + 𝛽1 𝑥. O símbolo 𝑙𝑜𝑔 que aparece no modelo representa logaritmo na base natural e poderia ser
𝑝
indicado por 𝑙𝑛. A expressão 𝑙𝑜𝑔 (1−𝑝) é chamada de logito e, usando a linguagem do capítulo 3,
é o logaritmo da chance (odds). Trata-se de uma escala mais apropriada para a expressão da relação
entre a probabilidade de sucesso e a variável explicativa. Note-se que é uma transformação monotônica
em 𝑝. Assim, se 𝛽1 > 0, quanto maior o valor da covariável 𝑥, que pode ser discreta ou contínua, maior
será 𝑝, a probabilidade da ocorrência de evento de interesse. Quando 𝛽1 < 0, ocorre relação inversa.
Na prática, coletam-se os dados (𝑦 e 𝑥) e então os parâmetros 𝛽0 e 𝛽1, necessários para os cálculos das
probabilidades 𝑝 e 𝑞, são estimados, em geral, pelo método da máxima verossimilhança.
Se a covariável for binária (diga-se, assumindo valores 0 e 1), como a variável resposta do modelo
regressão logística também é binária, os dados reduzem-se a uma tabela de contingência de dimensão
2 × 2, situação em que é comum o cálculo de odds ratio (𝑂𝑅) comparando a odds do grupo em que
𝑥 = 1 com o de 𝑥 = 0. Neste caso, é fácil comprovar a seguinte relação: 𝑙𝑜𝑔(𝑂𝑅) = 𝛽1.
𝑝
Na presença de 𝑘 ≥ 2 variáveis explicativas (𝑥1 , 𝑥2 , ⋯ 𝑥𝑘 ), o modelo logístico é dado por 𝑙𝑜𝑔 (1−𝑝) =
Para testar a significância das covariáveis (ou equivalentemente a significância dos coeficientes do
modelo), os testes de Wald, da razão de verossimilhanças e do escore são os mais comumente
implementados em softwares estatísticos.
Uma situação mais complexa acontece na presença de interação entre as covariáveis. Detalhes
adicionais sobre o modelo de regressão logística podem ser encontrados em Collett (2003),
Hilbe (2009) e Hosmer et al. (2013).
Além disso, a natureza não linear do modelo de regressão logística torna o cálculo do tamanho de
amostra complicado, assim, às vezes métodos aproximados são adotados.
Whittemore (1981) propõe uma fórmula de calcular o tamanho de amostra (𝑛) para regressão logística,
derivada da matriz de informação, apropriada quando a probabilidade da resposta é baixa. Inicialmente
apresenta o caso do modelo com apenas uma covariável (𝑘 = 1) seguido do caso geral, com duas ou
mais covariáveis.
Hsieh (1989) simplifica a fórmula de Whittemore (1981) e apresenta tabelas construídas a partir de
extensão para situações mais gerais. Embora as tabelas não sejam adequadas quando as covariáveis têm
distribuição exponencial dupla, são razoáveis para as distribuições normal e exponencial.
Hsieh et al. (1998) apresentam um método simples com fórmula fechada, baseado em uma matriz de
informação, para aproximar o tamanho de amostra em modelo de regressão logística simples com
covariável contínua ou binária. Diferentemente dos dois trabalhos anteriores (WHITTEMORE, 1981;
HSIEH, 1989), o método de Hsieh et al. (1998) não exige o pressuposto de que a probabilidade da
resposta seja baixa.
Segundo Hsieh et al. (1998), no caso de apenas uma covariável (𝑘 = 1) contínua com distribuição
normal e variâncias supostamente iguais nos dois grupos correspondentes às duas possíveis respostas
(𝑌 = 0,1), o logaritmo da odds do coeficiente 𝛽1 é zero se e somente se as médias dos grupos são
iguais. Assim, as fórmulas de tamanhos de amostra para médias baseadas no teste 𝑡 podem ser
utilizadas. Para testar as hipóteses, 𝐻0 : 𝛽1 = 0 versus 𝐻1 : 𝛽1 = 𝛽1∗ , usando a aproximação pela
distribuição normal, o tamanho da amostra é dado por:
(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛(1) = (6.4)
𝑝1 (1 − 𝑝1 )(𝛽1∗ )2
Para o caso geral de regressão múltipla envolvendo 𝑘 covariáveis, o interesse pode ser testar a hipótese
nula 𝐻0 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) = (0, 𝛽2 , ⋯ , 𝛽𝑘 ) contra a alternativa 𝐻1 : (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) = (𝛽 ∗ , 𝛽2 , ⋯ , 𝛽𝑘 ).
Seja 𝛽̂1 o estimador de máxima verossimilhança de 𝛽1. No caso de covariáveis contínuas com
distribuição normal, pode-se mostrar que no modelo multivariado a variância de 𝛽̂1 pode ser
aproximada pela sua correção obtida sob o modelo univariado, 𝑣𝑎𝑟1 (𝛽̂1 ), multiplicando-a pelo fator de
2
inflação da variância VIF, 1/(1 − 𝜌1.23⋯𝑘 ) = 1/(1 − 𝜌2 ), sendo 𝜌 a notação simplificada para o
coeficiente de correlação relacionando 𝑋1 com 𝑋2,⋯, 𝑋𝑘 . Assim, 𝑣𝑎𝑟𝑘 (𝛽̂1 ) = 𝑣𝑎𝑟1 (𝛽̂1 )/(1 − 𝜌1.23⋯𝑘
2
)=
𝑣𝑎𝑟1 (𝛽̂1 )/(1 − 𝜌2 ).
O tamanho de amostra para o modelo de regressão logística com 𝑘 covariáveis, 𝑛(𝑘) , depende de 𝜌,
a correlação múltipla entre 𝑋1 (a variável de mais interesse) e as demais covariáveis, e é dado por:
𝑛(1)
𝑛(𝑘) = (6.5)
1 − 𝜌2
O artigo de Hsieh et al. (1998) também descreve a comparação dos resultados de programas
computacionais comerciais nQuery® e Egret®.
Exemplo 6.3 - Tamanho da amostra utilizando modelo de regressão logística com uma
covariável contínua ╬╬
Estudo será conduzido para avaliar a relação entre estresse pós-traumático (EPT) e a frequência
cardíaca (FC) em soldados após a exibição de vídeos contendo sequências violentas. Para isso, será
utilizado o modelo de regressão logística com resposta binária. Sabe-se que a variável FC é distribuída
de forma normal e espera-se que a taxa de EPT entre soldados seja de aproximadamente 7%.
A Tabela 6.3 mostra os tamanhos de amostra obtidos pela fórmula (6.4) para dois valores de poder
(90% e 80%). Como esperado, quanto maior o poder, maior o tamanho de amostra, 𝑛(1) , aumento de
cerca de 34% quando o poder é 90% comparado aos valores de 80%. Para um valor fixo de poder, há
queda acentuada do tamanho de amostra à medida que o valor de odds ratio aumenta. Por exemplo,
quase três vezes menor, comparando-se 𝑂𝑅 = 1,5 com 𝑂𝑅 = 2,0; aproximadamente cinco vezes
menor, comparando-se 𝑂𝑅 = 1,5 com 𝑂𝑅 = 2,5; redução em torno de sete vezes comparando-se
𝑂𝑅 = 1,5 com 𝑂𝑅 = 3,0.
A Figura 6.2 mostra o poder do teste que avalia a significância do efeito da variável FC. na resposta
(EPT) do modelo de regressão logística em função do tamanho de amostra, 𝑛(1) , para quatro valores de
odds ratio (𝑂𝑅): 1,5; 2,0; 2,5; 30. O poder foi calculado com o auxílio do software Pass®14. Observa-
se o impacto de 𝑂𝑅 no poder: a curva de poder correspondente a 𝑂𝑅 = 3,0 é a superior, enquanto que
a curva inferior é aquela calculada quando 𝑂𝑅 = 1,5. Fixando-se um tamanho de amostra, vale a
seguinte relação: poder (𝑂𝑅 = 3) ≥ poder (𝑂𝑅 = 2,5) ≥ poder (𝑂𝑅 = 2,0) ≥ poder (𝑂𝑅 = 1,5).
OR
1,0
1,5
2,0
2,5
3,0
0,8
0,6
Poder
0,4
0,2
0,0
0 200 400 600 800 1000 1200
n(1)
Figura 6.2 - Poder em função do tamanho de amostra, 𝑛(1) , utilizando o modelo de regressão logística
com uma covariável contínua, para quatro valores de odds ratio (𝑂𝑅): 1,5; 2,0; 2,5; 3,0.
Exemplo 6.4 - Tamanho da amostra utilizando o modelo de regressão logística com mais de uma
covariável (adaptação do exemplo de Whittemore, 1981) ╬╬
Fixando o poder em 90% e o nível de significância em 5%, o tamanho da amostra obtida a partir do
2
modelo de regressão logística com 𝑋1, calculado pela fórmula (6.4), é 𝑛(1) = (𝑧1−𝛼/2 + 𝑧1−𝛽 ) /
[𝑝1 (1 − 𝑝1 )(𝛽1∗ )2] = (1,96 + 1,28)2 / [(0,12)(0,88)(0,45)2 ] = 490,91 ≅ 491.
Ao incluir a variável pressão sistólica (𝑋2) ao modelo, cuja correlação com o colesterol total é de 0,40,
utilizando a fórmula (6.5), o tamanho da amostra aumenta para 585. Os cálculos são:
𝑛(2) = 𝑛(1) /(1 − 𝜌2 ) = 491/(1 − 0,42 ) = 584,52 ≅ 585.
Se o poder for trocado para 80%, 𝑛(1) = 368 e 𝑛(2) = 439. Comparando com o poder de 90% há
redução de 25% em ambos os casos e em valores absolutos podem-se recrutar 123 (491-368) e 146
(585-439) pacientes a menos, respectivamente.
O método proposto por Shieh (2001) aprimora os cálculos do enfoque de Whittemore (1981).
Seus resultados de simulação mostram a superioridade nas condições consideradas.
Demidenko (2007) deriva fórmulas gerais para o poder e tamanho de amostra para modelos de
regressão logística usando o teste de Wald. A seguir, aplica-as para obter expressão de forma fechada
no caso de modelo com uma covariável binária. As fórmulas são utilizadas para minimizar o tamanho
de amostra total em estudos caso-controle para atingir determinado poder, otimizando a razão de
controles em relação aos casos. Aproximadamente, o número ótimo de controles em relação aos casos é
igual à raiz quadrada da medida odds ratio na hipótese alternativa. Demidenko (2008) estende seu
método publicado em 2007 para o caso em que há interação no modelo.
O método proposto por Novikov et al. (2010) é para o modelo de regressão logística com apenas uma
𝑝
covariável contínua: 𝑙𝑜𝑔 (1−𝑝1 ) = 𝛽0 + 𝛽1 𝑥. Trata-se de uma modificação do método de Hsieh et al.
1
(1998). Supondo que as variâncias (𝜎12 e 𝜎02 ) da covariável 𝑋 dos dois grupos (𝑌 = 1, 𝑌 = 0) não são
iguais e os tamanhos dos grupos podem ser diferentes, é utilizada a fórmula de tamanho de amostra de
Schouten (1999), que faz uma aproximação da distribuição 𝑡 de Student pela normal padrão.
2
(𝜏 + 𝛾)𝜎12
2
(𝜏 2 + 𝛾 3 )𝑧1−𝛼/2
𝑛1 = (𝑧1−𝛼/2 +𝑧1−𝛽 ) + (6.6)
𝛾(𝜇1 − 𝜇0 )2 2𝛾(𝜏 + 𝛾)2
𝑛0 = 𝛾𝑛1 (6.7)
Nas fórmulas (6.6) e (6.7), os termos ainda não definidos são: 𝜇0 = E(𝑋|𝑌 = 0) e 𝜇1 = 𝐸(𝑋|𝑌 = 1),
os valores esperados; 𝛾 = (1 − 𝑝1 )/𝑝1, sendo 𝑝1 = 𝑃𝑟(𝑌 = 1), probabilidade que deve ser
especificada a partir de algum conhecimento prévio; 𝜏 = 𝜎02 /𝜎12 , a razão entre as variâncias dos dois
grupos. O uso da fórmula (6.6) requer alguns passos preliminares:
do passo 1 e 𝛽0 = 𝛽1∗ .
Na variável classificada como ordinal, como o nome indica, as categorias apresentam determinada
ordenação. São exemplos: estadiamento de uma doença, escolaridade, graduação do distúrbio em
espirometria (leve, moderada, grave), escala de intensidade de dor. Em muitos ensaios clínicos tendo
como escala categórica ordinal, as possíveis classificações são muito boa, boa, moderada e ruim ou
ainda nenhuma, leve, moderada e grave. Estudos sobre qualidade de vida (QV) tipicamente são
avaliados por meio de escalas do tipo ordinal. A desconsideração da ordenação e a dicotomização da
variável resposta, embora muito comuns, não são procedimentos recomendados, já que em geral podem
levar a perdas do teor da informação contida nos dados originais. Assim, idealmente métodos
específicos para dados ordinais devem ser aplicados.
Na seção anterior, a variável resposta era binária (𝑌 = 0,1) e nesta seção será considerada a variável
resposta ordinal, que aparece com frequência na prática e que exige modelo que acomode a ordenação.
Há diferentes métodos de análise de dados ordinais, incluindo os seguintes modelos de regressão
logística ordinal: modelo de chances proporcionais, modelo de razão-contínua, modelo estereótipo e
modelo de chances proporcionais parciais. Detalhes sobre os modelos são encontrados, por exemplo,
em Abreu et al. (2008), Abreu et al. (2009), Hilbe (2009) e Hosmer et al. (2013).
Assim como no caso binário, sugere-se como medida resumo a razão de chances (odds ratio), mas
agora utilizando probabilidades cumulativas. No contexto de dados ordinais e supondo que há dois
grupos a serem comparados (de forma geral, 𝐴 e 𝐵 ou, para exemplificar, grupo exposto e não exposto)
e que a resposta de interesse Y tenha 𝑘 categorias ordenadas (𝑌𝑗 , 𝑗 = 1,2, ⋯ , 𝑘), para a categoria
𝑗 = 1, ⋯ 𝑘 − 1, a medida odds ratio é definida por:
A seguir são apresentadas as principais ideias, notações e referências sobre os principais modelos de
regressão para dados ordinais. Seja 𝑌 a variável resposta com 𝑘 categorias codificadas em 1,2, ⋯ , 𝑘 e
seja 𝒙 = (𝑥1 , 𝑥2 , ⋯ 𝑥𝑝 ) o vetor de variáveis explicativas ou covariáveis. As 𝑘 categorias de 𝑌
condicionalmente aos valores de 𝒙 ocorrem com probabilidades 𝑝1 , 𝑝2 , ⋯ , 𝑝𝑘 , isto é, 𝑝𝑗 = 𝑃𝑟(𝑌 = 𝑗),
para 𝑗 = 1, 2, ⋯ , 𝑘. Na modelagem de dados de resposta ordinal podem ser utilizadas as probabilidades
individuais 𝑝𝑗 ou as probabilidades acumuladas, por exemplo: (𝑝12 = 𝑝1 + 𝑝2 ), (𝑝123 = 𝑝1 + 𝑝2 +
𝑝3 ),⋯, (𝑝123⋯𝑘 = 𝑝1 + 𝑝2 + 𝑝3 + . . . + 𝑝𝑘 ). No caso do uso de probabilidades individuais,
a probabilidade de cada categoria é comparada com a probabilidade de uma categoria de referência ou
com a probabilidade da categoria anterior no modelo de categorias adjacentes.
Abreu et al. (2008) apresentam um resumo dos principais modelos, com suas respectivas equações,
cálculo da razão de chances e indicações de uso além de destaques de alguns pontos considerados
importantes em cada modelo considerado. É importante a verificação da adequação (goodness of fit) de
cada um dos modelos, como discutido, por exemplo, em Abreu et al. (2009).
Nesta seção são apresentados alguns detalhes e o dimensionamento de amostra apenas para o Modelo
de Chances Proporcionais (MCP), também chamado de modelo do logito cumulativo, em inglês:
proportional odds model ou cumulative logit model. O modelo é indicado quando a variável resposta
era originalmente uma variável contínua que, posteriormente, foi agrupada.
Denotando 𝒙 o vetor de variáveis explicativas, o modelo MCP é escrito como:
O símbolo 𝑙𝑜𝑔 que aparece em (6.9) representa o logaritmo na base natural. O modelo MCP compara a
probabilidade de uma resposta igual ou inferior à 𝑗-ésima categoria (𝑗 = 1, ⋯ , 𝑘 − 1), com
probabilidade de uma resposta superior a esta categoria. O modelo é composto de (𝑘 − 1) equações
lineares paralelas. No caso particular de apenas duas categorias (𝑘 = 2), o MCP corresponde
exatamente ao tradicional modelo de regressão logística binária, descrito na seção 6.3.
O modelo tem (𝑘 + 𝑝 − 1) parâmetros. O termo 𝛼𝑗 representa o intercepto do modelo, varia para cada
uma das equações e satisfaz a seguinte condição: 𝛼1 ≤ 𝛼2 ≤ ⋯ ≤ 𝛼𝑘−1 . O vetor 𝜷 = (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑝 )
tem dimensão 𝑝 cujos elementos correspondem aos efeitos das covariáveis na variável resposta.
Note-se que o vetor 𝜷 não depende do índice 𝑗, implicando que a relação entre 𝒙 e 𝑌 é independente da
categoria. Assim como para o modelo de regressão logística para resposta binária apresentado na seção
6.3, o exponencial do coeficiente 𝛽𝑗 do MCP também representa uma estimativa da razão de chances
(odds ratio), que para esse modelo fornece uma única estimativa para todas as categorias comparadas.
Essa característica do modelo resultou na suposição chamada por McCullagh (1980) de chances
proporcionais e que deu nome ao modelo. Essa premissa é assumida para cada covariável incluída no
modelo. Naturalmente, é sempre importante verificar se essa suposição é realmente satisfeita.
Para testar a homogeneidade da razão de chances, geralmente é utilizado o teste escore ou o teste da
razão de verossimilhanças. Esse procedimento também pode ser usado para se avaliar a evidência de
adequação do modelo (HOSMER et al. 2013). Brant (1990) apresenta formas de avaliar o pressuposto
de chances proporcionais do MCP.
Detalhes adicionais sobre o modelo de chances proporcionais podem ser encontrados nos artigos
citados e especialmente na literatura especializada, destacando-se Hosmer et al. (2013) e Hilbe (2009).
Para o dimensionamento de amostra nesta seção, assim como em Whitehead (1993), é considerado o
contexto de comparação de dois grupos, por exemplo, experimental e controle, abreviados por 𝐸 e 𝐶,
respectivamente. Para as 𝑘 categorias com ordenação (𝐶1 , 𝐶2 , ⋯ , 𝐶𝑘 ), 𝑚𝑖 e 𝑛𝑖 são as frequências
referentes à 𝑖-ésima categoria, respectivamente, para os grupos 𝐸 e 𝐶, com totais 𝑚 e 𝑛, sendo
𝑁 = 𝑚 + 𝑛. As correspondentes proporções em cada categoria são 𝑝𝑖 = 𝑚𝑖 /𝑚 e 𝑞𝑖 = 𝑛𝑖 /𝑛
(𝑖 = 1,2, ⋯ , 𝑘). Os dados e a respectiva distribuição de probabilidades estão organizados na
Tabela 6.4.
Tabela 6.4 - Notação utilizada no método de Whitehead (1993): frequências observadas em dados
ordinais com 𝑘 categorias (𝐶1 , 𝐶2 , ⋯ 𝐶𝑘 ) com a respectiva distribuição de probabilidades
(entre parênteses) para comparar dois grupos: experimental (𝐸) e controle (𝐶)
Categorias
Grupo 𝐶1 𝐶2 ⋯ 𝐶𝑘 Total
E 𝑚1 (𝑝𝐸1 ) 𝑚2 (𝑝𝐸2 ) ⋯ 𝑚𝑘 (𝑝𝐸𝑘 ) 𝑚
C 𝑛1 (𝑝𝐶1 ) 𝑛2 (𝑝𝐶2 ) ⋯ 𝑛𝑘 (𝑝𝐶𝑘 ) 𝑛
Total 𝑀1 𝑀2 ⋯ 𝑀𝑘 𝑁
Como mencionado, o método proposto por Whitehead (1993) para dimensionar o tamanho da amostra
foi desenvolvido para o modelo de chances proporcionais. Para a comparação de apenas dois
tratamentos, como é o enfoque do artigo, o modelo torna-se equivalente ao teste de Mann-Whitney.
Neste artigo é apresentada a seguinte fórmula fechada para o tamanho total da amostra:
Frequentemente, 𝐴 = 1, a taxa de alocação dos grupos é a mesma. Neste caso, a fórmula (6.10)
torna-se:
12(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛𝑊(𝐴=1)𝑡𝑜𝑡𝑎𝑙 = (6.11)
𝜃 2 (1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 )
6(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛𝑊(𝐴=1)𝑝𝑜𝑟 𝑔𝑟𝑢𝑝𝑜 = (6.12)
𝜃 2 (1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 )
Se for utilizado 𝑡 = 𝑛/𝑁 como fração de alocação do grupo controle em relação ao total geral,
a fórmula (6.10) torna-se:
3(𝑧1−𝛼/2 +𝑧1−𝛽 )2
𝑛𝑊(𝑡) = (6.13)
𝑡(1 − 𝑡)𝜃 2 (1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 )
Naturalmente, existe uma relação entre as duas definições de fração de alocação: 𝐴 = 𝑚/𝑛 e 𝑡 = 𝑛/𝑁.
Substituindo 𝑚 = 𝐴𝑛 na expressão 𝑡 = 𝑛/𝑁 = 𝑛/(𝑚 + 𝑛), resulta que 𝑡 = 𝑛/(𝐴𝑛 + 𝑛) = 1(1 + 𝐴).
Ou seja, a relação é 𝑡 = 1/(1 + 𝐴) ou 𝐴 = (1 − 𝑡)/𝑡.
O método proposto por Rabbee et al. (2003) para calcular poder e tamanho de amostra para dados
categóricos é indicado para postos lineares de diferenças entre duas populações multinomiais com
ordenação. O método é ilustrado tanto para modelos de chances proporcionais como para os não
proporcionais no cenário de duas multinomiais com ordenação. O artigo apresenta a expressão para o
poder, mas não é de fácil implementação.
Raharhja et al. (2009) procederam a uma revisão completa sobre determinação de amostra utilizando o
teste Wilcoxon-Mann-Whitney (WMW), também conhecido como teste de Mann-Whitney, o teste não
paramétrico mais popular para comparar dois grupos (aqui representados por 𝐸 e 𝐶) de observações
contínuas ou uma variável categórica com ordenação. Consideram o caso em que o pressuposto de
chances proporcionais é válido ou não.
No artigo, destaca-se o trabalho de Zhao et al. (2008) em que são estudados os métodos de cálculo de
tamanho de amostra para o teste não paramétrico de Wilcoxon-Mann-Whitney (WMW), que será aqui
denominado apenas por teste de Mann-Whitney (MW). A notação utilizada é apresentada
na Tabela 6.5.
Tabela 6.5 - Notação utilizada para o teste não paramétrico de Mann-Whitney (MW)
descrito em Zhao et al. (2008): frequências observadas em dados ordinais com
𝑘 categorias (𝐶1 , 𝐶2 , ⋯ 𝐶𝑘 ) com a respectiva distribuição de probabilidades
(entre parênteses) para comparar dois grupos: experimental (𝐸) e controle (𝐶)
Categorias
Grupo 𝐶1 𝐶2 ⋯ 𝐶𝑘 Total
E 𝑚1 (𝑝1 ) 𝑚2 (𝑝2 ) ⋯ 𝑚𝑘 (𝑝𝑘 ) 𝑚
C 𝑛1 (𝑞1 ) 𝑛2 (𝑞2 ) ⋯ 𝑛𝑘 (𝑞𝑘 ) 𝑛
Total 𝑀1 𝑀2 ⋯ 𝑀𝑘 𝑁
2
(𝑧1−𝛼/2 +𝑧1−𝛽 ) (1 − ∑𝑘𝑐=1((1 − 𝑡)𝑝𝑐 + 𝑡𝑞𝑐 )3 )
𝑛𝑀𝑊 = 2
(6.14)
12𝑡(1 − 𝑡)(∑𝑘𝑐=2 𝑝𝑐 ∑𝑐−1 𝑘
𝑑=1 𝑞𝑑 + 0,5 ∑𝑐=1 𝑝𝑐 𝑞𝑐 − 0,5)
Para aplicar a fórmula (6.14), é necessário conhecer a fração de alocação 𝑡 = 𝑛/𝑁 e as probabilidades
dos dois grupos para todas as categorias (𝑝𝑖 = 𝑚𝑖 /𝑚 , 𝑞𝑖 = 𝑛𝑖 /𝑛, 𝑖 = 1,2, ⋯ , 𝑘). Note-se que esta
fórmula permite categorias com frequências nulas. Para três categorias (𝑘 = 3), ∑3𝑐=2 𝑝𝑐 ∑𝑐−1
𝑑=1 𝑞𝑑 =
para 𝑘 = 3 e 𝑘 = 4, respectivamente.
Em resumo, trata-se de uma fórmula fechada e de fácil cálculo, com enfoque não paramétrico e que
pode ser utilizada quando o pressuposto de chances proporcionais não é válido. Simulações
demonstraram que o método tem boa performance em termos do poder, sendo os valores do poder real
bem próximos do nominal.
Exemplo 6.5 - Dimensionamento de ensaio clínico com dois grupos com dados ordinais utilizando
o método de Whitehead (1993) ╬╬
Em ensaio clínico em que dois grupos são comparados, controle (𝐶) e experimental (𝐸), as categorias
dos desfechos foram classificadas como muito boa, boa, moderada e ruim. Para o cálculo do tamanho
da amostra foram considerados três conjuntos de dados: o primeiro extraído de Whitehead (1993) e os
outros dois simulados de forma a ilustrar detalhes interessantes do método.
As informações necessárias referentes aos dois grupos a serem comparados estão apresentadas
no Quadro 6.2.
Quadro 6.2 - Informações sobre um ensaio clínico tendo dois grupos a serem comparados:
controle (𝐶) e experimental (E) para o conjunto de dados (a)
Categorias
Grupo Probabilidade
Muito boa Boa Moderada Ruim
Simples (𝑝𝐶𝑖 ) 𝑝𝐶1 = 0,2 𝑝𝐶2 = 0,5 𝑝𝐶3 = 0,2 𝑝𝐶4 = 0,1
𝐶
Acumulada 𝑝𝐶1 = 0,2 𝑝𝐶12 = 0,7 𝑝𝐶123 = 0,9 𝑝𝐶1234 = 1
Simples (𝑝𝐸𝑖 ) 𝑝𝐸1 = 0,378 𝑝𝐸2 = 0,472 𝑝𝐸3 = 0,106 𝑝𝐸4 = 0,044
𝐸
Acumulada 𝑝𝐸1 = 0,378 𝑝𝐸12 = 0,850 𝑝𝐸123 = 0,956 𝑝𝐸1234 = 1
0,2 + 0,378 0,5 + 0,472 0,2 + 0,106 0,1 + 0,044
Média das 𝑝̅1 = 𝑝̅2 = 𝑝̅3 = 𝑝̅4 =
probabilidades: 𝑝̅𝑖 2 2 2 2
= 0,289 = 0,486 = 0,153 = 0,072
Como já mencionado, o cálculo de 𝑂𝑅𝑎𝑐𝑢𝑚 é baseado nas probabilidades acumuladas para
𝑗 = 1, 2, ⋯ , 𝑘 − 1. Para cada categoria 𝑗, a medida odds ratio (𝑂𝑅) comparando o grupo 𝐸 com o 𝐶 é
𝑃𝑟 (𝑌≤𝑌 |𝐸) 𝑃𝑟(𝑌≤𝑌 |𝐶) 0,85/0,15
definida por 𝑂𝑅≤𝑗 = 𝑃𝑟(𝑌>𝑌𝑗 |𝐸) ÷ 𝑃𝑟(𝑌>𝑌𝑗 |𝐶). Por exemplo, para a categoria “boa”, 𝑂𝑅≤2 = =
𝑗 𝑗 0,7/0,3
2,429 e, portanto, 𝑙𝑜𝑔(𝑂𝑅≤2 ) = 𝑙𝑜𝑔(2,429) = 0,887. O Quadro 6.3 mostra os cálculos dos três
valores de 𝑂𝑅. Note-se que os valores de 𝑂𝑅 são bastante parecidos, portanto de forma empírica, não
há evidências contra o pressuposto de chances proporcionais.
Quadro 6.3 - Cálculos dos três valores de 𝑂𝑅 para o conjunto de dados (a)
0,378/0,622
𝑂𝑅≤1 = = 2,431
0,2/0,8
0,85/0,15
𝑂𝑅≤2 = = 2,429
0,7/0,3
0,956/0,044
𝑂𝑅≤3 = = 2,414
0,9/0,1
O termo que envolve as médias das probabilidades na fórmula (6.10) é: 1 − ∑𝑘𝑖=1 𝑝̅𝑖 3 =
1 − (0,2893 + 0,4863 + 0,1533 + 0,0523 ) = 1 − 0,143 = 0,857. Será utilizado valor de 𝑂𝑅𝑎𝑐𝑢𝑚
referente à categoria “boa”, cujos cálculos foram demonstrados anteriormente. Outras opções seriam os
valores das outras categorias e mesmo as médias entre os três valores apresentados no Quadro 6.3.
cima, o tamanho de amostra total é de 187 e, consequentemente, a distribuição seria 94 em cada grupo.
O Quadro 6.4 mostra o tamanho de amostra para quatro taxas de alocação (𝐴).
Quadro 6.4 - Tamanho de amostra para quatro taxas de alocação (𝐴)
para o conjunto de dados (a) com 𝑂𝑅𝑎𝑐𝑢𝑚 = 2,429
À medida que a taxa de alocação aumenta, o tamanho total da amostra também cresce, mas não de
forma proporcional. Por exemplo, se 𝐴 = 2, 𝑛𝑊 é apenas 1,13 o tamanho correspondente ao de 𝐴 = 1
(211/187=1,13). Detalhes sobre planejamento considerando avaliação da taxa de alocação 𝐴 são
fornecidos em Whitehead (1993). De forma geral, concluiu que há uma relação entre o tamanho da
amostra e o número de categorias e que a taxa de alocação excedendo quatro raramente se justifica.
No grupo-controle (𝐶), as proporções das quatro categorias são decrescentes com incremento de -10%
(40%, 30%, 20% e 10%) e no grupo experimental (𝐸) apresentam as seguintes proporções: 52,45%;
26,93%; 14,31% e 6,31% (Quadro 6.5).
Quadro 6.5 - Informações sobre um ensaio clínico tendo dois grupos a serem comparados:
controle (𝐶) e experimental (E) para o conjunto de dados (b)
Categorias
Grupo Probabilidade
Muito boa Boa Moderada Ruim
Simples (𝑝𝐶𝑖 ) 𝑝𝐶1 = 0,40 𝑝𝐶2 = 0,30 𝑝𝐶3 = 0,20 𝑝𝐶4 = 0,10
𝐶
Acumulada 𝑝𝐶1 = 0,40 𝑝𝐶12 = 0,70 𝑝𝐶123 = 0,90 𝑝𝐶1234 = 1,00
Simples (𝑝𝐸𝑖 ) 𝑝𝐸1 = 0,5245 𝑝𝐸2 = 0,2693 𝑝𝐸3 = 0,1431 𝑝𝐸4 = 0,0631
𝐸
Acumulada 𝑝𝐸1 = 0,5245 𝑝𝐸12 = 0,7938 𝑝𝐸123 = 0,9369 𝑝𝐸1234 = 1,00
0,40 + 0,5245 0,30 + 0,2693 0,20 + 0,1431 0,10 + 0,0631
Média das 𝑝̅1 = 𝑝̅2 = 𝑝̅3 = 𝑝̅4 =
probabilidades: 𝑝̅𝑖 2 2 2 2
= 0,4623 = 0,2847 = 0,1716 = 0,0816
O Quadro 6.6 mostra os cálculos dos três valores de 𝑂𝑅. Para esse conjunto de dados, o pressuposto de
chances proporcionais está validado: os três valores são praticamente iguais usando-se quatro casas
decimais e exatamente iguais com apenas duas casas decimais (1,65).
Quadro 6.6 - Cálculos dos três valores de 𝑂𝑅 para o conjunto de dados (b)
0,5245/0,4755
𝑂𝑅≤1 = = 1,6546 ≅ 1,65
0,40/0,60
0,7938/0,2062
𝑂𝑅≤2 = = 1,6499 ≅ 1,65
0,70/0,30
0,9369/0,0631
𝑂𝑅≤3 = = 1,6498 ≅ 1,65
0,90/0,10
O Quadro 6.7 apresenta os tamanhos de amostra (𝑛𝑊 ) para quatro taxas de alocação (𝐴 = {1; 2; 3; 4})
quando 𝑂𝑅 = 1,6546 ≅ 1,65.
O padrão é o mesmo observado anteriormente, isto é, à medida que a taxa de alocação aumenta,
o tamanho total da amostra também cresce.
As informações necessárias referentes aos dois grupos a serem comparados estão apresentadas
no Quadro 6.8.
Quadro 6.8 - Informações sobre um ensaio clínico tendo dois grupos a serem comparados:
controle (𝐶) e experimental (E) para o conjunto de dados (c)
Categorias
Grupo Probabilidade
Muito boa Boa Moderada Ruim
Simples (𝑝𝐶𝑖 ) 𝑝𝐶1 = 0,20 𝑝𝐶2 = 0,30 𝑝𝐶3 = 0,40 𝑝𝐶4 = 0,10
𝐶
Acumulada 𝑝𝐶1 = 0,20 𝑝𝐶12 = 0,50 𝑝𝐶123 = 0,90 𝑝𝐶1234 = 1,00
Simples (𝑝𝐸𝑖 ) 𝑝𝐸1 = 0,55 𝑝𝐸2 = 0,15 𝑝𝐸3 = 0,25 𝑝𝐸4 = 0,05
𝐸
Acumulada 𝑝𝐸1 = 0,55 𝑝𝐸12 = 0,70 𝑝𝐸123 = 0,95 𝑝𝐸1234 = 1,00
Os cálculos de odds ratio estão disponibilizados no Quadro 6.9. Neste caso, o pressuposto de chances
proporcionais não parece ser validado, já que os valores de 𝑂𝑅 das três categorias são bem distintos.
Portanto, os tamanhos da amostra obtidos pelo método de Whitehead (1993) não são apropriados.
Mesmo assim, registram-se no Quadro 6.10 os resultados obtidos pelo método para quatro taxas de
alocação (𝐴), para posterior comparação com o método não paramétrico, que não exige tal pressuposto.
Para ser mais conservativo, será escolhido o menor valor de odds ratio (𝑂𝑅≤3 = 2,111) que produz os
maiores tamanhos de amostra.
Quadro 6.9 - Cálculos dos três valores de 𝑂𝑅 para o conjunto de dados (c)
0,55/0,45
𝑂𝑅≤1 = = 4,889
0,20/0,80
0,70/0,30
𝑂𝑅≤2 = = 2,333
0,50/0,50
0,95/0,05
𝑂𝑅≤3 = = 2,111
0,90/0,10
Quadro 6.10 - Tamanho de amostra para quatro taxas de alocação (𝐴)
para o conjunto de dados (c) com 𝑂𝑅𝑎𝑐𝑢𝑚 = 2,111
Neste exemplo, a validação do pressuposto de chances proporcionais para os três itens, (a), (b) e (c),
foi feita de forma empírica. No item (c), a decisão sobre a não validação fica bastante clara,
mas em determinadas situações pode-se ficar em dúvida sobre a conclusão a ser tomada. Assim, a
rigor, deve-se utilizar um critério mais objetivo, como um teste de hipótese específico para testar a
igualdade de 𝑂𝑅.
Exemplo 6.6 - Tamanhos de amostra obtidos pelo método não paramétrico (ZHAO et al., 2008)
para dados ordinais ╬╬
Para os dados sobre a associação entre fumo e condição da retinopatia em pacientes diabéticos,
exibidos na Tabela 6.6, o pressuposto do modelo de chances proporcionais não é validado
(valor-p = 0,017 para o teste de ajuste do modelo).
Foram consideradas duas frações de alocações, a primeira baseada nos dados, isto é, 𝑡 = 325/613 =
0,53. A segunda supõe que 𝑡 = 0,95, ou seja, considerável concentração em um grupo, o que é
considerado raro na prática, mas foi escolhida para avaliar a robustez do método em relação à
primeira opção.
A Tabela 6.7 mostra os tamanhos totais da amostra relativos ao método não paramétrico (teste de
Mann-Whitney), calculados pela fórmula (6.14), para dois valores de 𝑡, mantendo a mesma distribuição
das categorias do grupo dos não fumantes (66%, 15%, 19%), mas para várias configurações das
categorias do grupo dos fumantes. O nível de significância e poder foram fixados em 5% e 80%,
respectivamente.
Tabela 6.7 - Tamanhos de amostra total (𝑛𝑀𝑊 ) e poder obtidos pelo método não paramétrico de Mann-
Whitney para duas frações de alocações (𝑡) mantendo a mesma distribuição das categorias do grupo
dos não fumantes (66%, 15% e 19%) e para várias configurações das categorias do grupo dos fumantes
𝑡 = 0,53 𝑡 = 0,95
Não fumantes Fumantes 𝑛𝑀𝑊 Poder 𝑛𝑀𝑊 Poder
(0,66; 0,15; 0,19) (0,61; 0,23; 0,16) 8.390 0,795 45.264 0,796
(0,66; 0,15; 0,19) (0,61; 0,19; 0,20) 3.997 0,798 21.597 0,802
(0,66; 0,15; 0,19) (0,61; 0,14; 0,25) 2.073 0,802 11.174 0,814
(0,66; 0,15; 0,19) (0,58; 0,23; 0,19) 1.878 0,806 10.264 0,803
(0,66; 0,15; 0,19) (0,58; 0,20; 0,22) 1.401 0,799 7.665 0,807
(0,66; 0,15; 0,19) (0,58; 0,15; 0,27) 929 0,803 5.067 0,818
(0,66; 0,15; 0,19) (0,55; 0,23; 0,22) 817 0,796 4.506 0,809
(0,66; 0,15; 0,19) (0,55; 0,20; 0,25) 671 0,803 3.702 0,815
(0,66; 0,15; 0,19) (0,55; 0,15; 0,30) 502 0,808 2.753 0,822
(0,66; 0,15; 0,19) (0,55; 0,00; 0,45) 249 0,805 1.303 0,847
(0,66; 0,15; 0,19) (0,45; 0,00; 0,55) 96 0,811 484 0,844
(0,66; 0,15; 0,19) (0,40; 0,00; 0,60) 68 0,817 331 0,857
Nota: 𝑛𝑀𝑊 foi calculado pela fórmula (6.14); cálculo do poder baseado em 10.000 simulações de Monte Carlo
(ZHAO et al., 2008).
Pelos resultados da Tabela 6.7, nota-se que o tamanho de amostra depende das proporções das
categorias em ambos os grupos. Se 𝑡 = 0,53, todos os valores do poder real são próximos do nominal
(80%), mesmo quando o tamanho de amostra está abaixo de 100. Se 𝑡 = 0,95, os valores do poder real
são ainda próximos de 80% para amostras relativamente grandes. Os poderes reais podem ser
ligeiramente maiores que os nominais quando os tamanhos de amostras diminuem.
Nesta seção são apresentados vários exemplos comparando métodos para determinação de tamanho de
amostra para dados ordinais, especialmente os métodos de Whitehead (1993) e o não paramétrico de
Mann-Whitney discutidos na seção anterior.
Exemplo 6.7 - Comparação dos métodos de Whitehead (1993) e não paramétrico (teste de
Mann-Whitney) descrito em Zhao et al. (2008) ╬╬
Neste exemplo, são estabelecidas comparações entre o método de Whitehead (1993) e o método
não paramétrico baseado no teste Mann-Whitney. São utilizados os mesmos dados, (a), (b) e (c),
do exemplo 6.5. Na Tabela 6.8 registram-se os tamanhos de amostra para os métodos Whitehead (W) e
não paramétrico de Mann-Whitney (MW), enquanto que na Tabela 6.9 aparece a razão (MW/W) entre
os tamanhos de amostra.
Tabela 6.8 - Tamanhos da amostra calculados pelos métodos Whitehead (W) e não
paramétrico de Mann-Whitney (MW), para quatro taxas de alocação (𝐴): 1, 2, 3, 4
Tamanhos de amostra pelos métodos
Banco Whitehead (W) e não paramétrico (MW)
de dados
W1 MW1 W2 MW2 W3 MW3 W4 MW4
(a) 187 198 211 224 250 265 292 310
(b) 570 581 642 661 760 788 891 926
(c) 251 110 282 124 335 148 392 173
Tabela 6.9 - Razão (MW/W) entre os tamanhos de amostra calculados pelos métodos Whitehead (W)
e não paramétrico de Mann-Whitney (MW) com quatro taxas de alocação (𝐴): 1, 2, 3, 4
Como já comentado, à medida que a taxa de alocação aumenta, o tamanho total da amostra também
cresce, mas não de forma proporcional. Por exemplo, para o conjunto de dados (a) do exemplo 6.5:
211/187 = 1,13; 250/187 = 1,34 e 292/187 = 1,56. Também já foi notado de forma empírica que
o pressuposto de chances proporcionais foi validado nos bancos de dados (a) e (b), mas não no (c).
Assim, para o caso (c), é recomendado utilizar o método não paramétrico.
Note-se que a relação entre os tamanhos de amostra (MW/W) é praticamente constante, ou seja, para
cada banco de dados, a fração MW/W é sempre próxima de um valor.
Para os bancos de dados (a) e (b): os tamanhos do método MW são aproximadamente iguais aos do
método W, n(MW) ≈ n(W) ou, ainda, a relação entre eles é próxima de 1, n(MW) / n(W) ≈ 1;
os tamanhos de amostra obtidos pelo método MW são ligeira e sistematicamente superiores aos do
método W, n(MW) > n(W).
Para o banco de dados (c) n(MW) / n(W) é ainda constante, mas agora a situação se inverte:
os tamanhos do método MW são bastante inferiores aos do método W, n(MW) << n(W); a relação
entre eles é menos da metade, n(MW) / n(W) ≈ 0,44. De qualquer forma, como já comentado, neste
caso, o método de Whitehead (1993) não é apropriado e foi calculado apenas de maneira ilustrativa.
Walters (2004) descreve estudos de saúde relacionados à qualidade de vida (QV). Trata-se dos ensaios
clínicos aleatorizados conhecidos como “Community Postnatal Support Worker Study” (CPSW). Dois
grupos são comparados: intervenção, em que é oferecido apoio pós-natal, e o controle, sem tal apoio.
A variável resposta principal (usada para o dimensionamento da amostra) é a “dimensão geral de
saúde” avaliada pelo questionário de QV SF-36 na sexta semana do período pós-natal.
SF-36 é atualmente a forma mais comum de medir a condição de saúde. Foi desenvolvido nos Estados
Unidos, traduzido e validado no Brasil em 1997 pela pesquisadora Rozana Mesquita Ciconelli. Contém
36 perguntas relativas à saúde em oito diferentes dimensões: Capacidade Funcional, Aspecto Físico,
Dor, Estado Geral de Saúde, Vitalidade, Aspectos Sociais, Aspectos Emocionais e Saúde Mental.
As respostas de cada questão dentro de cada dimensão são combinadas gerando um escore que varia de
zero a 100 (o valor máximo indica “boa saúde”).
Em Walters (2004), quatro métodos para estimar tamanho de amostra e poder foram comparados e
ilustrados com estudos de saúde relacionados à qualidade de vida (QV) avaliados pela escala SF-36
para a comparação de dois grupos: controle e intervenção. O método 1 compara médias quando
a variável segue a distribuição normal usando o teste 𝑡; o método 2 é o não paramétrico de
Mann-Whitney; o método 3 é o de Whitehead (1993); e o método 4 utiliza simulações de bootstrap.
São estabelecidas as condições em que cada um dos métodos seria mais indicado e as conclusões são
organizadas no fluxograma apresentado na Figura 6.3.
Uma situação que aparece na prática é quando há o interesse em avaliar se uma variável que segue a
distribuição de Poisson pode ser predita ou explicada por determinadas variáveis, também chamadas de
covariáveis. Regressão de Poisson, que pertence à classe dos modelos lineares generalizados, é a forma
padrão de análise para muitos estudos da área da saúde cuja variável resposta segue a distribuição de
Poisson. Detalhes técnicos sobre o modelo podem ser obtidos, por exemplo, em Tang et al. (2012) e na
dissertação de mestrado de Borges (2002).
Regressão de Poisson não é utilizada apenas para dados de contagem, mas também para dados de
incidência, como explicado, por exemplo, no capítulo 29 de Vach (2013). Dados de incidência
frequentemente são provenientes de estudos de coorte nos quais os indivíduos gastam diferentes
tempos em diferentes grupos de risco definidos por covariáveis categóricas, tais como faixa de idade ou
condições de trabalho ou saúde.
Para uma amostra de tamanho 𝑛, seja 𝑌𝑖 uma variável representando uma contagem;
𝒙𝒊 = (𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑘 )𝑇 é o vetor das observações das 𝑘 variáveis explicativas para o i-ésimo indivíduo
(𝑖 = 1,2, ⋯ , 𝑛) e 𝜷 = (𝛽1 , 𝛽2 , ⋯ , 𝛽𝑘 ) é o vetor dos coeficientes correspondentes.
O modelo de regressão de Poisson é especificado da seguinte forma:
1. Componente aleatória – dado 𝒙𝒊 , a variável resposta 𝑌𝑖 segue a distribuição de Poisson com média
𝜇𝑖 , ou seja, 𝑌𝑖 |𝒙𝑖 ~ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜇𝑖 ), 1 ≤ 𝑖 ≤ 𝑛.
2. Componente sistemática – a média condicional de 𝜇𝑖 dado 𝒙𝒊 é ligada ao preditor linear pela função
logarítmica usando o seguinte modelo log-linear:
Em muitos estudos, o tempo das observações varia de indivíduo para indivíduo, o que pode acontecer
mesmo em ensaios clínicos controlados. Assim, deve-se incorporar o tempo como fator de ajuste ao
modelo apresentado em (6.15). Seja 𝑡𝑖 o tempo de observações para o i-ésimo indivíduo
(𝑖 = 1,2, ⋯ , 𝑛). Supondo que a taxa de evento de contagem (número de eventos por unidade de tempo)
siga o processo de Poisson, pode-se modelar a taxa da seguinte forma: 𝑟𝑖 = 𝑒𝑥𝑝{𝛽0 + 𝒙𝒊 𝑇 𝜷}. Quando
os tempos de observação 𝑡𝑖 variam entre os pacientes, o número de eventos 𝑌𝑖 para cada indivíduo i ao
longo do tempo 𝑡𝑖 ainda tem uma distribuição de Poisson com média 𝜇𝑖 = 𝑡𝑖 𝑟𝑖 = 𝑡𝑖 𝑒𝑥𝑝{𝛽0 + 𝒙𝒊 𝑇 𝜷}.
Assim, neste caso, o modelo log-linear ou, ainda, o modelo de regressão de Poisson é dado por:
Detalhes sobre a inferência estatística dos parâmetros de interesse podem ser obtidos, por exemplo, em
Tang et al. (2012).
Para o cálculo do tamanho de amostra no contexto de regressão de Poisson, podem ser utilizados
desenvolvimentos específicos para o modelo, como o de Signorini (1991) e Shieh (2001), ou situações
mais gerais para modelos lineares generalizados, como em Self e Mauritsen (1988) e Self et al. (1992),
dos quais a regressão de Poisson é um caso particular.
Para o caso de apenas uma variável explicativa, Signorini (1991) propôs um método para determinar o
tamanho de amostra (𝑛) para testar a seguinte hipótese relacionada ao coeficiente 𝛽1 da variável 𝑋1 do
modelo de regressão de Poisson, 𝐻0 : 𝛽1 = 𝛽10 versus 𝐻1 : 𝛽1 ≠ 𝛽10, sendo 𝛽10 um valor
pré-especificado que depende do problema em estudo. No artigo há um erro de sinal, aparece
(𝑉𝑎𝑟(𝛽̂1 )𝐻0 )−½, mas o expoente (½) deveria ser positivo, isto é, o correto seria: (𝑉𝑎𝑟(𝛽̂1 )𝐻0 )½ =
2
[𝑧1−𝛼/2 √𝑉𝑎𝑟(𝛽̂1 )𝐻0 + 𝑧1−𝛽 √𝑉𝑎𝑟(𝛽̂1 )𝐻1 ]
(6.17)
𝑛𝑅𝑃(𝑋1),𝑇𝐻2 = 𝜙
𝜇 𝑇 𝑒𝑥𝑝{𝛽10 }(𝛽∗ )2
Quadro 6.11 - Expressões para 𝑉𝑎𝑟(𝛽̂1 )𝐻1 para algumas distribuições comuns
Normal com 𝛽∗ 2 𝜎𝑋
2
1)
média 𝜇𝑋1 e 1 −(𝛽∗ 𝜇𝑋1 +
2 𝜎𝑋21
𝑒
variância 𝜎𝑋21 𝜎𝑋21
Bernoulli com 1 1
+ 𝜋𝑋1 (1 − 𝜋𝑋1 )
parâmetro 𝜋𝑋1 1 − 𝜋𝑋1 𝜋𝑋1 𝑒𝛽∗
𝑚
𝑚(𝑚11 ) − 𝑚12
𝑒 𝛽∗𝐷 − 𝑒 𝛽∗𝐶
𝑚=
(𝐷 − 𝐶)𝛽∗
Uniforme no (𝐷 − 𝐶)2
intervalo (C,D) 𝑒 𝛽∗𝐷 (𝛽∗ 𝐷 − 1) − 𝑒 𝛽∗𝐷 (𝛽∗ 𝐶 − 1) 12
𝑚1 =
(𝐷 − 𝐶)𝛽∗ 2
Quando outras variáveis explicativas são acrescidas ao modelo, uma possibilidade é seguir os trabalhos
de Hsieh et al. (1998) para regressão logística múltipla e de Hsieh e Lavori (2000) para regressão de
Cox com múltiplas covariáveis, adotando o seguinte procedimento: inflacionar o tamanho de amostra
de regressão de Poisson com apenas uma covariável pelo fator 1/(1 − 𝑅 2 ), sendo 𝑅 2 o quadrado da
correlação entre a covariável que corresponde ao parâmetro que está sendo testado e as demais
covariáveis do modelo. Considerando 𝑅 2 como o quadrado do coeficiente da correlação múltipla
quando a variável de interesse é ajustada em modelo de regressão com outras variáveis no modelo,
o software Pass®14 apresenta a seguinte fórmula para o tamanho de amostra:
2
[𝑧1−𝛼/2 √𝑉𝑎𝑟(𝛽̂1 )𝐻0 + 𝑧1−𝛽 √𝑉𝑎𝑟(𝛽̂1 )𝐻1 ]
(6.18)
𝑛𝑅𝑃𝑀𝑢𝑙𝑡 = 𝜙
𝜇 𝑇 𝑒𝑥𝑝{𝛽10 }(𝛽∗ )2 (1 − 𝑅2)
Como (1 − 𝑅 2 ) < 1, o tamanho de amostra obtido incorporando mais covariáveis é maior que o que só
leva em conta uma única covariável, dado na fórmula (6.17). Assim como em regressão logística,
em regressão de Poisson há escassez de trabalhos sobre o coeficiente de correlação 𝑅 2 e,
consequentemente, sobre o fator 1/(1 − 𝑅 2 ), não havendo mesmo unanimidade quanto à sua
utilização. Para mais detalhes, pode-se consultar, por exemplo, Hosmer et al. (2013) e a seção 5.4
de Ryan (2013).
Self e Mauritsen (1988) apresentam um procedimento para estimar o poder e o tamanho de amostra no
contexto de modelos lineares generalizados. É adotado o teste do escore e para o cálculo do poder é
utilizada a aproximação assintótica, cuja adequação é avaliada por meio de um estudo de simulação.
Self et al. (1992) estendem o trabalho de Self e Mauritsen (1988) para o teste da razão de
verossimilhanças. Ambos são limitados a modelos em que o número de configurações de covariáveis é
finito, como as distribuições Bernoulli e multinomial.
Shieh (2000) generaliza o trabalho de Self et al. (1992) para acomodar o caso de covariáveis contínuas,
mas também pode ser aplicado para modelos que incluem covariáveis discretas. Além disso, a partir de
uma aproximação utilizando o parâmetro de não centralidade da distribuição qui-quadrado não central
para o teste da razão de verossimilhanças, Shieh (2000) fornece uma simplificação que reduz
consideravelmente os cálculos, mas mantém a precisão. Seus resultados de simulação mostram que o
método funciona bem para os modelos de regressão logística e de Poisson e que podem então ser
usados na prática.
Lindsey (1997b) apresenta uma fórmula simples para o cálculo exato para modelos da família
exponencial cujo enfoque é baseado na verossimilhança. Há vantagens, como, por exemplo, apresenta
solução exata e não aproximada e não exige entrar com parâmetros não conhecidos, o que em geral é
necessário em fórmulas para cálculos de tamanho de amostra e poder. O caso de uma média da Poisson
é exemplificado no artigo.
Exemplo 6.9 - Dimensionamento de amostra para regressão de Poisson com uma covariável com
distribuição normal padrão ╬╬
Para o modelo de regressão de Poisson com apenas uma variável explicativa (𝑋1 ), a metodologia
apresentada na seção será ilustrada testando as hipóteses 𝐻0 : 𝑒𝑥𝑝{𝛽1 } = 1 versus 𝐻1 : 𝑒𝑥𝑝{𝛽1 } = 0,7,
o que equivale a testar 𝐻0 : 𝛽1 = 0 versus 𝐻1 : 𝛽1 = −0,357 = 𝛽∗ . Supondo que a variável 𝑋1 tenha
distribuição normal padrão, 𝑉𝑎𝑟(𝛽̂1 ) = 𝑒𝑥𝑝{−𝛽∗2 /2} (ver Quadro 6.11). Assim, 𝑉𝑎𝑟(𝛽
̂ ) =
1 𝐻 1
Voltando ao caso de hipóteses unilaterais, mas na presença de outras covariáveis no modelo supondo
1 1
que 𝑅 2 = 0,90, o tamanho de amostra deve ser calculado como (1−𝑅2 ) × 82,275 = (1−0,90) × 82,275 =
10 × 82,275 = 822,75. Neste caso, o tamanho de amostra deve ser 823, quase 10 vezes maior que no
caso com apenas uma variável explicativa (𝑋1 ). Para o caso de hipóteses bilaterais, o cálculo do
1 1
tamanho de amostra é (1−𝑅 2 )
× 99,060 = (1−0,90) × 99,060 = 10 × 99,060 = 990,60, ou seja,
o tamanho da amostra é 991, novamente quase 10 vezes maior que o caso univariado (apenas 𝑋1).
Exemplo 6.10 - Dimensionamento de amostra para o modelo de Poisson univariado com
covariável Bernoulli ╬╬
Espera-se observar uma taxa de infecção de nadadores de praia (𝑋 = 1) que seja pelo menos 30%
superior à taxa correspondente quando 𝑋 = 0. Formulando em termos dos parâmetros definidos
anteriormente, tem-se que 𝑒𝑥𝑝{𝛽10 } = 0,85, 𝛽10 = 𝑙𝑜𝑔(0,85) = −0,1625. E supondo que houve um
acréscimo das taxas de cerca de 50% de um grupo em relação ao outro, 𝑒𝑥𝑝{𝛽∗ } = 1,275 tal que
1,275/0,85 = 1,50, resultando em 𝛽∗ = 𝑙𝑜𝑔(1,275) = 0,24295.
Como os dados foram coletados em uma única estação do ano, não há necessidade de se considerar o
período de tempo, podendo-se tomar 𝜇 𝑇 = 1. Além disso, como foi amostrado o mesmo número de
nadadores das duas categorias (𝑋 = 1 e 𝑋 = 0) durante o período do estudo, 𝜋𝑋1 = 0,5. Assim, as
variâncias necessárias nos cálculos dos tamanhos da amostra são (ver no Quadro 6.11 para o caso
1 1 1 1 1 1
de Bernoulli com parâmetro 𝜋𝑋1 ): 𝑉𝑎𝑟(𝛽̂1 )𝐻0 = +𝜋 𝛽 = + 0,5×0,85 = 0,5 + 0,425 =
1−𝜋𝑋1 𝑋1 𝑒 10 1−0,5
1 1 1 1 1 1
4,3529 enquanto que 𝑉𝑎𝑟(𝛽̂1 ) = 1−𝜋 +𝜋 𝛽
= 1−0,5 + 0,5×1,275 = 0,5 + 0,6375 = 3,5686.
𝐻1 𝑋1 𝑋1 𝑒 ∗
A Tabela 6.10 mostra os resultados segundo o poder do teste e para três valores de proporções entre as
categorias de nadadores: 𝜋𝑋1 = 0,5; 0,7; 0,9. Como esperado, à medida que o poder aumenta,
o tamanho da amostra também cresce. Fixando o poder, nota-se acentuado efeito da proporção das
categorias dos nadadores (𝜋𝑋1 ). Assim, quanto maior o desbalanceamento dos grupos, maior será o
tamanho de amostra necessário.
Tabela 6.10 - Tamanhos de amostras obtidos pela fórmula (6.17), supondo que a única
covariável do modelo de regressão de Poisson seja Bernoulli (hipóteses bilaterais)
Várias fórmulas fechadas de tamanho de amostra do capítulo foram programadas em planilhas Excel® e
encontram-se disponíveis para os leitores (ver informações na apresentação do livro; os exemplos com
fórmulas programadas estão sinalizados por ╬╬ ).
Em vários tipos de estudos clínicos, a principal resposta de interesse é o tempo entre o início da
observação do paciente e a ocorrência de um evento com significado especial. Exemplos importantes
são a sobrevida global (o tempo entre o início do estudo até a morte do paciente), o tempo livre de
doença (o tempo entre a remissão e a recidiva) e o tempo de aparecimento de um efeito adverso.
O tempo decorrido do início da observação do paciente até o evento de interesse, mesmo que este seja
algo desejável, é referido na literatura como o tempo até a "falha". Esta nomenclatura tem origem na
área industrial, referindo-se a falhas de equipamentos e/ou peças; nesse contexto, o conjunto de
técnicas de análise de dados é denominado análise de confiabilidade. Em um estudo médico,
frequentemente a falha é a morte, daí o nome análise da sobrevivência ou sobrevida. Entretanto,
os conceitos e métodos podem ser aplicados para qualquer tipo de evento de interesse: recidiva, alguma
interrupção, como o uso de DIU, o aleitamento, algum tratamento utilizado, etc. Denominação mais
geral para a metodologia em questão seria então “análise de tempo até a ocorrência de um evento”.
Existem diferentes enfoques para análise desse tipo de dados, destacando-se o paramétrico e o não
paramétrico. O primeiro utiliza uma distribuição de probabilidade apropriada para descrever a variável
tempo, que obviamente é estritamente positiva, sendo a exponencial, a Weibull e a lognormal as mais
comuns; é de uso mais tradicional na área industrial, em que os produtos são fabricados em série.
Por outro lado, o enfoque não paramétrico é mais comum na área médica, sendo mais flexível para
modelar dados sujeitos à variabilidade mais acentuada.
Idealmente, todos os pacientes devem ser recrutados e acompanhados pelo mesmo tempo, mas não é o
que ocorre em um estudo típico. Em geral, define-se um período de recrutamento e os pacientes entram
no estudo em diferentes datas. Depois que eles entram, são seguidos até que o evento ocorra
ou que saiam do estudo (observação incompleta) ou ainda até o final do mesmo, caso em que o
evento não ocorreu.
Para a análise dos dados, considera-se como tempo inicial (𝑡0 ) a data de entrada no estudo,
funcionando como se todos entrassem na mesma data. O tempo de acompanhamento geral será o da
duração do estudo.
É extremamente importante a definição clara dos tempos (inicial e final) de forma a atender aos
objetivos do estudo, pois em algumas situações pode haver alternativas. Por exemplo, em estudo sobre
infecção hospitalar, pode-se considerar a data de internação ou a data da primeira infecção hospitalar.
Censura
a) Perda de acompanhamento: após entrar no estudo, o paciente decide não ir até o fim, seja
porque mudou de local de residência, de hospital ou simplesmente porque perdeu o interesse ou
confiança no tratamento;
b) término do estudo: para alguns pacientes o estudo termina antes da ocorrência da falha (do evento);
c) falha devida a outra causa: a falha ou a morte de um paciente pode ocorrer devido a um fator
totalmente independente do tratamento. Por exemplo, em um estudo de tratamento contra o câncer uma
morte causada por um acidente automobilístico deve ser considerada como sendo uma censura.
Entretanto, é importante estar seguro de que a morte claramente não está relacionada à doença, por
exemplo, devido a um efeito colateral relacionado ao tratamento.
Como, em geral, os tempos de censura causados pelos mecanismos descritos são aleatórios, será
considerado o caso de censura aleatória, mais comum em estudos clínicos, embora existam outros
possíveis tipos de censura, amplamente descritos na literatura, por exemplo, em Colosimo e Giolo
(2006), Carvalho et al. (2011) e Collett (2015).
Função de sobrevivência
A função de sobrevivência, denotada por 𝑆(𝑡), fornece, para cada valor de 𝑡, a probabilidade de que um
paciente típico sobreviva um tempo maior que 𝑡. Se 𝑇 é o tempo do início do acompanhamento até a
falha, define-se: 𝑆(𝑡) = 𝑃𝑟[𝑇 > 𝑡]. Observa-se que, à medida que o tempo passa, a probabilidade de
sobrevivência diminui, ou seja, o risco de morte aumenta. Naturalmente, a função pode ser estendida a
qualquer tipo de ocorrência de evento.
O método para estimar a função de sobrevivência 𝑆(𝑡) depende da existência ou não de censuras.
Para a situação mais comum de dados com observações censuradas, dois métodos são mais utilizados:
o método atuarial (também conhecido como método de tabela de vida) e o método de Kaplan-Meier
(também conhecido como método limite-produto). Ambos estão baseados nos mesmos princípios
básicos que ajustam de alguma forma as censuras. Embora o método de Kaplan-Meier seja mais
utilizado nas revistas científicas e possua melhores propriedades do que o de tabelas de vida,
este último é útil em situações em que o tempo exato da ocorrência do evento não esteja disponível,
mas que o período de intervalo seja conhecido.
Função de risco ou risco instantâneo ou de taxa de falha (hazard)
A função de risco, em inglês, hazard function, também chamada de função de taxa de falha - em
linguagem mais específica da área epidemiológica, função ou taxa de incidência, força de infecção ou,
ainda, força de mortalidade - é muito importante em análise de sobrevivência e sua definição é:
Pr(𝑡 ≤ 𝑇 ≤ 𝑡 + Δ𝑡|𝑇 > 𝑡)
ℎ(𝑡) = lim . Apesar do nome risco, é uma taxa, não é probabilidade e ℎ(𝑡)
Δ𝑡⟶0 Δ𝑡
pode assumir qualquer valor positivo. Pode-se mostrar que existe a seguinte relação entre ℎ(𝑡),
𝑓(𝑡)
a função de sobrevivência 𝑆(𝑡) e a função densidade de probabilidade 𝑓(𝑡): ℎ(𝑡) = . Naturalmente,
𝑆(𝑡)
há relação inversa entre ℎ(𝑡) e 𝑆(𝑡): à medida que a sobrevivência 𝑆(𝑡) diminui, o risco ℎ(𝑡) aumenta.
Curvas de sobrevivência
A curva de sobrevivência empírica na ausência de censura é obtida de forma muito simples e é dada
Nº de indivíduos que não falharam até o instante de tempo 𝑡
por: 𝑆̂(𝑡) = .
Nº de indivíduos no estudo
Método de Kaplan-Meier
A estimativa da função de sobrevivência, 𝑆̂(𝑡), é uma função degrau que é constante entre os pontos de
ocorrência de mortes. O problema de estimação reduz-se, portanto, às estimativas do valor da função
de sobrevivência nos tempos em que ocorreram mortes. Isso é feito utilizando-se um resultado da
Teoria das Probabilidades que, em linguagem informal, diz, por exemplo, que a probabilidade de o
paciente sobreviver dois anos é igual à probabilidade de sobreviver o primeiro ano e depois o segundo
ano. Esse raciocínio pode ser formalizado como 𝑃𝑟[𝑇 > 𝑡2 ] = 𝑃𝑟[𝑇 > 𝑡2 |𝑇 > 𝑡1 ]𝑃𝑟[𝑇 > 𝑡1 ] =
𝑝₂ ⋅ 𝑝₁, sendo 𝑡1 , 𝑡2 os instantes de ocorrência das duas primeiras mortes.
Termo Descrição
𝑡 tempo observado
𝑛𝑖 −𝑑𝑖 𝑑
O estimador de Kaplan-Meier de 𝑆(𝑡) é definido como: 𝑆(𝑡) = ∏𝑘𝑖=1 ( ) = ∏𝑘𝑖=1 (1 − 𝑛𝑖 ) =
𝑛𝑖 𝑖
∏𝑘𝑖=1 𝑝𝑖 . Entre as várias soluções encontradas na literatura para a variabilidade de 𝑆̂(𝑡), a fórmula de
𝑑
Greenwood é provavelmente a mais popular e é dada por 𝑉𝑎𝑟 (𝑆̂(𝑡)) ≈ (𝑆̂(𝑡))2 ∑𝑘𝑖=1 (𝑛 (𝑛 𝑖−𝑑 )).
𝑖 𝑖 𝑖
É importante notar que à medida que o tempo passa, 𝑆(𝑡) é estimada com precisão decrescente.
A explicação é que o número de indivíduos em risco vai diminuindo e no final é geralmente baixo e
pequenas variações nas observações podem acarretar grandes variações nos cálculos de 𝑆̂(𝑡).
O teste log-rank é a forma muito utilizada na literatura para comparar duas curvas de sobrevivência.
Para utilizar este teste, o pressuposto de riscos proporcionais deve ser validado, isto é, se 𝜓 é uma
constante que não depende do tempo (𝑡), as funções de taxa de falha (hazards) dos dois grupos podem
ser escritas como ℎ₁(𝑡) = 𝜓ℎ₂(𝑡) ou, equivalentemente, 𝑆₁(𝑡) = (𝑆₂(𝑡))𝜓 .
Suponha-se que dois grupos sejam comparados e que os eventos ocorreram nos seguintes tempos:
𝑡1 < 𝑡2 < ⋯ < 𝑡𝑟 . As hipóteses a serem testadas são 𝐻₀: 𝑆₁(𝑡) = 𝑆₂(𝑡) ⇔ 𝐻₀: 𝜓 = 1 versus
𝐻1 : 𝑆₁(𝑡) ≠ 𝑆₂(𝑡) ⇔ 𝐻1 : 𝜓 ≠ 1. Os dados podem ser organizados na Tabela 7.1.
Tabela 7.1 - Dados para a comparação de dois grupos por meio do teste log-rank
(𝑑1𝑗 ) é 𝑒1𝑗 = 𝑛1𝑗 𝑑𝑗 /𝑛𝑗 . Define-se a estatística 𝑈𝐿 = ∑𝑟𝑗=1(𝑑1𝑗 − 𝑒1𝑗 ), que é a diferença entre o total
observado e o número esperado de mortes no grupo 1. A média de 𝑈𝐿 é zero e pela independência entre
os tempos de morte, a variância de 𝑈𝐿 é 𝑉𝐿 = ∑𝑟𝑗=1 𝑣1𝑗 , ou seja, a soma das variâncias de 𝑑1𝑗 ,
𝑛1𝑗 𝑛2𝑗 𝑑𝑗 (𝑛𝑗 −𝑑𝑗 )
sendo 𝑣1𝑗 = . Quando o número de mortes não é muito pequeno, pode-se mostrar que 𝑈𝐿
𝑛𝑗2 (𝑛𝑗 −1)
tem aproximadamente distribuição normal. Assim, 𝑈𝐿 /√𝑉𝐿 tem distribuição normal padrão ou,
equivalentemente, 𝑊𝐿 = 𝑈𝐿 2 /𝑉𝐿 tem distribuição qui-quadrado com um grau de liberdade (𝜒12 ), que é a
estatística do teste log-rank.
O teste log-rank pode ser facilmente estendido para o caso de mais de duas curvas e novamente a
distribuição a ser comparada é a qui-quadrado com o número de graus de liberdade igual ao número de
grupos a serem comparados menos 1.
Uma situação importante na prática é a comparação de dois grupos (por exemplo, dois tratamentos,
duas drogas ou duas formulações de uma droga) formados por indivíduos considerados homogêneos
quanto a todos os fatores que potencialmente possam interferir na resposta (tempo até a ocorrência do
evento de interesse).
Nesta seção apresentam-se formas de cálculo do tamanho de amostra para estudos de análise de
sobrevivência tendo como objetivo a comparação de dois grupos. Inicialmente, discute-se o
dimensionamento para o caso da comparação de funções de taxa de risco sob a condição de riscos
proporcionais. Segue-se o dimensionamento feito com o pressuposto do tempo de sobrevivência
seguindo a distribuição exponencial e com ajuste de abandonos (dropouts) de participantes do estudo.
7.2.1 Tamanho de amostra para a comparação de funções de taxas de risco sob a condição
de riscos proporcionais
Considere-se o problema da comparação de dois tratamentos, por exemplo, novo e controle (abreviados
por 𝑁 e 𝐶), descritos pelas funções de taxas de risco ℎ𝑁 (𝑡) e ℎ𝐶 (𝑡), respectivamente. Lembrando que a
condição de riscos proporcionais (RP) é expressa como ℎ𝑁 (𝑡) = 𝜓ℎ𝐶 (𝑡), sendo 𝜓 uma constante que
não depende do tempo (𝑡), equivalentemente a relação de RP pode ser reescrita como:
ℎ𝑁 (𝑡)
𝜓= (7.1)
ℎ𝐶 (𝑡)
Definindo 𝜃 = 𝑙𝑜𝑔(𝜓), não há diferença entre os grupos se 𝜃 = 0. Se 𝜃 for negativo, significa que a
sobrevivência do grupo que recebeu o novo tratamento é mais longa que a do tratamento controle;
o contrário acontece se 𝜃 for positivo: quando o tratamento-controle for adotado, a sobrevivência é
maior que a do tratamento novo.
Para a coleta dos dados, fixa-se um período de recrutamento (𝑅) durante o qual os indivíduos são
matriculados no estudo além de um período de seguimento, conhecido como follow-up (𝐹), durante o
qual os participantes estão sob observação e nenhum novo participante entra no estudo.
Detalhes podem ser encontrados em Collett (2015), que usa os desenvolvimentos originalmente
apresentados por Schoenfeld (1983).
Esse cálculo destina-se a situações em que o estudo pode durar até a detecção de um número mínimo
de falhas (𝐷).
Inicialmente será assumido balanceamento, isto é, que o mesmo número de indivíduos seja alocado a
cada tratamento. Fixando nível de significância 𝛼, suponha probabilidade de (1 − 𝛽) de se declarar
que a razão dos riscos observados (na escala logarítmica) seja significativamente diferente de zero,
quando de fato 𝜃 = 𝜃𝑅 . O número necessário de mortes 𝐷 até o final do estudo é dado por:
A constante 𝑐(𝛼, 𝛽) = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 que aparece na fórmula (7.2) é apresentada no Quadro 7.2
para valores típicos de níveis de significância (𝛼) e valores de poder do teste (1 − 𝛽).
Quadro 7.2 - Valores de 𝑐(𝛼, 𝛽) = (𝑧1−𝛼/2 + 𝑧1−𝛽 )2 que aparece na fórmula (7.2) para
valores típicos de níveis de significância (𝛼) e valores de poder do teste (1 − 𝛽)
1−𝛽
𝛼
0,80 0,90 0,95 0,99
0,10 6,18 8,56 10,82 15,77
0,05 7,85 10,51 13,00 18,37
0,01 11,68 14,88 17,81 24,03
0,001 17,08 20,90 24,36 31,55
Na ausência de balanceamento, se a proporção de indivíduos a serem alocados a um dos grupos for 𝜋,
e, portanto, o complementar (1 − 𝜋) correspondente ao segundo grupo, a fórmula (7.2) deve ser
corrigida da seguinte forma:
Como sempre, a recomendação é de que o número obtido para 𝐷 (ou 𝐷𝜋 ) seja arredondado para mais,
de modo a compensar o cálculo aproximado.
Exemplo 7.1 - Cálculo do número de mortes utilizando a curva de sobrevivência pelo método de
Kaplan-Meier (adaptação do exemplo extraído de COLLETT, 2015) ╬╬
Pacientes que sofrem de hepatite crônica ativa (HCA) podem rapidamente progredir para morte
precoce por causa de falha hepática. Ao planejar um ensaio clínico para testar a sobrevivência de
pacientes com essa doença recebendo novo tratamento, deve-se ter disponível informação sobre a curva
de sobrevivência referente ao tratamento-controle administrado a pacientes na mesma faixa etária dos
que se pretende estudar. A partir da curva de sobrevivência obtida pelo método de Kaplan-Meier, têm-
se as seguintes informações: o tempo mediano é 3,3 anos e, por exemplo, as taxas de sobrevida após
dois, quatro e seis anos são 70%, 45% e 25%, respectivamente. Pela notação adotada: 𝑆𝐶 (2) = 0,70,
𝑆𝐶 (4) = 0,45 e 𝑆𝐶 (6) = 0,25.
Espera-se aumento da taxa de sobrevida com o novo tratamento e aos cinco anos a previsão é de que a
taxa do controle, que era de 0,41, passe para 0,60. Supondo que os riscos sejam proporcionais, a razão
ℎ𝑁 (𝑡) 𝑙𝑜𝑔(𝑆𝑁 (𝑡)) 𝑙𝑜𝑔(0,60)
das taxas de falha é 𝜓𝑅 = = = 𝑙𝑜𝑔(0,41) = 0,57.
ℎ𝐶 (𝑡) 𝑙𝑜𝑔(𝑆𝐶 (𝑡))
A função de sobrevivência referente ao novo tratamento pode ser estimada por 𝑆𝐶 𝜓𝑅 . Por exemplo,
𝑆𝑁 (2) = 0,700,57 = 0,82; 𝑆𝑁 (4) = 0,450,57 = 0,63; 𝑆𝑁 (6) = 0,250,57 = 0,45. Assim, é possível
traçar a curva de sobrevivência, cuja mediana é cerca de seis anos, quase o dobro da mediana
referente ao tratamento-controle (3,3). Pode-se observar a superioridade do novo tratamento em
relação ao controle.
Para a comparação dos dois tratamentos quanto à sobrevida, serão fixados nível de significância de 5%
(𝛼 = 0,05), poder de 90% (1 − 𝛽 = 0,90) e tomado como referência as informações sobre as
sobrevivências aos cinco anos: 𝜃𝑅 = 𝑙𝑜𝑔(𝜓𝑅 ) = 𝑙𝑜𝑔(0,573) = −0,557. Utilizando a fórmula (7.2),
4(𝑧1−𝛼/2 +𝑧1−𝛽 )2 4(1,960+1,282)2
calcula-se que o número de mortes a ser observado é 𝐷 = 2 = = 135,511,
𝜃𝑅 (−0,557)2
4𝑐(𝛼,𝛽) 4(10,51)
ou, utilizando a constante do Quadro 7.2, 𝐷 = = (−0,557)2 = 135,504. Na prática, ambos os
(𝜃𝑅 )2
resultados devem ser arredondados para 136 ou, com melhor margem de segurança, para 140. Assim,
se os grupos forem de iguais tamanhos, 70 pacientes devem ser alocados a cada grupo ou, no caso de
não balanceamento dos grupos, deve-se ponderar a amostra.
A Tabela 7.2 mostra os resultados do número de mortes (𝐷), obtidos pela fórmula (7.3), para várias
proporções (parâmetro 𝜋) de indivíduos a serem alocados a um dos dois grupos. Nota-se que à medida
que o desbalanceamento aumenta, que 𝜋 se afasta do valor 0,50, o valor de 𝐷 aumenta.
Tabela 7.2 - Número de mortes (𝐷), obtido pela fórmula (7.3), quando
a proporção de indivíduos a serem alocados a um dos grupos é 𝜋
Para calcular o número total de pacientes (𝑛) em um estudo de sobrevivência, isto é, o número de
falhas mais o número de sobreviventes, deve-se levar em consideração a probabilidade de falha durante
o período total de duração do estudo, 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) da seguinte forma:
𝐷
𝑛= (7.4)
𝑃𝑟(𝑓𝑎𝑙ℎ𝑎)
Na fórmula (7.4), 𝐷 é o número de mortes dado por (7.2) e pode-se mostrar que a probabilidade de
falha pode ser obtida por:
Se 𝑛 indivíduos entram no estudo no período de recrutamento 𝑅, diga-se 𝑅 meses, a taxa de entrada por
mês é 𝑚 = 𝑛/𝑅. Na prática, é provável ter alguma ideia sobre a taxa de recrutamento (𝑚). O número
de pacientes recrutado no período 𝑅 é 𝑚𝑅 e o número esperado de falhas é dado por
𝑚𝑅 × 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎).
Os valores de 𝑅 e 𝐹 que tornam esse valor próximo do requerido do número de falhas, 𝐷, podem ser
determinados numericamente, por exemplo, tentando diferentes valores de 𝑅 e 𝐹. Para resolver este
algoritmo, um método de otimização pode ser usado para encontrar o valor de 𝑅 que torne a seguinte
expressão perto de zero para um leque de valores de 𝐹:
Alternativamente, igualando a fórmula (7.6) a zero, o valor de 𝐹 que fornece a solução da equação
pode ser determinada para uma gama de valores de 𝑅. Uma tabela cruzada com entradas de valores de
𝑅 e 𝐹 será útil no planejamento do estudo.
No exemplo 7.1 sobre a HCA, com o pressuposto de riscos proporcionais, calculou-se que a razão das
taxas de falha foi 0,57 e que 𝐷 = 136, que será aproximado para 𝐷 = 140. Supondo que o período de
recrutamento do estudo seja de 18 meses (𝑅 = 18), com duração de seguimento de 24 meses (𝐹 = 24),
a probabilidade de morte calculada pela fórmula (7.5) é: 𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 1 − {𝑆̅(𝐹) + 4𝑆̅(0,5𝑅 +
𝐹) + 𝑆̅(𝑅 + 𝐹)}/6 = 1 − {𝑆̅(24) + 4𝑆̅(33) + 𝑆̅(42)}/6.
Tomando como base os dados disponíveis sobre a sobrevivência do tratamento-controle, e a razão 0,57
(portanto, é possível fazer a projeção da curva de sobrevivência do novo tratamento), os seguintes
𝑆 (24)+𝑆 (24) 0,70+0,82 𝑆 (33)+𝑆 (33) 0,57+0,73
resultados foram obtidos: ̅
𝑆(24) = 𝑃 2 𝑁 = 2
= 0,76; ̅
𝑆(33) = 𝑃 2 𝑁 = 2
=
𝑆𝑃 (42)+𝑆𝑁 (42) 0,45+0,63
0,65; ̅
𝑆(42) = 2
= 2
= 0,54.
400 pacientes devem ser recrutados durante 18 meses, o que equivale à taxa de recrutamento mensal de
aproximadamente 22 pacientes (400/18= 22,22).
Nos cálculos anteriores em que o período de recrutamento foi de 18 meses (𝑅 = 18) e no planejamento
decidiu-se esperar até a ocorrência de 140 mortes (𝐷 = 140), o que resultou em recrutar 400
participantes para o estudo (𝑛 = 400), a taxa de recrutamento é de praticamente 22 pacientes por mês.
Se na prática só for possível conseguir um número inferior de pacientes, diga-se 18, será necessário
estender o período de recrutamento para garantir que haja suficiente número de indivíduos
que resultem no número de mortes estabelecido (140) para fazer a comparação desejada
entre os tratamentos.
A Tabela 7.5 mostra os tamanhos de amostra aproximados, total e por mês, no período de
recrutamento, variando o tempo de recrutamento (𝑅) e o período de seguimento (𝐹).
Nas duas primeiras situações (𝑅 = 18, 𝐹 = 24; 𝑅 = 24, 𝐹 = 24), o número de pacientes total (𝑛) é
praticamente o mesmo, mas na segunda situação, cuja taxa de recrutamento é mais baixa (16
comparada a 22), a duração do estudo é maior, isto é, 48 meses (24 + 24 = 48) comparada a 42 meses
(18+ 24 = 42) do primeiro estudo.
Na Tabela 7.6 são apresentados dados fictícios, que foram construídos para ilustrar a importância da
escolha do período de recrutamento (𝑅) e o período de seguimento (𝐹). Foi assumida a propriedade de
riscos proporcionais com 𝜓𝑅 = ℎ𝑇 (𝑡)/ℎ𝐶 (𝑡) = 0,50, tal que 𝑆𝑇 (𝑡) = 𝑆𝐶 (𝑡)0,50, 𝑡 > 0.
Para este estudo com duração de 36 meses, foram simuladas várias possibilidades quanto aos períodos
de recrutamento (𝑅) e seguimento (𝐹).
Para a comparação dos dois tratamentos quanto à sobrevida, aplicando a fórmula (7.2) com nível de
significância de 5% (𝛼 = 0,05) e poder de 90% (1 − 𝛽 = 0,90), o número de mortes é
4(𝑧1−𝛼/2 +𝑧1−𝛽 )2 4(1,960+1,282)2 4(1,960+1,282)2
𝐷= 2 = = = 88,31. Na prática, o resultado deve ser
𝜃𝑅 (𝑙𝑜𝑔(0,50))2 (−0,69)2
arredondado para 89 ou, com melhor margem de segurança, para 100. Considerando os grupos de
iguais tamanhos, 50 pacientes deverão ser alocados a cada grupo ou, no caso de não balanceamento dos
grupos, deve-se ponderar a amostra de forma apropriada.
As Tabelas 7.7 e 7.8 apresentam os dados necessários nos cálculos do tamanho da amostra (𝑛) para três
situações: a) 𝑅 = 6 e 𝐹 = 30 b); 𝑅 = 12 e 𝐹 = 24; c) 𝑅 = 18 e 𝐹 = 18. São necessárias informações
dos valores das sobrevivências nos pontos referentes a 𝐹, (0,5𝑅 + 𝐹) e (𝑅 + 𝐹). Tais valores para as
três situações são: a) 𝐹 = 30; 0,5𝑅 + 𝐹 = 33 e 𝑅 + 𝐹 = 36; b) 𝐹 = 24; 0,5𝑅 + 𝐹 = 30 e 𝑅 + 𝐹 =
36; c) 𝐹 = 18; 0,5𝑅 + 𝐹 = 27 e 𝑅 + 𝐹 = 36. Note-se que o preenchimento da Tabela 7.7 foi feito a
partir dos dados da Tabela 7.6.
Tabela 7.7 - Valores de sobrevivência dos grupos controle (𝐶) e tratamento (T)
durante os períodos de recrutamento (𝑅) e de seguimento (𝐹)
Tabela 7.8 - Médias de sobrevivência entre grupos controle (𝐶) e tratamento (T)
durante os períodos de recrutamento (𝑅) e de seguimento (𝐹)
Na Tabela 7.9 são apresentados os valores das probabilidades de morte para as três situações:
𝑃𝑟(𝑓𝑎𝑙ℎ𝑎) = 1 − {𝑆̅(𝐹) + 4𝑆̅(0,5𝑅 + 𝐹) + 𝑆̅(𝑅 + 𝐹)}/6.
A Tabela 7.10 mostra o tamanho de amostra total, calculado pela fórmula (7.4), variando o tempo de
recrutamento (𝑅) e o período de seguimento (𝐹).
Tabela 7.10 - Tamanho de amostra total (𝑛), considerando 𝐷 = 100
A primeira situação leva ao menor tamanho de amostra (total de 118 com 59 em cada grupo) e à
medida que o período de recrutamento (𝑅) é estendido, o tamanho da amostra (𝑛) também cresce.
Fator decisivo para a escolha entre as três situações (períodos) é a real taxa de recrutamento.
Outras combinações de 𝑅 e 𝐹 podem ser facilmente testadas pelos leitores usando-se a planilha Excel®
que foi disponibilizada. Valores das sobrevivências necessários nos cálculos que não estiverem
disponíveis na Tabela 7.6 podem ser obtidos por meio de uma regra de três.
Referências para esta seção são o artigo de Lakatos e Lan (1992) e o manual do software nQuery
Advisor®. O pressuposto é de que para os dois grupos, por exemplo, dois tratamentos, uma nova
proposta (𝑁) e o tradicional, o controle (𝐶), os tempos seguem a distribuição exponencial com
parâmetros 𝜆𝑁 e 𝜆𝐶 , respectivamente. Neste caso, a razão entre as taxas de falhas (hazards) é
ℎ𝑁 (𝑡) 𝜆𝑁
𝜓𝑅 = = .
ℎ𝐶 (𝑡) 𝜆𝐶
𝑧1−𝛼/2 + 𝑧1−𝛽 2 1 1
𝑛𝑒𝑥𝑝(𝑑) =( ) ( + ) (7.7)
𝑙𝑜𝑔(𝜆𝑁 /𝜆𝐶 ) 𝐸(𝑃𝑁 ) 𝐸(𝑃𝐶 )
Exemplo 7.4 – Cálculo do tamanho de amostra (𝒏) com o pressuposto de sobrevivência com
distribuição exponencial e com ajuste para abandonos (dropouts) de participantes ╬╬
Tabela 7.11 - Tamanho de amostra total (2𝑛𝑒𝑥𝑝(𝑑) ), obtido pela fórmula (7.7),
supondo-se distribuição exponencial para várias taxas de desistências (𝑑)
Além do esperado aumento da amostra quando se troca o poder de 80% para 90% (aumento de
aproximadamente 33 a 34%), há notável alteração no tamanho da amostra, dependendo da taxa de
desistências de participantes (𝑑). Naturalmente, à medida que 𝑑 aumenta, o tamanho da amostra
necessário também cresce. O padrão de crescimento é o mesmo para 80% e 90%. Para ambos os
valores de poder, a razão dos tamanhos de amostra total comparando 𝑑 = 0,10 com 𝑑 = 0 é 1,15 e,
comparando a maior taxa de desistência considerada (𝑑 = 0,50) com a ausência de desistência
(𝑑 = 0), a razão é de aproximadamente 1,73. Ou seja, na primeira comparação os tamanhos da amostra
correspondentes a 𝑑 = 0,10 são 15% maiores que os de 𝑑 = 0 e na segunda comparação os tamanhos
da amostra para 𝑑 = 0,50 são 73% maiores que os valores para 𝑑 = 0.
Esta seção trata do dimensionamento de amostras para estudos que utilizam a regressão de Cox.
Após breve revisão sobre o modelo de Cox, são apresentadas fórmulas para algumas situações
específicas: modelo com apenas uma variável explicativa, inicialmente binária e, a seguir, generalizada
para qualquer tipo; no caso de regressão múltipla, é sugerida a utilização do fator de inflação da
variância (VIF) como ajuste.
Modelo de Cox
Os dados consistem na variável resposta (𝑌), o tempo até a ocorrência do evento de interesse, e 𝑘
variáveis explicativas (𝑋1 , 𝑋2 , ⋯ 𝑋𝑘 ), que podem ser de qualquer tipo. O modelo de Cox assume que o
risco instantâneo para um indivíduo específico é o produto do risco basal, ℎ₀(𝑡), comum a todos os
indivíduos, por um número que depende do valor das variáveis explicativas para esse indivíduo
e de alguns coeficientes. Em linguagem matemática, assume-se que o risco de um indivíduo
𝑖 com covariáveis 𝑥𝑖1 , 𝑥𝑖2 , ⋯ , 𝑥𝑖𝑘 é dado por: ℎ𝑖 (𝑡) = ℎ0 𝑒𝑥𝑝{𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 } =
ℎ0 𝑒𝑥𝑝{∑𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗 }. No modelo de Cox, o efeito das covariáveis consiste em aumentar (𝛽 > 0) ou
diminuir (𝛽 < 0) o risco basal de forma multiplicativa.
Considerem-se dois indivíduos (𝑈1 e 𝑈2 ) identificados pelos valores das variáveis explicativas:
(𝑥1 + 1, 𝑥2 , ⋯ , 𝑥𝑘 ) e (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑘 ), respectivamente. A razão entre seus riscos instantâneos é
ℎ𝑈1 (𝑡) ℎ0 𝑒𝑥𝑝{𝛽1 (𝑥1 +1)+𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 }
= = 𝑒𝑥𝑝{𝛽1 }. Ou seja, 𝑙𝑜𝑔(ℎ𝑈1 (𝑡)/ℎ𝑈2 (𝑡)) = 𝛽1 . De forma geral,
ℎ𝑈2 (𝑡) ℎ0 𝑒𝑥𝑝{𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑘 𝑥𝑘 }
o coeficiente 𝛽𝑗 do modelo de Cox representa o logaritmo da razão entre os riscos de indivíduos que
diferem por uma unidade na variável 𝑋𝑗 . Observe-se que esta razão permanece constante ao longo de
todo o período de acompanhamento. Essa propriedade é usada para se verificar a adequação do modelo
de Cox em dada situação prática e explica o nome alternativo deste modelo: modelo de
riscos proporcionais.
Inferência estatística
Para a estimação dos parâmetros, a proposta de Cox (1972) foi uma adaptação da verossimilhança
usual que recebeu o nome de verossimilhança parcial, descrita em Cox (1975). As estimativas de
máxima verossimilhança são obtidas pelo método de Newton-Raphson, que está implementado em
vários pacotes estatísticos.
Apesar da popularidade do MRP, nem sempre o pressuposto básico de riscos proporcionais é válido.
Portanto, é sempre importante verificar se ele é realmente satisfeito. Se a suposição de riscos
proporcionais não for validada, o risco relativo das variáveis no modelo pode tanto ser superestimado
ou subestimado e o poder para testar o correspondente parâmetro reduzido. Stablein et al. (1981), entre
outros, discutem como testar a adequação do modelo.
Detalhes adicionais do modelo de Cox, especialmente sobre a inferência estatística, podem ser
encontrados em Colosimo e Giolo (2006), Carvalho et al. (2011), Collett (2015), entre tantos outros
excelentes textos sobre o assunto.
A seguir, apresentam-se formas de cálculo de tamanho de amostra para algumas situações em que o
modelo de Cox é adotado. As referências principais são Hsieh e Lavori (2000) e Ryan (2013).
Essa situação corresponde à comparação de dois grupos, que é feita em termos de 𝛽1 = 𝑙𝑜𝑔(Δ), sendo
Δ o logaritmo da razão dos riscos (hazards) dos dois grupos. Para testar as hipóteses de interesse,
utiliza-se o teste do escore. Quando há apenas uma covariável binária, o teste do escore é o mesmo que
o teste de Mantel-Haenszel e o teste log-rank se não há empates nos tempos de sobrevivência.
É conhecido que o poder do teste log-rank depende do tamanho de amostra apenas por meio do número
de mortes (𝐷), o que simplifica a fórmula de tamanho de amostra. Schoenfeld (1983) desenvolveu a
seguinte fórmula:
(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝐷𝑋1 𝐵𝑖𝑛 = (7.9)
𝑝(1 − 𝑝)(𝑙𝑜𝑔(Δ))2
No modelo univariado, com apenas uma variável (𝑋1 ) e tempo de sobrevivência 𝑇, sem alguma
suposição, Hshieh e Laviori (2000) desenvolveram a seguinte fórmula para o número de mortes:
(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝐷𝑋1 𝑁ã𝑜 𝐵𝑖𝑛 = 2 (7.10)
𝜎 (𝑙𝑜𝑔(Δ))2
O tamanho de amostra é o número de mortes (𝐷) dividido pela proporção geral de mortes (𝑃𝐷 ), isto é:
Em Hshieh e Laviori (2000) também aparece a discussão sobre o efeito de ajuste de covariáveis no
poder do teste, além da possibilidade da utilização do fator de inflação da variância ao se incluir mais
covariáveis no modelo.
A ideia é a mesma comentada em regressão logística (ver seção 6.3 do capítulo 6). Primeiramente, faz-
se o cálculo para o modelo com apenas uma variável explicativa, usualmente a considerada mais
importante para a explicação da variação resposta. A seguir, o fator de inflação da variância (VIF) é
utilizado para ajustar no caso de regressão múltipla. Se há 𝑘 variáveis explicativas (𝑋1 , 𝑋2 , ⋯ 𝑋𝑘 ),
𝑉𝐼𝐹 = 1/(1 − (𝜌1.23⋯𝑘 )2 ) = 1/(1 − 𝑅 2 ) e o tamanho de amostra final é:
As fórmulas (7.11) e (7.12) estão implementadas no software Pass®14. Os cálculos também podem ser
feitos no pacote SurvEpi do 𝑅, mas deve-se estar atento que a implementação é para hipóteses
bilaterais, enquanto que a fórmula (7.10), como no artigo original, é para hipóteses unilaterais.
Exemplo 7.5 - Cálculo do tamanho de amostra a partir do modelo de Cox ╬╬
Em um estudo há nove covariáveis (𝑋1 , 𝑋2 , ⋯ , 𝑋9) e a variável de maior interesse (𝑋1) é contínua com
desvio-padrão igual a 𝜎 = 0,3126. Ajustando-se um modelo de regressão múltipla considerando como
variável resposta 𝑋1 e como variáveis explicativas 𝑋2 , ⋯ , 𝑋9, obtém-se o valor do coeficiente de
determinação igual a 𝑅 2 = 0,1837. Foram fixados o nível de significância de 5% e o poder de 80%.
A partir de estudo similar com 65 pacientes, dos quais houve 17 censuras, estimou-se que a
probabilidade geral de morte é 𝑃𝐷 = 1 − 17/65 = 0,738. Estabelecendo que log da razão dos riscos
(hazards) seja 𝑙𝑜𝑔(Δ) = 𝜃 ∗ = 1, deseja-se determinar o tamanho de amostra para este estudo, cujos
dados deverão ser analisados pelo modelo de Cox.
2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,645+0,842)2
Aplicando as fórmulas (7.10) e (7.11), 𝐷𝑋1 𝑁ã𝑜 𝐵𝑖𝑛 = = = 63,54 ≅ 64 e
𝜎2 (log(Δ))2 0,31262 (1)2
𝐷𝑋1 𝑁ã𝑜 𝐵𝑖𝑛 64
𝑛𝐶𝑜𝑥 = = 0,738 = 86,72 ≅ 87. Assim, quando apenas a variável 𝑋1 é incluída no modelo,
𝑃𝐷
Para o ajuste das demais variáveis (𝑋2 , ⋯ , 𝑋9) no cálculo do tamanho da amostra, o valor do 𝑉𝐼𝐹
aproximado para o modelo completo (com as nove variáveis explicativas) é dado por
1/(1 − (𝜌1.23⋯9 )2 ) = 1/(1 − 𝑅 2 ) = 1/(1 − 0,1837) = 1,225. Assim, utilizando a fórmula (7.12),
o tamanho de amostra para o modelo completo é de 107: (𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 = 𝑛𝐶𝑜𝑥 × 𝑉𝐼𝐹 = 87 × 1,225 =
106,575 ≅ 107). A utilização de todas as covariáveis nos cálculos resultou, em termos absolutos,
no aumento de 20 participantes (107-87), enquanto que, de forma relativa, isso representa aumento de
23% (107/87=1,23).
A Tabela 7.12 mostra os tamanhos de amostra supondo-se que o modelo de Cox será ajustado com
apenas uma variável (𝑛𝐶𝑜𝑥 ) e depois os tamanhos de amostra com as demais variáveis ajustado pelo
fator de inflação da variância VIF (𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 ) para três valores de 𝑅 2 e para dois valores de poder.
Os resultados da Tabela 7.12, calculados pelas fórmulas indicadas, apenas diferem dos resultados
obtidos no software Pass®14 por uma ou duas unidades. Além do esperado aumento do tamanho de
amostra com o aumento do poder (quando o poder é 90%, o valor é aproximadamente 1,38 vez maior
em relação ao do poder de 80%), há substantivo aumento do tamanho de amostra (𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 ) à medida
que 𝑅 2 cresce. Por exemplo, para ambos os valores de poder, o valor de 𝑛𝐶𝑜𝑥|𝑉𝐼𝐹 quando 𝑅 2 = 0,80 é
2,5 vezes maior do que para 𝑅 2 = 0,50.
Tabela 7.12 - Tamanho de amostra total utilizando o modelo de Cox (𝑛𝐶𝑜𝑥 ), obtido
pela fórmula (7.11), quando o desvio-padrão de 𝑋1 é igual a 𝜎 = 0,3126
Nesta seção é discutida a comparação de dois grupos tendo como resposta o tempo até a ocorrência do
evento, sem ajuste de outras covariáveis, no contexto de ensaios de superioridade, não inferioridade e
equivalência com três abordagens. A primeira delas é quando a distribuição do tempo é exponencial.
A segunda utiliza o modelo de Cox, discutido na seção anterior, cuja metodologia baseia-se no teste do
escore cujos resultados são assintóticos e tem o pressuposto de que as distribuições de censuras e de
falhas são as mesmas para os dois grupos. Embora seja um método aproximado, a vantagem é que os
cálculos são muito simples, logo, de fácil implementação na prática. Finalmente, são apresentadas
formas de dimensionamento de amostra para a comparação de dois grupos para ensaios de não
inferioridade utilizando o teste log-rank.
As principais referências para esta seção são Schoenfeld (1981, 1983), Chow et al. (2008), o manual do
software Pass® e o artigo de Jung et al. (2005).
O modelo exponencial é o mais simples entre os modelos paramétricos usados para dados de
sobrevivência. Entretanto, descreve bastante bem ampla gama de situações na prática, tanto na área
industrial como na área da saúde. Para esse modelo, assume-se que o tempo até a ocorrência do evento
segue a distribuição exponencial, cuja função de taxa de falha (hazard) correspondente é constante.
Em ensaios clínicos para comparar dois tratamentos, o interesse pode ser testar as taxas de falha
(hazards) ou comparar as medianas dos tratamentos. Pelo fato de a distribuição ser exponencial,
o tempo mediano é determinado pela taxa de falha (hazard). Como consequência, comparar medianas é
equivalente a comparar as taxas de falha (hazard).
Considerando dois grupos com delineamento em paralelo, com período de recrutamento 𝑇0 e o tempo
de acompanhamento (follow-up) 𝑇 − 𝑇0 , seja 𝑎𝑖𝑗 o tempo de entrada do 𝑗-ésimo paciente que pertence
ao grupo 𝑖. Assume-se que 𝑎𝑖𝑗 siga a distribuição contínua cuja densidade é dada por:
𝛾𝑒 −𝛾𝑧
𝑔(𝑧) = 1−𝑒 −𝛾𝑇0 , 0 ≤ 𝑧 ≤ 𝑇0 . Se 𝛾 > 0, a distribuição é convexa, implicando rápida entrada de
Seja 𝑡𝑖𝑗 o tempo até o evento, isto é, o tempo decorrido desde a entrada no estudo do 𝑗-ésimo paciente
no 𝑖-ésimo grupo (𝑖 = 1,2; 𝑗 = 1, ⋯ , 𝑛𝑖 ) até a ocorrência do evento de interesse. Assume-se que 𝑡𝑖𝑗
siga a distribuição exponencial com taxas de falha (hazards) 𝜆𝑖 (𝑖 = 1,2). Pode-se mostrar que a
−1
2 (𝜆 2 𝛾𝑒 −𝜆𝑖 𝑇 (1−𝑒 (𝜆𝑖 −𝛾)𝑇0 )
fórmula para a variância associada é 𝜎 𝑖 ) = 𝜆𝑖 (1 + (𝜆𝑖 −𝛾)(1−𝑒 −𝛾𝑇0 )
) e, tomando-se o limite
−1
𝑒 −𝜆𝑖 𝑇 −𝑒 −𝜆𝑖 (𝑇−𝑇0 )
quando 𝛾 tende a zero, 𝜎 2 (𝜆𝑖 ) = 𝜆2𝑖 (1 + ) .
𝜆𝑖 𝑇0
Para a comparação de dois grupos, por exemplo, grupos controle e tratamento, seja 𝜃 = 𝜆1 − 𝜆2 a
diferença de taxas de falha (hazards) dos dois grupos. Para ensaios de não inferioridade, será
considerado apenas o caso em que 𝜆2 ≤ 𝜆1, ou, ainda, 𝜆2 ≤ 𝜆1 + θ−
0 , ou seja, a taxa de falha (hazard)
do tratamento (𝜆2 ) não deve superar a taxa de falha de controle (𝜆1 ) por determinada margem (𝜃0− ).
Os testes apresentados a seguir são assintóticos e sob a hipótese nula suas estatísticas têm distribuição
normal padrão. O Quadro 7.3 apresenta as estatísticas dos testes e as regras de decisão para os três
testes considerados utilizando-se a seguinte notação: 𝑛1 e 𝑛2 são tamanhos de amostra dos dois grupos,
𝛼 é o nível de significância, 𝑧1−𝛼 e 𝑧1−𝛼/2 são os percentis de ordem (1 − 𝛼)100% e
(1 − 𝛼/2)100% da distribuição normal padrão, respectivamente. As variâncias que aparecem nas
estatísticas dos testes são as estimativas das que foram apresentadas em dois parágrafos anteriores.
Utilizando as estatísticas descritas no Quadro 7.3, é possível obter os respectivos tamanhos de amostra
correspondentes ao poder (1 − 𝛽)100%. Sejam 𝑛1 e 𝑛2 os tamanhos de amostras referentes aos dois
grupos e 𝑘 a relação entre eles: 𝑛1 = 𝑘𝑛2 . As fórmulas do tamanho de amostra para o grupo 2 para os
ensaios igualdade (𝑛2(𝐼,𝑒𝑥𝑝) ), superioridade (𝑛2(𝑆,𝑒𝑥𝑝) ), não inferioridade (𝑛2(𝑁𝐼,𝑒𝑥𝑝) ) e equivalência
(𝑛2(𝐸,𝑒𝑥𝑝) ) são dadas por:
Um fato que pode ocorrer na prática são perdas por causa de falta de seguimento, pelos mais diversos
motivos, desistências (dropout) e mesmo não conformidades. Novamente assume-se que os tempos de
falha para cada um dos dois grupos sigam a distribuição exponencial com taxas de falha (hazards)
𝜆𝑖 (𝑖 = 1,2) e agora se acrescenta a suposição de que a distribuição das correspondentes perdas
também seja exponencial com taxa de falha 𝜂𝑖 (𝑖 = 1,2). Lanchin e Foulkes (1986) mostraram que a
variância do estimador de 𝜆̂𝑖 é dada por:
−1
𝜆𝑖 𝜆𝑖 𝛾𝑖 𝑒 −(𝜆𝑖 +𝜂𝑖 )𝑇 (1 − 𝑒 (𝜆𝑖 +𝜂𝑖 −𝛾𝑖 )𝑇0 )
𝜎 2 (𝜆
𝑖 , 𝜂𝑖 , 𝛾𝑖 ) = 𝜆2𝑖 ( + ) (7.17)
𝜆𝑖 + 𝜂𝑖 (1 − 𝑒 −𝛾𝑖 𝑇0 )(𝜆𝑖 + 𝜂𝑖 )(𝜆𝑖 + 𝜂𝑖 − 𝛾𝑖 )
As fórmulas para os tamanhos de amostra com ajuste para perdas são as mesmas apresentadas
anteriormente, (7.13) a (7.16), mas a variância σ2 (𝜆𝑖 ) deve ser substituída por 𝜎 2 (𝜆𝑖 , 𝜂𝑖 , 𝛾𝑖 ) dada pela
fórmula (7.17). Por exemplo, a fórmula para o tamanho de amostra no caso de não inferioridade é:
Exemplo 7.6 - Cálculo do tamanho de amostra para testar igualdade de dois tratamentos
(modelo exponencial) - adaptação do exemplo descrito em Chow et al. (2008) ╬╬
Para o planejamento de um estudo sobre transplante em pacientes com doença de Hodgkin (DH) ou
com linfoma não Hodgkin (LNH), os tipos de transplantes devem ser comparados. Há duas
possibilidades de transplantes: transplante alogênico em que o doador é um parente e que as células são
compatíveis com as do receptor ou um transplante autólogo em que a sua própria medula será
purificada e devolvida ao organismo após alta dose de quimioterapia.
O objetivo principal do estudo é comparar os pacientes com os dois tipos de transplante em termos de
tempo para a ocorrência da leucemia. A duração do estudo deve ser de três anos (𝑇 = 3), com um ano
de recrutamento (𝑇0 = 1). Assume-se que as taxas de falha (hazards) dos transplantes alogênico e
autólogo sejam 𝜆1 = 2 e 𝜆2 = 1, respectivamente. Além disso, espera-se que a entrada de
pacientes em ambos os grupos seja uniforme e, nesse caso, a fórmula da variância é
−1
𝑒 −𝜆𝑖 𝑇 −𝑒 −𝜆𝑖 (𝑇−𝑇0 )
𝜎 2 (𝜆𝑖 ) = 𝜆2𝑖 (1 + ) , 𝑖 = 1,2. Substituindo-se os valores 𝜆1 = 2, 𝜆2 = 1, 𝑇 = 3 e
𝜆𝑖 𝑇0
Para testar a igualdade entre os dois tipos de transplantes (𝐻0 : θ = 0 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 : θ ≠ 0, com
𝜃 = 𝜆1 − 𝜆2 ), fixando o nível de significância e o poder em 5% e 80%, respectivamente, e quando os
dois grupos são de igual tamanho (𝑘 = 1), a aplicação da fórmula (7.13) para o tamanho de amostra em
(𝑧1−𝛼/2 +𝑧1−𝛽 )2 σ2 (𝜆1 )
um dos grupos fornece o seguinte resultado: 𝑛2(𝐼,𝑒𝑥𝑝) = [ + σ2 (𝜆2 )] =
(𝜆1 −𝜆2 )2 𝑘
(1,96+0,84)2 1,0936
[ + 4,0319] = 41. Portanto, para atingir o objetivo do estudo é necessário recrutar 41
(2−1)2 1
participantes em cada grupo, totalizando 82 pacientes. Se o poder fosse aumentado para 90%,
𝑛2(𝐼,𝑒𝑥𝑝) = 54, consequentemente, total de 108 pacientes, 1,32 vez maior que quando o poder era de
80%, o que significa que seria necessário acrescentar 108 − 82 = 26 pacientes.
Exemplo 7.7 - Cálculo do tamanho de amostra para estudos de superioridade, não inferioridade e
equivalência (modelo exponencial) ╬╬
O planejamento de um estudo tem como principal objetivo comparar dois tratamentos e a variável
resposta é o tempo até a ocorrência do evento de interesse que segue a distribuição exponencial.
As seguintes informações foram utilizadas: o estudo deve durar três anos (𝑇 = 3), com um ano de
recrutamento (𝑇0 = 1) e as taxas de falha (hazard) dos dois grupos a serem comparados são 𝜆1 = 2 e
𝜆2 = 1. A Tabela 7.13 mostra os tamanhos de amostra para ensaios de superioridade, não inferioridade
e equivalência utilizando as fórmulas (7.14), (7.15) e (7.16), respectivamente. Os cálculos foram feitos
com vários valores de 𝛾 da função 𝑔(𝑧), mas como há pouco impacto de seu efeito no valor de 𝑛2 ,
foram apresentados apenas os resultados para dois valores (𝛾 = −1,0 e 𝛾 = 0,0).
O valor de 𝑛2 quando o poder é de 90% é em torno de 1,38 vez o valor de 𝑛2 quando o poder é de 80%
tanto para estudos de superioridade como para os de não inferioridade, enquanto que a razão para
estudos de equivalência cai para aproximadamente 1,26. Os tamanhos de amostra de estudos de não
inferioridade são tipicamente menores que os dos outros dois tipos, embora naturalmente não sejam
exatamente comparáveis.
Tabela 7.13 - Tamanho de amostra para um grupo (𝑛2 ) em ensaios de superioridade (S),
não inferioridade (NI) e equivalência (E), calculados com nível de significância
de 5% e para dois valores do parâmetro 𝛾 da função 𝑔(𝑧)
Exemplo 7.8 - Cálculo do tamanho de amostra em estudos de não inferioridade com possibilidade
de perdas (modelo exponencial) ╬╬
A taxa de falha (hazard) quando se utiliza o tratamento padrão de uma doença é 𝜆1 = 2. Novo
tratamento desenvolvido para a doença é mais barato e apresenta menos efeitos colaterais. A empresa
que o desenvolveu quer demonstrar que a sua taxa de falha não é pior do que em 25% dos casos em que
o tratamento-padrão foi prescrito. Durante o período de recrutamento, supõe-se que os pacientes entram
no estudo de forma uniforme. Com o objetivo de comparar o tratamento novo com o padrão, quer-se
dimensionar um estudo de não inferioriodade, supondo que o período de recrutamento seja de um ano,
sendo que o estudo vai continuar por dois anos adicionais.
O poder deve ser fixado em 80% e 90% enquanto que o nível de significância em 5%. As taxas de falha
do novo tratamento são 𝜆2 = {1; 1,2; 1,4; 1,6; 1,8; 2} e sabe-se que a taxa de falha do tratamento
padrão é 𝜆1 = 2 tal que a diferença entre os dois valores de taxa de falha (hazard) varia entre
𝜆1 − 𝜆2 = −1 e zero com incremento de 0,2.
Os cálculos utilizando a fórmula (7.18) foram feitos supondo-se que não houve perdas (𝜂1 = 𝜂2 = 0) e
também que as taxas de perda foram de 0,20 (𝜂1 = 𝜂2 = 0,2) e 0,50 (𝜂1 = 𝜂2 = 0,5) para ambos os
grupos. Os resultados estão apresentados na Tabela 7.14. Nota-se o aumento do tamanho de amostra
quando há perdas e que quanto maior a taxa de falha associada às falhas, mais pacientes
serão necessários.
Tabela 7.14 - Tamanho de amostra (𝑛2 ) para cada grupo utilizando o modelo exponencial
em ensaios de não inferioridade com ajuste para perdas, obtido pela fórmula (7.18)
com nível de significância de 5% e poder do teste de 80% e 90%
Para a comparação de dois grupos, genericamente denominados controle (𝐶) e teste (𝑇), será utilizado
o modelo de Cox. Neste caso, basta incluir no modelo uma variável explicativa binária, diga-se, 𝑥 = 1
se o indivíduo pertence ao grupo-controle e 𝑥 = 0 caso contrário ou, de forma mais geral, 𝑥 = 0 e
𝑥 = 1 se o indivíduo recebe o tratamento 1 e o tratamento 2, respectivamente.
Na função de risco, ℎ(𝑡) = ℎ₀(𝑡)𝑒𝑥𝑝(𝜃𝑥), ℎ₀(𝑡) é o risco basal comum a todos os indivíduos,
o coeficiente 𝜃 é interpretado como o logaritmo do risco de indivíduos do grupo-controle em relação ao
risco de indivíduos do grupo teste e será representado por 𝜃 = 𝑙𝑜𝑔(ℎ𝐶 /ℎ𝑇 ) para todo 𝑡. De forma mais
geral, para a comparação dos grupos 1 e 2, 𝜃 = 𝑙𝑜𝑔(ℎ2 /ℎ1 ). Portanto, a comparação dos dois grupos é
feita pela inferência sobre 𝜃.
O Quadro 7.4 mostra as hipóteses, as estatísticas do teste do escore e as regras de decisão para os três
tipos de ensaio considerados: superioridade, não inferioridade e equivalência.
𝑌1𝑖 𝑒 𝜃⁻
∑𝑑𝑖=1 (𝐼𝑖 − )
𝑌1𝑖 𝑒 𝜃⁻ +𝑌2𝑖
NI −
𝐻0 : 𝜃 ≤ 𝜃 𝑣𝑠. 𝐻1 : 𝜃 > 𝜃⁻ 𝑆𝑁𝐼 = 𝑆𝑁𝐼 ≥ 𝑧1−𝛼
𝑌1𝑖 𝑌2𝑖 𝑒 𝜃⁻
√∑𝑑𝑖=1 ( )
𝑌1𝑖 𝑒 𝜃⁻ +𝑌2𝑖
−
𝑌1𝑖 𝑒 𝜃
∑𝑑𝑖=1 (𝐼𝑖 − 𝜃−
)
𝑌1𝑖 𝑒 +𝑌2𝑖
𝐻0− : 𝜃 ≤ 𝜃⁻ 𝑣𝑠. 𝐻1 : 𝜃 > 𝜃 − 𝑆𝐸− = − 𝑆𝐸− ≥ 𝑧1−𝛼
𝑌 𝑌 𝑒𝜃
√∑𝑑𝑖=1 ( 1𝑖 𝜃2𝑖− )
𝑌 𝑒 +𝑌
1𝑖 2𝑖
E
+
𝑌1𝑖 𝑒 θ
∑𝑑𝑖=1 (𝐼𝑖 − θ+
)
𝑌1𝑖 𝑒 +𝑌2𝑖
𝐻0+ : 𝜃 +
≥ θ 𝑣𝑠. 𝐻1 : 𝜃 < θ + 𝑆𝐸+ = + 𝑆𝐸+ ≤ −𝑧1−𝛼
𝑌 𝑌 𝑒θ
√∑𝑑𝑖=1 ( 1𝑖 θ2𝑖+ )
𝑌 𝑒 +𝑌
1𝑖 2𝑖
As notações utilizadas no Quadro 7.4 são definidas a seguir: 𝑑 é o número de eventos (mortes); 𝑌𝑖𝑗 é o
número de indivíduos sob risco exatamente antes da 𝑗-ésima observação no 𝑖-ésimo grupo (𝑖 = 1,2);
𝐼𝑘 é uma variável binária (0 e 1) que indica se o 𝑘-ésimo evento é ou não proveniente do grupo 1.
Tamanho de amostra para ensaios de não inferioridade, superioridade e equivalência
(modelo de Cox)
Para o i-ésimo grupo (𝑖 = 1, 2), sejam 𝑝𝑖 a proporção de indivíduos, 𝑓𝑖 (𝑡) a função densidade de
probabilidade da variável tempo da ocorrência do evento, 𝐹𝑖 (𝑡) a distribuição acumulada de não
ocorrência do evento, isto é, o complementar de 𝑆𝑖 (𝑡), ℎ𝑖 (𝑡) e 𝐻𝑖 (𝑡) a função de risco e a distribuição
acumulada de censuras, respectivamente.
Para ensaio de não inferioridade, a estatística do teste do escore (S) depende das seguintes funções:
𝑝2 (1−𝐹1 (𝑡))(1−𝐻2 (𝑡))
𝑉(𝑡) = 𝑝1 𝑓1 (𝑡)(1 − 𝐻1 (𝑡)) + 𝑝2 𝑓1 (𝑡)(1 − 𝐻2 (𝑡)) e 𝜋(𝑡) = 𝑝 .
1 (1−𝐹1 (𝑡))(1−𝐻1 (𝑡))+𝑝2 (1−𝐹1 (𝑡))(1−𝐻2 (𝑡))
A estatística S tem distribuição normal com variância igual a um e média dada por
∞
𝑛½ ∫0 (ℎ2 (𝑡)/ℎ1 (𝑡)−𝜃− )𝜋(𝑡)(1−𝜋(𝑡))𝑉(𝑡)𝑑𝑡 ∞
∞ ½ . Seja 𝑝𝑑 = ∫0 𝑉(𝑡)𝑑𝑡, a probabilidade de observar o evento de
(∫0 𝜋(𝑡)(1−𝜋(𝑡))𝑉(𝑡)𝑑𝑡 )
interesse. Com a suposição de riscos proporcionais, 𝑙𝑜𝑔(ℎ2 (𝑡)/ℎ1 (𝑡)) = 𝜃 > 𝜃 − é constante, tal que
𝐻2 (𝑡) = 𝐻1 (𝑡), e como na prática, comumente, 𝐹1 (𝑡) ≈ 𝐹2 (𝑡), pode-se notar que 𝜋(𝑡) ≈ 𝑝2 . Assim, a
expressão da média simplifica-se para (𝜃 − 𝜃 − )𝑛𝑝1 𝑝2 𝑝𝑑 ½ . Logo, ao se fixar nível de significância e
poder em 𝛼 e (1 − 𝛽), respectivamente, o tamanho de amostra em cada grupo para os testes de não
inferioridade (𝑛𝑁𝐼,𝐶𝑜𝑥 ) é dado por:
(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝑛𝑁𝐼,𝐶𝑜𝑥 = (7.19)
(𝜃1 − 𝜃⁻)2 𝑝1 𝑝2 𝑝𝑑
Para ensaio de superioridade, caso especial de ensaio de não inferioridade com 𝜃 − = 0, para cada
grupo, os tamanhos de amostra para hipóteses unilaterais (𝑛𝑆,𝐶𝑜𝑥,𝑇𝐻1) e bilaterias (𝑛𝑆,𝐶𝑜𝑥,𝑇𝐻2) são:
(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝑛𝑆,Cox,TH1 = (7.20)
𝜃1 2 𝑝1 𝑝2 𝑝𝑑
normal padrão (Φ) e é dado por 𝑃𝐸 (𝜃1 ) = 2Φ ((θ+ − |𝜃1 |)√𝑛𝑝1 𝑝2 𝑝𝑑 − 𝑧1−𝛼 ) − 1, resultando no
seguinte tamanho de amostra para cada grupo para atingir poder (1 − 𝛽) e para o nível de
significância fixado em 𝛼:
(𝑧1−𝛼 + 𝑧1−𝛽/2 )2
𝑛𝐸,𝐶𝑜𝑥 = (7.22)
(𝜃+ − |𝜃1 |)2 𝑝1 𝑝2 𝑝𝑑
Em resumo, os elementos necessários para os cálculos do tamanho da amostra nos três tipos de teste
(𝑛𝑆,𝐶𝑜𝑥 , 𝑛𝑁𝐼,𝐶𝑜𝑥 , 𝑛𝐸,𝐶𝑜𝑥 ) são: nível de significância e poder que em geral são fixados a priori, margens
de não inferioridade (𝜃 − ) ou limite de equivalência (𝜃 + ), as proporções de indivíduos nos dois grupos
(𝑝1 e 𝑝2 ), a probabilidade 𝑝𝑑 de observar o evento de interesse e o parâmetro 𝜃, que é usado para
comparar os grupos, o logaritmo da razão entre os riscos de indivíduos do grupo-controle e do grupo-
teste ou, de forma geral, a razão entre os riscos de dois grupos a serem comparados (1 e 2).
Exemplo 7.9 - Cálculo do tamanho de amostra utilizando o modelo de Cox para ensaios de
não inferioridade, superioridade e equivalência - adaptação do exemplo extraído de
Chow et al. (2008) ╬╬
Infecções das feridas de queimadura constituem uma complicação que pode resultar em hospitalizações
muito demoradas e até mesmo na morte de pacientes com queimaduras graves. Uma das importantes
condutas para lidar com queimaduras é prevenir ou pelo menos retardar a infecção. Estudo tem como
objetivo comparar uma nova terapia com as rotinas de cuidados durante o banho (higienização) dos
pacientes queimados em termos de tempo até uma eventual infecção. Para o planejamento de um
ensaio clínico relacionado a esse tipo de problema, será considerado igual tamanho de amostra nos dois
grupos (𝑝0 = 𝑝1 = 0,50) e nível de significância de 5%. A experiência mostra que cerca de 80% das
infecções dos pacientes devem ser observadas durante o período em que o estudo é conduzido
(𝑝𝑑 = 0,80). Supõe-se que seja considerado de importância prática detectar que o risco de infecção no
grupo de terapia de rotina seja o dobro do risco na nova terapia, ou seja, 𝜃1 = 𝑙𝑜𝑔(2) = 0,69.
A Tabela 7.15 mostra resultados para dois valores de poder (80% e 90%) e algumas combinações dos
parâmetros envolvidos nos cálculos de tamanho de amostra utilizando o modelo de Cox para estudos
de não inferioridade, fórmula (7.19), e para estudos de superioridade, fórmulas (7.20) e (7.21),
respectivamente, para testes unilaterais e bilaterais.
Como esperado, os tamanhos de amostra (𝑛) correspondentes ao poder de 90% são superiores aos de
80% e à medida que a razão de riscos (hazards) aumenta (portanto, 𝜃1 também aumenta), 𝑛 diminui.
Tabela 7.15 - Tamanho de amostra (𝑛) para cada grupo utilizando o modelo de Cox
em ensaios de não inferioridade, fórmula (7.19), e de superioridade, fórmulas
(7.20) e (7.21), com nível de significância de 5% e poder do teste de 80% e 90%
Para ilustrar a aplicação da fórmula (7.22), agora será suposto que o planejamento seja para um ensaio
de equivalência, mas serão mantidos os mesmos elementos envolvidos nos cálculos anteriores:
a) 𝑝0 = 𝑝1 = 0,50; b) 𝑝𝑑 = 0,80; c) 𝛼 = 0,05; d) 𝛽 = 0,20 ou 𝛽 = 0,10. Para 𝜃 + = 0,5 e 𝜃1 = 0,
(𝑧1−𝛼 +𝑧𝛽/2 )2 (1,645+1,282)2
o tamanho de amostra para cada grupo deve ser 𝑛𝐸,𝐶𝑜𝑥 = (𝜃+ −|𝜃 2
= (0,5−|0|)2 0,5×0,5×0,8 =
1 |) 𝑝0 𝑝1 𝑝𝑑
Para finalizar, nesta seção foram apresentados cálculos aproximados para dimensionar amostras no
contexto da comparação de dois grupos utilizando o modelo de Cox e o teste do escore para ensaios de
superioridade, não inferioridade e equivalência. A grande vantagem dessas fórmulas é a facilidade,
já que têm forma fechada envolvendo apenas a distribuição normal e não sendo necessários processos
iterativos, o que é muito comum em cálculo de tamanho de amostra.
Nesses cálculos fica evidente o efeito dos valores dos parâmetros envolvidos bem como do nível de
significância e do poder do teste. Entretanto, é necessário estudo adicional sobre a acurácia desses
cálculos e a extensão para situações mais gerais, tais como incorporar várias covariáveis, além de
considerar a suposição de riscos não proporcionais e diferentes distribuições de censuras para os dois
grupos, bem como estabelecer uma comparação com outros trabalhos da literatura.
7.4.3 Comparação de dois grupos para ensaios de não inferioridade utilizando o teste log-rank
Para situações em que há interesse em testar as hipóteses 𝐻0 : 𝜃 ≤ 𝜃 − 𝑣𝑠. 𝐻1 : 𝜃 > 𝜃 − em ensaios de não
inferioridade para comparar dois grupos utilizando o teste log-rank, Jung et al. (2005) propõem uma
fórmula para o tamanho da amostra total (𝑛 = 𝑛1 + 𝑛2 ) para testar a hipótese alternativa específica
( 𝐻1 : 𝜃 = 1) com determinado poder, cuja performance é avaliada por meio de simulação.
Seja 𝑝𝑘 = 𝑛𝑘 /𝑛, 𝑘 = 1,2 a proporção do tamanho de cada grupo em relação ao tamanho total e
assume-se que 𝑚𝑖𝑛(𝑝1 , 𝑝2 ) > 0. Fixando-se o nível de significância em 𝛼, o número de eventos para se
atingir o poder de (1 − 𝛽)100% é dado por:
Além de 𝑝1 e 𝑝2 , que já foram definidos, aparecem em (7.23) 𝑧1−𝛼 e 𝑧1−𝛽 , os percentis de ordem
(1 − 𝛼)100% e (1 − 𝛽)100% da distribuição normal padrão, respectivamente, e a margem de não
inferioridade (𝜃 − ).
Seja 𝑆(𝑡) a função de sobrevivência comum sob a hipótese alternativa (𝐻1 ) e 𝐺(𝑡) a função de
distribuição acumulada referente às censuras. Assim, sob 𝐻1 , a probabibilidade de que para um
∞
indivíduo ocorra um evento é 1 + ∫0 𝑆(𝑡)𝑑𝐺(𝑡). Em ensaios clínicos, em geral, no período de
recrutamento (𝑅) os pacientes são selecionados de forma uniforme e depois eles são acompanhados
por um período de 𝐹 unidades de tempo, tal que o período total do estudo é de 𝑅 + 𝐹.
Assumindo nenhuma perda de seguimento e que as variáveis de censura dos grupos são independentes
e com distribuição uniforme, 𝑈(𝐹, 𝑅 + 𝐹), pode-se mostrar-se que: 𝐺(𝑡) = 1 se 𝑡 ≤ 𝐹;
𝐺(𝑡) = 1 − (𝑡 − 𝐹)/𝑅 se 𝐹 < 𝑡 < 𝑅 + 𝐹; 𝐺(𝑡) = 0, caso contrário. Além disso, assume-se que para o
𝑘-ésimo grupo, a distribuição do tempo de sobrevivência é exponencial com taxa de falha (hazard)
𝜆𝑘 ( 𝑘 = 1,2) e sob 𝐻1 , 𝑆(𝑡) = exp{−𝜆1 𝑡}. Neste caso, a probabibilidade de que para um indivíduo
ocorra um evento é:
𝑒𝑥𝑝{−𝐹𝜆1 }
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) = 1 − ( ) (1 − 𝑒𝑥𝑝{−𝑅𝜆1 }) (7.24)
𝑅𝜆1
A fórmula apresentada foi derivada usando-se a teoria assintótica e o pressuposto de que os tempos de
censura e sobrevivência apresentam distribuição uniforme e exponencial, respectivamente.
Naturalmente, é possível estender para outras distribuições, com apropriadas escolhas para 𝑆(𝑡) e 𝐺(𝑡),
∞
mas os cálculos da probabilidade geral mencionada anteriormente, 1 + ∫0 𝑆(𝑡)𝑑𝐺(𝑡), podem ser
trabalhosos e complicados.
Para efeitos comparativos, Jung et al. (2005) citam o método descrito em Chow et al. (2003) para a
mesma situação considerada: comparação de dois grupos em ensaios de não inferioridade utilizando o
teste log-rank. Neste caso, supondo que sob 𝐻0 as duas curvas de sobrevivências são praticamente
equivalentes, 𝑆1 (𝑡) ≈ 𝑆2 (𝑡), a probabibilidade de que para um indivíduo ocorra um evento é:
(𝑧1−𝛼 + 𝑧1−𝛽 )2
𝐷𝐶ℎ𝑜𝑤𝑒𝑡𝑎𝑙(2003) = (7.26)
𝑝1 𝑝2 (𝑙𝑜𝑔𝜃⁻)2
De forma similar ao caso do método de Jung et al. (2005), o tamanho de amostra total pode ser
calculado como:
(𝑧1−𝛼 +𝑧1−𝛽 )2
𝐷𝐶ℎ𝑜𝑤𝑒𝑡𝑎𝑙(2003) 𝑝1 𝑝2 (𝑙𝑜𝑔𝜃⁻)2
𝑛𝐶ℎ𝑜𝑤𝑒𝑡𝑎𝑙(2003)= = (7.27)
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) 𝑒𝑥𝑝{−𝐹𝜆1 }
(1 − ) (1 − 𝑒𝑥𝑝{−𝑅𝜆1 })
𝑅𝜆1
Exemplo 7.10 - Cálculo do tamanho de amostra para ensaio de não inferioridade utilizando
o teste log-rank - método de Jung et al. (2005) ╬╬
Jung et al. (2005) fornecem algumas informações que serviram de base para o planejamento de um
ensaio de não inferioridade sobre câncer de mama. A dissecção de linfonodos axilares (ALND) foi
usada no tratamento de pacientes com câncer de mama com metástase ganglionar por longo tempo,
mas o seu papel é controverso.
Como o procedimento ALND está associado a significativa morbidade, alguns pesquisadores têm
tentado desenvolver alternativas menos invasivas para identificar metástase axilar. O linfonodo-
sentinela é o primeiro que drena um tipo específico de câncer no sistema linfático; assim, exame
histopatológico pode determinar o status da base linfática. A dissecação do linfonodo-sentinela
(SLND) tem se mostrado capaz de classificar acuradamente tumores de câncer de mama por meio da
identificação de pacientes com metástase axilar e acredita-se que pode ser uma alternativa ao ALND.
Em estudo oncológico do Grupo do Colégio Americano de Cirurgiões, pacientes com câncer de mama
com SLND positivo são aleatorizados para um dos dois braços do estudo (braço 1: com o procedimento
ALND e braço 2: sem ALND) na base de 1-1 (𝑝1 = 𝑝2 = 1/2). Nesse estudo, quer-se testar a hipótese
nula de a sobrevivência dos pacientes do braço 2 ser significativamente pior do que do braço 1.
Assume-se que a taxa de risco acima de 1,3 seja clinicamente significativa. Por estudos anteriores,
sabe-se que a taxa anual de falha do ALND é de 𝜆1 = 0,0446 e passado o período do recrutamento de
cinco anos (𝑅 = 5) considerou-se razoável ter acompanhamento de cinco anos (𝐹 = 5).
A meta é ser capaz de detectar a não inferioridade do braço 2 em relação ao braço 1, com poder de 90%
e nível de significância de 5% e utilizando o teste log-rank para o estudo de sobrevivência.
aproximado para 500. Pela fórmula (7.24), calcula-se que a probabilidade de morte de um paciente é
𝑒𝑥𝑝{−𝐹𝜆1 } 𝑒𝑥𝑝{−5(0,0446)}
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) = 1 − ( ) (1 − 𝑒𝑥𝑝{−𝑅𝜆1 }) = 1 − ( ) (1 − 𝑒𝑥𝑝{−5(0,0446)})
𝑅𝜆1 5(0,0446)
= 0,283. Assim, como determina a fórmula (7.25), o tamanho de amostra total é 𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) =
𝐷𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) 498,6
= 0,283 = 1761,837. Neste caso, será aproximado para 1.800, sendo 900 em cada grupo.
𝑃𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005)
A Tabela 7.16 mostra os resultados para outros períodos de recrutamentos (𝑅), mantendo o mesmo
período de seguimento (𝐹 = 5) e a mesma taxa anual de falha do braço 1 (𝜆1 = 0,0446). Novamente,
o nível de significância e poder foram fixados em 0,05 e 90%.
Tabela 7.16 - Tamanho de amostra total, 𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) , fórmula (7.25), para cinco
períodos de recrutamento (𝑅) e período de seguimento de cinco anos (𝐹 = 5)
Com a redução do tempo total de estudo (𝑅 + 𝐹), há necessidade de recrutar mais participantes
(𝑛𝐽𝑢𝑛𝑔𝑒𝑡𝑎𝑙(2005) aumenta). Uma questão interessante que surge é qual seria a combinação ideal dos
períodos de recrutamento (𝑅) e acompanhamento (𝐹).
No artigo de Jung et al. (2005) há outra solução que pode ser útil na prática, quando é fornecida a taxa
de recrutamento em vez do período de recrutamento. É necessário método numérico, tal como o
método iterativo de Newton Raphson.
Nesta seção são mencionados brevemente alguns tópicos que aparecem com certa frequência na
prática, fornecendo referências tanto para a metodologia como para o cálculo do tamanho da amostra
e do poder.
A situação mais tradicional de análise de sobrevivência é aquela em que o tempo exato é anotado.
Nesse caso, o estimador de Kaplan-Meier, os modelos paramétricos ou o modelo de Cox podem
ser utilizados.
O tradicional método de tabela de vida é a forma mais simples para analisar dados de sobrevivência
para dados grupados. Outras opções podem ser encontradas em Peto (1973) e Turnbull (1976).
Entretanto esses métodos não permitem incorporar covariáveis, o que pode representar importante
limitação na prática.
A análise de dados com censura intervalar pode ser feita ajustando-se o tradicional modelo de riscos
proporcionais de Cox com aproximações da verossimilhança parcial. Destacam-se dois modelos de
regressão para tempos discretos: o modelo discreto de Cox (MDC) e o modelo discreto logístico
(MDL). Um teste do escore para discriminar entre esses dois modelos é apresentado por Colosimo et al.
(2000). Em dissertação de mestrado, Fonseca (2003) ilustra as três formas de análise de dados
censurados e intervalares (métodos de tabela de vida, MDC e MDL) por meio de dados reais e
simulados. São estabelecidas comparações, especialmente entre os modelos MDC e MDL, por
exemplo, em relação ao poder empírico para várias situações.
No tocante à determinação do tamanho de amostra, não foi localizado trabalho específico para os
modelos para tempos discretos (MDC e MDL), mas possivelmente podem-se fazer adaptações de
trabalhos mais gerais, sendo os de modelos lineares generalizados as principais referências,
considerando as funções de ligação correspondentes, como discutidos no capítulo 10.
Kim et al. (2016) propõem vasta e atualizada lista de referências sobre análise de sobrevivência para
dados grupados, com diferentes enfoques, métodos paramétricos e não paramétricos e também os
bayesianos. A metodologia do artigo foi ilustrada com o modelo de Weibull no caso especial da
comparação para dois grupos. Apresentam também um estudo de simulações para demonstrar o mérito
do método proposto. Segundo os autores, esse método pode ser facilmente estendido para
delineamentos mais complexos bem como para grande variedade de distribuições do tempo de
sobrevivência e de censura. Os resultados apresentados no artigo foram obtidos por aplicação de
procedimentos do SAS® ou executando um programa que escreveram no IML do SAS®.
Nas seções anteriores foram consideradas situações em que o evento de interesse é observado apenas
uma única vez durante o período de acompanhamento. Entretanto, em muitos estudos há interesse em
estudar o tempo até a ocorrência de vários eventos. Exemplos incluem a recorrência de alguns tipos de
infecção em pacientes com AIDS e múltiplos infartos em pacientes cardíacos. Este tópico é conhecido
na literatura, por exemplo, como análise de sobrevivência com eventos múltiplos (em inglês, clustered
survival times).
Existem modelos específicos, como os marginais e os condicionais. Revisão sobre o assunto pode
ser encontrada, por exemplo, no capítulo 8 de Therneau e Grambsch (2000) e no capítulo 10 de
Carvalho et al. (2011).
Xie e Waksman (2003) discutem sobre o delineamento e a determinação do tamanho da amostra (𝑛)
em ensaios clínicos com eventos múltiplos utilizando o modelo marginal de Lee, Wei e Amato (1992).
Os resultados de seus estudos de simulação demonstram que a fórmula proposta para 𝑛 funciona
satisfatoriamente. No artigo também comparam o delineamento de tempo único (por exemplo, o tempo
da ocorrência do primeiro evento) com o de eventos múltiplos em diferentes cenários.
7.6 Recursos computacionais para os cálculos do tamanho da amostra
e/ou do poder
A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e elas se encontram disponíveis para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬ ).
A solicitação de testes laboratoriais e exames é prática médica comum, tanto para a triagem de
pacientes ou diagnóstico definitivo de doenças, como também para o acompanhamento ou prognóstico
da evolução de um paciente. Em geral, procura-se um método que seja menos invasivo e que ofereça
menos riscos ao paciente, que tenha preço acessível e que seja de fácil implantação, para se tornar de
ampla utilização.
Além disso, em muitas situações há testes alternativos cuja qualidade deve ser comparada tanto entre
os existentes, como também com um novo teste. Os resultados de um novo teste devem ser comparados
com aqueles do teste que fornece o diagnóstico definitivo. Este último é conhecido como padrão-ouro,
por teoricamente produzir resultados corretos. Em geral, testes considerados como padrão-ouro são
caros, invasivos e frequentemente inviáveis de serem aplicados a indivíduos cujos resultados dos testes
de triagem indiquem que a condição está ausente.
Assim, uma questão relevante e essencial no contexto de diagnóstico na área da saúde é a avaliação da
qualidade (ou acurácia) de testes, métodos e aparelhos. Antes que um teste ou método de diagnóstico se
torne aceito para uso rotineiro, ele deve ser submetido à rigorosa avaliação em relação à sua capacidade
de discriminar condições (por exemplo, doente ou não). Ao lançar um kit de exame/teste diagnóstico,
o fabricante deve realizar um estudo sobre sua acurácia, cujos resultados são relatados na bula do kit.
De maneira geral, estudos devem ser feitos para a comprovação da qualidade de testes a serem
utilizados. Isso é feito numa fase de pesquisa em que a verdadeira condição do paciente é conhecida.
Existem medidas consagradas para caracterizar a acurácia de um teste que está sendo avaliado,
tal como sensibilidade e especificidade. Entretanto, na prática, o que interessa é otimizar a utilização
dos testes diagnósticos no sentido de maximizar as chances de diagnósticos corretos e minimizar as
chances de diagnósticos incorretos. Neste caso, também existem medidas que podem ser usadas,
tais como os valores de predição (positivo e negativo) e as probabilidades referentes aos falsos
resultados (positivo e negativo).
Para a realização de estudos de acurácia de testes diagnósticos, como sempre, é necessário fazer
cuidadoso planejamento, sendo que um dos pontos cruciais é o cálculo do número de participantes,
ou seja, a determinação do tamanho de amostra. O propósito de determinar o tamanho de amostra para
estudos de acurácia é assegurar que o estudo seja capaz de atingir seu alvo. Basicamente, os objetivos
de um estudo de acurácia são: a) estimar a acurácia de um teste diagnóstico; b) determinar se a acurácia
difere para dois ou mais testes diagnósticos; c) identificar o ponto de corte conveniente no caso em que
o diagnóstico for baseado em variável quantitativa.
Tais levantamentos demonstram a necessidade de mais atenção para os cálculos do tamanho de amostra
em estudos de acurácia de testes diagnósticos e identificam a importância da disseminação do conteúdo
deste capítulo cujo objetivo principal é apresentar algumas formas de dimensionar amostras para
estudos sobre acurácia de testes diagnósticos. Excelente revisão sobre o assunto é encontrada em
Obuchowski (1998), com 36 referências. Outra referência que merece menção é o capítulo 6 do livro
de Zhou et al. (2011). Destaca-se ainda o trabalho de Hajian-Tilaki (2014) sobre determinação de
amostra para testes diagnósticos, publicado em periódico de informática médica, no qual se encontram
exemplos adicionais, além de muitas referências que não foram incluídas na nossa seleção.
O bom uso de um teste diagnóstico requer, além de considerações clínicas, o conhecimento de medidas
que caracterizam a sua qualidade intrínseca, a sensibilidade e a especificidade, bem como os índices
que refletem a sua capacidade de produzir decisões clínicas corretas: o valor da predição positiva
e o valor da predição negativa. O exemplo a seguir dá ideia do tipo de dados e eventos tratados
neste capítulo.
Os resultados de uma pesquisa, apresentados na Tabela 8.1, podem ser assim interpretados: para os
realmente doentes, o resultado do teste foi correto em 90% e para os não doentes, 95%.
Tabela 8.1 - Resultados de uma pesquisa para investigar a qualidade de um teste clínico
Doença Teste
Total
(padrão-ouro) Positivo Negativo
Presente 90 10 100
Ausente 5 95 100
Total 95 105 200
Para definir os índices que descrevem o grau de confiabilidade de um teste, são de interesse os eventos
mostrados no Quadro 8.1.
Usando os resultados da Teoria de Probabilidades, a seguir são discutidos os quatro principais índices
nos quais é usualmente baseada a avaliação da qualidade de um teste diagnóstico: sensibilidade,
especificidade, valor da predição positiva e valor da predição negativa. Os eventos de interesse foram
definidos no Quadro 8.1 e os dados estão organizados na Tabela 8.2.
Sensibilidade e especificidade
Os nomes são descritivos: a sensibilidade mede a capacidade de reação do teste em um paciente doente,
enquanto que a especificidade mensura a não reação do teste em pacientes sem a doença, sendo o teste
específico para a doença em questão.
Na definição desses dois índices (𝑠, 𝑒), assume-se a existência de um padrão-ouro ou um teste
diagnóstico que sempre produz resultados corretos, correspondendo à condição verdadeira do paciente.
Além disso, assume-se que os pacientes são classificados apenas como doentes e não doentes, não se
admitindo estágios intermediários.
Como mostra a Tabela 8.3, para os dados genéricos da Tabela 8.2, pela definição de probabilidade
𝑎 𝑎 𝑑 𝑑
condicional, a sensibilidade é estimada por 𝑠 = 𝑛 = 𝑎+𝑏 e a especificidade por 𝑒 = 𝑛 = 𝑐+𝑑. A
1 2
Condição Teste
Total
verdadeira Positivo (𝑇+ ) Negativo (𝑇− )
𝑎 𝑏
Doente (𝐷+ ) 𝑠= 1−𝑠 = 1
𝑎+𝑏 𝑎+𝑏
𝑐 𝑑
Não doente (𝐷− ) 1−𝑒 = 𝑒= 1
𝑐+𝑑 𝑐+𝑑
𝑎 𝑑
A rigor, como indicação de estimativas, deveria ter sido usado o símbolo ^, isto é, 𝑠̂ = 𝑎+𝑏, 𝑒̂ = 𝑐+𝑑,
mas seguindo a literatura deste tópico o chapéu (^) será eliminado. Em geral, ficará subentendido pelo
contexto que se trata de estimativa e não de parâmetro conhecido.
Medidas obtidas pela combinação da sensibilidade e da especificidade
Odds ratio
A definição resulta na razão do produto da sensibilidade e especificidade pelo produto dos seus
complementares. Valor próximo de um indica que a chance (odds) de um resultado de teste positivo é a
mesma para pacientes com a condição (𝐷+ ) e sem a condição (𝐷− ); valores da razão das chances
superiores a um indicam que a chance de um resultado de teste positivo é mais alta para pacientes com
a condição. Consequentemente, valor inferior a um significa que há mais chances de um resultado de
teste ser positivo para pacientes sem a condição.
Índice de Youden
O índice de Youden (𝐼𝑌) varia entre −1 e 1, já que é definido por: 𝐼𝑌 = 𝑠 + 𝑒 − 1. No caso extremo
de sensibilidade e especificidade perfeitas (𝑠 = 𝑒 = 1), 𝐼𝑌 = 1. Quanto mais altas as somas de
classificações corretas dos testes nos casos em que a condição do paciente é conhecida, isto é, 𝑠 + 𝑒,
maior será 𝐼𝑌.
Razão de verossimilhanças
O índice da razão de verossimilhanças (𝑅𝑉) é definido como a razão entre probabilidades do resultado
do teste (positivo ou negativo) entre aqueles com a condição (𝐷+ ) e sem a condição (𝐷− ). Assim,
𝑃𝑟(𝑇 |𝐷 ) 𝑠 𝑃𝑟(𝑇 |𝐷 ) 1−𝑠
𝑅𝑉+ = 𝑃𝑟(𝑇+ |𝐷+) = 1−𝑒 e 𝑅𝑉− = 𝑃𝑟(𝑇−|𝐷+) = .
+ − − − 𝑒
A razão de verossimilhanças indica a magnitude da evidência de que determinado resultado do teste
(positivo ou negativo) fornece em favor da condição em relação à sua ausência. Valor de 𝑅𝑉 próximo
de um indica que o resultado do teste é igualmente provável no grupo com e sem a condição;
se 𝑅𝑉 > 1 (𝑅𝑉 < 1), há indicação de que o resultado do teste é mais provável entre aqueles com (sem)
a condição, comparado aos sem (com) a condição. Para testes com boa acurácia, espera-se que 𝑅𝑉+
seja “grande” e 𝑅𝑉− “pequeno”. Beck et al. (2009) apresentam uma tabela com valores que
caracterizam a qualidade diagnóstica dos testes.
Em outras palavras, não se pode depender apenas da sensibilidade e da especificidade, já que esses
índices são provenientes de uma situação em que há certeza sobre o diagnóstico, o que não acontece no
consultório médico. Daí a necessidade de se definir outros índices, que refletem melhor o que acontece
na prática. Nesse momento, interessa mais conhecer os índices denominados valor da predição positiva
(𝑉𝑃𝑃) e valor da predição negativa (𝑉𝑃𝑁), definidos, respectivamente, por: 𝑉𝑃𝑃 = 𝑃𝑟(𝐷+ | 𝑇+ )
e 𝑉𝑃𝑁 = 𝑃𝑟(𝐷− |𝑇− ).
Em palavras, 𝑉𝑃𝑃 é a probabilidade de o paciente estar realmente doente quando o resultado do teste é
positivo, enquanto que 𝑉𝑃𝑁 é a probabilidade de o paciente não estar doente quando o resultado do
teste é negativo. São probabilidades condicionais, tal que o evento conhecido a priori é o resultado do
teste, aquele que na prática acontece primeiro.
Uma maneira fácil de calcular os índices 𝑉𝑃𝑃 e 𝑉𝑃𝑁 é a partir da Tabela 8.4, sugerida por Vecchio
(1966). Seja 𝑝 = 𝑃𝑟 (𝐷+ ), a prevalência da doença na população de interesse - a proporção de pessoas
doentes - também chamada de probabilidade de doença pré-teste.
Tabela 8.4 - Probabilidades necessárias para o cálculo dos índices 𝑉𝑃𝑃 e 𝑉𝑃𝑁
O valor de predição positiva é obtido dividindo-se a frequência dos “verdadeiros” positivos, aqueles
oriundos de pacientes doentes, pelo total de positivos. Obtém-se a seguinte expressão
𝑝𝑠
𝑉𝑃𝑃 = 𝑝𝑠+(1−𝑝)(1−𝑒). De forma análoga, considerando-se os “verdadeiros” negativos, obtém-se
( 1−𝑝)𝑒
o valor da predição negativa: 𝑉𝑃𝑁 = 𝑝(1−𝑠)+ (1−𝑝)𝑒. As expressões para 𝑉𝑃𝑃 = 𝑃𝑟(𝐷+ | 𝑇+ ) e
𝑉𝑃𝑁 = 𝑃𝑟(𝐷− |𝑇− ) também podem ser facilmente obtidas pela aplicação do teorema de Bayes.
Ambas as expressões dependem do conhecimento da estimativa da prevalência da doença na população
de interesse. Essas são probabilidades de resultados corretos de diagnóstico.
As probabilidades 𝑃𝐹𝑃 = 𝑃𝑟(D− |T+ ) = 1 − 𝑃𝑟(𝐷+ |𝑇+ ) = 1 − 𝑉𝑃𝑃 e 𝑃𝐹𝑁 = 𝑃𝑟(𝐷+ |𝑇− ) =
1 − 𝑃𝑟(𝐷− |𝑇− ) = 1 − 𝑉𝑃𝑁 referem-se, respectivamente, ao falso-positivo e falso-negativo, a decisões
incorretas baseadas no teste diagnóstico. São os complementares de 𝑉𝑃𝑃 e 𝑉𝑃𝑁, respectivamente,
e frequentemente são conhecidos como taxas de falsos resultados.
Como não há, na literatura, padronização relativa a nomes dos índices de um teste diagnóstico, às vezes
há confusão de interpretação. Por exemplo, as probabilidades de falso-positivo e falso-negativo são
muito frequentemente usadas para as quantidades (1 − 𝑠) e (1 − 𝑒), quando deveriam ser reservados
para (1 − 𝑉𝑃𝑃) e (1 − 𝑉𝑃𝑁). Por isso, na medida do possível, esses termos devem ser evitados ou
utilizados com os devidos cuidados de interpretação. Para ser consistente com algumas referências
citadas no texto, serão adotadas as seguintes nomenclaturas: taxa de verdadeiro-positivos (𝑇𝑉𝑃 = 𝑠) e
taxa de falso-positivos (𝑇𝐹𝑃 = 1 − 𝑒).
Outra dificuldade é que muitos autores admitem, implicitamente, que a prevalência que ocorre na
tabela é a mesma na população de interesse e, assim, usam a tabela 2x2, como a Tabela 8.2,
para o cálculo dos valores de predição. Nada justifica essa hipótese e tal procedimento pode levar a
sérios erros.
(1−𝑝)(1−𝑒)
A proporção de falso-positivo (𝑃𝐹𝑃 = 1 − 𝑉𝑃𝑃), é calculada como 𝑃𝐹𝑃 = 𝑝𝑠+(1−𝑝)(1−𝑒), enquanto
𝑝(1−𝑠)
que a proporção de falso-negativo (𝑃𝐹𝑁 = 1 − 𝑉𝑃𝑁), é 𝑃𝐹𝑁 = 𝑝(1−𝑠)+ (1−𝑝)𝑒.
Os índices apresentados até agora para definir qualidade de um teste clínico requerem que o resultado
do teste seja, por simplicidade, classificado como positivo ou negativo e que a classificação do
diagnóstico também seja dicotômica (por exemplo, doente ou sadio).
Para dados de variáveis contínuas, tais como dosagens, surge a questão de como dicotomizar de forma
que os dados sejam colocados no formato da tabela 2x2 considerada anteriormente. É preciso, então,
estabelecer o limite entre o que será considerado sadio ou doente, o valor a partir do qual o teste é
considerado positivo ou negativo. Esse limite é chamado de valor de referência ou ponto de corte.
Assim, cada teste clínico ou critério de classificação é caracterizado por um valor de referência e,
variando-se esse ponto de corte, a sensibilidade e a especificidade também variam. Para cada situação é
preciso escolher o valor que fornece a combinação de sensibilidade e especificidade mais adequada.
A cada ponto de corte está associada uma sensibilidade e uma especificidade. Assim, frequentemente
podem-se alterar a sensibilidade e a especificidade de um teste trocando-se o ponto de corte.
Uma possibilidade para a escolha do ponto de corte seria calcular a sensibilidade e a especificidade
para vários valores de referência e, então, adotar aquele que produz a combinação mais desejável para
essas duas medidas da qualidade de um teste. Por exemplo, Galen e Gambino (1975) sugeriram uma
medida de eficiência definida pela soma da sensibilidade e especificidade.
Curva ROC
Procedimento alternativo para a escolha do ponto de corte é a análise das curvas de operação
característica (em inglês ROC, a abreviação de receiver operator characteristic), nome recebido
porque o método originou-se em estudos de detecção de sinais por operadores de radar.
A curva ROC é uma representação gráfica da sensibilidade (𝑠) no eixo vertical e o complementar da
especificidade (𝑒), (1 − 𝑒), no eixo horizontal para diversos pontos de corte. Adotando a nomenclatura
de algumas referências citadas no texto, a curva ROC é uma representação gráfica da 𝑇𝑉𝑃 = 𝑠 no eixo
vertical e da 𝑇𝐹𝑃 = 1 − 𝑒 no eixo horizontal para diversos pontos de corte.
A curva ROC tem muitas vantagens sobre medidas isoladas de sensibilidade e especificidade (ZWEIG
e CAMPBELL, 1993). Por exemplo, é uma representação visual e não requer a seleção de pontos de
corte particulares, pois todos os de interesse são incluídos. Como a sensibilidade e a especificidade são
independentes da prevalência da doença, a curva ROC também tem essa propriedade. Além disso,
não depende da escala dos resultados do teste, sendo invariante em relação a transformações
monotônicas dos resultados do teste, tais como logarítmica e raiz quadrada (CAMPBELL, 1994).
De fato, a curva empírica depende somente da ordenação das observações, não da magnitude real dos
resultados do teste.
Para um teste, a curva ROC ideal, como a da esquerda da Figura 8.1, sobe quase que verticalmente do
canto inferior esquerdo e, então, move-se horizontalmente quase na linha superior. A curva ROC
empírica, como na Figura 8.1 à direita, é formada unindo-se os pontos mostrados, indicando que
diferentes critérios para interpretar um teste produzem valores diferentes para a sensibilidade
e especificidade.
Além da curva empírica, que consiste na união dos pontos grafados, existem métodos para o ajuste da
curva ROC (ALONZO e PEPE, 2002). Detalhes desse ajuste são apresentados em Pires (2003).
Considerando a curva ROC, existem algumas formas de resumir a acurácia de um teste diagnóstico,
com destaque para a área sob a curva ROC (𝐴𝑆𝐶𝑅𝑂𝐶 ). Tal índice varia entre zero e um e, de certa
forma, mede a capacidade que um teste tem de discriminar entre pacientes com e sem a condição
pesquisada. Uma área igual a um indica que o teste tem acurácia perfeita. Quanto mais próximo de um,
melhor será o teste. O limite prático para 𝐴𝑆𝐶𝑅𝑂𝐶 é de 0,5, caso em que a probabilidade de distinguir
pacientes com e sem a condição pesquisada é exatamente a mesma. Acima desse valor o teste tem
alguma utilidade discriminatória. Detalhes adicionais podem ser encontrados em Pires (2003)
e Vaz (2009).
A área sob a curva ROC pode levar a conclusões incorretas quando se compara a acurácia de dois
testes. As áreas sob as curvas ROC de dois testes podem ser iguais, mas os testes podem diferir em
regiões clinicamente importantes da curva. Por outro lado, as curvas ROC podem diferir, mas os testes
podem ter a mesma área nas regiões clinicamente relevantes. A Figura 8.3 apresenta duas curvas ROC,
que se cruzam no complementar da especificidade igual a 0,14. A área sob a curva A é maior que a da
B. No entanto, se o interesse clínico está em especificidade alta (acima de 0,86), o teste B é preferível
ao teste A.
O dimensionamento de amostra para estudos de acurácia de testes diagnósticos pode ser feito com
vários enfoques. Pode haver interesse na estimação da sensibilidade e/ou especificidade de um teste
diagnóstico, a questão pode ser respondida por meio da aplicação de testes de hipóteses envolvendo um
único teste que deve ser comparado com um valor pré-especificado ou, ainda, a comparação de
acurácia de dois testes, via testes de hipóteses ou mesmo intervalos de confiança.
As medidas de acurácia também podem variar, pode ser a sensibilidade e/ou a especificidade ou é
muito comum utilizar a curva ROC. As medidas mais comuns associadas à curva ROC são: a) área sob
a curva, que é uma medida geral do teste inerente à sua habilidade de distinguir entre a condição de
pacientes com e sem a condição pesquisada; b) área parcial sob a curva, que descreve a acurácia para
uma variação de probabilidade de falso-positivo (𝑃𝐹𝑃); c) a sensibilidade para 𝑃𝐹𝑃 fixo, que fornece a
verdadeira taxa de resultados positivos (𝑉𝑃𝑃) para único 𝑃𝐹𝑃 pré-especificado; d) razão de
verossimilhanças, que descreve a troca na chance (odds), favorecendo a condição em relação à sua
ausência, dado um particular resultado do teste (positivo ou negativo).
Como as medidas de acurácia são na verdade probabilidades (ou seja, proporções),
várias nomenclaturas serão as mesmas que as utilizadas no capítulo 3 (sobre proporções) e nem sempre
serão repetidas.
Uma consequência de usar poucos indivíduos em estudos que têm como objetivo obter estimativas de
sensibilidade/especificidade é que elas podem ser imprecisas e, portanto, não conseguir fornecer
informações clinicamente úteis. Além disso, a avaliação de um teste diagnóstico com uma amostra cuja
prevalência da doença seja diferente daquela da população para o qual o teste foi desenvolvido pode
fornecer informação errônea. Assim, o dimensionamento de amostra nesse tipo de estudo é de
extrema importância.
Nesta seção são considerados dois grupos (ou dois estratos), por exemplo, dos doentes (𝐷+ ) e dos não
doentes (𝐷− ), erro de estimação absoluta (𝑑𝑎𝑏𝑠 ) e aproximação para a normal, tal que 𝑧1−𝛼/2 é o
percentil de ordem (1 − 𝛼/2)100% da distribuição normal padrão.
Os tamanhos da amostra para a estimação da sensibilidade (𝑠) e da especificidade (𝑒) podem ser
calculados da mesma maneira que para uma proporção, por exemplo, usando a fórmula (3.4)
apresentada no capítulo 3. As fórmulas correspondentes à sensibilidade (𝑛𝑠 ) e à especificidade (𝑛𝑒 )
são:
2
𝑧1−𝛼/2 𝑠(1 − 𝑠)
𝑛𝑠 = (8.1)
(𝑑𝑎𝑏𝑠 )2
2
𝑧1−𝛼/2 𝑒(1 − 𝑒)
𝑛𝑒 = (8.2)
(𝑑𝑎𝑏𝑠 )2
Em resumo, o tamanho da amostra depende dos seguintes elementos: nível de confiança e precisão
clinicamente aceitáveis, além dos valores hipotéticos de sensibilidade e especificidade que podem ser
obtidos da literatura, em bulas ou por meio de estudo-piloto, quando possível. Se o pesquisador não os
possui, como já comentado no capítulo 3 sobre proporções, existe também a escolha conservadora
igual a 0,50 (50%).
2
𝑧1−𝛼/2 𝑠(1 − 𝑠)
𝑛𝑠(𝑝) = (8.3)
(𝑑𝑎𝑏𝑠 )2 𝑝
2
𝑧1−𝛼/2 𝑒(1 − 𝑒)
𝑛𝑒(𝑝) = (8.4)
(𝑑𝑎𝑏𝑠 )2 (1 − 𝑝)
As fórmulas (8.3) e (8.4) são muito parecidas, exceto que no numerador naturalmente aparecem,
respectivamente, a sensibilidade (𝑠) e a especificidade (𝑒) e no denominador de (8.3) aparece a
prevalência 𝑝, enquanto que em (8.4), seu complementar (1 − 𝑝). Assim, o tamanho da amostra
necessário para estimar a sensibilidade pode ser diferente daquele requerido para a especificidade.
Para a sensibilidade, quanto maior a prevalência, menor o número de indivíduos requeridos.
Para a especificidade, ocorre o inverso: para prevalências baixas, o número de indivíduos também será
baixo. Na prática, torna-se necessário fazer os dois cálculos utilizando as fórmulas (8.3) e (8.4) e então
escolher o maior resultado obtido, garantindo, assim, que o tamanho de amostra será adequado para a
estimação das duas medidas de acurácia (𝑠, 𝑒).
A Tabela 8.5 mostra os resultados de outras combinações dos termos envolvidos nas fórmulas (8.3) e
(8.4), mantendo-se 𝑝 = 0,20. Nota-se que o tamanho da amostra referente à sensibilidade é sempre
superior ao da especificidade (pelo menos o dobro) e que diminuir a precisão pela metade, isto é, passar
de 𝑑𝑎𝑏𝑠 = 0,10 para 𝑑𝑎𝑏𝑠 = 0,05, tem como consequência substantivo aumento do tamanho da
amostra (cerca de quatro vezes). É fácil verificar que, à medida que 𝑝 aumenta, os tamanhos da amostra
(𝑛𝑠(𝑝) e 𝑛𝑒(𝑝) ) diminuem.
Nesta seção são apresentadas as fórmulas gerais para os tamanhos de amostra com dois tipos de
enfoque (teste de hipóteses e intervalo de confiança) para a comparação da acurácia de um único teste
com um valor pré-especificado.
A seguir são apresentadas fórmulas para intervalos de confiança (𝐼𝐶) para a sensibilidade,
especificidade e para as razões de verossimilhanças positiva e negativa. A partir desses intervalos (𝐼𝐶)
é possível obter os tamanhos de amostra para o caso balanceado (𝑛1 = 𝑛2 ) ou para o caso mais geral,
em que 𝑛1 ≠ 𝑛2 .
Para a comparação de uma medida de acurácia de um teste (𝜃1 ) com um valor pré-especificado (𝜃0 ),
por exemplo, de um teste-padrão, a questão pode ser formalizada por meio do procedimento de teste de
hipóteses (𝑇𝐻), 𝐻0 : 𝜃1 = 𝜃0 versus 𝐻1 : 𝜃1 ≠ 𝜃0 , ou pela construção de um intervalo de confiança (𝐼𝐶)
para 𝜃1 com comprimento 𝐿. As fórmulas gerais para os cálculos do tamanho de amostra necessário
são, respectivamente:
2
(𝑧1−𝛼/2 √𝑉0 (𝜃̂1 ) + 𝑧1−𝛽 √𝑉1 (𝜃̂1 ))
(8.5)
𝑛𝑇𝐻 =
(𝜃0 − 𝜃1 )2
2
𝑧1−𝛼/2 𝑉(𝜃̂1 )
𝑛𝐼𝐶 = (8.6)
𝐿2
̂1 ), 𝑉1 (𝜃
As fórmulas para as variâncias que aparecem em (8.5) e (8.6), 𝑉0 (𝜃 ̂1 ), sob 𝐻0 e 𝐻1 ,
respectivamente, e 𝑉(𝜃̂1 ), no caso de 𝐼𝐶, dependem do critério utilizado e serão apresentadas mais
adiante para algumas situações.
Razões de verossimilhanças
Simel et al. (1991) apresentam um método para calcular intervalo de confiança para razões de
verossimilhanças utilizando testes com resultados dicotômicos. Nesse caso, os dados podem ser
organizados como na Tabela 8.2, que consiste no cruzamento de dois resultados, obtidos pelo teste
padrão-ouro, quando a condição verdadeira é conhecida, presente (𝐷+ ) ou ausente (𝐷− ), e pelo teste
posto à prova, positivo (𝑇+ ) ou negativo (𝑇− ). Para facilitar o acompanhamento das fórmulas,
a notação utilizada será repetida na Tabela 8.6.
Tabela 8.6 - Dados genéricos de um estudo sobre acurácia de teste diagnóstico
Os intervalos de confiança (𝐼𝐶) aproximados para a sensibilidade (sens) e para a especificidade (espec)
são dados por:
𝑎 𝑏
𝑠(1 − 𝑠) 𝑎 ×
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑠𝑒𝑛𝑠: 𝑠 ± 𝑧1−𝛼/2 √ = ± 𝑧1−𝛼/2 √𝑎+𝑏 𝑎+𝑏 (8.7)
𝑛1 𝑎+𝑏 𝑎+𝑏
𝑑 𝑐
𝑒(1 − 𝑒) 𝑑 ×
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑒𝑠𝑝𝑒𝑐: 𝑒 ± 𝑧1−𝛼/2 √ = ± 𝑧1−𝛼/2 √𝑐+𝑑 𝑐+𝑑 (8.8)
𝑛2 𝑐+𝑑 𝑐+𝑑
Os intervalos de confiança (𝐼𝐶) para as razões de verossimilhanças positiva (𝑅𝑉+ ) e negativa (𝑅𝑉− )
são obtidos a partir das seguintes expressões:
𝑠 1−𝑠 𝑒
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑅𝑉+ : 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + } (8.9)
1−𝑒 𝑎 𝑐
1−𝑠 𝑠 1−𝑒
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑅𝑉− : 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + } (8.10)
𝑒 𝑏 𝑑
𝑎 𝑐
𝑧1−𝛼/2 √𝑏(𝑎+𝑏) + 𝑑(𝑐+𝑑)}, respectivamente.
A fórmula geral para os dois intervalos de confiança apresentados pelo método da razão de
verossimilhança (𝑅𝑉) é a seguinte:
𝑝1 1 − 𝑝1 1 − 𝑝2
𝐼𝐶 𝑝𝑎𝑟𝑎 𝑅𝑉𝑥 : 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + } (8.11)
𝑝2 𝑛1 𝑝1 𝑛2 𝑝2
Nos intervalos de confiança (8.7), (8.8), (8.9), (8.10) e (8.11), 𝑧1−𝛼/2 é o percentil de ordem
(1 − 𝛼/2)100% da distribuição normal padrão.
Os tamanhos de amostra (𝑛1 e 𝑛2 ) dos dois grupos (𝐷+ e 𝐷− ) podem ser obtidos a partir dos intervalos
de confiança (𝐼𝐶). Por exemplo, para 𝑅𝑉+ , supondo que 𝑛1 = 𝑛2 = 𝑛, lembrando que 𝑠 = 𝑎/𝑛 e
1 − 𝑒 = 𝑐/𝑛, consequentemente 𝑎 = 𝑛𝑠 e 𝑐 = 𝑛(1 − 𝑒). E estabelecendo um valor mínimo para
𝑠
𝑅𝑉+ (𝑚𝑖𝑛 𝑅𝑉+ ), tal que o que importa é o limite inferior do 𝐼𝐶, isto é, 𝑚𝑖𝑛 𝑅𝑉+ = 𝑒𝑥𝑝 {𝑙𝑜𝑔 (1−𝑒) −
1−𝑠 𝑒
𝑧1−𝛼/2 √ 𝑛𝑠 + 𝑛(1−𝑒)}, pode-se mostrar que:
1−𝑠 𝑒
+ 1−𝑒
𝑠
𝑛𝑚𝑖𝑛 𝑅𝑉+ = 2
𝑙𝑜𝑔(
𝑠
)−𝑙𝑜𝑔(𝑚𝑖𝑛{𝑅𝑉+ }) (8.12)
1−𝑒
( )
𝑧1−𝛼/2
Simel et al. (1991) estendem o desenvolvimento de tabelas 2x2 (como a da Tabela 8.6) para outras
duas situações de interesse: a) resultados do teste podem ser positivo, negativo e inconclusivo (não
positivo ou não negativo) e podem ser organizados em uma tabela 2x3; b) resultados do teste são
apresentados em uma escala ordinal que podem ser organizados em uma tabela 2x𝑟 com 𝑟 > 2.
𝑎 30 30
𝑠 𝑠= = = = 0,75
𝑎 + 𝑏 30 + 10 40
𝑑 45 45
𝑒 𝑒= = = = 0,90
𝑐 + 𝑑 5 + 45 50
𝑠 0,75 0,75
𝑅𝑉+ 𝑅𝑉+ = = = = 7,5
1 − 𝑒 1 − 0,90 0,10
1 − 𝑠 1 − 0,75 0,25
𝑅𝑉− 𝑅𝑉− = = = = 0,28
𝑒 0,90 0,90
Quadro 8.3 - Cálculos dos intervalos de confiança (IC) para medidas de acurácia
Medida de acurácia
Intervalo de 95% de confiança
(nº da fórmula do IC)
𝑎 𝑏 30 10
𝑎 × 30 ×
± 𝑧1−𝛼/2 √𝑎+𝑏 𝑎+𝑏 = ± 1,96√30+10 30+10
𝑎+𝑏 𝑛1 30 + 10 40
𝑠 (8.7)
0,75 × 0,25
= 0,75 ± 1,96√ : (0,62; 0,88)
40
𝑑 𝑐 45 5
𝑑 × 45 ×
± 𝑧1−𝛼/2 √𝑐+𝑑 𝑐+𝑑 = ± 1,96√5+45 5+45
𝑐+𝑑 𝑐+𝑑 5 + 45 5 + 45
𝑒 (8.8)
0,90 × 0,10
= 0,90 ± 1,96√ : (0,82; 0,98)
50
𝑠 1−𝑠 𝑒
𝑒𝑥𝑝 {𝑙𝑜𝑔 ( ) ± 𝑧1−𝛼/2 √ + }
1−𝑒 𝑎 𝑐
0,75
= 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( )
𝑅𝑉+ (8.9) 1 − 0,90
1 − 0,75 0,90
± 1,96√ + }=
30 5
1 − 0,75
= 𝑒𝑥𝑝 {𝑙𝑜𝑔 ( )
𝑅𝑉− (8.10) 0,90
0,75 1 − 0,10
± 1,96√ + }=
10 45
Baseado em dados de um estudo-piloto, acredita-se que a sensibilidade de um novo teste seja pelo
menos 80% e a especificidade 73%. Portanto, a razão de verossimilhança positiva é igual a
𝑠 0,80
𝑅𝑉+ = = = 2,96. Segundo a opinião de especialistas, o teste será clinicamente útil se 𝑅𝑉+
1−𝑒 1−0,73
for igual a pelo menos dois (𝑅𝑉+ ≥ 2). O objetivo é determinar quantos pacientes com e sem a doença
seriam necessários para realizar o estudo de forma a estimar a sensibilidade a partir da construção do
intervalo de 95% de confiança para 𝑅𝑉+ .
Utilizando a fórmula (8.11) e fazendo-se a suposição de que há mesmo número com e sem a doença
(𝑛1 = 𝑛2 = 𝑛), usando-se a informação que 𝑝1 = 𝑠 = 0,80, 𝑝2 = 1 − 𝑒 = 0,27 e 𝑅𝑉+ = 2,96, com valor
Resolvendo-se essa equação, cuja incógnita é 𝑛, basta tomar o logaritmo em ambos os lados da
equação e isolar 𝑛, obtém-se que 𝑛 = 73,45. Assim, são necessários 74 pacientes com a doença e 74
pacientes sem a doença. Como comentado anteriormente, de forma equivalente, o tamanho de amostra
pode ser obtido pela fórmula (8.12).
A Tabela 8.7 a seguir apresenta o tamanho de amostra utilizando a fórmula (8.12) para algumas
combinações de sensibilidade e especificidade.
Tabela 8.7 - Tamanho de amostra (𝑛𝑚𝑖𝑛 𝑅𝑉+ ), obtido pela fórmula (8.12),
para algumas combinações de sensibilidade e especificidade
A seguir, considera-se o caso em que 𝑛1 ≠ 𝑛2 , já que nem sempre é fácil encontrar pacientes com a
doença estudada. Suponha-se que, no caso anterior, os pesquisadores consigam recrutar somente
aproximadamente um paciente com a doença para cada cinco sem a doença. Nesse caso, 𝑛1 = 0,2𝑛2 ,
sendo 𝑛1 e 𝑛2 os números de participantes com e sem a doença, respectivamente. A partir da equação
0,80 1 0,20 1 0,73 0,25 2,70
2,0 = 𝑒𝑥𝑝 {𝑙𝑜𝑔 (0,27) − 1,96√[𝑛 +𝑛 ]} = 𝑒𝑥𝑝 {𝑙𝑜𝑔(2,96) − 1,96√[0,2𝑛 + ]} ou ainda
1 0,80 2 0,27 2 𝑛2
3,95
𝑙𝑜𝑔(2,0) = {𝑙𝑜𝑔(2,96) − 1,96√ 𝑛 }, obtém-se como solução 𝑛2 = 98,32. Assim, são necessários 99
2
pacientes sem a doença e 20 (cerca de 20% de 99) com a doença. Para ficar mais próximo da taxa de
um para cinco, podem-se recrutar 100 pacientes sem a doença e 20 com a doença.
O mesmo tipo de raciocínio pode ser feito supondo-se que novo teste para diagnóstico esteja disponível
e que seja considerado clinicamente útil se a razão de verossimilhança negativa for no máximo 0,4
(𝑅𝑉− ≤ 0,4). Acredita-se que a sensibilidade desse novo teste seja de pelo menos 90%.
Para o cálculo do número de participantes do estudo, nesse caso balanceado (𝑛1 = 𝑛2 ) e fixando-se
𝑅𝑉− = 0,2, novamente utilizando a fórmula (8.11), tem-se que 𝑝1 = 1 − 𝑠 = 0,10. Pela definição de
𝑅𝑉− = (1 − 𝑠)/𝑒, sai que 𝑝2 = 𝑒 = 0,50. Substituindo o valor máximo de 𝑅𝑉− (0,4) em (8.11), isto é,
Obuchowski e McClish (1997) apresentam fórmulas de tamanho de amostra baseadas na área da curva
ROC e a taxa de falso-positivos, nesse caso, definida como o complementar da especificidade
(𝑇𝐹𝑃 = 1 − 𝑒). Assume-se que os resultados dos testes são provenientes de distribuições normais.
Sejam 𝑋 e 𝑌, respectivamente, as variáveis referentes aos resultados dos testes para o grupo dos
controles (𝐶) e dos doentes (𝐷) que supostamente seguem a distribuição normal, respectivamente,
com os seguintes parâmetros: 𝑋~𝑁(𝜇𝐶 ; 𝜎𝐶2 ) e 𝑌~𝑁(𝜇𝐷 ; 𝜎𝐷2 ), que sem perda de generalidade,
supõe-se que 𝜇𝐷 ≥ 𝜇𝐶 .
A área da curva ROC (𝜃) é definida a partir dos parâmetros 𝐴 = (𝜇𝐷 − 𝜇𝐶 )/𝜎𝐷 e 𝐵 = 𝜎𝐶 /𝜎𝐷
da seguinte forma:
𝑐2,
𝜃 = ∫ Φ(𝐴 + 𝐵𝜈) 𝜙(𝜈)𝑑𝜈 (8.13)
𝑐1,
Existem algoritmos para estimar 𝐴 e 𝐵 (𝐴̂ e 𝐵̂), por exemplo, utilizando o método de máxima
verossimilhança. Ao planejar o estudo com esse tipo de procedimento, será necessário conhecer as
variâncias de 𝐴̂ e 𝐵̂ e a covariância entre 𝐴̂ e 𝐵̂.
Comparação de dois testes diagnósticos usando a diferença entre medidas de acurácia baseadas
na curva ROC
Sejam {𝑋1 , 𝑌1 }, {𝑋2 , 𝑌2 } os resultados dos testes do grupo dos pacientes normais (𝐶) e doentes (𝐷),
para os testes 1 e 2, que supostamente seguem a distribuição normal com os seguintes parâmetros:
𝑋1 ~𝑁(𝜇𝐶1 , 𝜎𝐶21 ), 𝑌1 ~𝑁(𝜇𝐷1 , 𝜎𝐷21 ), 𝑋2 ~𝑁(𝜇𝐶2 , 𝜎𝐶22 ) e 𝑌2 ~𝑁(𝜇𝐷2 , 𝜎𝐷22 ).
Seja Δ a diferença entre medidas de acurácia de dois testes diagnósticos baseadas na curva ROC, isto é,
Δ = 𝜃1 − 𝜃2 , sendo que 𝜃𝑖 denota a acurácia (área da curva ROC) do 𝑖-ésimo teste diagóstico.
̂/√𝑉𝑎𝑟0 (Δ
A estatística do teste sobre a igualdade das duas acurácias (𝐻0 : Δ = 0) é Δ ̂), sendo Δ
̂ a
̂) a sua variância sob a hipótese nula (𝐻0 ).
estimativa de máxima verossimilhança de Δ e 𝑉𝑎𝑟0 (Δ
Nesse âmbito, para o nível de significância 𝛼 e poder (1 − 𝛽), a fórmula básica para o 𝑛D , o número de
pacientes doentes (ou com a condição pesquisada), é:
2
̂) + 𝑧1−𝛽 √𝑉1 (Δ
(𝑧1−𝛼/2 √𝑉0 (Δ ̂))
(8.15)
𝑛𝐷 =
Δ2
Para o caso de comparação envolvendo as curvas ROC, segundo Obuchowski e McClish (1997), a
̂) como para 𝑉1 (Δ
fórmula geral da variância, tanto para 𝑉0 (Δ ̂), é 𝑉̂ (Δ
̂) = 𝑉̂ (𝜃̂1 ) + 𝑉̂ (𝜃̂2 ) −
2𝐶̂ (𝜃̂1 , 𝜃̂2 ), sendo 𝐶̂ (𝜃̂1 , 𝜃̂2 ) a covariância e 𝑉̂ (𝜃̂𝑖 ) a estimativa da variância associada a 𝜃̂𝑖 (𝑖 = 1,2)
dada por:
2 2 2
𝑉̂ (𝜃̂𝑖 ) = 𝑓𝑖 2 (1 + 𝐵̂𝑖 /𝑅 + 𝐴̂𝑖 /2) + 𝑔𝑖 2 (𝐵̂𝑖 (1 + 𝑅)/2𝑅) , 𝑖 = 1, 2 (8.16)
Em (8.16), aparecem os estimadores de 𝐴 = (𝜇𝐷 − 𝜇𝐶 )/𝜎𝐷 (𝐴̂1 , 𝐴̂2 ) e de 𝐵 = 𝜎𝐶 /𝜎𝐷 (𝐵̂1 , 𝐵̂2 ),
os índices 1 e 2 são para os dois testes/métodos comparados e 𝑅 = 𝑛𝐶 /𝑛𝐷 é a razão entre os números
de indivíduos sem e com a doença. As funções 𝑓 e 𝑔 estão apresentadas no Quadro 8.4.
Área 𝑓 𝑔
As covariâncias que aparecem em (8.17), derivadas por Obuchowski e McClish (1997), são:
1 𝑟̂𝐶 𝐵̂1 𝐵̂2 𝑟̂𝐷2 𝐴̂1 𝐴̂2 1 𝐵̂1 𝐵̂2 (𝑟̂𝐶2 +𝑅𝑟̂𝐷2 ) 1 𝑟̂ 2 𝐴̂ 𝐵̂
̂ (𝐴̂1 , 𝐴̂2 ) =
𝑐𝑜𝑣 {𝑟̂𝐷 + + ̂ (𝐵̂1 , 𝐵̂2 ) =
} ; 𝑐𝑜𝑣 { ̂ (𝐴̂1 , 𝐵̂2 ) =
} ; 𝑐𝑜𝑣 { 𝐷 21 2 } ;
𝑛𝐷 𝑅 2 𝑛𝐷 2𝑅 𝑛𝐷
𝑛𝐷 é o número de pacientes doentes, 𝑅 = 𝑛𝐶 /𝑛𝐷 é a razão entre os números de indivíduos sem e com a
doença, 𝑟̂𝐷 e 𝑟̂𝐶 são as estimativas das correlações entre os resultados dos dois testes nos grupos com e
sem a doença, respectivamente. Os termos 𝐴̂1 , 𝐴̂2 , 𝐵̂1 , 𝐵̂2 são como definidos em (8.16).
Um intervalo de confiança para a área sob a curva (𝜃) com nível de confiança (1 − 𝛼)100% é dado
̂(𝜃)
𝑉 ̂
por 𝜃̂ ± 𝑧1−𝛼/2 √ 𝑛 , sendo que 𝑧1−𝛼/2 é o percentil de ordem (1 − 𝛼/2)100% da normal padrão,
Exemplo 8.5 - Dimensionamento de amostra utilizando a área total da curva ROC – adaptação de
Obuchowski e McClish (1997) ╬╬
Pretende-se descrever a acurácia do método por meio da curva ROC utilizando intervalo
de 95% de confiança (𝐼𝐶) com comprimento (𝐿) não superior a 0,10. Pela fórmula geral
𝐿 𝑉 ̂)
̂(𝜃
do 𝐼𝐶 para 𝜃, tem-se que = 𝑧1−𝛼/2 √ , sendo 𝑉̂ (𝜃̂) dado pela fórmula (8.16). Assim,
2 𝑛𝐷
̂2 𝐴
𝐵 ̂2 𝐵̂ 2 (1+𝑅)
𝐿 𝑓 2 (1+ + )+𝑔2 ( )
= 0,05 = 1,96√
𝑅 2 2𝑅
.
2 𝑛𝐷
Para obter o número de indivíduos com a doença (𝑛𝐷 ), é necessário conhecer ou estimar 𝐴, 𝐵, 𝑓 e 𝑔.
Neste exemplo, não se conhecem os valores exatos de 𝐴 = (𝜇𝐷 − 𝜇𝐶 )/𝜎𝐷 e 𝐵 = 𝜎𝐶 /𝜎𝐷 ou suas
estimativas (𝐴̂ e 𝐵̂), mas a literatura relata que o método tem boa especificidade (aproximadamente
90%) e baixa sensibilidade (inferior a 50%). Os resultados do estudo de simulação de Obuchowski e
McClish (1997) mostraram que quando 𝐵 = 1 obtém-se o tamanho de amostra mais conservador
possível. Supondo que 𝑠 = 0,45 e que 𝑒 = 0,90 e fixando 𝐵 = 1, 𝐴 pode ser determinado pela relação
(8.14): 𝐴 = 𝐵Φ−1 (1 − 𝑇𝐹𝑃) − Φ−1 (1 − 𝑇𝑉𝑃) = 𝐵Φ−1 (e) − Φ−1 (1 − s) = Φ−1 (0,90) − Φ−1 (0,55)
= 1,282 − 0,126 = 1,156.
𝐴2 (1,156)2
𝑒𝑥𝑝{− } 𝑒𝑥𝑝{− }
2(1+𝐵2 ) 2(1+1)
Como mostrado no Quadro 8.4, para o caso de área total: 𝑓 = = = 0,202,
√2𝜋(1+𝐵2 ) √2𝜋(1+1)
𝐴2 (1,156)2
−(𝐴𝐵)𝑒𝑥𝑝{− } −(1,156×1)𝑒𝑥𝑝{− }
2(1+𝐵2 ) 2(1+1)
𝑔= = = −0,117.
√2𝜋(1+𝐵2 )3 √2𝜋(1+12 )3
𝐿 𝑉 ̂)
̂(𝜃
Como visto nos parágrafos anteriores, o problema pode ser formalizado pela equação 2 = 𝑧1−𝛼/2 √ 𝑛𝐷
4(𝑧1−𝛼/2 )2 𝑉 ̂)
̂(𝜃
a partir da qual facilmente é possível escrever a fórmula fechada 𝑛𝐷 = 𝐿2
.
Lembrando que a variância 𝑉̂ (𝜃̂) é calculada pela fórmula (8.16), tem-se que
𝐵̂ 𝐴 2 ̂2
𝐵̂ 2 (1+𝑅) 12 (1,156)2 12 (1+1,5)
𝑉̂ (𝜃̂) = 𝑓 2 (1 + 𝑅 + 2 ) + 𝑔2 ( ) = (0,202)2 (1 + 1,5 + ) + (−0,117)2 ( )=
2𝑅 2 2(1,5)
4(𝑧1−𝛼/2 )2 𝑉 ̂)
̂ (𝜃 4(1,96)2 0,1067
0,1067. Assim, 𝑛𝐷 = = = 163,96. Como esperado, novamente obtém-se
𝐿2 (0,10)2
A Tabela 8.8 mostra os tamanhos de amostra para os grupos de doentes e de controles utilizando a área
total sob a curva ROC para algumas combinações de sensibilidade, especificidade e comprimento do
intervalo de confiança, quando o coeficiente de confiança é de 95%.
Tabela 8.8 - Tamanho de amostra para os grupos de doentes (𝑛𝐷 ) e de controle (𝑛𝐶 )
utilizando a área total sob a curva ROC para combinações de sensibilidade (𝑠),
especificidade (𝑒) e comprimento do intervalo de confiança (𝐿)
Pode-se notar substantivo efeito do comprimento do intervalo de confiança (𝐿) e efeito pouco
expressivo da sensibilidade (𝑠) no tamanho de amostra. Os três blocos da tabela apresentam o mesmo
padrão. À medida que 𝐿 aumenta, o tamanho de amostra diminui para ambos os grupos (𝑛𝐷 e 𝑛𝐶 ).
𝑛𝐷 (𝐿=0,10)
As razões entre os valores de 𝑛𝐷 (as mesmas que para 𝑛𝐶 , já que 𝑛𝐶 = 1,5𝑛𝐷 ) são: ≅ 2,25;
𝑛𝐷 (𝐿=0,15)
𝑛𝐷 (𝐿=0,15) 𝑛𝐷 (𝐿=0,10)
≅ 1,78; ≅ 3,98. Além disso, quanto menor a sensibilidade, maior o tamanho de
𝑛𝐷 (𝐿=0,20) 𝑛𝐷 (𝐿=0,20)
amostra necessário. O mesmo padrão é observado para os três comprimentos do intervalo de confiança
𝑛 (𝑠=0,35) 𝑛 (𝑠=0,40) 𝑛 (𝑠=0,35)
(𝐿): 𝑛𝐷(𝑠=0,40) ≅ 1,05; 𝑛𝐷(𝑠=0,45) ≅ 1,07; 𝑛𝐷(𝑠=0,45) ≅ 1,12.
𝐷 𝐷 𝐷
Em interessante artigo sobre o significado da área sob a curva ROC, Hanley e McNeil (1982) ressaltam
vários detalhes sobre o assunto, fórmulas e uma tabela para a determinação do tamanho de amostra.
Disponibilizam também o erro-padrão do estimador da área total da curva ROC obtido por um método
aproximado. Essa aproximação é satisfatória para uma variedade de distribuições subjacentes contínuas
e o erro-padrão é dado por:
Por meio de estudo de simulação, Obuchowski (1994) mostrou que o estimador apresentado em (8.18)
funciona bem para estudos envolvendo testes com escores contínuos, mas há possivelmente
subestimação em estudos com dados discretos - categorias ordenáveis criadas a partir de uma variável
subjacente normal bivariada. Nesse caso, a autora mostrou que o seguinte estimador para o erro-padrão
é preferível:
5𝐶 2 + 8 𝐶 2 + 8
𝐸𝑃𝑂𝑟𝑑 (𝜃̂) = √(0,0099 × 𝑒 −𝐶
2 /2
)( + ) (8.19)
𝑛𝐷 𝑛𝐶
Em (8.19), 𝐶 = 1,414Φ−1 (𝜃) e Φ−1 é a inversa da função distribuição acumulada da normal padrão e
𝑛𝐷 e 𝑛𝐶 são os números de indivíduos com e sem a doença, respectivamente.
As fórmulas (8.5) e (8.6) podem ser usadas para derivar o tamanho de amostra necessário para testar a
hipótese de que a área total é igual a um valor pré-especificado ou para construir um intervalo de
confiança. As variâncias apresentadas, fórmulas (8.18) e (8.19), podem ser utilizadas, dependendo de
qual situação seja mais adequada.
Para estudos com resposta contínua, a variância 𝑉(𝜃̂) pode ser escrita de forma aproximada como:
𝑄1 1
𝑉𝐶𝑜𝑛𝑡 (𝜃̂) = + 𝑄2 − 𝜃 2 ( + 1) (8.20)
𝑅 𝑅
2
𝑉𝑂𝑟𝑑 (𝜃̂) = (0,0099 × 𝑒 −𝐶 /2 )(5𝐶 2 + 8) + (𝐶 2 + 8)/𝑅 (8.21)
Convém lembrar que em (8.20) e (8.21) 𝑅 = 𝑛𝐶 /𝑛𝐷 , que é a razão entre o número de indivíduos sem e
com a doença e que os demais termos foram definidos anteriormente.
A macro ROCPOWER do software SAS® pode ser usada para calcular tamanho de amostra dentro do
contexto de teste de hipóteses quando a medida de acurácia é a área total sob a curva ROC. Ela utiliza
uma dessas duas últimas fórmulas para calcular a variância, dependendo do tipo de resposta do teste.
Área parcial sob a curva ROC
A área sob a curva ROC é uma medida sumária popular de acurácia de um teste diagnóstico.
Entretanto, a área completa tem sido criticada já que atribui igual peso a todas as taxas de falso-
positivos (𝑇𝐹𝑃 entre 0 e 1). Assim, medidas alternativas à área total sob a curva ROC têm sido
propostas, incluindo a área parcial sob a curva em um particular intervalo de 𝑇𝐹𝑃.
Se a medida de acurácia do teste adotada é a área parcial sob a curva ROC, uma situação de interesse
é quando, por exemplo, a taxa de falso-positivos (𝑇𝐹𝑃) varia em determinado intervalo que vai de
𝑇𝐹𝑃1 a 𝑇𝐹𝑃2 .
Obuchowski e McClish (1997) apresentam um método para o cálculo de tamanho de amostra que pode
ser utilizado para respostas contínuas ou categóricas ordenáveis. Supondo que a distribuição seja
bivariada, por exemplo, a população de doentes e não doentes têm distribuição normal com médias e
variâncias (𝜇𝐷 ; 𝜎𝐷2 ) e (𝜇𝐶 ; 𝜎𝐶2 ), respectivamente, pode-se usar a aproximação para a variância da área
parcial sob a curva, que é dada na fórmula (8.16), sendo que as funções 𝑓 e 𝑔 estão apresentadas no
Quadro 8.4. Para o cálculo do tamanho de amostra, a estimativa da variância obtida é então substituída
na fórmula (8.5) ou na (8.6).
Exemplo 8.6 - Dimensionamento de amostra utilizando a área parcial da curva ROC – adaptação
de Obuchowski e McClish (1997) ╬╬
Em estudo sobre um tipo de lesão (que pode ser maligna ou benigna), quer-se comparar a acurácia de
um sistema de classificação automático com a de um aparelho que exige a operação de profissional
experiente. Supondo-se que a medida de acurácia diagnóstica de interesse seja a área sob a curva ROC
na faixa na qual a especificidade varia entre 0,80 e 1 (0 ≤ 𝑇𝐹𝑃 ≤ 0,20), deve-se trabalhar com as
áreas parciais sob a curva. Decidiu-se amostrar o dobro de pacientes cuja classificação de lesões seja
benigna (em relação à classificação das lesões malignas), portanto, a razão do tamanho da amostra
entre os dois grupos é 𝑅 = 𝑛𝐶 /𝑛𝐷 = 2.
Pelas fórmulas de 𝑓 e 𝑔 fornecidas no Quadro 8.4 para o caso de área parcial sob a curva ROC,
𝑓 = 0,039 e 𝑔 = −0,062.
Pela fórmula (8.16), sob a hipótese nula (𝐻0 : θ1 = θ2 ), 𝑉0 (θ̂1 ) = 𝑉0 (θ̂2 ) = 𝑉0 (𝜃̂) = 𝑓 2 (1 + 𝐵̂ 2 /𝑅 +
𝐴̂2 /2) + 𝑔2 (𝐵̂2 (1 + 𝑅)/2𝑅) = (0,039)2 (1 + 12 /2 + (2,6)2 /2) + (−0,062)2 (12 (1 + 2)/2(2)) =
0,0103.
entre os valores plausíveis. Se 𝑟̂𝐶 = 0,6, 𝐶̂ (θ̂1 , θ̂2 ) = 0,0019, chega-se ao seguinte resultado:
̂) = 𝑉0 (θ̂1 − θ̂2 ) = 𝑉0 (θ̂1 ) + 𝑉0 (θ̂2 ) − 2𝐶̂ (θ̂1 , θ̂2 ) = 0,0103 + 0,0103 − 2(0,0019) = 0,0168.
𝑉0 (Δ
Pela fórmula (8.15) foram calculados os tamanhos de amostra baseados na comparação de duas curvas
ROC, supondo-se: que a área sob a curva ROC para o método-padrão é 𝐴𝑆𝐶1 = 0,80; que
𝐴𝑆𝐶2 = {0,85; 0,90; 0,95}; que as correlações entre as variáveis são {0,30; 0,40; 0,50; 0,60}; que a
razão entre os números de indivíduos sem e com a doença é 𝑅 = 𝑛𝐶 /𝑛𝐷 = {1; 1,5; 2}; e que a variável
analisada seja contínua ou categórica ordinal. No caso de dados contínuos, as fórmulas das variâncias
são dadas em Hanley e McNeil (1982), enquanto que para dados ordinais as fórmulas usadas são as
apresentadas em Obuchowski e McClish (1997). O nível de significância e o poder foram fixados em
5% e 90%, respectivamente. Os resultados obtidos pelo software Pass®14 estão apresentados
na Tabela 8.9.
Por exemplo, para 𝐴𝑆𝐶2 = 0,85, correlação igual a 0,60, 𝑅 = 2, 𝑛𝐷 = 310; 𝑛𝐶 = 620 para dados
contínuos e 𝑛𝐷 = 480; 𝑛𝐶 = 960 para dados ordinais. Destacam-se os seguintes pontos: a) quando a
variável é ordinal, os tamanhos das amostras são bem superiores ao do caso contínuo para os
correspondentes termos (mesma correlação e mesmo valor de 𝑅); b) fixado o valor da correlação e de
𝑅, à medida que a 𝐴𝑆𝐶 diminui, 𝑛 aumenta; c) fixado o valor de 𝑅 e de 𝐴𝑆𝐶, à medida que a correlação
diminui, 𝑛 aumenta.
Frequentemente, mais de um método pode ser utilizado no diagnóstico de uma doença. Pode haver
diferença de preço e conforto para o paciente (testes muito ou pouco invasivos), além de facilidade de
utilização para o técnico. Uma questão importante que surge na prática é sobre a comparação desses
métodos. A seguir, são destacados os procedimentos mais utilizados na comparação e que serão
restringidos a dois testes.
Além de questões éticas, cada tipo de estudo tem suas próprias considerações estatísticas que
influenciam a escolha do tamanho de amostra para obter certa probabilidade ou poder para detectar
diferenças entre os testes comparados.
Apresentam-se a seguir as fórmulas para dimensionamento de amostras nos dois casos (amostras
independentes e pareadas), considerando-se apenas o caso de mesmo tamanho nos dois grupos.
O raciocínio para sensibilidade é o mesmo para especificidade. A medida de acurácia é denotada
genericamente por 𝜃.
2
(𝑧1−𝛼/2 √𝑉0 (𝜃̂1 − 𝜃̂2 ) + 𝑧1−𝛽 √𝑉1 (𝜃̂1 − 𝜃̂2 ))
(8.22)
𝑛 𝑇1 𝑣𝑠.𝑇2 =
(𝜃1 − 𝜃2 )2
Na fórmula (8.22), tanto a variância 𝑉0 como a 𝑉1 são da forma 𝑉(𝜃̂1 − 𝜃̂2 ) = 𝑉𝑎𝑟(𝜃̂1 ) + 𝑉𝑎𝑟(𝜃̂2 ) −
2𝐶𝑜𝑣(𝜃̂1 , 𝜃̂2 ), calculadas sob 𝐻0 e 𝐻1 , respectivamente. As fórmulas para as variâncias e covariâncias
dependem do tipo de estudo e algumas serão apresentadas a seguir.
Comparação de sensibilidade/especificidade no caso de grupos independentes
Sejam 𝑋 e 𝑌 duas binomiais independentes com seus parâmetros indicados da forma tradicional por
𝑋~𝐵(𝑛, 𝑃1 ) e 𝑌~𝐵(𝑛, 𝑃2 ). Para o dimensionamento de estudo que compara duas binomiais
independentes, formulado em termos de hipótese unilateral (𝑃1 > 𝑃2 ), Casagrande et al. (1978) relatam
breve revisão e sugerem um aprimoramento do método do qui-quadrado com a correção de
continuidade, que se mostrou ter excelente acurácia, resultando na seguinte fórmula para o tamanho de
amostra em cada grupo:
A fórmula (8.23) é para planejamento balanceado, caso em que os dois grupos apresentam o mesmo
tamanho de amostra. Entretanto, em algumas situações, o tamanho de amostra para um dos testes
diagnósticos (𝑛1 ) é fixo (por exemplo, já foi realizado) e basta calcular o tamanho do outro grupo (𝑛2 ).
Nesse caso, Arkin e Wachtel (1990) recomendam uma fórmula, originalmente proposta por Cohen
(1977), que depende de 𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) , obtido pela fórmula (8.23), dada por:
𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978) 𝑛1
𝑛2 = (8.24)
2𝑛1 − 𝑛𝐶𝑎𝑠𝑎𝐺𝑒𝑡 𝑎𝑙.(1978)
Grupo 2
Grupo 1 Total
1 2
1 𝑝11 (𝑘) 𝑝12 (𝑟) 𝑝1. (𝑛1 )
2 𝑝21 (𝑠) 𝑝22 (𝑙) 1 − 𝑝1. (𝑛2 )
Total 𝑝.1 (𝑚1 ) 1 − 𝑝.1 (𝑚2 ) 1 (𝑛)
Além da fórmula de tamanho de amostra proposta por Connett et al. (1987), apresentada no capítulo 3,
merece ser citado o trabalho de Miettinen (1968). Nele é derivado o poder assintótico e o
correspondente tamanho de amostra. Duffy (1984) descreve o poder exato e mostra que a aproximação
assintótica de Miettinen tende ligeiramente a superestimar o poder ou a subestimar o tamanho da
amostra necessário para atingir determinado poder. O cálculo do poder e correspondente tamanho de
amostra do trabalho de Duffy (1984) estão implementados no pacote MESS do software livre R. Para o
caso de amostras pareadas em situações gerais, destaca-se o trabalho de Connor (1987), aplicado por
Beam (1992) em estudos de acurácia em Radiologia.
Para a comparação de testes realizados de forma pareada, o problema pode ser formulado pelas
hipóteses: 𝐻0 : 𝛿 = 𝜃1 − 𝜃2 = 0 versus 𝐻1 : 𝛿 = 𝜃1 − 𝜃2 > 0. Beam (1992) considera 𝜃1 e 𝜃2 como
medidas de acurácia (sensibilidades ou especificidades); as hipóteses a serem testadas envolvem a
diferença entre as medidas de acurácia. Supondo-se que a medida seja a sensibilidade e usando a
notação da Tabela 8.10, 𝜃1 − 𝜃2 = 𝑝1. − 𝑝.1 = (𝑝11 + 𝑝12 ) − (𝑝11 + 𝑝21 ) = 𝑝12 − 𝑝21 . Nesse caso,
naturalmente, se a sensibilidade for baseada em dados, o total de indivíduos deve ser daqueles com a
condição (doentes), enquanto que para a especificidade, são os não doentes que interessam. Na notação
da Tabela 8.10 o total de indivíduos (doentes ou não) é 𝑛.
Connor (1987) determina o tamanho da amostra a partir do teste de McNemar, que para testar essas
hipóteses é dado por:
2
(𝑧1−𝛼 √𝜓 + 𝑧1−𝛽 √𝜓 − 𝛿 2 ) (8.25)
𝑛𝑀𝑐𝑁,𝑇𝐻1 =
𝛿2
Na fórmula (8.25), 𝑧1−𝛼 e 𝑧1−𝛽 correspondem aos percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100%
da distribuição normal padrão; 𝛿 = 𝜃1 − 𝜃2 é a diferença das medidas de acurácia, supostamente
positiva, e 𝜓 é a probabilidade de discordância entre os dois testes. Observando-se a segunda raiz que
aparece no numerador da fórmula (8.25), conclui-se que 𝜓 ≥ 𝛿 2. Segundo esse critério puramente
algébrico, pode-se afirmar que o valor mínimo de 𝜓 é 𝛿 2 .
Connor (1987) argumenta que o limite superior para 𝜓 é (2 − 𝜃1 − 𝜃2 ), mas apresenta um limite
menos conservativo, porém razoável, notando-se que em planejamentos pareados as respostas tendem a
ser positivamente correlacionas. Portanto, simplemente assumindo que as respostas não são
negativamente correlacionadas, ou pelo menos independentes, o limite superior para 𝜓 seria
𝜃1 (1 − 𝜃2 ) + (1 − 𝜃1 )𝜃2 = 𝜃1 + 𝜃2 − 2𝜃1 𝜃2 . Pode-se mostrar que a utilização do valor máximo de 𝜓
fornece a maior estimativa do tamanho de amostra que garante o poder especificado.
A fórmula (5.6) do trabalho de Miettinen (1968), que seria comparável à (8.25), é dada por:
2
(𝑧1−𝛼 √𝜓 + 𝑧1−𝛽 √𝜓 − 𝛿 2 (3 + 𝜓)/(4𝜓)) (8.26)
𝑛𝑀𝑖𝑒𝑡𝑡𝑖𝑛𝑒𝑛,1968 =
𝛿2
Além das informações do exemplo 8.8, com 80% de poder, acrescenta-se que a probabilidade de
discordância dos dois testes em termos de sensibilidade é 𝛿 = 𝜃1 − 𝜃2 = 0,95 − 0,80 = 0,15 e que o
menor valor de 𝜓 é 𝛿 2 = (0,15)2 = 0,023. Para esse caso, utilizando a fórmula (8.25), o tamanho de
amostra é de apenas cinco quando o poder é 80%, 90% ou 95% e seis quando o poder é 99%. O limite
superior de 𝜓 é 2 − 𝜃1 − 𝜃2 = 2 − 0,95 − 0,80 = 0,25, enquanto que o limite menos conservativo é
𝜃1 (1 − 𝜃2 ) + (1 − 𝜃1 )𝜃2 = 0,95(0,20) + 0,05(0,80) = 0,23.
Para investigar o impacto de 𝜓 no cálculo do tamanho da amostra, serão considerados três valores de 𝜓
(𝜓 = 0,05, 𝜓 = 0,10 e 𝜓 = 0,23), representando casos de discordância baixa, média e alta.
A Tabela 8.11 mostra o número de pacientes para o delineamento, considerando amostras
independentes e pareadas, usando as fórmulas (8.23) e (8.25), respectivamente. Fica claro que o ganho
em eficiência é obtido com o esquema pareado. Como esperado, em delineamentos pareados, quanto
maior a probabilidade de discordância, maior o número de participantes.
Neste exemplo estabelece-se a comparação de duas fórmulas, (8.25) e (8.26), para o cálculo de
tamanho de amostra em delineamentos de amostras pareadas. A Tabela 8.12 mostra os resultados para
combinações de parâmetros/termos que aparecem nas fórmulas.
Os valores obtidos pela fórmula (8.25) são sempre superiores aos da (8.26), mas são bastante similares,
com discrepância de dois ou três elementos.
Estudo de equivalência de sensibilidade baseado no teste de McNemar
A equivalência em sensibilidade de dois testes não necessariamente significa que as duas sensibilidades
sejam exatamente iguais, mas pode-se aceitar que a sensibilidade do novo teste (𝑠𝑁 ) não difira da
sensibilidade do teste-padrão (𝑠𝐶 ) por uma quantidade δ₀ clinicamente aceitável. Esse problema pode
ser formulado pelo teste das seguintes hipóteses: 𝐻0 : 𝑠𝐶 ≤ 𝑠𝑁 + 𝛿0 versus 𝐻1 : 𝑠𝐶 > 𝑠𝑁 + 𝛿0 ou,
equivalentemente, 𝐻0 : 𝑠𝐶 − 𝑠𝑁 ≤ 𝛿0 versus 𝐻1 : 𝑠𝐶 − 𝑠𝑁 > 𝛿0 .
A Tabela 8.13 mostra a distribuição genérica dos resultados (+ e −) de dois testes (novo e padrão) e as
probabilidades de ocorrência de cada situação: concordância (++, −−) e discordância (+−, −+) .
Teste-padrão Total
Teste-novo
+ −
+ 𝑎 (𝑃11 ) 𝑏 (𝑃10 ) 𝑛1 = 𝑎 + 𝑏 (𝑠𝑁 )
− 𝑐 (𝑃01 ) 𝑑 (𝑃00 ) 𝑛2 = 𝑐 + 𝑑 (1 − 𝑠𝑁 )
Total 𝑎 + 𝑐 (𝑠𝐶 ) 𝑏 + 𝑑 (1 − 𝑠𝐶 ) 𝑛 (1)
Lu e Bean (1995) derivam fórmulas de cálculo de tamanho de amostra baseadas na estatística do teste
de McNemar. Utilizam os procedimentos condicional e não condicional e demonstram que os
resultados do segundo procedimento são sempre maiores do que os do condicional.
(𝑧1−𝛼 (2(𝑠𝐶 − 𝑃11 ) − 𝛿1 )√(𝑠𝐶 − 𝑃11 − 𝛿0 ) + 𝑧1−𝛽 (2(𝑠𝐶 − 𝑃11 ) − 𝛿0 )√(𝑠𝐶 − 𝑃11 − 𝛿1 ))2
𝑛𝐶𝑜𝑛𝑑 = (8.27)
(𝑠𝐶 − 𝑃11 )[2(𝑠𝐶 − 𝑃11 ) − 𝛿1 ](𝛿1 − 𝛿0 )2
Pode-se mostrar que 𝑛𝐶𝑜𝑛𝑑 é uma função decrescente de 𝑃11 e que essa probabilidade varia de
𝑚𝑎𝑥 {(𝑠𝐶 − 𝛿1 ) − (1 − 𝑠𝐶 ), 0} até (𝑠𝐶 − 𝛿1 ) sob a hipótese alternativa.
Para o procedimento não condicional (𝑁𝐶𝑜𝑛𝑑), a fórmula para cálculo do número de pacientes, similar
à fornecida por Connor (1987), é:
2
(𝑧1−𝛼 √(2(𝑠𝐶 − 𝑃11 ) − 𝛿0 − 𝛿02 ) + 𝑧1−𝛽 √(2(𝑠𝐶 − 𝑃11 ) − 𝛿1 − 𝛿12 ))
𝑛𝑁𝐶𝑜𝑛𝑑 = (8.28)
(𝛿1 − 𝛿0 )2
Os autores mostram que, assim como para 𝑛𝐶𝑜𝑛𝑑 , 𝑛𝑁𝐶𝑜𝑛𝑑 também é uma função decrescente
de 𝑃11 . Utilizando essa propriedade e o fato de que 𝑃11 varia no intervalo que vai de
𝑚𝑎𝑥{(𝑠𝐶 − 𝛿1 ) − (1 − 𝑠𝐶 ), 0} até (𝑠𝐶 − 𝛿1 ), sob todas as hipóteses alternativas, obtiveram os limites
para 𝑛𝐶𝑜𝑛𝑑 e 𝑛𝑁𝐶𝑜𝑛𝑑 . O valor mínimo de 𝑃11 (𝑚𝑖𝑛{𝑃11 }) é zero se (𝑠𝐶 − 𝛿1 ) ≤ (1 − 𝑠𝐶 ), enquanto que
se (𝑠𝐶 − 𝛿1 ) > (1 − 𝑠𝐶 ), 𝑚𝑖𝑛{𝑃11 } aumenta para (𝑠𝐶 − 𝛿1 ) − (1 − 𝑠𝐶 ). Quando 𝑃11 = 𝑠𝐶 − 𝛿1,
o valor máximo da probabilidade de diagnóstico positivo em ambos os testes, os positivos detectados
pelo teste-novo formam um subconjunto daqueles detectados pelo teste-padrão sob a hipótese
alternativa. Nesse caso, o limite inferior do tamanho da amostra é (𝑧1−𝛼 )2 /(𝛿1 − 𝛿0 ), que não depende
da sensibilidade do teste-padrão e do poder do teste.
Em seu trabalho sobre tamanho de amostra para estudos com amostras pareadas usando o teste
McNemar, que não é direcionado exclusivamente a estudos de acurácia de testes diagnósticos,
Lachenbruch (1992) apresenta o método do ponto médio que consiste em entrar na fórmula com o
ponto médio entre o menor e o maior valor da sensibilidade (ou da probabilidade de interesse).
Compara sua proposta (𝑛𝐿 ) com os métodos de cálculo de tamanho de amostra de Schlesselman
(1982), 𝑛𝑆𝑐ℎ , e de Connett et al. (1987), 𝑛𝐶𝑡𝑡 . Em geral, os resultados dos três métodos são bem
parecidos e vale a seguinte relação: 𝑛𝐿 ≥ 𝑛𝐶𝑡𝑡 ≥ 𝑛𝑆𝑐ℎ . Além disso, os valores de 𝑛𝐿 são os que mais se
aproximam dos obtidos pelo estudo de simulação de Monte Carlo (resultados empíricos).
Por meio de um estudo de simulação de Monte Carlo, Lu e Bean (1995) comparam as fórmulas (8.27) e
(8.28), propostas por eles, com a apresentada em Lachenbruch (1992). Os resultados mostram que
quando não há informação alguma sobre 𝑃11 , probabilidade definida na Tabela 8.13, o tamanho de
amostra correspondente ao ponto médio, como em Lachenbruch (1992), baseado na estatística do teste
condicional, é a melhor escolha para garantir o poder desejado. Novamente, usando a notação da
Tabela 8.13, o ponto médio de 𝑃11 é dado por 𝑚𝑎𝑥{[(𝑠𝐶 − 𝛿1) − (1 − 𝑠𝐶 )]/2, (𝑠𝐶 − 𝛿1 )/2}.
Importante notar que o tamanho da amostra baseado no ponto médio de 𝑃11 pode ser interpretado como
um balanço entre o máximo e o mínimo dos valores obtidos para os tamanhos de amostra.
A discussão apresentada neste capítulo pode ser aplicada na comparação de testes diagnósticos,
métodos ou avaliadores. Existe também uma metodologia especial para o caso de múltiplos leitores,
que é de grande importância na prática. Obuchowski (1998) dedica uma seção a esse tópico,
tecendo alguns comentários gerais e fornecendo referências importantes, porém não inclui fórmulas
fechadas para o cálculo do tamanho da amostra, sendo apenas citado um programa preparado no SAS®.
Em estudos envolvendo mais de dois testes, pode-se primeiro fazer uma avaliação geral da acurácia de
todos os testes e, se não houver equivalência, podem-se usar comparações pareadas entre os testes e
empregar a correção de Bonferroni para controlar o erro do tipo I, conforme discutido, por exemplo,
em Pagano e Gauvreau (2004) ou Riffenburgh (2012). Para o cálculo de tamanho de amostra, devem-se
utilizar os níveis de significância com a correção de Bonferroni.
Nos estudos de acurácia de testes diagnósticos, grande atenção tem sido dada à determinação do poder
e tamanho de amostra para o caso de resposta dicotômica. O tratamento usual utilizando a distribuição
binomial só é adequado para testes diagnósticos quantitativos se for conhecido a priori o limite de
discriminação, isto é, o ponto de corte. Como comentado na seção 8.1.1, para testes diagnósticos com
resultados na escala quantitativa, a sensibilidade e especificidade dependem do ponto de corte
selecionado. Em testes laboratoriais, em geral o percentil 0,975 é utilizado, mas esse ponto de corte
está sujeito à variação amostral. Portanto, a imprecisão da estimativa da sensibilidade deve-se à
variabilidade nas amostras dos grupos comparados.
Beam (1992) listou estratégias para melhorar o poder em estudos sobre acurácia de testes
diagnósticos: tipo de delineamento do estudo, especificação da hipótese nula, seleção do nível de
significância e seleção de casos e controles. Em termos de poder, como já comentado, o esquema
pareado é em geral preferível em relação ao de amostras independentes. Beam também sugere
especificar hipótese bilateral, já que nesse caso o poder do teste tende a ser mais alto do que o de
hipótese unilateral. Quanto à seleção do nível de significância, Beam assinala que se pode ganhar poder
aumentando-se o nível de significância. Assim, quando em um estudo a penalidade para uma conclusão
de um falso-positivo (isto é, erro do tipo I) é mínima, é razoável usar um nível de significância maior
que o padrão de 5%, desde que essa decisão seja feita na fase de planejamento do estudo.
A utilização de nomogramas é outra estratégia para calcular tamanho de amostra que agrada àqueles
pesquisadores que são avessos às fórmulas matemáticas. Para estudos de acurácia de testes
diagnósticos, o trabalho de Carley et al. (2005) pode ser pesquisado. Naturalmente há certas limitações,
como os parâmetros/termos apresentados nas figuras (nomogramas), que evidentemente não se aplicam
a todos os casos práticos.
Ainda nessa mesma linha de trabalho, Malhotra e Indrayan (2010) elaboraram um nomograma para
testes diagnósticos cujas categorias são dicotômicas. O enfoque é em intervalos de confiança, não
sendo aplicável para testes de hipóteses. Utiliza precisão absoluta e nível de confiança de 95%,
mas indica um simples ajuste quando os níveis são de 90% ou 99%.
A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e elas se encontram disponíveis para os leitores (ver informações na apresentação do livro; os
exemplos com fórmulas programadas estão sinalizados por ╬╬).
Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder do teste discutidos no capítulo
e/ou relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas
citados no capítulo 11: Pass®, nQuery Advisor® e o pacote MESS do software livre R (função:
power.mcnemar.test).
9.1 Introdução
Estudos de acurácia (tratados no capítulo 8), em que um dos métodos a serem comparados é o padrão-
ouro, são os mais interessantes, mas na prática nem sempre a verdadeira condição do paciente é
conhecida. Muitos estudos dependem do julgamento de um ou mais observadores para definir se a
doença, um traço ou um atributo está ou não presente. Nesses casos, importante consideração é a
variação entre observadores. O ideal é que exista alta concordância intraobservador ou interobservador.
A extensão na qual os observadores ou instrumentos concordam ou discordam é importante aspecto,
tanto se estão sendo considerados exames físicos, testes laboratoriais ou outros meios de avaliar
características humanas. Portanto, há a necessidade de expressar o grau de concordância em
termos quantitativos.
Ao longo dos anos, o coeficiente kappa (𝜅), também conhecido como coeficiente kappa de Cohen
(Cohen, 1960), tem sido a medida mais usada para a quantificação da concordância no caso de
variáveis com categorias nominais ou ordinais e mesmo para dados contínuos. Apesar de não haver
consenso e existirem algumas críticas quanto ao seu uso, o coeficiente kappa continua sendo muito
empregado em aplicações em ciências sociais e biomédicas, com larga utilização, por exemplo, em
Psicologia. Algumas referências ligadas ao assunto são: Thompson e Walter (1988a), Thompson e
Walter (1988b), Feinstein e Cicchetti (1990), Cicchetti e Feinstein (1990) e Byrt et al. (1993).
Quando há mais de duas categorias, é importante distinguir entre variáveis ordinais, cujas categorias
são intrinsecamente ordenadas, e variáveis nominais, que não apresentam ordenação. O coeficiente
kappa de Cohen é apropriado quando todas as discordâncias podem ser consideradas igualmente sérias,
enquanto que o coeficiente kappa ponderado é mais adequado quando a gravidade relativa das
possíveis discordâncias pode ser especificada.
Para variáveis ordinais, o kappa de Cohen não capta toda a diferença dos dados, já que valoriza
igualmente a discordância entre todas as categorias. Para exemplificar, suponha-se que na avaliação
dos Raios-X as classificações sejam: normal, duvidosa e alterada. Naturalmente, há melhor
concordância entre dois avaliadores quando um deles classifica como normal e o outro como duvidosa
(duas categorias adjacentes) do que quando um laudo é normal e o outro alterado. O coeficiente kappa
ponderado tende a captar tais especificidades da variável ordinal.
O coeficiente kappa (𝜅) foi introduzido originalmente por Cohen (1960) e continuou a ser
desenvolvido por outros autores (FLEISS, 1981). A ideia básica é medir concordância entre dois ou
mais avaliadores (ou testes) comparada à quantidade de concordância esperada apenas ao acaso, se os
escores dos avaliadores fossem estatisticamente independentes.
Para a comparação da concordância de dois avaliadores (ou testes) em situações com dois resultados
possíveis (por exemplo, no caso de testes, positivo e negativo), as probabilidades 𝜋𝑖𝑗 de classificar um
indivíduo na categoria 𝑖 pelo teste 1 e na 𝑗 pelo teste 2 (𝑖 = 1, 2 e 𝑗 = 1, 2) e as probabilidades
marginais dos testes 1 e 2, 𝜋𝑖. = 𝜋𝑖1 + 𝜋𝑖2 e 𝜋.𝑗 = 𝜋1𝑗 + 𝜋2𝑗 , respectivamente, estão mostradas
na Tabela 9.1.
Tabela 9.1 - Probabilidades de classificação por dois avaliadores (ou por dois testes)
em situações com dois resultados possíveis (categorias binárias)
Em (9.1), 𝜋0 = 𝜋11 + 𝜋22 é a real probabilidade de concordância e 𝜋𝑒 = 𝜋1. 𝜋.1 + 𝜋2. 𝜋.2 é a
concordância esperada se as classificações dos avaliadores fossem de forma independente.
O numerador representa a discrepância entre duas probabilidades, uma observada referente ao sucesso
(haver concordância) e a outra calculada sob a suposição do pior cenário, de forma independente, sem
critério algum. O denominador mede a diferença entre a probabilidade da situação ideal (concordância
perfeita) e a probabilidade da concordância obtida “ao acaso”.
Existem várias possíveis classificações para os valores de kappa, como a de Landis e Koch (1977), de
Cicchetti e Sparrow (1981) e de Fleiss (1981), resumidas em Streiner et al. (2015). No Quadro 9.1 é
mostrada a classificação apresentada em Altman (1991):
Estima-se o coeficiente kappa por 𝜅̂ = (𝜋̂0 − 𝜋̂𝑒 )/(1 − 𝜋̂𝑒 ), sendo 𝜋̂0 e 𝜋̂𝑒 as estimativas de 𝜋0 e 𝜋𝑒 ,
respectivamente. Fleiss et al. (1969) mostraram que, baseado em tamanho de amostra 𝑛, a variância
assintótica do estimador do coeficiente kappa depende das probabilidades definidas na Tabela 9.1 e nos
termos que aparecem na fórmula (9.1) e é dada por:
𝑄 1 1
̂) =
𝑉𝑎𝑟 (Κ = {∑ 𝜋𝑖𝑖 [(1 − 𝜋𝑒 ) − (𝜋.𝑖 + 𝜋𝑖. )(1 − 𝜋0 )]2
𝑛 𝑛 (1 − 𝜋𝑒 )4
𝑖
(9.2)
+ (1 − 𝜋0 )2 ∑ ∑ 𝜋𝑖𝑗 (𝜋.𝑖 + 𝜋𝑗. )2 − (𝜋0 𝜋𝑒 − 2𝜋𝑒 + 𝜋0 )2 }
𝑖≠𝑗
Todos os parâmetros necessários no cálculo do termo 𝑄 da fórmula (9.2) são determinados a partir de
𝜋1. , 𝜋.1 e 𝜅. Especificamente: 𝜋2. = 1 − 𝜋1. ; 𝜋.2 = 1 − 𝜋.1 ; 𝜋𝑒 = 𝜋1. 𝜋.1 + 𝜋2. 𝜋.2 ; 𝜋0 = 𝜅(1 − 𝜋𝑒 ) +
𝜋𝑒 ; 𝜋22 = (𝜋0 − 𝜋1. + 𝜋.2 )/2; 𝜋11 = 𝜋0 − 𝜋22 ; 𝜋12 = 𝜋1. − 𝜋11 ; 𝜋21 = 𝜋.1 − 𝜋11 .
A Tabela 1 de Cantor (1996) fornece valores de 𝑄 para vários valores de 𝜅 (variando de 0,0 a 0,9 com
incremento de 0,1) e diversas combinações de valores de 𝜋1. e 𝜋.1 . Como eventualmente os valores
do problema em questão não estão contemplados na tabela citada, melhor opção é programar a
fórmula (9.2), por exemplo, no software Excel®.
9.1.2 O coeficiente kappa com dois ou mais resultados possíveis (categorias multinomiais)
A Tabela 9.2 generaliza a situação anterior de duas categorias, mais especificamente, considera-se
agora o caso geral de 𝑟 ≥ 2 categorias, com ou sem ordenação.
De forma análoga ao caso de duas categorias, o coeficiente kappa (𝜅) é calculado pela mesma
expressão apresentada em (9.1), 𝜅 = (𝜋0 − 𝜋𝑒 )/(1 − 𝜋𝑒 ), 𝜋0 = ∑𝑟𝑖=1 𝜋𝑖𝑖 e 𝜋𝑒 = ∑𝑟𝑖=1 𝜋𝑖. 𝜋.𝑖 , sendo que
os termos do somatório estendem-se às 𝑟 ≥ 2 categorias. Os mesmos comentários sobre a interpretação
de kappa feitos anteriormente para duas categorias são válidos para o caso de duas ou mais categorias.
A estimativa de kappa é 𝜅̂ = (𝜋̂0 − 𝜋̂𝑒 )/(1 − 𝜋̂𝑒 ), sendo 𝜋̂0 e 𝜋̂𝑒 as estimativas de 𝜋0 e 𝜋𝑒 ,
̂ ) = 𝜏(Κ
respectivamente. O erro-padrão do estimador de kappa é 𝐸𝑃(Κ ̂ )/√𝑛, sendo 𝑛 o tamanho de
amostra e ̂) = 1
𝜏(Κ 2
{𝜋0 (1 − 𝜋𝑒 )2 + (1 − 𝜋0 )2 ∑𝑟𝑖=1 ∑𝑟𝑗=1 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 )2 − 2(1 − 𝜋0 )(1 −
(1−𝜋 𝑒)
½
̂ ), basta substituir na
𝜋𝑒 ) ∑𝑟𝑖=1 𝜋𝑖𝑖 (𝜋𝑖. + 𝜋.𝑖 ) − (𝜋0 𝜋𝑒 − 2𝜋𝑒 + 𝜋0 )2 } . Para obter a estimativa de 𝐸𝑃(Κ
̂ ) as estimativas das probabilidades envolvidas.
fórmula de 𝜏(Κ
unilaterais), rejeita-se 𝐻0 se 𝑧𝜅 > 𝑧1−𝛼 , enquanto que para hipóteses bilaterais, se |𝑧𝜅 | > 𝑧1−𝛼/2, sendo
𝑧1−𝛼 e 𝑧1−𝛼/2 os percentis de ordem (1 − 𝛼)100% e (1 − 𝛼/2)100% da distribuição normal padrão.
Para o caso específico em que há ordenação entre as 𝑟 > 2 categorias, é indicada a utilização do
coeficiente kappa ponderado, em inglês weighted kappa. A ideia é atribuir pesos, sem perda de
generalidade, valores entre 0 e 1, e que sejam adequados para representar as discordâncias das
categorias, refletindo as proximidades das discordâncias. Usando a definição de Cohen (1968), o
coeficiente kappa ponderado (𝜅𝑤 ) é definido como:
𝜋0𝑤 − 𝜋𝑒𝑤
𝜅𝑤 = (9.3)
1 − 𝜋𝑒𝑤
Em (9.3), 𝜋0𝑤 = ∑𝑟𝑖=1 ∑𝑟𝑗=1 𝑤𝑖𝑗 𝜋𝑖𝑗 , 𝜋𝑒𝑤 = ∑𝑟𝑖=1 ∑𝑟𝑗=1 𝑤𝑖𝑗 𝜋𝑖. 𝜋.𝑗 , 𝑤𝑖𝑗 são os pesos e 𝜋𝑖𝑗 , 𝜋𝑖. e 𝜋.𝑗 são as
probabilidades apresentadas na Tabela 9.2.
Segundo Fleiss et al. (1969), a variância do estimador de 𝜅𝑤 é dada por 𝑉𝑎𝑟 (𝜅̂ 𝑤 ) =
1
{∑𝑟𝑖=1 ∑𝑟𝑗=1 𝜋𝑖𝑗 [𝑤𝑖𝑗 (1 − 𝜋𝑒𝑤 ) − (𝑤 ̅ .𝑗 ) (1 − 𝜋0𝑤 )]2 − (𝜋0𝑤 𝜋𝑒𝑤 − 2𝜋𝑒𝑤 + 𝜋0𝑤 )2 },
̅ 𝑖. + 𝑤
𝑛(1−𝜋𝑒𝑤 )4
Se 𝑤𝑖𝑗 = 1 para todo 𝑖 = 𝑗 e 𝑤𝑖𝑗 = 0 para todo 𝑖 ≠ 𝑗, o coeficiente kappa ponderado (𝜅𝑤 ) reduz-se ao
kappa simples (kappa de Cohen). Os pesos podem ser escolhidos de forma linear, quadrática ou, ainda,
podem ser atribuídos valores que o pesquisador julgue apropriado. Para a 𝑖-ésima linha e 𝑗-ésima
(𝑖−𝑗)2
coluna, Fleiss e Cohen (1973) sugerem a utilização do peso 𝑤𝑖𝑗 = 1 − (𝑟−1)2 . Essa escolha tem a
propriedade de que a concordância é maior para caselas mais próximas da diagonal principal. Existem
outras possibilidades para os pesos, como as descritas na seção 2.4.3, de Tang et al. (2012).
Exemplo 9.1 - Cálculos e interpretação do coeficiente kappa (𝜿) para categorias binárias e para o
coeficiente kappa ponderado (𝜿𝐰 ) para categorias ordinais ╬╬
A seguir são apresentados três exemplos ilustrando os cálculos e a interpretação do coeficiente kappa.
O primeiro é um exemplo com dados artificiais, enquanto que os dois outros foram extraídos e
adaptados de um artigo publicado em revista da área da saúde e de uma dissertação de mestrado.
Em estudo realizado na Holanda sobre a prescrição médica em minorias étnicas, Uiters et al. (2006)
relataram a concordância entre autorrelatos e registros médicos. Para as comunidades das Antilhas
Holandesas (A), holandesa (H), de Marrocos (M), do Suriname (S) e da Turquia (T), em ordem
crescente, os valores do coeficiente kappa foram: 𝜅𝑀 = 0,10; 𝜅𝐴 = 0,11; 𝜅𝐻 = 0,16; 𝜅𝑆 = 0,21
e 𝜅𝑇 = 0,26. As três primeiras concordâncias (M, A e H) são consideradas ruins e as demais
(S e T), fracas.
A radiografia de tórax (RX) ainda é, no dias atuais, o principal método de diagnóstico da silicose,
seguindo-se as normas da Organização Internacional do Trabalho (OIT). A interpretação radiológica de
casos iniciais é difícil, podendo ocorrer divergências mesmo entre leitores experientes. Recentemente
tem sido considerada a possibilidade de utilização da tomografia computadorizada com técnica de alta
resolução (TCAR) para avaliação de casos incipientes. Estudo comparativo da TCAR com a RX no
diagnóstico da silicose em casos incipientes foi parte da dissertação de mestrado de Carneiro (2000).
A seguir apresentam-se algumas informações sobre o estudo, detalhes adicionais podem ser
encontrados em Carneiro et al. (2001).
Trata-se de delineamento transversal em que foi avaliado um grupo inicial de 135 ex-mineiros, cujas
radiografias foram examinadas por três leitores. Indicou-se TCAR para 68 pacientes cuja mediana de
três leituras radiológicas foi igual ou inferior a 1/0. As tomografias foram avaliadas por dois leitores e,
em casos de divergência, houve participação do terceiro leitor.
Método Leitores
(nº de categorias) 1e2 1e3 2e3
0,45 0,26 0,26
RX (12) (0,32; 0,58) (0,09; 0,44) (0,13; 0,39)
49% 43% 35%
0,45 0,30 0,15
RX (4) (0,26; 0,65) (0,06; 0,53) (0,003: 0,30)
72% 79% 69%
0,14 0,16 0,33
TCAR (4) (-0,02; 0,31) (-0,20; 0,51) (0,13; 0,53)
68% 85% 60%
A melhor concordância, avaliada pelo coeficiente kappa, para o método de RX, tanto com 12
categorias como com quatro categorias, foi obtida entre os leitores 1 e 2, enquanto que pelo método
TCAR foi entre os leitores 2 e 3. Também não há relação direta entre os percentuais de leituras
concordantes entre os leitores de RX e TCAR e os valores de kappa, o maior percentual não
correspondente necessariamente ao maior valor de kappa. De fato, sabe-se que o coeficiente kappa
apresenta limitações, entre as quais a dependência em relação à prevalência do evento pesquisado (ver
comentários e referência na seção 9.3).
Não há consistência entre os percentuais de leituras concordantes entre os leitores de radiografia (RX) e
tomografia computadorizada de alta resolução (TCAR) de tórax e os valores de kappa. Por exemplo,
85% das leituras feitas pelos leitores 1 e 3 foram concordantes pela TCAR, enquanto que o valor de
kappa foi de apenas 0,16, com intervalo de 95% confiança bastante amplo, variando de −0,20 a 0,51.
Carneiro et al. (2001) apresenta análise mais completa e informativa a respeito da concordância entre
os avaliadores e entre os métodos utilizando modelos log-lineares.
9.2 Tamanho de amostra em estudos de concordância baseados no coeficiente
kappa quando há dois avaliadores
A seguir discute-se o método para o cálculo do tamanho de amostra para estudos de concordância que
utilizam o coeficiente kappa e quando a resposta apresenta apenas duas categorias. A metodologia
baseia-se em resultados assintóticos para o estimador do coeficiente kappa. Apesar de ser um método
aproximado e com algumas limitações, a vantagem é que os cálculos são muito simples e, portanto, de
fácil implementação na prática. Utiliza-se a mesma notação da Tabela 9.1 da seção 9.1.
Muitas são as situações que necessitam do método descrito nesta seção. Tibúrcio e Siqueira (2006)
ilustram a metodologia com dados fictícios e com dados reais mais complexos referentes a dois estudos
realizados em parceria com o Programa de Triagem Neonatal de Minas Gerais (“teste do pezinho”).
O primeiro trata do perfil hemoglobínico de crianças retidas em maternidade e o segundo é sobre a
triagem neonatal para toxoplasmose congênita em Belo Horizonte.
2
𝑧1−𝛼 √𝑄0 + 𝑧1−𝛽 √𝑄1
𝑛(𝜅=𝜅1 >𝜅0 ) =( ) (9.4)
𝜅1 − 𝜅0
Em (9.4), 𝑄0 e 𝑄1 têm a mesma expressão de 𝑄 da fórmula (9.2), respectivamente, para a hipótese nula
e para a hipótese alternativa com 𝜅 = 𝜅1 > 𝜅0 ; 𝑧1−𝛼 e 𝑧1−𝛽 são os percentis de ordem (1 − 𝛼)100% e
(1 − 𝛽)100% da distribuição normal padrão. O valor 𝜅0 = 0 é uma das possibilidades que
podem ser testadas.
Se por algum motivo não houve o planejamento do tamanho da amostra, o poder do teste
correspondente ao tamanho de amostra disponível 𝑛 pode ser calculado facilmente a partir do percentil
da distribuição normal dado por:
Como sempre, aparece a dificuldade sobre os valores dos parâmetros para os quais, em geral, não se
tem conhecimento algum à época do planejamento do estudo. Cantor (1996) e Pires (2003) apresentam
tabelas para o cálculo de 𝑄 e 𝑛.
Exemplo 9.2 - Cálculo do tamanho de amostra para estudos de concordância que utilizam o
coeficiente kappa (testes de hipóteses simples) e a variável resposta apresenta apenas duas
categorias (adaptação: Cantor, 1996) ╬╬
Dois observadores são convidados para avaliar um grupo de indivíduos e decidir se cada um exibe
algum comportamento particular.
Deseja-se testar a hipótese nula 𝐻0 : 𝜅 = 0,30 contra a alternativa unilateral 𝐻1 : 𝜅 > 0,30, quando
𝜅1 = 0,50, com nível de significância de 5% (𝑧1−𝛼 = 1,645) e poder de 80% (𝑧1−𝛽 = 0,842).
Esperando que ambos os observadores vejam o comportamento em cerca de metade dos indivíduos
(𝜋1. = 𝜋.1 = 0,5), tem-se que 𝑄0 = 0,910 e 𝑄1 = 0,750 (ver fórmula 9.2). Aplicando a fórmula (9.4),
2 2
𝑧1−𝛼 √𝑄0 +𝑧1−𝛽 √𝑄1 1,645√0,910+0,842√0,750
obtém-se que 𝑛(𝜅=𝜅1 >𝜅0 ) = ( ) =( ) = 132,07. Portanto, são
𝜅1 −𝜅0 0,50−0,30
necessários 133 indivíduos. A Tabela 9.4 mostra os tamanhos das amostras obtidos, mantendo-se o
mesmo valor na hipótese nula (𝜅0 = 0,30), mas variando-se os valores de 𝜅1 . Os cálculos foram
repetidos supondo-se que cada comportamento seja observado em cerca de 30% do tempo, caso em que
as probabilidades marginais são 𝜋1. = 𝜋.1 = 0,3.
À medida que 𝜅1 aumenta, o tamanho de amostra, 𝑛(𝜅=𝜅1 >𝜅0 ), diminui. A mesma relação inversa vale
entre 𝑛(𝜅=𝜅1 >𝜅0 ) e as probabilidades marginais (𝜋1. = 𝜋.1 ): os tamanhos de amostra referentes ao bloco
𝜋1. = 𝜋.1 = 0,5 são inferiores aos correspondentes do bloco 𝜋1. = 𝜋.1 = 0,3.
Tabela 9.4 - Tamanho de amostra, 𝑛(𝜅=𝜅1 >𝜅0 ), obtido pela fórmula (9.4), para testar
𝐻0 : 𝜅 = 𝜅0 versus 𝐻1 : 𝜅 > 𝜅0 em estudos de concordância que utilizam o
coeficiente kappa (𝜅) quando a variável resposta apresenta apenas duas categorias
𝜅0 𝜅1 𝑛(𝜅=𝜅1 >𝜅0 )
0,30 0,55 83
0,30 0,60 56
0,30 0,65 40
0,30 0,70 30
0,30 0,50 154
𝜋1. = 𝜋.1 = 0,3
0,30 0,55 97
0,30 0,60 66
0,30 0,65 47
0,30 0,70 35
Nota: 𝜅1 > 𝜅0 ; 𝜋1. e 𝜋.1 : probabilidades marginais.
Para a situação de duas amostras (grupos) independentes, cada uma de tamanho 𝑛, a avaliação da
concordância pode ser formulada pelas hipóteses 𝐻0 : 𝜅1 = 𝜅2 versus 𝐻1 : 𝜅1 ≠ 𝜅2 , sendo 𝜅1 e 𝜅2 os
coeficientes kappa referentes às duas amostras, respectivamente. Segundo Cantor (1996), a partir de
cálculos elementares chega-se a que o tamanho da amostra para testar as hipóteses mencionadas é:
2
𝑧1−𝛼/2 √𝑄01 + 𝑄02 + 𝑧1−𝛽 √𝑄11 + 𝑄12
𝑛𝜅1 ≠𝜅2 =( ) (9.6)
𝜅1 − 𝜅2
Em (9.6), 𝑄01 e 𝑄02 têm a mesma expressão de 𝑄 da fórmula (9.2), calculados sob a hipótese nula
(𝐻0 ), enquanto que 𝑄11 e 𝑄12 são calculados sob a hipótese alternativa (𝐻1 ) e, naturalmente, o
segundo índice (1 ou 2) indica o “grupo” a que pertence. Usando a notação usual, 𝑧1−𝛼/2 e 𝑧1−𝛽 são os
percentis de ordem (1 − 𝛼/2)100% e (1 − 𝛽)100% da normal padrão.
Exemplo 9.3 - Cálculo do tamanho de amostra para a comparação de dois coeficientes de
concordância kappa quando a variável resposta apresenta apenas duas categorias (adaptação de
CANTOR, 1996) ╬╬
Questionário foi elaborado para avaliar quão bem um paciente lida de forma emocional e psicológica
com determinada doença crônica grave. Para simplificar, o resultado da avaliação foi considerado
como dicotômico: satisfatório ou insatisfatório. A utilidade do questionário é feita pela validade
interna, medida pela concordância dos resultados de um paciente em duas administrações distintas.
Assim, como parte de um estudo para comparar dois desses questionários, os pacientes com doença
crônica grave são aleatorizados em um dos dois questionários. Em cada caso, o questionário é
administrado ao paciente duas vezes, no início do estudo e um mês mais tarde.
As estimativas de kappa devem ser comparadas supondo-se que os resultados dos dois períodos sejam
independentes. Especificamente, deve-se testar 𝐻0 : 𝜅1 = 𝜅2 versus 𝐻1 : 𝜅1 ≠ 𝜅2 com 𝛼 = 0,05.
A partir de trabalho anterior com um dos questionários, espera-se que 𝜅1 ≈ 0,70 e que cerca de metade
dos pacientes responderá de forma satisfatória. Fixando-se o poder em pelo menos 80%, se 𝜅2 = 0,5 ou
0,9 (isto é, 𝜅1 ± 0,2), a partir dos valores dos percentis 𝑧1−𝛼/2 = 1,96 e 𝑧1−𝛽 = 0,841 e com a
informação de que 𝑄01 = 𝑄02 = 0,510 e 𝑄11 = 0,510 e 𝑄12 = 0,750, aplicando-se a fórmula (9.6),
2 2
𝑧1−𝛼/2 √𝑄01 +𝑄02 + 𝑧1−𝛽 √𝑄11 +𝑄12 1,96 √0,510+0,510 + 0,841 √0,510+0,750
𝑛𝜅1 ≠𝜅2 = ( ) = ( ) = 213,675, o
𝜅1 −𝜅2 0,70−0,5
tamanho de amostra obtido é 214. Trocando o poder para 90%, o tamanho da amostra sobe para 293.
Como pressuposto do método exige-se que as verdadeiras distribuições marginais dos avaliadores
sejam as mesmas. Posteriormente, Cantor (1996) mostrou que para duas categorias (𝑟 = 2) essa
suposição não é necessária.
A ideia principal do método é utilizar as condições que maximizam o erro-padrão do estimador de
kappa na fórmula do cálculo do dimensionamento de amostra, o que seria a situação mais pessimista
possível, gerando assim o tamanho de amostra mais conservador.
Segundo Fleiss et al. (1969), utilizando propriedades de grandes amostras, para o tamanho de amostra
𝑛, o erro-padrão do estimador de kappa é dado por:
𝜏(𝜅̂ ) 1 𝑟 𝑟 2
̂) =
𝐸𝑃(Κ = {𝜋0 (1 − 𝜋𝑒 )2 + (1 − 𝜋0 )2 ∑ ∑ 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 )
2
√𝑛 √𝑛(1 − 𝜋𝑒 ) 𝑖=1 𝑗=1
𝑟 ½ (9.7)
− 2(1 − 𝜋0 )(1 − 𝜋𝑒 ) ∑ 𝜋𝑖𝑖 (𝜋𝑖. + 𝜋.𝑖 ) − (𝜋0 𝜋𝑒 − 2𝜋𝑒 + 𝜋0 } )2
𝑖=1
É a mesma fórmula vista na seção 9.1.2, mas agora são adicionados comentários relacionados a ela e
que são relevantes para os cálculos de tamanho de amostra. As probabilidades (𝜋𝑖𝑗 , 𝜋𝑖. , 𝜋.𝑗 ) que
aparecem em (9.7) estão definidas na Tabela 9.2, 𝜋0 = ∑𝑟𝑖=1 𝜋𝑖𝑖 e 𝜋𝑒 = ∑𝑟𝑖=1 𝜋𝑖. 𝜋.𝑖 .
̂ ).
Flack et al. (1988) apresentam uma configuração de 𝜋𝑖𝑗 que corresponde ao valor máximo de 𝐸𝑃(Κ
O procedimento depende das probabilidades marginais de ambos os avaliadores, {𝜋𝑖. } e {𝜋.𝑗 }, e das
probabilidades conjuntas (𝜋𝑖𝑗 ). Naturalmente, antes que o estudo seja realizado, todas essas
probabilidades são desconhecidas. Assim, torna-se necessário fazer algumas suposições que levam a
̂ ). Em teoria, se os dois avaliadores apresentam uma
algumas simplificações da fórmula de 𝐸𝑃(Κ
concordância perfeita, as probabilidades marginais serão exatamente iguais (marginais simétricas).
Na prática, isso nem sempre acontece, mas se a simetria das marginais for pelo menos razoável, os
resultados apresentados a seguir podem ser utilizados.
̂)
Para determinada distribuição marginal e um valor de kappa (𝜅), a única parte da fórmula de 𝐸𝑃(Κ
dada em (9.7) que não é especificada é a que envolve os somatórios e pode ser reescrita da
seguinte forma:
r 𝑟
𝑟
(1 − 𝜋0 )2 ∑ ∑ 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 )2 − (1 − 𝜋0 ) ∑ 𝜋𝑖𝑖 (𝜋𝑖. + 𝜋.𝑖 )[ 2(1 − 𝜋𝑒 )
𝑖=1 (9.8)
𝑖≠𝑗
− (1 − 𝜋0 )(𝜋𝑖. + 𝜋.𝑖 )]
O somatório duplo que aparece em (9.8) é maximizado colocando o total das probabilidades que ficam
fora da diagonal da Tabela 9.2, 1 − 𝜋0 , nos termos 𝜋𝑖𝑗 correspondentes às maiores probabilidades
marginais. Os demais termos (𝜋𝑖𝑗 ) que estão fora da diagonal devem ter valores iguais a zero.
Além disso, no somatório simples em (9.8), quando 𝜋0 > 𝜋𝑒 , a expressão que está entre colchetes é
positiva e a quantidade que está multiplicada por 𝜋𝑖𝑖 é quadrática em (𝜋𝑖. + 𝜋.𝑖 ). Assumindo marginais
simétricas (𝜋𝑖. = 𝜋.𝑖 , 𝑖 = 1,2, ⋯ , 𝑟), essa forma quadrática assume seu máximo quando 𝜋𝑖. > 0,5.
Portanto, o somatório simples é minimizado maximizando-se 𝜋𝑖𝑖 correspondente às menores marginais.
Consequentemente, o somatório simples é minimizado quando o somatório duplo é maximizado.
Isso deve ser aproximadamente verdade quando as duas marginais são próximas.
Para amostras grandes, o estimador de kappa tem aproximadamente distribuição normal, com média
igual ao teórico, 𝜅 = (𝜋0 − 𝜋𝑒 )/(1 − 𝜋𝑒 ), e erro-padrão dado pela fórmula (9.7). Assim, os cálculos de
tamanhos de amostra dependem de percentis da distribuição normal padrão. Para amostras pequenas,
transformações, como as consideradas em Flack (1987), podem ser aplicadas.
2
Maximizar ̂)
𝐸𝑃(Κ é equivalente a maximizar ∑𝑟𝑖≠𝑗 ∑𝑟 𝜋𝑖𝑗 (𝜋𝑖. + 𝜋.𝑗 ) = 𝜋12 (𝜋1. + 𝜋.2 )2 +
𝜋21 (𝜋2. + 𝜋.1 )2 + ⋯ + 𝜋34 (𝜋3. + 𝜋.4 )2 + 𝜋43 (𝜋4. + 𝜋.3 )2 = 𝜋12 (0,1 + 0,2)2 + 𝜋21 (0,2 + 0,1)2 + ⋯ +
𝜋34 (0,3 + 0,4)2 + 𝜋43 (0,4 + 0,3)2 ≤ 𝜋12 (0,3 + 0,4)2 + 𝜋21 (0,4 + 0,3)2 + ⋯ + 𝜋34 (0,3 + 0,4)2 +
𝜋43 (0,4 + 0,3)2 = (𝜋12 + 𝜋13 + 𝜋14 + 𝜋23 + 𝜋24 + 𝜋34 )(0,3 + 0,4)2 + (𝜋21 + 𝜋31 + 𝜋41 + 𝜋32 +
1−𝜋0 1−𝜋0 1−0,86 1−0,86
𝜋42 + 𝜋43 )(0,4 + 0,3)2 = (0,3 + 0,4)2 + (0,4 + 0,3)2 = (0,3 + 0,4)2 + (0,4 +
2 2 2 2
0,3)2 = 0,06860. Esse valor máximo é obtido fazendo 𝜋34 = 𝜋43 = (1 − 0,86)/2 e as demais
probabilidades 𝜋𝑖𝑗 , 𝑖 ≠ 𝑗, iguais a zero.
Ou seja, como 𝜋0 = 0,86, 1 − 𝜋0 = 1 − 0,86 = 0,14, esse valor deve ser distribuído entre
as probabilidades 𝜋𝑖𝑗 , 𝑖 ≠ 𝑗, correspondentes às maiores probabilidades marginais, no caso
1−𝜋0 1−0,86
𝜋34 = 𝜋43 = 2
= 2
= 0,07 e as demais probabilidades devem ser zero: 𝜋12 = 𝜋13 =
𝜋14 = 𝜋23 = 𝜋24 = 𝜋21 = 𝜋31 = 𝜋41 = 𝜋32 = 𝜋42 = 0. A partir das marginais, é possível obter os
valores das probabilidades que estão nas diagonais: 𝜋11 = 0,1; 𝜋22 = 0,2; 𝜋33 = 0,3 − 0,07 = 0,23;
𝜋44 = 0,4 − 0,07 = 0,33. Resumindo, a matriz das probabilidades mostrada a seguir é a que maximiza
̂ ), fórmula apresentada em (9.7).
𝐸𝑃(Κ
Para estudos de concordância, o cálculo do tamanho da amostra pode ser feito usando-se dois enfoques:
intervalo de confiança e testes de hipóteses.
2
𝜏(𝜅̂ )2
𝑛𝐼𝐶(𝜅) = 4𝑧1−𝛼/2 𝑚𝑎𝑥 (9.9)
𝑑2
A maximização que aparece em (9.9) deve ser feita como mostrado no exemplo 9.4, além de observar a
fórmula (9.7). O termo 𝑧1−𝛼/2 é o percentil de ordem (1 − 𝛼)100% da distribuição normal padrão.
Exemplo 9.5 - Cálculo do tamanho de amostra para estudos de concordância que utilizam o
intervalo de confiança para o coeficiente kappa quando a variável resposta apresenta três
categorias (adaptação de FLACK et al., 1988) ╬╬
A Tabela 9.5 mostra os tamanhos de amostra, calculados pela fórmula (9.9), correspondentes a algumas
distribuições marginais em estudos de concordância envolvendo dois avaliadores, sendo utilizado o
intervalo de 95% de confiança (𝑧1−𝛼/2 = 1,96) para o coeficiente kappa. O comprimento do intervalo
foi fixado em 0,20 (𝑑 = 0,20). Para o cálculo do 𝑚𝑎𝑥 𝜏(𝜅̂ ), foram considerados dois valores de
kappa: 0,70 e 0,60.
Tabela 9.5 - Tamanho de amostra, 𝑛𝐼𝐶(𝜅) , obtido pela fórmula (9.9), considerando-se confiança de
95%, comprimento do intervalo de confiança de 0,20 (𝑑 = 0,20) e dois valores de kappa: 0,7 e 0,6
Os tamanhos de amostra correspondentes a kappa igual a 0,7 são inferiores aos de kappa igual a 0,6.
Em geral, quanto maior a concordância (valor de kappa), menor será o tamanho de amostra necessário
(𝑛𝐼𝐶(𝜅) ). Fixando-se um valor de kappa, a distribuição marginal aproximadamente uniforme
(proporções aproximadamente iguais) é aquela com o menor tamanho de amostra, enquanto que a
distribuição marginal mais desbalanceada (no caso a última linha da tabela) é a que exige maior
tamanho de amostra. Foram obtidos exatamente os mesmos resultados pelo software Pass®14, como
comentado na seção 11.3 do capítulo 11.
Tamanho de amostra com o enfoque de testes de hipóteses
2
𝑧1−𝛼 𝑚𝑎𝑥 𝜏(𝜅̂ |𝜅 = 𝜅0 ) + 𝑧1−𝛽 𝑚𝑎𝑥 𝜏(𝜅̂ |𝜅 = 𝜅1 )
𝑛𝑇𝐻(𝜅) =( ) (9.10)
𝜅0 − 𝜅1
A maximização, indicada por 𝑚𝑎𝑥, que aparece em (9.10), deve ser feita como demonstrado no
exemplo 9.4, além de observar a fórmula (9.7). Os termos 𝑧1−𝛼 e 𝑧1−𝛽 são, respectivamente, os
percentis de ordem (1 − 𝛼)100% e (1 − 𝛽)100% da distribuição normal padrão.
Exemplo 9.6 - Cálculo do tamanho de amostra para estudos de concordância que utilizam testes
de hipóteses para o coeficiente kappa quando a variável resposta apresenta três categorias
(adaptação de FLACK et al., 1988) ╬╬
A Tabela 9.6 apresenta os tamanhos de amostra, obtidos pela fórmula (9.10), correspondentes a
algumas distribuições marginais para testar as hipóteses 𝐻0 : 𝜅 = 0,40 versus 𝐻1 : 𝜅 > 0,40 no nível de
significância de 5%. O valor de kappa na hipótese alternativa é 𝜅1 = 0,60 e os cálculos foram feitos
para dois valores de poder: 80% e 90%.
Exemplo 9.7 - Cálculo do tamanho de amostra para estudos de concordância que utilizam testes
de hipóteses para o coeficiente kappa com vários números de categorias da variável resposta ╬╬
A Tabela 9.7 contém os tamanhos de amostra obtidos pela fórmula (9.10), correspondentes a algumas
distribuições marginais, para os casos de duas, três, quatro e cinco categorias (𝑟 = 2, 3, 4, 5), para
testar as hipóteses 𝐻0 : 𝜅 = 0,40 versus 𝐻1 : 𝜅 > 0,40, sendo que o valor de kappa considerado na
alternativa foi 𝜅1 = 0,60. Foi adotado o nível de significância de 5% e os cálculos foram feitos para
dois valores de poder: 80% e 90%.
Neste exemplo ilustra-se o impacto do grau de concordância entre os dois avaliadores no tamanho de
amostra. Consideram-se casos de concordância fraca, moderada, boa e ótima, conforme a classificação
apresentada na seção 9.1.
A Tabela 9.8 apresenta os tamanhos de amostra obtidos pela fórmula (9.10), correspondentes a algumas
distribuições marginais no caso de três categorias (𝑟 = 3), representadas por C1, C2 e C3, para testar
as hipóteses 𝐻0 : 𝜅 = 𝑘0 versus 𝐻1 : 𝜅 > 𝑘0 , para alguns valores de 𝑘0 e de 𝜅1 , o valor de kappa na
hipótese alternativa. O nível de significância adotado foi 5% e os cálculos foram feitos para dois
valores de poder: 80% e 90%.
Tabela 9.8 - Tamanhos de amostra, 𝑛𝑇𝐻(𝜅) , obtidos pela fórmula (9.10), correspondentes
a algumas distribuições marginais, para o caso de três categorias, representadas por
C1, C2, C3, (𝑟 = 3), para testar as hipóteses 𝐻0 : 𝜅 = 𝑘0 versus 𝐻1 : 𝜅 > 𝑘0,
para alguns valores de 𝑘0 e de 𝜅1 (o valor de kappa na hipótese alternativa)
No primeiro bloco da tabela (𝑘0 = 0,40 e 𝜅1 = 0,60), a razão entre os tamanhos de amostra referentes
ao poder de 90% e 80% é de aproximadamente 1,35, enquanto que no segundo (𝑘0 = 0,60 e
𝜅1 = 0,80) e terceiro (𝑘0 = 0,80 e 𝜅1 = 0,95) blocos essa razão é da ordem de 1,31 e 1,23.
Além do esperado efeito do poder, mais notável no primeiro bloco, quanto menor o grau de
concordância, maior será o tamanho de amostra necessário para a mesma distribuição marginal.
Existe uma lacuna em relação ao dimensionamento de amostras utilizando o kappa ponderado. Norman
e Streiner (2014) sugerem que, como para este caso muitas conjecturas devem ser feitas, deve-se
utilizar o seguinte critério amplamente aceito, com base em conhecimento prático: o número mínimo
de indivíduos a serem avaliados deve ser 2𝑟 2 , sendo 𝑟 o número de categorias (SOEKEN
e PRESCOTT, 1986). Por exemplo, com quatro categorias, pelo menos 2 × 42 = 32 indivíduos
devem ser avaliados.
Além do coeficiente de kappa de Cohen, definido em 1960, que foi discutido neste capítulo, há outro
conhecido como índice de Scott, introduzido em 1955. Utilizando o índice de Scott, Donner e Eliasziw
(1992) propuseram um método estatístico em que o teste de significância, poder e tamanho de amostra
foram obtidos utilizando-se um procedimento do tipo qui-quadrado para ajuste (“goodness-of-fit”).
O método baseia-se em um teste bilateral.
Há outras medidas para avaliar concordância e vários métodos para calcular o tamanho de amostra e/ou
o poder do teste estão disponíveis na literatura. O coeficiente de correlação de concordância de Lin
(CCC) mede a concordância entre novo teste/instrumento ou medida (𝑌) e o teste padrão-ouro ou
medida (𝑋). Quantifica a concordância entre essas duas medidas da mesma variável. Varia de −1 a 1,
sendo que quando é igual a 1 significa concordância perfeita. CCC nunca excede o valor absoluto de 𝜌,
o coeficiente de correlação de Pearson entre 𝑌 e 𝑋. Liao e Lewis (2000) apresentam revisão de medidas
de concordância.
Formas de calcular tamanho da amostra baseadas em CCC são apresentadas em Lin (1989, 1992, 2000)
e Lin et al. (2012). Em elegante estudo sobre métodos estatísticos para avaliar concordância,
Lin et al (2002) derivam o poder assintótico para os índices de concordância considerados, incluindo
CCC, e algumas fórmulas para o cálculo de tamanho de amostra.
Donner (1998) fornece fórmulas e tabelas para o tamanho da amostra para estudos que comparam dois
ou mais coeficientes de concordância interobservadores. São considerados os casos de variáveis
resposta contínuas ou binárias. A metodologia é ilustrada com três exemplos.
Altaye et al. (2001) desenvolvem procedimento para inferência estatística para medida de concordância
interobservador em estudos envolvendo variável resposta binária com múltiplos avaliadores.
É extensão do trabalho desenvolvido por Donner e Eliasziw (1992) para o caso de dois avaliadores.
O procedimento proposto fornece níveis de confiança de cobertura dos intervalos que estão próximos
dos níveis nominais para vasta gama de combinações de parâmetros. O processo também proporciona
uma fórmula do tamanho da amostra que pode ser usado para determinar os números de indivíduos e de
avaliadores necessários para tais estudos. Donner e Rotondi (2010) consideram a determinação da
amostra usando o coeficiente kappa com múltiplos avaliadores.
Liao (2010) propõe um método que utiliza o enfoque de intervalo de confiança para a concordância no
cálculo do tamanho da amostra na realização de um estudo de concordância. O cálculo do tamanho da
amostra é baseado em duas quantidades: a taxa de discordância e a probabilidade de tolerância, que por
sua vez podem ser usadas para quantificar um estudo de concordância. A abordagem proposta é
demonstrada por meio de um conjunto de dados reais.
Em estudos de concordância, quando há dois avaliadores e a variável resposta é binária, Nam (2002)
apresenta uma estatística eficiente a partir do teste do escore, para testar a força de concordância
utilizando o coeficiente kappa. São derivados o poder assintótico e uma fórmula do tamanho da
amostra. Avaliação do método revela que o teste do escore geralmente é conservador e mais poderoso
do que um método baseado em uma estatística do tipo qui-quadrado de ajuste (“goodness-of-fit”)
apresentado em Donner e Eliasziw (1992). Em particular, quando a pergunta da pesquisa é posta em
determinada direção (hipóteses unilaterais), o teste do escore é substancialmente mais poderoso e a
redução no tamanho da amostra é apreciável.
Em estudos para comparar a concordância entre dois ou mais métodos de avaliação, Lin et al. (2003)
fazem a adaptação do método de estimação de equações generalizadas (GEE) para modelar estatísticas
envolvendo kappa, de forma a estimar os tamanhos de amostra exigidos em estudos de concordância.
Os autores calculam o poder baseado no teste de Wald para a igualdade de duas estatísticas kappa na
situação em que há dependência. O método proposto é útil para estudos de concordância com dois
avaliadores e dois instrumentos e é facilmente estendida para os casos de vários avaliadores e múltiplos
instrumentos. São apresentados os cálculos de poder para quando a classificação é binária em diversos
cenários. Dois estudos biomédicos são apresentados para ilustrar a metodologia.
A maioria das fórmulas fechadas de tamanho de amostra do capítulo foi programada em planilhas
Excel® e elas se encontram disponíveis para os leitores (ver informações na apresentação do livro;
os exemplos com fórmulas programadas estão sinalizados por ╬╬).
Neste capítulo são apresentados alguns tópicos sobre cálculo de tamanho de amostra ou do poder em
situações mais específicas, tais como: métodos não paramétricos, modelos lineares generalizados,
dados grupados e longitudinais, além de poder exato. O capítulo finaliza com breves comentários e
referências sobre estudos sequenciais, delineamentos adaptativos e metanálise.
Diferentemente dos capítulos anteriores, não são fornecidos detalhes de implementações de todos os
métodos citados. O enfoque do capítulo é mais informativo, com indicação das referências
bibliográficas mais importantes para cada seção.
Métodos não paramétricos são frequentemente usados quando não se tem a informação sobre a
distribuição da variável analisada. Testes não paramétricos são construídos tipicamente usando-se os
postos das observações. O posto (rank) de uma observação é o seu número de ordem após a ordenação
de todas as observações. Quando há empates, toma-se como posto de cada observação a média dos
postos que seriam atribuídos às observações, caso os empates não existissem. Por exemplo, se as
observações são {1; 1; 2; 4; 4; 7}, os postos correspondentes são {1,5; 1,5; 3; 4,5; 4,5; 6}.
A explicação dos valores é como se segue: 1,5 (média de 1 e 2, a primeira e segunda posições);
3 (a observação 2 ocupa a terceira posição); 4,5 (média de 4 e 5, a quarta e quinta posições);
6 (a observação 7 ocupa a sexta posição).
Para variáveis contínuas, os testes não paramétricos são em geral desenvolvidos para comparar as
medianas de grupos em situações em que a distribuição da variável de interesse não é conhecida ou tem
comportamento não normal (não gaussiana). De forma geral, a metodologia de testes não paramétricos
não é específica de determinada distribuição e por essa razão é às vezes chamada de método de
distribuição livre. Existem distribuições específicas exatas desenvolvidas para cada tipo de situação,
mas também há aproximações (em geral utilizando a distribuição normal) quando as amostras
são suficientemente grandes. Detalhes podem ser obtidos, por exemplo, em Conover (1999),
Lehamann (2006) e Sprent e Smeeton (2007).
Os testes não paramétricos são boas opções para situações em que ocorrem violações dos pressupostos
básicos necessários para a aplicação de um teste paramétrico, por exemplo, para testar a diferença de
dois grupos quando a distribuição subjacente é assimétrica ou os dados foram coletados em uma escala
ordinal. Também é útil no caso de amostras pequenas, já que propriedades de testes paramétricos
podem não ser válidas.
Embora os cálculos envolvidos em um teste não paramétrico não necessitem de suposição alguma
sobre a distribuição da variável, para o cálculo do tamanho da amostra de um estudo que deverá ser
analisado por meio de um teste não paramétrico, algum tipo de suposição da distribuição (em geral uma
aproximação da distribuição da estatística do teste) deve ser utilizado.
O termo eficiência assintótica relativa (𝐸𝐴𝑅) é usado para comparar testes não paramétricos com os
correspondentes testes paramétricos em termos do poder, sendo que os cálculos são feitos assumindo-
se que as suposições dos testes paramétricos são válidas. Define-se 𝐸𝐴𝑅 = 100 𝑙𝑖𝑚𝑛→∞ (𝑛𝑃 /𝑛𝑁𝑃 ),
sendo 𝑛𝑃 e 𝑛𝑁𝑃 os tamanhos de amostra dos testes paramétricos (𝑃) e não paramétricos (𝑁𝑃), ambos
usando, naturalmente, a mesma hipótese nula, adotando o mesmo nível de significância e fixando o
mesmo poder. Em geral, o poder de métodos não paramétricos é inferior ao dos correspondentes
métodos paramétricos.
Dependendo da natureza da distribuição, os testes não paramétricos podem exigir mais ou menos
indivíduos. Um princípio ou critério amplamente aceito, com base no conhecimento prático, é que para
calcular o tamanho da amostra para o caso de testes não paramétricos devem-se adicionar 15% em
relação à correspondente solução do teste paramétrico.
Noether (1987) apresenta o método para determinar o tamanho de amostra requerido em alguns testes
não paramétricos comuns, tal que o poder do teste é de pelo menos (1 − 𝛽), sendo 𝛽 a probabilidade
de cometer o erro do tipo II.
De Martini e Telesca (1999) discutem métodos para calcular tamanho de amostra para os testes
clássicos de rank no caso de uma e duas amostras. Além da proposta de várias aproximações
assintóticas para o cálculo do poder, utilizam também o método bootstrap, cujas soluções estão
implementadas em um programa para computador.
Testes não paramétricos incluem o teste de Wilcoxon para o caso de uma amostra, o teste de Mann-
Whitney, também chamado de Mann-Whitney-Wilcoxon ou simplesmente teste de postos de
Wilcoxon, que é usado para a comparação de medianas de dois grupos independentes. Podem ser
citados também o teste de Wilcoxon, usado para comparar dois tratamentos quando os dados são
obtidos por meio do esquema de pareamento, o teste de Kruskal-Wallis para amostras independentes e
o teste de Friedman para três ou mais grupos quando há emparelhamento.
A seguir são apresentadas fórmulas de cálculo de tamanho de amostra para algumas situações.
Outras fórmulas e referências nesse contexto podem ser encontradas, por exemplo, no capítulo 10
de Ryan (2013).
10.2.1 Tamanho de amostra para testes não paramétricos no caso de uma amostra
Nesta seção discute-se o problema de dimensionamento de amostra para três testes: a) teste de
Wilcoxon para uma amostra; b) teste de Wilcoxon para dados pareados, que ao tirar as diferenças dos
pares funciona como se fosse para uma amostra; c) teste do sinal. As referências básicas para a seção
são Noether (1987) e o capítulo 10 de Ryan (2013).
Seja (𝑋1 , ⋯ , 𝑋𝑛 ) uma amostra aleatória de uma população cuja mediana é 𝜂. O objetivo é testar se a
mediana é igual a determinado valor (𝜂 = 𝜂0 ) e, sem perda de generalidade, pode ser assumido que
𝜂0 = 0, como em Noether (1987).
O teste de Wilcoxon para uma amostra, em inglês Wilcoxon signed rank test, é usado para testar se a
mediana de uma distribuição simétrica é igual a um valor específico. Note-se que se a distribuição for a
normal, a mediana coincide com a média. A estatística do teste de Wilcoxon para testar a hipótese de
que uma distribuição simétrica está centrada em torno do zero é 𝑊 = ∑ 𝑝𝑜𝑠𝑡𝑜𝑠|𝑋|, sendo que a soma
estende-se para todas as observações positivas da variável estudada 𝑋. De forma equivalente,
a estatística pode ser escrita como 𝑊 = #[𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 𝑑𝑒 (𝑋𝑖 + 𝑋𝑗 )], 1 ≤ 𝑖 ≤ 𝑗 ≤ 𝑛, sendo 𝑛 o
tamanho de amostra e # indica o número de casos. Noether (1987) apresenta detalhes até chegar à
seguinte fórmula de cálculo do tamanho de amostra para testar hipóteses unilaterais:
2
(𝑧1−𝛼 +𝑧1−𝛽 )
𝑛𝑊1 = (10.1)
3(𝑝′ − 0,5)2
normal padrão. O uso dos percentis da distribuição normal padrão indica que a aproximação foi feita
supondo-se que o tamanho de amostra é suficientemente grande, ou seja, resultados assintóticos foram
usados para obter a fórmula. Não é bem conhecido quão bem a fórmula (10.1) funciona para amostras
pequenas. Para hipóteses bilaterais, basta trocar 𝑧1−𝛼 por 𝑧1−𝛼/2 na fórmula (10.1).
A eficiência assintótica relativa (𝐸𝐴𝑅) para o teste de Wilcoxon para uma amostra em relação ao
correspondente teste paramétrico 𝑍, supondo-se variância conhecida, é (3/𝜋)100% = 95,5%.
Comparando-se o teste de Wilcoxon com o teste 𝑡 para uma amostra, segundo Conover (1980) e
Lehmann (2006), o limite inferior da 𝐸𝐴𝑅 é 0,864. Assim, de forma conservadora, o tamanho de
amostra obtido para o teste 𝑡 deve ser multiplicado por (1/0,864) = 1,1574.
Em processo ao longo do tempo, há registro de 100 sucessos e certas melhorias foram feitas tal que se
espera ter boa chance de pelo menos um ganho, ou seja, 101 sucessos. Considerando população infinita
(pressuposto aplicável do ponto de vista prático, já que no contexto de dados de processo a população,
em geral, é bastante grande), é razoável supor que a variável 𝑋 que caracteriza o processo possa ser
analisada pela distribuição normal. Após o aprimoramento do processo, supõe-se que a média suba
para 101 e que o desvio-padrão seja igual a 3. Nesse caso, para duas observações independentes,
𝑋(1) e 𝑋(2) , a média de 𝑋(1) + 𝑋(2) é 101 + 101 = 202 e o desvio-padrão √32 + 32 = √18. Portanto,
𝑋(1) +𝑋(2) −202
𝑍= ~ 𝑁(0,1).
√18
Para avaliar o efetivo aprimoramento do determinado processo, o problema pode ser formalizado da
seguinte forma: testar as hipóteses 𝐻0 : 𝜇 = 100 versus 𝐻1 : 𝜇 > 100, sendo 𝜇 a média da variável
analisada. O nível de significância e o poder serão fixados em 5% e 80%, respectivamente. Sob 𝐻0 ,
a mediana de 𝑋(1) + 𝑋(2) é 𝑥̃ = 200 e para os cálculos de 𝑝′ , considera-se 𝜇 = 101 sob 𝐻1 .
Para o planejamento do estudo, deve-se calcular o tamanho de amostra para testar as hipóteses
especificadas, supondo-se que os dados serão analisados pelo teste de Wilcoxon. Inicialmente, calcula-
se a probabilidade que aparece no denominador da fórmula (10.1): 𝑝′ = 𝑃𝑟(𝑋(1) + 𝑋(2) > 𝑥̃) =
𝑃𝑟(𝑋(1) + 𝑋(2) > 200) = 𝑃𝑟(𝑍 > (200 − 202)/√18) = 𝑃𝑟(𝑍 > −0,47) = 0,681324.
Usando a fórmula (2.2) para o teste de uma média no caso em que a variância (𝜎 2 ) é conhecida (ver
seção 2.2.2 do capítulo 2), o tamanho da amostra obtido é 56 (ver Quadro 10.1). Usando o software
Pass®14, que faz um ajuste seguindo a recomendação de Al-Sunduqchi (1990), o tamanho da amostra
sobe para 59. A eficiência dos testes paramétricos em relação ao não paramétrico é (56/63)100% =
88,9% para o primeiro cálculo, enquanto que para o resultado do Pass®14 é (59/63)100% =
93,7%, próximo do valor esperado de (3/𝜋)100% = 95,5%, a eficiência do teste Z supondo
variância conhecida.
Se o poder for trocado para 90% ou 99% e mantendo-se as demais informações, o tamanho da amostra
do teste de Wilcoxon (𝑛𝑊1 ) sobe para 87 e 160, respectivamente.
2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,64 + 0,84)2
Wilcoxon (10.1) 𝑛𝑊1 = = = 62,36
3(𝑝′ − 0,5)2 3(0,681324 − 0,5)2
≅ 63
2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,64 + 0,84)2
Paramétrico (2.2) 𝑛= = = 55,35 ≅ 56
[(𝜇 − 𝜇0 )/𝜎]2 [(101 − 100)/3]2
O teste 𝑡 para amostras pareadas consiste em trabalhar com a diferença das medidas dentro de cada par.
Assim, no caso de amostras pareadas, testar a diferença das médias dos dois grupos é equivalente a
testar a média das diferenças, ou seja, o caso de uma única amostra. Fazendo analogia com o teste
paramétrico, o teste não paramétrico de Wilcoxon para uma amostra pode ser aplicado para dados
pareados. Com as devidas adaptações, a fórmula (10.1) pode ser utilizada.
No caso de correlação entre as diferenças, Rosner et al. (2003, 2006) propuseram modificações para o
teste de Wilcoxon para comparações pareadas quando os dados apresentam estrutura de
conglomerados. Rosner e Glynn (2011) sugerem métodos de determinação do tamanho da amostra
como extensão dos métodos de teste de Wilcoxon apresentados em Rosner e Glynn (2009).
Teste do sinal
tamanho da amostra.
Para o teste do sinal, supõem-se dois resultados possíveis, denominados positivo (+)e negativo (−),
e sem ocorrência de empate. Seja 𝑆 o número de observações positivas. Pelas propriedades da
distribuição binomial, a média e a variância de 𝑆 são dadas por 𝜇(𝑆) = 𝑛𝑝 e 𝜎 2 (𝑆) = 𝑛𝑝(1 − 𝑝),
com 𝑝 = 𝑃𝑟(𝑋 > 0). Sob 𝐻0 , 𝑝 = 1/2, significando que o número esperado de observações positivas
e negativas é igual, 𝜇0 (𝑆) = 𝑛/2 e 𝜎02 (𝑆) = 𝑛/4.
2
𝜇(𝑆) − 𝜇0 (𝑆) 2 𝑛𝑝 − 𝑛/2)
Seja 𝑄(𝑆) = ( ) = ( ) = 4𝑛(𝑝 − 1/2)2 . Supondo-se que, pelo menos
𝜎0 (𝑆) √𝑛/4
2
(𝑧1−𝛼 +𝑧1−𝛽 )
𝑛+−,𝑇𝐻1 = (10.2)
4(𝑝 − 0,5)2
aplicar a fórmula (10.2) para hipótese unilateral, foram obtidos os seguintes resultados:
2
(𝑧1−𝛼 +𝑧1−𝛽 ) (1,64+0,84)2
𝑛+−,𝑇𝐻1 = = 4(0,8413−0,5)2 = 13,20. Aumentando o poder para 95% e 99%, 𝑛+− = 18,37 e
4(𝑝−0,5)2
𝑛+− = 33,84, respectivamente. Para os três valores de poder (80%, 95% e 99%), os tamanhos de
amostra devem ser arredondados, respectivamente, para 14, 19 e 34. Para testar hipótese bilateral, com
2
(𝑧1−𝛼/2 +𝑧1−𝛽 ) (1,96+0,84)2
poder igual a 80%, 𝑛+−,𝑇𝐻2 = = 4(0,8413−0,5)2 = 16,83 (arredondado para 17). E quando
4(𝑝−0,5)2
o poder sobe para 95% e 99%, os valores de 𝑛+− são 23 e 40, respectivamente.
10.2.2 Tamanho de amostra para o teste de Wilcoxon para duas amostras (teste Wilcoxon-Mann-
Whitney ou teste de Mann-Whitney)
O teste de Wilcoxon para duas amostras independentes, mais comumente conhecido como teste
Wilcoxon-Mann-Whitney (WMW), que também é conhecido simplesmente como teste de Mann-
Whitney, é usado para testar se correspondentes populações apresentam as mesmas distribuições,
quando não é razoável supor a distribuição normal.
Existem várias versões para o dimensionamento da amostra para o teste WMW. Uma delas foi
introduzida na seção 6.4 do capítulo 6, em que foi discutido o método apresentado em Raharhja et al.
(2009) para determinação de amostra para dados com ordenação. No artigo de Raharhja et al. (2009),
destaca-se o trabalho de Zhao et al. (2008), no qual são estudados os métodos de cálculo de tamanho de
amostra para o teste não paramétrico de WMW. Na seção 6.4 são estabelecidas comparações entre o
método não paramétrico de Mann-Whitney e o método de Whitehead (1993).
10.2.3 Tamanho de amostra para o teste de Kruskal-Wallis (comparação de mais de dois grupos)
Como mencionado na seção 2.5, a técnica estatística padrão é conhecida por ANOVA, abreviatura que
vem do inglês ANalysis Of VAriance. Naquela seção foi considerado o dimensionamento de forma
paramétrica para o delineamento com um fator (em inglês one-way), especificamente quando a análise
é feita por comparações pareadas ou simultâneas.
Nesta seção também é tratado apenas do caso de análise de variância com um fator na versão não
paramétrica, cujo teste comumente aplicado é o Kruskal-Wallis. É baseado em postos e consiste na
seguinte sequência de procedimentos: a) ordenar o total das 𝑛 = ∑𝑘𝑖=1 𝑛𝑖 observações e atribuir postos
da forma usual, lembrando que, quando houver empates, deve-se adotar a média dos postos; b) calcular
a soma dos postos (𝑅𝑖 ) e a média dos postos (𝑅̅𝑖 ) de cada grupo, além da média geral de todos os postos
12 2
𝑛+1
(𝑅̅ = (𝑛 + 2)/2). A estatística do teste é dada por: 𝐾𝑊 = 𝑛(𝑛+1) ∑𝑘𝑖=1 𝑛𝑖 (𝑅̅𝑖 − 2 ) =
12 𝑅𝑖 2
∑𝑘𝑖=1 − 3(𝑛 + 1). A regra de decisão do teste consiste em rejeitar a hipótese nula de que
𝑛(𝑛+1) 𝑛𝑖
todos os tratamentos são equivalentes se 𝐾𝑊 > 𝑐. Nesse caso, 𝑐 é o percentil de uma distribuição
especial que para tamanhos de amostra não muito grandes encontra-se disponível em livros de
estatística não paramétrica e também pode ser obtido em alguns programas de computador.
Alternativamente, de forma aproximada, o percentil a ser usado na regra de decisão é o da distribuição
qui-quadrado com 𝑘 − 1 graus de liberdade.
Existem alguns métodos e implementações para o cálculo de tamanho de amostra utilizando o teste de
Kruskal-Wallis. Por exemplo, o método bootstrap é utilizado por Fan et al. (2011). Trata-se de
adaptação de uma técnica particular de bootstrap para cálculo do poder, uma extensão do trabalho de
Mahoney e Magel (1996) seguida de generalização do método de cálculo do tamanho de amostra para
o teste de Wilcoxon dado por Hamilton e Colling (1991) para o teste de Kruskal-Wallis.
A determinação do tamanho da amostra para o teste de Kruskal-Wallis também foi objeto do trabalho
de Rasch e Šimečková (2007), cujo pôster apresentado no evento Moda, ocorrido no período de 4-8 de
junho de 2007, está disponível na Internet. Os textos completos estão organizados em Moda 8 –
Advances in Model-Oriented Design and Analysis e os editores são Jesús Lópes-Fidalgo, Juan Manuel
Rodríguez-Días e Bem Torsney.
Modelos lineares generalizados (MLG), em inglês genereralized linear models (GLM), constituem
uma classe de modelos muito utilizados em pesquisas da área da saúde, incluindo vários modelos de
regressão (por exemplo, regressão logística binária e regressão de Poisson), análise de variância e
covariância, tabelas de contingência, modelos lineares, curvas de crescimentos, modelos de dados de
sobrevivência e dados espaciais. A implementação computacional desse tipo de modelo encontra-se
feita em vários programas/softwares, incluindo o software livre R (função glm). Boas referências sobre
o assunto são: McCullagh e Nelder (1989), Lindsey (1997a), Aitkin et al. (2005), Dobson e Barnett
(2008) e Hardin e Hilbe (2012).
10.3.1 Tamanho de amostra para modelos lineares generalizados
Quando não há forma de calcular o tamanho de amostra para algum tipo de dado ou modelo a ser
ajustado que pertença à classe de MLG, um procedimento de determinar o tamanho da amostra ou para
calcular o poder do teste pode ser obtido dentro da estrutura de modelos lineares generalizados.
Outros argumentos para a utilização de MLG no cálculo de tamanho de amostra são: em muitos
métodos desenvolvidos para lidar com determinado tipo de variável, os resultados são conceitualmente
complexos e/ou computacionalmente intensivos; limitação em termos de acomodar covariáveis;
métodos não foram extensivamente avaliados quanto à precisão, assumindo tamanhos de
amostra moderados.
Utilizando a estrutura de MLG, Self e Mauritsen (1988) obtêm aproximação assintótica para o poder
baseado no teste do escore e fazem implementação do caso especial de regressão logística. Os estudos
de simulação apresentados indicam que aproximações assintóticas funcionam satisfatoriamente para
amostras finitas para uma gama de configuração de parâmetros.
Lindsey (1997b) fornece uma fórmula simples para cálculos exatos do tamanho de amostra para
qualquer membro de uma família exponencial linear, que inclui modelos lineares generalizados com
parâmetro de dispersão conhecido ou fixo.
Extensão do trabalho de Self et al. (1992) é feita por Shieh (2000), sendo que a principal característica
da abordagem proposta é que a modificação acomoda tanto um número finito como infinito de
configurações das covariáveis, isto é, classificadas como variáveis contínuas.
A metodologia de trabalhos anteriores para o cálculo do tamanho da amostra e poder é estendida por
Shieh (2005), usando a estatística de Wald em modelos lineares generalizados para o caso de testes de
hipótese com qualquer número de parâmetros. Diferentemente de outras abordagens, o método
proposto é aplicável em condições gerais, sem limitações em relação à taxa global da resposta e à
característica das covariáveis, cujos efeitos podem ser fixos ou aleatórios. Estudos de simulação de
Monte Carlo foram realizados para avaliar e comparar a precisão do método proposto com abordagens
existentes sob várias especificações de modelos e para diversas distribuições de covariáveis.
Usando argumentos heurísticos e os resultados das simulações, o autor argumenta que o método
proposto apresenta bom desempenho para uma gama considerável de condições, mas reconhece
algumas exceções. Detalhes, incluindo as fórmulas do método proposto e de outros comparados,
podem ser acompanhados no artigo.
Lyles et al. (2007) apresentam um enfoque prático para o cálculo do poder para modelos lineares
generalizados com resposta nominal, ordinal e de contagem. O método é ilustrado para uma variedade
de tipos de desfechos e padrões de covariáveis, por meio de simulações para demonstrar sua precisão
para tamanhos de amostras realistas, isto é, utilizados na prática.
Existem inúmeras situações em que os dados são correlacionados. Basicamente podem ser
categorizados em dois grupos: a) dados grupados (em inglês, clustered data), quando estão dispostos
em conglomerados; b) dados longitudinais. No primeiro tipo, como o nome indica, a partir de uma
estrutura com alguma agregação (por exemplo, clínica, escola), os dados referentes aos elementos da
pesquisa (por exemplo, pacientes, alunos) são coletados. Já os dados longitudinais, às vezes também
chamados de medidas repetidas, referem-se àqueles coletados para cada indivíduo ao longo do tempo.
A diferença básica entre os dois tipos de dados é que dados do mesmo conglomerado podem ser
considerados permutáveis, enquanto que para dados longitudinais, isso não é razoável, não fazendo
sentido, em geral, trocar a observação do tempo 𝑡1 com a do tempo 𝑡2 > 𝑡1 . Esses tipos de dados
aparecem com frequência em estudos da área médica, epidemiológica e do comportamento,
entre tantas outras.
O planejamento de estudos com dados correlacionados impõe desafios para os pesquisadores, já que se
deve levar em conta a potencial estrutura de correlação dos dados, o que requer metodologia mais
sofisticada tanto para análise quanto para o cálculo do tamanho de amostra. Na prática, é provável
encontrar desfechos correlacionados com estrutura hierárquica. Por exemplo, múltiplos níveis
encaixados, como acontece quando se consideram pacientes “encaixados” em clínicas, que por sua vez
estão “encaixados” em sistemas de hospitais, podendo mais complicações aparecer se os dados
coletados forem longitudinais. Breve revisão sobre o assunto encontra-se em Cook e DeMets (2008).
10.4.1 Tamanho de amostra para dados grupados e longitudinais
Estudos longitudinais tendem a ter pequenos grupos, já que em geral serão seguidos por longo tempo,
muitos anos e até décadas. De qualquer forma, é importante determinar o tamanho de amostra
adequado para que os objetivos do estudo sejam atingidos e também levar em conta o fato de que nesse
tipo de estudo pode haver desistências e perdas de participantes durante o estudo.
Ahn et al. (2011) estendem as fórmulas de Noether (1987) para o caso de uma amostra com
observações binárias com dependência dentro dos conglomerados usando o teste do sinal com
ponderação com três diferentes esquemas de pesos. As fórmulas de tamanho da amostra, que no artigo
refere-se ao número de conglomerados, são derivadas incorporando-se a correlação intraclasse e a
variabilidade devido aos tamanhos dos conglomerados. Estudos de simulação foram realizados para
avaliar o desempenho da proposta das fórmulas para o tamanho de amostra. Constatou-se que os
valores dos poderes empíricos são geralmente próximos dos níveis nominais. O número de
conglomerados necessários aumenta à medida que o desbalanceamento no tamanho do conglomerado e
a correlação intraclasse aumentam. Também fazem as comparações dos três diferentes esquemas.
A metodologia é ilustrada no planejamento de um estudo em Odontologia.
O livro de Ahn et al. (2015) é excelente referência para o cálculo do tamanho de amostra para dados
grupados ou longitudinais. Para diferentes tipos de variável resposta, cobre desde casos mais simples
(com apenas uma amostra) até modelos e métodos mais complexos (por exemplo, GEE).
A seguir são citadas referências adicionais sobre tamanho de amostra para estudos longitudinais.
São de destaque as publicações de Basagaña e Spiegelman (2010) e Basagaña et al. (2011), disponíveis
em http://www.hsph.harvard.edu/donna-spiegelman/software/optitxs/, que incluem um manual com
programa em R.
A determinação do tamanho de amostra para estudos longitudinais também foi considerada nas
seguintes publicações: Hedeker et al. (1999), Tu et al. (2004), Roy et al. (2007), Lu et al. (2009),
Barrera-Gómes et al. (2013) e Donohue et al. (2016).
Nas situações em que a amostra é pequena e/ou os dados são esparsos, os resultados da teoria
assintótica podem não ser adequados. Além disso, a solução do método utilizado pode não existir,
ou seja, pode não haver convergência. De fato, Albert e Anderson (1984) apresentam condições para a
existência dos estimadores de máxima verossimilhança para modelos de regressão logística.
Nestes casos, é recomendado o uso de métodos exatos, descritos em Souza (2000), Komatsuzaki
(2001), Hirji (2006), entre tantos outros.
Hilton e Mehta (1993) desenvolvem um algoritmo para testes exatos condicionais que possibilita o
cálculo do poder e do tamanho de amostra para dados categóricos com ordenação. O contexto é de duas
amostras, usando-se a estatística da soma de postos de Wilcoxon, mas afirmam que o algoritmo
apresentado pode acomodar a inteira classe linear de estatísticas de postos e pode ser estendida também
a postos não lineares. O tamanho da amostra pode ser obtido a partir do poder calculado de forma exata
ou de forma bastante precisa pelo método de Monte Carlo. Ilustram o método com o modelo
de chances proporcionais. O algoritmo, que se encontra implementado no software StatXact®,
é computacionalmente intensivo. Os interessados podem pesquisar detalhes técnicos do método
no artigo citado.
Como discutido no capítulo 6, o modelo logístico é frequentemente utilizado para dados de resposta
binária e em particular para estudos do tipo dose-resposta. Uma questão relevante refere-se à
determinação do tamanho de amostra, assunto tratado no capítulo 6 usando-se a teoria assintótica.
Tang et al. (1995) apresentam um método para calcular o poder exato para situações em que o modelo
logístico com apenas uma covariável (dose) é usado para descrever a relação dose-resposta e
disponibilizam um programa escrito em Fortran. Além da aplicação tradicional em experimentação,
essa formulação também inclui ensaios clínicos e investigações epidemiológicas para a comparação de
grupos independentes, correspondendo a diferentes valores de uma covariável (𝑥).
A dissertação de mestrado de Souza (2000) sobre regressão logística exata para dados binários tem,
além da revisão da teoria sobre o assunto e inúmeras exemplificações, extenso capítulo dedicado ao
estudo do poder exato em estudos de dose-resposta por meio de simulações de Monte Carlo. Uma das
conclusões é que o poder exato correspondente às amostras balanceadas é em geral superior ao de
amostras não balanceadas.
Ainda sobre o estudo do poder exato utilizando modelos de regressão logística, Souza e Siqueira
(2000) avaliam o efeito do tamanho de amostra e dos níveis das doses estabelecidas no planejamento.
Comparam seis testes (exatos e assintóticos) considerando experimentos balanceados e não
balanceados e três planejamentos, isto é, aplicações de diferentes doses. Os resultados das simulações
revelam a importância de verificar que um particular delineamento é adequado para atingir poder
aceitável em determinado estudo de dose-resposta. Além disso, concluem que o chamado teste mid-p
mostrou ser boa opção, já que na maioria dos casos o poder do teste é alto e o nível de significância
real é mais próximo do nível nominal.
O tema do estudo de Komatsuzaki (2001) é sobre métodos exatos e tabelas de contingência como
alternativa para os tradicionais métodos assintóticos. Também considera a inferência exata baseada nos
métodos de Monte Carlo, alternativa de análise útil quando o método assintótico não é apropriado e o
método exato tradicional não é computacionalmente viável. Dois capítulos de Komatsuzaki (2001) são
sobre o poder exato e o cálculo do tamanho de amostras para algumas situações, como a comparação
de duas populações binomiais ou multinomiais, considerando-se diferentes testes. Para os cálculos,
foi utilizado o software StatXact®.
Chan (2002) explora a utilização de métodos exatos para a determinação do poder e do cálculo do
tamanho de amostra em ensaios de não inferioridade. A metodologia é baseada em teste não
condicional para não inferioridade e é ilustrada com exemplo de ensaio clínico sobre nefroblastoma na
infância. O método exato funciona de forma satisfatória em muitos cenários, sendo portanto boa opção
nos casos em que os métodos assintóticos não devem ser adequados.
10.6 Estudos sequenciais e delineamentos adaptativos
Além do delineamento tradicional de amostras fixas, quando o tamanho é predefinido em cada grupo,
há a opção do delineamento sequencial, cuja principal característica é monitorar resultados e fazer
análises intermediárias. Em muitos experimentos nos quais os dados são acumulados de forma regular
ao longo do tempo, é natural monitorar resultados à medida que eles ocorrem, com o objetivo de se
tomar alguma ação, tal como o término ou alguma modificação do estudo. As diversas razões para
conduzir análises intermediárias são basicamente de ordem ética, administrativa e econômica
(JENNISON e TURNBULL, 2000). A grande vantagem de planejamentos sequenciais em relação aos
planejamentos de tamanho de amostra fixo é a redução em termos de tamanho de amostra.
Em delineamentos sequenciais, as pesquisas são monitoradas com o objetivo de tomar decisões e até
mesmo eventualmente fazer alguma alteração no planejamento à medida que o estudo está sendo
realizado e não esperar seu término, como acontece no caso de delineamentos com amostras fixas.
Idealmente, o monitoramento deve ser contínuo, o que não é viável. Na prática, em geral, os dados são
examinados periodicamente, cerca de cinco a 10 vezes durante a realização do ensaio.
Na comparação do tratamento experimental (E) com o controle (C), após a inspeção dos dados, deve-se
tomar alguma decisão, tal como: a) continuar o estudo por não haver evidências suficientes a favor de
E; b) interromper o estudo por já haver evidências suficientes a favor de E; c) interromper o estudo por
não se detectar claramente vantagem alguma de E em relação a C, caso conhecido como futilidade.
Estudos sequenciais podem ser empregados com diferentes tipos de variável resposta (binária, ordinal,
contínua) e em vários contextos (análise de sobrevivência, estudos de equivalência, etc.), bem como
utilizando a estatística clássica (“frequentista”) ou a bayesiana.
Whitehead (1997) cita os principais tipos de planejamentos sequenciais: triangular, triangular duplo,
triangular reverso, “open top”, etc. A metodologia pode ser empregada em diferentes situações
importantes na prática, lembrando que na análise final deve-se levar em consideração o fato de os
dados terem sido coletados de forma sequencial. Breve revisão sobre a metodologia encontra-se no
capítulo 10 de Cook e DeMets (2008). O software EAST® é específico para estudos sequenciais.
Delineamento adaptativo (DA) é nomenclatura mais geral que a sequencial que, como o nome indica,
permite adaptações nos ensaios e/ou nos procedimentos estatísticos depois da inicialização dos ensaios,
sem prejudicar a validade e integridade deles. O estudo adaptativo deve ter o seu delineamento definido
desde o início e não ser decorrente de uma alteração posterior por algum interesse. O conceito de
delineamento adaptativo remonta aos anos de 1970, quando os métodos de aleatorização adaptativa e a
classe de delineamentos de ensaios clínicos sequenciais (DS) foram introduzidos. Alguns autores fazem
distinção entre as terminologias (DA e DS), havendo mesmo controvérsias sobre vantagens e
desvantagens de cada um dos enfoques. O delineamento sequencial pode ser considerado adaptativo,
mas ainda existe bastante confusão sobre o tema. Shih (2006) esclarece vários pontos e estabelece
comparações entre alguns testes em termos de propriedades estatísticas por meio de
estudo de simulação.
O livro de Chow e Chang (2012) sobre métodos para delineamentos adaptativos em ensaios clínicos é
bastante completo e o artigo de revisão de Chow e Chang (2008), de livre acesso na Internet, é bom
ponto de partida para os iniciantes no assunto. O livro trata tanto de aspectos práticos gerais, como
alteração do protocolo e ajuste do tamanho de amostra, como de vários tipos de estudos (dose-
escalação, fases II e III de ensaios clínicos, etc.), diferentes modelos (modelo de riscos proporcionais
com taxa de risco latente, modelo exponencial misto, etc.), incluindo os enfoques clássico e bayesiano,
com muitas exemplificações, inclusive um capítulo com estudo de casos. O capítulo 8 do livro é sobre
ajuste do tamanho da amostra para métodos adaptativos. Nesse âmbito, um ponto-chave é a
reestimação do tamanho da amostra. O capítulo 14 trata da estimação do tamanho de amostra e
do poder. O livro de Chin (2012) sobre delineamentos adaptativos também trata do problema de
tamanho de amostra.
10.7 Metanálise
Define-se como metanálise a metodologia estatística que usa a agregação de dois ou mais estudos
independentes, com o objetivo de resumir suas conclusões ou até mesmo chegar a uma nova a partir de
revisão sistemática da literatura. De forma geral, depois de definir claramente a questão da pesquisa,
faz-se a revisão sistemática da literatura, que consiste em organizar as informações essenciais dos
artigos que deverão entrar na metanálise.
Deve-se mencionar a colaboração de Cochrane, uma rede internacional que mantém uma base de dados
(artigos com várias informações relevantes para as pesquisas) e que é composta por centros de vários
países. O site do Centro Cochrane do Brasil é: http://www.centrocochranedobrasil.org.br/cms/.
A metodologia de metanálise pode ser empregada para diversos tipos de dados, tais como binários, com
distribuição normal e de sobrevivência. Podem ser utilizados modelos de efeitos fixos ou de efeitos
aleatórios, como discutido, por exemplo, em Borenstein et al. (2010). Modelos de efeitos aleatórios são
frequentemente utilizados para combinar estimativas de diferentes estudos em uma metanálise.
Detalhes sobre o modelo e a análise estatística podem ser encontrados, por exemplo, em Skrondal e
Rabe-Hesketh (2004).
Greenland (2008) apresenta esclarecedora revisão sobre o assunto e Hedges e Olkin (1985) discutem
sobre métodos estatísticos apropriados a respeito do assunto. O livro de Whitehead (2002) sobre
técnicas de metanálise para estudos clínicos controlados inclui uma discussão que vai desde detalhes
técnicos até implementações práticas. Expõe uma visão bem geral: estudos realizados tanto
retrospectiva como prospectivamente; métodos baseados em dados individuais de pacientes ou
utilizando estatísticas que sumarizam resultados de vários ensaios clínicos; utilização de modelos só
com efeitos fixos ou incluindo efeitos aleatórios; métodos utilizando a estatística clássica
(“frequentista”) ou a bayesiana. No capítulo 12 de Matthews (2006) também se encontra breve revisão
com várias ilustrações.
Publicação em português contendo revisão geral feita por Rodrigues e Ziegelmann (2010) inclui alguns
detalhes técnicos, mas que tem como objetivo o enfoque prático. Outras importantes referências sobre
o assunto são Petitti (2000), Kulinskaya et al. (2008), Borenstein et al. (2009), Pigott (2012) e Chen e
Peace (2013), sendo a última com implementações no software livre R.
O cálculo de poder em metanálise envolve passos semelhantes aos dos necessários em estudos
tradicionais (HEDGES e PIGOTT, 2001; 2004). O capítulo 29 de Borenstein et al. (2009) é dedicado
à análise de poder em metanálise e de certa forma relaciona-se ao tamanho de amostra.
Cohn e Becker (2003) mostram que a metanálise obtida a partir de modelos de efeitos fixos tem
poder aumentado.
Em metanálise, um aspecto ligado ao “tamanho de amostra” seria o número de estudos em uma revisão
da literatura na qual a metanálise será baseada. Naturalmente, a metodologia e as estratégias de uma
revisão sistemática da literatura devem ser seguidas e em alguns casos há limitações quanto ao número
de estudos relacionados à pergunta da pesquisa. Entretanto, às vezes, é recomendável determinar o
número de estudos que terão determinado efeito global médio. Torna-se, assim, necessário avaliar se o
número de estudos é suficiente para a análise dos métodos estatísticos a serem utilizados na metanálise.
De forma geral, uma vantagem da metanálise é que o procedimento de agregar estudos pode resultar
em um poder estatístico adequado para detectar diferenças significativas se elas existirem.
Alternativamente, alguns cálculos de tamanho de amostra e/ou do poder dos testes discutidos ou
relacionados ao assunto do capítulo podem ser obtidos pelos seguintes softwares/programas citados no
capítulo 11: Pass®14, que possui 23 procedimentos para métodos não paramétricos; módulo “Cluster
Randomized” do nQuery Advisor® + nTerim 4.0, que contém vários procedimentos para dados
grupados e longitudinais, incluindo modelos para medidas repetidas; módulo “New Interim Test” do
nQuery Advisor® + nTerim 4.0, que é dedicado a estudos sequenciais, tendo disponível método de
análise de testes de comparação de dois grupos quanto a médias, proporções ou sobrevidas. O software
StatXact® exibe cálculos de poder exato (tamanho de amostra) para algumas situações.
11.1 Introdução
Este capítulo apresenta levantamento do que há disponível em termos de softwares e programas com
implementação de cálculos de tamanho de amostra e de poder de teste para vários tópicos tratados
neste texto, vários deles com exemplificações. Vale destacar que há softwares gratuitos e comerciais,
os que devem ser comprados. Para os primeiros, os de livre acesso, é importante certificar a
procedência, para assegurar a qualidade da acurácia/confiabilidade dos cálculos. Várias universidades,
inclusive algumas de grande reputação e/ou professores/profissionais renomados, disponibilizam
ferramentas para cálculo de tamanho de amostra e do poder de testes estatísticos. Naturalmente, nestes
casos, são fontes confiáveis, mas em geral cobrem situações mais simples, sendo os casos mais
complexos frequentemente tratados apenas em softwares comerciais. Suas licenças podem ser
permanentes (atualmente, cada vez mais raras) ou periódicas (em geral, anual).
Existe ainda a distinção entre softwares específicos para cálculo de tamanho de amostra, destacando-se
Pass® e nQuery Advisor®, ou gerais, como o Minitab®, Stata® ou SAS®, mas que incluem comandos
para cálculos do poder e tamanho da amostra. Também existem programas específicos para
determinadas situações, como os citados em Obuchowski (1998) e que podem ser solicitados, e para
métodos não paramétricos desenvolvidos dentro do trabalho de doutorado em uma universidade
italiana (De MARTINI e TELESCA, 1999).
O StatXact® é um software para métodos não paramétricos exatos e também para métodos de Monte
Carlo. Na versão 10, 150 testes e procedimentos já estão implementados utilizando a “inferência
exata”. Para vários casos, inclusive alguns com exclusividade no mercado, há módulos para cálculos do
poder exato e do tamanho de amostra, com destaque para dados binomiais e multinomiais.
A grande maioria dos softwares/programas ainda é estrangeira, mas tem crescido o interesse na
produção de material nacional e/ou em português, como será citado nas seções seguintes.
Finalmente, os recursos computacionais para os cálculos do tamanho de amostra e/ou poder são
bastante amplos, inclusive com programas individuais utilizando várias linguagens de programação.
O objetivo deste capítulo é dar visão geral da forma mais completa possível, naturalmente não tendo a
intenção de ser exaustivo. A opção e concentração do texto foi no software Excel®, sendo que
praticamente todas as fórmulas fechadas apresentadas nos capítulos 2 a 10 foram programadas e as
planilhas Excel® estão disponibilizadas para os leitores do livro. Assim, é possível não só repetir os
cálculos dos exemplos apresentados, treinar os raciocínios, como também fazer os cálculos para outros
problemas similares. Nas seções 11.2.2 e 11.3.4 apresentam-se comentários e detalhes da utilização
desse tipo de planilha.
Nesta seção apresentam-se breves comentários sobre três softwares comerciais (Pass®, nQuery
Advisor® e Minitab®), além de softwares acadêmicos, governamentais, pacotes de livre acesso
produzidos por vários autores sobre diversos temas e planilhas de trabalho que exigem alguma
programação: PS: Power and Sample Size Calculation; programa desenvolvido pelo LEE para o
cálculo de tamanho de amostra para pesquisas em ciências da saúde; Epi Info; OpenEpi: software para
programação de fórmulas de tamanho de amostra e/ou do poder do teste; software livre R (pacotes pwr,
TrialSize, HMISC, MESS e powerSurvEpi) e Excel®.
1- Pass®
O Pass® é de fácil utilização e, até onde é de nosso conhecimento, é o mais completo software
específico do mercado para o cálculo de poder e tamanho de amostra, tendo procedimentos gerais e
vários com enfoque na área na saúde, especialmente em ensaios clínicos, como estudos de não
inferioridade. Destaque também para os procedimentos envolvendo a curva ROC, que em geral só são
encontrados em programas bem específicos ao assunto. Apresenta documentação do sistema ajuda
(help) bastante completa, com exemplos, de saída (output) anotada, referências e fórmulas.
A documentação de cada procedimento é organizada em capítulo que exibe detalhes diversos,
incluindo a fórmula de poder, mas em geral as fórmulas referentes ao tamanho de amostra são
omitidas. Na versão 14 há centenas de cenários referentes a testes e intervalos de confiança,
que segundo a empresa que desenvolveu o software foram completamente validados.
A Figura 11.1 mostra a tela inicial do Pass®14 com as 21 possíveis categorias que também estão
indicadas no Quadro 11.1 com os respectivos números de procedimentos. Abrindo cada uma delas,
há várias possibilidades. Por exemplo, para estudos envolvendo análise de regressão (Regression),
há 13 procedimentos (regressão linear simples e múltipla, regressão logística, regressão de Cox,
regressão de Poisson, etc.), como mostra a Figura 11.2.
2- nQuery Advisor®
O software comercial nQuery Advisor®, cuja licença para sua utilização pode ou não ser permanente, é
específico a dimensionamento de amostra. Cobre vários tópicos e embora possa ser utilizado em
qualquer área, possui um enfoque especial na área de Bioestatística, mesmo porque a mentora,
Professora Janet D. Elashoff, à época da criação do software, pertencia ao Departamento de
Biomatemática da UCLA. Estão implementados casos mais tradicionais, tais como dimensionamento
em amostragem para população finita e para proporções e médias (mas inclui vários casos especiais,
como crossover, planejamento com pareamento e medidas repetidas), além de estudos de equivalência,
análise de variância, planejamentos de medidas repetidas e crossover, testes não paramétricos, análise
de sobrevivência, estudo de concordância e análise de regressão com variável resposta dicotômica
(regressão logística) ou contínua, ambas para modelos com uma ou várias covariáveis.
O software nQuery Advisor® possui excelente documentação, é de fácil utilização e cada termo da
planilha é claramente explicado, apresentando sugestão de valores plausíveis ou usuais que
devem ser atribuídos.
Nas versões mais recentes do software, existe a oferta da combinação do tradicional nQuery Advisor®
com o nTerim, específico para estudos sequenciais, como comentado no capítulo 10. A Figura 11.3
reproduz a tela do nQuery Advisor + nTerim4.0® com as três abas correspondentes a cálculos de
amostras de tamanho fixo ou de forma sequencial e gráficos de poder versus tamanho de amostra.
Figura 11.3 - Tela do nQuery Advisor + nTerim4.0® com as três abas para cálculo de
tamanho de amostra no esquema tradicional (New Fixed Term Test) ou de forma sequencial
(New Interim Test) e gráficos de poder versus tamanho de amostra (Plot Power vs Sample Size).
Há várias implementações, como pode ser visto na tela mostrada na Figura 11.4 correspondente à aba
“New Fixed Term Test”. Ao escolher alguma opção, por exemplo, para tamanho de amostra fixo em
teste de médias para dois grupos, abre-se uma planilha (ver Figura 11.5) que deve ser completada com
os valores correspondentes aos termos envolvidos nos cálculos.
Figura 11.4 - Possibilidades de cálculos de tamanhos de amostra
para testes de duas médias pelo nQuery Advisor®.
A versão 17 do software Minitab® é multi-idiomas, podendo ser configurada para português. Apresenta
várias possibilidades para cálculo de poder e tamanho de amostra. Basta clicar na opção “Estat” e
escolher “Poder e Tamanho de Amostra”, como mostra a Figura 11.6. Inclui alguns casos discutidos
nos capítulos anteriores, além de ter outras possibilidades implementadas não discutidas neste texto.
São as seguintes opções disponíveis: estimação de um parâmetro, tal como média, desvio-padrão e
variância (normal); proporção (binomial); taxa e média (Poisson); teste Z e teste 𝑡 para uma amostra;
teste 𝑡 para duas amostras; teste 𝑡 pareado; teste da taxa da Poisson com uma amostra; teste das taxas
da Poisson com duas amostras; testes para os casos de uma e duas variâncias; testes de equivalências
(teste para uma amostra; teste para duas amostras; teste pareado; crossover 2x2); análise de variância
(ANOVA) com um fator; planejamento fatorial com dois níveis, planejamento de Plakett-Burman (PB)
e planejamento fatorial completo geral (GFF).
O software PS foi desenvolvido por William D. Dupont e Walton D. Plummer Jr., ligados ao
Departamento de Bioestatística da Universidade Vanderbilt, situada em Nashville, Tennessee,
nos Estados Unidos. É de domínio público, com livre acesso e encontra-se disponível no endereço
http://biostat.mc.vanderbilt.edu/wiki/Main/PowerSampleSize. A publicação original relacionada ao
software foi feita em 1990 no periódico Controlled Clinical Trials (DUPONT e PLUMMER, 1990);
posteriormente houve outra publicação no mesmo periódico (DUPONT e PLUMMER, 1998).
PS é um programa interativo que realiza cálculos do poder e do tamanho de amostra. Pode ser usado
quando a variável resposta é dicotômica, contínua ou relacionada a dados de sobrevivência.
O programa PS produz gráficos para explorar as relações entre poder e tamanho da amostra.
Várias curvas podem ser colocadas em um único gráfico.
A Figura 11.7 mostra a tela inicial com as abas dos procedimentos implementados no software PS.
Figura 11.7 - Tela do software PS com as abas para cálculo do poder do teste e do tamanho de amostra
nos seguintes casos: Survival, t-test, Regression1, Regression2, Dichotomous, Mantel-Haenszel.
O Quadro 11.2 resume os possíveis planejamentos e algumas indicações/referências dos métodos
utilizados no software PS.
O LEE está ligado ao ensino, à pesquisa e à extensão. Entre suas atividades, oferece a ferramenta do
cálculo do tamanho de amostra de fundamental importância no planejamento de pesquisas em ciências
da saúde. A Figura 11.8 mostra a tela inicial do programa desenvolvido pelo LEE, extraída do site
http://www.lee.dante.br/pesquisa/amostragem/calculo_amostra.html. O programa cobre casos mais
tradicionais, tanto para resposta quantitativa (estimação de uma média, teste para uma média e
comparação de duas médias pelo teste 𝑡) como para resposta dicotômica (estimação de uma proporção,
teste para uma proporção, teste de duas proporções, estudo caso-controle e estudo de coorte).
Figura 11.8 - Tela inicial do programa desenvolvido pelo LEE, extraída do site
http://www.lee.dante.br/pesquisa/amostragem/calculo_amostra.html.
É bastante significativa e prudente a observação que aparece no site do LEE: “É importante ressaltar
que os cálculos feitos aqui devem servir apenas como orientação para o planejamento do estudo e não
serem tomados como decisão final”. Também merece destaque o fato de haver resumo de conceitos
ligados ao assunto, que podem ser bastante úteis para usuários que não são da área da Estatística.
3- Epi Info
O Epi Info, software de domínio público, foi desenvolvido pelo CDC (abreviatura de Centers for
Disease Control and Prevention) dos Estados Unidos. É voltado para a área da saúde, com destaque em
estudos epidemiológicos.
Na versão mais antiga (Epi Info 6), desenvolvido para ambiente DOS, frequentemente referenciado
como Epi 6, há dois programas para cálculo de tamanho de amostra e poder do teste. No programa
StatCalc há o módulo “Sample size and Power”, que contém os seguintes planejamentos: Population
Survey, Cohort or Cross-sectional, Unmatched case-control. No programa EpiTable, dentro da opção
“Sample”, há dois módulos: a) Sample size contendo as opções Single proportion, Two proportions,
Cohort study, Case-control study; b) Power calculation contendo as opções Cohort study,
Case-control study.
No ano 2000 foi lançado o Epi Info 2000, que apresenta mais compatibilidade com outros sistemas de
computador e tem interface mais moderna, o que facilita a utilização das ferramentas disponíveis.
O Epi Info 2000 retém muitas características do Epi 6, mas o menu de técnicas estatísticas é bem mais
amplo, inclusive inclui algumas mais avançadas.
Posteriormente foi lançado o Epi Info 7, compatível com o sistema Windows (funciona para qualquer
versão do Windows a partir do XP). O programa está disponível no portal http://wwwn.cdc.gov/epiinfo.
A Figura 11.9 mostra a tela do Epi Info 7 com as três opções de cálculo de tamanho de amostra e poder
(Sample Size and Power) do StatCalc: Population survey, Cohort or cross-sectional, Unmatched case-
control. Ao clicar em cada uma das opções, abre-se uma tela onde há lugar para preencher as
informações necessárias para o software fazer os cálculos. Claramente as opções estão ligadas ao tipo
de estudo: levantamento populacional, estudo de coorte ou estudo transversal e estudo caso-controle
(sem pareamento).
Figura 11.9 - Tela do Epi Info 7 mostrando as opções de cálculo de tamanho de
amostra e poder (Sample Size and Power) do StatCalc: Population survey,
Cohort or cross-sectional, Unmatched case-control.
4- OpenEpi
O OpenEpi é um programa gratuito e com código aberto voltado para estudos epidemiológicos.
Está disponível em http://www.openepi.com ou no site do CDC: www.cdc.gov/epinfo. Como os
programas têm licença de código livre, eles podem ser obtidos imediatamente após download,
distribuídos ou traduzidos.
Atualmente os textos das versões estão em cinco línguas: inglês, francês, espanhol, italiano e
português. O menu completo do programa OpenEpi pode ser conferido no site citado anteriormente,
mas resumo do que há disponível em termos de tamanho de amostra e poder pode ser visto
no Quadro 11.3.
Quadro 11.3 - Opções para cálculo de tamanho de amostra e poder no OpenEpi
Caso-controle não pareado: poder para estudos do tipo caso-controle não pareado
5- Software livre R
A seguir são apresentados alguns comentários sobre o uso do software livre R, que pode ser utilizado
para programar fórmulas de cálculo do tamanho de amostra e do poder do teste. Também são
fornecidos detalhes de cinco pacotes do R relacionados ao assunto: pwr, TrialSize, HMISC,
MESS e powerSurvEpi.
O software livre R foi criado originalmente por Ross Ihaka e por Robert Gentleman na Universidade de
Auckland, Nova Zelândia, mas depois o projeto passou a ganhar a colaboração de pessoas de vários
locais do mundo. Tudo indica que o software foi batizado de R por causa das iniciais dos primeiros
nomes dos criadores, mas acredita-se que a principal razão foi uma espécie de “brincadeira” pela
existência da linguagem S, desenvolvida pela empresa Bell Laboratories.
O R é gratuito, podendo ser utilizado em máquinas com variados sistemas operacionais. Encontra-se
disponível no site www.r-project.org, contendo implementações de métodos estatísticos desde os bem
simples até bastante complexos e sofisticados. Existem também pacotes que são funções específicas
para determinadas áreas, por exemplo, o pacote pwr, que será comentado posteriormente. Todo o
código fonte do R é aberto, o que permite ao usuário modificar, adaptar e aprimorar
programas existentes.
Como o R é baseado em linhas de comando, pode a príncípio não ser muito atrativo para quem
desconhece linguagens de programação. Entretanto, além dos manuais do software R, atualmente existe
vasto material (capítulo 9 de SIQUEIRA e TIBÚRCIO, 2011; várias apostilas disponíveis na Internet,
publicadas por pessoal ligado a universidades, por exemplo, o relatório técnico da série ensino
RTE 01/2012, disponível em http://www.est.ufmg.br, de Ribeiro et al. intitulado Bioestatística básica
usando o ambiente computacional R, etc.), com instruções incluindo a instalação do software, dicas
úteis, especialmente para iniciantes, entre tantas outras orientações.
Deve-se mencionar que, ao iniciar o R, automaticamente abrirá o console, a janela onde os comandos
são digitados. A Figura 11.10 mostra a tela de interface do R, na qual aparece o console com
informações técnicas sobre o programa e o sinal de prompt (>), indicando que o programa está pronto
para receber o comando a ser executado.
(2) Na janela que se abre (CRAN mirror) escolher um país ou região que fornecerá o repositório do
pacote e clicar OK.
Alternativamente, os pacotes podem ser instalados por meio do comando install.packages(), digitando
entre aspas dentro dos parênteses o nome do pacote, por exemplo, install.packages('Hmisc').
Havendo dependências, outros pacotes serão instalados automaticamente para resolver as
dependências. Mais informações sobre instalação de pacotes no R podem ser obtidas por meio do
comando de ajuda ?install.packages().
Para usar as funções de um pacote, é necessário primeiro carregar o pacote no R. Para isso, deve-se
selecionar na barra de menu do R a opção “Carregar pacote” e na janela que se abre selecionar o pacote
e clicar em OK. Outra maneira de carregar o pacote é usar o comando library(), digitando dentro dos
parênteses o nome do pacote, por exemplo, library('Hmisc'). O comando library() tem a vantagem de
poder ser inserido dentro dos programas em R, evitando assim o processo manual.
O pacote pwr é um módulo do software R que permite determinar o tamanho da amostra necessário
para detectar determinado efeito com certo grau de confiança. Por outro lado, permite determinar a
probabilidade de detectar um efeito de determinado tamanho, com dado nível de confiança, sob as
restrições de tamanho de amostra. Se a probabilidade é inaceitavelmente baixa, seria prudente alterar
ou abandonar o experimento.
O pacote pwr foi desenvolvido por Stéphane Champely com as implementações de análise do poder,
conforme descrito por Cohen (1988). Aparentemente, o pacote foi construído para a utilização do livro
de Cohen, sendo que os exemplos só têm a numeração e página do livro sem qualquer esclarecimento
do enunciado. As funções do pacote pwr estão listadas no Quadro 11.4.
Quadro 11.4 - Funções do pacote pwr do software livre R
pwr.r.test Correlação
Teste para média supondo distribuição normal (variância
pwr.norm.test
conhecida)
pwr.t.test Testes t (uma amostra, duas amostras, caso pareado)
Detalhes sobre as funções (por exemplo, os argumentos a serem usados) podem ser encontrados em
http://cran.r-project.org/web/packages/pwr/pwr.pdf. Para cada uma dessas funções, deve-se entrar com
três das quatro quantidades (em inglês: effect size, sample size, significance level, power; em
português: tamanho do efeito, tamanho da amostra, nível de significância, poder) e, consequentemente,
a quarta é calculada.
O padrão (default) para o nível de significância é de 0,05. Portanto, para calcular o nível de
significância, dado o tamanho de efeito, o tamanho da amostra e o poder, deve-se usar a opção
"sig.level = NULL". Na seção 11.3.1 apresenta-se um exemplo da utilização do pacote pwr.
O pacote TrialSize contém mais de 80 funções que são amplamente utilizadas para calcular o tamanho
da amostra em ensaios clínicos. Ele cobre as funções dos capítulos 3, 4, 6, 7, 9, 10, 11, 12, 14 e 15 do
livro de Chow et al. (2008). Aparentemente, foi construído exclusivamente para a utilização do livro,
sem ele sua utilização não fica clara e os próprios exemplos em geral só têm a numeração do livro sem
qualquer esclarecimento do enunciado.
As funções do pacote TrialSize vão desde casos mais tradicionais (comparação de médias e proporções,
tabelas de contingência, análise de dados de tempo até a ocorrência de um evento e confiabililidade,
etc.), até situações mais específicas e possivelmente mais complexas (estudos de equivalência, eficácia
de vacinas, estudos de qualidade de vida, etc.). Para o tópico de análise de sobrevivência, estão
disponíveis as funções mostradas no Quadro 11.5.
Função Descrição
O pacote HMISC contém muitas funções úteis para a análise de dados e gráficos e inclui também
cálculos de tamanhos de amostra e poder. O manual desse pacote, bastante detalhado, está disponível
em https://cran.r-project.org/web/packages/Hmisc/Hmisc.pdf e pode ser utilizado com facilidade.
Função Descrição
bpower Poder e tamanho de amostra para duas amostras usando o teste binomial
O pacote powerSurvEpi (abreviatura de Power and Sample Size Calculation for Survival Analysis of
Epidemiological Studies) é de autoria de Weiliang Qiu, Jorge Chavarro, Ross Lazarus e Jing Ma.
Incluiu funções para calcular poder e tamanho de amostra para testar efeitos principais e efeitos de
interação em análise de sobrevivência de estudos epidemiológicos. Alguns cálculos também levam em
consideração riscos competitivos e análise estratificada. O Quadro 11.7 apresenta as principais funções
do pacote powerSurvEpi.
Quadro 11.7 - Funções do pacote powerSurvEpi do software livre R
Função Descrição
6- Excel®
O software Excel® pode ser utilizado para a programação de fórmulas, naturalmente incluindo as de
cálculo de tamanho de amostras e de poder. Existe uma variedade de livros, apostilas e material
didático sobre o software, dos quais se destaca Dretzke (2011). Como comentado na introdução,
praticamente todas as fórmulas fechadas do livro encontram-se disponíveis em planilhas Excel®.
Para aqueles que não possuem experiência alguma em Excel®, a seguir registram-se comentários,
em nível elementar, e na seção 11.3.4, breve tutorial sobre a utilização desse tipo de planilha.
Em programação no Excel®, o sinal de igual (=) indica que vai ser inserida uma fórmula. Por exemplo,
quando o cursor se encontrar na célula C1, ao digitar =A1*B1, significa que o conteúdo da célula A1
será multiplicado pelo da célula B1. Outro recurso muito útil é o de arrastar o mouse para repetir os
cálculos já efetuados, portanto, não é necessário digitar as fórmulas ao se mudar os parâmetros.
Uma vez programada a fórmula, basta posicionar o mouse no canto direito da célula e arrastá-lo para
que os cálculos efetuados na primeira célula sejam repetidos para os novos parâmetros.
Os valores de 𝜎 considerados são 1; 1,5; 2; 2,5; 3 e, portanto, os valores de 𝜎 2 são 1; 2,25; 4; 6,25; 9.
Mantendo-se constante o valor de 𝐷, os tamanhos das amostras correspondentes obtidos foram 97, 217,
385, 601 e 865.
Depois de pronta essa etapa, basta posicionar o mouse no canto direito das caselas e arrastar para baixo
para completar os cálculos para as demais entradas (das colunas amarelas). Essa mesma observação
(arrastar o mouse) eventualmente vale para preparar as entradas dos dados, por exemplo, quando há
repetição de dados, como é o caso de adotar o mesmo nível de significância (então basta digitar na
primeira linha e arrastar o mouse para as demais). Quando há certa sistematicidade de um
parâmetro - por exemplo, o parâmetro 𝑝 varia de 0,01 até 0,99 com incremento 0,01
(𝑝 = 0,01; 0,02; 0,03; 0,04; ⋯ 0,97; 0,98; 0,99), não há necessidade de digitar todos os valores,
basta colocar os três primeiros (o software entende como os dados estão organizados) e arrastar até
o valor 0,99.
Figura 11.11 - Ilustração do uso da planilha Excel® com dados do exemplo 2.1 do capítulo 2.
11.3 Exemplos utilizando os recursos computacionais
O pacote pwr contém funções para o cálculo de poder e tamanho de amostra conforme descrito por
Cohen (1988). A seguir apresenta-se um exemplo para ilustrar o uso de uma das funções do pacote
pwr. Trata-se da função pwr.norm.test para o dimensionamento de amostras quando se aplica o teste de
uma média com variância (𝜎 2 ) conhecida.
A função pwr.norm.test é ilustrada com os dados do exemplo 2.2 do capítulo 2. Um dos argumentos da
função é o tamanho do efeito, aqui definido como 𝑑 = (𝜇 − 𝜇0 )/ 𝜎. Neste exemplo não se tem a
informação dos valores de 𝜇 e 𝜇0 , mas sim da diferença, que é de cinco (𝜇 − 𝜇0 = 5). Os outros três
argumentos são: poder desejado (power), nível de significância fixado (sig.level) e tipo de hipótese
alternativa, se uni ou bilateral. No Quadro 11.8 apresentam-se os comandos da função pwr.norm.test e
as saídas (outputs) do R referentes aos dois casos considerados: 𝜎 = 10 e 𝜎 = 15.
O pacote TrialSize é ilustrado com dois exemplos sobre sobrevivência extraídos do capítulo 7.
O primeiro refere-se ao exemplo 7.7 sobre cálculo de tamanho de amostra para estudos de
superioridade, não inferioridade e equivalência utilizando o modelo exponencial. O segundo (exemplo
7.8) trata do cálculo de tamanho de amostra utilizando o modelo de Cox para ensaios de
não inferioridade e de superioridade.
Comandos para o R:
alpha = 0.05
beta = 0.2
lam1 = 2
lam2 = 1
k=1
ttotal = 3
taccrual = 1
gamma = -1
margin = 1.5
TwoSampleSurvival.Equivalence(alpha,beta,lam1,lam2,k,ttotal,taccrual,gamma,margin)
Saída (output) do R:
[1] 4.03705
[1] 1.102003
[1] 176.0402
Os dois primeiros valores são as variâncias 𝜎 2 (𝜆1 ) e 𝜎 2 (𝜆2 ) e o terceiro é o tamanho de
amostra calculado.
A função Cox.NIS será ilustrada com os dados do exemplo 7.9 do capítulo 7. No Quadro 11.11
são apresentados os comandos necessários para reproduzir os resultados referentes aos
tamanhos de amostra.
Quadro 11.11 - Informações sobre a função Cox.NIS: teste de não inferioridade/superioridade para
o modelo de Cox, entradas e saídas (outputs) do R referentes ao exemplo 7.9 do capítulo 7
O pacote HMISC contém diversas funções úteis para cálculo de tamanho de amostra e do poder.
A seguir apresenta-se um exemplo de aplicação da função posamsize (Power and Sample Size for
Ordinal Response) do pacote HMISC.
Exemplo 11.4 - Uso da função posamsize do pacote HMISC para cálculo de tamanho de amostra
de dados ordinais
A função posamsize calcula o tamanho de amostra total necessário para atingir determinado poder,
utilizando o método de Whitehead (1993). Ela é ilustrada com os dados do exemplo 6.5 do capítulo 6,
como mostrado no Quadro 11.12.
Quadro 11.12 - Informações sobre a função posamsize (Power and Sample Size for Ordinal Response),
entradas e saídas (outputs) do R referentes ao exemplo 6.5 do capítulo 6
A seguir apresentam-se exemplos selecionados dos capítulos para ilustrar a utilização da programação
de fórmulas do tamanho de amostra no Excel®.
Para facilitar o acompanhamento, em geral todas as passagens dos cálculos estão indicadas tal que cada
cálculo está armazenado em uma coluna da planilha, em vez de fazer várias passagens
simultaneamente, como faria uma pessoa com mais experiência. Especialmente na fórmula final do
tamanho de amostra, geralmente o quociente de dois termos, as variáveis “Num” e “Den” são usadas
para designar o numerador e denominador, respectivamente. Em muitos casos, a fórmula do tamanho
de amostra (𝑛) ou do numerador (denominador) de 𝑛 é o produto de fatores. Novamente na
programação, a notação ficará clara, por exemplo, com a seguinte indicação fator1*fator2*fator3, como
aparece no exemplo 11.5.
Relembrando que, por uniformidade e para facilitar, as células foram distinguidas por cores: as
entradas foram marcadas em amarelo, as células em que foram efetuados cálculos são as verdes e os
resultados finais estão em vermelho.
Exemplo 11.5 - Programação da fórmula (2.7) no Excel® com os dados do exemplo 2.7
do capítulo 2
A fórmula (2.7) refere-se ao tamanho de amostra para a comparação das médias de dois tratamentos
levando-se em conta seus custos (𝑐1 e 𝑐2 ), supondo-se que a variável analisada tenha distribuição
normal, que as variâncias são conhecidas e que haja homocedasticidade.
A Figura 11.12 mostra a planilha Excel® em que foi programada a fórmula (2.7) e no Quadro 11.13 são
exibidos os comandos utilizados na programação. Inicialmente, na quinta linha da planilha, anotar os
nomes dos termos envolvidos nos cálculos. Por exemplo, nas caselas A5 (quinta linha da coluna A) e
B5 (quinta linha da coluna B), digitar alfa e 1-alfa, respectivamente. No exemplo 2.7, não há
informação dos custos 𝑐1 e 𝑐2 separadamente, mas da razão 𝑐1 /𝑐2 (entrada da coluna I: casela I6).
Propositalmente, as colunas referentes às entradas de 𝑐1 e 𝑐2 foram deixadas em branco em caso de
haver tais informações, quando então a razão (𝑐1 /𝑐2 ) deve ser calculada.
Exemplo 11.6 - Programação da fórmula (3.16) no Excel® com os dados do exemplo 3.7
do capítulo 3
A Figura 11.13 mostra um recorte da planilha Excel® com a programação da fórmula (3.16) referente
ao exemplo 3.7 para a determinação de amostra utilizando a medida odds ratio no caso de amostras
pareadas. Propositalmente, as colunas G e H (p12 e p21) foram deixadas em branco, pois no
exemplo 3.7 não havia tais dados. Eles estavam consolidados como a probabilidade de discordância
(p12 + p21), que na planilha é o termo pdisc da coluna I. Dependendo da situação, deve-se fazer
adaptação, entrando com as probabilidades individualmente (p12 e p21) e a seguir deve-se calcular a
probabilidade de discordância (pdisc = p12 + p21), como está na planilha. No Quadro 11.14 são
ilustrados os comandos utilizados na programação. Como já comentado, basta digitar os comandos,
aqui na quarta linha de cada coluna, e depois arrastar para as linhas seguintes.
Figura 11.13 - Programação da fórmula (3.16) em planilha Excel®
com os dados do exemplo 3.7 do capítulo 3.
Na programação das fórmulas para cálculo do tamanho de amostra em estudos de concordância que
utilizam o intervalo de confiança para o coeficiente kappa quando a variável resposta apresenta três ou
cinco categorias, fórmulas (9.9) e (9.10), e também para obter a maximização do erro-padrão a partir
das probabilidades marginais envolvidas nas fórmulas, é importante que a entrada das probabilidades
marginais seja feita em ordem decrescente. As planilhas Excel® de programação referentes aos
exemplos 9.4 a 9.8 estão disponíveis para os leitores.
Exemplo 11.8 - Efeito do número de casas decimais nos resultados obtidos pelo Excel®
Algumas fórmulas são bastante sensíveis à precisão dos dados expressa pelo número de casas decimais
utilizadas. Para o exemplo 6.6 do capítulo 6, a Figura 11.14 ilustra este fato com a fórmula (6.14), para
dimensionamento de amostra pelo método não paramétrico (ZHAO et al., 2008) no caso de três
categorias (𝑘 = 3), mostrando as entradas p1, p2 e p3 com duas e quatro casas decimais.
(a) Entradas p1, p2 e p3 com duas casas decimais
(b) Entradas p1, p2 e p3 com quatro casas decimais.
11.3.5 Pass®
Nesta seção são apresentados quatro exemplos para ilustrar a aplicação do software Pass®14.
O primeiro refere-se ao dimensionamento de estudos no caso de amostras pareadas quando a variância
é conhecida ou desconhecida. O segundo exemplo é para o dimensionamento de ensaio clínico com
dois grupos com dados ordinais, utilizando o método de Whitehead (1993). Os dois últimos exemplos
são sobre o dimensionamento de amostra baseando-se na comparação de duas curvas ROC e para
estudos de concordância que utilizam o intervalo de confiança para o coeficiente kappa,
respectivamente.
Lembrando que o exemplo 2.9 é sobre o dimensionamento de amostras para o teste da diferença de
médias no caso de amostras pareadas quando a variância é conhecida, utilizando o software Pass®14, a
opção de escolher em “Means” é “Tests for Paired Means”. É necessário lançar o valor 3,162 (= √10)
do desvio-padrão supostamente conhecido e marcar a opção “Known Standard Deviation”. O resultado
obtido é 𝑛 = 62 e o poder correspondente é 0,80104.
No exemplo 2.10, são utilizadas as mesmas informações do exemplo 2.9, mas supõe-se que a variância
seja desconhecida. Novamente, deve-se escolher as opções “Means” e “Tests for Paired Means” do
Pass®14 e lançar o valor 3,162 (= √10) como valor do desvio-padrão. Entretanto, agora não será
marcado que seja supostamente conhecido, assim a opção “Known Standard Deviation” não deve ser
marcada, tal que a solução (que utiliza a distribuição 𝑡 de Student) será iterativa. O resultado obtido é
𝑛 = 64 e o poder é de 0,80495.
Exemplo 11.10 - Uso do software Pass®14 para o dimensionamento de ensaio clínico com dois
grupos com dados ordinais utilizando o método de Whitehead (1993)
A utilização do software Pass®14 para o dimensionamento de ensaio clínico com dois grupos com
dados ordinais utilizando o método de Whitehead (1993) é ilustrado com o exemplo 6.5 do capítulo 6.
Para essa situação, basta escolher a categoria “Proportions” e, a seguir, entre as 62 opções, usar “Tests
for Two Ordered Categorical Variables”.
Os resultados mostrados na Tabela 8.9, do exemplo 8.7 do capítulo 8, foram obtidos utilizando-se o
Pass®14. Basta escolher a categoria “ROC” e, a seguir, entre as três opções, escolher “Tests for Two
ROC Curves”. A Figura 11.15 mostra duas telas do Pass®14, sendo a segunda referente a apenas um
caso para ilustrar a entrada das informações. A Figura 11.16 mostra as saídas (outputs) para três casos
selecionados (primeira linha da Tabela 8.9) quando 𝐴𝑆𝐶2 = {0,85; 0,90; 0,95}, a correlação entre as
variáveis é igual a 0,30, a razão 𝑅 = 𝑛𝐶 /𝑛𝐷 é 1 e a variável analisada é classificada como contínua.
(a) Tela mostrando os três procedimentos da categoria ROC
Figura 11.15 - Telas do procedimento “Tests for Two ROC Curves” do software Pass®14.
Figura 11.16 - Saídas (outputs) do Pass®14 (procedimento “Tests for Two ROC Curves”)
referentes à Tabela 8.9 do exemplo 8.7 do capítulo 8 para os três casos considerados
(𝐴𝑆𝐶2 = {0,85; 0,90; 0,95}) com correlação entre as variáveis igual a 0,30 e 𝑅 = 1.
Exemplo 11.12 - Uso do software Pass®14 para cálculo do tamanho de amostra para estudos de
concordância que utilizam o intervalo de confiança para o coeficiente kappa
A Tabela 9.5 do exemplo 9.5 do capítulo 9 pode ser reproduzida utilizando o Pass®14. Basta escolher a
categoria “Correlation” e, a seguir, entre as 19 opções, selecionar “Confidence Interval for kappa”.
A Figura 11.17 mostra duas telas do Pass®14, sendo a segunda referente a apenas um caso para ilustrar
a entrada das informações. A Figura 11.18 mostra as saídas (outputs) para dois casos selecionados
(primeira linha da tabela) quando as frequências marginais são 0,337; 0,333 e 0,33 (que após
arredondamento aparecem como 0,34; 0,33 e 0,33), respectivamente, para kappa igual a 0,7 e 0,6.
(a) Tela mostrando os 19 procedimentos da categoria “Correlation”
(b) Tela do procedimento “Confidence Interval for kappa” mostrando as entradas para o cálculo de
tamanho de amostra referentes à Tabela 9.5 do exemplo 9.5 do capítulo 9.
Os resultados da Tabela 5.12 do exemplo 5.7 do capítulo 5, obtidos por um programa escrito em C,
podem ser reproduzidos utilizando-se o nQuery Advisor®. A Figura 11.19 mostra duas telas do
software, a primeira sobre as escolhas efetuadas e a segunda referente aos termos envolvidos nos
cálculos e saídas (outputs) de apenas um caso (𝜃𝛾 = 0), para os seis valores de
𝜎𝑑 : 0,10; 0,12; 0,14; 0,16; 0,20.
(a) Escolhas efetuadas no exemplo 5.7 do capítulo 5
Figura 11.19 - Telas do software nQuery Advisor® ilustrado com o exemplo 5.7 do capítulo 5
mostrando as escolhas dos comandos, as entradas e as saídas (outputs).
Deve-se ressaltar que na planilha os valores de 𝜎𝑑 foram multiplicados por 2
(𝜎𝑑 : 0,20; 0,24; 0,28; 0,32; 0,40), como é chamada a atenção no quadro à direita do programa (ver
Standard deviation of differences). A justificativa encontra-se no livro do Chow e Liu (2009) e também
no capítulo 5 deste texto: define-se 𝑑𝑖𝑘 = (𝑦𝑖2𝑘 − 𝑦𝑖1𝑘 )/2 como a metade da diferença entre as
medidas dos dois períodos para o 𝑖-ésimo indivíduo na 𝑘-ésima sequência, enquanto que no software
nQuery Advisor® e em alguns textos, a diferença é definida sem dividir por 2. Assim, para haver
consistência entre os termos envolvidos nas fórmulas, deve-se fazer tal ajuste.
Para ilustrar a aplicação do software Epi Info, são apresentados três exemplos utilizando cada uma das
três opções disponíveis para cálculo de tamanho de amostra e poder (opção “Sample Size and Power”)
no módulo StatCalc: a) levantamento populacional (“Population survey”); b) estudos de coorte
ou estudos transversais (Cohort or cross-sectional); c) estudos do tipo caso controle
(Unmatched case-control).
Exemplo 11.14 - Uso do software Epi Info (comando “Population Survey” da opção “Sample Size
and Power”) para cálculo do tamanho de amostra de levantamentos populacionais
Acredita-se que a verdadeira prevalência de anticorpos anti-HIV em uma população seja de 10%.
Estima-se que o tamanho da população investigada seja de 50.000 indivíduos. Amostra aleatória ou
sistemática da população está planejada para estimar a prevalência supondo-se erro máximo aceitável
de 5% (no comando “Population Survey”, o termo usado é limite de confiança).
A Figura 11.20 mostra as entradas e a saída (output) do comando “Population Survey” da opção
“Sample Size and Power” do software Epi Info 7 para vários níveis de confiança. Seguindo a instrução
que aparece na tela, como foi utilizada uma amostra aleatória simples, especifica-se o valor 1 para
“design effect” e “cluster”.
Para avaliar o impacto dos termos envolvidos do cálculo do tamanho de amostra (por exemplo, o
tamanho da população, a pervalência e o limite de confiança), um exercício interessante seria fazer
algumas variações e utilizar o comando “Population Survey”.
Figura 11.20 - Tela do comando “Population Survey” da opção “Sample Size and Power” do
software Epi Info 7, mostrando as entradas e a saída (output) referentes ao exemplo 11.13.
Exemplo 11.15 - Uso do software Epi Info 7 (comando “Cohort or cross-sectional” da opção
“Sample Size and Power”) para cálculo do tamanho de amostra de estudos de coorte ou estudos
transversais com enfoque em testes de hipóteses para a razão de chances (𝑶𝑹)
No exemplo 4.2 do capítulo 4 sobre estudo de coorte, dois grupos de exposição (𝐸 + e 𝐸 − ) foram
acompanhados durante dois anos. Para o dimensionamento do estudo com o enfoque de teste de
hipótese para o risco relativo, o poder e o nível de significância foram fixados em 90% e 5%,
respectivamente. Assumiu-se que no grupo não exposto 35% apresentam o desfecho pesquisado
(𝑃0 = 0,35) e que a proporção entre o grupo exposto seja a metade da proporção do grupo não exposto
(𝑅𝑅 = 0,50).
A Figura 11.21 mostra a tela do comando “Cohort or cross-sectional” da opção “Sample Size and
Power” do Epi Info 7 com as entradas (à esquerda) e os tamanhos de amostra obtidos por três métodos:
Kelsey e Fleiss sem e com correção de continuidade (w/CC). Os resultados dos métodos de Kelsey e
Fleiss são bastante parecidos, enquanto que o de Fleiss com correção de continuidade é bem superior.
O resultado apresentado no exemplo 4.2 usando a fórmula (4.2) coincide com o método de Fleiss.
Figura 11.21 - Tela do comando “Cohort or cross-sectional” da opção “Sample Size and Power”
do software Epi Info 7, mostrando as entradas referentes ao exemplo 11.15 (1 − 𝛼 = 0,95;
1 − 𝛽 = 0,90; 𝑃0 = 0,35; 𝑅𝑅 = 0,50) e os tamanhos de amostra obtidos por
três métodos: Kelsey e Fleiss sem e com correção de continuidade (w/CC).
Exemplo 11.16 - Uso do software Epi Info (comando “Unmatched case-control” da opção
“Sample Size and Power”) para cálculo do tamanho de amostra em estudo caso-controle com
enfoque em teste de hipóteses para a razão de chances (𝑶𝑹)
No exemplo 4.6 do capítulo 4 sobre estudo caso-controle sem pareamento com enfoque em teste de
hipótese para a razão de chances (𝑂𝑅), supondo-se que a proporção de ocorrências entre os não
expostos seja de 2% (𝑃0∗ = 0,02), pode-se calcular a proporção para o grupo de exposto (𝑃1∗ ) para
valores fixos da razão de chance (𝑂𝑅). Por exemplo, para 𝑂𝑅 = 3, tem-se que 𝑃1∗ = 0,058. Na
Tabela 4.2 foram mostrados os tamanhos de amostras para vários valores de 𝑂𝑅, com 𝛼 = 𝛽 = 0,05.
A Figura 11.22 mostra a tela do comando “Unmatched case-control” da opção “Sample Size and
Power” do software Epi Info 7 com as entradas e o tamanho de amostra referente a apenas um caso da
Tabela 4.2: 𝑂𝑅 = 3. Por questão de aproximação utilizada no software, para obter 𝑂𝑅 = 3 foi
necessário entrar com (𝑃0∗ = 0,0200001), correspondendo a 2,00001% tal que 𝑃1∗ seja igual a 0,058.
Assim como no exemplo 11.15 sobre estudo de coorte, são apresentados três métodos: Kelsey, Fleiss e
Fleiss w/CC (com correção de continuidade). Novamente, há pouca diferença entre os resultados dos
métodos de Kelsey e Fleiss e o valor do método de Fleiss com correção de continuidade é bem superior
aos demais. O resultado apresentado no exemplo 4.6 usando a fórmula (4.7) para hipótese bilateral
coincide com o método de Fleiss.
Figura 11.22 - Tela do comando “Unmatched case-control” da opção “Sample Size and Power”
do software Epi Info 7, mostrando as entradas do exemplo 11.16 (1 − 𝛼 = 1 − 𝛽 = 0,95;
𝑃0∗ = 0,0200001; 𝑃1∗ = 0,058; 𝑂𝑅 = 3) e os tamanhos de amostra obtidos por
três métodos: Kelsey e Fleiss sem e com correção de continuidade (w/CC).
2 (Médias)
Pass®, nQuery Advisor®, Minitab®, PS: Power and Sample
Size Calculation, Programa desenvolvido pelo LEE, pacotes do
R: pwr, HMISC (funções: samplesize.bin e bpower).
6 (Regressão e correlação) Pass®, nQuery Advisor®, PS: Power and Sample Size
Calculation, pacotes do R: pwr, HMISC (funções: posamsize,
popower)
7 (Sobrevivência)
Pass®, nQuery Advisor®, PS: Power and Sample Size
Calculation, pacotes do R: TrialSize (funções:
TwoSampleSurvival.Conditional,
TwoSampleSurvival.Equality,
TwoSampleSurvival.Equivalence, TwoSampleSurvival.NIS);
HMISC (função cpower); powerSurvEpi (funções: numDEpi,
power.stratify, powerCT, powerEpi, powerEpiCont,
powerEpiInt, ssize.stratify, ssizeCT, ssizeEpi, ssizeEpiCont,
ssizeEpiInt)
AHN, C.; HEO, M; ZHANG, S. Sample size calculations for clustered and longitudinal outcomes
in clinical research. Boca Raton: Chapman & Hall/CRC, 2015. 244 p.
AHN, C.; HU, F.; SCHUCANY, W. R. Sample size calculations for clustered binary data with sign
tests using different weighing schemes. Statistics in Biopharmaceutical Research, v. 3, n. 1, p. 65-
72, 2011.
AITKIN, M.; FRANCIS, B.; HINDE, J. Statistical modelling in GLIM4 (Oxford Statistical Science
Series) 2. ed. Oxford: Oxford University Press, 2005. 572 p.
Al-SUNDUQCHI, M. S. Determining the appropriate sample size for inferences based on the
Wilcoxon statistics. 1990. 262 f. Ph.D. Thesis (Statistics), University of Wyoming, Laramie, WY,
1990.
ALONZO, T. A.; PEPE, M. S. Distribution-free ROC analysis using binary regression techniques.
Biostatistics, v. 3, n. 3, p. 421-432, 2002.
ALTAYE, M.; DONNER, A.; KLAR, N. Inference procedures for assessing interobserver agreement
among multiple raters. Biometrics, v. 57, n. 2, p. 584-588, 2001.
ALTMAN, D. G. Practical statistics for medical research. London: Chapman & Hall/CRC, 1991.
611 p.
ALTMAN, D. G.; BLAND, J. M. Statistics notes: Standard deviations and standard errors. British
Medical Journal, v. 311, n. 7521, p. 903, 2005.
ARKIN, C. F.; WACHTEL, M. S. How many patients are necessary to assess test performance?
Journal of American Medical Association, v. 263, n. 2, p. 275-278, 1990.
BACHMANN, L. M. et al. Sample sizes of studies on diagnostic accuracy: literature survey. British
Medical Journal, v. 332, n. 7550, p. 1127-1129, 2006.
BANG, H.; JUNG, S. H.; GEORGE, S. L. Sample size calculation for simulation-based multiple-
testing procedures. Journal of Biopharmaceutical Statistics, v. 15, n. 6, p. 957-967, 2005.
BARBETTA, P. A. Estatística aplicada às ciências sociais. 9. ed. Florianópolis: Editora UFSC, 2014.
320 p.
BASAGAÑA, X.; LIAO, X.; SPIEGELMAN, D. Power and sample size calculation for longitudinal
studies estimating a main effect of a time-varying exposure. Statistical Methods in Medical
Research, v. 20, n. 5, p. 471-487, 2011.
BASAGAÑA, X.; SPIEGELMAN, D. Power and sample size calculations for longitudinal studies
comparing rates of change with a time-varying exposure. Statistics in Medicine, v. 29, n. 2, p. 181-
192, 2010.
BEAM, C. A. Strategies for improving power in diagnostic radiology research. American Journal of
Roentgenology, v. 159, n. 3, p. 631-637, 1992.
BICKEL, P. J.; DOKSUM, K. A. Mathematical statistics: basic ideas and selected topics. 2. ed. Boca
Raton: Chapman and Hall/CRC, 2015. 576 p.
BIRKETT, M. A.; DAY, S. J. Internal pilot studies for estimating sample size. Statistics in Medicine,
v. 13, n. 23-24, p. 2455-2463, 1994.
BLAND, J. M. The tyranny of power: is there a better way to calculate sample size? British Medical
Journal, v. 339, p. b3985, 2009.
BLAND, J. M.; ALTMAN, D. G. Statistics notes: matching. British Medical Journal, v. 309, n. 6962,
p. 1128, 1994.
BOLFARINE. H.; BUSSAB, W. O. Elementos de amostragem. São Paulo: Blucher, 2005. 269 p.
BORENSTEIN, M. et al. Introduction to meta analysis. Chichester, UK: John Willey, 2009. 421p.
BORENSTEIN, M. et al. A basic introduction to fixed-effect and random-effects models for meta-
analysis. Research Synthesis Methods, v. 1, n. 2, p. 97-111, 2010.
BOWKER, A. H. A test for symmetry in contingency tables. Journal of the American Statistical
Association, v. 43, n. 244, p. 572-574, 1949.
BRANT, R. Assessing proportionality in the proportional odds model for ordinal logistic regression.
Biometrics, v. 46, n. 4, p. 1171-1178, 1990.
BRESLOW, N. E. Discussion of Professor Cox’s paper. Journal of the Royal Statistical Society,
Series B (Methodological), v. 34, p. 216–217, 1972.
BRESLOW, N. E.; DAY, N. E. Statistical methods in cancer research: The analysis of case-control
studies. Lyon: IARC Scientific Publications, v. 1, 1980. 350 p.
BRESLOW, N. E.; DAY, N. E. Statistical methods in cancer research: The design and analysis of
cohort studies. Lyon: IARC Scientific Publications, v. 2, 1987. 406 p.
BUDERER, N. M. Statistical methodology: I. Incorporating the prevalence of disease into the sample
size calculation for sensitivity and specificity. Academic Emergency Medicine, v. 3, n. 9, p. 895-900,
1996.
BYRT, T.; BISHOP, J.; CARLIN, J. B. Bias, prevalence and kappa. Journal of Clinical
Epidemiology, v. 46, n. 5, p. 423-429, 1993.
CAMPBELL, M. J.; JULIOUS, S. A.; ALTMAN, D. G. Estimating sample sizes for binary, ordered
categorical, and continuous outcomes in two group comparisons. British Medical Journal, v. 311, n.
7013, p. 1145-1148, 1995. Errata em: British Medical Journal, v. 312, n. 7023, p. 96, 1996.
CARLEY, S. et al. Simple nomograms to calculate sample size in diagnostic studies. Emergency
Medicine Journal, v. 22, n. 3, p. 180-181, 2005. Errata em: Emergency Medicine Journal, v. 22, n. 5,
p. 352, 2005.
CASAGRANDE, J. T.; PIKE, M. C.; SMITH, P. G. An improved approximate formula for calculating
sample size for comparing two binomials distributions. Biometrics, v. 34, n. 3, p. 483-486, 1978.
CASELLA, G.; BERGER, R. L. Statistical inference. 2. ed. Stamford, CT: Cengage Learning, 2001.
660 p.
CHAN, I. S. F. Power and sample size determination for noninferiority trials using an exact method.
Journal of Biopharmaceutical Statistics, v. 12, n. 4, p. 457-469, 2002.
CHEN, D.-G.; PEACE, K. E. Applied meta-analysis with R. Boca Raton: Chapman & Hall/CRC,
2013. 321p.
CHIN, R. Adaptive and flexible clinical trials. Boca Raton: CRC Press Chapman & Hall, 2012.
198 p.
CHOW, S.-C.; CHANG, M. Adaptive design methods in clinical trials. Orphanet Journal of Rare
Diseases, v. 3, n. 1, article 11, 2008.
CHOW, S.-C.; CHANG, M. Adaptive design methods in clinical trials. 2. ed. Boca Raton: Chapman
& Hall, 2012. 374 p.
CHOW, S.-C.; LIU, J.-P. Design and analysis of bioavailability and bioequivalence studies. 3. ed.
Boca Raton: Chapman & Hall/CRC Biostatistics Series, 2009. 733 p.
CHOW, S.-C.; LIU, J.-P. Design and analysis of clinical trials: Concepts and Methodologies. 3. ed.
Hoboken/NJ: John Wiley & Sons, 2013. 892 p.
CHOW, S.-C.; SHAO, J.; WANG, H. Sample size calculation in clinical research. New York:
Marcel Dekker, 2003. 358 p.
CHOW, S.-C.; SHAO, J.; WANG H. Sample size calculation in clinical research, 2. ed. Boca Raton:
Chapman & Hall, 2008. 465 p.
CICCHETTI, D. V.; FEINSTEIN, A. R. High agreement but low kappa: II. Resolving the paradoxes.
Journal of Clinical Epidemiology, v. 43, n. 6, p. 551-558, 1990.
COCHRAN, W. G. Sampling techniques. 3. ed. New York: John Wiley & Sons, 1977. 428 p.
COHEN, J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial
credit. Psychological Bulletin, v. 70, n. 4, p. 213-220, 1968.
COHEN, J. Statistical Power Analysis for the Behavioral Sciences. Revised ed. Lawrence Erlbaum
Associates, 1977. 474 p.
COHEN, J. Statistical power analysis for the behavioral sciences. 2. ed. Lawrence Erlbaum
Associates, 1988. 567 p.
COHN, L. D.; BECKER, B. J. How meta-analysis increases statistical power. Psycological Methods,
v. 8, n. 3, p. 243-253, 2003.
COLLETT, D. Modelling binary data. 2. ed. Boca Raton: Chapman & Hall/CRC, 2003. 387 p.
COLLETT, D. Modelling survival data in medical research. 3. ed. Boca Raton: Chapman & Hall,
2015. 548 p.
COLOSIMO, E. A.; GIOLO, S. R. Análise de sobrevivência aplicada. ABE: Projeto Fisher. São
Paulo: Editora Edgard Blücher, 2006. 370 p.
CONNETT, J. E; SMITH, J. A.; McHUGH, R. B. Sample size and power for pair-matched case-
control studies. Statistics in Medicine, v. 6, n. 1, p. 53-59, 1987.
CONNOR, R. J. Sample size for testing differences in proportions for the paired-sample design.
Biometrics, v. 43, n. 1, p. 207-211, 1987.
CONOVER, W. J. Practical nonparametric statistics, 2. ed. New York: John Wiley & Sons, 1980.
493 p.
CONOVER, W. J. Practical nonparametric statistics, 3. ed. New York: John Wiley & Sons, 1999.
592 p.
COOK, T. D.; DeMETS, D. L. Introduction to statistical methods for clinical trials. Boca Raton:
Chapman & Hall/CRC, 2008. 439 p.
CUI, L.; HUNG, H. M. J.; WANG, S.-J. Modification of sample size in group sequential clinical trials.
Biometrics, v. 55, n. 3, p. 853-857, 1999.
DANN, R. S.; KOCH, G. G. Methods for one-sided testing of the difference between proportions and
sample size considerations related to non-inferiority clinical trials. Pharmaceutical Statistics, v. 7,
n. 2, p. 130-141, 2008.
De MARTINI, D.; TELESCA, D. NP-SIZE: a programme to compute power and sample size for
nonparametric tests. In: INTERNATIONAL WORKSHOP ON STATISTICAL MODELLING, 1999,
Graz, Proceedings… Graz: Statistical Modelling Society, 1999. p. 472-475.
DEMIDENKO, E. Sample size determination for logistic regression revisited. Statistics in Medicine,
v. 26, n. 18, p. 3385-3397, 2007.
DEMIDENKO, E. Sample size and optimal design for logistic regression with binary interaction.
Statistics in Medicine, v. 27, n. 1, p. 36-46, 2008.
DILETTI, E.; HAUSCHKE, D.; STEINIJANS, V. W. Sample size determination for bioequivalence
assessment by means of confidence intervals. International Journal of Clinical Pharmacology,
Therapy, and Toxicology, v. 29, n. 1, p. 1-8, 1991.
DIXON, W. J.; MASSEY, F. J. Introduction to statistical analysis. 4. ed. New York: McGraw-Hill,
1983. 678 p.
DONNER, A. Sample size requirements for the comparison of two or more coefficients of inter-
observer agreement. Statistics in Medicine, v. 17, n. 10, p. 1157–1168, 1998.
DONNER, A.; ELIASZIW, M. A goodness-of-fit approach to inference procedures for the kappa
statistic: confidence interval construction, significance-testing and sample size estimation. Statistics in
Medicine, v. 11, n. 11, p. 1511-1519, 1992.
DONNER, A.; ROTONDI, M. A. Sample size requirements for interval estimation of the kappa
statistic for interobserver agreement studies with a binary outcome and multiple raters. The
International Journal of Biostatistics, v. 6, n. 1, article 31, 2010.
DONOHUE, M. C.; EDLAND, S. D.; GAMST, A. C. Power of linear models of longitudinal data with
applications to Alzheimer´s disease Phase II study design. Manuscript of Division of Biostatistics and
Bioinformatics University of California, 2016. Disponível em: https://cran.r-
project.org/web/packages/longpower/vignettes/longpower.pdf Acesso em: nov./2016.
DRAPER, N. R.; SMITH, H. Applied regression analysis. 3. ed. New York: John Wiley & Sons,
1998. 706 p.
DRETZKE, B. Statistics with Microsoft Excel. 5. ed. Upper Saddle River: Prentice Hall, 2011. 288p.
DUFFY, S. W. Asymptotic and exact power for the McNemar test and its analogue with R controls per
case, Biometrics, v. 40, n. 4, p. 1005-1015, 1984.
DUPONT, W. D. Power calculations for matched case-control studies, Biometrics, v. 44, n. 4, p. 1157-
1168, 1988.
DUPONT, W. D.; PLUMMER, W. D. JR. Power and sample size calculations: a review and computer
program, Controlled Clinical Trials, v. 11, n. 2, p. 116-128, 1990.
DUPONT, W. D.; PLUMMER, W. D. JR. Power and sample size calculations for studies involving
linear regression, Controlled Clinical Trials, v. 19, n. 6, p. 589-601, 1998.
EFRON, B.; TIBSHIRANI, R. J. An introduction to the bootstrap. New York: Chapman and
Hall/CRC, 1993. 456 p.
ENG, J. Sample size estimation: how many individuals should be studied? Radiology, v. 227, n. 2, p.
309-313, 2003.
EVERITT, B. S.; PICKLES, A. Statistical aspects of the design and analysis of clinical trials.
Revised ed. London: Imperial College Press, 2004. 323 p.
FAN, C.; ZHANG, D.; ZHANG, C.-H. On sample size of the Kruskal-Wallis test with application to
the mouse peritoneal cavity study. Biometrics, v. 67, n. 1, p. 213-224, 2011.
FEINSTEIN, A. R.; CICCHETTI, D. V. High agreement but low kappa: I. The problems of two
paradoxes. Journal of Clinical Epidemiology, v. 43, n. 6, p. 543-549, 1990.
FIRTH, D. Bias Reduction of maximum likelihood estimates, Biometrika, v. 80, n. 1, p. 27-38, 1993.
FISCHL, M. A. et al. The efficacy of azidothymidine (AZT) in the treatment of patients with AIDS
and AIDS-related complex. A double-blind, placebo-controlled trial. The New England Journal of
Medicine, v. 317, n. 4, p. 185-91, 1987.
FLACK, V. F. Confidence intervals for the two rater kappa. Communications in Statistics: Theory
and Methods, v. 16, p. 953-968, 1987.
FLACK, V. F. et al. Sample size determinations for the two rater kappa statistic, Psychometrika,
v. 53, n. 3, p. 321-325, 1988.
FLEISS, J. L. Measuring nominal scale agreement among many raters. Psychological Bulletin, v. 76,
n. 5, p. 378-382, 1971.
FLEISS, J. L. Statistical methods for rates and proportions. 2. ed. New York: John Wiley & Sons,
1981. 321 p.
FLEISS, J. L. The design and analysis of clinical experiments. New York: John Wiley & Sons, 1986.
432 p.
FLEISS, J. L.; COHEN, J. The equivalence of weighted kappa and the intraclass correlation coefficient
as measures of reliability. Educational and Psychological Measurement, v. 33, n. 3, p. 613–619,
1973.
FLEISS, J. L.; COHEN, J.; EVERITT, B. S. Large sample standard errors of kappa and weighted
kappa. Psychological Bulletin, v. 72, n. 5, p. 323-327, 1969.
FLEISS, J. L.; LEVIN, B.; PAIK, M. C. Statistical methods for rates and proportions. 3. ed. New
York: John Wiley & Sons, 2003. 800 p.
FOPPA, I.; SPIEGELMAN, D. Power and sample size calculations for case-control studies of gene-
environment interactions with a polytomous exposure variable. American Journal of Epidemiology,
v. 146, n. 7, p. 596-604, 1997.
FREIMAN, J. A. et al. The importance of beta, the type II error and sample size in the design and
interpretation of the randomized control trial. The New England Journal of Medicine, v. 299, n. 13,
p. 690-694, 1978.
FRIEDMAN, L. et al. Fundamentals of clinical trials. 5. ed. New York: John Wiley & Sons, 2015.
550 p.
GALDURÓZ, J. C. F. et al. Fatores associados ao uso pesado de álcool entre estudantes das capitais
brasileiras. Revista de Saúde Pública, v. 44, n. 2, p. 267-273, 2010.
GALEN, R. S.; GAMBINO, S. R. Beyond normality: the predictive value and efficiency of medical
diagnosis. New York: John Wiley & Sons, 1975. 254 p.
GARDNER, M. J.; ALTMAN, D. G. Confidence intervals rather than P values: estimation rather than
hypothesis testing. British Medical Journal, v. 292, n. 6522, p. 746-750, 1986.
GUENTHER, W. C. Sample size formulas for normal theory t-tests. The American Statistician, v. 35,
n. 4, p. 243-244, 1981.
HAMILTON, M. A.; COLLING, B. J. Determining the appropriate sample size for nonparamentric
tests for location shift. Technometrics, v. 33, n. 3, p. 327-337, 1991.
HANLEY, J. A.; McNEIL, B. J. The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology, v. 143, n. 1, p. 29-36, 1982.
HARDIN, J. W.; HILBE, J. M. Generalized linear models and extensions, 3. ed. Stata Press, 2012.
479 p.
HAYNES, R. B. et al. Epidemiologia clínica: como realizar pesquisa clínica na prática. 3. ed. Santa
Cecília: Artmed Editora, 2006. 544 p.
HEDEKER, D.; GIBBONS, R. D.; WATERNAUX, C. Sample size estimation for longitudinal designs
with attrition: comparing time-related contrasts between two groups. Journal of Educational and
Behavioral Statistics, v. 24, n. 1, p. 70-93, 1999.
HEDGES, L. V.; OLKIN, I. Statistical methods for meta-analysis. New York: Academic Press,
1985. 369 p.
HEDGES, L. V.; PIGOTT, T. D. The power of statistical tests for moderators in meta-analysis.
Psycological Methods, v. 9, n. 4, p. 424-445, 2004.
HEINZE, G.; SCHEMPER, M. A solution to the problem of monotone likelihood in Cox regression.
Biometrics, v. 57, n. 1, p. 114-119, 2001.
HILBE, J. M. Logistic regression models. Boca Raton: Chapman & Hall/CRC. 2009. 637 p.
HILTON, J. F.; MEHTA, C. R. Power and sample size calculations for exact conditional tests with
ordered categorial data. Biometrics, v. 49, n. 2, p. 609-616, 1993.
HIRJI, K. F. Exact analysis of discrete data. Boca Raton: Chapman & Hall/CRC, 2005. 552 p.
HOENIG, J. M.; HEISEY, D. M. The abuse of power: the pervasive fallacy of power calculation for
data analysis. The American Statistician, v. 55, n. 1, p. 19-24, 2001.
HOSMER, W. D.; LEMESHOW, S.; STURDIVANT, R. X. Applied logistic regression. 3. ed. New
York: John Wiley & Sons, 2013. 528 p.
HSIEH, F. Y. Sample size tables for logistic regression. Statistics in Medicine. John Wiley & Sons.
v. 8, n. 7, p. 795-802, 1989.
HSIEH, F. Y.; BLOCH, D. A.; LARSEN, M. D. A simple method of sample size calculation for linear
and logistic regression. Statistics in Medicine, v. 17, n. 14, p. 1623-1634, 1998.
HSIEH, F. Y.; LAVORI, P. W. Sample-Size calculations for the Cox proportional hazards regression
model with nonbinary covariates. Controlled Clinical Trials, v. 21, n. 6, p. 552-560, 2000.
HULLEY, S. B. et al. Delineando a pesquisa clínica: uma abordagem epidemiológica. 4. ed. Porto
Alegre: Artmed Editora, 2015. 400 p.
HUNG, H. M.; WANG, S. J.; O'NEILL, R. A regulatory perspective on choice of margin and statistical
inference issue in non-inferiority trials. Biometrical Journal, v. 47, n. 1, p. 28-36, 2005.
HWANG, S. J. et al. Minimum sample size estimation to detect gene-environment interaction in case-
control designs. American Journal of Epidemiology, v. 140, n. 11, p. 1029-1037, 1994.
JENNISON, C.; TURNBULL, B. W. Group sequential methods with applications to clinical trials.
Boca Raton: Chapman & Hall/CRC, 2000. 390 p.
JONES, B.; KENWARD, M. G. Design and analysis of cross-over trials. 3. ed. Boca Raton:
Chapman & Hall/CRC, 2015. 438 p.
JULIOUS, S. A. Sample sizes for clinical trials. Boca Raton: Chapman & Hall/CRC, 2010. 299 p.
JULIOUS, S. A. et al. Sample sizes for randomized trials measuring quality of life in cancer patients.
Quality of Life Research, v. 6, n. 2, p. 109-117, 1997.
JULIOUS, S. A. et al. Determining sample sizes for cancer trials involving quality of life instruments.
British Journal of Cancer, v. 83, n. 7, p. 959-963, 2000.
JULIOUS, S. A.; CAMPBELL, M. J.; ALTMAN, D. G. Estimating sample sizes for continuous,
binary, and ordinal outcomes in paired comparisons: practical hints. Journal of Biopharmaceutical
Statistics, v. 9, n. 2, p. 241-251, 1999.
JULIOUS, S. A.; OWEN, R. J. A comparison of methods for sample size estimation for non-inferiority
studies with binary outcomes. Statistical Methods in Medical Research, v. 20, n. 6, p. 595-612, 2011.
JUNG, S.-H. et al. Sample size computation for two-sample noninferiority log-rank test. Journal of
Biopharmaceutical Statistics, v. 15, n. 6, p. 969-979, 2005.
KIM, H. Y.; WILLIAMSON, J. M.; LIN, H.-M. Power and sample size calculations for interval-
censored survival analysis. Statistics in Medicine, v. 35, n. 8, p. 1390-1400, 2016.
KISH, L. Survey sampling. New York: John Wiley & Sons, 1965, 643 p.
KOLASSA, J. E. A comparison of size and power calculations for the Wilcoxon statistic for ordered
categorical data. Statistics in Medicine, v. 14, n. 14, p. 1577-1581, 1995.
KUPPER, L. L.; HAFNER, K. B. How appropriate are popular sample size formulas? The American
Statistician, v. 43, n. 2, p. 101-105, 1989.
KUTNER, M. H. et al. Applied linear statistical models. 5. ed. New York: McGraw-Hill, 2004.
1396 p.
LACHENBRUCH, P. A. On the sample size for studies based upon McNemar's test. Statistics in
Medicine, v. 11, n. 11, p. 1521-1525, 1992.
LACHIN, J. M.; FOULKES, M. A. Evaluation of sample size and power for analyses of survival with
allowance for nonuniform patient entry, losses to follow-up, noncompliance, and stratification.
Biometrics, v. 42, n. 3, p. 507-519, 1986.
LAKATOS, E.; LAN, K. K. G. A comparison of sample size methods for the logrank statistic.
Statistics in Medicine, v. 11, n. 2, p. 179-191, 1992.
LANDAU, S.; STAHL, D. Sample size and power calculations for medical studies by simulation when
closed form expressions are not available. Statistical Methods Medical Research, v. 22, n. 3, p. 324,
2013.
LANDIS, J. R.; KOCH, G. G. The measurement of observer agreement for categorical data.
Biometrics, v. 33, n. 1, p. 159-174, 1977.
LAWLESS, J. F. Statistical models and methods for lifetime data. 2. ed. New York: John Wiley &
Sons, 2003, 630 p.
LEE, E. W.; WEI, L. J.; AMATO, D. A. Cox-type regression analysis for large number of small groups
of correlated failure time observations. In: KLEIN, J. P.; GOEL, P. K. (Eds.). Survival analysis: state
of the art. Dordrecht: Kluwer Academic Publishers, 1992. p. 237–247.
LEHMANN, E. L. Nonparametrics: statistical methods based on ranks. Revised ed. New York:
Springer-Verlag, 2006. 464 p.
LEMESHOW, S. et al. Adequacy of sample size in health studies. New York: John Wiley & Sons,
1990. 239 p.
LENTH, R. V. Some practical guidelines for effective sample size determination. The American
Statistician, v. 55, n. 3, p. 187-193, 2001.
LEVY, P. S.; LEMESHOW, S. Sampling of populations: methods and applications. 4. ed. New York:
John Wiley & Sons, 2008. 420 p.
LIN, L. I.-K. Assay validation using the concordance correlation coefficient. Biometrics, v. 48, n. 2, p.
599-604, 1992.
LIN, L. I.-K. Total deviation index for measuring individual agreement with applications in laboratory
performance and bioequivalence. Statistics in Medicine, v. 19, n. 2, p. 255-270, 2000.
LIN, L. et al. Statistical methods in assessing agreement: models, issues, and tools. Journal of the
American Statistical Association, v. 97, n. 457, p. 257-270, 2002.
LIN, L; HEDAYAT, A. S.; WU, W. Statistical tools for measuring agreement. New York: Springer-
Verlag, 2012. 161 p.
LIN, H.-M.; WILLIAMSON, J. M.; LIPSITZ, S. R. Calculating power for the comparison of
dependent κ-coefficients. Journal of the Royal Statistical Society. Series C (Applied Statistics),
v. 52, n. 4, p. 391-404, 2003.
LINDSEY, J. K. Applying Generalized Linear Models. New York: Springer-Verlag, 1997a. 256 p.
LINDSEY, J. K. Exact sample size calculations for exponential family models. Journal of the Royal
Statistical Society. Series D (The Statistician), v. 46, n. 2, p. 231-237, 1997b.
LINDSEY, J. C.; RYAN, L. M. Tutorial in biostatistics methods for interval-censored data. Statistics
in Medicine, v. 17, n. 2, p. 219-238, 1998. Errata em: Statistics in Medicine, v. 18, n. 7, p. 890, 1999.
LIU, G.; SNAVELY, D. Power and sample size considerations in clinical trials: a simple review for
practical clinical researchers. Bio-Pharma Quartly Journal, v. 9, n. 2, 2003.
LU, K.; MEHROTRA, D. V.; LIU, G. Sample size determination for constrained longitudinal data
analysis. Statistics in Medicine, v. 28, n. 4, p. 679-699, 2009.
LU, Y.; BEAN, J. A. On the sample size for one-sided equivalence of sensitivities based upon
McNemar's test. Statistics in Medicine, v. 14, n. 16, p. 1831-1839, 1995.
LUBIN, J. H.; GAIL, M. H.; ERSHOW, A. G. Sample size and power for case-control studies when
exposures are continuous. Statistics in Medicine, v. 7, n. 3, p. 363-376, 1988.
LYLES, R. H.; LIN, H.-M.; WILLIAMSON, J. M. A practical approach to computing power for
generalized linear models with nominal, count, or ordinal responses. Statistics in Medicine, v. 26, n. 7,
p. 1632-1648, 2007.
MACHIN, D. et al. Sample size tables for clinical studies. 2. ed. Malden, MA: Blackwell Science,
1997. 315 p.
MAHONEY, M.; MAGEL, R. Estimation of the power of the Kruskal-Wallis test. Biometrical
Journal, v. 38, n. 5, p. 613-630, 1996.
MALHOTRA, R. K.; INDRAYAN, A. A simple nomogram for sample size for estimating sensitivity
and specificity of medical tests. Indian Journal of Ophthalmology, v. 58, n. 6, p. 519-522, 2010.
McCULLAGH, P. Regression models for ordinal data. Journal of the Royal Statistical Society,
Series B. (Methodological), v. 42, n. 2, p. 109-142, 1980.
McCULLAGH, P.; NELDER, J. A. Generalized linear models. 2. ed. Cambridge: Chapman and Hall,
1989. 511 p.
MEDRONHO, R. A.; BLOCH, K. V.; WERNECK, G. L. Epidemiologia. 2. ed. São Paulo: Atheneu,
2009. 685 p.
MEINERT, C. L. Clinical trials: design, conduct, and analysis. 2. ed. Oxford: Oxford University
Press, 2012. 720 p.
MIETTINEN, O. S. The matched pairs design in the case of all-or-none responses, Biometrics, v. 24,
n. 2, p. 339-352, 1968.
M'LAN, C. E.; JOSEPH, L.; WOLFSON, D. B. Bayesian sample size determination for case-control
studies. Journal of the American Statistical Association, v. 101, n. 474, p. 760-772, 2006.
MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of Statistics. 3. ed. New
York: McGraw-Hill, 1974. 564 p.
MORRISON, J. M.; GILMOUR, H.; SULLIVAN, F. Children seen frequently out of hours in one
general practice. British Medical Journal, v. 303, n. 6810, p. 1111–1114, 1991.
NAM, J.-M., Testing the intraclass version of kappa coefficient of agreement with binary scale and
sample size determination. Biometrical Journal, v. 44, n. 5, p. 558-570, 2002.
NAM, J.-M.; FEARS, T. R. Optimum sample size determination in stratified case-control studies with
cost considerations. Statistics in Medicine, v. 11, n. 4, p. 547-556, 1992.
NOETHER, G. E. Sample size determination for some common nonparametric tests. Journal of the
American Statistical Association, v. 82, n. 398, p. 645-647, 1987.
NORMAN, G. R.; SREINER, D. L. Biostatistics: The bare essentials, 4. ed. Shelton, CT: People's
Medical Publishing House - USA, 2014, 438 p.
NOVIKOV, I.; FUND, N.; FREEDMAN, L. S. A modified approach to estimating sample size for
simple logistic regression with one continuous covariate. Statistics in Medicine, v. 29, n. 1, p. 97-107,
2010.
OBUCHOWSKI, N. A.; McCLISH, D. K. Sample size determination for diagnostic accuracy studies
involving binormal ROC curve indices. Statistics in Medicine, v. 16, n. 13, p. 1529-1542, 1997.
OWEN, D. B. A special case of a bivariate non-central t-distribution. Biometrika, v. 52, n. 3-4, p. 437-
466, 1965.
PAN, Z.; KUPPER, L. L. Sample size determination for multiple comparison studies treating
confidence interval width as random. Statistics in Medicine, v. 18, n. 12, p. 1475-1488, 1999.
PATTERSON, S.; JONES, B. Bioequivalence and statistics in clinical pharmacology. Boca Raton:
Chapman & Hall/CRC, 2006. 374 p.
PEARSON, E. S.; HARTLEY, H. O. Biometrika tables for statisticians. Vol I, 3. ed. Cambridge:
Cambridge University Press, 1970. 280 p.
PEREIRA, M. G. Epidemiologia: Teoria e Prática. Rio de Janeiro: Guanabara Koogan, 2008. 596 p.
PETO, R. Experimental survival curves for interval-censored data. Journal of the Royal Statistical
Society. Series C (Applied Statistics), v. 22, n. 1, p. 86-91, 1973.
PIANTADOSI, S. Clinical trials: a methodologic perspective. 2. ed. New York: John Wiley & Sons,
2005. 687 p.
POCOCK, S. J. Clinical trials: a practical approach. Brisbane: John Wiley & Sons, 1983. 266 p.
POCOCK, S. J. The pros and cons of noninferiority trials. Fundamental and Clinical Pharmacology,
v. 17, n. 4, p. 483-490, 2003.
POSNER, K. L. et al. Measuring interrater reliability among multiple raters: an example of methods
for nominal data. Statistics in Medicine, v. 9, n. 9, p. 1103-1115, 1990. Errata em: Statistics in
Medicine, v. 11, n. 10, p. 1401, 1992.
QIU, P. et al. Sample size to test for interaction between a specific exposure and a second risk factor in
a pair-matched case-control study. Statistics in Medicine, v. 19, n. 7, p. 923-935, 2000.
RABBEE, N. et al. Power and sample size for ordered categorical data. Statistical Methods in
Medical Research, v. 12, n. 1, p. 73-84, 2003.
RAHARDJA, D.; ZHAO, Y.- D.; QU, Y. Sample size determinations for the Wilcoxon-Mann-Whitney
test: a comprehensive review. Statistics in Biopharmaceutical Research, v. 1, n. 3, p. 317-322, 2009.
RAE, G. The equivalence of multirater kappa statistics and intraclass correlation coefficients.
Educational and Psychological Measurement, v. 48, n. 2, p. 367-374, 1988.
RASCH, D.; ŠIMEČKOVÁ, M. The size of experiments for the one-way ANOVA for ordered
categorical data. In: INTERNATIONAL WORKSHOP IN MODEL-ORIENTED DESIGN AND
ANALYSIS, 8, 2007, Almagro, Spain, Proceedings… mODa 8 – Advances in Model-Oriented Design
and Analysis, June 4-8, 2007. p. 173-180.
RODRIGUES, C.; ZIEGELMANN, P. Metanálise: um guia prático. Revista Hospital das Clínicas de
Porto Alegre, v. 30, n. 4, p. 435-446, 2010.
ROSNER, B.; GLYNN, R. J. Power and sample size estimation for the Wilcoxon rank sum test with
application to comparisons of C statistics from alternative prediction models. Biometrics, v. 65, n. 1, p.
188-197, 2009.
ROSNER, B.; GLYNN, R. J. Power and sample size estimation for the clustered Wilcoxon test.
Biometrics, v. 67, n. 2, p. 646-653, 2011.
ROSNER, B.; GLYNN, R. J.; LEE, M.-L. Incorporation of clustering effects for the Wilcoxon rank
sum test: A large-sample approach. Biometrics, v. 59, n. 4, p. 1089-1098, 2003.
ROSNER, B.; GLYNN, R. J.; LEE, M.-L. The Wilcoxon signed rank test for paired comparisons of
clustered data. Biometrics, v. 62, n. 1, p. 185-192, 2006.
ROTHMANN, M. D.; WIENS, B. L.; CHAN, I. S. F. Design and analysis of non-inferiority trials.
Boca Raton: Chapman & Hall/CRC, 2012. 454 p.
ROUSSON, V; SEIFERT, B. A mixed approach for proving non-inferiority in clinical trials with
binary endpoints. Biometrical Journal, v. 50, n. 2, p. 190-204, 2008.
ROY, A. et al. Sample size determination for hierarchical longitudinal design with differential attrition
rates. Biometrics, v. 63, n. 3, p. 699-707, 2007.
ROYSTON, P. Exact conditional and unconditional sample size for pair-matched studies with binary
outcome: a practical guide. Statistics in Medicine, v. 12, n. 7, p. 699-712, 1993.
RYAN, T. P. Sample size determination and power. New York: John Wiley & Sons, 2013. 404 p.
SANTIS, F.; PACIFICO, M. P.; SAMBUCINI, V. Optimal predictive sample size for case–control
studies. Journal of the Royal Statistical Society, Series C (Applied Statistics), v. 53, n. 3, p. 427-
441, 2004.
SATTEN, G. A.; KUPPER, L. L. Sample size determination for pair-matched case-control studies
where the goal is interval estimation of the odds ratio. Journal of Clinical Epidemiology, v. 43, n. 1,
p. 55-59, 1990.
SCHOENFELD, D. A.; RICHTER, J. R. Nomograms for calculating the number of patients needed for
a clinical trial with survival as an endpoint, Biometrics, v. 38, n. 1, p. 163-170, 1982.
SCHORK, M. A.; WILLIAMS, G. W. Number of observations required for the comparison of two
correlated proportions. Communications in Statistics: Simulation and Computation, v. 9, n. 4 , p.
349-357, 1980.
SCHOUTEN, H. J. A Sample size formula with a continuous outcome for unequal group sizes and
unequal variances. Statistics in Medicine, v. 18, n. 1, p. 87-91, 1999.
SCHUIRMANN, D. J. A comparison of the two one-sided tests procedure and the power approach for
assessing the equivalence of average bioavailability. Journal of Pharmacokinetics and
Biopharmaceutics, v. 15, n. 6, p. 657-680, 1987.
SCHULZ, K. F.; GRIMES, D. A. Sample size calculations in randomised trials: mandatory and
mystical. Lancet, v. 365, n. 9467, p. 1348-1353, 2005.
SELF, S. G.; MAURITSEN, R. H. Power/sample size calculations for generalized linear models.
Biometrics, v. 44, n. 1, p. 79-86, 1988.
SELF, S. G.; MAURITSEN, R. H.; OHARA, J. Power calculations for likelihood ratio tests in
generalized linear models. Biometrics, v. 48, n. 1, p. 31-39, 1992.
SENN S. Consensus and controversy in pharmaceutical statistics (with discussion). Journal of the
Royal Statistical Society, Series D (The Statistician), v. 49, n. 2, p. 135-176, 2000.
SENN, S. Cross-over trials in clinical research. 2. ed. New York: John Wiley & Sons, 2002. 345 p.
SHIEH, G. On power and sample size calculations for likelihood ratio tests in generalized linear
models. Biometrics, v. 56, n. 4, p. 1192-1196, 2000.
SHIEH, G. Sample size calculations for logistic and Poisson regression models. Biometrika, v. 88,
n. 4, p. 1193-1199, 2001.
SHIEH, G. On power and sample size calculations for Wald tests in generalized linear models. Journal
of Statistical Planning and Inference, v. 128, n. 1, p. 43-59, 2005.
SHIH, W. J. Group sequential, sample size re-estimation and two-stage adaptive designs in clinical
trials: a comparison. Statistics in Medicine, v. 25, n. 6, p. 933-941, 2006.
SIGNORINI, D. F. Sample size for Poisson regression. Biometrika, v. 78, n. 2, p. 446-450, 1991.
SILVA, E. F.; PEREIRA, M. G. Avaliação das estruturas de concordância e discordância nos estudos
de confiabilidade, Revista de Saúde Pública, v. 32, n. 4, p. 383-393, 1998.
SIMEL, D. L.; SAMSA, G. P.; MATCHAR, D. B. Likelihood ratios with confidence: sample size
estimation for diagnostic test studies. Journal of Clinical Epidemiology, v. 44, n. 8, p. 763-770, 1991.
SIQUEIRA, A. L. et al. Comparison of sample size formulae for 2 x 2 cross-over designs applied to
bioequivalence studies. Pharmaceutical Statistics, v. 4, n. 4, p. 233-243, 2005.
SIQUEIRA, A. L.; WHITEHEAD, A.; TODD, S. Active-control trials with binary data: a comparison
of methods for testing superiority or non-inferiority using the odds ratio. Statistics in Medicine, v. 27,
n. 3, p. 353-370, 2008.
SIQUEIRA, A. L.; TODD, S.; WHITEHEAD, A. Sample size considerations in active-control non-
inferiority trials with binary data based on the odds ratio. Statistical Methods in Medical Reseach,
v. 24, n. 4, p. 453-461, 2015.
SOEKEN, K. L.; PRESCOTT, P. A. Issues in the use of kappa to estimate reliability. Medical Care,
v. 24, n. 8, p. 733-741, 1986.
SOKAL, R. R.; ROHLF, F. J. Biometry: the principles and practice of statistics in biological research.
3. ed. New York: W. H. Freeman & Co, 1995. 887 p.
SOUZA, M. C. F. M. C. Regressão logística exata para dados de resposta binária. Belo Horizonte:
Departamento de Estatística da UFMG, 2000, 144p. (Dissertação, Mestrado em Estatística).
SPRENT, P.; SMEETON, N. C. Applied nonparametric statistical methods. 4. ed. Boca Raton:
Chapman & Hall/CRC, 2007. 542 p.
STABLEIN, D. M.; CARTER JR.; W. H.; NOVAK, J. W. Analysis of survival data with
nonproportional hazard functions. Controlled Clinical Trials, v. 2, n. 2, p. 149-159, 1981.
STREINER, D. L.; NORMAN, G. R.; CAIRNEY, J. Health measurement scales: a practical guide to
their development and use. 5. ed. Oxford: Oxford University Press, 2015. 399 p.
TANG, W.; HE, H.; TU, X. M. Applied categorical and count data analysis. Boca Raton: CRC
Press, 2012. 363 p.
TANG, M.-L.; HIRJI, K. F.; VOLLSET, S. E. Exact power computation for dose-response studies.
Statistics in Medicine, v. 14, n. 20, p. 2261-2272, 1995.
TAYLOR, J. M. G. Choosing the number of controls in a matched case-control study, some sample
size power and efficiency considerations. Statistics in Medicine, v. 5, n. 1, p. 29-36, 1986.
THERNEAU, T. M.; GRAMBSCH, P. M. Modeling survival data: extending the Cox model. New
York: Springer-Verlag, 2000. 350 p.
THOMPSON, W. D.; WALTER, S. D. Kappa and the concept of independent errors. Journal of
Clinical Epidemiology, v. 41, n. 10, p. 969-970, 1988b.
TRACY, M. Methods of sample size calculation for clinical trials. Glasgow: Department of
Statistics, University of Glasgow, 2009. 123 p. (Masters thesis, Faculty of Information & Mathematical
Sciences).
TU, D. On the use of ratio or odds ratio of cure rates in therapeutic equivalence clinical trials with
binary endpoints. Journal of Biopharmaceutical Statistics, v. 8, n. 2, p. 263-282, 1998.
TU, X. M. et al. Power analyses for longitudinal trials and other clustered designs. Statistics in
Medicine, v. 23, n. 18, p. 2799-2815, 2004.
TURNBULL, B. W. The empirical distribution function with arbitrarily grouped, censored and
truncated data. Journal of the Royal Statistical Society. Series B (Methodological), v. 38, n. 3, p.
290-295, 1976.
UITERS, E. et al. Ethnic minorities and prescription medication; concordance between self-reports and
medical records. BMC Health Services Research, v. 6, p. 115-121, 2006.
VACH, W. Regression models as a tool in medical research. CRC Press, 2013. 493 p.
VAZ, J. C. L. Regiões de incerteza para a curva ROC em testes diagnósticos. São Carlos:
Departamento de Estatística da Universidade Federal de São Carlos, 2009. 151 f. (Dissertação,
Mestrado em Estatística).
VECCHIO, T. J. Predictive value of a single diagnostic test in unselected populations. The New
England Journal of Medicine, v. 274, n. 21, p. 1171-1173, 1966.
WALTERS, S. J. Sample size and power estimation for studies with health related quality of life
outcomes: a comparison of four methods using the SF-36. Health and Quality of Life Outcomes, v. 2,
n. 26, p. 1-17, 2004.
WALTERS, S. J. Consultants’ forum: should post hoc sample size calculations be done?
Pharmaceutical Statistics, v. 8, n. 2, p. 163-169, 2009.
WANG, D.; BAKHAI, A. Clinical trials: a practical guide to design, analysis, and reporting. Chicago:
Remedica Publishing, 2006. 480 p.
WANG, H.; CHOW, S.-C.; CHEN, M. A bayesian approach on sample size calculation for comparing
means. Journal of Biopharmaceutical Statistics, v. 15, n. 5, p. 799-807, 2005.
WANG, H.; CHOW, S.-C.; LI, G. On sample size calculation based on odds ratio in clinical trials.
Journal of Biopharmaceutical Statistics, v. 12, n. 4, p. 471-483, 2002.
WELLEK, S. Statistical methods for the analysis of two-arm non-inferiority trials with binary
outcomes. Biometrical Journal, v. 47, n. 1, p. 48-61, 2005.
WELLEK, S. Testing statistical hypotheses of equivalence and noninferiority. 2. ed. Boca Raton:
Chapman & Hall/CRC, 2010. 431 p.
WHITEHEAD, A. Meta-analysis of controlled clinical trials. New York: John Willey, 2002. 336 p.
WHITEHEAD, J. Sample size calculations for ordered categorical data. Statistics in Medicine, v. 12,
n. 24, p. 2257-2271, 1993.
WHITEHEAD, J. The design and analysis of sequential clinical trials. Revised 2. ed. New York:
John Wiley & Sons, 1997. 328 p.
WHITTEMORE, A. S. Sample size for logistic regression with small response probability. Journal of
the American Statistical Association, v. 76, n. 373, p. 27-32, 1981.
WITTE, J. S.; ELSTON, R. C.; CARDON, L. R. On the relative sample size required for multiple
comparisons. Statistics in Medicine, v. 19, n. 3, p. 369-372, 2000.
WITTES, J.; WALLENSTEIN, S. The power of the Mantel-Haenszel test. Journal of the American
Statistical Association, v. 82, n. 400, p. 1104-1109, 1987.
XIE, T.; WAKSMAN, J. Design and sample size estimation in clinical trials with clustered survival
times as the primary endpoint. Statistics in Medicine, v. 22, n. 18, p. 2835-2846, 2003.
ZHAO, Y. D.; RAHARDJA, D.; QU, Y. Sample size calculation for the Wilcoxon-Mann-Whitney test
adjusting for ties. Statistics in Medicine, v. 27, n. 3, p. 462–468, 2008.
Inferência estatística é a metodologia estatística que possibilita, a partir de dados amostrais, fazer
generalizações ou inferências sobre uma população, sempre com medida de precisão sobre sua
veracidade. Basicamente, existem dois procedimentos em inferência estatística: teste de hipóteses (TH),
também chamado de teste de significância, e estimação, pontual ou por intervalo. Neste último,
é utilizado o intervalo de confiança (IC) para um parâmetro de interesse (média, mediana, desvio-
padrão, proporção, etc.). Como, em geral, o parâmetro é desconhecido, precisa ser estimado a partir
de uma amostra.
Entretanto, na prática, há necessidade de se quantificar efeitos de tratamento e não apenas dizer que há
diferença entre eles, daí o procedimento de estimação. A estimação é um procedimento que permite dar
alguma ideia sobre algum parâmetro populacional com base nas informações contidas nas amostras.
Deve-se distinguir entre significância estatística (obtida por meio de um teste de significância) e
significância clínica (ou na área considerada), isto é, o efeito que é considerado relevante na prática.
Assim, em várias situações, o problema é realmente de estimação. Por exemplo, o interesse pode ser a
estimação da prevalência de uma doença ou a estimação da média de uma variável clínica. Em resumo:
a finalidade do TH é avaliar afirmações sobre valores de parâmetros, enquanto que a partir de um IC é
possível fornecer valores plausíveis para parâmetros.
A seguir serão introduzidos os conceitos fundamentais necessários em inferência estatística, tanto para
testes de hipóteses, tais como hipótese nula e hipótese alternativa, erros associados (tipo I e tipo II),
nível de significância, poder do teste, probabilidade de significância, como também para estimação de
parâmetros, especialmente por meio de intervalo de confiança.
Testes de hipóteses
A hipótese nula deve ser comparada com uma hipótese alternativa, denominada 𝐻1 , que pode ser a
superioridade do tratamento testado. Entretanto, seguindo convenção estabelecida pelos editores de
revistas científicas na área médica, a hipótese alternativa será a inexistência de igualdade entre os
tratamentos. Em geral, esta é a hipótese de pesquisa, do problema a ser investigado.
A formulação das hipóteses nula e alternativa é em função dos parâmetros envolvidos no estudo. Para
ilustrar os conceitos apresentados, será utilizado um exemplo histórico sobre a eficácia da zidovudina
(AZT). Trata-se do primeiro relato de um ensaio clínico que comprovou a eficácia da AZT para
prolongar a vida de pacientes com AIDS. Obviamente esse experimento foi cercado de muitos cuidados
e, embora a análise estatística dos dados seja fundamental, a decisão final de liberação da AZT foi
tomada levando-se em consideração muitos outros resultados fornecidos pelo estudo, como aqueles
referentes a efeitos colaterais.
Situação
Grupo Total
Vivo Morto
AZT 144 1 145
Placebo 121 16 137
Total 265 17 282
Como a alocação dos pacientes aos grupos foi feita de forma aleatória, a diferença entre essas duas
proporções parece indicar que em pacientes com AIDS a AZT tem o efeito de prolongar a vida.
Entretanto, é preciso afastar o acaso como explicação alternativa. Ou seja, deve-se responder à
pergunta: será que esse resultado ocorreu por mero acaso ou por ser a AZT de fato uma droga efetiva?
Para responder a esta pergunta, as proporções de sobreviventes 𝑝 dos dois grupos devem
ser comparadas.
O problema pode ser formulado por meio das seguintes hipóteses: 𝐻0 : 𝑝𝐴𝑍𝑇 = 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 versus
𝐻1 : 𝑝𝐴𝑍𝑇 ≠ 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 . Isso é equivalente a testar diferenças de proporções, ou seja,
𝐻0 : 𝑝𝐴𝑍𝑇 − 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 = 0 versus 𝐻1 : 𝑝𝐴𝑍𝑇 − 𝑝𝑃𝑙𝑎𝑐𝑒𝑏𝑜 ≠ 0. A hipótese nula é conservadora ao assumir
que não há diferença entre os dois grupos comparados, enquanto que na alternativa há suspeita de
diferença, possivelmente a favor da AZT, mas que não pode ser antecipada antes de analisar os dados.
Para a comparação de dois grupos, controle (𝐶) e tratamento (𝑇), sejam 𝑝𝐶 e 𝑝𝑇 , respectivamente,
as probabilidades de se observar a resposta de interesse entre os pacientes dos dois grupos comparados.
Nesse caso, as hipóteses (nula e alternativa) a serem testadas são 𝐻0 : 𝑝C = 𝑝T versus 𝐻1 : 𝑝C ≠ 𝑝T . De
forma mais geral, para a comparação das proporções de dois grupos, as hipóteses nula e alternativa são:
𝐻0 : 𝑝1 = 𝑝2 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻1 : 𝑝1 ≠ 𝑝2 (A.1)
Critério de decisão
Decididas as hipóteses a serem testadas, o próximo passo é construir um critério no qual a hipótese 𝐻0
será julgada. O critério de decisão é baseado na estatística do teste. De forma bem genérica e intuitiva,
pode-se dizer que a estatística do teste mede a discrepância entre o que foi observado na amostra e o
que seria esperado se a hipótese nula fosse verdadeira. “Grande” distância medida pela distribuição de
probabilidade é indicação de que 𝐻0 não é verdadeira, devendo, portanto, ser rejeitada.
Resumindo, rejeita-se a hipótese nula se o valor da estatística do teste é “grande”. Portanto, esse valor
deve ser comparado a alguma distribuição de probabilidade de referência que depende de cada caso.
As distribuições utilizadas com frequência são: normal (ou gaussiana), 𝑡 de Student, qui-quadrado
e 𝐹 de Fisher.
Há, no entanto, um segundo tipo de erro, denominado erro do tipo II. No exemplo da AZT ele consiste
em não rejeitar a hipótese de igualdade entre a AZT e o placebo quando de fato esses dois tratamentos
são diferentes. Isso implicaria a não liberação do novo tratamento, cujo efeito real não estaria
sendo percebido.
A probabilidade de cometer o erro do tipo I é tradicionalmente representada pela letra grega 𝛼 (lê-se
alfa). Em um segundo momento, calcula-se o tamanho da amostra que reduza a probabilidade do erro
do tipo II, usualmente representado pela letra grega 𝛽 (lê-se beta), em níveis aceitáveis. O Quadro A.1
resume detalhes relativos aos possíveis erros associados a cada decisão tomada em um teste de
hipóteses e as probabilidades correspondentes.
Quadro A.1- Possíveis erros que podem ser cometidos ao se usar testes
de hipóteses (TH) e as probabilidades associadas
Tipos de erros em TH
Situação real
Conclusão do teste 𝐻0 verdadeira 𝐻0 falsa
Não rejeitar 𝐻0 decisão correta erro tipo II
Nível de significância
Poder do teste
A capacidade de um teste identificar diferenças que realmente existem, ou seja, de rejeitar 𝐻0 quando é
realmente falsa, é denominada poder do teste e é definida como (1 − 𝛽). Portanto, o poder é a
probabilidade complementar da probabilidade de cometer o erro do tipo II. O poder correspondente a
alguns valores comuns de 𝛽 é mostrado no Quadro A.2.
Quadro A.2 - Poder correspondente a alguns valores comuns de 𝛽
𝛽 Poder (%)
0,20 0,80 (80%)
0,10 0,90 (90%)
0,05 0,95 (95%)
0,01 0,99 (99%)
Existem duas abordagens para expressar a conclusão de um teste de hipóteses. A primeira consiste em
comparar o valor da estatística do teste com o valor obtido a partir da distribuição teórica, específica
para o teste, para um valor prefixado do nível de significância (por exemplo, 5% ou 1%).
Na segunda abordagem, mais usada e recomendada, o interesse é quantificar a chance do que foi
observado ou resultados mais extremos, sob a hipótese de igualdade dos grupos. Assim, essa opção
baseia-se na probabilidade de ocorrência de valores iguais ou superiores ao assumido pela estatística do
teste, sob a hipótese de que 𝐻0 é verdadeira.
Esse número é denominado probabilidade de significância, nível descritivo ou, usando um neologismo,
valor-p, inspirado no termo em inglês p-value, e frequentemente é indicado apenas por p. Como o
valor-p é calculado supondo-se que 𝐻0 é verdadeira, podem-se fazer duas conjecturas quando se obtém
um valor muito baixo. Um evento que é extremamente raro pode ter ocorrido ou a hipótese 𝐻0 não
deve ser verdadeira, isto é, a conjectura inicial e conservadora não é plausível.
Portanto, quanto mais baixo o valor-p, mais evidências para se rejeitar 𝐻0 . De modo geral, na área
médica, considera-se que valor-p igual ou inferior a 0,05 indica que há diferenças significativas entre
os grupos comparados.
A hipótese alternativa para a comparação de proporções de dois grupos (𝐻1 : 𝑝1 ≠ 𝑝2 ) pode ser
desmembrada em 𝐻1 : 𝑝1 > 𝑝2 ou 𝑝1 < 𝑝2 . Isso significa que qualquer um dos dois grupos pode ter
proporção maior do que a do outro. Por isso esse tipo de hipótese é denominada bilateral.
Na prática pode haver interesse em testar determinada direção (por exemplo, 𝐻1 : 𝑝1 > 𝑝2 ), chamada
hipótese alternativa unilateral. No Quadro A.3 são resumidas as possibilidades.
De forma análoga, podem-se formular hipóteses unilaterais ou bilaterais para a comparação de médias
de dois grupos, como mostrado no Quadro A.4.
Variações das hipóteses apresentadas aqui foram consideradas no capítulo 5 no contexto de ensaios de
não inferioridade e equivalência.
Estimação de parâmetros
Em geral, para a análise estatística dos dados de um problema clínico, é preciso, primeiramente,
identificar os parâmetros de interesse, aqueles cujo conhecimento viabiliza a solução da questão
estabelecida. Essa identificação exige, de quem analisa os dados, experiência clínica relevante além de
conhecimentos estatísticos.
A tomada de qualquer decisão deve ser baseada no valor do parâmetro de interesse que, entretanto,
não é conhecido na prática. Para atender a essa necessidade, foram desenvolvidos métodos agrupados
na chamada Teoria da Estimação, um importante tópico da Estatística.
O estimador é uma estatística (uma fórmula), enquanto a estimativa é um valor particular do estimador.
A notação usual para o estimador consiste em colocar o sobrescrito ^ (chapéu), por exemplo,
o estimador 𝑃̂. Uma exceção é na média amostral, em que tradicionalmente é utilizada a barra (X
̅).
Os parâmetros a serem estimados são específicos para cada distribuição de probabilidade, discreta ou
contínua. Na distribuição binomial B(n;p), o parâmetro é a probabilidade de sucesso p; na distribuição
Poisson 𝑃(𝜆), o parâmetro é a taxa média de ocorrência 𝜆; e na distribuição normal com média 𝜇 e
desvio-padrão 𝜎, 𝑁(𝜇, 𝜎), os parâmetros são 𝜇 e 𝜎.
A forma de estimar um parâmetro depende do esquema amostral adotado (amostra aleatória simples,
amostragem sistemática, amostragem estratificada, amostragem por conglomerados ou combinação dos
esquemas básicos). Por exemplo, a média é estimada de forma diferente dependendo do esquema
amostral adotado.
Moura (1990) avaliou os níveis plasmáticos de vitamina A em um grupo de 47 crianças diabéticas com
idades de até 12 anos. Um dos interesses de sua pesquisa era conhecer o nível sanguíneo da vitamina A
nesse grupo, composto de pacientes típicos dos atendidos pelo setor de Endocrinologia Pediátrica da
Faculdade de Medicina da UFMG.
Em termos estatísticos, o objetivo do estudo é conhecer o nível médio (𝜇) da distribuição do nível
sanguíneo de vitamina A em crianças diabéticas. Nesse caso, o parâmetro de interesse é a média (𝜇).
Como já mencionado, existem duas formas de estimação: a) pontual, que fornece um único valor;
b) intervalar, que fornece um intervalo denominado intervalo de confiança (IC). O estimador pontual
recebe esse nome, pois fornece apenas o valor da estimativa do parâmetro. O IC pode ser entendido
como valores plausíveis para o parâmetro, obtidos com determinada confiança, usualmente 95%.
Coeficiente de confiança
Com a construção de intervalos de confiança, agrega-se ao estimador pontual informação sobre sua
variabilidade. Isso é feito determinando um limite inferior e outro superior para a estimativa por meio
de metodologia apropriada.
A amplitude (𝐴) do intervalo é definida como 𝐴 = limite superior – limite inferior, sendo desejável
uma amplitude pequena. Em geral, 𝐴 depende do tamanho da amostra e da confiança fixada.
Quanto maior o tamanho da amostra, menor será 𝐴, daí a importância do dimensionamento da amostra
adequado. Quanto mais alto o nível de confiança, maior será 𝐴.
Como consequência, deve haver um balanço entre a confiança e a amplitude. Por exemplo, a afirmativa
de que a proporção de analfabetos na região metropolitana de Belo Horizonte é algum valor no
intervalo (0;1) é absolutamente correta, independentemente de qualquer informação subjacente, já que
uma proporção varia entre zero e um. Sua confiança é de 100%, mas esse intervalo não apresenta
utilidade alguma. Assim, é preferível ter um IC com menos confiança, desde que seja aceitável, e que
assim mesmo fornece alguma informação relevante.
Existem vários métodos de estimação, entre eles: método de máxima verossimilhança (um dos mais
utilizados), método dos momentos, método de mínimos quadrados, método de Bayes (também
chamado de método bayesiano) e métodos de reamostragem (por exemplo, bootstrap).
Algumas referências são: Mood et al. (1974), Efron e Tibshirani (1993), Casella e Berger (2001) e
Bickel e Doksum (2015).
Tabela B1: Tabela de números aleatórios
Coluna
Linha
1 2 3 4 5 6 7 8 9 10 11 12
1 59 39 32 12 17 70 67 36 08 21 78 34
2 36 78 65 03 43 43 73 26 82 74 72 96
3 08 00 59 13 19 89 58 51 45 59 09 94
4 72 34 14 91 12 17 80 58 67 84 93 95
5 11 65 20 53 75 33 26 80 96 30 14 36
6 54 33 27 86 93 59 94 40 12 37 67 89
7 73 79 44 44 69 78 49 08 54 13 57 30
8 34 48 63 96 42 36 50 22 52 44 65 34
9 45 33 28 97 70 40 52 29 58 43 48 83
10 72 93 32 27 55 39 24 26 27 91 87 33
11 40 08 04 50 67 27 94 56 63 40 80 70
12 85 03 28 54 23 73 27 36 10 81 91 39
13 90 99 01 90 95 43 85 24 67 81 16 42
14 14 09 66 07 92 71 76 62 10 33 76 38
15 82 19 36 59 83 62 62 39 11 55 90 58
16 86 74 35 26 73 74 32 09 34 12 45 91
17 54 06 25 29 47 35 36 07 13 89 18 71
18 18 77 08 76 29 91 90 41 92 68 23 41
19 23 16 37 27 97 69 29 92 11 36 97 75
20 79 31 37 63 03 77 70 39 87 04 20 42
21 57 05 45 04 69 75 73 89 06 59 56 11
22 02 43 90 70 63 92 91 60 12 93 52 68
23 80 49 26 88 12 07 91 46 93 95 59 03
24 22 86 80 66 82 71 61 68 12 85 40 92
25 60 47 97 69 41 62 13 02 35 11 15 89
26 52 43 93 09 12 93 07 98 16 29 08 33
27 03 84 06 73 34 62 79 13 39 10 61 62
28 11 87 93 42 15 51 43 62 48 26 89 50
29 44 52 65 49 18 51 04 89 47 93 88 92
30 95 49 83 38 08 86 32 09 90 26 22 11
Nota: No corpo da tabela encontram-se dígitos (de zero a nove) que foram gerados de forma aleatória e que, para facilitar
a leitura, foram dispostos em blocos de dois dígitos cada. Após escolher um número para linha e outro para coluna,
identifique o valor correspondente e, em seguida, os números selecionados. Sua utilização dependerá de vários fatores,
tais como o tamanho da população e o esquema de aleatorização.
Exemplo: para uma população com 100 elementos numerados de 01 a 100 (que na tabela corresponde a 00), serão
sorteados cinco (𝑛 = 5) indivíduos. Escolhendo, por exemplo, a linha 6 e a coluna 2, seguindo por linha, os elementos
sorteados são: 33, 27, 86, 93, 59; seguindo por coluna, os elementos sorteados (sem reposição) são: 33, 79, 48, 93, 08.
Tabela B2: Distribuição binomial: 𝑃𝑟(𝑋 = 𝑥), 𝑋~𝐵(𝑛; 𝑝)
𝑛
𝑃𝑟(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0,1, ⋯ , 𝑛
𝑥
𝑝
𝑛 𝑥
0,01 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95 0,99
0 0,970 0,857 0,729 0,512 0,343 0,216 0,125 0,064 0,027 0,008 0,001 0,000 0,000
1 0,029 0,135 0,243 0,384 0,441 0,432 0,375 0,288 0,189 0,096 0,027 0,007 0,000
3
2 0,000 0,007 0,027 0,096 0,189 0,288 0,375 0,432 0,441 0,384 0,243 0,135 0,029
3 0,000 0,000 0,001 0,008 0,027 0,064 0,125 0,216 0,343 0,512 0,729 0,857 0,970
0 0,961 0,815 0,656 0,410 0,240 0,130 0,063 0,026 0,008 0,002 0,000 0,000 0,000
1 0,039 0,171 0,292 0,410 0,412 0,346 0,250 0,154 0,076 0,026 0,004 0,000 0,000
4 2 0,001 0,014 0,049 0,154 0,265 0,346 0,375 0,346 0,265 0,154 0,049 0,014 0,001
3 0,000 0,000 0,004 0,026 0,076 0,154 0,250 0,346 0,412 0,410 0,292 0,171 0,039
4 0,000 0,000 0,000 0,002 0,008 0,026 0,063 0,130 0,240 0,410 0,656 0,815 0,961
0 0,951 0,774 0,590 0,328 0,168 0,078 0,031 0,010 0,002 0,000 0,000 0,000 0,000
1 0,048 0,204 0,328 0,410 0,360 0,259 0,156 0,077 0,028 0,006 0,000 0,000 0,000
2 0,001 0,021 0,073 0,205 0,309 0,346 0,313 0,230 0,132 0,051 0,008 0,001 0,000
5
3 0,000 0,001 0,008 0,051 0,132 0,230 0,313 0,346 0,309 0,205 0,073 0,021 0,001
4 0,000 0,000 0,000 0,006 0,028 0,077 0,156 0,259 0,360 0,410 0,328 0,204 0,048
5 0,000 0,000 0,000 0,000 0,002 0,010 0,031 0,078 0,168 0,328 0,590 0,774 0,951
0 0,941 0,735 0,531 0,262 0,118 0,047 0,016 0,004 0,001 0,000 0,000 0,000 0,000
1 0,057 0,232 0,354 0,393 0,303 0,187 0,094 0,037 0,010 0,002 0,000 0,000 0,000
2 0,001 0,031 0,098 0,246 0,324 0,311 0,234 0,138 0,060 0,015 0,001 0,000 0,000
6 3 0,000 0,002 0,015 0,082 0,185 0,276 0,313 0,276 0,185 0,082 0,015 0,002 0,000
4 0,000 0,000 0,001 0,015 0,060 0,138 0,234 0,311 0,324 0,246 0,098 0,031 0,001
5 0,000 0,000 0,000 0,002 0,010 0,037 0,094 0,187 0,303 0,393 0,354 0,232 0,057
6 0,000 0,000 0,000 0,000 0,001 0,004 0,016 0,047 0,118 0,262 0,531 0,735 0,941
0 0,932 0,698 0,478 0,210 0,082 0,028 0,008 0,002 0,000 0,000 0,000 0,000 0,000
1 0,066 0,257 0,372 0,367 0,247 0,131 0,055 0,017 0,004 0,000 0,000 0,000 0,000
2 0,002 0,041 0,124 0,275 0,318 0,261 0,164 0,077 0,025 0,004 0,000 0,000 0,000
3 0,000 0,004 0,023 0,115 0,227 0,290 0,273 0,194 0,097 0,029 0,003 0,000 0,000
7
4 0,000 0,000 0,003 0,029 0,097 0,194 0,273 0,290 0,227 0,115 0,023 0,004 0,000
5 0,000 0,000 0,000 0,004 0,025 0,077 0,164 0,261 0,318 0,275 0,124 0,041 0,002
6 0,000 0,000 0,000 0,000 0,004 0,017 0,055 0,131 0,247 0,367 0,372 0,257 0,066
7 0,000 0,000 0,000 0,000 0,000 0,002 0,008 0,028 0,082 0,210 0,478 0,698 0,932
Tabela B2: Distribuição binomial: 𝑃𝑟(𝑋 = 𝑥), 𝑋~𝐵(𝑛; 𝑝) (continuação)
𝑛
𝑃𝑟(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0,1, ⋯ , 𝑛
𝑥
𝑝
𝑛 𝑥
0,01 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95 0,99
0 0,923 0,663 0,430 0,168 0,058 0,017 0,004 0,001 0,000 0,000 0,000 0,000 0,000
1 0,075 0,279 0,383 0,336 0,198 0,090 0,031 0,008 0,001 0,000 0,000 0,000 0,000
2 0,003 0,051 0,149 0,294 0,296 0,209 0,109 0,041 0,010 0,001 0,000 0,000 0,000
3 0,000 0,005 0,033 0,147 0,254 0,279 0,219 0,124 0,047 0,009 0,000 0,000 0,000
8 4 0,000 0,000 0,005 0,046 0,136 0,232 0,273 0,232 0,136 0,046 0,005 0,000 0,000
5 0,000 0,000 0,000 0,009 0,047 0,124 0,219 0,279 0,254 0,147 0,033 0,005 0,000
6 0,000 0,000 0,000 0,001 0,010 0,041 0,109 0,209 0,296 0,294 0,149 0,051 0,003
7 0,000 0,000 0,000 0,000 0,001 0,008 0,031 0,090 0,198 0,336 0,383 0,279 0,075
8 0,000 0,000 0,000 0,000 0,000 0,001 0,004 0,017 0,058 0,168 0,430 0,663 0,923
0 0,914 0,630 0,387 0,134 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000 0,000
1 0,083 0,299 0,387 0,302 0,156 0,060 0,018 0,004 0,000 0,000 0,000 0,000 0,000
2 0,003 0,063 0,172 0,302 0,267 0,161 0,070 0,021 0,004 0,000 0,000 0,000 0,000
3 0,000 0,008 0,045 0,176 0,267 0,251 0,164 0,074 0,021 0,003 0,000 0,000 0,000
4 0,000 0,001 0,007 0,066 0,172 0,251 0,246 0,167 0,074 0,017 0,001 0,000 0,000
9
5 0,000 0,000 0,001 0,017 0,074 0,167 0,246 0,251 0,172 0,066 0,007 0,001 0,000
6 0,000 0,000 0,000 0,003 0,021 0,074 0,164 0,251 0,267 0,176 0,045 0,008 0,000
7 0,000 0,000 0,000 0,000 0,004 0,021 0,070 0,161 0,267 0,302 0,172 0,063 0,003
8 0,000 0,000 0,000 0,000 0,000 0,004 0,018 0,060 0,156 0,302 0,387 0,299 0,083
9 0,000 0,000 0,000 0,000 0,000 0,000 0,002 0,010 0,040 0,134 0,387 0,630 0,914
0 0,904 0,599 0,349 0,107 0,028 0,006 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,091 0,315 0,387 0,268 0,121 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000
2 0,004 0,075 0,194 0,302 0,233 0,121 0,044 0,011 0,001 0,000 0,000 0,000 0,000
3 0,000 0,010 0,057 0,201 0,267 0,215 0,117 0,042 0,009 0,001 0,000 0,000 0,000
4 0,000 0,001 0,011 0,088 0,200 0,251 0,205 0,111 0,037 0,006 0,000 0,000 0,000
10 5 0,000 0,000 0,001 0,026 0,103 0,201 0,246 0,201 0,103 0,026 0,001 0,000 0,000
6 0,000 0,000 0,000 0,006 0,037 0,111 0,205 0,251 0,200 0,088 0,011 0,001 0,000
7 0,000 0,000 0,000 0,001 0,009 0,042 0,117 0,215 0,267 0,201 0,057 0,010 0,000
8 0,000 0,000 0,000 0,000 0,001 0,011 0,044 0,121 0,233 0,302 0,194 0,075 0,004
9 0,000 0,000 0,000 0,000 0,000 0,002 0,010 0,040 0,121 0,268 0,387 0,315 0,091
10 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,006 0,028 0,107 0,349 0,599 0,904
Nota: A tabela fornece a probabilidade de 𝑥 “sucessos” em 𝑛 ensaios independentes da distribuição de Bernoulli com
probabilidade de “sucesso” 𝑝, isto é, 𝑃𝑟(𝑋 = 𝑥) = (𝑛𝑥)𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0,1, ⋯ , 𝑛.
Exemplos: 𝑋~𝐵(𝑛 = 10; 𝑝): a) 𝑝 = 0, 01: 𝑃𝑟(𝑋 = 0) = 0,904; b) 𝑝 = 0, 01: 𝑃𝑟(𝑋 = 2) = 0,004;
c) 𝑝 = 0, 05: 𝑃𝑟(𝑋 = 0) = 0,599; d) 𝑝 = 0, 05: 𝑃𝑟(𝑋 = 2) = 0,075; e) 𝑝 = 0, 05: 𝑃𝑟(𝑋 = 5) = 0,000.
Tabela B3: Distribuição de Poisson: 𝑃𝑟(𝑋 = 𝑥) , 𝑋~𝑃(𝜆)
𝑒 −𝜆 𝜆𝒙
𝑃𝑟(𝑋 = 𝑥) = , 𝑥 = 0, 1, 2, ⋯
𝑥!
𝜆: taxa de ocorrências
𝜆
𝑥
1 2 2,5 3 3,5 5 8 10
0 0,368 0,135 0,082 0,050 0,030 0,007 0,000 0,000
1 0,368 0,271 0,205 0,149 0,106 0,034 0,003 0,000
2 0,184 0,271 0,256 0,224 0,185 0,084 0,011 0,002
3 0,061 0,181 0,214 0,224 0,216 0,140 0,029 0,008
4 0,015 0,090 0,134 0,168 0,189 0,176 0,057 0,019
5 0,003 0,036 0,067 0,101 0,132 0,176 0,092 0,038
6 0,001 0,012 0,028 0,050 0,077 0,146 0,122 0,063
7 0,000 0,003 0,010 0,022 0,038 0,105 0,140 0,090
8 0,000 0,001 0,003 0,008 0,017 0,065 0,140 0,112
9 0,000 0,000 0,001 0,003 0,007 0,036 0,123 0,125
10 0,000 0,000 0,000 0,001 0,002 0,018 0,099 0,125
11 0,000 0,000 0,000 0,000 0,001 0,008 0,072 0,114
12 0,000 0,000 0,000 0,000 0,000 0,004 0,048 0,095
13 0,000 0,000 0,000 0,000 0,000 0,001 0,030 0,073
14 0,000 0,000 0,000 0,000 0,000 0,000 0,017 0,052
15 0,000 0,000 0,000 0,000 0,000 0,000 0,009 0,035
16 0,000 0,000 0,000 0,000 0,000 0,000 0,005 0,022
17 0,000 0,000 0,000 0,000 0,000 0,000 0,002 0,013
18 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,007
19 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,004
20 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002
21 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001
22 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Nota: A tabela fornece a probabilidade de 𝑥 ocorrências de um evento de uma variável com distribuição Poisson com
𝑒 −𝜆 𝜆𝒙
parâmetro 𝜆, isto é, para 𝑥 = 0, 1, 2, ⋯ , 𝑃𝑟(𝑋 = 𝑥) = .
𝑥!
1 𝑧2
𝑓(𝑧) = 𝑒− 2
√2𝜋
Nota: A tabela fornece a probabilidade acumulada desde o início da curva até o percentil 𝑧, isto é, a probabilidade
correspondente à área sombreada na curva: 𝑃𝑟(𝑍 ≤ 𝑧).
1 𝑧2
𝑓(𝑧) = 𝑒2
√2𝜋
Nota: A tabela fornece a probabilidade acumulada desde o início da curva até o percentil 𝑧, isto é, a probabilidade
correspondente à área sombreada na curva: 𝑃𝑟(𝑍 ≤ 𝑧).
𝑣+1 −(
𝑣+1
)
Γ( 2 ) 𝑥2 2
𝑓(𝑥) = 𝑣 (1 + )
Γ (2) √𝑣𝜋 𝑣
Nota: A tabela fornece o percentil (𝑥) correspondente às probabilidades acumuladas nas duas caudas da distribuição 𝑡 de
Student com 𝜈 graus de liberdade, isto é, a probabilidade correspondente à área sombreada na curva é 𝑃𝑟(𝑋 ≤ −𝑥) +
𝑃𝑟(𝑋 ≥ 𝑥) para 𝑋~𝑡𝜈 .
Exemplos: 𝜈 = 10: a) 𝑃𝑟(𝑋 ≤ −2,228) + 𝑃𝑟(𝑋 ≥ 2,228) = 0,05; b) 𝑃𝑟(𝑋 ≥ 2,228) = 0,025; c) 𝑃𝑟(𝑋 ≤ −2,228) =
0,025.
Tabela B6: Distribuição qui-quadrado (𝜒𝜈2 )
𝜈
1 1 2 𝜈 𝑥
𝑓(𝑥) = ( ) 𝑥 2−1 𝑒 −2
Γ(ν/2) 2
Nota: A tabela fornece o percentil (𝑥) correspondente à probabilidade acumulada no final da curva da distribuição
qui-quadrado com 𝜈 graus de liberdade a partir do percentil 𝑥, isto é, a probabilidade correspondente à área sombreada na
curva é 𝑃𝑟(𝑋 ≥ 𝑥) para 𝑋~𝜒𝜈2.
(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2
(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2
(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2
(𝑚 + 𝑛) 𝑚 𝑚−2
Γ 𝑚 2 𝑥 2
𝑓(𝑥) = 𝑚 2
𝑛 ( ) 𝑚 𝑚+𝑛
Γ ( 2 ) Γ (2) 𝑛 [1 + ( 𝑛 ) 𝑥] 2
2PLANILHAS_EXCEL_CAP2
https://drive.google.com/open?id=0B-pSp8czikO8YlB2RTlnV2JMOXc
3PLANILHAS_EXCEL_CAP3
https://drive.google.com/open?id=0B-pSp8czikO8V3BUZFlEenk3M2M
4PLANILHAS_EXCEL_CAP4
https://drive.google.com/open?id=0B-pSp8czikO8ZVBOOGxUU0VQbEk
5PLANILHAS_EXCEL_CAP5
https://drive.google.com/open?id=0B-pSp8czikO8bGdGTmNNeVFyN1U
6PLANILHAS_EXCEL_CAP6
https://drive.google.com/open?id=0B-pSp8czikO8M09JYzRDcGQwLTA
7PLANILHAS_EXCEL_CAP7
https://drive.google.com/open?id=0B-pSp8czikO8bzZSTTgzdW05SGM
8PLANILHAS_EXCEL_CAP8
https://drive.google.com/open?id=0B-pSp8czikO8d1RGa1NMSE9IMDg
9PLANILHAS_EXCEL_CAP9
https://drive.google.com/open?id=0B-pSp8czikO8RU1HR1JBQ2dHems
10PLANILHAS_EXCEL_CAP10
https://drive.google.com/open?id=0B-pSp8czikO8dEUxVTZpVUw0em8