A potência estatística é a probabilidade de detetar um efeito quando esse efeito existe genuinamente na população. Com o resto mantendo-se igual, um teste baseado numa amostra grande tem mais poder estatístico do que um teste que envolve uma amostra pequena. Há também formas de aumentar a potência sem aumentar o tamanho da amostra. A maioria dos estudos publicados tem baixa potência estatística, o que pode levar a erros sérios na interpretação dos resultados.
Última atualização: Oct 23, 2022
Para compreender o conceito de potência estatística, recomenda-se algum conhecimento prévio sobre estatística descritiva e inferencial.
A potência estatística (PE) é expressa de 3 formas diferentes:
Menos de 13% dos 31.873 ensaios clínicos publicados entre 1974 e 2017 tinham uma PE adequada. Um estudo com PE baixa significa que os resultados do teste são questionáveis e apresentam problemas potencialmente graves, incluindo:
Estudos com muita PE, também chamados de “estudos sobrecarregados”, também podem ser problemáticos pelos seguintes motivos:
A potência estatística tem relevância apenas quando a hipótese nula pode ser rejeitada e é determinada pelas seguintes variáveis:
Alfa é a chance de testar positivo num teste de diagnóstico entre aqueles sem a doença/resultado, causando um erro tipo I ou um “falso positivo”.
Beta é a chance de testar negativo num teste de diagnóstico entre aqueles com a doença, causando um erro tipo II ou um “falso negativo”.
A relação entre alfa e beta é frequentemente representada em gráficos que mostram:
Existe uma relação inversa entre alfa e beta. Se o beta for diminuído:
A relação inversa de alfa e beta também pode ser apreciada numa tabela de contingência 2 x 2 que compara os achados positivos e negativos da realidade versus um estudo.
Achados realmente positivos | Achados realmente negativos | |
---|---|---|
Resultados positivos no estudo | Verdadeiros positivos (potência, 1 – β) | Falsos positivos (erro tipo I, α) |
Achados negativos no estudo | Falsos negativos (erro tipo II, β) | Verdadeiros negativos |
O desvio padrão é uma medida da quantidade da variação ou da dispersão de um conjunto de valores em relação à média.
O tamanho da amostra é o número de observações numa amostra.
Para um teste t bicaudal de 2 amostras com um nível alfa de 0,05, a fórmula simples abaixo fornecerá um tamanho aproximado de amostra necessário para ter uma potência estatística de 80% (beta = 0,2):
$$ n = \frac{16s^{2}}{d^{2}} $$onde n = tamanho de cada amostra, s = desvio padrão (assume-se que é o mesmo em cada grupo) e d = diferença a ser detetada. A mnemónica, como sugerida pelo criador da fórmula, Robert Lehr, é “ 16 s-quadrado sobre d-quadrado. ” (Nota: “s-quadrado” também é conhecido como variância).
Exemplos:
O tamanho do efeito é a diferença da média padronizada entre 2 grupos, que é exatamente equivalente ao “Z-score” de uma distribuição normal padrão.
Cálculo do ES com d de Cohen:
O d de Cohen é o método mais comum (mas imperfeito) para calcular o ES. d de Cohen = diferença estimada nas médias/(desvios padrão estimados agrupados), onde:
$$ {DP = \sqrt{\frac{(DP1^{2} + DP2^{2})}{2}}} $$Se os DPs forem iguais em cada grupo, então d = diferenças médias/DP. Por exemplo, se a diferença for 150 e o DP for 50, então d = 150/50 = 3, que é um ES grande.
Interpretação do d de Cohen:
Em resumo, a PE tenderá a ser maior quando:
Uma análise da potência responde a 2 grandes questões:
Tradicionalmente, o nível mínimo de potência é 80% (ou 0,80), assim como o valor arbitrário de 5% (ou 0,05) é o corte alfa mínimo tradicional para definir o p-value em 0,05.
Seria muito melhor ter um nível de potência de 90%. Embora exija mais recursos, lembre-se de que levaria ainda mais para reexecutar o estudo mais tarde.
Um ensaio de um novo fertilizante chamado “Grow-A-Lot” foi dado a um produtor de tomate para determinar se são produzidos mais tomates por planta com o novo fertilizante em comparação com plantas não fertilizadas. O agricultor pegou em 200 sementes de tomate de um balde das suas sementes habituais e dividiu-as em 2 grupos:
A hipótese nula é que ambos os grupos de plantas produziriam o mesmo número de tomates por planta, enquanto a hipótese alternativa seria que as plantas que receberem o fertilizante produziriam um número diferente de tomates.
Ensaio 1 com tamanhos de amostra grandes:
O grupo fertilizado produziu em média o dobro do número de tomates (300) que o grupo de controlo (150). Há também uma pequena sobreposição, uma vez que algumas plantas do grupo de controlo tiveram um desempenho superior às outras do grupo, enquanto algumas plantas do grupo experimental tiveram desempenho inferior. Apenas uma visão rápida sobre o gráfico é convincente o suficiente para notar que há uma diferença óbvia, mas foi realizado um teste t para confirmar que a diferença era estatisticamente significativa, com um p-value muito baixo.
Mesmo que a experiência seja repetida 1000 vezes, seria extremamente improvável que o agricultor escolhesse aleatoriamente um conjunto diferente de sementes da região de sobreposição para obter um resultado diferente. O efeito de grandes tamanhos por si só dá a este ensaio uma grande quantidade de DP porque seria extremamente improvável que a repetição da amostragem produzisse um resultado diferente.
Ensaio 2 com tamanhos de amostra pequenos:
A experiência acabaria com DP grandes com muito menos sementes também, e quase todos os testes t dariam corretamente um p-value significativo (pequeno).
É usado um fertilizante diferente (fertilizante “Grow-A-Little”) que tem um efeito muito menor, produzindo uma média de apenas 10 tomates extra por planta. Haverá uma maior sobreposição de produção de tomate por planta entre os grupos experimental e de controlo, o que pode ser detetado apenas usando tamanhos de amostra maiores.
Ensaio 3 com tamanhos de amostra grandes e DPs grandes:
Os tamanhos da amostra são suficientemente grandes para contrabalançar o ES pequeno, tornando a diferença estatisticamente significativa num p-value < 0,05. Observe que, embora a diferença seja estatisticamente significativa, esta pequena diferença pode não ter significância prática ou relevante para o agricultor.
Ensaio 4 com tamanhos de amostra pequenos e DPs grandes:
Devido ao pequeno tamanho da amostra, não é encontrada nenhuma diferença estatisticamente significativa num p-value < 0,05. Portanto, a hipótese nula não pode ser rejeitada porque o estudo não teve um efeito ou tamanho de amostra suficientemente grande.
Ensaio 5 com tamanhos de amostra pequenos e DPs pequenos:
Devido a um DP pequeno, a diferença é estatisticamente significativa num p-value de 0,05. O DP geralmente é um parâmetro fixo numa população e não pode ser alterado, mas o mesmo resultado pode ser efetivamente obtido aumentando o tamanho da amostra. O aumento diminui o impacto de um valor de DP grande mas fixo, permitindo detetar diferenças menores entre os grupos testados.
Os investigadores envolvidos na conceção de um ensaio clínico aleatorizado escolheram um tamanho de amostra que teria 90% de poder de detetar uma diferença de 20% entre os grupos de controlo e experimental, com nível de significância (bilateral) de 5%.
Se, na realidade, não houver diferença nas médias, qual é a chance de o estudo encontrar uma diferença estatisticamente significativa? Como se chama esse erro?
Resposta: Um erro tipo I (falso positivo). Esta é apenas uma questão de terminologia e é típica do tipo de questão presente nas provas de exame, com a potência inserida como fator de distração. Consulte o primeiro gráfico multicolorido acima: se não houver diferença entre os 2 grupos, haverá apenas 1 curva normal, com o ponto de corte alfa descrevendo os falsos positivos; assim, a chance de encontrar uma diferença estatisticamente significativa é de 5%, gerando um erro tipo I (falso positivo), pois qualquer sujeito com valor na área alfa pertence à mesma população.
A potência aumenta/diminui/não muda se o beta for diminuído?
Resposta: A potência aumenta se o beta for diminuído, pois a potência = 1 – beta. Consulte o primeiro gráfico multicolorido.
A potência aumenta/diminui/não muda se o alfa for aumentado?
Resposta: A potência aumenta se o alfa for aumentado, o que aumenta a probabilidade de falsos positivos; assim, aumentar o alfa não é uma forma preferencial de aumentar a potência. Consulte o primeiro gráfico multicolorido para ver a relação entre alfa e potência. Num exame final, é frequentemente usada uma tabela de contingência 2 x 2 de realidade/verdade versus resultados de estudo/teste para enquadrar esta questão. É importante entender como calcular os erros tipo I e tipo II.
A potência aumenta/diminui/não muda se a diferença entre a média do grupo experimental e a do grupo de controlo aumentar?
Resposta: A potência aumenta aumentando a diferença das médias, que é outra forma de aumentar o ES, pois há menos sobreposição entre as 2 distribuições. Veja o primeiro gráfico multicolorido.
O beta aumenta/diminui/não muda se a diferença entre a média do grupo experimental e a do grupo de controlo aumentar?
Resposta: O beta diminui se a diferença das médias aumenta, pois há menos sobreposição entre as 2 populações. Veja o primeiro gráfico multicolorido.