La potencia estadística es la probabilidad de detectar un efecto cuando ese efecto existe realmente en la población. En igualdad de condiciones, una prueba basada en una muestra grande tiene más potencia estadística que una prueba con una muestra pequeña. También hay formas de aumentar la potencia sin aumentar el tamaño de la muestra. La mayoría de los estudios publicados tienen una baja potencia estadística, lo que puede llevar a una grave interpretación errónea de los resultados.
Última actualización: Jul 28, 2022
Para comprender el concepto de potencia estadística, se recomienda tener algunos conocimientos previos sobre estadística descriptiva e inferencial.
La potencia estadística se expresa de 3 maneras diferentes:
Menos del 13% de los 31 873 ensayos clínicos publicados entre 1974 y 2017 tenían una potencia estadística adecuada. Un estudio con una potencia estadística baja significa que los resultados de la prueba son cuestionables y plantea problemas potencialmente graves, entre ellos:
Los estudios con demasiada potencia estadística, también llamados “estudios con exceso de potencia”, suelen ser problemáticos por las siguientes razones:
La potencia estadística solo tiene relevancia cuando se puede rechazar la hipótesis nula, y viene determinada por las siguientes variables:
Alfa es la probabilidad de dar un resultado positivo en una prueba diagnóstica entre quienes no tienen la enfermedad, lo que provoca un error de tipo I o un “falso positivo”.
Beta es la posibilidad de dar un resultado negativo en una prueba diagnóstica entre los que padecen la enfermedad, lo que provoca un error de tipo II o un “falso negativo”.
La relación entre alfa y beta suele representarse en gráficos que muestran:
Existe una relación inversa entre alfa y beta. Si beta está disminuida:
La relación inversa de alfa y beta también se puede apreciar en una tabla de contingencia 2 x 2 que compara los resultados positivos y negativos de la realidad frente a un estudio.
Resultados positivos reales | Resultados negativos reales | |
---|---|---|
Resultados positivos del estudio | Verdaderos positivos (potencia, 1 – β) | Falsos positivos (error de tipo I, α) |
Resultados negativos del estudio | Falsos negativos (error de tipo II, β) | Verdaderos negativos |
La desviación estándar es una medida de la cantidad de variación o dispersión de un conjunto de valores en relación con la media.
El tamaño de la muestra es el número de observaciones de una muestra.
Para una prueba t de 2 muestras y 2 colas con un nivel alfa de 0,05, la sencilla fórmula que aparece a continuación dará un tamaño de muestra aproximado necesario para tener una potencia estadística del 80% (beta = 0,2):
$$ n = \frac{16s^{2}}{d^{2}} $$donde n = tamaño de cada muestra, s = desviación estándar (se supone que es la misma en cada grupo), y d = diferencia a detectar. La mnemotecnia, sugerida por el creador de la fórmula, Robert Lehr, es “16 s-squared over d-squared.” (16 s-cuadrado sobre d-cuadrado). (Nota: “s-cuadrado” también se conoce como varianza).
Ejemplos:
El tamaño del efecto es la diferencia media estandarizada entre 2 grupos, que equivale exactamente a la “puntuación Z” de una distribución normal estándar.
Cálculo del tamaño del efecto con la d de Cohen:
La d de Cohen es el método más común (pero imperfecto) para calcular el tamaño del efecto. La d de Cohen = la diferencia estimada en las medias/(desviaciones estándar estimadas agrupadas), donde:
$$ {SD = \sqrt{\frac{(SD1^{2} + SD2^{2})}{2}}} $$Si las desviaciones estándar son iguales en cada grupo, entonces d = diferencias medias/desviación estándar. Por ejemplo, si la diferencia es de 150 y la desviación estándar es de 50, entonces d = 150/50 = 3, que es un tamaño del efecto grande.
Interpretación de la d de Cohen:
En resumen, la potencia estadística tenderá a ser mayor cuando:
Un análisis de potencia responde a 2 grandes preguntas:
El nivel mínimo tradicional de potencia es el 80% (o 0,80), al igual que el valor arbitrario del 5% (o 0,05) es el límite mínimo tradicional de alfa para fijar el valor p en 0,05.
Sería mucho mejor tener un nivel de potencia del 90%. Aunque se necesitan más recursos, hay que tener en cuenta que se necesitaría aún más para volver a realizar el estudio más adelante.
Se hizo una prueba con un nuevo fertilizante llamado “Grow-A-Lot”, se le dio a un agricultor de tomates para determinar si se producían más tomates por planta con el nuevo fertilizante en comparación con las plantas no fertilizadas. El agricultor escogió 200 semillas de tomate de un cubo de sus semillas habituales y las dividió en dos grupos:
La hipótesis nula es que ambos grupos de plantas producirían el mismo número de tomates por planta, mientras que la hipótesis alternativa sería que las plantas que reciben el fertilizante producirían un número diferente de tomates.
Ensayo 1 con muestras de gran tamaño:
El grupo fertilizado produjo una media del doble de tomates (300) que el grupo de control (150). También hay un pequeño solapamiento, ya que algunas plantas del grupo de control superaron a las demás de su grupo, mientras que algunas plantas del grupo experimental tuvieron un rendimiento inferior. Basta con echar un vistazo al gráfico para darse cuenta de que hay una diferencia evidente, pero se realizó una prueba t para confirmar que la diferencia era estadísticamente significativa, con un valor p muy pequeño.
Aunque el experimento se repitiera 1 000 veces, sería extremadamente improbable que el agricultor eligiera al azar un conjunto diferente de semillas de la región de solapamiento para obtener un resultado diferente. El tamaño del efecto grande por sí solo da a este ensayo una gran cantidad de potencia estadística porque sería extremadamente improbable que la repetición del muestreo produjera un resultado diferente.
Ensayo 2 con tamaños de muestra pequeños:
El experimento conservaría una gran potencia estadística con muchas menos semillas también, y casi todas las pruebas t darían correctamente un valor p significativo (pequeño).
Se utiliza un fertilizante diferente (fertilizante “Grow-A-Little”) que tiene un efecto mucho menor, produciendo una media de solo 10 tomates más por planta. Habrá un mayor solapamiento de la producción de tomate por planta entre los grupos experimental y de control, que solo podrá detectarse utilizando tamaños de muestra mayores.
Ensayo 3 con tamaños de muestra grandes y grandes desviaciones estándar:
El tamaño de las muestras es lo suficientemente grande como para contrarrestar el tamaño del efecto pequeño, lo que hace que la diferencia sea estadísticamente significativa con un valor p < 0,05. Obsérvese que, aunque la diferencia es estadísticamente significativa, esta pequeña diferencia puede no tener una importancia práctica o relevante para el agricultor.
Ensayo 4 con tamaños de muestra pequeños y grandes desviaciones estándar:
Debido al pequeño tamaño de las muestras, no se encuentran diferencias estadísticamente significativas con un valor p < 0,05. Por lo tanto, no se puede rechazar la hipótesis nula porque el ensayo no tenía un efecto o tamaño de muestra lo suficientemente grande.
Ensayo 5 con tamaños de muestra pequeños y desviaciones estándar pequeñas:
Debido a una pequeña desviación estándar, la diferencia es estadísticamente significativa con un valor p de 0,05. La desviación estándar suele ser un parámetro fijo en una población y no puede modificarse, pero el mismo resultado puede obtenerse efectivamente aumentando el tamaño de la muestra. El aumento disminuye el impacto de un valor grande pero fijo de la desviación estándar, permitiendo la detección de diferencias más pequeñas entre los grupos analizados.
Los investigadores que participaron en el diseño de un ensayo clínico aleatorio eligieron un tamaño de muestra que tuviera una potencia del 90% para detectar una diferencia del 20% entre el grupo de control y el experimental, con un nivel de significancia (a 2 bandas) del 5%.
Si en realidad no hay diferencias en las medias, ¿cuál es la probabilidad de que el estudio encuentre una diferencia estadísticamente significativa? ¿Cómo se llama este error?
Respuesta: un error de tipo I (falso positivo). Se trata de una pregunta terminológica y es el típico tipo de pregunta presente en los exámenes, con la potencia insertada como distractor. Consulte el primer gráfico multicolor de arriba: si no hay diferencias entre los 2 grupos, entonces solo habría 1 curva de campana, con el corte alfa que describe los falsos positivos; por lo tanto, la probabilidad de encontrar una diferencia estadísticamente significativa es del 5%, creando un error de tipo I (falso positivo), porque cualquier sujeto que tenga un valor en el área alfa pertenece a la misma población.
¿Aumenta/disminuye/no cambia la potencia si se reduce la beta?
Respuesta: la potencia aumenta si se disminuye beta, ya que la potencia = 1 – beta. Consulte el primer gráfico multicolor.
¿Aumenta/disminuye/no cambia la potencia si se aumenta el alfa?
Respuesta: la potencia aumenta si se incrementa alfa, lo que aumenta la probabilidad de falsos positivos; por lo tanto, aumentar alfa no es una forma recomendada para aumentar la potencia. Consulta el primer gráfico multicolor para ver la relación entre alfa y potencia. En un examen, se suele utilizar una tabla de contingencia 2 x 2 de la realidad/verdad frente a los resultados del estudio/prueba para enmarcar esta pregunta. Es importante entender cómo calcular los errores de tipo I y de tipo II.
¿Aumenta/disminuye/no cambia la potencia si aumenta la diferencia entre la media del grupo experimental y la del grupo de control?
Respuesta: la potencia aumenta al aumentar la diferencia de medias, que es otra forma de aumentar el tamaño del efecto al haber menos solapamiento entre las 2 distribuciones. Vea el primer gráfico multicolor.
¿Aumenta/disminuye/no cambia beta si aumenta la diferencia entre la media del grupo experimental y la del grupo de control?
Respuesta: beta disminuye si la diferencia media aumenta, ya que hay menos solapamiento entre las 2 poblaciones. Vea el primer gráfico multicolor.