Professional Documents
Culture Documents
Consideraciones previas
Tanto en tests de hipótesis como en estimación por intervalo, el tamaño de las muestras utilizadas, n,
es responsable de la potencia y precisión de los resultados obtenidos:
x1 x 2
(x ) t n1n22
IC100(1 )% : ( x Z / 2 s n ) t n1 1 1
s s p2( )
n n1 n 2
Una de las preguntas que se plantean con mayor frecuencia en la planificación de un estudio
estadístico, y también una de las más difíciles de responder es: ¿cuántas observaciones se deben
efectuar? Cuanto mayor sea el tamaño de la muestra o la longitud del experimento, más precisas
serán las estimaciones de los parámetros y de sus diferencias. La dificultad está en decidir qué grado
de precisión se debe pretender. Por otro lado, antes de emprender una investigación costosa, puede
ser interesante determinar el tamaño de muestra necesario, porque si éste resulta estar más allá de
las posibilidades de la investigación, puede desistirse de ella antes de iniciarla.
Otro uso importante del cálculo de tamaño muestral es a la inversa: para calcular la potencia con un
tamaño de muestra determinado. Después de realizar una investigación con su análisis estadístico, si
éste resulta no significativo, averiguar, a la vista de los resultados obtenidos, qué potencia tenía el
estudio. Proporciona una medida de lo fiable que es la ausencia de significación que ha salido.
Habitualmente, se encuentra que la potencia es muy baja, lo que lleva a pensar que quizás con un
tamaño de muestra superior, los resultados habrían sido significativos.
1
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
Recordemos que unastimación por intervalo da un rango de valores posibles para el parámetro,
vinculados a un valor de probabilidad de éxito. Se llama intervalo del 95% de confianza (IC 95%) a
aquel que tiene una probabilidad del 95% de incluir al parámetro entre sus límites. El cálculo del
intervalo se basa en la distribución muestral del estadístico (media o proporción).
Para determinar el tamaño de muestra, hay que contestar previamente a tres preguntas:
a) qué variabilidad tienen los datos (caso de una media), o en torno a qué valor está la
proporción a estimar
b) qué precisión se requiere,
c) y qué confianza se quiere tener en la respuesta.
Se requiere algo de información previa. Para ello puede recurrirse a información ya existente sobre
la variable, o si no la hay, al resultado de tomar una pequeña muestra piloto.
- Z / 2 vale 1.96 si la confianza es del 95%; 2.58 si es del 99% y 3.29 si es del 99.9%.
- 2 es una estima de la varianza de la variable.
- e es la precisión (amplitud del intervalo) requerida.
- Z / 2 vale 1.96 si la confianza es del 95%; 2.58 si es del 99% y 3.29 si es del 99.9%.
- e es la precisión requerida.
2
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
Se requiere tener un conocimiento previo (aproximado) del valor de determinados parámetros, como
la variabilidad. El concepto de DMR se refiere a qué magnitud de diferencia merece la pena detectar
como significativa. Esta diferencia puede estar o no estandarizada (d de Cohen).
DMR ( 2 1 )
d
D.típ.
Hay que ser realistas y no esperar encontrar diferencias “enormes”. Lo más usual es trabajar con
diferencias estandarizadas de 0.3 ; 0.5 o 0.8
3
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
REALIDAD
DECISIÓN H0 verdadera H0 falsa
OK Riesgo
H0 no rechazada F-
(1-) Error tipo II
Riesgo OK
H0 rechazada F+ (1-)
Ha aceptada Error tipo I POTENCIA
Riesgo alfa: Probabilidad de aceptar Ha siendo falsa (falso positivo). Puede tomar como valores
0.05, 0.01 y 0.001. En la elección del valor de influyen factores como: posibilidad de repetir el
ensayo (único o múltiples) y la postura que se adopta ante la investigación (conservadora o
arriesgada).
ELECCIÓN DE
0.01 0.05
Riesgo beta: Probabilidad de aceptar (no rechazar) H0 siendo falsa (falso negativo). Suele tomar
como valores 0.20, 0.10 y 0.05.
A medida que los riesgos alfa y beta disminuyen, el tamaño de muestra aumenta.
c) Aproximación a la experimentación
4
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
2
Z 0 (1 0 ) Z 1 (1 1 )
n
1 0
2 2
Z 0 (1 0 ) Z 1(1 1) 1.645 0.6·(1 0.6) ( 1.282) 0.4·(1 0.4)
n 51.4 52
1 0 0.6 0.4
5
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
1.96 ( 0.842)·0.5
2 2
(Z Z ) 1.962
nG 2 2 62.8 63
64 64 en tabla de Cohen
2 1 0.25 4
Es preferible, siempre que se pueda, escoger tamaños muestrales iguales para ambos grupos. Si eso
no es posible, entonces hay que reemplazar el valor obtenido inicialmente, nG, por n1 y n2, calculados
mediante las siguientes fórmulas:
n1=nG*(k+1)/(2*k) y n2=nG*(1+k)/2
Esto hace que el tamaño total requerido sea mayor. Por ejemplo, si en este mismo estudio prevemos
que será difícil localizar sujetos expuestos al Cadmio, podemos plantear el diseño con dos controles
por cada caso (K=2). El tamaño requerido por grupo pasa a ser entonces 48 y 96 sujetos,
respectivamente, lo que hace un total de 144 sujetos, en vez de 126.
Aproximación normal
Cuando se cumplen las condiciones de aplicación de la prueba de 2 para una prueba 2x2, la fórmula
que permite calcular el tamaño muestral por grupo es la siguiente:
2
Z 2(1 ) Z 1 (1 1 ) 2 (1 2 )
nG
1 2
Se cree que existe una diferencia en la incidencia de baja por enfermedad común entre
los trabajadores que viven cerca del lugar de trabajo y los que viven a más de 10 Km de
distancia. De los datos preliminares se calcula que estas incidencias podrían estar en
torno al 30%, en los residentes cerca del lugar de trabajo y en torno al 50%, en los
residentes a distancia. Se quiere detectar la diferencia con un nivel de significación
bilateral del 5% y con una potencia del 90%, ¿cuántos trabajadores se deberían incluir
en cada grupo?
2
Z 2(1 ) Z 1 (1 1 ) 2 (1 2 )
nG
1 2
2
1.96 2·0.4·(1 0.4) ( 1.282 ) 0.3·(1 0.3) 0.5·(1 0.5)
124.03 124
0. 5 0. 3
6
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
Aproximación de Poisson
Z Z 2 ( 1 2 )
nG
1 2 2
Recordemos que es preferible, siempre que se pueda, escoger tamaños muestrales iguales para
ambos grupos. Si eso no es posible, entonces hay que corregir el valor obtenido inicialmente, nG,
mediante las siguientes fórmulas:
n1=nG*(k+1)/(2*k) y n2=nG*(1+k)/2
Cohen ofrece también tablas para calcular tamaños muestrales en tablas de contingencia. La medida
de la magnitud del efecto más utilizada en estos casos es el coeficiente phi de Cramer. Como Stata
no incluye procedimientos de cálculo de tamaño muestral en tablas de contingencia, habría que
recurrir a otros programas, como el gratuito G*Power.
La escala de la izquierda da la potencia del test para los niveles de significación 0.01 y 0.05. La
escala central da el número total de eventos (muertes) requeridos. La escala de la derecha muestra
el cambio en supervivencia, expresado, bien como porcentaje de cambio de la mediana, o como
hazard ratio: ln(sup. Menor)/ln(sup. mayor). La línea que une a la altura requerida de las escalas
izquierda (potencia/significación) y derecha (magnitud de efecto), nos da en la línea central el
número de eventos necesarios para esas condiciones. El número total de pacientes se calcula
dividiendo el número de eventos requerido por la mortalidad promedio: [1 – (0.2+0.342)/2, en este
ejemplo].
7
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
La imprecisión del nomograma, más que un inconveniente, es un recordatorio de que las cifras de
tamaño muestral son sólo orientativas, no exactas.
(Fayers PM, Machin D. Sample size: how many patients are necessary? Br J Cancer 1995; 72: 1-9)
Los cálculos para una y dos medias asumen en todo momento que el análisis es por vía paramétrica
(asumen normalidad). Aunque es difícil saber a priori el impacto de una falta de normalidad en la
potencia del estudio, conviene aumentar un 15% el tamaño final si se anticipa no normalidad.
Son tamaños finales, no iniciales: si se anticipan pérdidas en seguimiento (p%), hay que aumentar el
tamaño muestral inicial: Ni=n/[1-(p/100)].
8
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
A partir de las fórmulas anteriores se puede despejar beta, y averiguar, tras la realización de un test
de hipótesis, que potencia tenía éste para detectar una diferencia de una determinada magnitud. Por
ejemplo, si en un estudio de dos grupos independientes, con tamaños muestrales de 9 sujetos por
grupo, se encontró una d=0.94 (xT=115, xC=90, Sp=26.5), pero el test de 2 colas con un alfa=0.05
dio no significativo (p=0.063). Podemos preguntarnos si el test tenía suficiente potencia para detectar
una d de Cohen tan grande (superior a 0.8):
Estimated power:
power = 0.5165
Vemos que la potencia es claramente inferior a 80%.Sin embargo, los resultados obtenidos deben
ser interpretados siempre con prudencia.
9
DETERMINACIÓN DEL TAMAÑO MUESTRAL – MARTA GARCÍA-GRANERO MÁRQUEZ
Anexo
10