Professional Documents
Culture Documents
11.1 Introduccin
Las razones para efectuar una estimacin en una poblacin, en lugar de estudiarla directamente, pueden ser: que el tamao de la poblacin sea infinito, que el muestreo sea destructivo, que la poblacin sea finita pero demasiado grande, y otras razones como costo o tiempo. Por esto parece ms prctico tomar muestras. Hay dos maneras bsicas de hacer estimaciones: Estimaciones puntuales: se estima el parmetro desconocido con un solo valor. Estimaciones por intervalos: se estima el parmetro desconocido con un intervalo, el cual tiene asociado una cierta probabilidad de ocurrencia. Siempre es ms aconsejable estimar con intervalos en lugar de hacerlo con un solo valor puntual, por las mismas razones que tienen los granjeros para no poner todos los huevos en una misma canasta. En efecto, suponiendo que un paciente concurre a varios bioqumicos a efectuarse el mismo anlisis y estos le informan, por ejemplo: Bioq. A = 85 mg/dl; Bioq. B = 75 mg/dl; Bioq. C = 90 mg/dl. El paciente podra llegar a desconfiar de estos valores por la diversidad de resultados obtenidos: a simple vista le pareceran diferentes. Por su parte, el mdico que encarg el trabajo podra mandar a hacer de nuevo el anlisis. Muy diferente hubiese sido la situacin si
11-2
en sus informes hubieran usado intervalos como: Bioq. A: (85 15)mg/dl; Bioq. B: (75 4) mg/dl y el Bioq. C: (90 20) mg/dl. En este caso hay coincidencia entre los tres informes, A dice entre 70 y 100, B dice entre 71 y 79 y C dice entre 70 y 110. El intervalo informado por B cae dentro de los otros dos y el de A cae dentro del intervalo informado por C. Esto es, hay una zona donde los tres informes coinciden, cosa imposible de ver si se hubieran usado estimadores puntuales. Por su parte, en la industria farmacutica lo normal es trabajar con lmites superiores e inferiores en las composiciones qumicas de los medicamentos, tanto para el proceso productivo como para su posterior control de calidad. Otro tanto ocurre en la industria alimenticia o de cosmticos. La idea es siempre informar o establecer la probabilidad de que el verdadero valor caiga dentro del intervalo informado. La forma ms prudente de informar es usando intervalos.
Otra manera de informar lo mismo es calculando los lmites superior e inferior del intervalo con: LS = e + Z . e. Y el inferior es LI = e Z . e. Entonces, la relacin (a) se escribe como ( LI ; LS) (b)
Donde Z es un valor llamado coeficiente de confianza. La relacin anterior (a) establece que el parmetro desconocido est contenido dentro de un intervalo dado por su mejor estimacin puntual e ms o menos su error tpico de estimacin e, multiplicado por un coeficiente relacionado con la confianza de que esto sea cierto. La relacin (b) establece que el valor verdadero est contenido dentro de un intervalo conformado por dos lmites, el inferior y el superior. Y la probabilidad de que se encuentre dentro de ese intervalo viene dada por el coeficiente de con-
11-3
fianza adoptado. Al valor se lo denomina nivel de significacin y por lo general es elegido por el investigador. Los usos y costumbres establecidos en Biologa establecen tres lmites habituales: 95%, 99%, y 99,9%. En la Fsica o Qumica, donde los materiales de trabajo son ms estables que los biolgicos, los requerimientos son menores, llegando a lo sumo al 99%. En casi todas partes el nivel usual de trabajo es del 95%. Estos valores de Confianza determinan el nivel de significacin , y el coeficiente de confianza Z que se obtiene de la curva de Gauss. En la Tabla 11.1 se muestran algunos coeficientes de uso frecuente. A veces, se necesitan intervalos diferentes, de tipo abierto, donde no se necesitan dos valores extremos sino solo uno. En tal caso: ( - ; (e + Z . e )] O bien, [ (e - Z . e ) ; + )
Estos intervalos abiertos por izquierda o por derecha se denominan de una cola, mientras que los comunes para la estimacin de parmetros poblacionales son de dos colas. En la Figura 11.1 se muestran las dos formas usuales de una y de dos colas, con los respectivos valores de z en las Tablas 11.1 y 11.2. TABLA 11.1: Niveles de confianza ms usados.
Niveles de significacin Nivel de confianza Coeficiente de confianza
NC = (1-) . 100 99,95% 99,90% 99,87% 99,50% 99,00% 97,72% 97,50% 95,00% 84,13%
1 cola 2 colas
Bioestadstica aplicada a Bioqumica y Farmacia J.C. Azzimonti Renzo: arroi_pss@ciudad.com.ar CI NC % ( e Z . SE(e)) Por ejemplo, para un 95% de confianza se expresa con: CI 95% ( [e - 1,96 . SE(e)] ; [e + 1,96 . SE(e)]) (c)
11-4
Esta es la notacin recomendada para los trabajos en Medicina desde hace unos aos para expresar los resultados de investigaciones en publicaciones cientficas. Los tres tipos de notaciones expresados con las relaciones (a), (b) y (c) son equivalentes.
Eso significa que se tiene una probabilidad del 95 % de encontrar la creatinina real del paciente entre 9,4 y 10,6 mg/dl. Si se quiere aumentar la confianza al 99% el nuevo intervalo tendr una mayor indeterminacin, o sea, el intervalo ser ms ancho: entre 9,2 y 10,8 mg/dl. ( 10 2,58 . 2,2 / 50 ) mg/dl = (10,0 0,8) mg/dl O bien: CI 99% (9,2 ; 10,8)
11-5
( 10 3,29 . 2,2 /
Ejemplo 2) Se toman 36 muestras de cierto antibitico y se les mide su contenido de Sulfato de Neomicina, resultando un promedio de 92 mg con un desvo de 6 mg. Se desea saber el intervalo al 99,9% de la variable medida, tal que el contenido de Sulfato sea menor o igual al valor medio. Se trata de un caso de intervalo de una sola cola. El 99,9% del rea bajo la curva normal tipificada debe quedar a la izquierda de un valor crtico (como el dibujado en el Grfico 14.1). O sea, ( - ; (e + z . e )] = ( - ; (92 + 3,09 . 6 / 36 )] O bien: CI 99,9% ( - ; 95,09 )
Esto significa que hay un 99,9% de confianza de que el contenido de Sulfato de Neomicina del medicamento examinado nunca supere 95,09 mg. Si se hubiese tratado de determinar el intervalo de estimacin del verdadero contenido del Sulfato en el medicamento, entonces se debera calcular su intervalo de confianza con: ( 92 1,96 . 6 / ( 92 2,58 . 6 / ( 92 3,29 . 6 / 36 ) mg/dl = ( 92 2 )mg/dl O bien: CI 95% (90 ; 94,9) 36 ) mg/dl = ( 92,0 2,6 )mg/dl O bien: CI 99% (89,4 ; 94,6) 36 ) mg/dl = ( 92,0 3,3 )mg/dl O bien: CI 99,9% (88,7 ; 95,3)
Ejemplo 3) Se realizaron 200 exmenes de Bioestadstica. Si se toman 50 de ellos al azar y se obtiene una media de 7,5 puntos con un desvo de 1 punto: cunto vale el intervalo de estimacin para la media de los 200 exmenes con una confianza del 95%? En este problema, la poblacin no es grande en funcin de la muestra, entonces conviene efectuar la correccin para estos casos vista en el captulo anterior: x = = 7,5 y x = 0,123 pues: 2 x = ( 2 / n) [(NP - n) / (NP - 1)] = [(1)2 / 50] [(200 50) / (200 1)] = 0,0151 Con esos datos se puede obtener: (7,5 1,96 . 0,123) = (7,50 0,24) O bien: CI 95% (7,26 ; 7,74)
Donde p es la proporcin de xitos obtenida en la muestra y es la proporcin de xitos esperada o real en la poblacin de referencia. Hay casos donde es conocida como = en el lanzamiento de una moneda, = 1/6 al lanzar un dado, en el sexo de un recin nacido, etc. Pero
11-6
cuando no se sepa el verdadero valor de p, entonces hay que estimarlo con la proporcin de xitos en la muestra p si y solo si, la muestra es lo suficientemente grande (n > 40) Ejemplo 4) Se lanza una moneda al aire 100 veces y se obtienen 56 caras. El intervalo de confianza del 99 % para la probabilidad de sacar cara con tal moneda se calcula con: p = 56/100 = 0,56 y = 0,5 El desvo es: = . (1 - ) = n 0,5 . 0,5 = 0,05 100 O sea,
( 0,56 2,58 . 0,05 ) = ( 0,56 0,13 ) O bien: CI 99% (0,43 ; 0,69) Expresado de otra forma: (56 13) %. Esto es, hay una probabilidad del 99 % de obtener entre 43 y 69 caras, si se arroja 100 veces esa moneda al aire. Ejemplo 5) En un estudio por cohortes se tuvo 50 casos de enfermos en un total de 200 sujetos. Se esperaba una prevalencia del 20% en la enfermedad; hallar el intervalo de confianza: p = 50/200 = 0,25 y = 0.2. El desvo es: = . (1 - ) = n 0,2 . 0,8 = 0,03 200 O sea,
(d)
El significado de estos intervalos es estimar dentro de que valores se espera que caiga el valor muestral, antes de realizar las mediciones del experimento. Notar que esto solo puede aplicarse cuando se conocen a priori los valores poblacionales, por ejemplo cuando se est usando un suero control, de referencia o estndar en una medicin clnica (donde es el valor aceptado). O
11-7
bien cuando se conoce la probabilidad de la poblacin como en el caso de una moneda, el sexo de un recin nacido, las proporciones mendelianas, etc. Como ser: Ejemplo 6) Suponiendo que se tiene un suero patrn cuyo valor de creatinina es = 12 mg/dl y con una especificacin del estndar de = 1,22 mg/dl. Si se fracciona dicho suero en 36 alcuotas y se mide a cada una de ellas con el sistema habitual de laboratorio, se desea saber en que rango de valores debe caer la media aritmtica de las mediciones a realizar, si el mtodo clnico est bien calibrado, con un nivel de confianza del 95 %. X ( / n ) = [12 + 1,96 . (1,22 / 6)] = (12,0 + 0,4) O bien, se espera que X caiga dentro del intervalo (11,6 ; 12,4) si el mtodo de medicin est funcionando bien, con una confianza del 95%. Ejemplo 7) En la determinacin del SIDA se usa un mtodo cuya especificacin establece que tiene una Sensibilidad del 90% y una Especificidad del 80%. Si se van a efectuar 49 determinaciones, averiguar los valores reales que se esperan obtener al 95%. = 0.9 y el desvo es: = . (1 - ) = n 0,9 . 0,1 = 0,043 49 O sea
p ( 0,9 1,96 . 0,043) O bien: Sensibilidad esperada es CI 95% ( 0,98 ; 0,82) Mientras que la Especificidad esperada se puede calcular con: = 0.8 y el desvo es: = . (1 - ) = n 0,8 . 0,2 = 0,057 49 O sea
En ambos casos se usa la aproximacin DS para resolver los problemas prcticos, siempre y cuando la muestra sea lo suficientemente grande ( n > 100). Para ilustrar su aplicacin se tomarn los datos de problemas anteriores:
Bioestadstica aplicada a Bioqumica y Farmacia J.C. Azzimonti Renzo: arroi_pss@ciudad.com.ar Ejemplo 8) Usando los datos de los ejemplos 1 y 2, pero para n = 144 sera: (1) ( 2,2 1,96 . 2,2 / 2 ( 4,84 1,96 . 4,84 (2) ( 6,0 1,96 . 6 /
11-8
2 . 144 ) mg/dl = (2,20 0,25) mg/dl. O bien CI 95% (2,45; 1,95) 2 ) mg/dl = (4,84 0,13) mg/dl. O bien CI 95% (4,71 ; 4,97) 144 2 . 144 ) mg/dl = (6,0 0,7) mg/dl. O bien CI 95% (5,3 ; 6,7)
11-9
Estimador eficiente: si las distribuciones muestrales de dos estadgrafos tienen la misma esperanza (o media), aquel que tenga menor error de estimacin (varianza) ser el ms eficiente de ambos. En otro caso, se dice que el estimador es no eficiente. Por ejemplo, las distribuciones muestrales de la media aritmtica y de la mediana tienen el mismo valor esperado, que es la media poblacional. Sin embargo, la varianza de la distribucin muestral de medias es menor que la de la mediana. Por lo tanto, el estimador eficiente es la media aritmtica. En efecto: SE ( x ) = x = / n mientras que SE (Mediana) = (1,2536) / n O sea x < Med
Existen otros mtodos para la obtencin de los estimadores como el de los momentos desarrollados por K. Pearson, el de Ro-Cramer o el de suficiencia para funciones de densidad conjunta de probabilidad. Sin embargo, para los alcances de esta obra basta saber que los estimadores mximos verosmiles cumplen a la vez con las propiedades de ser insesgados, eficientes y suficientes. En resumen, para efectuar estimaciones apropiadas, cuando se pueda se deben usar las estimaciones por intervalo antes que las puntuales y se deben emplear los estimadores mximos verosmiles para construirlos. Los niveles de confianza para el caso de variables biolgicas se adoptan por costumbre en 95 %, 99 % y 99,9 %, y se calculan siempre los tres para poder informar en las publicaciones cientficas, como se podr ver mejor en el prximo captulo. En Medicina, lo habitual es usar el nivel del 95% para expresar los resultados, lo que se hace extensivo a sus disciplinas derivadas como: Epidemiologa, Inmunologa, y otras.
Donde el SE (e1 - e2) = 1,2. Los dos casos ms interesantes son la media y las proporciones. Se reemplazan los valores de los estadgrafos y los de sus respectivos errores tpicos (ver Tabla 4) en la frmula anterior y se puede obtener para la media aritmtica: x1 x 2 = ( x1 x 2 ) Z .
2 1 2 + 2 n1 n 2
Bioestadstica aplicada a Bioqumica y Farmacia J.C. Azzimonti Renzo: arroi_pss@ciudad.com.ar x1 x 2 = ( x1 x 2 ) Z . Por su parte para la diferencia de proporciones es: p1 p 2 = ( p1 p2 ) Z . 1 (1 1 ) 2 (1 2 ) + n1 n2 2 n
11-10
Cuando ambas muestras fueron extradas de la misma poblacin, o cuando hay razones para creer que los valores poblacionales son iguales, esto es = 1 = 2 entonces la ecuacin se reduce a: p1 p 2 = 0 = ( p1 p2 ) Z . 1 1 (1 ) + n1 n 2
Cuando el valor poblacional es desconocido se lo puede estimar con la aproximacin: ( n1 p1 + n2 p2 ) / ( n1 + n2 ) que es el promedio ponderado de las proporciones muestrales Para ilustrar estas aplicaciones se presentan los ejemplos siguientes: Ejemplo 1) Se tomaron 200 muestras aleatorias de presin sistlica a nios cuyos padres son hipertensos, obtenindose una media de 107 y un desvo de 7. Luego se tomaron 100 muestras de nios cuyos padres tienen la presin sangunea normal, y se obtuvo una media de 98 con un desvo de 6. Obtener los lmites de confianza del 95 % a la diferencia de medias. En este caso se trata de una diferencia de medias, pero con varianzas diferentes estimadas con las muestras de la manera siguiente: x1 x 2 = ( x1 x 2 ) = 107 - 98 = 9 y SE(1-2) = 1-2 =
2 1 2 + 2 = n1 n 2
1-2 ( 9 1,96 . 0,778 ) = ( 9,0 1,5 ). O bien CI 95% (7,5 ; 10,5) 1-2 ( 9 2,58 . 0,778 ) = ( 9,0 2,0 ). O bien CI 99 % (7 ; 11) 1-2 ( 9 3,29 . 0,778 ) = ( 9,0 2,6 ). O bien CI 99,9 % (6,4 ; 11,6) Ejemplo 2) Se inoculan dos organismos aislados durante dos epidemias distintas, a dos muestras diferentes obtenidas de la misma poblacin. A las dos semanas se enferman el 68,5 % de las 200 pruebas realizadas con el primer organismo, y el 65,3 % de las 150 pruebas efectuadas para el segundo caso. Hallar un intervalo de confianza de esta diferencia de proporciones encontradas. En este caso se trata de una diferencia de proporciones y se asume que el valor verdadero de cada poblacin se estima con los valores muestrales hallados: 12 = p1 p2 = (68,5 65,3)% = 3,2% 12 = 1 (1 1 ) 2 (1 2 ) + = n1 n2 0,685.0,315 0,653.0,347 + = 0,051 = 5,1% 200 150
11-11
Entonces es: 1-2 (12 Z . 12) = (3,2 1,96 5,1) % O bien CI 95% (-6,8 ; 13,2). Y esto significa que hay un 95% de probabilidades de que el verdadero valor de la diferencia de los porcentajes est entre -6,8% y 13,2%. Ejemplo 3) Imaginado para el problema anterior que el supuesto bsico es que no hay diferencia entre las dos poblaciones, calcular el intervalo de confianza para el valor verdadero poblacional Con este supuesto ser = 1 = 2 = ( n1 p1 + n2 p2 ) / ( n1 + n2 ) = 67,13%.Y con esta estimacin se puede calcular el desvo con: DS = 1 1 (1 ) + = 4,35% n1 n 2
Entonces la estimacin ser (67,13 1,96 . 4,35) O bien: CI 95% (58,60 ; 75,66) %
Bioestadstica aplicada a Bioqumica y Farmacia J.C. Azzimonti Renzo: arroi_pss@ciudad.com.ar - Likelihood Ratio de negativos: Este ndice clnico se calcula con: LR- = (1 S) / E) = [1 - (vp / TE)] / (vn / TS) O lo que es lo mismo: LR- = (fn / TE) / (vp / TS) que es un cociente de dos proporciones. Donde el error estndar se calcula con: SE [ln (LR-)] = (1 / fn ) (1 / TE ) + (1 / vp) (1 / TS) Lmite superior = (LR-) e [+ 1,96 SE (ln LR-)] Lmite inferior = (LR-) e [- 1,96 SE (ln LR-)] - Riesgo Relativo: Este ndice clnico se calcula con: RR =EER / CER O lo que es lo mismo: RR = [a / (a + b)] / [c / (c + d)] que es un cociente de dos proporciones. Notar que en el caso del diagnstico a = vp, b = fp, c = fn y d = vn. Y el error estndar ser: SE [ln (RR)] = (1 / a ) (1 /(a + b) + (1 / c) (1 / c + d ) Lmite superior = (RR) e [+ 1,96 SE (ln RR)] Lmite inferior = (RR) e [- 1,96 SE (ln RR)] - Odds Ratio: OR = (a / c) / (b / d) = (a d) / (c b)
11-12
Es un cociente de dos proporciones pero hay una diferencia, no se trata del cociente de una frecuencia con respecto a un total marginal, sino respecto de otra frecuencia. Por eso el clculo del error estndar es ligeramente diferente: SE [ln (OR)] = (1 / a ) + (1 / b) + (1 / c) + (1 / d ) Lmite superior = (OR) e [+ 1,96 SE (ln OR)] Lmite inferior = (OR) e [- 1,96 SE (ln OR)] Usando el ejemplo numrico del captulo 4 (Pg. 23), se pueden calcular: OR = 7,5 y OR = 5,6.
Bioestadstica aplicada a Bioqumica y Farmacia J.C. Azzimonti Renzo: arroi_pss@ciudad.com.ar Los intervalos al 95% de confianza resultan: Para OR = 7,5 ser 95% CI (3,7 ; 15,4) Para RR = 5,6 ser 95% CI (2,9 ; 10,7) Usando otro ejemplo numrico del captulo 4 (Pg. 9) para el caso de 1000 muestras es: Para LR+ = 3,6 ser 95% CI (3,2 ; 4,1) Para LR- = 0,13 ser 95% CI (0,07 ; 0,24) Notar que estos intervalos no son simtricos. Los ndices no caen en la mitad del intervalo.
11-13
V F V F ............... V F .............. V F ............... V F V F V F V F ............... ............... V F ............... V F V F 2) La vida til de un medicamento A se midi con 200 muestras y dio una media de 1400 das con un desvo de 120 das. El medicamento B se determin con 100 muestras y se obtuvo una media de 1200 das con un desvo de 80 das. Hallar el intervalo de confianza para la diferencia de vidas tiles de ambos medicamentos, al nivel del 95%, 99% y 99,9%. 3) El colesterol de una paciente medido 30 veces dio una media de 256 mg/dl y un desvo de 32 mg/dl. Encontrar el intervalo de confianza para el 95%. 4) A la muestra de suero de la paciente del problema anterior se la divide en 40 alcuotas y se le mide el colesterol con un nuevo mtodo clnico. Su media es de 280 mg/dl y su desvo de 40 mg/dl. Encontrar el intervalo de confianza para el 99%. 5) Calcular la diferencia de medias entre el mtodo clnico y el nuevo, usando los datos de los problemas 3 y 4 anteriores. Fijarse si el valor cero cae dentro del intervalo. Explicar los resultados obtenidos desde el punto de vista de la exactitud.
11-14
6) Calcular la diferencia de desvos estndar encontrados en los problemas 3 y 4, expresada mediante un intervalo de confianza. Explicar los resultados desde el punto de vista de la precisin en mediciones clnicas. 7) Para hacer un test VDRL se emplea el kit A en 200 pacientes y se encuentran 120 pacientes que dieron un resultado (-). Los aciertos en (+) fueron 70 y 110 en (-). Con estos datos calcular la Sensibilidad y Especificidad de A y B. Si con los mismos pacientes se emple el Kit B y resultaron 140 pacientes con (-), mientras el nmero de aciertos en (+) fue de 55 y en (-) 130. Obtener los intervalos de confianza al 95% para cada uno de los dos kits usados. 8) Se midieron 50 alcuotas de un suero con el Kit de Glucosa marca 1, y otros 50 con la marca 2. Los resultados fueron: Marca 1: entre (80-80,9) 8 veces, (81-81,9) 22 veces, (82-82,9) 15 veces y 5 entre (83-83,9); Marca 2: entre (80-80,9) 6 veces, (81-81,9) 30 veces, (82-82,9) 10 veces y 4 entre (83-83,9). a) Obtener los intervalos de confianza para las medias de cada mtodo y para los desvo estndar, a un nivel del 95% y del 99%. b) Si el suero era uno de control con un valor de 79 mg/dl, determinar si cae dentro o fuera de los intervalos de confianza calculados en el punto anterior. c) Si la precisin mxima admisible para una glucosa es del 8% de acuerdo con los criterios de Aspen. Comparar este valor lmite contra los hallados en cada marca. 9) Se sabe que la concentracin de coloides en el agua de un ro es del 5,4 /ml. Se tom una muestra del mismo a la que se le agreg un reactivo. Luego de un rato se extrajo una pequea cantidad para analizarla en una cmara de recuento. Los resultados fueron: N de coloides: 2 3 4 5 6 7 (n/ml) Frecuencia: 10 20 170 100 90 10 Calcular los intervalos de confianza para el 95% y el 99%. 10) En un recuento de rojos en cmara se espera obtener 4,5 millones por cm3 de cierto paciente. Se le toma una muestra de sangre y los resultados hallados son: N de rojos por milln 2 3 4 5 6 Frecuencia 10 90 110 150 40 Detectar si el valor esperado del recuento cae dentro o fuera del intervalo de confianza para el 95% de confianza. Discutir los resultados. 11) Calcular los intervalos de confianza al 95% de todos los ndices clnicos de calidad Resultado verificado Test (+) (-) Total Enfermo 200 10 TE = 210 Sano 40 550 TS = 590 Total TP = 240 TN = 560 800