You are on page 1of 7

stm/BOBES (4 ED) libro

23/12/05

13:39

Pgina 209

CAPTULO 15

Grupo Ars XXI de Comunicacin, S.L.

Conceptos estadsticos
bsicos en psicometra
y en interpretacin
de resultados psicomtricos

stm/BOBES (4 ED) libro

23/12/05

13:39

Pgina 211

15.1. Practicabilidad o viabilidad (feasibility)

Grupo Ars XXI de Comunicacin, S.L.

Un instrumento es practicable o viable si, dadas sus caractersticas tcnicas modo de administracin, tiempo
necesario para su cumplimentacin, comprensibilidad por parte de los sujetos entrevistados, etc., tiene una elevada probabilidad de ser utilizado de forma correcta.

15. Conceptos estadsticos bsicos en psicometra y en interpretacin de resultados psicomtricos

211

stm/BOBES (4 ED) libro

23/12/05

13:39

Pgina 212

15.2. Fiabilidad (reliability)


Un instrumento de medida es fiable si las medidas que se hacen con l carecen de errores de medida, son consistentes (Muiz J, 1998).
La fiabilidad se refiere nicamente a los errores que se pueden producir en el proceso de la medicin no
sometidos a control e inevitables en toda medicin, y no a la estabilidad/modificabilidad del constructo medido
(Silva F, 1989; Schmidt FL y Hunter JE, 1996).

Habitualmente se determinan tres tipos de fiabilidad:




Grupo Ars XXI de Comunicacin, S.L.

Consistencia interna (internal consistency): es el grado de covariacin de los tems del instrumento de medida.
 Su indicador es el coeficiente  de Cronbach, cuyo posible valor oscila entre 0 y 1; cuanto ms prximo a 1,
mayor es la consistencia interna del test.
 Con frecuencia este parmetro se utiliza errneamente como un indicador de la unidimensionalidad de un
test (Streiner DL, 2003).
Fiabilidad test-retest (test-retest reliability): es el grado de concordancia entre las medidas obtenidas tras la aplicacin del mismo instrumento de medida en dos ocasiones a los mismos sujetos.
 Su indicador es el coeficiente de correlacin intraclase (CCI), que indica la correlacin entre las puntuaciones
obtenidas en los dos momentos. Su valor oscila entre 0 y 1; a mayor valor, mayor fiabilidad test-retest.
 No est claramente delimitado el tiempo que ha de transcurrir entre las dos aplicaciones:
Si es muy corto, la segunda medida puede verse afectada por el efecto recuerdo.
Si es demasiado largo, el constructo que se va a medir puede haber variado (el sujeto puede haber mejorado
o empeorado), lo que afectar negativamente a la correlacin entre las dos medidas.
El perodo ms utilizado usualmente es el que se establece entre 1 y 2 semanas.
Fiabilidad interexaminador (interater reliability): es el grado de concordancia entre las medidas obtenidas tras la
aplicacin del mismo instrumento de medida por dos investigadores distintos a los mismos sujetos.
 Su indicador es el coeficiente kappa, que es la correlacin entre las puntuaciones obtenidas por los dos examinadores. Su valor oscila entre 0 y 1; a mayor valor, mayor fiabilidad interexaminador.

212

Banco de instrumentos bsicos para la prctica de la psiquiatra clnica

stm/BOBES (4 ED) libro

23/12/05

13:39

Pgina 213

15.3. Validez (validity)


La validez es el conjunto de pruebas y datos que han de recogerse para garantizar que las inferencias que se realizan a partir de los resultados obtenidos con el instrumento de medida son pertinentes (Muiz J, 1998). En realidad,
lo que se valida son las inferencias, ms que el instrumento.

Existen distintos tipos de validez:




Validez de contenido (content validity): se refiere al hecho de que el instrumento de medida es una muestra adecuada y representativa de los contenidos que se pretenden evaluar con l.
 Para lograr la validez de contenido se suele recurrir a mtodos indirectos, como anlisis racional de los contenidos posibles, opinin de los expertos en el rea, listados con los elementos ms importantes del constructo
que se va a medir y comprobar que todos estn incluidos proporcionalmente en el instrumento de medida, etc.
 La validez aparente es un tipo de validez de contenido que consiste en que el test ha de aparentar que mide lo
que en realidad pretende medir. Los sujetos a los que se les aplica el instrumento han de sentir que es adecuado
para medir lo que se pretende (depresin, funcionamiento, etc.).
Validez predictiva, criterial o de pronstico (predictive validity): es el grado de eficacia con que se puede predecir
o pronosticar un criterio (p. ej., enfermo o no) a partir de las puntuaciones obtenidas en el instrumento.
Validez de constructo (construct validity): hace referencia a la existencia de un concepto o constructo que sustente
el instrumento. Existen distintos tipos de validez de constructo:
 Validez interna (internal validity): se refiere al nmero de dimensiones clnicas que subyacen al instrumento.
Uno de sus indicadores es el coeficiente de homogeneidad de Loevinger, que expresa el grado en que los
tems se ordenan por rangos.
Un valor aceptable de este coeficiente es  0,40; indica unidimensionalidad, es decir, que la suma total
de las puntuaciones en cada uno de los tems del test es un estadstico suficiente.
 Validez factorial: se refiere al grado de coherencia o convergencia entre la o las dimensiones del instrumento
de medida y el o los constructos que subyacen al instrumento.
Se calcula mediante el anlisis factorial.
 Validez convergente: es el grado de convergencia entre las medidas de un instrumento de evaluacin y otras
medidas con las que se supone que dicho instrumento debe estar relacionado.
Se calcula mediante el coeficiente de correlacin.
Validez discriminante (discriminant validity): es la capacidad de un instrumento de evaluacin para detectar diferencias entre dos grupos criterio.

Grupo Ars XXI de Comunicacin, S.L.

15. Conceptos estadsticos bsicos en psicometra y en interpretacin de resultados psicomtricos

213

stm/BOBES (4 ED) libro

23/12/05

13:39

Pgina 214

15.4. Curvas de rendimiento diagnstico


(curvas ROC o response operating characteristics curve)
Se utilizan para aquellos instrumentos de evaluacin que producen resultados continuos (p. ej., puntuacin
en la Escala de Hamilton para la Depresin). El rendimiento de estos instrumentos, entendido como la capacidad de clasificar correctamente a un sujeto determinado como sano o como enfermo, depende de dnde se sita
el punto de corte, tal como vemos en el siguiente ejemplo.

Grupo Ars XXI de Comunicacin, S.L.

El punto de corte recomendado para la versin espaola de la Escala de Hamilton para la Depresin es 7/8, donde
puntuaciones comprendidas entre 0 y 7 son compatibles con no depresin y puntuaciones > 7 son compatibles
con depresin de distinta gravedad.
 Si desplazamos este punto de corte a 6/7, estamos considerando como posibles enfermos a personas que punten 7 o ms, con lo que captaremos a ms pacientes que con el punto de corte tradicional. Es decir, estamos
mejorando la sensibilidad del instrumento capacidad del instrumento de identificar a los verdaderamente
enfermos. En contrapartida, al bajar el punto de corte estamos considerando que slo estn sanos los que
punten entre 0 y 6, con lo que incluiremos en el grupo de enfermos a personas sanas; as, estamos reduciendo
la especificidad de la escala la capacidad del instrumento para detectar a los verdaderos sanos.
Sensibilidad y especificidad son dos parmetros que siempre estn inversamente relacionados; al mejorar
uno empeoramos el otro. Sus valores oscilan entre 0 y 1. En el caso hipottico de un test perfecto, que clasificara a todos los sujetos bien (a los sanos como sanos y a los enfermos como enfermos), los valores de
ambos indicadores seran 1.
Las curvas ROC permiten establecer el punto de corte ptimo, definido como aquel que permite clasificar correctamente al mayor nmero de sujetos. Para ello el parmetro que se utiliza es el de rea bajo la curva.
 El rea bajo la curva es la probabilidad de que ante 2 sujetos, uno sano y otro enfermo, el test los clasifique
correctamente. Los valores posibles del rea bajo la curva oscilan entre 1 (test perfecto) y 0,5 (test intil).

214

Banco de instrumentos bsicos para la prctica de la psiquiatra clnica

stm/BOBES (4 ED) libro

23/12/05

13:39

Pgina 215

15.5. Tamao del efecto


Recientemente, la American Psychological Association (APA, 1996) inst a los investigadores a caracterizar
mejor los tests inferenciales. Es decir, adems del valor de la p se debe proporcionar la direccin y el tamao del
efecto.
El tamao del efecto es un indicador de la magnitud de la significacin estadstica. Proporciona la primera
evaluacin de la importancia prctica de un hallazgo. Algunos autores proponen que debera facilitarse tambin aunque la p no sea significativa, y que incluso debera ser el primer dato que se facilitase en cualquier
investigacin, y no la p (McCartney y Rosenthal, 2000).

Interpretacin del tamao del efecto:


 Pequeo: valores < 0,4.
 Moderado: valores comprendidos entre 0,4 y 0,79.
 Grande: valores  0,8.
A continuacin se describen brevemente algunos ejemplos de indicadores del tamao del efecto:
 Coeficiente de correlacin de Pearson: indica la direccin y la magnitud del efecto. Lo da directamente el test.
Ejemplo: el coeficiente de correlacin de Pearson entre la puntuacin global en la Escala de Hamilton para
la Depresin y la puntuacin en la dimensin de vitalidad del SF-36 es de 6.547 (p = 0,003). Al ser la
p < 0,05, sabemos que es estadsticamente significativo. El coeficiente de correlacin de Pearson indica que
la magnitud de la asociacin entre estas dos variables es moderada y que la direccin es inversa, es decir,
que al aumentar la puntuacin en la escala de Hamilton para la Depresin cabe esperar que disminuya la
puntuacin en la dimensin de vitalidad del SF-36.
 Coeficiente d de Cohen: debe calcularse. Es la diferencia estandarizada entre medias.
Ejemplo: en un ensayo clnico doble ciego, aleatorizado y controlado con placebo, las puntuaciones en la
Escala de Hamilton para la Depresin del grupo en tratamiento con el principio activo son: visita
basal = 34; visita en la semana 8 = 12. Por su parte, las puntuaciones del grupo tratado con placebo son:
visita basal = 33; visita en la semana 8 = 26.
 Tamao del efecto = Cambio en las puntuaciones del grupo principio activo cambio en las puntuaciones del grupo placebo/desviacin estndar agregada = (34 12) (33 26)/desviacin estndar agregada = 22 7/desviacin estndar agregada.

Grupo Ars XXI de Comunicacin, S.L.

15. Conceptos estadsticos bsicos en psicometra y en interpretacin de resultados psicomtricos

215

stm/BOBES (4 ED) libro

23/12/05

13:39

Pgina 216

REFERENCIAS COMPLEMENTARIAS

Grupo Ars XXI de Comunicacin, S.L.

American Psychological Association Board of Scientific Affairs. Task Force on Statistical Inference initial report. Washington, DC: American Psychological Association, 1996.
Bech P, Licht RW, Stage KB, Abildgaard W, Bech-Andersen G, Sondergaard S, Martiny K. Kompendium. Rating Scales for Affektive Lidelser (2., revideret oplag). Hillerod: Psykiatrisk Forskningsenhed, 2005.
McCartney K, Rosenthal R. Effect size, practical importante, and social policy for children. Child Development 2000;
71: 173-180.
Muiz J. Teora clsica de los tests. Madrid: Pirmide, 1998.
Schmidt FL, Hunter JE. Measurement error in psychological research: lessons from 26 research scenarios. Psychol
Meth 1996; 1: 199-223.
Sijtsma K, Molenaar IW. Introduction to nonparametric item response theory. London: Sage Publications, 2002.
Silva F. Evaluacin conductual y criterios psicomtricos. Madrid: Pirmide, 1989.
Streiner DL. Starting at the beginning: an introduction to coefficient alpha and internal consistency. J Personality
Assessm 2003; 80: 99-103.

216

Banco de instrumentos bsicos para la prctica de la psiquiatra clnica

You might also like