Professional Documents
Culture Documents
23/12/05
13:39
Pgina 209
CAPTULO 15
Conceptos estadsticos
bsicos en psicometra
y en interpretacin
de resultados psicomtricos
23/12/05
13:39
Pgina 211
Un instrumento es practicable o viable si, dadas sus caractersticas tcnicas modo de administracin, tiempo
necesario para su cumplimentacin, comprensibilidad por parte de los sujetos entrevistados, etc., tiene una elevada probabilidad de ser utilizado de forma correcta.
211
23/12/05
13:39
Pgina 212
Consistencia interna (internal consistency): es el grado de covariacin de los tems del instrumento de medida.
Su indicador es el coeficiente de Cronbach, cuyo posible valor oscila entre 0 y 1; cuanto ms prximo a 1,
mayor es la consistencia interna del test.
Con frecuencia este parmetro se utiliza errneamente como un indicador de la unidimensionalidad de un
test (Streiner DL, 2003).
Fiabilidad test-retest (test-retest reliability): es el grado de concordancia entre las medidas obtenidas tras la aplicacin del mismo instrumento de medida en dos ocasiones a los mismos sujetos.
Su indicador es el coeficiente de correlacin intraclase (CCI), que indica la correlacin entre las puntuaciones
obtenidas en los dos momentos. Su valor oscila entre 0 y 1; a mayor valor, mayor fiabilidad test-retest.
No est claramente delimitado el tiempo que ha de transcurrir entre las dos aplicaciones:
Si es muy corto, la segunda medida puede verse afectada por el efecto recuerdo.
Si es demasiado largo, el constructo que se va a medir puede haber variado (el sujeto puede haber mejorado
o empeorado), lo que afectar negativamente a la correlacin entre las dos medidas.
El perodo ms utilizado usualmente es el que se establece entre 1 y 2 semanas.
Fiabilidad interexaminador (interater reliability): es el grado de concordancia entre las medidas obtenidas tras la
aplicacin del mismo instrumento de medida por dos investigadores distintos a los mismos sujetos.
Su indicador es el coeficiente kappa, que es la correlacin entre las puntuaciones obtenidas por los dos examinadores. Su valor oscila entre 0 y 1; a mayor valor, mayor fiabilidad interexaminador.
212
23/12/05
13:39
Pgina 213
Validez de contenido (content validity): se refiere al hecho de que el instrumento de medida es una muestra adecuada y representativa de los contenidos que se pretenden evaluar con l.
Para lograr la validez de contenido se suele recurrir a mtodos indirectos, como anlisis racional de los contenidos posibles, opinin de los expertos en el rea, listados con los elementos ms importantes del constructo
que se va a medir y comprobar que todos estn incluidos proporcionalmente en el instrumento de medida, etc.
La validez aparente es un tipo de validez de contenido que consiste en que el test ha de aparentar que mide lo
que en realidad pretende medir. Los sujetos a los que se les aplica el instrumento han de sentir que es adecuado
para medir lo que se pretende (depresin, funcionamiento, etc.).
Validez predictiva, criterial o de pronstico (predictive validity): es el grado de eficacia con que se puede predecir
o pronosticar un criterio (p. ej., enfermo o no) a partir de las puntuaciones obtenidas en el instrumento.
Validez de constructo (construct validity): hace referencia a la existencia de un concepto o constructo que sustente
el instrumento. Existen distintos tipos de validez de constructo:
Validez interna (internal validity): se refiere al nmero de dimensiones clnicas que subyacen al instrumento.
Uno de sus indicadores es el coeficiente de homogeneidad de Loevinger, que expresa el grado en que los
tems se ordenan por rangos.
Un valor aceptable de este coeficiente es 0,40; indica unidimensionalidad, es decir, que la suma total
de las puntuaciones en cada uno de los tems del test es un estadstico suficiente.
Validez factorial: se refiere al grado de coherencia o convergencia entre la o las dimensiones del instrumento
de medida y el o los constructos que subyacen al instrumento.
Se calcula mediante el anlisis factorial.
Validez convergente: es el grado de convergencia entre las medidas de un instrumento de evaluacin y otras
medidas con las que se supone que dicho instrumento debe estar relacionado.
Se calcula mediante el coeficiente de correlacin.
Validez discriminante (discriminant validity): es la capacidad de un instrumento de evaluacin para detectar diferencias entre dos grupos criterio.
213
23/12/05
13:39
Pgina 214
El punto de corte recomendado para la versin espaola de la Escala de Hamilton para la Depresin es 7/8, donde
puntuaciones comprendidas entre 0 y 7 son compatibles con no depresin y puntuaciones > 7 son compatibles
con depresin de distinta gravedad.
Si desplazamos este punto de corte a 6/7, estamos considerando como posibles enfermos a personas que punten 7 o ms, con lo que captaremos a ms pacientes que con el punto de corte tradicional. Es decir, estamos
mejorando la sensibilidad del instrumento capacidad del instrumento de identificar a los verdaderamente
enfermos. En contrapartida, al bajar el punto de corte estamos considerando que slo estn sanos los que
punten entre 0 y 6, con lo que incluiremos en el grupo de enfermos a personas sanas; as, estamos reduciendo
la especificidad de la escala la capacidad del instrumento para detectar a los verdaderos sanos.
Sensibilidad y especificidad son dos parmetros que siempre estn inversamente relacionados; al mejorar
uno empeoramos el otro. Sus valores oscilan entre 0 y 1. En el caso hipottico de un test perfecto, que clasificara a todos los sujetos bien (a los sanos como sanos y a los enfermos como enfermos), los valores de
ambos indicadores seran 1.
Las curvas ROC permiten establecer el punto de corte ptimo, definido como aquel que permite clasificar correctamente al mayor nmero de sujetos. Para ello el parmetro que se utiliza es el de rea bajo la curva.
El rea bajo la curva es la probabilidad de que ante 2 sujetos, uno sano y otro enfermo, el test los clasifique
correctamente. Los valores posibles del rea bajo la curva oscilan entre 1 (test perfecto) y 0,5 (test intil).
214
23/12/05
13:39
Pgina 215
215
23/12/05
13:39
Pgina 216
REFERENCIAS COMPLEMENTARIAS
American Psychological Association Board of Scientific Affairs. Task Force on Statistical Inference initial report. Washington, DC: American Psychological Association, 1996.
Bech P, Licht RW, Stage KB, Abildgaard W, Bech-Andersen G, Sondergaard S, Martiny K. Kompendium. Rating Scales for Affektive Lidelser (2., revideret oplag). Hillerod: Psykiatrisk Forskningsenhed, 2005.
McCartney K, Rosenthal R. Effect size, practical importante, and social policy for children. Child Development 2000;
71: 173-180.
Muiz J. Teora clsica de los tests. Madrid: Pirmide, 1998.
Schmidt FL, Hunter JE. Measurement error in psychological research: lessons from 26 research scenarios. Psychol
Meth 1996; 1: 199-223.
Sijtsma K, Molenaar IW. Introduction to nonparametric item response theory. London: Sage Publications, 2002.
Silva F. Evaluacin conductual y criterios psicomtricos. Madrid: Pirmide, 1989.
Streiner DL. Starting at the beginning: an introduction to coefficient alpha and internal consistency. J Personality
Assessm 2003; 80: 99-103.
216