Professional Documents
Culture Documents
43
Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario de hbitos de
estudio. Transcurridos dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo
las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:
Persona
1
2
3
4
5
6
7
8
9
10
Test
Restest
16
14
12
11
10
8
8
6
4
1
10
14
8
12
10
8
7
5
4
2
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos
ltimas columnas:
rxx = 0.87
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo
(hbitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos
entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantas respecto a
la precisin con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.
Ms concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos
interpretar que el 87 % de la varianza emprica se debe a la variabilidad de las personas a nivel
de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo
estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo
contrario, no se podra discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medicin. Es aconsejable dejar periodos largos entre la evaluacin test y la retest
cuando los tems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos
podran emitir pautas de respuesta similares en las dos aplicaciones del test nicamente por
efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se
incrementara debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin
embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones,
mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la
correlacin entre las puntuaciones del test y del retest.
44
rxx =
2rPI
1 + rPI
A partir de esta frmula podemos comprobar que el coeficiente de fiabilidad, entendido como
la expresin de la consistencia entre dos mitades, es mayor que la correlacin de Pearson entre
ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10
personas que responden a un cuestionario de 6 tems valorados de forma dicotmica:
45
tems
Sujeto
1
2
3
4
5
6
7
8
9
10
1 2
Total
1
0
0
0
0
1
1
0
0
0
1
1
1
1
0
1
1
1
0
0
0
1
0
1
1
1
1
1
0
0
1
0
0
0
0
1
1
0
0
0
0
1
0
0
0
1
1
1
0
0
0
3
0
2
1
3
3
3
1
0
3
1
1
1
0
3
3
1
0
0
3
4
1
3
1
6
6
4
1
0
1.6
1.28
1.3
1.19
2.9
2.02
0
1
0
1
0
1
1
1
1
0
Media
Desviacin tpica
rxx =
2(0.34)
= 0.51
1 + 0.34
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test
no son muy consistentes entre s. Unicamente un 51 % de la varianza de las puntuaciones
empricas se debe a la varianza de las puntuaciones verdaderas. No podramos afirmar con
suficiente certeza que ambas mitades miden con precisin el rasgo de inters.
La razn de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de
rendimiento ptimo suelen tener tems ordenados en dificultad, de tal forma que se comienza a
responder los tems ms fciles hasta llegar a los situados al final del test, que son los ms
difciles. Si realizsemos la particin en dos mitades atendiendo a su disposicin en la prueba (la
primera mitad formada por los primeros n/2 tems, la segunda por los n/2 tems ltimos)
difcilmente podra cumplirse que ambas tuvieran la misma media.
46
2.2.- COEFICIENTE DE CRONBACH
En el tema precedente vimos que si los k tems de un test fueran paralelos, el coeficiente
de fiabilidad del test podra obtenerse aplicando la frmula general de Spearman-Brown:
k jl
xx =
1 + (k 1) jl
siendo k el n de tems del test y jl la correlacin de Pearson entre cualquier par de tems.
Expresada la frmula anterior para datos muestrales, quedara como:
rxx =
kr jl
1 + (k 1)r jl
donde
2
k S j
1
k 1
S x2
k es el n de tems
2
j
Dado que las puntuaciones en el test son la suma de las puntuaciones en los tems, la varianza
del test puede expresarse como:
k
S x2 = S 2j + 2 cov( j , l )
j =1
j <l
2 cov( j , l )
k j <l
=
k 1
S x2
47
Esta frmula reproduce el coeficiente de fiabilidad del test si todos los tems son paralelos. En
la prctica, es muy difcil que esto se produzca pero, sin embargo, tiene sentido su aplicacin
para establecer el grado en que los diferentes tems estn midiendo una nica dimensin o rasgo.
Podemos observar en la ltima expresin que depende del grado de covariacin de los tems:
tendr un valor alto (cercano a 1) cuando los tems covaren fuertemente entre s; asumir
valores cercanos a cero si los tems son linealmente independientes (si covaran de forma
escasa). Matemticamente, puede asumir valores negativos.
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad si, como ocurre en la
prctica totalidad de los tests, los tems no son paralelos. Suele considerarse una "estimacin por
defecto" del coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si los tems son
paralelos) o menor (cuando no lo son). Debe interpretarse como un indicador del grado de
covariacin entre los tems, y es aconsejable complementarlo con otras tcnicas estadsticas (por
ejemplo Anlisis Factorial) antes de interpretarlo como una medida de unidimensionalidad.
Ejemplo:
Sujetos
1
2
3
4
5
6
0
1
1
1
1
1
0
0
0
1
1
1
0
0
0
1
0
0
1
0
0
1
1
0
025
014
025
Varianzas 014
tems
1
1
1
1
4
3
2
133
2
k S j
4 0.14 + 0.25 + 0.14 + 0.25
1
=
1
= 0.55
2
k 1
1.33
S x 4 1
En este caso, el coeficiente obtenido representa un valor medio, que nos indica que no existe
un elevado grado de covariacin entre los tems. No podemos afirmar con rotundidad que este
test mide un rasgo unitario.
El coeficiente puede obtenerse tambin entre diferentes grupos de tems (subtests). En ese
caso, k ser el nmero de subtests y S2j la suma de las varianzas de los subtests. Un
coeficiente bajo indicar que los diferentes subtests miden rasgos o constructos diferentes.
48
3.- FIABILIDAD COMO CORRELACIN ENTRE FORMAS PARALELAS
A veces, por razones de ndole prctica o investigadora, se disea un test y una segunda
versin del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test
original pero con diferentes tems. Como ya hemos explicado, dos versiones o formas se
consideran paralelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzas
probabilsticamente similares.
La correlacin de Pearson entre las puntuaciones obtenidas en una misma muestra en dos
formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicar el
grado en que pueden considerarse equivalentes.
Ejemplo:
Sujetos
Forma 1
1
2
3
4
5
1
14
11
11
10
Medias
Varianzas
Varianzas (ins.)
9.4
19.44
24.3
Forma 2
4
12
13
9
12
10
10.8
13.5
49
X=V+E
es fcil demostrar que se cumple la siguiente relacin para datos muestrales:
Sx2 = Sv2 + Se2
A la desviacin tpica de los errores de medida (Se) se denomina error tpico de medida. En
cierta manera, el Se representa tambin una medida de precisin: cuanto ms cercano a cero sea
el error tpico de medida de un test, eso significar que dicho test proporciona a cada persona
una puntuacin X cercana a su nivel de rasgo V.
En trminos paramtricos, habamos demostrado en el tema anterior que:
xx =
v2
x2
De donde se deduce que el error tpico de medida puede obtenerse a partir de la expresin:
S e = S x 1 rxx
50
Z=
Xi X j
Se 2
Z=
126 120
= 0.88
16 1 0.91 2
Con probabilidad 0.95, la zona de aceptacin queda establecida entre los lmites Z = -1.96 y
Z = 1.96, con lo cual, admitimos con dicha probabilidad que los niveles de rasgo de ambas
personas no difieren.
51
Adems, debe tenerse en cuenta que el coeficiente alfa aumenta cuando incrementamos la
longitud del test y que resultara fcil obtener valores elevados cuando se incluyen tems
redundantes, lo que, evidentemente, no resulta deseable.
En cuanto al coeficiente de fiabilidad (rxx), su cuanta depende en parte de la variabilidad de la
muestra donde se obtiene y tambin de la longitud (nmero de tems) del test.
Debemos conocer que un mismo test tiene diferentes rxx en diferentes grupos normativos
(muestras de personas donde se obtiene el coeficiente). Ms concretamente, un mismo test suele
obtener un rxx mayor en un grupo heterogneo que en otro menos heterogneo (de menor
varianza). Por ejemplo, resulta normal que un test de Inteligencia obtenga un rxx mayor en una
muestra de la poblacin general que una muestra de universitarios o en otra de personas con
deficiencias cognitivas (estas ltimas ms homogneas). La razn es simple: el coeficiente de
fiabilidad, obtenido por el mtodo que sea, se fundamenta estadsticamente en una correlacin
de Pearson que, como es sabido, se incrementa a medida que lo hacen las varianzas de las
variables que se correlacionan.
Por otra parte, si los tems estn bien formulados y resultan discriminativos, un test
incrementar su rxx a medida que incrementa su longitud (nmero de tems), aunque no lo hace
de manera lineal. La siguiente grfica muestra el coeficiente de fiabilidad de un test alargado N
veces (N: 1, 2, 3, .. 50), cuando el coeficiente de fiabilidad del test de partida es 0.1, 0.4 y 0.7:
1,0
,8
,6
,4
0.7
,2
0.4
0.1
0,0
1
7
4
13
10
19
16
25
22
31
28
37
34
43
40
49
46
52
Queremos indicar con la grfica anterior que el incremento es ms significativo cuando el test
inicial tiene un nmero pequeo de tems y bajo coeficiente de fiabilidad, que cuando el test de
partida tiene ya un coeficiente de fiabilidad considerable.
La frmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra
concreta, permite estimar cul ser el coeficiente de fiabilidad (Rxx) de un test que se forma con
n versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad rxx:
R xx =
nrxx
1 + (n 1)rxx
Las n-1 formas aadidas deben ser formas paralelas equivalentes al test inicial; de lo contrario,
la frmula anterior no tiene significado alguno.
Por ejemplo, supongamos que una prueba de atencin de 25 tems obtiene en un grupo
normativo un rxx= 0,6. Si se aadieran 75 tems (tres formas paralelas) al test inicial, el test
alargado tendra 100 tems (4 veces el inicial), y su fiabilidad sera:
R xx =
nrxx
(4)0.6
=
= 0.86
1 + (n 1)rxx 1 + (3)0.6
R xx =
nrxx
(4)0.92
=
= 0.98
1 + (n 1)rxx 1 + (3)0.92
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test
de atencin es de 0.26, mientras que en el segundo caso, el incremento es nicamente de 0.06.
Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que
en el primero.
Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la
frmula se convierte en la que hemos aplicado para estimar el coeficiente de fiabilidad por el
mtodo de las dos mitades. Efectivamente, ahora podemos entender mejor que rPI sera el
coeficiente de fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero)
y que el resultado de esa correlacin hay que corregirlo, haciendo n = 2 en la frmula de
Spearman-Brown, para obtener el coeficiente de fiabilidad del test completo.
53
n=
Rxx (1 rxx )
rxx (1 R xx )
n=
0.86(1 0.60)
=4
0.60(1 0.86)
Esto significa que si multiplicamos por 4 la longitud inicial del test, es decir, con un test de
100 tems, conseguiremos la precisin deseada. Por tanto, a los 25 tems que tiene el test inicial
habra que aadir 75 tems paralelos (3 formas) para conseguir la fiabilidad de 0.86.
El lector puede comprobar que este planteamiento es el inverso al del ejemplo
precedente, que consideraba los mismos datos, y que por eso es lgico que el resultado de n
sea 4.
54
EJERCICIOS
1.
Seale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construccin de un cuestionario.
3.
Un psiclogo construye una escala de actitudes para evaluar el dogmatismo religioso.
La escala consta de 4 tems, y en cada uno se puede manifestar la opinin segn una escala de
7 puntos (del 1 al 7). A continuacin se detallan las respuestas de un grupo normativo de 5
personas:
Sujeto
tem 1
tem 2
tem 3
tem 4
55
Sujetos
n 1
n 2
n 3
n 4
n 5
n 6
n 7
n 8
tem n 1
tem n 2
tem n 3
tem n 4
Obtenga el coeficiente de fiabilidad de test por el mtodo de dos mitades. Aplique para ello
la frmula de Spearman-Brown .
7.
Se aplican dos formas paralelas de un test a un grupo normativo de 10 personas. Sus
puntuaciones empricas directas en ambas formas fueron las siguientes:
Sujetos
10
Forma A
Forma B
Sujeto: 1 2 3 4
Xi : 14 6 16 4
a) Calcule la varianza verdadera del test.
b) Calcule el error tpico de medida del test.
9.
Un psiclogo que trabaja en un centro dedicado a evaluar la rapidez visomotora de los
conductores confecciona una pequea prueba para medir esta habilidad. La prueba consta de
6 elementos que se valoran de forma dicotmica. La tabla siguiente muestra las respuestas
que se obtuvieron en un grupo normativo formado por 4 aspirantes a conductores:
56
tems
Conductor
1
2
3
4
10.
Un test de habilidad verbal de 30 tems tiene, segn el procedimiento de las dos
mitades, un coeficiente de fiabilidad de 0.8 y una varianza de 20 puntos.
Correlaciones
item1 e item2
item1 e item3
item2 e item3
Test A
0.5
0.7
0.6
Test B
0.3
0.4
0.4
a) En cual de los tests cabe esperar que sea mayor el coeficiente alfa? Razone su respuesta.
b) En cual de los tests cabe esperar que sea mayor el ndice de homogeneidad del tem 1?
Razone su respuesta.
12.
Un test est formado por 4 tems dicotmicos que tienen igual media (0.6). La
correlacin entre cualesquiera dos de ellos es 1/6. Obtenga el coeficiente alfa del test de 4
tems.
13.
Disponemos de un test inicial, A, de 20 tems, que tiene un coeficiente de fiabilidad
raa. Multiplicamos su longitud por 2, 3 y 4, siempre con elementos paralelos, y formamos los
tests B, C y D, de 40, 60 y 80 tems, respectivamente. Obtenemos sus coeficientes de
fiabilidad: rbb, rcc y rdd. Dado que el test B resulta de aadir 20 tems al test A; el C, de aadir
57
otros 20 al test B; y el D, de aadir otros 20 al C, cabe esperar que rbb raa = rcc rbb = rdd
rcc?
14.
Un cuestionario para evaluar el rendimiento en Aritmtica est formado por 4 tems,
que se valoran de forma dicotmica (1 el acierto y 0 el fallo). Se aplic a una muestra de 100
nios. A continuacin se detalla alguna informacin estadstica de la mitad par (P), impar (I)
y del total del test (X). Tambin aparecen las frecuencias de aciertos (F) de cada uno de los 4
tems, no habiendo omisiones en ninguno.
Correlaciones :
P
I
P
1
I
0,.45 1
X
0,79 0,74
Medias 1,50 1,10
Sj
0,67 0,83
tem
50
70
60
80
1
2,60
1,14
a) Cuntos tems se han de aadir al test para que su fiabilidad sea 0.95? Realice el clculo
necesario.
b) Puede el valor n de la frmula anterior ser negativo?
SI ( ) NO ( ) DEPENDE ( ). Razone su respuesta.
17.
Antonio, Bernardo y Carlos hacen el mismo test y sus puntuaciones son 25, 21 y 28
puntos, respectivamente. Realizado el contraste de igualdad de puntaciones verdaderas entre
Antonio y Bernardo, con un nivel de confianza de 0.95, no podemos mantener la hiptesis
nula de igualdad de puntuaciones verdaderas.
58
59
SOLUCIONES
1.
2.
3.
4.
5.
rxx = 0,66
6.
rxx = 0,83
7.
rxx = 0, 587
8.
a) Sv2 = 20,8
b) Se = 2,28
9.
a) rxx = 0,778
b) 2.58 ser la diferencia mnima que debe producirse entre dos puntuaciones en el
test para considerar, con probabilidad 0,99, que las correspondientes puntuaciones
verdaderas son diferentes.
10.
a) rP I = 0,67
b) Si2 = 6
c) SP I = 4
d) S2n e = 10
11.
a) El test A. Cuando las correlaciones entre los tems son ms altas, lo sern las
covarianzas, y por tanto el coeficiente alfa.
b) El test A. Cuando las correlaciones entre los tems son altas, tambin lo sern las
correlaciones de cada tem con el test total (ndice de homogeneidad).
12.
60
4
(4)0.24
= 0.44
1
1
3
(4)0.24 + 2(6) 0.24
13.
14.
4
0.86
1
= 0.45.
3 1.142
15.
NO. En el primer caso, el test inicial se habr alargado 1.5 veces para llegar a los 150
tems del test final. En el segundo, el test inicial ha de alargarse 6 veces, para llegar a
los 60 tems. Partiendo del mismo coeficiente de fiabilidad, normalmente se llega a
coeficientes distintos cuando el test se alarga 1.5 y 6 veces.
16.
17.