You are on page 1of 12

Magnusson, D.

(1975) Teora de los


Test. Mxico: Trillas

Psicometria diferencial

mq

Editorial Trillas

76

VARlANZA TOTAL DE UN TEST; CCVARIANZA

Capltulo 5

Tabla 4-2. Matriz varianza-covarianza,


Item
I tem
1

1
52

CIZ

C18

...

...

..

Cl(

. ..

C1n

5-1

Las ecuaciones derivadas y presentadas en este capitulo son importantes


para entender la composici6n de la varianza de un test. Sin embargo, a
menos que 10s cilculos sean realizados con mhquinas, resulta tedioso aplicar
estas ecuaciones en la prictica para computar la varianza total del twt.
El nGmero de tdrminos de covarianza que han de computarse se incrementa
rhpidamente con el nGmero de items del test. La varianza total puede, sin
embargo, computarse directamente de 10s puntajes individuales en el t:st
completo. La varianza de 10s puntajes en la columna de la matriz puntaje
que contiene el nGmero de soluciones correctas para cada individuo se
computa de la manera acostumbrada. El resultado de tal cdculo es numiricamente igual a1 que se obtendria' si la varianza del test se hubiera computad0 sumando todos 10s puntajes de las celdillas de la matriz varianzacovarianza.
PROBLEMAS
1. Construya una distribucih de lrecuencias de 10s puntajes obtenidos por 10s individuos en el problema 10 (capitulo 3 ) .
2. Construya la matriz varianza-covarianza para 10s items del problems 10 (capitulo 3 ) . Use 10s coelicientes g que lueron computados en erte problema.
3. Compute la varlanza de la distrlbuci6n de 10s puntajes obtenidos en la matriz
del problema 10 (capitulo 3 ) , a ) usando 10s valores de la mat& varianza-covarianza, y b ) usando la ecuacidn comhn para computar la varianza.
4. Usando la ecuacih (4-5) determine la varianza total de un test de 10 items,
si para cada item p = 0.50 y para cada pareja de items, a) rrr = 0.30, b )
rcr = 1.00, C ) r r , = 0.00.
Lecturas sugeridas

GULLIKSEN,
H., (1950). Theory of mental tests. Nueva York: Wiley.
HORST,
P. (1963). Matrix algebra for social scientists. Nueva York: Holt, Rinehart
& Winston.

I
I

DOS ASPECTOS DE LA CONFlABlLlDAD DE LA MEDIC16N

Para que 10s datos obtenidos con diferentes tipos de instrumentos de medici6n puedan usarse en situaciones pricticas, Cstos deben satisfacer ciertas
condiciones. Primero, el instrumento de medida que se usa en un cam y
con un prop6sito dados debe realmente medir el rasgo que se intenta medir. Segundo, el instrumento debe dar medidas confiables, de manera que
se obtengan 10s mismos resultados a1 volver a medir el rasgo, bajo condicioI& similares del objeto 6-duo'en
cuesti6nJ Los datos deben ser confiables desde dos puntos de vista: deben ser sipificativos y reproducibles.
El primer requisito impuesto a1 instruments de medida, que 10s resultados realmente se refieran a1 r a g 0 que se intenta medir, es obvio. No hay
problemas cuando se miden propiedades fisicas de 10s objetos; es completamente evidente que si usamos una cinta mitrica de manera corrects,
medimos la longitud de un objeto, per0 ya no es tan claro cuando usamos
un cuestionario de cierto tipo para medir el grado de neurotismo de un
individuo. No podemos convencernos de inmediato de que 10s datos obtepidos con este instrumento realmente expresen el grado de neurotismo del
individuo. En psicologia diferencial muchos instrumentos fueron construidos
para medir ciertos rasgos y empleados con este propbsito; se desacreditaron
m6s tarde cuando un examen cuidadoso revelb que otras variables eran las
que determinaban 10s resultados individuales. Es necesario, por consiguiente,
probar empiricamente que el instrunlento mide la variable que se intenta
medir en cada caso especifico. A esto se le llama investigar la validez del
instrumento y es una fase importante en el trabajo de construcci6n de nuevos instrumentos en psicologia diferencial. El conocimiento del grado de
valida del instrumento es necesario para que 10s datos obtenidos con 61
puedan usarse significativamente.
El segundo requisito de 10s instrumentos de medida, mencionado a1 principio de esta secci6n, fue que 10s resultados obtenidos con el instrumento

78

CONFlABlLlDAD

5-2

en una determinada ocasibn, bajo ciertas condiciones, deben ser reproducibles, es decir, 10s resultados dcben scr 10s mismos si volvemos a medir el
mismo rasgo en condiciones iddnticas. Este aspect0 de la exactitud de un
instrumento de medida es su con!irlbilidad en la acepci6n tCcnica de este
t6rmino. Aqui la confiabilidad es la exactitud de la medici6n,..independjeenentcmente de que uno
.
estk realmerite midiendo lo gu.e-ha querido-medir;Por G
e
m
uno prueba la confiabilidad de un test de aptitud escolar,
la medida que uno obtiene de la prueba empirica de la confiabilidad, es
una medida de la capacidad del test para dar 10s mismos resultados en
repetidas pruebas, sin importar si estc resultado tiene que ver o no con la
aptitud de 10s niiios para la escuela.
Como en el caso de la validez, la confiabilidad debe ser investigada
empiricarnentc para cada instrumento. El conocimiento de la confiabilidad
es necesario para que 10s datos dc 10s instrumentos de la psicologia diferencial puedan usarsc correctamentc.
5-2

CONFIABILIDAD; COEFICIENTE DE CONFlABlLlOAD

Los problemas dc confiabilidad se reficren entonccs a la exactitud con que


un instrumento de mcdida, pot cjcrnplo, un test, mide lo que mide. Conociendo su confiabilidad podemos intcrpretar 10s datos del instrumento con
un grado conocido de confianza.
Si medimos una cierta distancia varias veces con una cinta mktrica de
metal, probablcmente obtengamos resultados casi idCnti6os en todas las
ocasiones. Esto es cierto, independientemente de que sea el mismo individuo quien realice todas las medicioncs. Los datos que obtenemos tienen un
alto grado de confiabilidad. Supongamos ahora que las mediciones se hacen
con una cinta mftrica de material elirtico, entonces, a1 hacer repetidas mediciones de la misma distancia no darin 10s mismos resultados, sino una
distribuci6n de valores con cierta cantidad de dispersibn. Esto serl cierto
independientemcnte dc que el inismo individuo efectGe o no las medidas.
Si las medicioncs d e una Inisma distancia son efectuadas por diferentes individuos, la dispcrsi6n dc 10s valorcs obtenidos seria m i s grande que si cl
mismo nGmero de mediciones fueran hechas pot un solo individuo. Los
datos obtenidos de las medicioncs efectuadas con una cinta mktrica elistica
tienen un grado m h bajo de confiabilidad que las obtenidas con una cinta
mCtrica metilica. La dispersi6n dc 10s valores obtenidos de repetidas me*
diciones de la misma distancia, bajo condiciones similares, puede tomarse
como expresi6n dc inconfiabilidad; cuanto mayor es la diferencia entrc
medidas del, mismo rasgo en rcpetidas ocasiones, tanto menor es la confiabilidad.

5-2

79

CONFIABILIDAD; COEFICIENTE DE CONFlABlLlDAD

Los valores obtenidos con una cinta mktrira elistica serin afectados no
solamente por la distancia medida, sino tambidn por otros factores. En este
caso, el instrumento de medici6n es sensible a las fluctuaciones intraindividuales y a las diferencias interindividuales expresadas por Cste en la extensi6n de la cinta de medir en diferentes ocasiones.1-La inconfiabilidad es un
resultado de la sensibilidad del instrumento a 10s factores que no afectan
el tamaiio de las medidas sistemiticamente, per0 cambian de una situaci6n
de medida a otraLfn un capitulo posterior tratarema la naturaleza d e 10s
factores de er& q e deben tenerse en cuenta a1 hacer mediciones en psicologia diferencial.
El grado de acuerdo entre medidas hechas en diferentes ocasiones puede computarse por medio de 10s mktodos de correlaci6n. El coeficiente de
correlaci6n para el acuerdo entrc medidas repetidas bajo condiciones similares, constituye el valor numErico de la confiabilidad de 10s datos que
- pueden obtenerse con un instrumento dado. Este coeficiente de correlaci6n es
/llamado coeficiente d e cenfiabilidad, y pugde?Toma_r~ a 5 r e se n 5 c g r o - f
~ & ; v r o ~ n $ ~ e ~ - n e g a t i (vcr
v o t&bikn p6gs. 80-01) .--E e l instrument~
i es insensible a 10s factorcs debidos a1 azar, 10s puntajes del individuo en
medidas sucesivas serin idfnticos, y sus posicioncs cn las distribuciones que
podemos construir cn cada ocasi6n de inedida ser6n las mismas, por lo
que la correlaci6n entre las distribuciones s e r 5 . a l a s medidas que puedcn
hacerse con tal instrumento son completamente confiablcs.
Cuando medimos las caracteristicas de un objeto con la ayuda de instrumentos fisicos (cintas mktricas, balanzas, e t ~ . ) ~
, o d e m o svolver a medir
el mismo objeto con el mismo instrumento para obtener valores sobre dos
distribuciones, como se hace cuando deseamos establecer la confiabilidad
de un instrumento. Esto puede hacerse mientras la magnitud del rasgo que
se esti midiendo no cambia para el objeto en cuesti6n (por ejemplo, el
resultado de aplicar el instrumento de medida a1 objeto), y mientras el valor
cuya magnitud va a ser esdmada permanczca sin cambiar.
Cuando las variables psicol6gicas son medidas por 10s mktodos usados
en psicologia diferencial a menudo es dificil estimar la confiabilidad del
instrumento de esta mancrx; una ra76n cs que 10s individuos que fueron
sometidos a la prueba son alcctados por la primera aplicacih del instrumento; este efecto es diferente para cada individuo. Como resultado, 10s
-valores relativos de 10s individuos cn la variable mcdida en la primera o z s16n, serin un tanto diferentcs en la segunda ocasi6n de medidas, simplemente porque el material ya ha sido presentado una vez. Si hay un espacio
de tiempo entre las dos aplicaciones, 10s individuos pueden haberse desarrollado de diferentes maneras; esto tambikn conduce a la medida de valores
objetivos cambiados. No es necesario, sin embargo, repetir las medidas con
-

90

CONFlABlllDAD

5-3

5 .'2

PUNTAJE OBSERVADO; PUNTAJE VERDADERO; PUNTAJE ERROR

81

el mismo instrumento para estimar su confiabilidad, pues pod :mos usar


instrumentos de medida equivalerites, llamados test paralelos.
Lo que hemos presentado hasta aqui es la teoria clisica de la confiabilidad. La prcsentaci6n m i s completa de esta teoria fue dada por Gulliksen en su b6sico y bien conocido iibro Theory of Mental Tests (1950).
De acuerdo a la teoria clisica de la confiabilidad, 10s test paralelos deben construirse de tal manera que una aplicacibn de dos tests de li
misma correlaci6n entre las dos distribuciones de puntajes, que la de dos
aplicaciones de uno de 10s tests. Esta condici6n esti basada en la suposici6n
de que podemos quitar todas las huellas de la primera aplicaci6n en la
segunda ocasi6n. Los items que correspondan entre si en 10s tests paralelos
deberin ser tan similares en contenido y dificultad, que las medidas con
arnbos den 10s mismos resultados que el medir dos veces con uno de cLm.
Cuando construimos tests paralelos de acuerdo con esta definici611, debi mos
asegurarnos de que 10s items de un test corresponden a 10s ftems del $atro
en contenido, instrucciones, tip0 de respuesta, etc. En teoria, 10s tests p: ralelos tienen medias, varianzas e intcrcorrelaciones iguales; si las condicicnes son satisfechas completamente, 10s tests serin perfectamente paralelos.
Sin embargo, en la prictica no es posible lograr esto.
Nuestro tratamiento de la teoria de la confiabilidad bisica se basari en
la definici6n dada de confiabilidad como la correlaci6n entre tests paralelos.
Las medicioncs pueden hacerse o bien por medio de la aplicaci6n repetida
del instrumento cuya confiabilidad estamos estudiando (si suponemos que
todas las huellas de la primera aplicaci6n pueden borrarse), o bien por
medio de dos tests paralelos que iucron construidos satisfaciendo las condi-.
ciones de tales tcsts. En lo sucesivo, el tkrrnino "tests paralelos" se referiri
a tales medidas.
La correlaci6n cntre dos tests paralelos que satisfacen las condiciones
mencionadas nos da una idea de la cxactitud con que fueron escogidos 10s
items especificos para que el test mida una variable dada. Sin embargo, en
muchas situac~oncsestamos intercsados en la exactitud con que este tipo
de item mide el rasgo ya medido en el primer test. Los tests paralelos han
sido tambikn dcfinidos como tcsts compuestos de items seleccionados a1 azar
de la misma "poblaci6n" de items. Los tests paraleios de este tip0 serin
ilamados en lo futuro tests paralelos a1 azar. Las consecuencias de esta definici6n de tests paralelos s e r h disc~tidasen este y en 10s capitulos siguientes.
El lector interesado en un estudio m i s detallado del importante problema de la confiabilidad, como cxpresibn de las posibilidades de generalizar
de un conjunto de observaciones a un universo especifico de observaciones,
puede consultar a Cronbach, Rajnratnam o a Gleser (1963).

5-3

PUNTAJE OBSERVADO; PUNTAJE VERDADERO;


PUNTAJE ERROR

L a teoria de la confiabilidad se basa en una suposici6n, ya presentada por


Spearman (1910), que el puntaje t obtenido por un individuo j (esto es, t j )
puede considerarse que est5 formado por dos componentes: T j (un puntaje verdadero) y el (un puntaje error) :

El rasgo medido por un cierto test de ejecuci6n puede representarse por


un continuo latente, que es una escala de capacidad, en la que cada individ u o toma cierta posici6n. La posici6n de un individuo en esta escala de
capxidad determina con una correlaci6n perfecta, pero no lineal, su puntaje verdadero en el test, su posicih en una escala de puntajes verdaderos.
En la teoria clisica de la confiabilidad, el puntaje verdadero que puede
predecirse con completa certaa a partir del continuo latente es el mismo
para cada individuo en todos 10s tests paralelos (ver figura 5-1).
Cuando a1 usar instrurnentos equivalentes de medida para estimar 10s
puntajes verdaderos del individuo, obtenemos diferentes valores de cierto
rasgo, podemos deducir que son el resultado de la presencia de puntajes
error, 10s cuales pueden ser caracterizados como errores fortuitos o errores a1
azar. Estos son provocados por la sensibilidad del instrumento a aquellos
factores cuyo efecto varia de una ocasi6n a otra, es decir, factores diferentes a
aquellos que determinan los puntajes verdaderos del individuo; pueden
ser factores individuales, tales como si el individuo esti o no cansado, si ha
comido o no, si ha hecho ejercicios fisicos, si esth ansioso, etc. Tambikn
pueden ser factores ambientales, como la presencia de perturbaciones externas que distraigan a1 individuo. Estos factores cambian de una ocasi6n
d e medida a otra y en cierto grado modifican la capacidad de ejecuci6n del
individuo.
El puntaje error de un individuo en una medici6n resulta de la diferencia entre el puntaje observado y el puntaje verdadero:

Algunas propiedades de 10s errores se definen comirnrnente mediante las


siguientes ecuaciones:

5-3

PUNTAJE OBSERVADO; PUNTAJE VERDADERO; PUNTAJE ERROR

para un nlirnero infinito de individuos-

83

tiene validez en las dcducciones

que siguen inmediatamente. El resultado de esto es que la suma sobre un


ndmero de individuos, de 10s productos del tip0 T,ei, donde T j y e j son

Test
I

M,=O

Fig. 5-1. \'arias tests paralelos 1, 2, '3, . . . , g, todor con el mismo puntaje verdadero

(TI)
pero con tliferentes puntajes error, e l , , ell, etc., independientes entre si, para
el individuo j.
L a ecuaci6n (5-3) establece que la media de 10s puntajes error es cero.
Esto es cierto a) para un nrimcro infinito d e individuos en el mismo test,
sin importar sus puntajes verdaderos, y b ) para 10s puntajes error d e un
individuo en un nlimero infinito d e tests paralelos (ver figura 5 - 1 ) .
La ecuaci6n ( 5 - 4 ) establecc que la correlaci6n entre 10s puntajes error
cn difercntcs aplicaciones dcl test cs ccro para un nlimem infinito de individuos. Esto cs ra-/onable si 10s puntajcs crror son considerados como errores
a1 azar.
L a ecuaci6n (5-5) establccc quc la correlaci6n entre 10s puntajes verdaderos y 10s puntajes error cs ccro. Esta suposici6n ha sido muy discutida
y serP tratada con mhs detalle cn cl s i p i c n t e capitulo. DeLeri observarse,
sin embargo, que una implicacih d e la suposici6n de que la correlaci6n
entre 10s puntajcs verdaderos y de error es cero - 4 s decir, que la direcci6n de 10s crrores es independientc del tamafio de 10s puntajes verdaderos

desviaciones d e las medias de las distribucioncs dc 10s puntajcs vcrdadcros


y de error, respectivamente, seri igual a ccro para un nlimcro infinito dc
productos.
Deberi observarse quc la dcfiniridn dc errorcs como crrorcs a1 azar
significa que 10s llamados rrrorcs constantrs, no estin incluidos cn 10s puntajes error, por ejemplo, cl crror quc sc produce a1 mcdir con una cinta
rnhtrica que siempre d a un resultado dos pulgadzs m i s largo o 10% mAs
corto (ver Andreas, 1960, piginas 107-108).
Suponiendo que 10s puntajes error tienen una mcdia csperada de cero,
podemos definir el puntajc vcrdadcro dc un individuo corno la mcdia dt:
10s puntajes en un nlimero'infinito dc tcsts paralelos. Cuanto mayor cs el
ndmero dc tests paralelos aplicados, tanto mayorcs son las oportunidades
d e que 10s errorcs a1 azar sc cancclcn cntrc si; por lo quc la suma de 10s
puntajes crror seri cero para un nlimcro infinito dc tcsts paralclos.
U n a distribuci6n de frccucncias dc puntajcs, er, la que fsta incluye el
puntaje de cada individuo, puedc traparse despufs dc quc a un detcrminado
nlirnero de individuos sc Ic ha aplicado cicrto test. Esta distribuci6n ( t en
la f i p r a 5-2) se obtuvo combinando las distribucioncs T y c, cs decir, las
distribuciones que puedcn dibujarsc para 10s puntajes verdadcros y puntajcs
error. Cada individuo incluido cn la distribucihn t, por ejemplo, 10s individuos j y I, tambien se incluycn cn las distribncioncs T y c. Usando las suposiciones hcchas anteriomcntc, podcrnos escribir la varianpa dc la distribuci6n t como la suma de las varianzas dc las dos subdistribucioncs; ya que
la correlaci6n entre 10s puntajes verdadcros y dc error se supone que es
cero, el t h n i n o de covarianza que debcria incluirse en cl lado derecho de
la siguiente expresi6n es tambifn ccro:

L a varianza total dcl test ( s f ) cs igual para 10s tcsts paralelos; la varianza de 10s puntajes vcrdaderos ( s ? ) cs tanlbiCn i p a l para 10s tcsts paralelos, puesto que cada individuo contribuye exactamente con el misnio
puntaje a las diversas distribucioncs de puntajes vcrdadcros. Por lo tanto,
la distribucidn d e error t a m b i h ticnc la misma varianza para tests paralelos; per0 mientras que 10s individuos tienen 10s mismos puntajes en las
diversas distribuciones d e puhtajcs vcrdadcros, el tamaiio y la direcci6n dc
sus puntajes error variari a] azar dc un test paralelo a otro.

'

84

LA D E F I N I C I ~ NESTADkTlCA DE CONFlABlLlDAD

CONFlABlLlDAD

85

Los terminos segundo y tercero serin cero (ver phg. 82), ya que las
direcciones de 10s puntajes vcrdaderos y de crror sc han supucsto que son
independientes entretsi; el cuarto tdrmino cs tnmbikn cero porque de
acuerdo con las suposiciones hechas, 10s errores no cstin correlacionados
entre si.
Como se supuso que 10s dos tests eran paralelos, las desviaciones estindar de 10s puntajes en dichos tests son igualcs:

El primcr tkrmino puedc escribirse ahora XT;/Ns;, donde TI exprcsa las


desviaciones de 10s individuos respecto de la media de la distribuci6n de 10s
puntajes verdaderos, y X T f / N es, entonces, la expresi6n para la varianza
de 10s puntajes verdaderos (s?,).Por lo tanto, el primer tkrmino puede escribirsc s?,/s:. Asi obtenemos
Fig. 5-2. Distribucionrs de puntajes verdaderos ( T ) , de puntajes error
puntajes obtenidos ( t ) para 10s datol de la misma poblaci6n.

5-4

(e) y

de

Pero sl, = s;

PA DEFINIC16N ESTADISTICA DE CONFlABlLlDAD

Volvie~doa1 problema de estimar la confiabilidad de un test, empecemos


por la definici6n de confiabilidad como la correlaci6n entre un test dado
y un test paralelo.
Los puntajcs de un individuo j en dos tests paralelos se representan por
tjl y ti2, estos valores dan 10s resultados del individuo como desviaciones
respecto dc las medias de las distribucionef. Obtenemos asi

donde c , , es cl componente de error del puntaje del individuo en el test 1,


y el? es el componente de error del puntaje del individuo en el test 2. N6tese que el puntaje verdadero de un individuo dado es el mismo en tests paralelos.
De la ecuaci6n que define un coeficiente de correlaci6n (ecuaci6n 3-6),
obtenemos la siguiente expresibn para la correlacibn entre dos tests paralelos :

- s,2, luego

la ecuaci6n (5-7) puede escribirse

rtt = 1 (5-8)
.
--- _.
Con las suposiciones clisicas que hemos hecho, la confiabilidad puede
entonces definirse como la proporci6n entre la varianza verdadera y la
varianza total. El coeficiente de confiabilidad para la relaci6n entre dos
tcsts paralelos da el valor numdrico de la proporci6n entre In varianza de
la distribucibn de 10s puntajes verdaderos y la varian~ade la distribuci6n
de 10s puntajes obtenidos en 10s tests.
Ahora volvamo<'a la figura 5-2. Cuando la varianza de la distribuci61-1
total (1) ticne un tamalio dado, la confiabilidad esti determinada por la
magnitud de la varianza de 10s puntajes verdaderos. Si el puntaje de cada
individuo en la distribuci6n total cs el mismo que su puntaje verdadero,
entonces la varianza de la distribucih total seri la misma que la varianza
de 10s puntajcs verdaderos y la confiabilidad seri 1.0. Si este es el caso, la
medici6n ha expresado exactamente el puntaje verdadero de cada individuo,
y la varianza error es cero.
La ecuaci6n (5-8) es la base dc la afirmaci6n no probada hecha anteriormente, de que el coeficiente de correlaci6n, que expresa la relaci6n

86

5-5

CONFlABlLlDAD

entre las mcdiciones de tcsts paralclos y por lo cual es un coeficiente de


confiabilidad, pucde tomar solamentc valorcs positivos. Cuando la varianza
de error cs mixima, i p a l a la varianza total del test, el coeficiente de
confiabilidad cs ccro; esto sucede cuando todo el puntaje obtenido por
cada individuo cs un puntaje crror, y entonces el test es completamcnte inconfiable. Sin embargo, clcbcria obscrvarse que cuando las computaciones
se basan cn una muestra pcquciia dc individuos, y el cocficiente dc confiabilidad cs, por ejemplo, cero para la poblacih, se pueden obtencr coeficientes ncgativos. (Ver la discusi6n dc 10s errorcs estirglar de 10s coeficientes
d e correlaci6n en la pigina 64.j
Las dcfiniciones d e confiabilidad discutidas en este capitulo puedcn resumirse asi. La confiabilidad cs la cxactitud con que el instrumento mide
10s puntajes vcrdaderos, y so esprcsa por la relaci6n entre 10s resultados
d e las medidas de dos tests paralrlos dcl mismo rasgo y bajo las mismas condiciones. El coeficientc para csta relaci6n es el coeficiente d e confiabilidad
de uno de 10s dos tests, y d a la proporci6n de la varianza tota! d e uno de
10s dos tcsts que esti constituida por la varianza de la distribuci6n de 10s
puntajes verdaderos.
5-5

CORRELAC16N ENTRE PUNTAJES VERDADEROS Y PUNTAJES


OBTENIDOS

Q u i d tenga valor para el anilisis siguiente presentar la relaci6n entre 10s


puntajes verdadcros y 10s observados en forma d e ecuaci6n. Si esta relaci6n
es denotada por rtr y si T, e, y t a h representan las desviaciones de las
medias de las rcspcctivas distribucioncs, obtenemos la siguiente expresi6n:
= 2 (T + e ) T/Nstsp.

T ~ T

(5-9)

Desarrollando cl lado derecho d e la ecuaci6n (5-9), tencmos


ZT2,'h'stsr

+ ~eT/Ns,s~.

(510)

Pero ZT2/A;= s l , as; quc el primer tkrmino en l a ecuaci6n (5-10) puede


escribine sT/sl L a suma d e 10s productos e T es cero, asi que el s e p n d o
tbrmino tamb1i.11w r i ccro. Por lo tanto, obienemos
TIT

(T/JI.

(5-1 1)

CONFlABlLlDAD Y LONGITUD DEL TEST

5-6

87

L a raiz cuadrada del coeficicnte de confiabilidad nos d a cntonccs la correlaci6n entre 10s puntajes observados y 10s puntajes vcrdadcros del test. Este
valor es llamado cornGnmcntc indicc dc confiabilidacl clcl tcst.
5-6

CONFlABlLlDAD Y LONGITUD DEL TEST

L a confiabilidad d e 10s puntajcs dc un test es una funci6n dcl n h c r o dc


items que componen el test. Esto puede verse ficilmente estudiando la figura 5-1. U n test de cierta longitud d a un crror al azar de cierto tamaiio
y direcci6n cuando cs aplicado a un individuo dado. Si varios tests paralelos (1, 2, 3, . . ., g ) son entonccs aplicados ademis, 10s puntajes crror
e n 10s varios subtests tendrin difcrentes signos y magnitudes y, si se combinan 10s tests paralelos en un test total, cuanto mayor es el nrimcro de
subtests incluidos en el test total, tanto mayor s e r i el nrimero de 10s que
se cancelarin entre si. Y gradualmente nos acercaremos al puntaje verdadero d e cada individuo. Pucsto que la confiabilidad puede definirse como
l a exactitud con que u n test estima 10s p u ~ t a j e sverdaderos, la confiabilidad se incrementari al aurncntar el nrimero de tests paralelos incluidos
en el test total. Afiadiendo un nrirncro infinito de tcsts paralelos, nos acercariamos a1 puntaje verdadero de cada individuo y a1 valor 1.0 para la
confiabilidad de 10s puntajes del test total.
Examinaremos m i s d e cerca la influencia de la longitud del test en
la confiabilidad. L a longitud del test se supone que es una funci6n lineal
del n6mero de items. El problcma purdc haccrse m6s claro haciendo referencia a lo que se h a dicho acerca d e la disposicih de 10s tCrminos en una
matriz de varianza-covarianza (phg. 75). Examinernos cbmo la varianza
total, la varianza verdadera y la varianza dc error, son alectadas cuando se
cambia la longitud del test.
A.

Varianza d e l test total

Veremos primer0 lo que sucedc a la varianza dc 10s puntajes observados


cuando el test se dobla en longitud, afiadiendo un nrimero igual de nucvos
items. Se supone que cstos items son paralelos a 10s del test original. Las
varianzas d e las dos mitades dcl test son, por consiguientc, i p a l e s :

Pcro d e la ccuaci6n ( 5 - 7 )
S;/S~

Tfr.

(5-12)

D e las ecuacloncs (5-11) y (5-12) obtencmos finalmcnte


T,T

(5-13)

L a varianza d e la distribution quc obtencmos combinando 10s puntajes dc


las distribuciones de 10s dos subtcsts (sit) pucde escribirse entonces

5.6

La varianza de 10s dos tests es la misma y la correlaci6n entre las dos mitadcs paralelas del test da el coeficiente de confiabilidad para cualquiera
de ellas. Esto nos conduce a la siguiente expresi6n para la varianza de un
test despuEs que el nGmero de items es doblado:

La ecuaci6n (5-14) es un caso especial de una ecuaci6n m6s general


para el incremento en la varianza de 10s puntajes observados cuando la
longitud del test es aumentada de acuerdo con las condiciones anteriores.
La ecuaci6n general puede derivarse m i s ficilmente de la matriz de varianza-covarianza.
Consideremos n tests paralelos, cada uno con una varianza de ST, pongamos 10s puntajes crudos en renglones y columnas, donde g y h representan
dos tests cualesquiera de la matriz. Para cada rengl6n, es decir, para cada
test, obtenemos entonces 10s tkrminos de varianza mostrados en la tabla
5-1. La varianza total tambikn es mostrada para el test compuesto de n
subtests paralrlos.
Tabla 5-1. Matriz varianza-covnrianza para 10s puntajes obscrvadas en tcsts paralelos.

CONFIABILIDAD Y LONGITUD DEL TEST

89

igual tamaiio, ya que las varianzas son igualcs para tests paralelos. Puesto
que tenemos n de estos tkrminos obtenemos

2s; = t1s;
J

La correlaci6n rtYtl,,que figura en todos 10s tkrminos de la segunda


suma, es el coeficiente de corrclaci6n para la relaci6n entre tests pararelos
(rtt) y es el mismo para cada subtCrmino. Las desviaciones estindar son
iguales para tests paralelos (stll= s t , , ) . Puesto que tenemos en la segunda
suma n(n - 1) tkrminos, todos 10s cuales son iguales, obtenemos

La varianza del test total para un test compuesto de n tests paralelos (sit)
puede escribirse ahora

B.

Varianza verdadera

TanlbiEn examinaremos aqui lo que le sucede a la varianza verdadera cuando se dobla el nGmero de items. La varianza de la distribuci6n de 10s
puntajes verdaderos, la cual se obticne combinando 10s puntajes verdaderos
individuales en las subdistribuciones, puede escribirse

La varianza de 10s puntajes verdaderos es igual para tests paralelos. Los


puntajes verdaderos en 10s tests paralelos se supone que son iguales para
cada individuo. Asi, ST, seri igual a ST: y TT,T:serri 1.0. La varianza verdadera, dcspuks que se ha doblado cl ndmero dc itcms, puede escribirse

La vauapia total de un test compuesto de n tests paralelos ( s i t ) cs pues


x s : + x x ~ t * ~ ~ , , Todos
s t ~ s ~10s
~ . tkrminos incluidos en la. rim era suma son de

Cuando la longitud del test sc dobla, la varianm clc 10s puntajes verdaderos scri cuatro vcces la dcl tcst original.
La ecuaci6n (5-17) cs un case cspcrial dc una ecuaci6n m i s general
para el incremento en la varianza dc la distribuci6n de 10s puntajes verdaderos, cuando se aumenta cl ndmcro de itcms del tcst.
Del mismo mod0 que para la varianza total, podemos agrupar en una
matriz varianza-covarianza 10s difercntes tknninos de varianza para la varianza verdadera de n tests paralelos. La tabla 5-2 muestra la suma de 10s
tkrminos de varianza para cada rcng1611, es drcir, para cada test paralelo,

CONFlABlLlDAD Y LONGITUD DEL TEST

5-6

junto con la varianza total vcrdadera de 10s n tests paralelos. Puesto que
la varianza vcrdadcra es la misma para tests paralelos, obtenemos

vcrdaderos, y b ) varianzas iguales de 10s puntajes vcrdaderos en 10s tests


paralelos que forman el test total.
C.

L a correlaci6n cntre 10s puntajcs verdaderos d e tests paralelos es 1.0. Todos


10s tCrminos dc corrclaci6n del tipo rT0Tntambidn serin 1.0. Como las desviaciones estAndar de 10s puntajcs vcrdaderos son iguales para tests paralelos, 10s productos S T ~ S T * serhn constantes y pueden escribirse como
s j Tenemos n ( n - 1 ) tkrminos en la segunda suma que nos d a
I

Tabla 5-2. TCrminos dc varianza-covarianza para 10s puntajes vcrdaderos cn n tests paralelos.

~ I c In 111nlris

(~O~IIIIIII~

\.n1.in11/n-(.t,\.nria11sa)

Suma tlr 10s t6r1nirws clc varianza

Varianza de error

Cuando sc dobla el nrimcro dc itcrns del test, el cfccto sobrc la varianza


d c crror cs

91

Las distribuciones d c error cn tests paralelos ticnen iguales varianzas, y


puede suponerse que 10s puntajes dc error no estin correlacionados. Asi,
set es igual a sel, re,,, es cero, y el crror de varianza, despuks d e duplicar
el n h n e r o d e items, puede escribirse

Cuando se duplica el nrimero de itcn~stambikn se duplica la varianza d e la


distribuci6n d e puntajes de crror.
L a ecuaci6n ( 5 - 2 0 ) es un caso egpecial de la ecuaci6n general para el
increment0 en el tarnafio de la varianza de crror cuando se aumenta el nrimero de items.
De la misma manera que para la varianza total y la varianza verdadera,
podemos obtener la varianza total para 10s puntajes de error ( s i c ) d e una
matriz d c varianza-covarianza dc 10s puntajes de error para n tests paralelos:

J:,, = ZS: + Z Z r e , , e r . ~ r , ~ e h .

(5-21)

L a varianza dc 10s puntajcs de error para tests paralelos es la misma, asi


que s2 es una constante para n tests paralelos:

2 s : = ns;.

L a suma total cle la varianza verdadera para u n test compuesto d e n tests


paralelos (s:,)
pucdc cscribirse s i T = nsZT n ( n - 1) 5%. y obtenemos

L a correlaci6n entre puntajcs dc error para tests paralelos es cero. Cada


correlaci6n dentro d e la segunda suma seri, por consiguiente, cero y t d o
tdrmino incluido en la suma t a m b i h scrh ccro. Obtencrnos la siguiente
expresi6n para el incrcmento cn la varianza d e error cuando la longitud
dc un tegt se aumenta n vcces:

sic = ns;
En general, la varianza verdadera se incrc~nentacomo el cuadrado d e n
cuando la longitud del test se aumenta n vcces.
Hemos supucsto aqui que 10s tests adicionales han sido paralelos a1 test
original, y quc ha habido: a) una correlaci6n de 1.0 para 10s puntajes

(5-22)

El incrcmcnto cn la variama dc crror cuando sc aumenta la longitud del


test es, por consiguiente, dircctamcntc proportional a1 nrimero de veces que
el test aument6 su longitud. L a rinica suposici6n hecha aqui es que no hay
relaci6n sistemitica cntre 10s puntajcs dc crror en test paralelos.

92

CONFlABlLlDAD

CONFlABlLlDAD Y LONGITUD DEL TEST

5-6

La confiabilidad ha sido definida previmente como la parte de la


varianza total compuesta de la varianza de la distribuci6n de 10s ~wntajes
verdaderos. Puede verse en las ecr~aciones (5-19) y (5-22) que, cuando
el test es alargado, la varianza verdadera se incrementa con mayor rapidcz
que la varianza de error. Mientras que la varianza verdadera sc incrementa
como el cuadrado del nlimero de veccs quc el test es aumentado en longitud,
el increment0 en la varianza dc error es directamente praporcional a1 incremento en la longitud del test. Esto significa que, cuando el test se incrementa en longitud, la varianza verdadera representa una p r c i 6 n mayor
de la varianza total. Esto indica a su vez que el test seri m G confiable.
Un ejemplo aclarara la situaci6n. La confiabilidad esti determinada
por la proporci6n de la varianza total que estA compuesta de la varianza
de 10s puntajes verdaderos. Si sf se hace igual a 1.0, la varianza de 10s
puntajes verdadcros d a r i el valor numkrico del cocficiente de confiabilidad
directamente. Supongamos que hay un test en el que rtl = 0.50, lo cual
significa que tanto la varianza verdadera como la varianza de error son
0.50. Si doblamos la longitud del test, la varianza verdadera ser6 4 x 0.50 =
2.00, la varianza dc error seri 2 x 0.50 = 1.00, y la varianza total 2.00
1.00 = 3.00. La raz6n de la varianza verdadera a la varianza total es
2.00/3.00 = 0.67 quc es, por lo tanto, el coeficiente de confiabilidad del
test duplicado. Si doblamos la longitud del test otra vez, el resultado seri
el siguiente: s; = 4 x 0.67 = 2.68; s: = 2 x 0.33 = 0.66; s: = 2.68 +
0.66
3.34. El coeficiente de confiabilidad despuks de esta nueva duplicaci6n de la longitud del test serj. cntonces 2.6813.34 = 0.80, que es el
mismo valor que hubikrarnos obtenido si hubibsemos aumentado la longitud del test inicial cuatro veces con r t t = 0.50. De la misma manera, podemos computar la funci6n para la relaci6n entre la longitud del test y la
confiabilidad de 10s tests originales dc una confiabilidad dada. La funci6n
se d a en la figura 5-3 para un deterrninado nGmcro de test con varias confiabilidades en el test inicial.
Este procedimiento es torpe en la prictica. Se puede derivar una ecuaci6n general para computar la confiabilidad de un test cuya longitud se ha
incremcntado n vcces (rtt,).
Empczarcmm con la dcfinici6n dc confiabilidad como la relaci6n entre
la varianza verdadera y la varianza total. La confiabilidad dc un test cuya
longitud se ha incrementado n veces puede escribirse entonces rtt* = S&/S;~.
De las ecuaciones (5-19) y (5-16) obtenemos

0.00

,I
1

6
7
Nhero

93

Fig. 5-3. La confiabilidad como funci6n del.incremento de longitud del test.

Pero s;/s; = rtt. Luego obtenemos

donde n es el nhmero de veces quc el test se aument6 en longitud, rtt, es


la confiabilidad del test a1 aumentar su longitud, n veces y rtt es la confiabilidad del test inicial.
Ahora podemos ver que con la ecuaci6n (5-23) se obtienen 10s mismos
resultados que 10s computados anteriormente para el coeficiente de confiabilidad que se obtendria cuando el test inicial, con un coeficiente de confiabilidad de 0.50, se incrementase en longitud dos y cuatro veces. A1
aumentar la longitud del test a1 doble ( n = 2 ) , el coeficiente de confiabilidad seri (2 x 0.50) 1(1 + 0.50) = 0.67, y a1 incrementar cuatro veces la
longitud inicial del test ( n = 4 ) , seri ( 4 x 0.50) / ( 1 + 3 x 0.50) = 0.80.
En ambos casos, 10s resultados concuerdan con 10s obtenidos previamente.
La ecuaci6n (5-23) es llamada f6rmula de profecia de Spearman-Brown,
y puedc usarse para computar cl efccto de un incrcmento en la longitud del
test en la confiabilidad. En el caso comcin en que se dobla la longitud
del test, es decir, donde n = 2, la f6rmula tiene la siguiente forma:

La derivaci6n de la f6rmula de Spearman-Brown (ecuaci6n 5-23) supone que 10s items aiiadidos a1 test original son similares a 10s items iniciales

5 -7

en dificultad, intercorrelaciones y contenido; es decir, las partes adicionales


del test pueden considerarse como paralelns a las incluidas en el test original. La aplicaci6n de esta ccuaci6n supone, entonces, quc se satisfacen
estas condicioncs.
Cuando construimos un test, a l p n a s veces deseamos que tenga una confiabilidad detcrminada previamentc. Si se tiene una versibn preliminar de
un test con confiabilidad conocida, la cuesti6n prictica seria cuintos items
habria que aumentar a esta versi6n para obtener la confiabilidad deseada.
La figura 5-3 tambien puede usarse en este caso para computar n. Hallamos la confiabilidad deseada cn el eje vertical, y luego a partir de la funci6n para el test cuya confiabilidad original es conocida, leemos en el eje
horizontal el valor que corresponde a la confiabilidad deseada, es decir,
el nGmero de vcccs que la longitud del test debe incrementarse.
La ecuaci6n general para computar n se obtiene resolviendo la ecuaci6n (5-23) para 11:
rtt*(l - rtt)

donde rtl, es la confiabilidad descada despuCs de que el test se aument6


en longitud n vcccs, y r,t es la confiabilidad del test inicial.
Si el coeficicnte de confiabilidad para una versi6n de ensayo de un
nuevo test se calcula que sea 0.75 y el diseriador del test no estj. satisfecho
con un coeficicntc de confiabilidad menor que 0.90 para el test final, es
obvio quc debcria hacer el test 0.99(1 - 0.75) /0.75(1 - 0.90) = 3 veces
m k largo.

5-7

EL COEFICIENTE DE CONFlABlLlDAD Y LA HOMOGENElDAD


DE LA MUESTRA

Para una \wiahlc cspccifica, la varianza dc 10s puntajcs verdaderos varia


de una mucstra dc individuos a otra. La varianza de error, sin embargo,
depende de la incapacidad dcl test para medir exactamente 10s puntajes
verdaderos de los individuos, y cs cntonces la misma de una muestra a otra,
aun si las muestras difieren cn la rnagnitud de la varianla de 10s puntajes
verdaderos. Sc siguc dc cstos dos hechos que el tamario del coeficiente de
confiabilidad dcpcndc de la heterogencidad de la mucstra de puntajes vcrdaderos.
Empecemos con cl cocficicnte de confiabilidad computado pot la ecuacibn
rtl = 1 - st/s;

EL COEFICIENTE DE CONFlABlLlDAD

95

para una muestra con varianza total conocida. Si ahora examinamos una
muestra m b homoghea de individuos, la varianza de la distribucibn de
puntajes verdaderos i s menor. La varianza total se habri reducido, mientras la varianza de error permaneccri sin cambio. Vemos inmediatamente
el efecto de este carnbio en la ecuaci6n (5-8)-el coeficiente de confiabilidad
se reduciri. Suponiendo la misma varianza de error en diferentes niveles
del test, podemos derivar una ecuaci6n para computar la confiabilidad de
un test cuando se usa en una muestra cuya varianza total es diferente a la
de la muestra en la que se comput6 el coeficicnte original de confiabilidad.
Si representamos por u la muestra en la que se va a estimar la confiabilidad, obtenemos la siguiente exprcsi6n para la confiabilidad del test en este

Por la ecuaci6n (5-8) la varianza de la distribuci6n de crror puede escribirse


s' -= ( 1 - rtt).
Pero la distribuci6n de error tiene la misma varianza en la muestra de diferente heterogeneidad. Por consiguiente, podemos reemplazar s: en la ecuaci6n (5-26) por ST ( 1 - rtt) .
Suponiendo que la varianza total de la muestra u es conocida, obtenemos la siguiente expresibn, la cual puedc usarse para cstimar la confiabilidad del test en esta muestra:

donde ru, es la confiabilidad cstimada de la muestra u, s: cs la varianza


de la muestra para la cual se ha computado el cocficientc de confiabilidad
'conocido, rtt es la confiabilidad conocida dc la muestra t, y si es la varianza de la muestra para la cual cs cstimada la confiabilidad.
La dependencia del cocficicnte de confiabilidad respecto de la dispersi6n
total de 10s puntajes obtenidos puede mostrarse en un ejemplo. i C u i l es
la confiabilidad de un test en una muestra con s = 10, si el coeficiente de
confiabilidad es 0.90 en una mucstra con s = 15? En cste caro, st = 15,
rtt = CV3O, y s. = 10. Sustituyendo estos valorcs en la ccuacibn (5-27),
obtenemos

Debera notarse que la varianza de crror (s:) tiene un Iimite inferior.


La varianza de error y la varianm total scrlin igualcs y la confiabilidad seri

cero, cuando la homogeneidad de la muestra quc va sujetarse a1 test es


perfecta, es decir, cuando todos 10s individuos tienen el mismo puntaje
verdadero. La varianza de error nunca puede ser mayor que la varianza
total, y la confiabilidad nunca puede ser menor que cero.
Como se indic6 anteriormente, s610 el tamaiio del coeficiente de confiabilidad es afectado por diferencias en la homogeneidad de la muestra. La
cxactitud con que puede estimarse el puntaje verdadero de un individuo
en un cierto test es independiente del grupo de individuos en que se incluya.
PROBLEMAS
1.

~ C d csl la confiabilidad dc un test cuando la proporci6n de la varianza total


cornpuesta de varianza verdadera es a ) 0.45; b ) 0.71, y c ) 0.66?

2.

;CuAl es la confiabilidad dc un :est cuando la proporcibn de la varianza total


cornpuesta de varianza de error es a ) 0.42; b ) 0.22, y c ) 0.56?

3. Para un test dado, s; = 3 y s:


4.

5.

-- 3.

a) Cornputar en cuantas centenas se aurnenta el coeficiente de confiabilidad

b ) Haga el mismo c6rnputo cuando el test se aurnenta en longitud cuatro veces.


U n test con confiabilidad dc 0.34 contiene 80 items.
a ) ~ C u i ser6
l
la confiabilidad si el nlirnero de items se reduce a la rnitad?
b ) ;CuAntos de 10s items originales se necesitara consentar si se considera suficiente una confiabilidad d e 0.90?
7.

U n test compuesto de 40 itcrns con una confiabilidad de 0.64 h a de agrandarse hasta que tenga una confiabilidad de 0.80. i C d n t o s nuevos items del misrno
tipo quc 10s originales deben a ~ r e g a r s e ?

'8.

~ C u a lsera la confiabilidad de un test con r t t


0.70 despues que su longitud
se incrernenta a ) 2 veces; b ) 3 veccls; c ) 4 veces, y ti) 5 veces?

9.

;CuAntas veces debe incrernentarse la longitud de un test con r t t = 0.80 para


que d6 una confiabilidad de a ) 0.90, b ) 0.95?

'

10. En una deterrninada situacibn un grupo de diez evaluadores tienen una confiabilidad entre si de 0.30. Usando la ecuaci6n de Spearman-Brown, calcular el
nbmero dc evaluadores requeridos para obtener una confiabilidad de 0.90. Discuts. la factibilidad de esta acci6n.
11:

Un test tiene s i t = 0.92. Compute la confiabilidad que tendra cuando se use


en un grupo seleccionado cuya desviacibn estandar en la variable es solamente
el 71% de la que tiene la poblacibn.

13.

U n test r e c i h construido time 10s valores r = 10 y r t t = 0.93 para un grupo


normal. Posteriorrnente, se us6 el test con estudiantes de preparatoria y se obtuvo
un coeficiente de confiabilidad de 0.82. Encontrar la desviacibn estandar de la
distribuci6n de puntajes obtenidos por el grupo de estudiantes.

ANDREAS,B. G. (1960). Experiments! psychology. Nueva York: Wiley.


CRONBACH,
L. J., N. RAJARATNAM,
y G. C. C L E S E R(1963). Theory of generalizability: a liberalization of reliability theory. Brit, 1. S t a t . Psychol., nlirn. 16, paginas 137-163.
GULLIKSEN,H. (1950). T h e o r y o / mental tests. Nueva York: Wiley.
SPEARMAN,
C. (1910). Correlation calculated from faulty data. Brit. I . Psychol.,
nlirnero 3, pags. 271-295.

~ C u a les su confiabilidad?

Para el test del problema 3, computar a ) la varianza verdadera; b ) la varianza


de error, y c ) la confiabilidad, cuando su longitud es aurnentada tres veces. Cornparar con la confiabilidad del problerna 3 antes que la longitud sea incrementada.
cuando la longitud es doblada en diferentes niveles. Dibujar la funci6n cuando
r se aurnenta dc 0 a -I-1.

6.

12.

Compute el indicc de confiabilidad dc un tect que tiene una varianza verdadera


s2T = 3 y urla varianza dc error s: = 2.

Lecturas sugeridas
G H I S ~ L L I ,E. E. (1964). T h e o r y oj psychological tnearuretnent. Nueva York:
McGraw-Hill.
LORD,F. M. (1959). An approach to mental test theory. Prychotnetrika, n6m. 24,
paginas 283-302.
y S. M ~ S S I C K
(1960). Inferring the examinee's score. En I. H. GULLIKSEN
(Eds.) Psychological scaling. Nueva York: Wiley.
THORNDIKE,
R. L. (1951). Reliability. En E. F. LINDQUIST(Ed.) Educational
measurement. Washington, D. C.: Am. Council on Educ.
WOODBURY,
M. A. (1963). The stochastical model of mental testing theory and an
application. Psychometrika, n6m. 28, pigs. 39 1-394.

You might also like