Tests Criteriales

Por: Luisa E.
Lezama 2011
Conceptualizacin
Un instrumento estadarizado de medicin busca

asignar un numeral a determinadas propiedades de las
personas con atencin a ciertas reglas; dicho numeral provee
una informacin cuya naturaleza determina el tipo de prueba
que se trate. De este modo, si el nmero asignado a una
persona, adquiere significado cuando se le analiza en funcin
del rea examinada y permite hacer descripciones de esa
persona en atencin a tal rea, se est en presencia de una
prueba referida a un criterio; pero, si el nmero asignado a un
sujeto toma sentido cuando se le compara con el desempeo
de las otras personas de su grupo, debemos reconocernos en
presencia de una prueba normativa.
Como apreciamos el modo de interpretar el nmero asignado por los

instrumentos estandarizados, permite clasificarlos como pruebas criteriales o
como pruebas normativas, cada una de las cuales sigue procesos de construccin
particulares siempre con miras a garantizar ptimas propiedades psicomtricas.
Este captulo trata detalladamente del proceso de diseo y construccin de las
pruebas criteriales o referidas a un criterio, detallando cada una de las etapas,
actividades y procesos estadsticos mas usados; finalmente, se permite
identificar diferencias puntuales entre pruebas normativas y criteriales.
Cuando los asesores, los psiclogos clnicos o los educadores requieren describir
intensa y detalladamente las conductas presentes en el repertorio de una
persona, o identificar sus dficits de cocimientos, o precisar sus competencias en
un rea, debern recurrir a los ya aludidos tests criteriales o tests referidos a un
criterio, los cuales permiten comprar las capacidades o conductas de una persona
con un patrn absoluto que detalla los repertorios conductuales, conocimientos o
destrezas que deberan estar presentes y que son inherentes ese dominio
examinado.
Tomemos como ejemplo una prueba criterial hipottica que llamaremos

Prueba para Matemticas de 5to Grado (PM5) y supongamos que ella
mide, entre otros contenidos, operaciones matemticas bsicas con
fracciones. Como se trata de una prueba referida a un criterio, el
nmero que se le asigne a un examinado permitir describir sus
competencias en esa rea; de ah que si un chico califica con 10 puntos
Conceptualizacin
el examinador podra decir que l es capaz de resolver suma, resta y
multiplicacin de fracciones, pero no maneja lo relativo a multiplicacin
de fracciones, que es lo que previamente se haba determinado para
ese puntaje. Con lo anterior, se quiere significar que con la prueba
referida a un criterio permite describir al evaluado en funcin de un
rea dominio particular identificando lo que est en su repertorio y lo
que no.
Las pruebas criteriales surgieron como una alternativa al uso

inapropiado de las pruebas normativas dentro de los contextos
acadmicos, ya que estas ltimas indicaban por ejemplo que el
estudiante X superaba al estudiante Y o que el estudiante Z fue el
mejor de todos los que tomaron la evaluacin; no obstante, dentro de
ese contexto esa informacin es absolutamente irrelevante. En su
momentos los educadores reconocieron que su inters era poder
describir qu contenidos dominaba o no el estudiante Y; es decir,
determinar que saba, por ejemplo, resolver operaciones bsicos con
nmeros enteros, pero no con fracciones, posibilidad que ofrecen las
pruebas criteriales y no las normativas que eran las que originalmente
se empleaban.
Debido a ese punto de partida, durante algn tiempo las pruebas

referidas a un criterio fueron diseadas y evaluadas usando los
patrones caractersticos de los tests normativos; no obstante, los
desarrollos que tomaron lugar durante la dcada de los 60 y 70
delimitaron procedimientos que permiten conducir anlisis de items,
preparar cuadros de conversin y efectuar estudios de confiabilidad y
validez caractersticos de las pruebas criteriales, independientes de los
estudios llevados a cabo para las pruebas normativas. Dichos
procedimientos son los mismos que se emplean en la actualidad por lo
que frecuentemente nos encontraremos reportando literatura de esas
dcadas en tanto vigentes hoy da.
Test referidos a un criterio 2 Luisa E. Lezama

Con la evolucin del campo de las pruebas a lo largo de dcadas, los
instrumentos criteriales, que se iniciaron como una extensin de los normativos
dentro de los salones de clases, han alcanzado un desarrollo importante tanto
que en pases como Alemania, Blgica, Japn, etc., en el marco del conocido
Programa Internacional de Evaluacin de Estudiantes (PISA), se usan para
examinar el rendimiento de los alumnos con miras a efectuar su valoracin
internacional; tambin son empleadas en el sistema educativo bsico y medio
mexicano, no slo para evaluar el aprovechamiento de los estudiantes, sino para
recabar informacin acerca de la eficiencia del propio Sistema Educativo Nacional
(Backoff, Snchez, Pen, Monroy y Tanamachi, 2006).
Adicionalmente debe destacarse que las pruebas referidas a un criterio,

salieron de los salones de clases y actualmente se emplean en
diversidad de contextos, siempre que se requiera caracterizar a una
persona en atencin a un dominio particular; as por ejemplo, se puede
citar el Intermittent explosive disorder-revised (IED-R) desarrollado
por Coccaro, Kavoussi, Berman y Lish (1998) que representa un
Conceptualizacin
instrumento que contribuye al diagnstico del Trastorno de Explosivo
Intermitente; y tambin la Prueba de Ideacin Suicida de Bravo de
Cardozo y Garbn (1991), instrumento criterial que informa la
frecuencia e intensidad de los pensamientos suicidas.
Independientemente de si la prueba referida a un criterio examinan

conocimiento de matemticas, trastorno de nimo o ideacin suicida es
usual notar que los items que la componen son muy similares a la
conducta que intentan medir; as por ejemplo, si se trata de un
instrumento que examina el trastorno explosivo intermitente podr
apreciarse que los items tendrn que ver con manifestaciones
repentinas de ira intensa, reacciones desproporcionadas ante estmulos
leves, entre otras. En los casos en que la variable examinada resulte
ms abstractas que las anteriormente ejemplificadas, como cuando se
evala la capacidad de anlisis y sntesis de hechos histrico, se
requiere hacer esfuerzos especiales para definir el dominio y garantizar
que los items sean una muestra representativa del mismo.
El anterior es un punto clave dentro de la caracterizacin de los tests

criteriales por lo que sus constructores son especialmente exigentes
con la delimitacin del rea examinar (universo) y luego con la
elaboracin de items que la representen (muestra). En tanto los
reactivos sean representativos del universo medido, el usuario podr
preparar una descripcin detallada de las conductas que se encuentran
en el repertorio del examinado y precisar las ausentes, igualmente
podr identificar lo que puede o no hacer; o lo que sabe y lo que no.

Tavella (1978), seala que hay cinco etapas en
Construccin de un
la construccin de un instrumento de medicin; a saber:
Preparatoria, Exploratoria, Experimental, Definitiva y de
Test Criterial
Revisin. Si bien estas etapas son aludidas frecuentemente al
hablar de test referidos a normas, resultan tiles durante la
preparacin de cualquier otro tipo de test, ya que proveen al
constructor de un esquema de trabajo que deja claro qu
actividades realizar en cada una de ellas y cules son los
estndares de calidad que deben ser alcanzados.
El autor acota que si dentro de una etapa las actividades son

adelantadas con xito se puede pasar a la etapa siguiente,
pero en caso de que los indicadores no den cuenta de calidad,
se requerir regresar a la etapa anterior o tantas etapas hacia
atrs, como sea necesario para alcanzar niveles adecuados de
calidad. Seguidamente se detallas las actividades a desarrollar
en cada una de esas etapas.
En esta etapa se deben alcanzar varios

objetivos, entre los cuales destacan: declarar la poblacin a la
Etapa Preparatoria
que se dirigir la evaluacin; precisar la finalidad del test, es

decir si se emplear para hacer una descripcin o una
estimacin; preparar el esquema descriptivo; decidir el
formato de la prueba; redactar los items y elaborar las
instrucciones de administracin y calificacin.
Cuando la prueba tiene fines predictivos es necesario agregar

una actividad ms a las anteriormente referidas. Dicha
actividad consiste en analizar sistemticamente la variable que
se necesita estimar, de este modo si se quiere predecir el xito
como vendedor de un individuo se podra considerar el nmero
de plizas vendidas mensualmente, o el nmero de
propiedades que expone acerca del producto a vender o el
nmero de personas que reportan que se sintieron bien
atendidas por l, etc. hasta seleccionar el mejor indicador de la
conducta a estimar; posteriormente, se procede a identificar
una variable que pueda anticipar ese xito (predictor) y a
construir el instrumento que permita medirlo.

Ya sea que la prueba criterial se emplee para hacer descripciones detalladas de
un dominio o para predecir, se procede a preparar un Esquema Descriptivo o
Tabla de Especificaciones, a travs de la cual se sistematiza el rea de
comportamiento que se va a evaluar, para lo cual el constructor recurre a una
variedad de fuentes de informacin que le permiten delimitar el universo; entre
ellas usa libros de textos, resmenes, consulta con expertos, entrevista con las
personas en la que efectuar la medicin, observacin sistemtica, etc.
Una vez bosquejado un primer Esquema Descriptivo se solicita a expertos en el

tpico examinado, que evalen la correspondencia entre tal esquema y el rea a
medir. Si es necesario, realiza los ajustes sealados por los expertos a nivel de
las especificaciones para poder continuar su proceso sobre bases firmes.
As por ejemplo, para disear una prueba

como la PM5 el constructor recurrir a
diversas fuentes de informacin (programa Tabla 1
oficiales, maestras, etc.) con lo cual Esquema Descriptivo de la PM5
conforma el Esquema Descriptivo en el
que incluir los contenidos de esa materia Objetivos Contenidos
(operaciones matemticas bsicas con Nmero Fracciones
nmeros enteros y fracciones) y los Enteros
objetivos que se deben alcanzar en ella Conoce trminos 2 3
Resuelve sumas 3 2
(conozca los trminos, resuelva Resuelve restas 3 2
operaciones, aplique las operaciones en Resuelve multiplicaciones 3 2
situaciones de la vida cotidiana). Este Resuelve divisiones 3 2
Aplica a vida cotidiana 3 2
esquema similar al de la tabla 1 se le
Total items 17 13
entrega a expertos para que emitan su
juicio acerca de la correspondencia entre
lo que dice la tabla y el rea Matemticas
Etapa Preparatoria
de 5to Grado.
El esquema descriptivo de una prueba criterial cumple una doble

funcin:
1. Precisa a los redactores de items qu reactivos que deben elaborar,

de modo de cubrir apropiadamente toda el rea examinada, evitar
sobremedir un tpico y dejar otros sin tocar. Si se observa la tabla 1
se pueden apreciar nmeros en sus celdas, ellos representan el
nmero de items que medirn cada cruce de objetivo/contenido; es
decir, la tabla precisa al constructor que debe preparar 3 items para
suma de nmeros enteros, pero 2 para la suma de fracciones, por
ejemplo.
2. Comunica a los usuarios del instrumento qu es lo que ste mide. As, la PM5
de nuestro ejemplo, evala el conocimiento acerca de las operaciones bsicas

con nmeros enteros (17 items) y fraccionarios (13 items), pero no examina
los conocimientos de nmeros negativos, ni de potencia; de este modo
mediante el esquema descriptivo el usuario conoce con precisin qu se
examina y qu no con ese instrumento y consecuentemente qu puede decir
y que no acerca de los examinados.
Una vez ajustado el esquema descriptivo en funcin los juicios de los expertos, el
constructor de pruebas criteriales todava tiene una serie de decisiones que
tomar antes de redactar los reactivos, las cuales tienen que ver con el formato
de la prueba que va a emplear, as como el nmero y tipo de items que deber
elaborar.
En primera instancia debe seleccionar formato de prueba cnsono con el dominio

medido (personalidad o rendimiento, etc.) y con las caractersticas de las
personas a quienes va dirigido (nios, adultos, personas con discapacidad visual,
etc) y al mismo tiempo debe decidir si la prueba ser de papel y lpiz,
administrada por computadora, de ejecucin u oral; si ser de administracin
individual o colectiva o si deber corregirse de forma objetiva o semiobjetiva,
manual o por computadora, de modo de verificar que cuenta con los recursos
humanos y materiales para tales fines.
La decisin en torno al nmero de items de la prueba no es sencilla. El

constructor debe tener en cuenta tres aspectos esenciales:
1. El nivel mnimo de habilidad exigida al examinado, de modo que si la

prueba demanda un rendimiento del 95% de items correctos, debe
tener menos reactivos que si exige slo un desepeo de 50% de
items correctos (Dembo, 1983).
Etapa Preparatoria
2. El nivel estimado de funcionamiento de los examinados; cuando se
suponga que tal nivel de funcionamiento es alto, se deben emplear
ms items que cuando se estime que es bajo.
3. La proporcin de prdida, que alude a dos tipos de errores: a) decir

que una persona posee una destreza o conducta cuando no la
posee; o b) decir que no la tiene cuando efectivamente est en su
repertorio. Mientras mayor sea la probabilidad de cometer este tipo
de error mayor deber ser el nmero de reactivos incluidos en el
test. Todo esto se conversa con los expertos durante la construccin
del Esquema Descriptivo de prueba para recibir su opinin acerca de
este tpico.

En cualquier caso, el error ms importante que hay que evitar cometer con
relacin a la longitud de una prueba criterial es el de demasiado pocos. Popham
(1978) recomienda, con base a su experiencia, medir cada tpico con entre 10 y
20 reactivos, con lo cual se evita el error obvio de usar unos pocos items para
conocer el estatus del examinado respecto a un rea de comportamiento.
Una vez delimitados los tpicos a medir, a travs del Esquema

Descriptivo, y hechas las consideraciones en torno al nmero de
reactivos, el constructor selecciona el tipo de item que va a preparar en
funcin de los procesos mentales que quiera elicitar. Tiene para escoger
entre items de respuesta breve, verdadero falso, eleccin mltiple,
pictricos, de apareamiento o de ensayo. Puede, por ejemplo, recurrir a
un item de tipo respuesta breve si debe medir el recuerdo o la
memoria; a items pictricos si se quiere conocer la capacidad para
Preparatoria
transformar informacin de prosa a grfico o viceversa; a items de
verdadero falso si quiere saber si una gama de conductas est dentro
del repertorio de un examinado; o a items de eleccin mltiple si la
persona debe efectuar algn proceso de evaluacin y sntesis.
La redaccin de items de un test criterial se hace siguiendo las

especificaciones del Esquema Descriptivo; es decir, se preparan los
reactivos sealados en dicho esquema, lo cual permite garantizar la
produccin de un conjunto de elementos que representan legtimamente
el rea del comportamiento medida, caso en el cual se dice que los
reactivos poseen homogeneidad derivativa. Como se puede apreciar no
hablamos de una homogeneidad funcional en el sentido de que los
examinados deben contestar todos los items correcta o
incorrectamente, lo que se est diciendo es que los items sern
Etapa
homogneos en tanto sean congruentes con las especificaciones del
test.
Otra actividad que se lleva a cabo durante la etapa Preparatoria es la

redaccin de las instrucciones para los examinados y para los
calificadores. En las instrucciones para los examinados se les indica, en
un lenguaje claro y sencillo, el tipo de ejecucin que se requiere de
ellos, el tiempo que podran tardar en contestar y el modo de registrar
sus respuestas; en las instrucciones para los calificadores se detalla la
forma de corregir, si habr o no bonificaciones, cundo descontinuar la
administracin, etc. ien en esta etapa se redactan las instrucciones,
stas debern ser consideradas a la luz de su funcionamiento en la
prctica con lo cual su y ajustes respectivos se consideran en las
etapas subsiguientes de la construccin de la prueba.
Una vez que se han llevado a cabo estas actividades el constructor de prueba

dispone de un instrumento completo que posee homogeneidad derivativa, un
formato de prueba congruente con la variable examinada y con la poblacin
objeto de evaluacin, conformada por items ajustados al proceso de inters, lo
que hace posible avanzar a la etapa siguiente de la elaboracin de la prueba.
El objetivo fundamental que persigue el

constructor de una prueba criterial durante la etapa
Exploratoria
exploratoria es evaluar la calidad de los reactivos preparados

en la etapa anterior, para lo cual los somete a dos tipos de
Etapa
anlisis, uno cualitativo regularmente llamado a priori y otro

cuantitativo denominado a posteriori. Adicionalmente, durante
esta etapa precisa la duracin de la prueba y evala el
funcionamiento de las instrucciones para la administracin y
para la calificacin del instrumento
Procedimientos a priori
Para efectuar este anlisis se recurre, una vez ms, a expertos en el rea
examinada, quienes deben evaluar la congruencia de los items con las
especificaciones de las cuales ellos se derivaron. Cada experto deber sealar si
un item es congruente o no con sus especificaciones y en los casos de
incongruencias deber sealarlo argumentando tal categorizacin. Aquellos
reactivos considerados congruentes por todos los expertos van directamente a la
prueba, pero cuando dos o ms expertos lo identifican como incongruente y
sealan las mismas razones, hay evidencias suficientes para descartarlo. Si slo
un experto hace algn sealamiento en torno a un reactivo ste deber ser
mejorado en el sentido sealado por ese experto.
Siempre es ms trabajoso categorizar un item como incongruente ya que hay

que argumentar los motivos para tal juicio. Algunos expertos pueden suavizar su
opinin para ahorrarse trabajo, por tal motivo el constructor de prueba debe
desarrollar estrategias que le permitan precisar la calidad del juicio de los
expertos, como por ejemplo intercalar 3 items incongruentes por cada 25 a
evaluar, esperando que los expertos detecten la incongruencia con las
especificaciones, en una suerte de escala de sinceridad. Las opiniones de

aquellos expertos que omitan dos o ms items expresamente incongruentes
sern totalmente descartadas.
Procedimientos a posteriori
Una vez que los reactivos han sido sometidos a un anlisis de congruencia por
parte de un panel de expertos, el constructor de la prueba efecta los ajustes
correspondientes y procede al llamado anlisis a posteriori, el cual consiste en
adelantar una evaluacin estadstica de los items y de la prueba total, una vez
que administrada a un grupo de criterio. Los miembros de dicho grupo, se
seleccionan segn su nivel de conducta en el rea evaluada de un modo
absolutamente intencional, nunca azaroso; es decir, si la prueba realiza
diagnsticos de lesiones cerebrales, la muestra de criterio debe estar conformada
por personas que hayan sufrido un accidente cerebrovascular o algn otra tipo de
afectacin
Para efectuar el anlisis estadstico a posteriori el constructor de una

prueba criterial recurre a uno de dos tipos de diseos de investigacin y
con los datos obtenidos de estos procedimientos efecta el anlisis
cualitativo de los reactivos. A continuacin se presentan los dos diseos
Etapa Exploratoria
y posteriormente se detallarn los estadsticos pertinentes para evaluar
los items de pruebas criteriales.
Diseos
Diseo de Dos Grupos o de Grupos Contrastados
Se seleccionan intencionalmente los miembros de dos grupos de modo

que los integrantes de uno de ellos posean la habilidad o caracterstica
examinada por la prueba y los participantes del otro no la posean. Bajo
igualdad de condiciones se administra la prueba criterial a los dos
grupos contrastados y se somete los datos a un anlisis estadstico,
esperando que la mayora de las personas que poseen la habilidad
hagan bien cada reactivo y quienes no poseen tal habilidad lo hagan
mal.
Para efectuar un anlisis a posteriori de la PM5 que aludimos antes, su

constructor podra seleccionar un grupo que haya cursado quinto grado y otro
que est en tercero y a ambos administrarles la PM5. Si el instrumento
efectivamente examina el aprovechamiento de matemticas en el grado, los

alumnos de quinto deberan mostrar una excelente ejecucin, la cual contrastara
notablemente con el comportamiento de los alumnos tercer grado.
Diseo de Pre Postest
En este caso el constructor del instrumento selecciona un solo grupo de criterio al

cual le administra la prueba criterial, luego lo somete a alguna manipulacin
efectiva de la variable medida por el instrumento y posteriormente aplica el
mismo o su forma paralela. Se espera que si la prueba criterial mide el dominio
especificado, las personas obtengan una deficiente ejecucin en el pretest que
contraste con su buena ejecucin en el postest.
En el ejemplo de la Prueba de Matemticas para 5to Grado, que se

viene comentando, el constructor podra proceder administrando la
prueba el primer da del ao escolar y luego cuando ste ha finalizado.
Se espera que en la primera aplicacin el instrumento revele una pobre
ejecucin por parte de los examinados y un alto rendimiento en el
posttest.
Independientemente del diseo empleado (dos grupos o pre postest) el

constructor de pruebas deber considerar las variables extraas que
Etapa Exploratoria
podran afectar su investigacin tales como la maduracin, la
adivinacin, la memoria, el mismo test, etc. e introducir los mecanismos
de control de variables extraas que pudieran afectar los datos.
Anlisis Estadsticos
Una vez que el constructor del instrumento selecciona el diseo de

investigacin pertinente y lo administra al grupo de criterio, debe
procesar estadsticamente su base de datos para dar cuenta de la
dificultad y la capacidad discriminativa de los items que conforma el
instrumento.
Con dichos estadsticos persigue dos objetivos fundamentales: a. Efectuar un

anlisis intra grupo, es decir, analizar la congruencia de los reactivos respecto al
comportamiento del grupo de criterio si emple un diseo de grupos
contrastados, o a la situacin experimental si us un diseo de pre postest; y b.
Adelantar un anlisis entre grupos, es decir comparar el comportamiento de un
reactivo en un grupo con su comportamiento en el otro o en una situacin
experimental con la otra (Berk, 1980).

A continuacin se detallan los anlisis relativos a la dificulta y la capacidad
discriminativa de los items dejando claro que cada anlisis deber cubrir los dos
objetivos mencionados anteriormente:
Dificultad del item
La Dificultad del item (p) se obtiene al contar el nmero de personas

que lo contestan correctamente (f) y dividirlo entre el nmero de
personas del grupo (N) p f . Se expresa en una escala de proporcin,
N
por lo cual asume valores entre 0 y 1, de modo que mientras ms
Etapa Exploratoria
cercano a 1 ms fcil ser el reactivo, mientras ms cercano a cero ms
difcil resultar; as, un item cuya p=0.60 informa que el 60% de las
personas del grupo lo contest correctamente.
Si se retoma el ejemplo de la PM5 y se plantea a la hora de hacer el

anlisis a posteriori, aplicar un diseo de pre postest, la evaluacin de
los reactivos considerando su nivel de dificultan llevar a categorizar
como un buen item aquel que arroje: un nivel de dificultad cercano a
cero en el pretest, cercano a 1 en el postest y revele diferencias
significativas entre el pre y el post test. Un reactivo ser categorizado
como inapropiado, por ejemplo, si resulta fcil en el pretest (p cercana
a 1), o difcil en postest (p cercana a 0) o con niveles de dificultad
similares en pre y postest.
En sntesis se puede afirmar que, en trminos del nivel de dificultad,

para una prueba criterial ser bueno aquel reactivo que resulte muy
difcil en el pretest o para el grupo sin la habilidad y al mismo tiempo
fcil en el postest o para el grupo con la habilidad y que demuestre
diferencias estadsticamente significativa entre las condiciones
comparadas.
Capacidad Discriminativa del item
Segn Berk (1980) la capacidad discriminativa de un item de una prueba referida

a un criterio se puede estimar a partir de los mtodos de Cox y Vargas y de Klein
y Kosekoff, que estn sujetos al diseo de investigacin empleado.

Mtodo de Cox y Vargas
Tambin denominado mtodo de sensibilidad instruccional se aplica en los

diseos de pre y postest y asume valores entre +1 y -1. El constructor de
pruebas calcula el ndice de discriminacin de cada item restando a la proporcin
de personas que lo contesta correctamente en el postest, la proporcin de
personas que lo contesta correctamente en el pretest.
La tabla 2 muestra que el item 1

Tabla 2. revela la mayor capacidad
ndice de Discriminacin de Cox y discriminativa, entre los tres items
Vargas ejemplo, ya que es contestado
correctamente por todas las
N de p en p en Cox y personas en el postest e
Item Postest Pretest
Vargas incorrectamente por todos en el
pretest. Esto es precisamente lo
1 1 0 +1 que se busca de un reactivo en una
prueba criterial: que sea capaz de
2 0 1 -1
diferenciar entre aquellos que
3 0.20 0.20 0 poseen el dominio o el rasgo
considerado, de aquellos que no los
poseen.
El reactivo 2, en cambio, es contestado bien por todas las personas en

el pretest, pero mal por todos en el postest, lo cual es completamente
opuesto a lo que se busca de un item en un test criterial, donde
despus de recibir el adiestramiento es que se debe observar buena
Etapa Exploratoria
ejecucin en los reactivos y no antes; ello hace del 2 un item
descartable. Los planteamientos que muestran el mismo
comportamiento tanto en el pre como en el postest tambin deben ser
eliminados puesto que no suministran capacidad discriminativa a la
prueba, lo cual se puede observar en el item 3 que fue contestado
correctamente tanto en el pre como en el postest por el 20% de las
personas, resultando cero su capacidad discriminativa.
En sntesis, mientras ms se acerque a +1 el ndice de Cox y Vargas

mayor ser la capacidad discriminativa de una prueba criterial cuyo
anlisis a posteriori se basa en un diseo de pre postprueba.

Mtodo de Klein y Kosekoff
Se aplica en los diseos de dos grupos o grupos contrastados y asume valores

entre +1 y -1. El constructor de pruebas calcula el ndice de discriminacin de
cada item restando a la proporcin de personas que lo contesta correctamente
en el grupo que sabe posee el dominio o la caracterstica considerada, la
proporcin de personas que lo contesta correctamente en el grupo que sabe no
posee el dominio. El tipo de anlisis es anlogo al recientemente detallado para
el mtodo de Cox y Vargas.
Un constructor de pruebas criteriales, mientras lleva a cabo el anlisis

estadsticos de los reactivos debe mantener presente el Esquema Descriptivo
que elabor para, en funcin de l y recurriendo a los anlisis tanto a priori
como a posteriori, decidir cules items son definitivamente aceptados o
descartados del instrumento. Ser una medida inapropiada descartar items
cualitativamente congruentes porque no cumplieron todos los estndares
estadsticos, tambin ser una medida equivocada descartar todos lo reactivos
que miden un mismo aspecto sin reemplazarlos por otros de mejor calidad ya
que se estara dejando de cumplir con las especificaciones de la prueba.
Cuando se han construido reactivos de eleccin mltiple, es apropiado

analizar el comportamiento de las opciones, del mismo modo como se
acaba de resear que se examinan las respuestas correctas de los
items. En los casos que tal anlisis resulte insuficiente, es
recomendable adelantar un Anlisis de Procesos en el cual se solicita a
algunas personas del grupo de criterio que relaten los pasos que le
llevaron a seleccionar una determinar opcin. Este bagaje de
informacin permite al constructor de pruebas tomar decisiones en
Etapa Exploratoria
torno a la calidad de un reactivo.
Despus de realizar el anlisis de los reactivos siguiendo los

procedimientos a priori y a posteriori el constructor debe tomar
decisiones en torno al funcionamiento de las instrucciones de
administracin y correccin de la prueba e igualmente precisar el
tiempo de administracin que demanda el instrumento segn lo que
haya ocurrido cuando la administr a los participantes.

Cuando los elementos que componen del
Experimental
instrumento han sido analizados y ajustados segn las
directrices de los anlisis cualitativos y cuantitativos de los
ejercicios pilotos llevado a cabo durante la etapa exploratoria,
Etapa
cuando ya se han optimizado las instrucciones y cuando se

tiene precisin en torno a la duracin de la prueba, sta se
administra nuevamente a una muestra intencional con la
misin de verificar el ptimo funcionamiento de los reactivos y
del instrumento como totalidad, tal y como qued despus de
todas las correcciones y modificaciones. Si se observa que los
ajustes han sido adecuados se pasa a la siguiente etapa.
Esta etapa toma lugar cuando el instrumento en

construccin tiene tal nivel en sus items que puede procederse
a efectuar los estudios requeridos para dotarlo de las
propiedades de confiabilidad y validez, as como para elaborar
Definitiva
los cuadros de conversin pertinentes. Si bien es cierto que en

trminos formales es en esta etapa que se realizan estos
Etapa
estudios y son los datos derivados de ellos los que se registran

el manual de la prueba, no es menos cierto que los resultados
a obtener ac ya se pueden intuir en tanto las etapas
Exploratorias como Experimental sientan las bases para que
en esta etapa Definitiva se pueda garantizar indicadores
psicomtricos de calidad. Seguidamente se exponen con cierto
nivel de precisin las actividades que llevadas a cabo en
cuarta etapa de construccin.
Confiabilidad
La confiabilidad de una prueba criterial alude a la consistencia o repetibilidad con la
cual se puede describir el comportamiento de una persona en relacin a ese dominio
conductual. El constructor de este tipo de pruebas puede dar cuenta de tal
consistencia o repetibilidad en uno en distintos sentidos: o bien determinar cun
estables en el tiempo son las decisiones que la prueba ayuda a tomar; precisar cun
equivalentes son dos pruebas paralelas a la hora de tomar decisiones; o verificar si la
prueba es internamente consistente; o conocer el acuerdo entre observadores
necesario cuando el instrumento sea de calificacin semiobjetiva. Seguidamente cada
uno de ellos.

Test retest
Cuando se necesitan evidencias de que las descripciones y las decisiones que la

prueba ayuda a tomar un da son las mismas que las descripciones y las
decisiones tomadas dentro de un tiempo, se hace indispensable efectuar estudios
de estabilidad.
El esquema tradicional de trabajo para las pruebas normativas, en situaciones

como esta, consiste en administrar el instrumento a un grupo dejar pasar un
tiempo y administrarlo de nuevo bajo idnticas condiciones, para proceder a
determinar una correlacin generalmente producto momento de Pearson; no
obstante, dicho procedimiento demanda condiciones especiales de varianza que
no se presentan cuando la prueba diseada es del tipo criterial, por lo que los
resultados obtenidos a travs de la correlacin de Pearson, as como todos los
procedimientos tradicionales son espurios.
Para superar tal limitacin dentro del contexto de las pruebas referidas
a un criterio se ha propuesto el clculo de una variedad de ndices,
entre los cuales Almerich y Bo Bonet (2006) refieren las propuestas de
Hambleton y Novick, Livingston, Berk y Subkoviak, y muy especialmente se
destaca el procedimiento usado por Popham.
Etapa Definitiva
Popham (1978) propone un esquema de trabajo parsimonioso a la hora
de determinar la estabilidad temporal de las decisiones tomadas. En
tanto la idea es responder la pregunta es consistente este instrumento
al clasificar a las personas en una de dos (aceptados y rechazados) o
ms (normal, anorexia subclnica, anorexia) categoras?, la respuesta
podra conllevar a: 1. administrar la prueba (test) y clasificar a las
personas en la categora correspondiente; 2. tiempo despus repetir el
proceso (retest) con las mismas personas; y 3. correr alguna prueba de
significacin estadstica (Chi Cuadrado 2, p.e.). En el caso de que no
se rechace la hiptesis nula, se puede afirmar que el instrumento lleva a
tomar ms o menos las mimas decisiones en los dos momentos, lo cual
implica que es consistente a la hora de tomar decisiones.
Formas Paralelas
Hay ocasiones en las que se requiere ms de una forma de un mismo test como,
por ejemplo, cuando se aplica una misma prueba con mucha frecuencia o
cuando se necesita administrar el instrumento en un pre y postest, pero el
intervalo es muy corto para garantizar que la misma prueba no funcione como
variable extraa. En tales casos el constructor de pruebas puede recurrir a

preparar pruebas paralelas y a confiabilizarlas a travs de un procedimiento de
equivalencia.
Para preparar dos pruebas equivalente se elaboran los reactivos de cada una de
las formas a partir del mismo Esquema Descriptivo para luego adelantar los
anlisis de congruencia y estadsticos reseados antes, manteniendo siempre en
mente que dichas formas deben poseer homogeneidad derivativa.
Posteriormente, se administran esas dos pruebas consecutivamente a un grupo
de criterio y los datos obtenidos se procesan estadsticamente (Chi Cuadrada 2,
pe.); si no existen diferencias significativas entre los datos derivados de las dos
pruebas equivalente se implica que sus resultados son repetibles, de lo que se
afirma que poseen confiabilidad de formas paralelas.
Consistencia Interna
Aunque en las pruebas referidas a un criterio interesa

fundamentalmente si los reactivos son congruentes con el Esquema
Descriptivo, es decir, si poseen homogeneidad derivativa lo cual se
propicia durante la Etapa Exploratoria cuando se adelantan los llamados
estudios a priori tambin se puede recurrir al anlisis de la
Etapa Definitiva
homogeneidad de un rea o dimensin, para as dar cuenta de la
confiabilidad de consistencia interna del instrumento.
La homogeneidad informa si un grupo de reactivos son congruentes al

examinar el dominio que pretenden medir; es decir, si los items que
miden suma de fracciones generan patrones repetibles de respuestas o
si son consistentes entre si los que miden multiplicacin de nmero
enteros. Para generar un estadstico se puede comparar, usando una
prueba 2, la frecuencia de las respuestas correctas a cada reactivo
con la mediana de su respectiva rea; si todos los items miden el
mismo dominio no debera haber diferencias estadsticamente
significativas, en cuyo caso se afirmara que esa rea est conformada
por reactivos consistentes entre si.
Hay que ser especialmente cuidadoso cuando se analicen reactivos que midan un
dominio heterogneo para no sobrexigirles indicadores de homogeneidad cuando
efectivamente el dominio es heterogneo. As, cuando los datos revelen
heterogeneidad, corresponde al constructor de test analizar cualitativamente los
reactivos y contrastarlos con las especificaciones de la prueba, a los fines de
detectar si esa heterogeneidad es caracterstica de la variable, caso en el que no
se le hacen ajustes; o si es necesario modificar los reactivos.

Acuerdo entre Calificadores
Informa el grado en que dos observadores concuerdan en la calificacin asignada

con un instrumento, consecuentemente su utilidad existe en tanto el instrumento
que se est diseando requiera de una calificacin semiobjetiva; es decir, la
confiabilidad de acuerdo entre jueces carece de sentido si el instrumento es de
calificacin objetiva o se corrige de modo automatizado ya que en ellos nunca
habr desacuerdo en la calificacin asignada, siempre que se respeten las
condiciones de estandarizacin.
Para establecer la confiabilidad de un instrumento de calificacin semiobjetiva se

solicita a dos o ms personas que corrijan el mismo instrumento. Los datos
obtenidos pueden ser analizados atendiendo: o a la naturaleza de los datos
generados (correlacin Producto Momento de Pearson, Phi, puntobiserial, o de
Contingencia, etc); o a la dimensin relevante de la conducta examinada como lo
pueden ser frecuencia, duracin, intensidad (Lacasella, 2000); o las etiquetas
asignadas por los evaluadores usando a un procedimiento de Chi cuadrado.
Antes de concluir la exposicin en relacin a la confiabilidad deben

sealarse dos cosas: La primera es que, los procedimientos reseados
Etapa Definitiva
antes no son excluyentes entre si; es decir, si para probar la calidad de
un instrumento se requieren determinar su confiabilidad de retest y de
consistencia interna, ambos procedimientos deber ser llevados a cabo,
as como igual que cualquier otra combinacin que sea pertinente. La
segunda es que, el diseador de pruebas est en el deber de reportar
detalladamente en el manual los procedimientos, muestras de personas
y resultados de los estudios de confiabilidad adelantados, con el objetivo
de proveer a los eventuales usuarios de recursos para tomar decisiones
acerca de la conveniencia de emplear el instrumento en cuestin.
Validez
Dado que un test criterial se puede emplear para describir un dominio particular
o para predecir otra variable, su construccin conlleva la implementacin de
estudios que garanticen que el instrumento sirve a estos fines (Linn, 1980), para
lo cual el diseador puede recurrir a tres tipos de enfoques de validacin; a
saber, validez de seleccin de dominio, validez descriptiva y validez funcional
(Popham, 1978), cada una de las cuales son detalladas de seguida.

De Seleccin de Dominio
Esta tiene que ver con dar cuenta de que el instrumento muestrea
adecuadamente el universo a examinar, por lo cual se afirma que alude
fundamentalmente a la calidad con la que se delimita el dominio medido, con las
especificaciones de la prueba y con la pertinencia de los reactivos preparados.
Aunque este tipo de validez se delimita en esta Etapa Definitiva del diseo de un
instrumento, su constructor trabaja en ella desde el momento mismo de su
conceptualizacin al: 1. delimitar el dominio a examinar; 2. hacer que paneles de
expertos examinen su tabla de especificaciones; 3. preparar los reactivos en
funcin de ella; 4. solicitar que otro panel de expertos evale la congruencia de
los items en relacin a las especificaciones; y 5. dar preponderancia a las
evaluaciones cualitativas sobre las cuantitativas de los reactivos.
El constructor de prueba debe recurrir a recursos como la revisin de

libros de textos, resmenes, programas oficiales de las materias,
manuales psiquitricos, hallazgos empricos, observacin directa,
sesiones de entrevistas, etc, con el fin de documentarse en el rea que
Etapa Definitiva
examinar. Adicionalmente, debe seleccionar apropiadamente al panel
de expertos que examinrn las especificaciones de la prueba e
implementar los juicios de congruencia de los items; mientras ms
numerosos y calificados acadmica y experiencialmente sean, mayores
garantas se tendr de que la prueba posee validez de seleccin de
dominio.
Si bien no es lo usual, tambin se pueden obtener evidencias numricas

de validez de seleccin de dominio correlacionando este instrumento
criterial con otro que se sepa mide el mismo dominio, lo cual es un
procedimiento muy similar a la validez de constructo de las pruebas
normativas, pero dado que tiene poco sentido construir un instrumento
para describir exactamente el mismo dominio esta estrategia es poco
empleada, amn del asunto metodolgico que tienen que ver con el
anlisis de la varianza caracterstico de las pruebas referidas a un
dominio.
Validez Descriptiva
Informa qu significa la puntuacin de una persona en la prueba, al proveer de

una descripcin clara del dominio conductual que mide el test. Si el instrumento
no permite hacer una descripcin exhaustiva de la conducta, conocimiento o
habilidades cubiertos por l se le catalogar como no-vlido.

Para disponer de evidencia emprica se llevan a cabo los llamados juicios de
validez descriptiva, consistentes en estudios en los que se solicita a usuarios
potenciales del instrumento que elaboren reactivos segn el Esquema Descriptivo
del test y posteriormente se pide a otras personas que determinen la
congruencia de dichos items con las especificaciones del test, si las
especificaciones de la prueba pudieron ser comprendidas claramente por tales
usuarios potenciales y ellos fueron capaces de preparar y/o juzgar reactivos
congruentes con las especificaciones, se puede concluir que los usuarios de la
prueba llegarn a descripciones similares acerca de la ejecucin de una persona
y que las mismas sern ajustadas al dominio examinado.
Por ejemplo, para informar acerca de la validez descriptiva de la PM5 se

puede pedir a seis usuarios potenciales del instrumento que preparen
cada uno 2 items para determinada especificacin (multiplicacin de
fracciones, p.e.); posteriormente esos 12 items, se entregan a otras
Etapa Definitiva
tres personas para que juzguen la homogeneidad derivativa de los
reactivos; si la mayora de los items (90% o ms) son relacionados con
su especificacin correspondiente (multiplicacin de fracciones p.e.) se
puede afirmar que cualquier usuario del PM5 ser capaz de comprender
las especificaciones de la prueba y describir apropiadamente la
ejecucin de un examinado.
Validez Funcional
Cuando se dan pasos para preparar la prueba y se llevan a efecto juicios

de validez descriptiva se tiene informacin que el instrumento funciona
para describir el dominio, pero cuando se le emplea para efectuar
estimaciones hay que exponer evidencias de validez funcional.
La prediccin que se quiere efectuar con el instrumento determinar el tipo de

estudio a realizar. Como quiera, es necesario disear el instrumento (predictor),
especificar las medidas del criterio, administrar ambos instrumentos y asociar los
puntajes obtenidos; si esa asociacin es alta y significativa se puede afirmar que
el predictor (prueba criterial) puede usarse para hacer estimaciones en el
criterio. En ese sentido, la prueba criterial, posee validez funcional.
Si por ejemplo, se quiere emplear la PM5 para predecir el rendimiento en

matemticas de 6to Grado, se pueden asociar las calificaciones de un grupo de
nios en el PM5, tomado al concluir el perodo acadmico, con sus calificaciones
en 6to grado, una vez que han concluido ese ao; si esa asociacin es

significativa se puede concluir que conociendo el nivel de aprovechamiento en el
dominio medido por el PM5, se puede anticipar el desempeo en el 6togrado.
Un aspecto que se debe mantener presente es que la misin fundamental de un

test referido a criterio es hacer descripciones sustanciales de una conducta,
habilidad o aprendizaje por lo que nunca se deber sacrificar esta misin en aras
de tomar decisiones o hacer predicciones. Cualquier intento de sacrificio de esta
en este sentido deber ser abandonado (Popham, 1978).
Tipos de Calificaciones
Al tiempo que el constructor de una prueba criterial delimita el dominio
a medir esquematiza una escala para reportar la ejecucin en la
prueba, la cual le permitir comunicar el nivel de ejecucin de la
persona examinada. Para precisar la escala que emplear debe
considerar los fines del instrumento: si ser empleado para describir la
ejecucin, se recurrir al diseo de escalas relacionadas con el
Etapa Definitiva
contenido, pero si se usar para estimar la ejecucin en un criterio se
recurrir a escalas relacionadas con el rendimiento.
Lo comn a ambos grupos de calificaciones es que sus significados se

establecen a priori ,o sea sin esperar ver cmo se comportan los
examinados; es decir, en la medida que se construyen los items el
diseador va visualizando lo que significan determinados puntajes con
lo llega a establecer que 10 respuestas afirmativas implican un
trastorno de nimo de tipo distmico, por ejemplo. Aunque los
significados de las calificaciones de las pruebas referidas a un criterio
se tiene claros desde temprano en el proceso de construccin de la
prueba, es menester esperar disponer de los reportes formales de
confiabilidad y validez antes de proceder a precisarlos, por tal razn la
literatura seala que se deben preparar en Etapa Definitiva.
Escalas relacionadas con el contenido

Estas escalas permiten describir si una persona posee o no y con cules
caractersticas un dominio especfico. Entre ellas se encuentran las Calificaciones
de Corte, el Porcentaje de Respuestas Correctas, las Calificaciones Estndares de
Contenido y las Escalas de Clasificacin.

Calificaciones de habilidad o Nivel de pase
Cuando el objetivo de la prueba es informar si una persona ha alcanzado o no un

nivel determinado de destreza, si aprehendi o no las competencias, si adquiri o
no los conocimientos se emplea como calificacin el conocido el nivel de pase; es
decir, el nivel mnimo de perfeccionamiento aceptado, de modo que si una
persona alcanza esa calificacin o una ms alta que ella, se puede afirmar que
posee el dominio del material, de la conducta o de la competencia. El ejemplo
tpico de nivel de corte, es el puntaje 10 en el sistema educativo venezolano,
donde quien puntea 10 o ms aprueba y quien punte 9 o menos se deber
repetir el curso; o tambin la calificacin de 40 en las pruebas NECAP del
programa de educacin comn de Nueva Inglaterra, donde resultados de 40 y
ms indican una habilidad por encima del nivel competente y resultados de
menos de 39 indican habilidad por debajo del nivel competente.
Es importante sealar que cuando se trata de escalas dicotmicas de

habilidad, cualquier calificacin por debajo o por encima del nivel de
pase tiene el mismo significado. As por ejemplo, si en la PM5 el nivel
de pase es 30 puntos una calificacin de 10 puntos o de 29 se
Etapa Definitiva
considerar que poseen el mismo significado; y una calificacin de 31
puntos tendr el mismo significado que una de 40. Esta es considerada
una limitacin de tales puntajes y la razn por la cual suelen emplearse
en conjunto con otro tipo de calificaciones.
Porcentaje de Respuestas Correctas
Como se acaba de sealar, cando se reporta la ejecucin en trminos

de niveles de pase o fracaso, se pierde gran cantidad de informacin, lo
que se puede superar informando, adicionalmente, la calificacin de la
persona segn su ubicacin en un continuo de destreza o habilidad a
travs del porcentaje o proporcin de reactivos contestados
correctamente, que se obtiene de: % de respuestas =nmero de respuestas
correctas/nmero total de preguntas, en cada rea de contenido.
Cuando se recurre a emplear el porcentaje de respuestas correctas, el usuario

debe tener presente que dos personas pueden obtener la misma calificacin
(porcentaje de respuestas correctas) en una misma rea aunque hayan
contestado correctamente diferentes reactivos, por tal razn se debe examinar
con detalle cules son esas respuestas correctas y preparar informes
particularizados, lo cual es obvio para las pruebas referidas a un criterio que
encuentran en esta particularizacin su esencia.

Calificaciones Estndar de Contenido
Este tipo de calificaciones son empleadas en aquellos instrumentos cuyos

constructores estandarizan incluso la interpretacin de las puntuaciones que
recogen dichos instrumentos, al indicar el significado de rangos de puntuaciones;
es decir, hay una seccin enla prueba donde se reporta que obtener
puntuaciones entre X y Y tiene determinado significado, y que obtener
puntuaciones entre Z y W tiene este otro significado, los cuales se detallan
extensamente de modo que el usuario disponga de categoras descriptivas de las
caractersticas de los examinados. Es de hacer notar que este tipo de
calificaciones demanda un riguroso proceso de construccin y seleccin de items,
para poder garantizar que una misma puntuacin tenga un nico significado, ya
que debe provenir de una nica combinacin de respuesta de los examinados.
Un ejemplo del uso de este tipo calificacin se puede apreciar en El

Programa de Evaluacin de Extensin 1 de California del Norte, el cual
examina varias reas de conocimientos entre ellas la Lectura, cuyas
calificaciones para alumnos del dcimo ao oscilan entre 0 y 30 y estn
Etapa Definitiva
expresada en estndares de contenido, por lo que tienen varios rangos
de calificaciones. Uno de esos rangos es, por ejemplo, el estndar de
contenido de 26 al 30, que permite afirmar acerca de un alumno que
caiga en ese rango que Demuestra destrezas de lectura que van ms all de
las exigencias establecidas para el dcimo grado en Carolina del Norte. Comprende
una variedad de textos informativos, argumentativos y expresivos. Es capaz de
evaluar relaciones causa/efecto, problemas/soluciones expresados en textos La
prueba dispone de una descripcin anloga a la reseada para cada uno
de los rangos de puntajes.
Escalas de Clasificacin
Las escalas de clasificacin representan el modo de presentar las calificaciones

en aquellas pruebas que asignan etiquetas a determinados rangos de
calificaciones. En cierto sentido son anlogas a las calificaciones estndares de
contenido al establecer rangos de calificaciones, pero adicionalmente proveen
rtulos que le son asignadas a los examinados que caigan en esos rangos. Un
ejemplo de este tipo de puntuaciones son las empleadas en instrumentos como
la Escala de Conners (Conners, 1989) utilizada para clasificar a nios con o sin
trastorno por dficit de atencin con hiperactividad. Mediante dicha escala se
pueden asignar tres etiquetas diagnsticas, a saber; trastorno por dficit de
atencin con hiperactividad, con predominio de dficit de atencin (DA),
trastorno por dficit de atencin con hiperactividad, con predominio hiperactivo-

impulsivo (HI) o trastorno por dficit de atencin con hiperactividad, tipo
combinado (TC).
Si se analiza con detenimiento es posible percatarse que las escalas de

clasificacin y las calificaciones estndares de contenido, en esencia
obedecen a un mismo principio; esto es una vez obtenida la calificacin
directa del instrumento se ubica dentro de un rango que informa el
comportamiento caracterstico del examinado. La diferencia esencial
quizs estribe en el hecho de que las calificaciones estndares de
contenido son de uso exclusivo de la medicin en contextos acadmicos
donde la etiqueta diagnstica es irrelevante y la preponderancia la
tienen las fortalezas y debilidades del aprendizaje del estudiante
examinado; mientras que, en el caso de las escalas de clasificacin la
etiqueta diagnstica ocupa el lugar central en tanto se busca
Etapa Definitiva
justamente asignar determinado rtulo al evaluado a los fines de
segmentarlo y separarlo de otros posibles diagnstico, con lo cual este
tipo de calificacin suele ser ms frecuente en Psicologa.
Escalas Relacionadas con el Rendimiento
Hasta ahora han sido consideradas las calificaciones en funcin del

contenido muestreado, ya sea al describir si una persona tiene o no la
capacidad o la caracterstica examinada o al precisar la calidad o
intensidad con que la posee; no obstante, con este tipo de calificaciones
no se pueden hacer estimaciones del comportamiento de los evaluados
en situaciones diferentes a la prueba o en el futuro.
Cuando ste es el inters debe, primero que nada, establecerse la validez

funcional en los trminos recientemente sealados en la seccin
correspondiente, manteniendo siempre en mente que las variables a predecirse
deben expresarse en trminos del rendimiento, como por ejemplo nmero de
piezas armadas, aos de permanencia en un empleo, tipos de comportamientos
delictivos, entre otros ya que no debe perderse de vista la naturaleza de las
pruebas referidas a un criterio, las cuales buscan esencialmente describir
dominios conductuales.
Una vez garantizada la calidad de la prueba criterial para hacer la estimacin se

podr procederse al diseo de las Tablas de Expectacin o a los conocidos
Niveles predictivos de ejecucin, segn la preferencia del constructor.

Tabla de Expectacin
La Tabla de Expectacin es el recurso que se emplean en el contexto de las

pruebas referidas a un criterio para hacer estimaciones. Se trata de una tabla de
doble entrada que cruza el comportamiento de un grupo de personas en la
prueba criterial que se est diseando, con el desempeo de ese mismo grupo de
personas en la variable que se deber estimar.
La construccin de esta tabla es

relativamente simple, si se retoma el Tabla 3
ejemplo de la PM5 y se le quiere Tabla de Expectacin para estimar el
utilizar como predictor del Rendimiento en 6to Grado, a partir de la PM5
rendimiento de 6to grado, lo primero
ser establecer su validez funcional Matemticas de 6to Grado
para lo cual se debe seleccionar a las PM5 Excelente Regular Deficiente
personas que conformarn el llamado 50 - 90 29 - 499 1-30
grupo de criterio, en quienes se 20 16 10 100
tomarn las medidas en el predictor 15 11 6 33 12 67
(PM5) y en la variable a estimar
10 - 6 5 25 15 75
(Rendimiento en 6to Grado); despus
de la validacin, los resultados se 1-5 15 100
dividirn en categoras; y, finalmente
se contarn el nmero (o porcentaje) Las negritas son frecuencias y las cursivas porcentajes
de personas en cada combinacin o

celda, tal como se muestra en la tabla
3.
La estimacin consiste en reportar el porcentaje de personas en las

categoras de inters, permitiendo anticipar el desempeo en
matemticas de 6to Grado de sujetos que an no ha tomado este curso;
as si un nio obtiene 10 puntos en la PM5 la Tabla de Expectacin
Etapa Definitiva
permite estimar que ese nio tendr una probabilidad del 25% de
obtener una calificacin de REGULAR en 6to Grado; que no tiene
probabilidad de que califique como EXCELENTE; y, que existe una
probabilidad del 75% de que califique como DEFICIENTE.
Si bien al agrupar a las personas en una combinacin de categoras se

sacrifica la precisin que proveen las calificaciones relacionadas el
contenido descritas en la seccin anterior, con el uso de las
calificaciones relacionadas con el rendimiento la ganancia consiste en
poder anticipar el comportamiento de la persona con slo conocer su
desempeo en el instrumento predictor.

Nivel Predictivo de Ejecucin
ste representa el segundo tipo de calificacin relacionada con el rendimiento

que se pude preparar. Consiste en indicar para cada posible puntuacin generada
por el instrumento predictor (PM5) cul es el promedio de las calificaciones
registradas en la variable a predecir (matemticas de 6to grado).
Para elaborar una tabla de conversin, de la modalidad nivel predictivo de

ejecucin, se obtienen las calificaciones en el predictor (PM5) y en la variable a
predecir (matemticas de sexto); luego para cada calificacin en el predictor
(PM5), supngase el puntaje 17, se calcula el promedio en matemticas de 6to
grado de los 5 estudiantes que calificaron con 17 en el predictor (55, 57, 57,58,
59; = 57,2) y ello se repite para cada uno de los puntajes del predictor. Una
vez obtenidos los promedios para cada puntaje predictor se les puede
representar a manera de tubular en una tabla anloga a la 4, o mediante un
grfico como el de la figura 1.
Tabla 4
Nivel predictivo de Ejecucin para la PM5
100
90
PM5
6 o Grado 80
Matemticas 6to
70
60
20 89,4
Grado
50
40
30
20
19 74,1 10
0
0 5 10 15 20
18 60,3
PM5: Predictor
17 57,2
Figura 1. Nivel Predictivo de ejecucin para la PM5
Tanto la tabla como el grfico permiten hacer estimaciones. As por

Etapa Definitiva
ejemplo, si se examina a un estudiante que obtuvo un puntaje de 18 en

el predictor (PM5) sin que haya cursado matemticas de sexto grado, se
puede predecir que obtendr una calificacin de 60,3 puntos de
promedio cuando tome ese curso.
Independientemente de que las calificaciones de las pruebas criteriales

se expresen como calificaciones relacionadas con el contenido o con el
rendimiento, existen algunas consideraciones que se deben tener en
cuenta a la hora de interpretarlas, de modo de evitar incurrir en

valoraciones inexactas. Por un lado, est el hecho de que las pruebas no son
perfectamente confiables, lo cual hace indispensable tomar en consideracin los
errores de medicin a la hora de estimar la calificacin de un examinado. Los
errores en que se pude incurrir debido a la inconfiabilidad de las pruebas, se
subsanan al presentar los cuadros de conversin utilizando el sistema de bandas
en lugar de calificaciones exactas. Por otro lado, est la tentacin de generalizar
los resultados de la prueba a otras situaciones, sin haber realizado los estudios
de validez pertinentes, pero mientras se carezca de tales datos, slo se debe
emplear las calificaciones en el test analizndolas en funcin ese dominio y con
ningn otro fin o variable.
Cuando se posee la certeza de que el

instrumento es vlido y confiable y se han preparado los
datos para su interpretacin, est en la posibilidad de usarse
para los fines para los cuales se dise, entonces se procede
a entregarlo a una casa editorial o revista especializada.
Hasta ese momento el instrumento ha estado exclusivamente
en manos del diseador; no obstante, en lo sucesivo entran
en juego los usuarios o examinadores y queda bajo la
de Revisin
responsabilidad de todos, observar el ptimo funcionamiento

del recurso de medicin. Si la impresin inicial era que el
Etapa
instrumento quedaba listo y que as sera por tiempo

indefinido, la misma naturaleza de las pruebas indicar que
ese recurso queda ahora bajo la luz de una variedad de
actores quienes debern Revisar su desempeo.
Como puede apreciarse, esta etapa se diferencia de las cuatro

anteriores en que aqullas son circunstanciales y participa
exclusivamente el equipo que elaboradora la prueba, mientras
que la Etapa de Revisiones es permanente y contribuyen
como se dijo, adems de los autores, los usuarios del
instrumento. En tal sentido, debe rescatarse que los usuarios
y los autores de la prueba mantienen el compromiso tico de
informarse mutuamente los cambios observados en el
comportamiento del instrumento, de modo de mantenerlo con
propiedades psicomtricas adecuadas y actualizado.
Cuando se observan inadecuaciones en el desempeo de un instrumento en

Etapa de Revisiones hay que determinar el nivel de la falla a los fines de
introducir los estudios y ajustes del caso: si las observaciones son leves se

realizarn ajustes ligeros, pero si son sustanciales es probable que haya que
realizar correcciones a nivel de la estructura de los items. Con lo anterior se
quiere reflejar que el nivel de falla determinar qu tan atrs se deba regresar en
las etapas de construccin del instrumento, para realizar los ajustes del caso.
En las secciones precedentes de este documento

se expres con detalles cmo se conceptualizan las pruebas
referidas a un criterio, las etapas mediante las cuales toma lugar
su construccin, y el modo cmo se deben llevar a cabo sus
estudios de items, confiabilidad y validez; con lo cual se
pretendi poner sobre el tapete que son instrumentos de
medicin en su propio derecho y que si bien surgieron como una
rama de los test normativos siguen caminos de diseo y
Test Criteriales y
construccin que los hacen paritarios en trminos la posibilidad

Normativos
de garantizar su calidad.
La presente seccin pretende rescatar las diferencias y

similitudes entre los dos tipos de instrumentos comparando
aspectos relativos sus objetivos, interpretacin de los nmeros
que generan, caractersticas de la seleccin de las muestras de
trabajo y nfasis en los procesos de confiabilidad y validez, como
un modo de terminar de deslastrar a un tipo de prueba de la
otra.
La diferenciacin entre pruebas criteriales y normativas no puede

hacerse recurriendo simplemente a la inspeccin de sus
protocolos de preguntas. Se debe, en cambio, precisar los
propsitos para los cuales fueron diseadas, la informacin que
proveen y la manera cmo fueron construidas y analizadas
psicomtricamente.
Los test criteriales se utilizan cuando el objetivo es describir lo que una persona
puede o no hacer respecto a un dominio, cuando se necesita clasificar a las
personas en atencin a las conductas que se en su repertorio; de modo que
informa, por ejemplo, que un nio exhibe unos patrones conductuales que
apuntan a un trastorno por dficit de atencin con hiperactividad, con
predominio hiperactivo-impulsivo (HI). Por su parte, las pruebas normativas se
emplean cuando el inters es identificar diferencias individuales a partir de la
comparacin del comportamiento entre las personas, es as como se puede

decir, por ejemplo, que un nio en la variable razonamiento numrico supera o
igual al 90% de los sujetos de su grupo normativo.
Como se pudo apreciar antes, los tests referidos a un criterio comparan la

ejecucin de una persona con estndares establecidos a partir del dominio
examinado, por lo que son independientes de grupo de sujetos; dichos
estndares se precisan en las etapas iniciales de construccin del test. Las
pruebas normativas, usan estndares que se establecen en funcin del
comportamiento del grupo despus de administrarla para poder producir esos
estndares de comparacin, en suma es el grupo quien los provee (Popham,
1978).
Las pruebas criteriales exigen una evaluacin exhaustiva del dominio que
examinan, de modo de disponer de un muestreo representativo de las tareas o
conductas cubiertas por la prueba; as lo que sea cierto para esa muestra de
conductas tambin lo sea para el universo de conductas. Las pruebas normativas
atienden menos al contenido por si mismo y se concentran en demostrar
numricamente que existe una relacin entre cada elemento de la prueba con la
variable examinada.
Las pruebas normativas exigen disponer de una muestra representativa

de las personas por lo que se recurre a procedimientos probabilsticos a
la hora obtener los datos para preparar los anlisis de items, las
normas y las propiedades psicomtricas. Las pruebas criteriales
emplean muestreos intencionales de manera de conformas grupos de
Test Criteriales y Normativos

criterio que son los relevantes para preparar los estudios estadsticos
(Glaser y Nitko, 1971).
Los reactivos de las pruebas criteriales se ajustan hasta que arrojen

niveles de dificultad extremos; as son deseables aquellos que tengan
un nivel de dificultad de uno, para un grupo que posea el dominio
examinado y de cero para el que no lo posea; en la medida que los
reactivos se alejen de tales valores extremos de dificultad sern
eliminados. En las pruebas normativas, por el contrario, los items con
niveles de dificultad extremos son completamente descartables y se
busca conformar la prueba con reactivos que arrojen una dificultad
promedio (p=0.50) ya que ellos sern los que produzcan mayor
varianza y permitirn una mejor diferenciacin entre las personas
(Carver, 1974).
Las pruebas criteriales y normativas son similares en el sentido que

ambas conllevan estudios de validez los cuales ponen en evidencia que
miden lo que dicen medir, es decir que cumplen los objetivos para los
cuales fueron diseadas. En el caso de las pruebas criteriales se alude a
una validez descriptiva, funcional y de dominio y en el caso de las

pruebas normativas se hace referencia a validez de contenido,
predictiva y de constructo. El tipo de estudio realizado depende de los
objetivos de la prueba (Carver, 1974). Es posible identificar ciertas
analogas en los objetivos de los estudios de validez para las pruebas
criteriales y normativas. As, el propsito de la validez descriptiva
(criterial) y la de contenido (normativa) es procurar que la prueba
Test Criteriales y Normativos

cubra apropiadamente el contenido examinado. El objetivo de la validez
funcional (prueba criterial) y predictiva (prueba normativa) es proveer
al instrumento de informacin en torno a la precisin de las
predicciones que se pueden hacer con l. La misin de la validez de
dominio (prueba criterial) y de constructo (prueba normativa) es
informar que se mide un dominio vlido en trminos tericos (Popham,
1978)
Los estudios de confiabilidad de las pruebas criteriales y normativas

buscan exactamente el mismo objetivo: determinar la consistencia de
las calificaciones. Dependiendo de los usos que se vaya a dar a las
pruebas (criterial o normativa) interesar emplear un procedimiento
para determinar la estabilidad o la equivalencia de las calificaciones. Si
el inters es precisar si el muestreo de tiempo afectar la consistencia
debe emplearse un procedimiento de retest para determinar la
confiabilidad, pero si lo que se debe considerar es el muestreo de
contenido, resultar pertinente aplicar un procedimiento de pruebas
paralelas.
Las pruebas criteriales expresan las calificaciones segn se empleen para

efectuar una descripcin o una estimacin. Si bien las unidades en que se
expresan suelen ser muy apegadas a las consideraciones de su constructor, se
suele recurrir a las calificaciones de pase y los porcentajes de respuestas
correctas; adicionalmente, es frecuente el uso de tablas de expectacin y de los
niveles predictivos de ejecucin. Por su parte, las pruebas normativas usan
escalas muy conocidas dentro de la comunidad cientfica entre ellas se tienen las
calificaciones estndar y las escalas de desarrollo; para efectuar predicciones
recurren a la ecuacin de regresin simple o mltiple e incluso calificaciones de
corte.
Se debe concluir sealando que si bien las pruebas criteriales y normativas

persiguen objetivos distintos que determinan los pasos comprometidos en su
construccin, ambas exigen propiedades psicomtricas de validez y confiabilidad
que pueden ser cumplidas con total rigurosidad cientfica.

Almerich, G. y Bo Bonet, R. (2006). Efecto de la forma de la
distribucin y de la media en el ndice po de Huynh. RELIEVE, 12, 1,
151-166. http://www.uv.es/RELIEVE/v12n1/RELIEVEv12n1_6.htm
Backoff, E., Snchez, A., Pen, M., Monroy, L. y Tanamachi, M.

Referencias
(2006) Diseo y desarrollo de los exmenes de la calidad y el

logro educativos. Revista Mexicana de Investigacin Educativa,
11, 29, 617-638
Berk, R. (1980) A Framework for Methodological Advances in

Criterion-Referenced Testing Applied Psychological
Measurement. 4, 4, 563-573
Carver, R.P. (1974) Two dimensions of tests: Psychometic and

edumetric. American Psychologist, 29, 512-518.
Coccaro E., Kavoussi R., Berman M.E, Lish J. (1998).

Intermittent explosive disorder-revised: development,
reliability, and validity of research criteria. Compemporary
Psychiatry, 39, 6, 368-76.
Conners, C. (1989). Conners Ratign Scales. Toronto, Ontario: Multi-Health

Systems.
Dembo, m. (1983). Dos estrategias de Estrategias de Medicin en Psicologa.

Psicologa, X, 1, 2, 41-57
Glaser, R. and Nitko, A.J. (1971)Measurement in learning and instruction.

In R.L.Thorndike (Ed.). Educational Measurement. Washington, D.C.:
American Council on Education.
Lacasella, R. (2000) Metodologa para el estudio del desarrollo infantil desde la

perspectiva conductual. Caracas: Fondo Editorial de la Facultad de Humanidades
y Educacin
Linn, R.L. (1980). Issues of validity for criterion-referenced measures.

Applied Psychological Measurement, 4, 547-561.
Popham, W. J. (1990). Modern Educational Measurement: A practitioners

Perspective. Washington: Allyn & Bacon
Popham, W.J. (1978) Criterion-referenced measurement. Englewood Cliffs,

N.J.:Prentice-Hall,

Tests Criteriales

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tests Criteriales

Uploaded by

Copyright:

Available Formats

Por: Luisa E.

Un instrumento estadarizado de medicin busca

Como apreciamos el modo de interpretar el nmero asignado por los

Tomemos como ejemplo una prueba criterial hipottica que llamaremos

Las pruebas criteriales surgieron como una alternativa al uso

Debido a ese punto de partida, durante algn tiempo las pruebas

Test referidos a un criterio 2 Luisa E. Lezama

Adicionalmente debe destacarse que las pruebas referidas a un criterio,

Independientemente de si la prueba referida a un criterio examinan

El anterior es un punto clave dentro de la caracterizacin de los tests

Test referidos a un criterio 3 Luisa E. Lezama

El autor acota que si dentro de una etapa las actividades son

En esta etapa se deben alcanzar varios

que se dirigir la evaluacin; precisar la finalidad del test, es

Cuando la prueba tiene fines predictivos es necesario agregar

Test referidos a un criterio 4 Luisa E. Lezama

Una vez bosquejado un primer Esquema Descriptivo se solicita a expertos en el

As por ejemplo, para disear una prueba

El esquema descriptivo de una prueba criterial cumple una doble

1. Precisa a los redactores de items qu reactivos que deben elaborar,

Test referidos a un criterio 5 Luisa E. Lezama

En primera instancia debe seleccionar formato de prueba cnsono con el dominio

La decisin en torno al nmero de items de la prueba no es sencilla. El

1. El nivel mnimo de habilidad exigida al examinado, de modo que si la

3. La proporcin de prdida, que alude a dos tipos de errores: a) decir

Test referidos a un criterio 6 Luisa E. Lezama

Una vez delimitados los tpicos a medir, a travs del Esquema

La redaccin de items de un test criterial se hace siguiendo las

Otra actividad que se lleva a cabo durante la etapa Preparatoria es la

Test referidos a un criterio 7 Luisa E. Lezama

El objetivo fundamental que persigue el

exploratoria es evaluar la calidad de los reactivos preparados

anlisis, uno cualitativo regularmente llamado a priori y otro

Siempre es ms trabajoso categorizar un item como incongruente ya que hay

Test referidos a un criterio 8 Luisa E. Lezama

Para efectuar el anlisis estadstico a posteriori el constructor de una

Se seleccionan intencionalmente los miembros de dos grupos de modo

Para efectuar un anlisis a posteriori de la PM5 que aludimos antes, su

Test referidos a un criterio 9 Luisa E. Lezama

Diseo de Pre Postest

En este caso el constructor del instrumento selecciona un solo grupo de criterio al

En el ejemplo de la Prueba de Matemticas para 5to Grado, que se

Independientemente del diseo empleado (dos grupos o pre postest) el

Una vez que el constructor del instrumento selecciona el diseo de

Con dichos estadsticos persigue dos objetivos fundamentales: a. Efectuar un

Test referidos a un criterio 10 Luisa E. Lezama

Dificultad del item

La Dificultad del item (p) se obtiene al contar el nmero de personas

Si se retoma el ejemplo de la PM5 y se plantea a la hora de hacer el

En sntesis se puede afirmar que, en trminos del nivel de dificultad,

Capacidad Discriminativa del item

Segn Berk (1980) la capacidad discriminativa de un item de una prueba referida

Test referidos a un criterio 11 Luisa E. Lezama

Tambin denominado mtodo de sensibilidad instruccional se aplica en los

La tabla 2 muestra que el item 1

El reactivo 2, en cambio, es contestado bien por todas las personas en

En sntesis, mientras ms se acerque a +1 el ndice de Cox y Vargas

Test referidos a un criterio 12 Luisa E. Lezama

Se aplica en los diseos de dos grupos o grupos contrastados y asume valores

Un constructor de pruebas criteriales, mientras lleva a cabo el anlisis

Cuando se han construido reactivos de eleccin mltiple, es apropiado

Despus de realizar el anlisis de los reactivos siguiendo los

Test referidos a un criterio 13 Luisa E. Lezama

cuando ya se han optimizado las instrucciones y cuando se