You are on page 1of 104

Universidad Autnoma de Baja California

Instituto de Investigacin y Desarrollo Educativo

Aspectos psicomtricos bsicos


de la evaluacin del aprendizaje
Resumen del libro Popham, J. (1990). Modern Educational
Measurement. A Practitioners Perspective. MA. Allyn and
Bacon.

Lus ngel Contreras Nio

Febrero de 2003

Propsitos de la
evaluacin
del aprendizaje
Diferentes propsitos educativos
requieren diferentes pruebas educativas y
diferentes usos de esas pruebas: cuando
una prueba no empata con sus propsitos
las inferencias errneas se multiplican
vertiginosamente

Aplicaciones actuales
de los tests
Evaluar individuos para decidir
aspectos instruccionales o
vocacionales (orientacin a
determinar el estatus)
Evaluar programas
Catalizar la instruccin (orientacin
a mejorar la instruccin)

Evaluacin referida a una norma


y evaluacin referida a un criterio
La principal distincin entre ambos tipos de
tests depende de la manera en que
interpretamos la ejecucin ante el test de
un examinado
En un test referido a una norma
interpretamos la ejecucin de un
examinado, en relacin a las ejecuciones
de otros que tambin respondieron la
prueba

Test referido a una norma


En este caso, interpretamos los
puntajes de un individuo en relacin al
grupo normativo
As, podemos decir que el puntaje se
encuentra arriba, abajo o dentro de la
norma o promedio. Es decir, cmo es la
ejecucin comparada con la normal
Se trata de una interpretacin relativa

Test criterial
Se emplea para determinar el estatus
que tiene un individuo con respecto a un
criterio o dominio evaluativo bien definido
El dominio evaluativo tpico son
conocimientos o habilidades
Un test criterial nos permite conocer lo
que un examinado puede hacer o no
Su caracterstica distintiva es la claridad
con que describe lo que mide

Dos distinciones basicas entre


pruebas criteriales y normativas
Un test normativo mide categorias de
competencias de los examinados que son
tpicamente generales
Un test criterial tpicamente se enfoca en
dominios especficos de la conducta del
examinado

Test normativo

Test criterial

Dos distinciones basicas entre


pruebas criteriales y normativas
Una segunda distincin se refiere a la interpretacin
de los puntajes brutos obtenidos en la prueba
En un test normativo se elaboran tablas normativas
de tal manera que se pueda encontrar con facilidad
el equivalente percentil de cada puntaje bruto
Ejemplo: Juan contest bien 37 tems de 60. En la
tabla ese puntaje es equivalente al rango percentil
63. Por lo tanto, el puntaje de Juan es igual o mejor
que la ejecucin del 63% de los examinados del
grupo normativo
As, la interpretacin es completamente relativa

Dos distinciones basicas entre


pruebas criteriales y normativas
En un test criterial, Juan contest bien 20
preguntas de 25. Dado que queremos
saber qu tan bien logr el dominio
conductual definido por el test,
reportamos que obtuvo un puntaje de
80% de respuestas correctas
En este caso, la interpretacin es absoluta
pues describe el estatus del examinado
en relacin con el dominio total

Relacin entre la estrategia de


medicin y la misin del test
1. Seleccin de alumnos.
Para esta misin tenemos dos
escenarios:
Escenario con cuotas fijas
Escenario con requisitos de
habilidad

Relacin entre la estrategia de


medicin y la misin del test
Escenario con cuotas fijas (solo hay 100 lugares y
demandan servicio 500 aspirantes). Aqu se
requiere sortear a los aspirantes de acuerdo con
sus habilidades relativas; por lo tanto, se necesita
un test referido a una norma
En este caso un test criterial no es til: Si 150
aspirantes obtienen esencialmente los mismos
puntajes altos, cmo seleccionamos a los 100
mejores?
En cambio, los tests normativos estn diseados
para detectar la variabilidad de los puntajes de los
examinados, a fin de discriminar entre ellos a los
mejores

Relacin entre la estrategia de


medicin y la misin del test
Escenario con requisitos de habilidad. Aqu no se
requiere saber quin es el mejor o el peor, sino quin
est calificado; se quiere reflejar el dominio con
precisin. Por lo tanto se requiere un test criterial.
Un test normativo no sera til en este caso: te dejaras
operar por un cirujano que recibi su ttulo porque
obtuvo el percentil 75 de entre una clase de
incompetentes?
En cambio un test criterial se orienta a detectar a los
candidatos que despliegan las habilidades que son
requisito para tal ejercicio profesional; es decir, que
reflejan el dominio del campo de conocimientos que
mide el test

Relacin entre la estrategia de


medicin y la misin del test
2. Evaluacin de programas.
Al estimar el mrito de un programa
instruccional es preferible emplear un test
criterial
Los tests normativos, por ser ms bien
generales, usualmente no tienen
correspondencia con los aspectos
curriculares de los programas evaluados;
adems, ofrecen pocos indicadores para el
mejoramiento instruccional

Relacin entre la estrategia de


medicin y la misin del test
3. Diagnstico y diseo instruccional
Para apoyar la elaboracin de secuencias
instruccionales apropiadas o para descubrir
las carencias de habilidades a fin de
proporcionar instruccin remedial a ciertos
estudiantes, los tests criteriales son
definitivamente superiores a la normativos;
pues en tales casos, los profesores estn
menos interesados en la posicin que tiene
un estudiante respecto a otros

Relacin entre la estrategia de


medicin y la misin del test
4. Asignacin de recursos a gran escala
Cuando se trata de decidir como distribuir
recursos financieros o humanos a gran
escala, enfatizar ciertas reas de formacin o
comparar estudiantes de diferentes reas
geogrficas, curriculares u otras, la
estimacin de un amplio espectro de los
logros acadmicos de los estudiantes, aunque
no est muy bien definido, es lo ms indicado.
Cuando se tiene necesidad de un nivel tan
general de informacin, un test referido a una
norma resultara de mayor utilidad.

Evaluando la calidad de un test


Los nfasis recientes en la calidad
educativa, en la nocin de asumir la
responsabilidad y el incremento del
impacto social de la evaluacin del
aprendizaje, obligan cada vez ms a los
educadores a estar interesados e
informados en los elementos tcnicos que
definen la calidad de una pueba educativa
Existen siete factores que son de primera
importancia para decidir si un test es
apropiado:

Evaluando la calidad de un test


1. Descripcin de la conducta medida
Al evaluar, se pretende determinar el nivel de
un examinado respecto a un foco particular
(no podemos medir todo en una sola
ocasin)
Por ello, el test debe incluir una descripcin
de las habilidades, aptitudes y actitudes del
examinado que se pretende medir
La descripcin puede ser breve (enunciado
de un objetivo conductual) o muy detallada
(especificaciones de tems)

Evaluando la calidad de un test


2. Nmero de tems por conducta medida

Cuntos tems debe incluir la prueba?


Un factor clave a considerar es la
importancia de la decisin involucrada.
Si se quiere hacer una estimacin general de
la ejecucin del examinado, en general se
requieren pocos tems. Si se quiere
diagnosticar habilidades particulares, en
conjunto se necesitan bastantes reactivos

Evaluando la calidad de un test


2. Nmero de tems por conducta medida
Si el examen tiene alto impacto (las consecuencias de
su aplicacin afectarn de manera importante la vida
de los examinados, profesores o directivos escolares),
usualmente sern necesarios muchos ms reactivos
que si se trata de un examen parcial de un curso.
Como regla prctica, podra decirse que deberan
emplearse 10 tems por conducta medida cuando se
toma una decisin educativa razonablemente
importante. Tal nmero podra elevarse a 20 tems o
ms si el examen es de gran impacto y disminuir a
unos 5 reactivos cuando el impacto sea menor.

Evaluando la calidad de un test


3. Alcance de la medida
Se refiere a la amplitud del atributo que mide el test.
Puede ser muy restringido (objetivo conductual, lo
cual resulta fcil de ensear pero puede resultar
muy puntual para ser til: objetivitis) o ser muy
amplio (Ej. el conocimiento, lo cual resulta difcil de
definir y medir)
A mayor espectro de contenido a evaluar, menos
precisa la descripcin conductual y ser necesario
un mayor nmero de tems
La determinacin del alcance de la medida es una
operacin de juicios

Evaluando la calidad de un test


4. Confiabilidad
Se refiere a la consistencia con la que una prueba mide lo
que se supone que mide
La consistencia de la medida puede ser en el tiempo, en
cuyo caso nos referimos a ella como el ndice de
estabilidad.
Aqu, los alumnos son examinados tras un perodo de
tiempo para ver qu tan comparables son los puntajes
individuales en las dos ocasiones (operacin denominada
test-retest; si el coeficiente de correlacin es alto, digamos
0.80 0.90, podemos tener la seguridad de que los
examinados obtienen puntajes comparables en el test an
cuando se administre en tiempos diferentes)

Evaluando la calidad de un test


4. Confiabilidad
Dado el alto costo que implica y otras
dificultades asociadas, pocas pruebas
realizan estudios de estabilidad. En algunos
casos aplican retests a muestras de
estudiantes
Tanto en los tests normativos como es los
criteriales la estabilidad de la prueba
aumenta a medida que se incrementa el
nmero de tems

Evaluando la calidad de un test


4. Confiabilidad
Una segunda forma de confiabilidad es emplear
formas alternas; es decir, administramos dos
formas del mismo test y correlacionamos los
puntajes obtenidos por cada examinado en las
dos formas de la prueba. El resultado es llamado
coeficiente de confiabilidad de formas alternas
Cabe sealar que las dos formas deben ser
equivalentes en cuanto a su contenido, su
dificultad y su discriminacin, entre otros
aspectos
Satisfacer esta forma de confiabilidad puede ser
importante por razones de seguridad del examen

Evaluando la calidad de un test


4. Confiabilidad
Para crear retos de una dificultad equivalente, se puede
emplear un sistema de puntajes escalares
Se trata de un procedimiento estadstico, post facto, de
igualacin de formas de examen.
En un sistema escalar de 500 a 1000, un alumno
necesita para pasar 800 puntos en un examen de 75
tems. En una versin muy difcil del test, un puntaje de
55 tems correctos puede ser igual al puntaje escalar de
800. En una forma muy fcil, se necesita un puntaje de
60 tems correctos para lograr un puntaje escalar de
800 y lograr pasar.

Evaluando la calidad de un test


4. Confiabilidad
Otra forma de confiabilidad es la consistencia interna,
misma que indica la consistencia individual de los tems
del test;
Sirve para determinar la medida en la que los tems
individuales estn funcionando ms o menos de la
misma manera; es decir, si son homogneos
Una tcnica consiste en dividir la prueba en dos partes
iguales, digamos reactivos pares y nones. Los dos
subtests se correlacionan.
El coeficiente de correlacin resultante es una
estimacin del grado en que las mitades del test estn
cumpliendo su funcin de manera consistente

Evaluando la calidad de un test


4. Confiabilidad
Otra medida de confiabilidad, que no se centra en la
consistencia de los puntajes de un grupo de examinados es el
error estndar de medida
Se trata de proporcionar un ndice de la precisin o
consistencia de la ejecucin en el test de un individuo
Refleja la variabilidad que tendran los puntajes del examinado
si el test se le administrara una y otra vez
Con ello queremos establecer una banda de confianza en la
cual pueda ser encontrado, con cierta probabilidad, el puntaje
verdadero
Por ejemplo, con este ndice podramos hacer la interpretacin
de que el puntaje 37 de un examinado miente, ms o menos,
un error estndar de medida de su puntaje verdadero

Evaluando la calidad de un test


5. Validez
Es la medida en la que un test mide lo que dice que
mide
Tcnicamente, es ms apropiado hablar de validez de
la inferencia que hacemos basada en los resultados
del test
Cuando determinamos la validez, nuestro foco es la
evidencia que soporta la inferencia basada en los
puntajes obtenidos en el test
Existen tres tipos de evidencias complementarias de
validez: la relacionada con el contenido, la
relacionada con el criterio (predictiva y concurrente) y
la relacionada con el constructo

Evaluando la calidad de un test


5. Validez
Evidencia de validez relacionada con el contenido
Demuestra el grado en el que la muestra de tems
del test es representativa de un universo definido
o dominio de contenido (el test cubre el
contenido que se supone que cubre?
La clave para asegurarla es el juicio humano:
Expertos en contenido definen el universo de
contenido que el test representa (muestra)
Despus, expertos independientes juzgan la
representatividad del contenido

Evaluando la calidad de un test


5. Validez
Puesto que los tests normativos cubren el
contenido de manera general, para usar la prueba
de manera efectiva es suficiente detectar el nivel
del examinado en relacin con el grupo normativo
En cambio, los tests criteriales realizan un
esfuerzo muy importante para asegurar la
relevancia y una adecuada cobertura del
contenido
El uso de los juicios de expertos se complementa
con procedimientos empricos para asegurar la
evidencia de validez de contenido

Evaluando la calidad de un test


5. Validez
Universo de contenido

Pobre cobertura
de contenido

Buena cobertura
de contenido

Evaluando la calidad de un test


5. Validez
Evidencia de validez relacionada con el criterio
Demuestra en qu medida los puntajes en el test de un
examinado nos permiten inferir la ejecucin que tendr
en una variable criterio (por ejemplo, las calificaciones
que obtendr en la universidad-- el criterio)
Existen dos tipo de evidencias: predictiva y concurrente
Los estudios de validez predictiva requieren que ocurra
un intervalo de tiempo considerable (por ejemplo, para
correlacionar los resultados del examen de admisin y el
promedio de calificaciones obtenidas por el examinado
durante el primer semestre de la carrera, es necesario
esperar 6 u 8 meses al menos)

Evaluando la calidad de un test


5. Validez
En los estudios de validez concurrente tal intervalo de tiempo
no ocurre
Por ejemplo, aplicamos el examen de admisin a la
universidad a los alumnos que recin terminaron el primer
semestre de la carrera, el mismo da en que se da a conocer
el promedio de calificaciones que obtuvieron
Aunque el test fue diseado para egresados del bachillerato
y no para estudiantes universitarios, los coeficientes de
correlacin resultantes entre los puntajes en el test de los
examinados y su promedio de calificaciones en el primer
semestre, nos proporcionan alguna evidencia relacionada
con el criterio
Se denomina concurrente por que ambas medidas ocurren
aproximadamente en el mismo tiempo

Evaluando la calidad de un test


5. Validez
En ambos casos, la calidad del estudio de
validacin depende del tipo de variables
criterio que se emplean. Las ms utilizadas
son el promedio de calificaciones que el test
pretende predecir, los resultados obtenidos en
otras pruebas que miden el mismo atributo u
otro que permite predecirlo, las estimaciones
de la ejecucin que realizan profesores,
supervisores y otros; as como productos
permanentes que testifican la ejecucin

Evaluando la calidad de un test


5. Validez
Dado que la principal misin de los tests normativos
es distinguir entre los examinados a fin de que
puedan efectuarse comparaciones significativas, la
evidencia de validez criterial es el tipo de datos de
validacin ms til para propsitos de prediccin
En cambio, puesto que casi siempre los tests
criteriales se orientan a determinar lo que el
estudiante puede hacer ahora, no a predecir su
ejecucin futura en otros escenarios, muy pocas
veces se enfatiza la obtencin de este tipo de
evidencias de validez

Evaluando la calidad de un test


5. Validez
Evidencia de validez relacionada con el constructo
Se enfoca en los puntajes en el test como una medida
de la caracterstica psicolgica de inters: el constructo
(construccin terica)
Primero, el diseador de la prueba concibe la
existencia de un constructo hipottico (ej. inteligencia
social), basado en investigacin previa
Despus, desarrolla un test que se supone mide este
constructo, el Test de Inteligencia Social (TIS)
Se dice que altos puntajes en el TIS indican que el
examinado tiene inteligencia social

Evaluando la calidad de un test


5. Validez

Para reunir evidencia relacionada con el constructo


efectuamos una investigacin en la cual predecimos qu
si el TIS hace lo que se supone, los examinados que
gozan de popularidad, que ocupan puestos de eleccin
tienen otros rasgos semejantes, obtendrn puntajes m
altos en el TIS, que quienes rehuyen los eventos
sociales, son conflictivos y presentan otros
comportamientos similares.
Si logramos obtener puntajes en el TIS de ambos grupo
y encontramos que la hiptesis se confirm, tenemos
evidencia no solo sobre la validez de las inferencias
basadas en el TIS, sino tambin acerca de la legitimidad
del constructo mismo

Evaluando la calidad de un test


5. Validez

En un solo estudio no es posible obtener


evidencia satisfactoria de la validez del
constructo; se requiere la acumulacin de
evidencias de diferentes estudios de
investigacin
Existen tres tipos de estudios de validacin
de constructos: estudios de intervencin,
estudios sobre poblaciones diferenciales y
estudios de medidas relacionadas

Evaluando la calidad de un test


5. Validez
Estudios de intervencin
Pretenden mostrar que los examinados responden
diferente a la medida trs recibir algn tratamiento
Quien recibe un tratamiento debe comportarse mejor
o peor (segn sea el caso), que quien no lo recibe
Por ejemplo, a 50 examinados les informamos que el
resultado del test es crucial para su permanencia en la
escuela y a otros 50 les decimos que se trata de un
mero trmite, sin consecuencias para ellos. A
continuacin aplicamos nuestro recin elaborado test
de ansiedad ante los exmenes (constructo para el
que nos interesa reunir evidencia de validez)

Evaluando la calidad de un test


5. Validez
Estudios de poblacin diferencial
En ellos se hacen esfuerzos por mostrar que individuos que
representan a distintas poblaciones obtienen puntajes
diferentes en la medida
Aqu, se pretende determinar si quienes tienen ms de lo que
se supone es el constructo, obtienen un puntaje mayor en el
test, que quienes no lo tienen o lo poseen en menor medida
Ejemplo: se diseo un cuestionario para medir la preocupacin
de las personas por la calidad de su piel. El test se aplica a
500 jvenes de ambos sexos que tienen acn y a residentes
de un asilo de ancianos, quienes tienen al menos 60 aos de
edad
Nuestra prediccin es que los adolescentes tendrn un puntaje
ms alto (reflejarn ms preocupacin) que los ancianos

Evaluando la calidad de un test


5. Validez
Estudios de medidas relacionadas
Aqu, las correlaciones positivas o negativas
dependen de las medidas en el test y en otras
medidas atingentes
Ejemplo: podemos predecir que los puntajes en
nuestro nuevo test de solucin de problemas estarn
correlacionados negativamente con los puntajes de
un test de rigidez mental
Cabe sealar que no se trata de predecir la
ejecucin en otro test o en un criterio, el foco es el
constructo (sus atributos y las posibles relaciones
que tiene con otros atributos)

Evaluando la calidad de un test


5. Validez
Una validacin ideal de un test incluye
acumular evidencias de distintos tipos,
incluidas las tres categoras tradicionales
antes descritas
La evidencia de validez (junto con la
confiabilidad) es el indicador ms importante
de la calidad de un test
La confiabilidad es una condicin necesaria
para la validez de la prueba, pero no es una
condicin suficiente, como hemos visto

Evaluando la calidad de un test


6. Datos comparativos
La calidad y la cantidad de datos comparativos
(normativos) permiten efectuar interpretaciones
apropiadas de la ejecucin de los examinados
Los datos comparativos constituyen el marco
referencial interpretativo clave en los tests normativos
Cuando decimos que Luis obtuvo un puntaje en el
percentil 47, queremos decir que su puntaje excede o
es igual al 47% de los examinados en el grupo
normativo
Un buen test normativo debe estar acompaado por
datos comparativos actuales, amplios y ensamblados
de manera cuidadosa

Evaluando la calidad de un test


7. Ausencia de sesgo
Actualmente resultan particularmente importantes
las serias desigualdades que puede ocasionar el
uso inadecuado de los tests
Los tems del test pueden ofender o penalizar a un
examinado con antecedentes socioeconmicos,
culturales, de gnero u otros, que los pongan en
desventaja respecto a otros examinados
Existen dos aproximaciones para detectar
problemas de sesgo: basadas en juicios y
empricas

Evaluando la calidad de un test


7. Ausencia de sesgo
Esencialmente, las tcnicas de juicios para
detectar sesgo en la prueba se basan en paneles
formados con individuos similares a los
examinados que pueden ser sesgados por los
tems, a quienes se les pide buscar que las
preguntas:
No ofendan a cierto grupo (que los retrate de
manera esterotipada)
No los penalice injustamente (que los examinados
tengan una ejecucin ms deficiente an cuando
posean la misma habilidad que se est midiendo)

Evaluando la calidad de un test


Otras consideraciones
Adems de los siete factores de primer
orden mencionados, es posible atender
otros:
La facilidad de la administracin
La facilidad para calificar las respuestas
El costo del desarrollo, aplicacin y
evaluacin del instrumento
La calidad de las evidencias documentales
que acompaan a la prueba
Entre otras ms que es posible identificar

Nociones de estadstica
Al evaluar un test, es obvio que necesitamos
tener una buena idea acerca de las ejecuciones
de los estudiantes en l
Con miles, cientos o incluso un puado de
ejecuciones ante el test reportadas
individualmente, es casi imposible obtener
conclusiones significativas a partir de los
puntajes brutos obtenidos por los examinados
Para atender este problema, contamos con los
esquemas descriptivos aportados por la
estadstica

Nociones de estadstica
Distribuciones de frecuencia

Los examinados obtienen todo tipo de puntajes, a pesar


de que por efectos de la instruccin cabra esperar ms
estabilidad en los resultados del examen
As, los puntajes en el examen tienden a distribuirse de
manera normal, lo cual significa que la mayor parte de los
puntajes se agrupan en una zona intermedia, en la cual la
ejecucin es la tpica, tiene una frecuencia mayor, es el
promedio o la ejecucin normal de los examinados
Antes y despus de dicha zona se encuentran otras dos
zonas, primero una de baja frecuencia y posteriormente
una de alta frecuencia

Nociones de estadstica
Distribuciones de frecuencia
Lo anterior se conoce como distribucin
normal de frecuencias y es la manera en que
se distribuyen la mayor parte de las
caractersticas humanas, como la estatura, el
color del pelo, la inteligencia, etc.
Su representacin grfica es la curva de
distribucin normal de frecuencias o campana
de Gauss. Su apariencia es la siguiente:

Nociones de estadstica
Curva de distribucin normal de frecuencias

Frecuencia

75
60
30
15
0

30

Puntajes en el test

60

Nociones de estadstica
Indicadores de tendencia central

X=

Los puntajes en la prueba tienden a centrarse


Los tres indicadores de tendencia central son:
La media, el promedio aritmtico de todos los
puntajes de la distribucin. Por ello, es una
medida muy representativa
Se calcula mediante la frmula:
n

Nociones de estadstica
Indicadores de tendencia central
La mediana, es el punto que divide los
puntajes en dos partes iguales
A diferencia de la media, no se ve afectada
por puntajes muy altos o muy bajos (a los
cuales trata como un puntaje ms)
Sin embargo, falla en reflejar el impacto de
cada puntaje en la distribucin
La moda, que es el puntaje que ocurre ms
frecuentemente
Una distribucin puede ser bimodal o trimodal

Nociones de estadstica
En una distribucin normal se encuentran sobre
el mismo puntaje la media, mediana y moda

Frecuencia

75
60
30
15
0

30

Puntajes en el test

60

Nociones de estadstica
Indicadores de variabilidad

Las medidas de variabilidad nos


indican cmo se dispersan los
puntajes; qu tan variables son

X=38.2

X=38.2

Nociones de estadstica
Indicadores de variabilidad

El ndice ms fcil de calcular es el


rango. se obtiene restando el puntaje
ms bajo del ms alto: X a - X b
Sin embargo su simplicidad es su nica
virtud. Como solo hay dos puntajes, si
uno de ellos es muy alto o bajo, el
rango resultante puede conducir a
conclusiones errneas acerca de la
variabilidad

Nociones de estadstica
Indicadores de variabilidad

Otro ndice que resuelve esos


problemas es la desviacin estndar;
es decir, el promedio de la variabilidad
de los puntajes del examen
En esencia, la desviacin estndar nos
indica la distancia promedio respecto a
la media de cada uno de los puntajes
en una distribucin

Desviacin estndar
75
60
30
15
0

10

20

30

40
X=43

X=9
X=54

50

60

Nociones de estadstica
Indicadores de variabilidad
As, Para determinar la desviacin de un puntaje
se resta la media de la distribucin del puntaje:

x=X-X
Sin embargo, obtener la desviacin promedio
o estndar de todas las desviaciones no
puede hacerse mediante el promedio directo
(el resultado sera 0, pues se cancelan las
desviaciones positivas y negativas ); Por ello
se emplea la frmula:

Nociones de estadstica
Indicadores de variabilidad

s=

Frmula de la desviacin estndar


x2

Mientras ms dispersos estn los puntajes,


mayor ser la desviacin estndar. Por esta
razn, su uso es tan relevante para efectos
comparativos, en el caso de los tests
normativos

Nociones de estadstica
Indicadores de relacin
Los examinados que obtienen puntajes altos en una
prueba de seleccin tienden a lograr buenas
calificaciones cuando ingresan a la escuela que los
selecciona?
Aqu se trata de determinar en que medida estn
relacionadas dos variables
La medida para determinarlo es un coeficiente de
correlacin. El ms comn es el de Pearson, mismo
que establece que la correlacin r , es igual a la raz
cuadrada del cociente de la sumatoria de los productos
cruzados de las desviaciones, entre el producto de las
dos sumatorias de las desviaciones cuadradas,
correspondientes a las variables relacionadas

Nociones de estadstica
Indicadores de relacin

Es decir:
M

( x2 ) ( y2 )
M

r=

xy

Grficamente, la relacin puede


representarse de la siguiente manera:

Correlacin entre los puntajes en el examen de admisin


y el promedio de calificaciones en el primer semestre

Promedio de calificaciones

10
8
6
4
2
0

11

31

49
Puntajes
en el examen
Calificaciones

59

77

Planeacin de la prueba
Especificar lo que el test debe medir

La habilidad para construir pruebas de alta calidad es clave en el


contexto educativo
Como todo proceso educativo, los tests deben ser planeados;
mientras ms importante sea su impacto, requiere de una
planeacin ms sistemtica
La planeacin de una prueba enfrenta restricciones prcticas
importantes que afectan su administracin y calificacin: qu
tan largo ser el test? se dispone de un lector ptico para
calificar las pruebas? se puede controlar la seguridad del test o
ser necesario contar con versiones diferentes cada vez que se
aplique? los examinados tendrn una cantidad finita de tiempo
para completar la prueba? Podrn emplear diccionario o
calculadora?

Planeacin de la prueba
Especificar lo que el test debe medir
Existen diferentes esquemas de evaluacin: Pruebas
de lpiz y papel o por computadora, observacin de
los examinados en accin, como demostraciones y
pruebas orales, productos permanentes, etc.
Entre ellas, las pruebas de lpiz y papel han sido uno
de los esquemas preferidos por los diseadores de
tests, principalmente por las ventajas que ofrecen
para atender restricciones como las antes
mencionadas
No obstante, an entre los de lpiz y papel existen
muchas opciones: respuesta alterna, relacin de
columnas, opcin mltiple, ensayo, etc.

Planeacin de la prueba
Especificar lo que el test debe medir
En este contexto, lo que se requiere primero
es tener una buena idea del atributo que se
desea medir
Teniendo clara esa idea, se deben revisar
los posibles esquemas evaluativos para
detectar los que satisfacen mejor las
necesidades,sin apresurar la decisin
La siguiente tarea es crear un conjunto de
especificacines que normen tanto la
generacin del test, como de sus tems

Planeacin de la prueba
Especificaciones para los tests normativos
A diferencia de los tests criteriales, los normativos
requieren informacin descriptiva ms general, pues su
inters principal son los contrastes relativos entre los
examinados, ms que lo que estos son capaces o no de
hacer
Por ello, las especificaciones de una prueba normativa
usualmente se denominan estructura del test o tabla de
especificaciones
Normalmente, la tabla de especificaciones es una tabla de
doble entrada en la cual una dimensin est representada
por el contenido que cubre el test y la otra dimensin los
tipos de conducta del examinado que sern evaluados

Tabla de especificaciones
Contenido

Comprensin

Aplicacin

Analisis

Tpico 1

Tpico 2

Tpico 3

Tpico 4

- La tabla es til para evitar que de manera inadvertida se


sobreenfaticen o subenfaticen ciertos aspectos de contenido

Desde luego es posible aadir otras dimensiones


adicionales al contenido y la conducta, a fin de
balancear los tems en aspectos tales como el sexo, el
tipo de tem y otros que se consideren relevantes
Contenido

Comprensin

Aplicacin

Tolal

Tpico 1

12

20

Subtpico 1.1

10

Subtpico 1.2

10

Tpico 2

12

Subtpico 2.1

Subtpico 2.2

Planeacin de la prueba
Especificaciones para los tests criteriales
Como ya se dijo, en el caso de los test
criteriales las especificaciones son bastante
detalladas. Se requiere especificar lo que el
examinado es capaz de hacer en relacin a un
dominio de conducta determinado
Si el test criterial medir ms de un dominio, se
deber crear un conjunto de especificaciones
por cada dominio evaluado. El procedimiento
para la especificacin de tems es el siguiente:

Planeacin de la prueba
Especificaciones para los tests criteriales
Descripcin general de la conducta a evaluar
Disear un tem muestra que refleje las dos clases de
atributos siguientes:
Delimitar, mediante afirmaciones, los atributos de los
estmulos que sern presentados a los examinados
Delimitar, mediante afirmaciones, los atributos de la
respuesta que el examinado selecciona o explicar los
estndares que servirn para juzgar las respuestas
construidas
Especificacin adicional, mediante anexos, de
contenidos elegibles u otros aspectos relevantes para
los estmulos y respuestas involucrados

Planeacin de la prueba
Especificaciones para los tests
Las especificaciones de tems tienen dos propsitos:
Comunicar a los usuarios de los resultados del test
qu es lo que el tem mide, a fin de que se aclare el
significado de las calificaciones para propsitos
instruccionales y para evaluar la efectividad de los
programas
Comunicar a los elaboradores de tems detalles que
les permitan generar tems efectivos
Cabe sealar que las especificaciones de reactivos
deben ser elaboradas antes de redactar los tems

Elaboracin de reactivos
Elaboracin de tems
Todos los tipos de tems solicitan al examinado
seleccionar una respuesta o que construya una
respuesta
Los principales tipos de tem de respuesta
seleccionada son los de respuesta alterna, opcin
mltiple y relacin de columnas
Los principales tipos de tem de respuesta
construida son los de respuesta breve y los de
ensayo
La escritura de tems enfrenta cinco dificultades
generales:

Elaboracin de reactivos
Elaboracin de tems
Instrucciones confusas (exigen mucha atencin e intuicin
al examinado; lo mejor: elaborarlas y probarlas antes)
Afirmaciones ambiguas (el examinado puede tener
incorrecta la respuesta an cuando sabe. Ejemplo: al
referir, aclarar el referente)
Pistas no intencionales (se dan pistas al examinado que no
sabe, de modo que acierta la respuesta correcta)
Sintaxis compleja (falta de unidad y uso de demasiadas
clusulas, lo que dificulta la comprensin: emplear menos
los "el que", "el cual", "quien")
Vocabulario difcil (uso de terminologa polisilbica e
hipersofisticada que dificulta la comprensin. Redactar
simple)

Elaboracin de reactivos
tems de respuesta alterna
Proporciona dos respuestas y pide al examinado
elegir una (si-no, faso-verdadero, etc.)
Su uso ms comn es para identificar la correccin
de afirmaciones factuales y definiciones
Su uso ms importante es para observar en qu
medida el estudiante tiene dominio de un rea,
indicado por su xito al juzgar la verdad o falsedad
de proposiciones relacionadas con tal rea
Ventaja: cubre bien el contenido
Desventaja: resulta fcil de adivinar
Recomendacin: tratar de no dar pistas

Elaboracin de reactivos
tems de relacin de columnas
Solicita al examinado que haga corresponder
correctamente dos listas, una de premisas y
otra de respuestas, que estn relacionadas de
alguna manera (lgica, cronolgica, terica,
etc.)
Ventaja: su forma compacta permite un buen
muestreo de contenido en poco espacio
Desventaja: se restringe a asociaciones
Recomendacin: hacer las listas homogneas
en contenido, cortas y desiguales en nmero

Elaboracin de reactivos
tems de opcin mltiple
Solicita al examinado, mediante una pregunta o una
afirmacin incompleta llamada base, elegir la respuesta
correcta o la mejor opcin entre 4 5 que se ofrecen
(distractores)
Ventajas: es el tipo de reactivo ms flexible, pues se puede
emplear para medir aprendizajes cognitivos y afectivos, tanto
simples como complejos; es difcil adivinar y las respuestas a
los distractores permiten rastrear errores en la comprensin
Desventaja: el examinado selecciona la respuesta correcta,
no la produce; as, es difcil que sintetice su pensamiento,
muestre su creatividad, etc.
Desarrollos adicionales: multitem de base comn, opcin
mltiple justificada, opcin mejorada, etc.

Elaboracin de reactivos
tems de respuesta construida
Hay habilidades, como la expresin oral, que no se
pueden evaluar de manera vlida con tems de
respuesta seleccionada
Hay dos tipos de respuesta construida: en la que el
examinado construye un producto (la conducta deja
una huella) o en la que emite una respuesta (la
conducta es evanescente y, por tanto debe
registrarse)
Al comparar los tests de respuesta seleccionada con
los de respuesta construida, estos presentan las
siguientes caractersticas:

Elaboracin de reactivos
tems de respuesta construida
Aunque son difciles de calificar, miden mejor la
habilidad para sintetizar ideas, la originalidad, la
redaccin y otros aprendizajes complejos
Se requiere menos tiempo para elaborar los tems,
pero ms para calificar las respuestas
Animan al estudiante a considerar aspectos ms
amplios del contenido
Sin embargo, si ambos tipos de examen
satisfacen el propsito de la evaluacin, por
razones prcticas casi siempre ser elegido el de
respuesta seleccionada

Elaboracin de reactivos
tems de respuesta breve
Piden al examinado proporcionar una palabra
o frase en respuesta a una pregunta directa o
para completar una afirmacin incompleta
Ventaja: el examinado construye su respuesta,
en particular en relacin al conocimiento de
informacin factual
Desventaja: difcil de calificar, debido a la
variedad de posibles respuestas
Recomendacin: es mejor una pregunta
directa, que una afirmacin incompleta

Elaboracin de reactivos
tems de ensayo
Es el tipo ms comn de respuesta construida
Se puede estructurar para obligar al examinado a
producir una respuesta muy corta, restringiendo la forma
y el contenido de la respuesta o limitando el espacio para
responder, con lo cual se mejora la confiabilidad al
calificar
Ventaja: es la mejor estrategia para evaluar el
aprendizaje complejo
Desventajas: mucho tiempo y poca confiabilidad al
calificar y muestreo pobre de contenido
Recomendacin: establecer explcitamente la tarea del
examinado y el valor de cada pregunta

Anlisis de reactivos
Tcnicas para mejorar los tems
Basadas en juicios. Estrategia a priori para estimar el
mrito de un tem. Expertos en contenido, psicometra y
otros se enfocan en la pregunta a fin de detectar fallas
Prueba emprica. Se enfoca en datos derivados de las
respuestas de los examinados a los tems, con el
mismo fin
Ambos tipos de anlisis son necesarios
Usualmente las tcnicas de juicios anteceden a las
empricas
Los tests de gran escala enfatizan la prueba emprica,
principalmente los normativos

Anlisis de reactivos
Aplicaciones normativas y criteriales
Los tests normativos emplean ms los mtodos
empricos, pues queremos determinar diferencias
entre los examinados para contrastar sus
ejecuciones. As, el refinamiento de los tems solo
puede realizarse observando cmo contribuyen a
detectar diferencias entre los examinados
Con los tests criteriales nos esforzamos por
describir con precisin el dominio medido y luego
aseguramos que los tems son congruentes con
dicha descripcin, lo cual solo puede hacerse
mediante juicios humanos

Anlisis de reactivos
Mejoramiento de tems mediante juicios
Existen varias fuentes de datos derivados de juicios
Los redactores de los tems, quienes tras disearlos
pueden revisarlos, despus de un tiempo prudente
Paneles de jueces independientes, sin inters en los
tems y expertos en el contenido, revisan y mejoran
los tems
Los propios examinados reportan tems ambiguos,
engaosos, difciles, fciles, instrucciones confusas,
tiempo insuficiente, etc., inmediatamente despus
de contestar el examen y solo en situaciones donde
no se penalice su ejecucin

Anlisis de reactivos
Qu deben buscar los jueces?

Si el tem es congruente con su


especificacin (ms fcil en los
normativos)
Si no contiene determinantes especficos
y otras fallas de redaccin tcnica (pistas,
ambigedades, etc.)
La correccin del contenido
Si el tem y el test presentan sesgo
cultural, socioeconmico, de gnero u otro

Anlisis de reactivos
Mejoramiento de tems mediante prueba emprica
El tem anlisis tradicional, particularmente til
para los tests normativos, incluye tres tcnicas:
Indice de dificultad: P, que es la proporcin de
examinados que contestaron bien el tem:
P=C/T
El valor de P debe considerarse en relacin con
la probabilidad de responder bien el tem al azar
(opcin mltiple 4 = .25; binarios = .50)

Anlisis de reactivos
Interpretacin del valor P
Un tem con valor P=.80 es fcil?
Un tem con valor P=.20 es difcil?
La facilidad o dificultad del tem estn relacionados con el
programa instruccional
En un examen de aptitud verbal aplicado a un grupo poco
familiarizado con su contenido, tiene sentido considerar un
tem con un alto valor de P como difcil; pero existen
situaciones diferentes:
Con un profesor hbil, Un tem con P=.95 significa que es
fcil o que los examinado, bien enseados, lo contestaron
correctamente?
Con un profesor deficiente, dicho tem, con P=.45 no
tenemos incluso ms razn para creer que el item no es fcil?

Anlisis de reactivos
ndice de discriminacin
Para un test normativo, el indicador ms poderoso de la
calidad de un tem es el ndice de discriminacin
Nos indica qu tan frecuentemente responden bien al tem
quienes obtuvieron buena calificacin total en el examen;
es decir, si discrimina entre los que saben y los que no
saben
Se trata de establecer una correlacin biserial entre una
variable contnua (calificacin total en la prueba) y la
variable dicotmica de la ejecucin al tem (correcto o
incorrecto)
El ndice de discriminacin le pone una bandera al tem
que indica que puede tener alguna falla

Anlisis de reactivos
Procedimiento para calcular
el ndice de discriminacin
Ordenar los exmenes de mayor a menor puntaje total
Dividir los exmenes en grupo alto (27%), grupo bajo
(27%) y grupo medio (se elimina para el anlisis)
Calcular el valor P para los grupos alto y bajo
Se resta el P bajo del P alto, para obtener el ndice de
discriminacin del tem:
D = P a - Pb
Existe una relacin estrecha entre P y D. Si P=1.0 ----> D=0
(D= 1.0 - 1.0 = 0). Lo mismo sucede si P = 0. Por lo tanto, si la
dificultad es media, la discriminacin es alta (D = 1.0 - 0 = 1.0)

Anlisis de reactivos
Anlisis de distractores

Cuando un tem necesita revisin


(ejemplo: P = .50; D = -.33), es
necesario un anlisis ms profundo
para detectar la falla
En los tems de opcin mltiple se
puede analizar cmo respondieron a los
distractores los grupos alto y bajo
Ejemplo:

Anlisis de reactivos
Anlisis de distractores
P=.50;
D=-.33

Omisin

Grupo
alto (16)

Grupo
bajo (15)

10

Principal problema
da pistas a los que
no saben: Revisar

No sirve
Hacer ms
atractiva

Atre a los
que saben
revisar

Anlisis de reactivos

tem anlisis para tests criteriales


En un test criterial esperamos que por efecto de la
instruccin todos los examinados respondan bien en el
examen, por lo que habr un bajo ndice de discriminacin
Por ello, se requiere un esquema diferente. Existen dos
alternativas:
La diferencia pretest-postest , en la que se administra la
prueba al mismo grupo antes y despus de la instruccin y
se calcula la discriminacin: Ddpp = Ppost - Ppre
Postest
Pretest
+1.0
-1.0

Ddpp
Tendencia sin instruccin

Anlisis de reactivos

tem anlisis para tests criteriales


Si el tem es sensible a la instruccin, discrimina (detecta
la diferencia entre la ejecucin antes y despus de la
instruccin)
Desventaja: Hay que esperar que termine la instruccin
La solucin es la Diferencia entre el grupo instruido y
no instruido, donde se aplica el test a dos grupos
(instruido y no instruido) y se calcula la discriminacin
basada en las diferencias entre ambos: Dgin = Pi - Pn
Test
Instruidos
+1.0

Ddgin

-1.0

No instruidos

Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba

Los aspectos prcticos que rodean al test


revisten una gran importancia
Aparte de los aspectos estrictamente
tcnicos considerados, una mala
administracin de la prueba puede ocasionar
respuestas poco significativas por parte del
examinado y, por ello, problemas de validez
y confiabilidad
Entre los principales factores a considerar,
de naturaleza administrativa estn:

Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba

Las instrucciones del test (propsito de la


prueba, tiempo permitido, formato de la mejor
opcin, forma de registrar la respuesta,
indicaciones sobre la adivinacin, etc.)
Administracin del test (escenario, seguridad
entrenamiento a los aplicadores, etc.)
Calificacin de la prueba (calificacin manual,
calificacin automtica, correccin por
adivinacin, pesos diferenciales, formato de
registro, etc)

Estandarizacin de la prueba
Establecimiento de estndares y puntos de corte
Un estndar es una medida del nivel de ejecucin del
examinado que es adecuado para algn propsito
(qu tan bueno es lo suficientemente bueno?)
Un estndar general produce tranquilidad; uno
especfico: terror
En los test de gran escala y de alto impacto, si el
estndar es alto los errores tienen consecuencias
desastrosas y duraderas; si es bajo, la sociedad pierde,
se devaluan los diplomas, etc.
El establecimiento de estndares requiere del juicio
humano, pero ello no lo hace arbitrario

Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba

Establecer estndares es un proceso: lo


haremos, cometeremos errores con
seguridad y los corregiremos, hasta contar
con unos realistas y apropiados
Pero ojo!, es ms fcil ajustar los
estndares hacia arriba que hacia abajo; de
igual modo, ponerlos despus de aplicar la
prueba, que antes
Los principales factores a considerar al
establecer estndares son:

Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba
Anlisis del contexto de la decisin (qu pasa si el
examinado falla en lograr el estndar? depende de
de la magnitud de la decisin y de consideraciones
contextuales:
En el saln no queremos falsos dominadores:
estndares altos
Para dar un diploma o ingresar a otro ciclo, no
queremos no-dominadores: estndares bajos
Para el caso de los exmenes normativos, es difcil
poner estndares debido a su esquema descriptivo
vago; por ello, se requiere consultar los datos
derivados de la aplicacin de los tems (grupos
contrastados)

No
dominadores

Dominadores

No
dominadores

Dominadores

Estndar
alto
Instruccin

No
dominadores

Dominadores

Estndar
alto
Instruccin

No
dominadores

Dominadores

Estndar
bajo
Certificacin

No
dominadores

Dominadores

Estndar
bajo
Certificacin

No
dominadores

Dominadores

Estndar
bajo

Estndar
alto

Instruccin

Certificacin

No
dominadores

Dominadores

You might also like