Professional Documents
Culture Documents
Febrero de 2003
Propsitos de la
evaluacin
del aprendizaje
Diferentes propsitos educativos
requieren diferentes pruebas educativas y
diferentes usos de esas pruebas: cuando
una prueba no empata con sus propsitos
las inferencias errneas se multiplican
vertiginosamente
Aplicaciones actuales
de los tests
Evaluar individuos para decidir
aspectos instruccionales o
vocacionales (orientacin a
determinar el estatus)
Evaluar programas
Catalizar la instruccin (orientacin
a mejorar la instruccin)
Test criterial
Se emplea para determinar el estatus
que tiene un individuo con respecto a un
criterio o dominio evaluativo bien definido
El dominio evaluativo tpico son
conocimientos o habilidades
Un test criterial nos permite conocer lo
que un examinado puede hacer o no
Su caracterstica distintiva es la claridad
con que describe lo que mide
Test normativo
Test criterial
Pobre cobertura
de contenido
Buena cobertura
de contenido
Nociones de estadstica
Al evaluar un test, es obvio que necesitamos
tener una buena idea acerca de las ejecuciones
de los estudiantes en l
Con miles, cientos o incluso un puado de
ejecuciones ante el test reportadas
individualmente, es casi imposible obtener
conclusiones significativas a partir de los
puntajes brutos obtenidos por los examinados
Para atender este problema, contamos con los
esquemas descriptivos aportados por la
estadstica
Nociones de estadstica
Distribuciones de frecuencia
Nociones de estadstica
Distribuciones de frecuencia
Lo anterior se conoce como distribucin
normal de frecuencias y es la manera en que
se distribuyen la mayor parte de las
caractersticas humanas, como la estatura, el
color del pelo, la inteligencia, etc.
Su representacin grfica es la curva de
distribucin normal de frecuencias o campana
de Gauss. Su apariencia es la siguiente:
Nociones de estadstica
Curva de distribucin normal de frecuencias
Frecuencia
75
60
30
15
0
30
Puntajes en el test
60
Nociones de estadstica
Indicadores de tendencia central
X=
Nociones de estadstica
Indicadores de tendencia central
La mediana, es el punto que divide los
puntajes en dos partes iguales
A diferencia de la media, no se ve afectada
por puntajes muy altos o muy bajos (a los
cuales trata como un puntaje ms)
Sin embargo, falla en reflejar el impacto de
cada puntaje en la distribucin
La moda, que es el puntaje que ocurre ms
frecuentemente
Una distribucin puede ser bimodal o trimodal
Nociones de estadstica
En una distribucin normal se encuentran sobre
el mismo puntaje la media, mediana y moda
Frecuencia
75
60
30
15
0
30
Puntajes en el test
60
Nociones de estadstica
Indicadores de variabilidad
X=38.2
X=38.2
Nociones de estadstica
Indicadores de variabilidad
Nociones de estadstica
Indicadores de variabilidad
Desviacin estndar
75
60
30
15
0
10
20
30
40
X=43
X=9
X=54
50
60
Nociones de estadstica
Indicadores de variabilidad
As, Para determinar la desviacin de un puntaje
se resta la media de la distribucin del puntaje:
x=X-X
Sin embargo, obtener la desviacin promedio
o estndar de todas las desviaciones no
puede hacerse mediante el promedio directo
(el resultado sera 0, pues se cancelan las
desviaciones positivas y negativas ); Por ello
se emplea la frmula:
Nociones de estadstica
Indicadores de variabilidad
s=
Nociones de estadstica
Indicadores de relacin
Los examinados que obtienen puntajes altos en una
prueba de seleccin tienden a lograr buenas
calificaciones cuando ingresan a la escuela que los
selecciona?
Aqu se trata de determinar en que medida estn
relacionadas dos variables
La medida para determinarlo es un coeficiente de
correlacin. El ms comn es el de Pearson, mismo
que establece que la correlacin r , es igual a la raz
cuadrada del cociente de la sumatoria de los productos
cruzados de las desviaciones, entre el producto de las
dos sumatorias de las desviaciones cuadradas,
correspondientes a las variables relacionadas
Nociones de estadstica
Indicadores de relacin
Es decir:
M
( x2 ) ( y2 )
M
r=
xy
Promedio de calificaciones
10
8
6
4
2
0
11
31
49
Puntajes
en el examen
Calificaciones
59
77
Planeacin de la prueba
Especificar lo que el test debe medir
Planeacin de la prueba
Especificar lo que el test debe medir
Existen diferentes esquemas de evaluacin: Pruebas
de lpiz y papel o por computadora, observacin de
los examinados en accin, como demostraciones y
pruebas orales, productos permanentes, etc.
Entre ellas, las pruebas de lpiz y papel han sido uno
de los esquemas preferidos por los diseadores de
tests, principalmente por las ventajas que ofrecen
para atender restricciones como las antes
mencionadas
No obstante, an entre los de lpiz y papel existen
muchas opciones: respuesta alterna, relacin de
columnas, opcin mltiple, ensayo, etc.
Planeacin de la prueba
Especificar lo que el test debe medir
En este contexto, lo que se requiere primero
es tener una buena idea del atributo que se
desea medir
Teniendo clara esa idea, se deben revisar
los posibles esquemas evaluativos para
detectar los que satisfacen mejor las
necesidades,sin apresurar la decisin
La siguiente tarea es crear un conjunto de
especificacines que normen tanto la
generacin del test, como de sus tems
Planeacin de la prueba
Especificaciones para los tests normativos
A diferencia de los tests criteriales, los normativos
requieren informacin descriptiva ms general, pues su
inters principal son los contrastes relativos entre los
examinados, ms que lo que estos son capaces o no de
hacer
Por ello, las especificaciones de una prueba normativa
usualmente se denominan estructura del test o tabla de
especificaciones
Normalmente, la tabla de especificaciones es una tabla de
doble entrada en la cual una dimensin est representada
por el contenido que cubre el test y la otra dimensin los
tipos de conducta del examinado que sern evaluados
Tabla de especificaciones
Contenido
Comprensin
Aplicacin
Analisis
Tpico 1
Tpico 2
Tpico 3
Tpico 4
Comprensin
Aplicacin
Tolal
Tpico 1
12
20
Subtpico 1.1
10
Subtpico 1.2
10
Tpico 2
12
Subtpico 2.1
Subtpico 2.2
Planeacin de la prueba
Especificaciones para los tests criteriales
Como ya se dijo, en el caso de los test
criteriales las especificaciones son bastante
detalladas. Se requiere especificar lo que el
examinado es capaz de hacer en relacin a un
dominio de conducta determinado
Si el test criterial medir ms de un dominio, se
deber crear un conjunto de especificaciones
por cada dominio evaluado. El procedimiento
para la especificacin de tems es el siguiente:
Planeacin de la prueba
Especificaciones para los tests criteriales
Descripcin general de la conducta a evaluar
Disear un tem muestra que refleje las dos clases de
atributos siguientes:
Delimitar, mediante afirmaciones, los atributos de los
estmulos que sern presentados a los examinados
Delimitar, mediante afirmaciones, los atributos de la
respuesta que el examinado selecciona o explicar los
estndares que servirn para juzgar las respuestas
construidas
Especificacin adicional, mediante anexos, de
contenidos elegibles u otros aspectos relevantes para
los estmulos y respuestas involucrados
Planeacin de la prueba
Especificaciones para los tests
Las especificaciones de tems tienen dos propsitos:
Comunicar a los usuarios de los resultados del test
qu es lo que el tem mide, a fin de que se aclare el
significado de las calificaciones para propsitos
instruccionales y para evaluar la efectividad de los
programas
Comunicar a los elaboradores de tems detalles que
les permitan generar tems efectivos
Cabe sealar que las especificaciones de reactivos
deben ser elaboradas antes de redactar los tems
Elaboracin de reactivos
Elaboracin de tems
Todos los tipos de tems solicitan al examinado
seleccionar una respuesta o que construya una
respuesta
Los principales tipos de tem de respuesta
seleccionada son los de respuesta alterna, opcin
mltiple y relacin de columnas
Los principales tipos de tem de respuesta
construida son los de respuesta breve y los de
ensayo
La escritura de tems enfrenta cinco dificultades
generales:
Elaboracin de reactivos
Elaboracin de tems
Instrucciones confusas (exigen mucha atencin e intuicin
al examinado; lo mejor: elaborarlas y probarlas antes)
Afirmaciones ambiguas (el examinado puede tener
incorrecta la respuesta an cuando sabe. Ejemplo: al
referir, aclarar el referente)
Pistas no intencionales (se dan pistas al examinado que no
sabe, de modo que acierta la respuesta correcta)
Sintaxis compleja (falta de unidad y uso de demasiadas
clusulas, lo que dificulta la comprensin: emplear menos
los "el que", "el cual", "quien")
Vocabulario difcil (uso de terminologa polisilbica e
hipersofisticada que dificulta la comprensin. Redactar
simple)
Elaboracin de reactivos
tems de respuesta alterna
Proporciona dos respuestas y pide al examinado
elegir una (si-no, faso-verdadero, etc.)
Su uso ms comn es para identificar la correccin
de afirmaciones factuales y definiciones
Su uso ms importante es para observar en qu
medida el estudiante tiene dominio de un rea,
indicado por su xito al juzgar la verdad o falsedad
de proposiciones relacionadas con tal rea
Ventaja: cubre bien el contenido
Desventaja: resulta fcil de adivinar
Recomendacin: tratar de no dar pistas
Elaboracin de reactivos
tems de relacin de columnas
Solicita al examinado que haga corresponder
correctamente dos listas, una de premisas y
otra de respuestas, que estn relacionadas de
alguna manera (lgica, cronolgica, terica,
etc.)
Ventaja: su forma compacta permite un buen
muestreo de contenido en poco espacio
Desventaja: se restringe a asociaciones
Recomendacin: hacer las listas homogneas
en contenido, cortas y desiguales en nmero
Elaboracin de reactivos
tems de opcin mltiple
Solicita al examinado, mediante una pregunta o una
afirmacin incompleta llamada base, elegir la respuesta
correcta o la mejor opcin entre 4 5 que se ofrecen
(distractores)
Ventajas: es el tipo de reactivo ms flexible, pues se puede
emplear para medir aprendizajes cognitivos y afectivos, tanto
simples como complejos; es difcil adivinar y las respuestas a
los distractores permiten rastrear errores en la comprensin
Desventaja: el examinado selecciona la respuesta correcta,
no la produce; as, es difcil que sintetice su pensamiento,
muestre su creatividad, etc.
Desarrollos adicionales: multitem de base comn, opcin
mltiple justificada, opcin mejorada, etc.
Elaboracin de reactivos
tems de respuesta construida
Hay habilidades, como la expresin oral, que no se
pueden evaluar de manera vlida con tems de
respuesta seleccionada
Hay dos tipos de respuesta construida: en la que el
examinado construye un producto (la conducta deja
una huella) o en la que emite una respuesta (la
conducta es evanescente y, por tanto debe
registrarse)
Al comparar los tests de respuesta seleccionada con
los de respuesta construida, estos presentan las
siguientes caractersticas:
Elaboracin de reactivos
tems de respuesta construida
Aunque son difciles de calificar, miden mejor la
habilidad para sintetizar ideas, la originalidad, la
redaccin y otros aprendizajes complejos
Se requiere menos tiempo para elaborar los tems,
pero ms para calificar las respuestas
Animan al estudiante a considerar aspectos ms
amplios del contenido
Sin embargo, si ambos tipos de examen
satisfacen el propsito de la evaluacin, por
razones prcticas casi siempre ser elegido el de
respuesta seleccionada
Elaboracin de reactivos
tems de respuesta breve
Piden al examinado proporcionar una palabra
o frase en respuesta a una pregunta directa o
para completar una afirmacin incompleta
Ventaja: el examinado construye su respuesta,
en particular en relacin al conocimiento de
informacin factual
Desventaja: difcil de calificar, debido a la
variedad de posibles respuestas
Recomendacin: es mejor una pregunta
directa, que una afirmacin incompleta
Elaboracin de reactivos
tems de ensayo
Es el tipo ms comn de respuesta construida
Se puede estructurar para obligar al examinado a
producir una respuesta muy corta, restringiendo la forma
y el contenido de la respuesta o limitando el espacio para
responder, con lo cual se mejora la confiabilidad al
calificar
Ventaja: es la mejor estrategia para evaluar el
aprendizaje complejo
Desventajas: mucho tiempo y poca confiabilidad al
calificar y muestreo pobre de contenido
Recomendacin: establecer explcitamente la tarea del
examinado y el valor de cada pregunta
Anlisis de reactivos
Tcnicas para mejorar los tems
Basadas en juicios. Estrategia a priori para estimar el
mrito de un tem. Expertos en contenido, psicometra y
otros se enfocan en la pregunta a fin de detectar fallas
Prueba emprica. Se enfoca en datos derivados de las
respuestas de los examinados a los tems, con el
mismo fin
Ambos tipos de anlisis son necesarios
Usualmente las tcnicas de juicios anteceden a las
empricas
Los tests de gran escala enfatizan la prueba emprica,
principalmente los normativos
Anlisis de reactivos
Aplicaciones normativas y criteriales
Los tests normativos emplean ms los mtodos
empricos, pues queremos determinar diferencias
entre los examinados para contrastar sus
ejecuciones. As, el refinamiento de los tems solo
puede realizarse observando cmo contribuyen a
detectar diferencias entre los examinados
Con los tests criteriales nos esforzamos por
describir con precisin el dominio medido y luego
aseguramos que los tems son congruentes con
dicha descripcin, lo cual solo puede hacerse
mediante juicios humanos
Anlisis de reactivos
Mejoramiento de tems mediante juicios
Existen varias fuentes de datos derivados de juicios
Los redactores de los tems, quienes tras disearlos
pueden revisarlos, despus de un tiempo prudente
Paneles de jueces independientes, sin inters en los
tems y expertos en el contenido, revisan y mejoran
los tems
Los propios examinados reportan tems ambiguos,
engaosos, difciles, fciles, instrucciones confusas,
tiempo insuficiente, etc., inmediatamente despus
de contestar el examen y solo en situaciones donde
no se penalice su ejecucin
Anlisis de reactivos
Qu deben buscar los jueces?
Anlisis de reactivos
Mejoramiento de tems mediante prueba emprica
El tem anlisis tradicional, particularmente til
para los tests normativos, incluye tres tcnicas:
Indice de dificultad: P, que es la proporcin de
examinados que contestaron bien el tem:
P=C/T
El valor de P debe considerarse en relacin con
la probabilidad de responder bien el tem al azar
(opcin mltiple 4 = .25; binarios = .50)
Anlisis de reactivos
Interpretacin del valor P
Un tem con valor P=.80 es fcil?
Un tem con valor P=.20 es difcil?
La facilidad o dificultad del tem estn relacionados con el
programa instruccional
En un examen de aptitud verbal aplicado a un grupo poco
familiarizado con su contenido, tiene sentido considerar un
tem con un alto valor de P como difcil; pero existen
situaciones diferentes:
Con un profesor hbil, Un tem con P=.95 significa que es
fcil o que los examinado, bien enseados, lo contestaron
correctamente?
Con un profesor deficiente, dicho tem, con P=.45 no
tenemos incluso ms razn para creer que el item no es fcil?
Anlisis de reactivos
ndice de discriminacin
Para un test normativo, el indicador ms poderoso de la
calidad de un tem es el ndice de discriminacin
Nos indica qu tan frecuentemente responden bien al tem
quienes obtuvieron buena calificacin total en el examen;
es decir, si discrimina entre los que saben y los que no
saben
Se trata de establecer una correlacin biserial entre una
variable contnua (calificacin total en la prueba) y la
variable dicotmica de la ejecucin al tem (correcto o
incorrecto)
El ndice de discriminacin le pone una bandera al tem
que indica que puede tener alguna falla
Anlisis de reactivos
Procedimiento para calcular
el ndice de discriminacin
Ordenar los exmenes de mayor a menor puntaje total
Dividir los exmenes en grupo alto (27%), grupo bajo
(27%) y grupo medio (se elimina para el anlisis)
Calcular el valor P para los grupos alto y bajo
Se resta el P bajo del P alto, para obtener el ndice de
discriminacin del tem:
D = P a - Pb
Existe una relacin estrecha entre P y D. Si P=1.0 ----> D=0
(D= 1.0 - 1.0 = 0). Lo mismo sucede si P = 0. Por lo tanto, si la
dificultad es media, la discriminacin es alta (D = 1.0 - 0 = 1.0)
Anlisis de reactivos
Anlisis de distractores
Anlisis de reactivos
Anlisis de distractores
P=.50;
D=-.33
Omisin
Grupo
alto (16)
Grupo
bajo (15)
10
Principal problema
da pistas a los que
no saben: Revisar
No sirve
Hacer ms
atractiva
Atre a los
que saben
revisar
Anlisis de reactivos
Ddpp
Tendencia sin instruccin
Anlisis de reactivos
Ddgin
-1.0
No instruidos
Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba
Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba
Estandarizacin de la prueba
Establecimiento de estndares y puntos de corte
Un estndar es una medida del nivel de ejecucin del
examinado que es adecuado para algn propsito
(qu tan bueno es lo suficientemente bueno?)
Un estndar general produce tranquilidad; uno
especfico: terror
En los test de gran escala y de alto impacto, si el
estndar es alto los errores tienen consecuencias
desastrosas y duraderas; si es bajo, la sociedad pierde,
se devaluan los diplomas, etc.
El establecimiento de estndares requiere del juicio
humano, pero ello no lo hace arbitrario
Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba
Estandarizacin de la prueba
Ensamble, administracin y calificacin de la prueba
Anlisis del contexto de la decisin (qu pasa si el
examinado falla en lograr el estndar? depende de
de la magnitud de la decisin y de consideraciones
contextuales:
En el saln no queremos falsos dominadores:
estndares altos
Para dar un diploma o ingresar a otro ciclo, no
queremos no-dominadores: estndares bajos
Para el caso de los exmenes normativos, es difcil
poner estndares debido a su esquema descriptivo
vago; por ello, se requiere consultar los datos
derivados de la aplicacin de los tems (grupos
contrastados)
No
dominadores
Dominadores
No
dominadores
Dominadores
Estndar
alto
Instruccin
No
dominadores
Dominadores
Estndar
alto
Instruccin
No
dominadores
Dominadores
Estndar
bajo
Certificacin
No
dominadores
Dominadores
Estndar
bajo
Certificacin
No
dominadores
Dominadores
Estndar
bajo
Estndar
alto
Instruccin
Certificacin
No
dominadores
Dominadores