Professional Documents
Culture Documents
CAPTULO 5:
LA EVALUACIN DE
LAS PRUEBAS DE
EVALUACIN
Bertoni,
A.,
Poggii,
M. y
Teobaldo,
M. (1999) Evaluacin nuevos significados para
una prctica compleja. Argentina: Kapelusz
(Compilacin con fines instruccionales)
69
La evaluacin
de las pruebas
de evaluacin
El trmino metaevaluacin designa un concepto que introdujo Scriven (1968)
para referirse a la necesidad de evaluar cada etapa del plan de evaluacin,
incluyendo los instrumentos utilizados.
Una vez concluido el proceso de anlisis de los resultados de las pruebas, es
importante iniciar la evaluacin de cada uno de los instrumentos administrados.
Consideramos conveniente subrayar la importancia de la evaluacin de los
instrumentos de evaluacin, dado que el anlisis cualitativo de los resultados
privilegia, por su importancia pedaggica, el momento de la devolucin y la
construccin continua de una validez consensuada entre los actores involucrados
en la evaluacin.
La expresin anlisis de tems se refiere habitualmente a cuestiones propias
de las pruebas objetivas, pero no hay razn para que tal procedimiento no pueda
aplicarse tambin a los tems de respuesta abierta. En preguntas de respuesta
breve, las que requieren palabras, frases, enunciados que expresen un hecho o
una idea, el procedimiento analtico es semejante al de las que exigen una opcin
verdadero/falso o las de seleccin mltiple.
Cuando el problema o la pregunta requieren respuesta extensa, la decisin del
evaluador de otorgar el puntaje correspondiente a correcta o no es ms
compleja, pero puede hacerse, aunque con otros requisitos. En efecto, es ms
difcil lograr el grado de formalizacin exigido por el anlisis de tems cuando no se
trata de pruebas objetivas. Sin embargo, es posible hacerlo con la consistencia
interna que requiere la correccin de una prueba. En este sentido, cuando se
construye el sistema compuesto por claves de correccin adecuadas y por
criterios de valoracin que corresponde a ellas, se puede alcanzar el grado de
formalizacin que permita hacer un riguroso anlisis de tems.
Por esta razn, sostenemos que el conjunto formado por las pruebas de
evaluacin administradas, los resultados registrados segn claves de correccin y
el esquema de valoracin explicitado implican un
70
71
muestra Thyne (1978). Este autor sostiene que la validez es la necesidad ltima y
que la confiabilidad es condicin de la validez, condicin necesaria, pero de
ningn modo suficiente. A la consistencia de los puntajes Tie agrega otras tres
condiciones: la relevancia del tem (la pertinencia de las tareas planteadas en
funcin de los objetivos de la prueba), la relevancia de los puntajes (adjudicar un
valor a las realizaciones especificadas como relevantes) y la condicin de
equilibrio (varias partes de la prueba tienen que contribuir a la valoracin final).
Las cuatro condiciones son necesarias y suficientes para asegurar la
validez. Como se dijo antes, si falta la primera (confiabilidad), la validez no se
sostiene.
Con relacin a los coeficientes de confiabilidad, ellos puedes ser el resultado de
cuatro procesos separados y reciben, segn su origen, distintas denominaciones.
Coeficiente de confiabilidad
Coeficiente
Se aplica una prueba de conocimiento y, despus
de estabilidad
de un corto tiempo, se la vuelve a tomar a los
mismos alumnos.
El coeficiente de correlacin de calculado a partir de
los dos conjuntos de puntajes es un coeficiente de
estabilidad.
Coeficiente
Se
aplican
consecutivamente
dos
formas
de equivalencia
equivalentes de la prueba a un grupo de alumnos.
Coeficiente
Se obtiene cuando transcurre un intervalo de
de estabilidad
bastante duracin entre la primera y la segunda
y equivalencia
aplicacin de dos formas equivalentes.
Coeficiente de
Este coeficiente se puede calcular con una sola
Consistencia interna
aplicacin de la prueba.
El procedimiento ms comn es elaborar una
prueba con mayor nmero de tems ordenados por
dificultad. Se la divide luego en dos mitades: una
prueba se constituye con los tems pares, la otra se
forma con los tems impares. Finalmente, se
aplican ambas al mismo grupo de alumnos, se
obtiene el coeficiente de correlacin entre las dos
mitades y se es el coeficiente de confiabilidad.
En sntesis, se dice que un instrumento es confiable cuando es estable o
muestra consistencia interna. La cualidad hace referencia a lo que el instrumento
mide con exactitud y certeza en diferentes ocasiones.
Una prueba alcanza un elevado coeficiente de contabilidad si los
72
73
74
75
EL CONCEPTO DE VALIDEZ
La validez de cualquier instrumento de medicin depende de la fidelidad con
que mide lo que se propone medir. Una prueba de evaluacin es vlida si los
desempeos que mide corresponden a los mismos desempeos medidos
independientemente de otra manera o definidos en forma objetiva.
La validez es un trmino relativo: una prueba es vlida de acuerdo con los
propsitos particulares para los que fue construida; es vlida si responde, o si se
ajusta, a los criterios de referencia fijados para juzgar los desempeos. No hay
pruebas ni s test que sean universalmente vlidos.
Para hacer la seleccin de los tems que va a integrar una prueba de
rendimiento educacional se emplea la validez de contenido. Referirse a la valides
de un tem es hablar de su poder discriminatorio, o sea, en qu grado el tem
discrimina entre examinados que difieren ntidamente en la funcin (o funciones)
medida por la totalidad de la prueba.
Como criterio de discriminacin es cuestionable desde una perspectiva
pedaggica. En efecto, si una prueba contiene solamente tems que discriminan
por anticipado entre los que saben y los que no saben, se disminuye la
probabilidad de que todos los alumnos, o la mayora de ellos, puedan responder
correctamente a la prueba. Pero si se le otorga al criterio de validez el sentido de
una discriminacin positiva, este ndice nos permitir conocer con mayor
seguridad a los grupos de alumnos con particulares dificultades frente al contenido
de una prueba u prever, para ellos, acciones de nivelacin u otras medidas.
En el caso del anlisis de la validez en positivo, se trata de saber cules son
los tems que discriminan efectivamente las realizaciones de los alumnos para
encarar con diversas estrategias de enseanza un apoyo diferencial para quienes
lo precisan.
La magnitud de un ndice de validez aceptable depende de varios factores: la
longitud de la prueba, la amplitud de los ndices de dificultad y los objetivos que la
prueba pretende lograr.
Cuando se hace referencia a la representatividad de los elementos de la
prueba, es decir, si los tems son una muestra suficientemente representativa
respecto de la caracterstica o variable-objeto de medicin, se acude al consenso
de muchos educadores y/o tcnicos acerca de lo que un alumno de la tal edad y
curso determinado debera saber en la asignatura o rea relacionada con la
prueba. La validacin del contenido mediante juicios competentes es muy
satisfactoria si el muestreo de tems es amplio y juicioso y se utilizan grupos
adecuados para la estandarizacin41.
41
H.E. Garret, Estadstica en Psicologa y Educacin, Buenos Aires, Piados, 1969, p. 392.
76
A los maestros se les recomiendo prestar atencin a los factores que pueden
conspirar contra la validez de las pruebas.
1. Validez proposicional: utilizar presupuestos, teoras inadecuadas o
incorrectas, de los que se desprenden los contenidos del aprendizaje por
evaluar.
2. Validez del instrumento: emplear clasificaciones irrelevantes para
seleccionar las partes de una prueba o los tipos de contenidos para incluir o
redactar que no correspondan a los conocimientos y habilidades que se
deseen evaluar.
3. Validez del observador: introducir errores importantes en la seleccin
de contenidos debido a preferencias, opiniones personales o nociones
preconcebidas sin rigor cientfico.
4. Validez de administracin: los mtodos de recoleccin de datos
pueden ser incongruentes con las tareas que desea suscitar la prueba.
5. Validez del anlisis: errores deliberados o involuntarios que se
cometen al efectuar el anlisis de los resultados.
6. Validez didctica: se refiere al aspecto exterior e interior de la prueba,
el atractivo, el inters que despierta. El cuidado de la impresin, los grficos,
el tipo de letra, etc., pueden afectar la validez en el momento de aplicarse la
prueba.
OTRAS PRETENCIONES PARA DEFINIR LA VALIDEZ EN LOS ENFOQUES
CUALITATIVOS
Los resultados e informes de la investigacin debern validarse mediante el
contraste de los resultados obtenidos por el investigador con
77
78
(2)
Recepcin de la informacin
producida.
Interpretacin de la
devolucin.
(Docentes)
Validacin conjunta
(3)
79
2.
3.
80
42
81
4
18
16
18
Esta fraccin estara indicando que uno realiz en forma correcta 11 ejercicios
sobre los 18 presentados. Otro hizo bien cuatro sobre 18, etc. Aunque
previamente haya indicado a sus alumnos que para aprobar tenan que haber
hecho correctamente por lo menos 11 ejercicios del total de la prueba, les est
diciendo muy poco.
En cambio, cuando le dice a un alumno que hizo mal o un tem o le informa a
todo el grupo cuntos lo hicieron bien, slo les habr comunicado lo que hizo cada
uno sin explicarle las razones de los resultados obtenidos por ellos.
Una tercera posibilidad que no excluye las anteriores es que usted opte,
justamente, por explicar las razones de los aciertos o errores que cometieron en la
resolucin de los ejercicios, trabaje con todo el grupo sobre los errores ms
significativos y recurrentes, y presente los procedimientos correctos para la
resolucin de esos ejercicios.
Es muy difcil que los chicos no comprendan un informe de este tipo. Las
explicaciones sobre los resultados individuales y grupales de la evolucin permiten
el crecimiento de la confianza del alumno en su maestro y de autoestima en
ambos, bases afectivas necesarias para afrontar tareas ms complejas.
LA BSQUEDA DE EQUIVALENCIA
EN LOS CONTROLES METODOLGICOS
El reconocimiento de dos de los paradigmas que constituyen el trasfondo
epistemolgico de la investigacin educativa el positivista lgico y el
interpretativo- nos ha facilitado la introduccin a la metodologa, procedimientos y
tipos de anlisis que son coherentes con cada uno de ellos en el trabajo especfico
de la investigacin evaluativa.
El predominio de la medicin y la objetividad dentro del primer enfoque
parece revestir a esta perspectiva de mayor cientificidad que el segundo.
El enfoque interpretativo, que apela predominantemente a metodologas
cualitativas aparece como dotado de menor rigor cientfico, quizs porque sustenta
que la subjetividad no puede eliminarse de ningn trabajo de investigacin. Sin
embargo, la aplicacin de esta perspectiva de anlisis que es posible garantizar la
rigurosidad de la investigacin
82
cualitativa, aunque los trminos para designar el rigor cientfico en uno y otro
enfoque.
Guba y Lincoln (1982), desde el paradigma interpretativo, muestran la siguiente
equivalencia conceptual.
Trminos para definir el rigor cientfico en los enfoques cuantitativo y cualitativo43
Aspecto
Consistencia
Enfoque
cuantitativo
Validez interna
Validez externa
(generalizacin)
Confiabilidad
Neutralidad
Objetividad
Valor de verdad
Aplicabilidad
Enfoque
cualitativo
Credibilidad
Transferencia
Dependencia
o consistencia
Confirmabilidad
ENFOQUE CUALITATIVO
1. Credibilidad
43
Este cuadro y el siguiente estn construidos sobre la base de la presentacin realizada por
E. Guba en Criterios de credibilidad de a investigacin naturalista en J. Gimeno Sacristn y
A. Prez Gmez, La enseanza. Su teora y su prctica, Madrid, Akal, 1983.
ENFOQUE CUANTITATIVO
2. Validez externa
Se refiere a la eficacia de las pruebas para
predecir una realizacin concreta. Puede
considerarse como validez predictiva cuando las
pruebas
permitan
predecir
conexito
comportamientos futuros. Esta validez se
estima correlacionanado los puntajes que un
grupo de alumnos obtienen en una prueba con
lo que logran en otra totalmente externa,
denominada criterio. Por ejemplo, si hacemos
un aprueba constituida por tems que pretender
estimar la inteligencia del que responde y, por
otro lado, aplicamos al mismo grupo un test de
inteligencia, esperamos si la prueba es vlidaque quienes obtuvieron las notas ms altas en
ella sean quienes presentan los coeficientes
ms altos de inteligencia medidos por el test.
83
2.
ENFOQUE CUALITATIVO
Transferencia