You are on page 1of 16

Universidad Nacional Abierta

Direccin de Investigaciones y Postgrado

CAPTULO 5:
LA EVALUACIN DE
LAS PRUEBAS DE
EVALUACIN

Bertoni,
A.,
Poggii,
M. y
Teobaldo,
M. (1999) Evaluacin nuevos significados para
una prctica compleja. Argentina: Kapelusz
(Compilacin con fines instruccionales)

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

69

La evaluacin
de las pruebas
de evaluacin
El trmino metaevaluacin designa un concepto que introdujo Scriven (1968)
para referirse a la necesidad de evaluar cada etapa del plan de evaluacin,
incluyendo los instrumentos utilizados.
Una vez concluido el proceso de anlisis de los resultados de las pruebas, es
importante iniciar la evaluacin de cada uno de los instrumentos administrados.
Consideramos conveniente subrayar la importancia de la evaluacin de los
instrumentos de evaluacin, dado que el anlisis cualitativo de los resultados
privilegia, por su importancia pedaggica, el momento de la devolucin y la
construccin continua de una validez consensuada entre los actores involucrados
en la evaluacin.
La expresin anlisis de tems se refiere habitualmente a cuestiones propias
de las pruebas objetivas, pero no hay razn para que tal procedimiento no pueda
aplicarse tambin a los tems de respuesta abierta. En preguntas de respuesta
breve, las que requieren palabras, frases, enunciados que expresen un hecho o
una idea, el procedimiento analtico es semejante al de las que exigen una opcin
verdadero/falso o las de seleccin mltiple.
Cuando el problema o la pregunta requieren respuesta extensa, la decisin del
evaluador de otorgar el puntaje correspondiente a correcta o no es ms
compleja, pero puede hacerse, aunque con otros requisitos. En efecto, es ms
difcil lograr el grado de formalizacin exigido por el anlisis de tems cuando no se
trata de pruebas objetivas. Sin embargo, es posible hacerlo con la consistencia
interna que requiere la correccin de una prueba. En este sentido, cuando se
construye el sistema compuesto por claves de correccin adecuadas y por
criterios de valoracin que corresponde a ellas, se puede alcanzar el grado de
formalizacin que permita hacer un riguroso anlisis de tems.
Por esta razn, sostenemos que el conjunto formado por las pruebas de
evaluacin administradas, los resultados registrados segn claves de correccin y
el esquema de valoracin explicitado implican un

70

ALICIA BERTONI- MARGARITA POGGI MARTA TEOBALDO

progreso en la formalizacin de los procedimientos analticos al utilizar otro tipo de


tems que los que son propios de las denominadas pruebas objetivas.
Independientemente de la extensin de las respuestas se ha podido detectar
los aciertos y los errores ms frecuentes de los alumnos con procedimientos de
mayor complejidad que los correspondientes al examen de las opciones correcta
y errnea de las pruebas de seleccin mltiple. Es necesario extenderse sobre
las caractersticas tcnicas que presentaron las pruebas.
LA CONFIABILIDAD DE LA PRUEBAS
DE EVALUACIN
La eficacia de un aprueba se estima en trminos de la confiabilidad y validez
que ella posee. Estos conceptos plantean determinados problemas que se
resuelven de diferente forma cuando el enfoque de la evaluacin es cuantitativo o
cualitativo.
La confiabilidad en estudios cuantitativos
En este caso, la confiabilidad se define como el grado de precisin con que un
instrumento es capaz de suministrar informacin.
La determinacin de la confiabilidad de una prueba se realiza comparndola
con ella misma o con otra de forma equivalente. En cada aplicacin de ella se
obtiene una medida del atributo, o atributos, que posee cada miembro de un grupo
de alumnos Cada medida identifica la posicin de cada uno de ellos con respecto
a su grupo en funcin del atributo medido. La consistencia con que mantiene su
posicin de una medicin a otra refleja la confiabilidad de la prueba.
Si una misma cosa puede tener medidas diferentes, es que obedece a un
instrumento que cambia el significado de sus unidades, es decir, produce medidas
que no son confiables. La confiabilidad se refiere siempre a la consistencia dentro
de una serie de medidas.
Prcticamente decimos que, si se toma una prueba de conocimientos y se
vuelve a calificar a los alumnos usando la misma prueba despus y se vuelve a
calificar a los alumnos usando la misma prueba despus de un corto perodo de
tiempo, los dos conjuntos de puntajes deben ser consistentes. Sera prueba de
inconsistencia encontrar que los mismos alumnos, en los mismos tems, obtienen
puntajes significativamente diferentes entre una y otra toma. Cuanto mayor sea la
divergencia entre los dos conjuntos de notas, mayor ser la inconsistencia.
La falta de consistencia tambin disminuye la validez, como lo

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

71

muestra Thyne (1978). Este autor sostiene que la validez es la necesidad ltima y
que la confiabilidad es condicin de la validez, condicin necesaria, pero de
ningn modo suficiente. A la consistencia de los puntajes Tie agrega otras tres
condiciones: la relevancia del tem (la pertinencia de las tareas planteadas en
funcin de los objetivos de la prueba), la relevancia de los puntajes (adjudicar un
valor a las realizaciones especificadas como relevantes) y la condicin de
equilibrio (varias partes de la prueba tienen que contribuir a la valoracin final).
Las cuatro condiciones son necesarias y suficientes para asegurar la
validez. Como se dijo antes, si falta la primera (confiabilidad), la validez no se
sostiene.
Con relacin a los coeficientes de confiabilidad, ellos puedes ser el resultado de
cuatro procesos separados y reciben, segn su origen, distintas denominaciones.
Coeficiente de confiabilidad
Coeficiente
Se aplica una prueba de conocimiento y, despus
de estabilidad
de un corto tiempo, se la vuelve a tomar a los
mismos alumnos.
El coeficiente de correlacin de calculado a partir de
los dos conjuntos de puntajes es un coeficiente de
estabilidad.
Coeficiente
Se
aplican
consecutivamente
dos
formas
de equivalencia
equivalentes de la prueba a un grupo de alumnos.
Coeficiente
Se obtiene cuando transcurre un intervalo de
de estabilidad
bastante duracin entre la primera y la segunda
y equivalencia
aplicacin de dos formas equivalentes.
Coeficiente de
Este coeficiente se puede calcular con una sola
Consistencia interna
aplicacin de la prueba.
El procedimiento ms comn es elaborar una
prueba con mayor nmero de tems ordenados por
dificultad. Se la divide luego en dos mitades: una
prueba se constituye con los tems pares, la otra se
forma con los tems impares. Finalmente, se
aplican ambas al mismo grupo de alumnos, se
obtiene el coeficiente de correlacin entre las dos
mitades y se es el coeficiente de confiabilidad.
En sntesis, se dice que un instrumento es confiable cuando es estable o
muestra consistencia interna. La cualidad hace referencia a lo que el instrumento
mide con exactitud y certeza en diferentes ocasiones.
Una prueba alcanza un elevado coeficiente de contabilidad si los

72

ALICIA BERTONI- MARGARITA POGGI MARTA TEOBALDO

errores de medicin son reducidos al mnimo. Cuanto mayor sea la confiabilidad


con que se mide, menor ser el error que se comete adjudicarles los puntajes a
quines hicieron la prueba de evaluacin.
Cualquiera sea la prueba que se utilice, ninguna estar exenta de la posibilidad
de que se cometan errores al evaluar las realizaciones de los alumnos. Con los
test psicomtricos y las pruebas estandarizadas se pueden calcular los recursos
necesarios para reducirlos a lmites aceptables. El evaluador, adems, puede
establecer lmites de seguridad dentro de los riesgos de error que est dispuesto a
admitir.
La confiabilidad de una prueba nos indica hasta qu punto pueden atribuirse a
errores de medicin las diferencias individuales en los puntajes obtenidos y hasta
qu punto los puntajes revelan las diferencias verdaderas en las caractersticas
evaluadas. Dicho de otro modo, qu proporcin de la varianza total de los
puntajes de una prueba corresponde a la varianza del error. Cuando se trabaja
con las pruebas tradicionales de rendimiento escolar, asignando simplemente una
nota a cada tem, esta posibilidad no existe.
Es importante tomar en cuenta las siguientes consideraciones
Los docentes no deben confundirse. El trabajo estadstico de determinar el
margen aceptable de error no est al alcance de quienes nos son especialistas en
problemas de medicin. En lugar de dedicar su tiempo a mejorar la confiabilidad
de instrumentos concebidos como instrumentos de medicin, es mejor que el
docente investigue, busque y pruebe informacin ms til para mejorar las
prcticas de evaluacin, considere los propsitos y la significacin pedaggica de
lo que est haciendo en su grado, la evaluacin que efecta para el logro de los
propsitos, qu pruebas elabora, qu expectativas tiene con respecto a lo que
deben realizar sus alumnos en cada problema, pregunta, o situacin de prueba,
analice la diferencia entre lo que esperaba y lo que produjeron sus alumnos y
sobre todo preste atencin al hecho de que deben articularse los resultados de
cada evaluacin con las acciones didcticas que le correspondan.
La recomendacin ms prctica es que est atento a ciertas fuentes de error las
que sin duda alguna pueden hacer disminuir la confiabilidad de su
evaluacin. Sobre estas fuentes los maestros pueden ejercer una cuidadosa
supervisin.
Debe procurar controlar las causas de la variacin asistemtica en los
resultados de la evaluacin:

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

73

1. Confiabilidad del alumno: si tiene actitudes y comportamientos


afectados por su estado de nimo, fatiga y salud.
2. Confiabilidad del maestro: si en su modo de corregir y en la
interpretacin de lo que lee o escriba (prueba oral) no estn influyendo
factores personales.
3. Confiabilidad de la situacin: condiciones transitorias pero que
suceden antes o durante el momento de la evaluacin y atentan contra la
posibilidad de que se registre la verdadera realizacin de la prueba.
4. Confiabilidad de la prueba: en la redaccin de las preguntas y en la
secuencia elegida (primero, tems muy difciles que llevan exceso de tiempo
y desaniman, por ejemplo).
5. Confiabilidad de todo el proceso de evaluacin: el que implica estar
alerta a todos los puntos anteriores.
La confiabilidad en el enfoque cualitativo
Con este enfoque no se usan pruebas objetivas; por lo general se utilizan las
pruebas de respuesta abierta, las que producen los alumnos reflejando su
capacidad de entender consignas, de usar diferentes estrategas cognitivas, de
buscar caminos alternativos para encontrar las soluciones correctas, etc.
La confiabilidad es entendida como el grado en que la calificacin de las
respuestas es independiente de las circunstancias accidentales de la
evaluacin. Se trata de saber si evaluadores externos e internos logran hacer
anlisis similares de los resultados de la aplicacin de las pruebas. A partir del
conjunto referencial constituido por las categoras elaboradas para la correccin
y el correspondiente sistema de puntaje, se estima si los diversos grupos de
evaluadores correctores de las pruebas ajustan los datos al conjunto de
contraste elaborado previamente.
Las categoras previstas equivalen al sistema de referentes que utilizar el
corrector de la prueba. Si las claves de correccin funcionan bien, la replicabilidad
del estudio es posible. Otros investigadores y/o docentes, utilizando el mismo
procedimiento, registrarn los mismos resultados.
El problema de a confiabilidad es mucho ms complicado cuando, como en el
caso de nuestra investigacin, el proceso de evaluacin es participativo: los daros
no se originan en pruebas objetivas y en la presentacin

74

ALICIA BERTONI- MARGARITA POGGI MARTA TEOBALDO

de resultados. Lo fundamental es el anlisis pedaggico de ellos y no su


representacin cuantitativa.
La confiabilidad, entonces, depende de los registros descriptivos que ayuden a
regular el proceso de correccin de las pruebas, que requiere como punto de
partida- realizar una elaboracin muy cuidadosa de la categorizacin de las
respuestas a los tems que constituyen las pruebas.
El enfoque cualitativo est considerable distancia de la medicin, por lo cual la
categorizacin de las respuestas juega un papel muy importante. Esta
observacin es tanto una premisa analtica como una metodologa para recoger la
variedad de estrategias cognitivas de los evaluados y analizar estos datos. La
sistematizacin y la precisin de la correccin dependen del marco elaborado.
Si trata as de la posibilidad de que quienes participan en la correccin de las
pruebas y quienes efectan su interpretacin reconstruyan con carcter analtico
los procedimientos utilizados por los alumnos. ste es un camino que recin
empieza a plantearse en la investigacin evaluativa.
El docente puede encontrar de utilidad las siguientes observaciones:
La confiabilidad como caracterstica de la evaluacin estimada por un
coeficiente de correlacin provee de una informacin insuficiente para la tarea del
maestro.
Es obvio que esto solo saber no nos explica las causas de las divergencias
entre los resultados. Es necesario ir ms lejos en el anlisis de los distintos
aspectos de la realizacin que muestran los alumnos en las pruebas que se les
toman.
Hay que construir un sistema de interpretacin de las respuestas que supere
la significacin estadstica de un coeficiente de correlacin y nos permita mejorar
la confianza en los procedimientos de evaluacin.
Ello significa para el evaluador tomar decisiones relativas al modo en que
reflejar la naturaleza de los contenidos tomados en cuenta para la prueba ya
como combinar los puntajes para atribuir con la mayor justicia la nota que
merece cada realizacin escolar.

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

75

EL CONCEPTO DE VALIDEZ
La validez de cualquier instrumento de medicin depende de la fidelidad con
que mide lo que se propone medir. Una prueba de evaluacin es vlida si los
desempeos que mide corresponden a los mismos desempeos medidos
independientemente de otra manera o definidos en forma objetiva.
La validez es un trmino relativo: una prueba es vlida de acuerdo con los
propsitos particulares para los que fue construida; es vlida si responde, o si se
ajusta, a los criterios de referencia fijados para juzgar los desempeos. No hay
pruebas ni s test que sean universalmente vlidos.
Para hacer la seleccin de los tems que va a integrar una prueba de
rendimiento educacional se emplea la validez de contenido. Referirse a la valides
de un tem es hablar de su poder discriminatorio, o sea, en qu grado el tem
discrimina entre examinados que difieren ntidamente en la funcin (o funciones)
medida por la totalidad de la prueba.
Como criterio de discriminacin es cuestionable desde una perspectiva
pedaggica. En efecto, si una prueba contiene solamente tems que discriminan
por anticipado entre los que saben y los que no saben, se disminuye la
probabilidad de que todos los alumnos, o la mayora de ellos, puedan responder
correctamente a la prueba. Pero si se le otorga al criterio de validez el sentido de
una discriminacin positiva, este ndice nos permitir conocer con mayor
seguridad a los grupos de alumnos con particulares dificultades frente al contenido
de una prueba u prever, para ellos, acciones de nivelacin u otras medidas.
En el caso del anlisis de la validez en positivo, se trata de saber cules son
los tems que discriminan efectivamente las realizaciones de los alumnos para
encarar con diversas estrategias de enseanza un apoyo diferencial para quienes
lo precisan.
La magnitud de un ndice de validez aceptable depende de varios factores: la
longitud de la prueba, la amplitud de los ndices de dificultad y los objetivos que la
prueba pretende lograr.
Cuando se hace referencia a la representatividad de los elementos de la
prueba, es decir, si los tems son una muestra suficientemente representativa
respecto de la caracterstica o variable-objeto de medicin, se acude al consenso
de muchos educadores y/o tcnicos acerca de lo que un alumno de la tal edad y
curso determinado debera saber en la asignatura o rea relacionada con la
prueba. La validacin del contenido mediante juicios competentes es muy
satisfactoria si el muestreo de tems es amplio y juicioso y se utilizan grupos
adecuados para la estandarizacin41.

41

H.E. Garret, Estadstica en Psicologa y Educacin, Buenos Aires, Piados, 1969, p. 392.

ALICIA BERTONI- MARGARITA POGGI MARTA TEOBALDO

76

La validez de una prueba se determina experimentalmente hallando la


correlacin entre aqulla y un criterio independiente. Un criterio puede ser una
medida objetiva del rendimiento o una medida cualitativa tal como el juicio de la
excelencia de un trabajo hecho. Pero en ambos casos:
-

el criterio debe ser formulado independientemente;

tanto la prueba como el criterio deben ser confiables;

una prueba altamente confiable siempre es una medida vlida de alguna


funcin.

A los maestros se les recomiendo prestar atencin a los factores que pueden
conspirar contra la validez de las pruebas.
1. Validez proposicional: utilizar presupuestos, teoras inadecuadas o
incorrectas, de los que se desprenden los contenidos del aprendizaje por
evaluar.
2. Validez del instrumento: emplear clasificaciones irrelevantes para
seleccionar las partes de una prueba o los tipos de contenidos para incluir o
redactar que no correspondan a los conocimientos y habilidades que se
deseen evaluar.
3. Validez del observador: introducir errores importantes en la seleccin
de contenidos debido a preferencias, opiniones personales o nociones
preconcebidas sin rigor cientfico.
4. Validez de administracin: los mtodos de recoleccin de datos
pueden ser incongruentes con las tareas que desea suscitar la prueba.
5. Validez del anlisis: errores deliberados o involuntarios que se
cometen al efectuar el anlisis de los resultados.
6. Validez didctica: se refiere al aspecto exterior e interior de la prueba,
el atractivo, el inters que despierta. El cuidado de la impresin, los grficos,
el tipo de letra, etc., pueden afectar la validez en el momento de aplicarse la
prueba.
OTRAS PRETENCIONES PARA DEFINIR LA VALIDEZ EN LOS ENFOQUES
CUALITATIVOS
Los resultados e informes de la investigacin debern validarse mediante el
contraste de los resultados obtenidos por el investigador con

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

77

los otros informadores, observadores, as como con las personas implicadas en la


evaluacin. Supongamos que el equipo tcnico ha efectuado la construccin sus
instrumentos y las observaciones en forma rigurosa, por lo que la informacin
producida tiende a ser una representacin aproximada de la realidad. El cuidado
en todo el proceso metodolgico permite otorgar objetividad y validez interna al
trabajo realizado.
Cuando los resultados se transfieren a otros pblicos, a otros usuarios, surgen
diversas interpretaciones de los mismos datos.
Hasta qu punto son vlidos los resultados que acabamos de conocer para
situaciones similares a las de las pruebas administradas? Qu acuerdo hay
sobre las conclusiones presentadas?
Un informe objetivo no es forzosamente vlido, pero todo informe vlido ser
objetivo. Es decir, la objetividad es una condicin necesaria, pero no suficiente
para la validez de significacin lo que designa el hecho de tomar en cuenta las
ideas y vueltas de la reflexin, a la vez subjetiva y objetiva, estructurante de las
producciones verbales de los sujetos (Pourtois y Desmet, 1988).
La reflexin que se produce durante las interacciones verbales mejora a
comprensin y hace ms vlidos los mundos social, objetivo y subjetivo. El pasaje
del dato los enunciados de informacin que el investigador utiliza- a la
apropiacin del dato se opera con cierta violencia simblica, la que se expresa en
la bsqueda de lo que es inteligible, verdadero, justo y sincero. Se trata de
cuatro pretensiones para la definicin de la validez, que, segn, Habermas, son
necesarias para la obtencin del consenso en torno a la informacin que se
administra entre los investigadores que informan y los actores
informados. Veamos cada caso en particular:
-

La pretensin referida a la inteligibilidad: se satisface cuando se logra que


el mensaje sea comprendido.

La pretensin referida a la verdad: se pone en evidencia cuando los


informados aceptan las explicaciones que les proporcionan quienes
informan porque no observan discrepancia entre los hechos y lo que se les
informa.

La pretensin referida a la justicia: se manifiesta bajo la forma de confianza


en el trabajo de los investigadores porque se considera que han obrado
bien, con un modo adecuado de hacer las cosas.

La pretensin referida a la sinceridad: cuando se duda; se plantean


interrogantes como ste: Me engaan?, se engaan a s mismos? Las
respuestas de los docentes, cuando reciben la

ALICIA BERTONI- MARGARITA POGGI MARTA TEOBALDO

78

informacin, llevan a que otras personas crean o consideren sinceros a los


investigadores (informantes), ya que los propios docentes han acordado este
atributo a la informacin
Estos cuatro postulados relativos a la validez permiten revisar la nocin de
objetividad en beneficio de a intersubjetividad. Ellos mantienen un alto grado de
cientificidad gracias a la elaboracin de los datos con otros observadores e
informantes. Segn las reglas de la organizacin lgica del pensamiento, como
los principios de inferencia controlados y de verificabilidad de los enunciados y de
las interpretaciones. Aclaremos este aspecto de la construccin de la validez con
otras consideraciones.
Cuando se dan a conocer los resultados de una evaluacin, estamos frente a
un doble mensaje: el que se origina en la investigacin y el que formula desde la
prctica docente. La relacin entre ambos informantes pude ser ambigua: el
maestro elabora la informacin recibida en funcin de los objetivos que considera
que se propuso, de las tareas que cumpli para ello y de un mejor conocimiento
de su situacin particular de trabajo de sus datos por un campo terico que
obedece a las pruebas de validacin cientfica. Este hecho puede explicar la
ambigedad de la relacin entre lo que interpretan los tcnicos y lo que interpretan
los docentes.
Pourtois y Desmet (1993) consideran que es necesario superar esta
ambigedad mediante una interaccin ms frecuente entre estos dos actores de la
evaluacin (docente-investigador) y proponen un mtodo operativo para afrontar
las cuestiones de validez antes de que los resultados mismos sean fijados por
una teora o por la difusin pblica de los resultados de una evaluacin.
La validez puede descubrirse antes, durante o al final de la investigacin
evaluativa porque puede ser construida de diferentes formas.
La pretensin referida a la validez de los enunciados que definen el calor de la
informacin se juzga en funcin de las respuestas aportadas en el curso de las
dos fases del proceso de evaluacin.
(1)
Administracin de las
pruebas.
Interpretacin de
resultados.
Presentacin del informe.
(Investigadores y tcnicos)

(2)
Recepcin de la informacin
producida.
Interpretacin de la
devolucin.
(Docentes)
Validacin conjunta
(3)

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

79

La confrontacin de estas dos secuencias de objetividad da por resultado un


aguado crecimiento de ella.
Hay que advertir que la articulacin propuesta no elimina la posibilidad crtica
que debe sostenerse en el trabajo cientfico. La cientificidad debe estar presente
tanto en el nivel de elaboracin de los datos como en el momento de la utilizacin
de estos ltimos.
Como ya hemos afirmado, los problemas de calidez en la investigacin
evaluativa se atienden de diferentes formas cuando se trabaja con un enfoque
cuantitativo y cualitativo. En el enfoque cualitativo el problema del lenguaje es
crucial. Los puntos de vista de los actores/investigadores difieren. Las
significaciones cientficas y prctica no son nunca dadas de una vez por
todas. Por esta razn, es necesario que exista un mnimo de confianza entre los
participantes. Lo que est en juego no es slo un saber que se les restituye a los
docentes, sino ms bien conocer el valor de verdad que ellos atribuyen a los
enunciados de la comunicacin.
Esta perspectiva del proceso de evaluacin necesita un examen
sistemtico. La elaboracin del dato que el investigador comunica necesita tomar
en cuenta los tres niveles que caracterizan todo acto de lenguaje.
Estos tres niveles son: segn Habermas (1987):
1.

Nivel: El investigador se refiere al propsito que gua la investigacin


realizada y a cules son los datos encontrados.

2.

Nivel: Se elabora la comprensin subjetiva de las cosas (los resultados


de las pruebas, por ejemplo) a travs de actos comunicacionales. Se
capta la significacin del mensaje recibido.

3.

Nivel: Los informados expresan cmo recibieron la informacin, qu


representan para ello esos daos, cmo perciben o cmo viven la
realidad que les muestra en el discurso cientfico.

Empieza a elaborarse la mltiple significacin de cada cosa que se informa, a


interpretarse el discurso de los investigadores en un campo de fuerzas diversas,
recorriendo siempre los tres niveles enunciados. El investigador puede acceder al
mundo subjetivo desde el que los actores expresan el mundo tal como ellos lo
ven. Dentro de esta perspectiva, qu puede ser aceptado como verdadero?
Qu enunciados son reconocidos como tales por los actores de la interlocucin?

80

ALICIA BERTONI- MARGARITA POGGI MARTA TEOBALDO

La verdad de una proposicin no es pues ms que una promesa de tender a un


consenso racional sobre lo que se ha dicho42.
Es dentro de una accin comunicativa que se da a conocer la informacin sobre
la evaluacin. Se plantea una base de discusin que comporta argumentaciones
explcitas e implcitas que definen la pretensin referida a la validez del discurso
evaluativo
Tenemos la conviccin de que, en general, no se presta suficiente
atencin a la devolucin de la informacin a sus usuarios ms directos, una
vez que son conocidos los resultados de la evaluacin que se haya
realizado. Consideramos que la devolucin tiene implicaciones para la prctica
docente y la teora de la evaluacin.
La devolucin configura un retorno a la situacin educativa que suscit la
produccin de respuestas frente a los instrumentos utilizados y aun a las
situaciones didcticas anteriores, donde se desarrollaron los procesos de
aprendizaje que permitieron la gestacin de tales respuestas. Este regreso
de los docentes, acompaados por los especialistas, abre un ancho camino para
la mejor comprensin de la prctica docente y sus posibilidades de
transformaciones diversas.
En funcin de las observaciones precedentes, quisiramos enfatizar que el
momento de efectuar la devolucin de lo evaluado es muy importante para su
labor. La comprensin del proceso y los resultados de la evaluacin tiene que ser
atendida como una experiencia comunicativa, donde se explicita el significado que
las acciones y los sucesos de la evaluacin han tenido para sus actores.
El paradigma interpretativo supone el paso de la observacin a la comprensin
y del punto de vista externo al punto de vista interno al aula.
Si supervisores, directores y docentes tienen, como nosotros, la conviccin de
que el momento de la devolucin de lo que ha evaluado est provisto de una
profunda significacin pedaggica, no dejarn de otorgarle el tiempo que sea
necesario cuando se viva ese momento con los alumnos. Repercusiones
similares pueden constatarse cuando las devoluciones se realizan con otros
actores de la institucin.
Vamos a dar un ejemplo para el docente, pero se podran pensar otras
situaciones cotidianas en las cuales los supervisores devuelven informacin a los
directores o stos a los maestros.

42

J. Habermas, Theorie de lagir communicationnel, Paris, Farid, 1987, p. 285.

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

81

Una prueba de Matemtica contiene, por ejemplo, 18 ejercicios y problemas. Al


corregirlos, usted podra poner al pie de cada uno los resultados obtenidos por el
alumno:
11
18

4
18

16
18

Esta fraccin estara indicando que uno realiz en forma correcta 11 ejercicios
sobre los 18 presentados. Otro hizo bien cuatro sobre 18, etc. Aunque
previamente haya indicado a sus alumnos que para aprobar tenan que haber
hecho correctamente por lo menos 11 ejercicios del total de la prueba, les est
diciendo muy poco.
En cambio, cuando le dice a un alumno que hizo mal o un tem o le informa a
todo el grupo cuntos lo hicieron bien, slo les habr comunicado lo que hizo cada
uno sin explicarle las razones de los resultados obtenidos por ellos.
Una tercera posibilidad que no excluye las anteriores es que usted opte,
justamente, por explicar las razones de los aciertos o errores que cometieron en la
resolucin de los ejercicios, trabaje con todo el grupo sobre los errores ms
significativos y recurrentes, y presente los procedimientos correctos para la
resolucin de esos ejercicios.
Es muy difcil que los chicos no comprendan un informe de este tipo. Las
explicaciones sobre los resultados individuales y grupales de la evolucin permiten
el crecimiento de la confianza del alumno en su maestro y de autoestima en
ambos, bases afectivas necesarias para afrontar tareas ms complejas.
LA BSQUEDA DE EQUIVALENCIA
EN LOS CONTROLES METODOLGICOS
El reconocimiento de dos de los paradigmas que constituyen el trasfondo
epistemolgico de la investigacin educativa el positivista lgico y el
interpretativo- nos ha facilitado la introduccin a la metodologa, procedimientos y
tipos de anlisis que son coherentes con cada uno de ellos en el trabajo especfico
de la investigacin evaluativa.
El predominio de la medicin y la objetividad dentro del primer enfoque
parece revestir a esta perspectiva de mayor cientificidad que el segundo.
El enfoque interpretativo, que apela predominantemente a metodologas
cualitativas aparece como dotado de menor rigor cientfico, quizs porque sustenta
que la subjetividad no puede eliminarse de ningn trabajo de investigacin. Sin
embargo, la aplicacin de esta perspectiva de anlisis que es posible garantizar la
rigurosidad de la investigacin

ALICIA BERTONI- MARGARITA POGGI MARTA TEOBALDO

82

cualitativa, aunque los trminos para designar el rigor cientfico en uno y otro
enfoque.
Guba y Lincoln (1982), desde el paradigma interpretativo, muestran la siguiente
equivalencia conceptual.
Trminos para definir el rigor cientfico en los enfoques cuantitativo y cualitativo43
Aspecto

Consistencia

Enfoque
cuantitativo
Validez interna
Validez externa
(generalizacin)
Confiabilidad

Neutralidad

Objetividad

Valor de verdad
Aplicabilidad

Enfoque
cualitativo
Credibilidad
Transferencia
Dependencia
o consistencia
Confirmabilidad

Las definiciones que corresponden a estos trminos son las siguientes:


ENFOQUE CUANTITATIVO
1. Validez interna

ENFOQUE CUALITATIVO
1. Credibilidad

Un instrumento es vlido cuando mide lo que


dice medir.
La valides se define como el grado en que un
instrumento sirve realmente a los propsitos a
que obedece su empleo. Puede considerarse
como sinnimo de verdad. Un test de aptitud
escolar es una mediad de la aptitud escolar en
cuanto mida verdaderamente esa aptitud
(Ahman y otros, 1969).
As como difieren los objetivos de los
instrumentos tambin difieren los respectivos
tipos de validez, de los cuales la validez interna
(tambin denominada de contenido). Es uno de
ellos. Otros tipos de validez son la externa (a la
que nos referimos a continuacin), la
concurrente y la de elaboracin.

El trmino hace referencia al hecho de que los


datos
sean
adaptables,
es
decir,
crebles. Se refiere al isomorfismo entre los
datos recogidos por el evaluador y la realidad.
La observacin continua y persistente del
trabajo de los alumnos permitir que el
docente pueda discutir con los especialistas
en evaluacin los resultados de sta.
Las preguntas y cuestiones crticas que hacen
quienes no viven inmersos en la situacin de
clase pueden ayudarlo a desenmascarar
errores, de modo que la constrastacin de los
juicios de diferentes observadores produzca
juicios ms precisos para contrastar los
daros. La credibilidad se logra cuando se
produce un ajuste, lo ms correcto posible,
entre la informacin evaluativa de los tcnicos
y especialistas y la realidad de los
participantes (docentes y alumnos).

43

Este cuadro y el siguiente estn construidos sobre la base de la presentacin realizada por
E. Guba en Criterios de credibilidad de a investigacin naturalista en J. Gimeno Sacristn y
A. Prez Gmez, La enseanza. Su teora y su prctica, Madrid, Akal, 1983.

LA EVALUACIN DE LAS PRUEBAS DE EVALUACIN

ENFOQUE CUANTITATIVO
2. Validez externa
Se refiere a la eficacia de las pruebas para
predecir una realizacin concreta. Puede
considerarse como validez predictiva cuando las
pruebas
permitan
predecir
conexito
comportamientos futuros. Esta validez se
estima correlacionanado los puntajes que un
grupo de alumnos obtienen en una prueba con
lo que logran en otra totalmente externa,
denominada criterio. Por ejemplo, si hacemos
un aprueba constituida por tems que pretender
estimar la inteligencia del que responde y, por
otro lado, aplicamos al mismo grupo un test de
inteligencia, esperamos si la prueba es vlidaque quienes obtuvieron las notas ms altas en
ella sean quienes presentan los coeficientes
ms altos de inteligencia medidos por el test.

83

2.

ENFOQUE CUALITATIVO
Transferencia

Consiste en replicar los procedimientos y el


tipo de anlisis de los resultados de la
evaluacin en otros contextos, para ver
aquello que tienen en comn y aquellos
aspectos especficos. Se recoge en los
mltiples contextos informacin exhaustiva del
proceso de evaluacin, para establecer
comparaciones y juzgar la correspondencia
entre contextos y situaciones posibles.
No se pretende generalizar sino extender la
experiencia a contextos donde los resultados
autorizan a sostener que est justificada la
transferencia.
Esta manera de entender la generalizacin
tiene relacin con la observacin realizada por
Cronbach [quien] ha argumentado que todas
las generalizaciones decaen, como las
sustancias radiactivas tienen medias vidas,
de modo que despus de un tiempo toda
generalizacin es ms historia que ciencia
(Guba, 1983, p.153). Es en este sentido que
los enfoques cualitativos sealan las
limitaciones de la generalizacin en la mediad
en que los procesos que se analizan estn
ntimamente vinculados con el momento y la
situacin especfica en que tiene lugar.Sin
embargo, estos hechos no eliminan la a
posibilidad de que se pueda realizar alguna
transferencia entre dos contextos como
consecuencias. Para determinar la medida en
que es probable la transferencia se necesita
conocer bastante acerca del contexto que
transfiere y del que recibe (Guba, 1983,
p. 153 y 154).

You might also like