Professional Documents
Culture Documents
4.1 Introducción:
Las puntuaciones evidencian propiedades de validez cuando se verifica que el test realmente
mide el constructo que pretende medir, justificando así las inferencias realizadas en función de
sus resultados
Varianza irrelevante del constructo: se denomina así a los aspectos de las puntuaciones NO
relacionadas con el verdadero propósito de la medición del test. Como por ejemplo: aquellos
tests de autoinformes en donde es probable que las puntuaciones del test reflejen una
tendencia a dar respuestas socialmente aceptables por parte del examinado (Como vimos en
el capítulo 2 que era una de las limitaciones de los autoinformes)
La situación ideal con respecto a la VALIDEZ es que un test represente adecuadamente y mida
la varianza relevante del constructo, o dicho de otro modo, que las interpretaciones de los
resultados de una prueba estén LIBRES DE SESGOS DE MEDICIÓN (libre de errores en las
puntuaciones)
En una primera etapa, operacional, VALIDEZ se define como sinónimo de correlación entre las
puntuaciones de un test y algún criterio que el test intenta predecir. En donde la concepción
de validez tenía un sentido meramente predictivo (hasta los años 50)
Se comprendió que este último concepto ligado a la predicción de criterio externos no era útil
para muchos tests en los que ellos mismos constituyen su propio rendimiento y esto condujo a
introducir el concepto de validez de contenido
Se obtiene de demostrando que el contenido (ítems) del test es una muestra representativa
del constructo o dominio respecto del cual se desea hacer alguna inferencia
Evidencia más factible de ser obtenida en las pruebas de rendimiento (test referidos a criterio,
por ejemplo) donde se necesita verificar la representatividad y relevancia del contenido del
test
Los tests que evalúan rasgos latentes (intereses o aptitudes por ej.) poseen menos
representatividad en relación con el dominio de comportamiento que intentan medir, puesto
que no se basan (como los test de rendimiento) en un dominio de conocimiento específico (el
programa de una asignatura por ej.)
Si los ítems son representativos de un dominio, el desempeño del sujeto puede generalizarse a
todo el dominio
La APA propone que los métodos para reunir evidencia de contenido se apoyan
mayoritariamente en el juicio de expertos, que permite confirmar la relación entre los ítems
del test y el dominio o constructo a medir
Según Martines Ariaz en la validación relacionada con el contenido debe realizarse las
siguientes operaciones:
Indican si las relaciones entre los ítems y las dimensiones permiten confirmar la existencia de
los constructos que el test pretende medir.
Se refiere al análisis de las relaciones de las puntuaciones del test con variables externas al
mismo:
Evidencia convergente-discriminante:
Se deben comparar los puntajes obtenidos, tanto con otros tests elaborados para medir el
mismo atributo como los diseñados para medir otros atributos. La lógica de ambos
procedimientos es evidenciar que el test en cuestión mide realmente el constructo que se
propone medir, al correlacionarse con otros test reconocidos que miden el mismo constructo,
y al no correlacionarse con tests que miden constructos diferentes.
La evidencia de convergencia está dada por correlaciones relativamente altas entre aquellos
instrumentos de medición diseñados para evaluar UN RASGO COMÚN
Tendría sentido correlacionar tests de amabilidad y aptitud espacial para obtener evidencia
DISCRIMINANTE porque miden rasgos diferentes, pero no tendría sentido hacerlo si la
evidencia que se mide es la convergente (ya que en este deben medir un rasgo común)
Evidencia de las relaciones entre las puntuaciones del test y criterios externos:
Si la relaciones entre las 2 variables no son lineales, sino curvilíneas se utiliza el coeficiente eta
Según Murat el diseño del experimento básico que se emplea para verificar si las puntuaciones
de un test re relacionan con un criterio es el siguiente:
Un requisito para los diseños de validez de criterio es: que la evaluación de la muestra a
predecir (criterio) sea independiente de la evaluación en la variable predictora (puntuaciones
del test)
Factores que pueden afectar las relaciones entre los puntajes de un test y las medidas del
criterio. 3 Importantes son:
Diferencias de grupo: puede influir por ejemplo el sexo, la edad, el nivel socioeconómico, etc.
Se recomienda emplear una muestra lo más heterogénea posible. Lógicamente, la validez es
menor en grupos homogéneos
Confiabilidad del test y del criterio: simplemente se refiere a que una mayor confiabilidad
(cap 3) del test y del criterio incrementará la validez, así como una mera confiabilidad
disminuirá la validez.
Los coeficientes de correlación entre 0,10 y 0,29 sugieren una magnitud pequeña de la
relación; de 0,30 a 0,49 moderada y de 0,50 o superiores un tamaño de efecto grande
Los métodos multivariados (análisis factorial, regresión múltiple, entre otros) se emplean para
predecir la pertinencia un grupo, explicar la variabilidad de una variable dependiente o
verificar la estructura de un constructo medido
Los diferentes métodos de análisis de regresión múltiple son potentes para estimar la
explicación de una variable dependiente pero no tanto para comprender las interrelaciones
entre las variables independientes. Estas limitaciones son subsanadas con el empleo del
Análisis de Senderos que permite comprender con más claridad la red de intercorrelaciones
entre las variables.
La evidencia relacionada con las consecuencias de la aplicación de tests sólo es relevante para
la validez cuando se relaciona con alguna fuente de invalidez, tales como una pobre
representación del constructo o la existencia de componentes no relevantes
Utilidad de los tests en contextos de clasificación
La lógica de este proceso de validación es clasificar a las personas en dos categorías (Ej:
alumnos exitosos y no exitosos en el primer año de una carrera) y dicotomizar las
puntuaciones en el test predictor (examen de ingreso a una carrera para este caso) a partir de
un determinado punto de corte (clasificación de 7 puntos por ejemplo).
Un caso típico sería por ejemplo un test referido a criterio utilizado para seleccionar
empleados que desean ingresar a una ocupación. Para determinar si es válido para este
propósito de clasificación se administra el test al grupo de aspirantes al empleo y se permite
ingresar a todo el grupo, independientemente de la puntuación obtenida en el test. Al finalizar
un período de trabajo se evalúa el rendimiento de todo el grupo de ingresantes. En el test
predictor pueden fijarse arbitrariamente varios “puntos de corte” (o puntos críticos) con
respecto a los cuales podríamos eventualmente efectuar pronósticos de éxitos o fracasos (una
clasificación de 7 dijimos para este ejemplo). En el procedimiento se obtienen 4 posibles
resultados:
Se evaluaron a 12 personas:
Existe un índice para ver si el test es predictivo o no, su nombre es el Poder Predictivo del Test
(PPT). Su cálculo es:
Método que permite integrar y combinar los resultados de diversos estudios empíricos
mediante técnicas específicas.
Es útil para muestras pequeñas (esto no quiere decir que se utilice exclusivamente para este
tipo de muestras)
Problema de las peras y manzanas: las conclusiones de estos estudios a veces son inadecuadas
ya que incluyen estudios heterogéneos (distintas técnicas de medición, definiciones de las
variables y tipos de muestras)