You are on page 1of 7

Capı ́tulo 4:Validez

4.1 Introducción:

Las puntuaciones evidencian propiedades de validez cuando se verifica que el test realmente
mide el constructo que pretende medir, justificando así las inferencias realizadas en función de
sus resultados

Varianza irrelevante del constructo: se denomina así a los aspectos de las puntuaciones NO
relacionadas con el verdadero propósito de la medición del test. Como por ejemplo: aquellos
tests de autoinformes en donde es probable que las puntuaciones del test reflejen una
tendencia a dar respuestas socialmente aceptables por parte del examinado (Como vimos en
el capítulo 2 que era una de las limitaciones de los autoinformes)

La situación ideal con respecto a la VALIDEZ es que un test represente adecuadamente y mida
la varianza relevante del constructo, o dicho de otro modo, que las interpretaciones de los
resultados de una prueba estén LIBRES DE SESGOS DE MEDICIÓN (libre de errores en las
puntuaciones)

Historia del concepto de validez 3 ETAPAS PRINCIPALES:

En una primera etapa, operacional, VALIDEZ se define como sinónimo de correlación entre las
puntuaciones de un test y algún criterio que el test intenta predecir. En donde la concepción
de validez tenía un sentido meramente predictivo (hasta los años 50)

Se comprendió que este último concepto ligado a la predicción de criterio externos no era útil
para muchos tests en los que ellos mismos constituyen su propio rendimiento y esto condujo a
introducir el concepto de validez de contenido

Cronbach y Meehl presentan el concepto de validez de constructo (considerada un aspecto


fundamental que incluía las restantes dimensiones de validez). En esta fase se diferencian 3
tipos de validez: de constructo, de contenido y predictiva. En la actualidad la APA la define
como la adecuación, significación y utilidad de las inferencias específicas hechas a partir de las
puntuaciones de los tests. Y propuso 5 tipos de EVIDENCIA de validez basadas en:

El contenido del test


La estructura interna del test
El proceso de respuestas al test
Las relaciones con otras variables externas al test
Las consecuencias de su aplicación

El producto final del proceso de validación es la medición de un constructo que:

Esté bien definido en términos de una variedad de observaciones


Eventualmente se correlacione con otros constructos de interés

Fuentes de evidencia de validez


Fuentes internas de evidencia:

Se relaciona con el test y sus componentes (ítems) en sí mismos

Evidencia basada en el contenido del test:

Se obtiene de demostrando que el contenido (ítems) del test es una muestra representativa
del constructo o dominio respecto del cual se desea hacer alguna inferencia

Evidencia más factible de ser obtenida en las pruebas de rendimiento (test referidos a criterio,
por ejemplo) donde se necesita verificar la representatividad y relevancia del contenido del
test

Los tests que evalúan rasgos latentes (intereses o aptitudes por ej.) poseen menos
representatividad en relación con el dominio de comportamiento que intentan medir, puesto
que no se basan (como los test de rendimiento) en un dominio de conocimiento específico (el
programa de una asignatura por ej.)

Si los ítems son representativos de un dominio, el desempeño del sujeto puede generalizarse a
todo el dominio

La APA propone que los métodos para reunir evidencia de contenido se apoyan
mayoritariamente en el juicio de expertos, que permite confirmar la relación entre los ítems
del test y el dominio o constructo a medir

Según Martines Ariaz en la validación relacionada con el contenido debe realizarse las
siguientes operaciones:

Definición del dominio de conocimiento o comportamiento a medir


Identificación de expertos en ese dominio
Juicio de los expertos acera del grado en que el contenido del test es relevante y
representativo del dominio
Procedimiento estadístico para resumir los datos de la fase precedente

Evidencia basada en la estructura interna del test

Indican si las relaciones entre los ítems y las dimensiones permiten confirmar la existencia de
los constructos que el test pretende medir.

El análisis factorial fue desarrollado para identificar constructos psicológicos y es


especialmente relevante para obtener evidencia de la estructura interna de un test. El análisis
factorial es un método estadístico para analizar las intercorrelaciones entre los datos
observables.

Evidencia basada en el proceso de respuesta

Suministra evidencia relacionada con la congruencia entre el constructo medido y la


naturaleza del rendimiento o respuesta emitida para los examinados. Esta evidencia se obtiene
por medio de la utilización de entrevistas con os examinados, protocolos de respuesta o
cualquier procedimiento que permita el análisis cualitativo de las respuestas individuales a los
ítems del test. En la práctica, esta nueva evidencia (contemplada en la última versión de la
APA) ha sido poco investigada

Fuentes externas de evidencia:

Se refiere al análisis de las relaciones de las puntuaciones del test con variables externas al
mismo:

Evidencia convergente-discriminante:

Se deben comparar los puntajes obtenidos, tanto con otros tests elaborados para medir el
mismo atributo como los diseñados para medir otros atributos. La lógica de ambos
procedimientos es evidenciar que el test en cuestión mide realmente el constructo que se
propone medir, al correlacionarse con otros test reconocidos que miden el mismo constructo,
y al no correlacionarse con tests que miden constructos diferentes.

La evidencia de convergencia está dada por correlaciones relativamente altas entre aquellos
instrumentos de medición diseñados para evaluar UN RASGO COMÚN

La evidencia de discriminación se obtiene cuando se encuentran correlaciones no significativas


entre instrumentos que miden RASGOS DIFERENTES (dimensiones distintas de un mismo
constructo o constructos relacionados)

Tendría sentido correlacionar tests de amabilidad y aptitud espacial para obtener evidencia
DISCRIMINANTE porque miden rasgos diferentes, pero no tendría sentido hacerlo si la
evidencia que se mide es la convergente (ya que en este deben medir un rasgo común)

Importante recordar que en CONVERGENCIA las correlaciones deberán ser relativamente


ALTAS para ser aceptables, y en el DISCRIMINANTE las correlaciones deberán ser
relativamente BAJAS para ser aceptables

Se puede utilizar la escala Extraversión del NEO-PI-R

Evidencia de las relaciones entre las puntuaciones del test y criterios externos:

En este tipo de evidencia se busca PREDECIR de manera precisa un determinado


comportamiento o desempeño (CRITERIO) a partir de las puntuaciones de un test (ESTE SERÍA
EL PREDICTOR)

En este tipo de evidencia distinguimos 2 tipos de correlación:

Correlación bivariada con un criterio:

Reiterando: En este contexto, la validez significa la efectividad de las puntuaciones de un test


(PREDICTOR) para predecir el desempeño de una muestra en una situación real (CRITERIO)
(laboral o académica por ej.), diferente del test en sí mismo. [DE ANTEMANO COMO CONSEJO
DE UN “EJEMPLO” LEAN AHORA LA PÁGINA N° 5, RENGLÓN 7 LUEGO DE “CLASIFICACIÓN”] LOS
COEFICIENTES:

Escala Intervalar: coeficiente producto-momento de Pearson (r de Pearson) para dos variables


continuas y el coeficiente punto-biserial para una variable dicotómica y la otra continua

Escala Ordinal: coeficiente de rangos de Spearman

Si la relaciones entre las 2 variables no son lineales, sino curvilíneas se utiliza el coeficiente eta

Según Murat el diseño del experimento básico que se emplea para verificar si las puntuaciones
de un test re relacionan con un criterio es el siguiente:

Se extrae una muestra

Los individuos son evaluados con el test y con el criterio

Se estima un coeficiente de correlación. Si éste es significativamente distinto de cero se


considera al test como predictor del criterio. Si por el contrario, la correlación no es
significativamente distinta de cero, se considera que las puntuaciones del test carecen de
utilidad en relación con ese criterio.

Un requisito para los diseños de validez de criterio es: que la evaluación de la muestra a
predecir (criterio) sea independiente de la evaluación en la variable predictora (puntuaciones
del test)

Un problema es la selección de los indicadores operacionales del criterio (ejemplo: es difícil


formular cualquier definición precisa de éxito en un empleo)

Factores que pueden afectar las relaciones entre los puntajes de un test y las medidas del
criterio. 3 Importantes son:

Diferencias de grupo: puede influir por ejemplo el sexo, la edad, el nivel socioeconómico, etc.
Se recomienda emplear una muestra lo más heterogénea posible. Lógicamente, la validez es
menor en grupos homogéneos

Variabilidad de las respuestas al test y al criterio: Recordando el capítulo 3, la CALIDAD de los


ítems es un factor más relevante que la mera CANTIDAD (ambos son factores, pero más la
calidad). Se ha demostrado que los tests con varias alternativas de respuesta también
incrementan la variabilidad de respuesta. Se recomienda una escala likert (que como ya vimos,
tiene varias opciones de respuesta, y por lo tanto una prueba menos extensa (en relación a
una extensa) con buena calidad de ítems (likert) será mejor que una extensa pero con
opciones dicotómicas)

Confiabilidad del test y del criterio: simplemente se refiere a que una mayor confiabilidad
(cap 3) del test y del criterio incrementará la validez, así como una mera confiabilidad
disminuirá la validez.
Los coeficientes de correlación entre 0,10 y 0,29 sugieren una magnitud pequeña de la
relación; de 0,30 a 0,49 moderada y de 0,50 o superiores un tamaño de efecto grande

Correlación múltiple con un criterio:

Los métodos multivariados (análisis factorial, regresión múltiple, entre otros) se emplean para
predecir la pertinencia un grupo, explicar la variabilidad de una variable dependiente o
verificar la estructura de un constructo medido

Con el análisis de regresión múltiple permite determinar la contribución independiente de


cada variable predictora para la explicación de un criterio determinado. La ecuación de análisis
de regresión múltiple se basa en la correlación de cada test con el criterio, pero también
informa sobre las correlaciones entre los test predictores.

Los estadísticos fundamentales de regresión múltiple son:

 Coef. de regresión estandarizado o beta (ß): indica cual es la importancia relativa de


cada variable independiente en la predicción de la variable dependiente
 Coef. de correlación múltiple (R): expresa el grado de asociación entre dos o más
variables independientes (predictoras), en conjunto con una variable dependiente
 Coef. de correlación múltiple al cuadrado (R2): permite determinar el % de varianza de
la variable dependiente
 El cambio en R2 que indica el % de varianza: (sería simplemente elevar R al cuadrado y
leerlo como % de variabilidad)

Los métodos de regresión múltiple más empleados son:

 El análisis de regresión jerárquica o secuencial:


 La regresión estándar
 La regresión stepwise (paso por paso)

Cuando la variable a predecir o criterio es NOMINAL se utilizan otro métodos multivariados,


tales como la regresión logística o el análisis discriminante múltiple

Los diferentes métodos de análisis de regresión múltiple son potentes para estimar la
explicación de una variable dependiente pero no tanto para comprender las interrelaciones
entre las variables independientes. Estas limitaciones son subsanadas con el empleo del
Análisis de Senderos que permite comprender con más claridad la red de intercorrelaciones
entre las variables.

Evidencia de las consecuencias de la aplicación de tests:

Es directamente relevante para la validez de tests de las decisiones en políticas sociales

La evidencia relacionada con las consecuencias de la aplicación de tests sólo es relevante para
la validez cuando se relaciona con alguna fuente de invalidez, tales como una pobre
representación del constructo o la existencia de componentes no relevantes
Utilidad de los tests en contextos de clasificación

Para Cronbach los tests pueden usarse con 4 propósitos diferentes:

Autoconocimiento: Sirve primordialmente al individuo y sólo marginalmente a las


instituciones. Ejemplo: el caso de los tests empleados en orientación vocacional, cuyos
resultados son útiles para la elección de carrera de la persona examinada.

Clasificación: Sirve primordialmente a las instituciones y se produce cuando cualquier persona


es asignada a una categoría y no a otra (clasificar simplemente como Masculino/Femenino). El
propósito del mismo es la selección o diagnóstico. El criterio que se intenta predecir es de tipo
dicotómico como el ejemplo dado en el renglón de arriba :P

La lógica de este proceso de validación es clasificar a las personas en dos categorías (Ej:
alumnos exitosos y no exitosos en el primer año de una carrera) y dicotomizar las
puntuaciones en el test predictor (examen de ingreso a una carrera para este caso) a partir de
un determinado punto de corte (clasificación de 7 puntos por ejemplo).

Un caso típico sería por ejemplo un test referido a criterio utilizado para seleccionar
empleados que desean ingresar a una ocupación. Para determinar si es válido para este
propósito de clasificación se administra el test al grupo de aspirantes al empleo y se permite
ingresar a todo el grupo, independientemente de la puntuación obtenida en el test. Al finalizar
un período de trabajo se evalúa el rendimiento de todo el grupo de ingresantes. En el test
predictor pueden fijarse arbitrariamente varios “puntos de corte” (o puntos críticos) con
respecto a los cuales podríamos eventualmente efectuar pronósticos de éxitos o fracasos (una
clasificación de 7 dijimos para este ejemplo). En el procedimiento se obtienen 4 posibles
resultados:

Se evaluaron a 12 personas:

1) Aciertos positivos: Individuos pronosticados como “éxitos” y que resultaron serlo.


Aceptados por el test y con rendimiento adecuado en el criterio (mayor que 7) (5
personas)
2) Aciertos negativos: Individuos pronosticados como “fracasos” y que resultaron serlo.
Rechazados por el test y con bajo rendimiento en el criterio (menos de 7) (4 personas)
3) Falsos positivos: Individuos pronosticados como “éxitos” y que por el contrario
fracasaron. Aceptados por el test y con bajo rendimiento en el criterio (menor que 7)
(2 personas)
4) Falsos negativos: Individuos pronosticados como “fracasos” y que luego resultaron ser
exitosos. Rechazados por el test y con alto rendimiento en el criterio (mayor que 7) (1
persona)

Existe un índice para ver si el test es predictivo o no, su nombre es el Poder Predictivo del Test
(PPT). Su cálculo es:

A P + A N / TOTAL= ACIERTOS POSITIVOS 5 + ACIERTOS NEGATIVO 4 / TOTAL 12 = (5+4)/12 =


0,75
Otro test sobre Evaluación de Demencia según Escala de Matis.

Según el test diagnosticados Situación real (diagnóstico psiquiátrico)


como: Dementes No dementes
Dementes 44 (aciertos positivos) 5 (falsos positivos)
No Dementes 3 (falsos negativos) 8 (aciertos negativos)

Con estos datos puede estimarse la SENSIBILIDAD, ESPECIFICIDAD y el PODER PREDICTIVO


(visto recientemente)

La sensibilidad (SEN) es la capacidad del instrumento para identificar correctamente al grupo


criterio, en este caso a las personas con demencia. Donde SEN = AP / (AP+FN). Entonces SEN=
44/ (44+3) = 0,93

La especificidad (SPE) es la capacidad del test para identificar correctamente al grupo


contraste, en este caso los individuos sin demencia, donde SPE = AN / (AN+FP). Entonces SPN=
8 / (8+5) = 0,61

Generalización de la validez: El meta-análisis

Método que permite integrar y combinar los resultados de diversos estudios empíricos
mediante técnicas específicas.

Es útil para el proceso de generalización. Transforma los resultados estadísticos de


investigaciones empíricas independientes a una métrica común, provee una estimación simple
de la fortaleza de la relación entre determinadas variables

Es útil para muestras pequeñas (esto no quiere decir que se utilice exclusivamente para este
tipo de muestras)

Es considerado útil ya que emplea técnicas de medición y análisis estadístico sobre un


conjunto de resultados de diversos estudios empíricos a fin de integrar sus hallazgos para así
generalizarlos

Tiene diversas críticas como las siguientes:

Sesgos de publicación: el sesgo de selección editorial a favor de estudios con resultados


significativos que favorezcan las hipótesis de investigación. ( Afecta al seleccionarse
únicamente estudios PUBLICADOS, lo cual favorece la significación de los resultados)

Problema de las peras y manzanas: las conclusiones de estos estudios a veces son inadecuadas
ya que incluyen estudios heterogéneos (distintas técnicas de medición, definiciones de las
variables y tipos de muestras)

You might also like