Introducción A La Psicometría - CAPÍTULO 4 - VALIDEZ

Capı ́tulo 4:Validez
4.1 Introducción:
Las puntuaciones evidencian propiedades de validez cuando se verifica que el test realmente
mide el constructo que pretende medir, justificando así las inferencias realizadas en función de
sus resultados
Varianza irrelevante del constructo: se denomina así a los aspectos de las puntuaciones NO
relacionadas con el verdadero propósito de la medición del test. Como por ejemplo: aquellos
tests de autoinformes en donde es probable que las puntuaciones del test reflejen una
tendencia a dar respuestas socialmente aceptables por parte del examinado (Como vimos en
el capítulo 2 que era una de las limitaciones de los autoinformes)
La situación ideal con respecto a la VALIDEZ es que un test represente adecuadamente y mida
la varianza relevante del constructo, o dicho de otro modo, que las interpretaciones de los
resultados de una prueba estén LIBRES DE SESGOS DE MEDICIÓN (libre de errores en las
puntuaciones)
Historia del concepto de validez 3 ETAPAS PRINCIPALES:
En una primera etapa, operacional, VALIDEZ se define como sinónimo de correlación entre las
puntuaciones de un test y algún criterio que el test intenta predecir. En donde la concepción
de validez tenía un sentido meramente predictivo (hasta los años 50)
Se comprendió que este último concepto ligado a la predicción de criterio externos no era útil
para muchos tests en los que ellos mismos constituyen su propio rendimiento y esto condujo a
introducir el concepto de validez de contenido
Cronbach y Meehl presentan el concepto de validez de constructo (considerada un aspecto

fundamental que incluía las restantes dimensiones de validez). En esta fase se diferencian 3
tipos de validez: de constructo, de contenido y predictiva. En la actualidad la APA la define
como la adecuación, significación y utilidad de las inferencias específicas hechas a partir de las
puntuaciones de los tests. Y propuso 5 tipos de EVIDENCIA de validez basadas en:
El contenido del test

La estructura interna del test
El proceso de respuestas al test
Las relaciones con otras variables externas al test
Las consecuencias de su aplicación
El producto final del proceso de validación es la medición de un constructo que:
Esté bien definido en términos de una variedad de observaciones

Eventualmente se correlacione con otros constructos de interés
Fuentes de evidencia de validez

Fuentes internas de evidencia:
Se relaciona con el test y sus componentes (ítems) en sí mismos
Evidencia basada en el contenido del test:
Se obtiene de demostrando que el contenido (ítems) del test es una muestra representativa
del constructo o dominio respecto del cual se desea hacer alguna inferencia
Evidencia más factible de ser obtenida en las pruebas de rendimiento (test referidos a criterio,
por ejemplo) donde se necesita verificar la representatividad y relevancia del contenido del
test
Los tests que evalúan rasgos latentes (intereses o aptitudes por ej.) poseen menos
representatividad en relación con el dominio de comportamiento que intentan medir, puesto
que no se basan (como los test de rendimiento) en un dominio de conocimiento específico (el
programa de una asignatura por ej.)
Si los ítems son representativos de un dominio, el desempeño del sujeto puede generalizarse a
todo el dominio
La APA propone que los métodos para reunir evidencia de contenido se apoyan
mayoritariamente en el juicio de expertos, que permite confirmar la relación entre los ítems
del test y el dominio o constructo a medir
Según Martines Ariaz en la validación relacionada con el contenido debe realizarse las
siguientes operaciones:
Definición del dominio de conocimiento o comportamiento a medir

Identificación de expertos en ese dominio
Juicio de los expertos acera del grado en que el contenido del test es relevante y
representativo del dominio
Procedimiento estadístico para resumir los datos de la fase precedente
Evidencia basada en la estructura interna del test
Indican si las relaciones entre los ítems y las dimensiones permiten confirmar la existencia de
los constructos que el test pretende medir.
El análisis factorial fue desarrollado para identificar constructos psicológicos y es

especialmente relevante para obtener evidencia de la estructura interna de un test. El análisis
factorial es un método estadístico para analizar las intercorrelaciones entre los datos
observables.
Evidencia basada en el proceso de respuesta
Suministra evidencia relacionada con la congruencia entre el constructo medido y la

naturaleza del rendimiento o respuesta emitida para los examinados. Esta evidencia se obtiene
por medio de la utilización de entrevistas con os examinados, protocolos de respuesta o
cualquier procedimiento que permita el análisis cualitativo de las respuestas individuales a los
ítems del test. En la práctica, esta nueva evidencia (contemplada en la última versión de la
APA) ha sido poco investigada
Fuentes externas de evidencia:
Se refiere al análisis de las relaciones de las puntuaciones del test con variables externas al
mismo:
Evidencia convergente-discriminante:
Se deben comparar los puntajes obtenidos, tanto con otros tests elaborados para medir el
mismo atributo como los diseñados para medir otros atributos. La lógica de ambos
procedimientos es evidenciar que el test en cuestión mide realmente el constructo que se
propone medir, al correlacionarse con otros test reconocidos que miden el mismo constructo,
y al no correlacionarse con tests que miden constructos diferentes.
La evidencia de convergencia está dada por correlaciones relativamente altas entre aquellos
instrumentos de medición diseñados para evaluar UN RASGO COMÚN
La evidencia de discriminación se obtiene cuando se encuentran correlaciones no significativas

entre instrumentos que miden RASGOS DIFERENTES (dimensiones distintas de un mismo
constructo o constructos relacionados)
Tendría sentido correlacionar tests de amabilidad y aptitud espacial para obtener evidencia
DISCRIMINANTE porque miden rasgos diferentes, pero no tendría sentido hacerlo si la
evidencia que se mide es la convergente (ya que en este deben medir un rasgo común)
Importante recordar que en CONVERGENCIA las correlaciones deberán ser relativamente

ALTAS para ser aceptables, y en el DISCRIMINANTE las correlaciones deberán ser
relativamente BAJAS para ser aceptables
Se puede utilizar la escala Extraversión del NEO-PI-R
Evidencia de las relaciones entre las puntuaciones del test y criterios externos:
En este tipo de evidencia se busca PREDECIR de manera precisa un determinado

comportamiento o desempeño (CRITERIO) a partir de las puntuaciones de un test (ESTE SERÍA
EL PREDICTOR)
En este tipo de evidencia distinguimos 2 tipos de correlación:
Correlación bivariada con un criterio:
Reiterando: En este contexto, la validez significa la efectividad de las puntuaciones de un test

(PREDICTOR) para predecir el desempeño de una muestra en una situación real (CRITERIO)
(laboral o académica por ej.), diferente del test en sí mismo. [DE ANTEMANO COMO CONSEJO
DE UN “EJEMPLO” LEAN AHORA LA PÁGINA N° 5, RENGLÓN 7 LUEGO DE “CLASIFICACIÓN”] LOS
COEFICIENTES:
Escala Intervalar: coeficiente producto-momento de Pearson (r de Pearson) para dos variables

continuas y el coeficiente punto-biserial para una variable dicotómica y la otra continua
Escala Ordinal: coeficiente de rangos de Spearman
Si la relaciones entre las 2 variables no son lineales, sino curvilíneas se utiliza el coeficiente eta
Según Murat el diseño del experimento básico que se emplea para verificar si las puntuaciones
de un test re relacionan con un criterio es el siguiente:
Se extrae una muestra
Los individuos son evaluados con el test y con el criterio
Se estima un coeficiente de correlación. Si éste es significativamente distinto de cero se

considera al test como predictor del criterio. Si por el contrario, la correlación no es
significativamente distinta de cero, se considera que las puntuaciones del test carecen de
utilidad en relación con ese criterio.
Un requisito para los diseños de validez de criterio es: que la evaluación de la muestra a
predecir (criterio) sea independiente de la evaluación en la variable predictora (puntuaciones
del test)
Un problema es la selección de los indicadores operacionales del criterio (ejemplo: es difícil

formular cualquier definición precisa de éxito en un empleo)
Factores que pueden afectar las relaciones entre los puntajes de un test y las medidas del
criterio. 3 Importantes son:
Diferencias de grupo: puede influir por ejemplo el sexo, la edad, el nivel socioeconómico, etc.
Se recomienda emplear una muestra lo más heterogénea posible. Lógicamente, la validez es
menor en grupos homogéneos
Variabilidad de las respuestas al test y al criterio: Recordando el capítulo 3, la CALIDAD de los

ítems es un factor más relevante que la mera CANTIDAD (ambos son factores, pero más la
calidad). Se ha demostrado que los tests con varias alternativas de respuesta también
incrementan la variabilidad de respuesta. Se recomienda una escala likert (que como ya vimos,
tiene varias opciones de respuesta, y por lo tanto una prueba menos extensa (en relación a
una extensa) con buena calidad de ítems (likert) será mejor que una extensa pero con
opciones dicotómicas)
Confiabilidad del test y del criterio: simplemente se refiere a que una mayor confiabilidad
(cap 3) del test y del criterio incrementará la validez, así como una mera confiabilidad
disminuirá la validez.
Los coeficientes de correlación entre 0,10 y 0,29 sugieren una magnitud pequeña de la
relación; de 0,30 a 0,49 moderada y de 0,50 o superiores un tamaño de efecto grande
Correlación múltiple con un criterio:
Los métodos multivariados (análisis factorial, regresión múltiple, entre otros) se emplean para
predecir la pertinencia un grupo, explicar la variabilidad de una variable dependiente o
verificar la estructura de un constructo medido
Con el análisis de regresión múltiple permite determinar la contribución independiente de

cada variable predictora para la explicación de un criterio determinado. La ecuación de análisis
de regresión múltiple se basa en la correlación de cada test con el criterio, pero también
informa sobre las correlaciones entre los test predictores.
Los estadísticos fundamentales de regresión múltiple son:
 Coef. de regresión estandarizado o beta (ß): indica cual es la importancia relativa de

cada variable independiente en la predicción de la variable dependiente
 Coef. de correlación múltiple (R): expresa el grado de asociación entre dos o más
variables independientes (predictoras), en conjunto con una variable dependiente
 Coef. de correlación múltiple al cuadrado (R2): permite determinar el % de varianza de
la variable dependiente
 El cambio en R2 que indica el % de varianza: (sería simplemente elevar R al cuadrado y
leerlo como % de variabilidad)
Los métodos de regresión múltiple más empleados son:
 El análisis de regresión jerárquica o secuencial:

 La regresión estándar
 La regresión stepwise (paso por paso)
Cuando la variable a predecir o criterio es NOMINAL se utilizan otro métodos multivariados,

tales como la regresión logística o el análisis discriminante múltiple
Los diferentes métodos de análisis de regresión múltiple son potentes para estimar la
explicación de una variable dependiente pero no tanto para comprender las interrelaciones
entre las variables independientes. Estas limitaciones son subsanadas con el empleo del
Análisis de Senderos que permite comprender con más claridad la red de intercorrelaciones
entre las variables.
Evidencia de las consecuencias de la aplicación de tests:
Es directamente relevante para la validez de tests de las decisiones en políticas sociales
La evidencia relacionada con las consecuencias de la aplicación de tests sólo es relevante para
la validez cuando se relaciona con alguna fuente de invalidez, tales como una pobre
representación del constructo o la existencia de componentes no relevantes
Utilidad de los tests en contextos de clasificación
Para Cronbach los tests pueden usarse con 4 propósitos diferentes:
Autoconocimiento: Sirve primordialmente al individuo y sólo marginalmente a las

instituciones. Ejemplo: el caso de los tests empleados en orientación vocacional, cuyos
resultados son útiles para la elección de carrera de la persona examinada.
Clasificación: Sirve primordialmente a las instituciones y se produce cuando cualquier persona

es asignada a una categoría y no a otra (clasificar simplemente como Masculino/Femenino). El
propósito del mismo es la selección o diagnóstico. El criterio que se intenta predecir es de tipo
dicotómico como el ejemplo dado en el renglón de arriba :P
La lógica de este proceso de validación es clasificar a las personas en dos categorías (Ej:
alumnos exitosos y no exitosos en el primer año de una carrera) y dicotomizar las
puntuaciones en el test predictor (examen de ingreso a una carrera para este caso) a partir de
un determinado punto de corte (clasificación de 7 puntos por ejemplo).
Un caso típico sería por ejemplo un test referido a criterio utilizado para seleccionar
empleados que desean ingresar a una ocupación. Para determinar si es válido para este
propósito de clasificación se administra el test al grupo de aspirantes al empleo y se permite
ingresar a todo el grupo, independientemente de la puntuación obtenida en el test. Al finalizar
un período de trabajo se evalúa el rendimiento de todo el grupo de ingresantes. En el test
predictor pueden fijarse arbitrariamente varios “puntos de corte” (o puntos críticos) con
respecto a los cuales podríamos eventualmente efectuar pronósticos de éxitos o fracasos (una
clasificación de 7 dijimos para este ejemplo). En el procedimiento se obtienen 4 posibles
resultados:
Se evaluaron a 12 personas:
1) Aciertos positivos: Individuos pronosticados como “éxitos” y que resultaron serlo.

Aceptados por el test y con rendimiento adecuado en el criterio (mayor que 7) (5
personas)
2) Aciertos negativos: Individuos pronosticados como “fracasos” y que resultaron serlo.
Rechazados por el test y con bajo rendimiento en el criterio (menos de 7) (4 personas)
3) Falsos positivos: Individuos pronosticados como “éxitos” y que por el contrario
fracasaron. Aceptados por el test y con bajo rendimiento en el criterio (menor que 7)
(2 personas)
4) Falsos negativos: Individuos pronosticados como “fracasos” y que luego resultaron ser
exitosos. Rechazados por el test y con alto rendimiento en el criterio (mayor que 7) (1
persona)
Existe un índice para ver si el test es predictivo o no, su nombre es el Poder Predictivo del Test
(PPT). Su cálculo es:
A P + A N / TOTAL= ACIERTOS POSITIVOS 5 + ACIERTOS NEGATIVO 4 / TOTAL 12 = (5+4)/12 =

0,75
Otro test sobre Evaluación de Demencia según Escala de Matis.
Según el test diagnosticados Situación real (diagnóstico psiquiátrico)

como: Dementes No dementes
Dementes 44 (aciertos positivos) 5 (falsos positivos)
No Dementes 3 (falsos negativos) 8 (aciertos negativos)
Con estos datos puede estimarse la SENSIBILIDAD, ESPECIFICIDAD y el PODER PREDICTIVO

(visto recientemente)
La sensibilidad (SEN) es la capacidad del instrumento para identificar correctamente al grupo

criterio, en este caso a las personas con demencia. Donde SEN = AP / (AP+FN). Entonces SEN=
44/ (44+3) = 0,93
La especificidad (SPE) es la capacidad del test para identificar correctamente al grupo

contraste, en este caso los individuos sin demencia, donde SPE = AN / (AN+FP). Entonces SPN=
8 / (8+5) = 0,61
Generalización de la validez: El meta-análisis
Método que permite integrar y combinar los resultados de diversos estudios empíricos
mediante técnicas específicas.
Es útil para el proceso de generalización. Transforma los resultados estadísticos de

investigaciones empíricas independientes a una métrica común, provee una estimación simple
de la fortaleza de la relación entre determinadas variables
Es útil para muestras pequeñas (esto no quiere decir que se utilice exclusivamente para este
tipo de muestras)
Es considerado útil ya que emplea técnicas de medición y análisis estadístico sobre un

conjunto de resultados de diversos estudios empíricos a fin de integrar sus hallazgos para así
generalizarlos
Tiene diversas críticas como las siguientes:
Sesgos de publicación: el sesgo de selección editorial a favor de estudios con resultados

significativos que favorezcan las hipótesis de investigación. ( Afecta al seleccionarse
únicamente estudios PUBLICADOS, lo cual favorece la significación de los resultados)
Problema de las peras y manzanas: las conclusiones de estos estudios a veces son inadecuadas
ya que incluyen estudios heterogéneos (distintas técnicas de medición, definiciones de las
variables y tipos de muestras)

Introducción A La Psicometría - CAPÍTULO 4 - VALIDEZ

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introducción A La Psicometría - CAPÍTULO 4 - VALIDEZ

Uploaded by

Copyright:

Available Formats

Capı ́tulo 4:Validez

Historia del concepto de validez 3 ETAPAS PRINCIPALES:

Cronbach y Meehl presentan el concepto de validez de constructo (considerada un aspecto

El contenido del test

El producto final del proceso de validación es la medición de un constructo que:

Esté bien definido en términos de una variedad de observaciones

Fuentes de evidencia de validez

Se relaciona con el test y sus componentes (ítems) en sí mismos

Evidencia basada en el contenido del test:

Definición del dominio de conocimiento o comportamiento a medir

Evidencia basada en la estructura interna del test

El análisis factorial fue desarrollado para identificar constructos psicológicos y es

Evidencia basada en el proceso de respuesta

Suministra evidencia relacionada con la congruencia entre el constructo medido y la

Fuentes externas de evidencia:

La evidencia de discriminación se obtiene cuando se encuentran correlaciones no significativas

Importante recordar que en CONVERGENCIA las correlaciones deberán ser relativamente

Se puede utilizar la escala Extraversión del NEO-PI-R

En este tipo de evidencia se busca PREDECIR de manera precisa un determinado

En este tipo de evidencia distinguimos 2 tipos de correlación:

Correlación bivariada con un criterio:

Reiterando: En este contexto, la validez significa la efectividad de las puntuaciones de un test

Escala Intervalar: coeficiente producto-momento de Pearson (r de Pearson) para dos variables

Escala Ordinal: coeficiente de rangos de Spearman

Se extrae una muestra

Los individuos son evaluados con el test y con el criterio

Se estima un coeficiente de correlación. Si éste es significativamente distinto de cero se

Un problema es la selección de los indicadores operacionales del criterio (ejemplo: es difícil

Variabilidad de las respuestas al test y al criterio: Recordando el capítulo 3, la CALIDAD de los

Correlación múltiple con un criterio:

Con el análisis de regresión múltiple permite determinar la contribución independiente de

Los estadísticos fundamentales de regresión múltiple son:

 Coef. de regresión estandarizado o beta (ß): indica cual es la importancia relativa de

Los métodos de regresión múltiple más empleados son:

 El análisis de regresión jerárquica o secuencial:

Cuando la variable a predecir o criterio es NOMINAL se utilizan otro métodos multivariados,

Evidencia de las consecuencias de la aplicación de tests:

Es directamente relevante para la validez de tests de las decisiones en políticas sociales

Para Cronbach los tests pueden usarse con 4 propósitos diferentes:

Autoconocimiento: Sirve primordialmente al individuo y sólo marginalmente a las

Clasificación: Sirve primordialmente a las instituciones y se produce cuando cualquier persona

1) Aciertos positivos: Individuos pronosticados como “éxitos” y que resultaron serlo.

A P + A N / TOTAL= ACIERTOS POSITIVOS 5 + ACIERTOS NEGATIVO 4 / TOTAL 12 = (5+4)/12 =

Según el test diagnosticados Situación real (diagnóstico psiquiátrico)

Con estos datos puede estimarse la SENSIBILIDAD, ESPECIFICIDAD y el PODER PREDICTIVO

La sensibilidad (SEN) es la capacidad del instrumento para identificar correctamente al grupo

La especificidad (SPE) es la capacidad del test para identificar correctamente al grupo

Generalización de la validez: El meta-análisis

Es útil para el proceso de generalización. Transforma los resultados estadísticos de

Es considerado útil ya que emplea técnicas de medición y análisis estadístico sobre un

Tiene diversas críticas como las siguientes:

Sesgos de publicación: el sesgo de selección editorial a favor de estudios con resultados

You might also like