You are on page 1of 9

Validez y Confiabilidad de un Instrumento de Recoleccin de

Datos
1. Validez
Se define como la ausencia de sesgos. Por su parte, en el campo
de la estadstica, se entiende como sesgo a un error que se detecta en
los resultados de un estudio, y que se debe a factores en la recoleccin,
anlisis, interpretacin o revisin de los datos, pudiendo conducir a
conclusiones distintas de la verdad o incorrectas acerca de los objetivos
de una investigacin.
Entonces, la validez representa la relacin entre lo que se
mide y aquello que realmente se quiere medir. De esa manera, la
validez ha sido clasificada en diferentes tipos:
a) Validez de Contenido: Llamada a veces Validez Lgica o Racional,
trata de determinar hasta dnde los tems de un instrumento son
representativos del dominio o universo de contenido de las
propiedades que se desea medir. Entonces, un test tiene validez de
contenido si los diferentes tems que los componen son una muestra
representativa de la variable que se pretende medir.

Una escuela quiere contratar a un nuevo profesor de


ciencias y un panel de directores comienza a analizar a
los distintos candidatos. Elaboran una lista y luego
disean una prueba, donde escogen al candidato con la
mejor puntuacin. Lamentablemente, ste demuestra ser
un maestro de ciencias extremadamente mediocre.
Despus de ver la prueba, la junta de educacin
comienza a ver en qu se equivoc. La gran mayora de
las preguntas fueron sobre fsica entonces, obviamente, la

escuela encontr al mejor profesor de fsica. Sin embargo,


estaban buscando que el profesor de ciencias enseara
biologa, qumica y psicologa. La validez de contenido de
la prueba fue pobre y no represent plenamente al
universo de "ser un buen profesor de ciencias".
Avergonzada, la escuela redise la prueba y la someti a
un panel de expertos en educacin. Despus de pedirles a
los candidatos que completaran el nuevo examen, la
escuela encontr a otra persona que demostr ser una
profesora de ciencias excelente y completa. Esta prueba
tuvo

una

validez

racional

mucho

ms

elevada

represent totalmente cada elemento del universo.


La pregunta que se responde con la validez de contenido
es:

el

instrumento

mide

adecuadamente

las

principales dimensiones de la variable en cuestin?


Y secundariamente, Qu tan bien representan las
preguntas realizadas a todas las preguntas que
pudieran hacerse?

b) Validez de Criterio: Se centra en las relaciones estadsticas que


existen

entre

las

mediciones,

lo

que

permite

saber

si

los

instrumentos pronostican lo que deben pronosticar. Para medir el


criterio de validez de una prueba, los investigadores pueden compararlo
con una medida o estndar conocido. Es decir, un nuevo test puede
validarse por comparacin con otro ya validado previamente. Comparar
la prueba con una medida establecida recibe el nombre de validez
concurrente
Una nueva prueba de inteligencia podra ser comparada
estadsticamente con una prueba de CI estndar. Si existe

una alta correlacin entre los dos conjuntos de datos,


entonces la validez de criterio es alta.
La pregunta que responde la validez de criterio es la
siguiente: en qu grado el instrumento, comparado
con otros criterios externos, mide lo mismo? O qu
tan

cercanamente

las

puntuaciones

del

instrumento se relacionan con otro(s) resultado(s)


sobre el mismo concepto?

c) Validez de Constructo: Tambin llamada Validez Estructural, implica


que los diferentes indicadores para elaborar un instrumento son el
producto de una buena operacionalizacin, es decir, reflejan la
definicin terica de la variable que se pretende medir.
En otras palabras, define si una prueba o instrumento de
recoleccin de datos cumple con la finalidad que cabra esperar
para

un

instrumento

de

medida

diseado

para

medir,

precisamente, aquello que se deseaba determinar (constructo).


Se puede considerar un concepto general que abarcara los otros tipos
de validez.

Un mdico que realiza pruebas sobre la eficacia de los


analgsicos en los enfermos crnicos de espalda. Cada
da, les pide a los sujetos que califiquen su nivel de dolor
en una escala del uno al diez. El dolor existe, todos lo
sabemos, pero debe ser medido subjetivamente. En este
caso, la validez de constructo probara si el mdico en
realidad estaba midiendo el dolor y no el entumecimiento,
el malestar, la ansiedad u otro factor.

Este tipo de validez es fundamental, pues hace que el instrumento


tenga definido claramente el constructo terico que pretende medir, y
que el mismo pueda operacionalizarse mediante indicadores coherentes
a partir de los cuales sea posible obtener ndices.
Las preguntas que se responden con la validez de constructo son:
el

concepto

isntrumento?

terico
El

est

instrumento

realmente
mide

el

reflejado

en

constructo

el
sus

dimensiones?
d) Validez Externa: Este tipo de validez es uno de los ms difciles de
lograr, y es la base de todo buen diseo experimental. As, determina si
los resultados obtenidos en un estudio, en un grupo de muestra
pequeo, pueden ser generalizados, aplicndolos a un grupo ms
amplio, para hacer de ese modo pronsticos sobre toda la poblacin.
Examina la cuestin: A qu poblacin, campos, variables de
tratamiento y variables de medicin puede ser generalizado
este efecto?
Casi siempre, la capacidad de generalizar resultados es un factor
importante en la investigacin, y por ende, considerar la validez externa
es siempre necesario.

e) Validez Interna: Es la medida en la que el diseo de un estudio


proporciona control, y por lo tanto, confianza en la interpretacin de los
resultados. La forma ms fcil de describir la validez interna es la
confianza que puede ponerse en la relacin de causa y efecto de un
estudio. Por ello, es importante preguntarse:
Podra existir una o varias causas alternativas que expliquen
las observaciones y resultados obtenidos? Y Si el estudio fuese
repetido, los resultados seran los mismos?

Por lo tanto, involucra el control de variables y la seleccin de


procedimientos que garantizan el trabajo.
En la mayora de los casos, se recomienda determinar la validez
mediante la tcnica del juicio del experto, que consiste en entregarle a
tres, cinco o siete expertos (siempre en nmeros impares) en la materia
objeto de estudio y en metodologa, un ejemplar del instrumento
acompaado de los objetivos de la investigacin. Entonces, los expertos
revisan el contenido, la redaccin, y la pertinencia de cada reactivo, y
hacen recomendaciones para realizar las correcciones pertinentes.
Factores que afectan la validez
1. Preguntas muy cortas
2. Reactivos (tems) incongruentes
3. Redaccin incorrecta
4. Instrucciones imprecisas
5. Problemas externos al instrumento (ambiente fsico, emociones)
6. Subjetividad del investigador
7. Uso de instrumentos extranjeros no adaptados al contexto
nacional
8. Tiempo para responder el instrumento

2. Confiabilidad
Se refiere al grado en que la aplicacin repetida del instrumento
de medicin al mismo individuo u objeto produce resultados iguales, es
decir, consistentes y coherentes.

Si se midiera

en este momento la

temperatura

ambiental usando un termmetro, y ste indicara que


hay 22C, un minuto ms tarde se consultara otra vez y
sealara 3C, y tres minutos despus se observara
nuevamente y este indicara 40C, dicho termmetro no
sera confiable, ya que su aplicacin repetida produce
resultados distintos.

En este sentido, la pregunta clave para determinar la confiabilidad


de un instrumento de medicin es:
Si se miden fenmenos o eventos una y otra vez con el mismo
instrumento de medicin, al mismo sujeto, pero en
circunstancias diferentes, Se obtienen los mismos resultados u
otros muy similares? Si la respuesta es afirmativa, se puede
decir que el instrumento es confiable.

Es importante destacar que, una vez repetida la prueba, los


resultados no sern exactamente los mismos. En otras palabras,
siempre existir una varianza (variacin en los resultados). El problema
consiste en decidir si tal varianza es lo suficientemente pequea como
para afirmar que el instrumento es confiable, o si por el contrario, refleja
un problema de confiabilidad.
Por todo lo anterior, existen varias maneras de determinar la
confiabilidad de un instrumento, tales como:
a) Repeticin de prueba o Prueba Test/retest: Consiste en volver a
aplicar la misma prueba al mismo sujeto o grupo de sujetos: esta
segunda prueba se conoce como retest.
Se toma primero una prueba de aptitud matemtica a un
grupo de alumnos (test), Y luego, al da siguiente, se
vuelve a tomar la misma prueba, aunque con diferentes
contenidos
puntajes

(retest).

obtenidos

Cuanto
por

ms

cada

iguales

alumno,

sean

los

(correlacin

altamente positiva) tanto ms confiable es la prueba.


En general, cuanto ms tiempo transcurra entre la primera y
segunda prueba, ms factores pueden influir sobre los puntajes de la
segunda, hacindolos distintos a los de la primera prueba, y restando
por ende confiabilidad. Por ello, se sugiere en general que el intervalo
de repeticin entre las pruebas no sea mayor de 6 meses. Este
procedimiento

permite

hablar

de

estabilidad

de

las

mediciones

obtenidas administrando una tcnica como coeficiente de correlacin de


Pearson.
b) Anlisis de homogeneidad de tems:
En este punto, es importante definir Consistencia Interna,
entendiendo como tal al grado en el cual los tems de una escala o
prueba se correlacionan entre s. Es decir, la magnitud en que miden el

mismo constructo. Entonces, si los puntos que componen una escala o


instrumento miden, tericamente, el mismo constructo, deben mostrar
una alta correlacin, o en otras palabras, la escala debe mostrar un alto
grado de homogeneidad.
La consistencia interna de un instrumento se puede calcular tanto
para instrumentos con patrn de respuesta dicotmico como para
aquellos con opciones de respuesta politmica.

1. Coeficiente Kuder y Richardson: Este coeficiente se aplica para


instrumentos cuyas respuestas son dicotmicas; por ejemplo:
s-no. De acuerdo a este mtodo, se divide al instrumento en
tantas partes como tems tenga, lo que permite examinar cmo
ha sido respondido cada tem en relacin con los restantes.
2. Coeficiente alfa de Cronbach: Es empleado para instrumentos
cuyas respuestas son politmicas, presentadas con una escala
tipo Likert, o bien con variables de intervalo o de razn. Este
coeficiente es una media ponderada de las correlaciones entre
las variables (o tems) que forman parte de la escala
(instrumento). Puede calcularse de dos formas: a partir de las
varianzas (alfa de Cronbach) o de las correlaciones de los tems
(Alfa de Cronbach estandarizado).
Es importante destacar que si en una investigacin se est
usando un test ya estandarizado, no es necesario calcular su
coeficiente Cronbach, pues se supone que dicho test es lo
suficientemente vlido y confiable.

Aunque para la aplicacin de estos coeficientes se requieren


conocimientos y experiencia en estadstica, la mayora de los programas

estadsticos como SPSS y Minitab los determinan, y solamente deben


interpretarse.
Tanto el coeficiente Kuder y Richardson, como el coeficiente de
Cronbach, varan entre 0 y 1. As, 0 es ausencia total de consistencia,
mientras que 1 se refiere a una consistencia perfecta. A continuacin se
presentan los criterios de decisin para la confiabilidad de un
instrumento.

Rango

Confiabilidad (Decisin)

0,81 1

Muy Alta

0,61 80

Alta

0,41 60

Media*

0,21 40

Baja*

0 0,20

Muy Baja*

* Se sugiere repetir la validacin del instrumento, puesto que es


recomendable que el resultado sea mayor o igual a 0,61

Un instrumento de medicin puede ser confiable, pero no


necesariamente vlido (un aparato, por ejemplo, puede ser
consistente en los resultados que produce, pero puede no medir
lo que pretende. Por ello, es requisito que el instrumento de
medicin demuestre ser confiable y vlido.

You might also like