You are on page 1of 132

MAESTRÍA EN ADMINISTRACIÓN CON MENCIÓN EN GERENCIA

EMPRESARIAL

SEMINARIO DE TESIS II
Validación de Instrumentos
(09/06/19)

Mg. Manuel F. Hurtado Sánchez


Imagine que desea evaluar el Nivel Nutricional de un
grupo de Niños y el Instrumento que va a usar es una
BALANZAMALOGRADA. (no es exacta ni precisa o en forma
equivalente no es válida ni confiable)

• No Importa si su proyecto de investigación es perfecto


• tampoco si su muestra es representativa y tiene un
tamaño adecuado
• Tampoco si contrata al mejor estadístico del mundo

Simplemente sus resultados no sirven.


Si el instrumento con el que recolecta sus
datos no es valido ni confiable o de manera
equivalente si no es exacto ni preciso

•Entonces las conclusiones que


obtenga con esos datos
tampoco son válidas
Clases de instrumentos de medida
Hay dos grandes clases de instrumentos,
según la clase de variable a ser medida
Para variables métricas continuas, tenemos los Instrumentos
físicos.

La calidad delas mediciones se estudian con un tipo de análisis conocido como


análisis de Repetibilidad y Reproducibilidad (Análisis R & R, lo trae el Estata)
¿Qué propiedades deben tener estos instrumentos?
Los instrumentos o sistema de medición deben ser: Problemas típicos
Preciso y exacto Inexacto e impreciso
Tanto las mediciones individuales como el promedio de ellas son muy Tanto las mediciones individuales como su
parecidas al valor verdadero. promedio se alejan del valor verdadero.

Repetible No repetible
Mediciones repetidas realizadas por una persona sobre el mismo Mediciones repetidas de un operador sobre el
mensurando resultan muy parecidas. mismo espécimen muestran un exceso de
variabilidad.

Reproducible No reproducible
Dos o más personas que miden el mismo objeto obtienen en promedio Dos o más personas que miden las mismas piezas
resultados muy similares. obtienen en promedio resultados sensiblemente
diferentes.

Estable en el tiempo Inestable en el tiempo


El sistema de medición no cambia a través del tiempo. El sistema de medición cambia a través del
tiempo.
• Las mediciones con esta clase de instrumentos físicos
esperamos que sean exactas y precisas
Para variables no métricas o complejas, tenemos los
cuestionarios, hojas de registro, etc.

• Hoja de registro

El estudio de la calidad de los datos se realiza con el análisis de validez y confiabilidad delos
instrumentos de recolección de datos.
¿Qué propiedades deben tener estos instrumentos?

Confiables

y Válidos
CÓMO SE SABE SI UN INSTRUMENTO DE RECOLECCIÓN DE DATOS
ES

VALIDO ? CONFIABLE ?

Validez de contenido
Por expertos 1. Medida de estabilidad
2. Método de formas alternativas o paralelas
Validez criterio
Correlaciones 3. Método de mitades partidas.
4. Coeficiente alfa de Cronbach.
Validez de constructo.
Análisis factorial 5. Coeficiente KR-20 Kuder y Richardson
VALIDEZ DE UN INSTRUMENTO
DE RECOLECCIÓN DE DATOS

VALIDEZ DE VALIDEZ DE VALIDEZ DE


CONTENIDO CRITERIO CONTRUCTO

VALIDEZ DE VALIDEZ DE
CONCURRENTE PREDICTIVA

𝑉𝑎𝑙𝑖𝑑𝑒𝑧 𝑡𝑜𝑡𝑎𝑙 = 𝑉𝑎𝑙𝑖𝑑𝑒𝑧 𝑑𝑒 𝑐𝑜𝑛𝑡𝑒𝑛𝑖𝑑𝑜 + 𝑉𝑎𝑙𝑖𝑑𝑒𝑧 𝑑𝑒 𝑐𝑟𝑖𝑡𝑒𝑟𝑖𝑜 + 𝑉𝑎𝑙𝑖𝑑𝑒𝑧 𝑑𝑒 𝐶𝑜𝑛𝑠𝑡𝑟𝑢𝑐𝑡𝑜


Validez de contenido
• La validez de contenido descansa generalmente en el
juicio de expertos (métodos de juicio). Se define como el
grado en que los ítems que componen el test representan
el contenido que el test trata de evaluar. Por tanto, la
validez de contenido se basa en
• (a) la definición precisa del dominio y
• (b) en el juicio sobre el grado de suficiencia con que ese
dominio se evalúa.
Nota
• La validez de contenido se utiliza principalmente
con tests de rendimiento, y especialmente con
los tests educativos y tests referidos al criterio
¿Cómo se mide la validez de contenido?

Hay dos Métodos:


a) Cálculo de descriptivos:
Se calcula la media y desviación típica de la relevancia asignada a cada ítem,
a continuación se determina una puntuación de corte que refleje, en base a
la puntuación de los expertos qué puntuación del ítem es demasiado baja
en relevancia como para ser incluido en la escala. No hay reglas, la decisión
dependerá del juicio propio
b) Índice de validez de contenido (IVC):
En el caso de encuestas, tests o pruebas. Lawshe (1975) propuso un índice
de validez basado en la valoración de un grupo de analistas expertos,
quienes reciben todas las preguntas y las califican. Brindan su opinión sobre
si la pregunta es esencial, útil o irrelevante para medir el constructo en
estudio.
El índice se calcula a través de la siguiente fórmula:

𝑛 𝑒 − 𝑁 Τ2
𝐼𝑉𝐶 =
𝑁Τ2

𝑛𝑒 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑝𝑒𝑟𝑡𝑜𝑠 𝑞𝑢𝑒 𝑣𝑎𝑙𝑜𝑟𝑎𝑟𝑜𝑛 𝑎𝑙 í𝑡𝑒𝑚 𝑐𝑜𝑚𝑜 𝑒𝑠𝑒𝑛𝑐𝑖𝑎𝑙


𝑁 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑥𝑝𝑒𝑟𝑡𝑜𝑠
El IVC oscila entre +1 y -1, siendo las puntuaciones positivas las que indican
una mejor validez de contenido.

Un índice IVC = 0 indica que la mitad de los expertos han evaluado el ítems
como esencial. Los ítems con una bajo IVC serán eliminados.

Lawshe (1975) sugiere que un IVC ≥ 0.29 será adecuado cuando se hayan
utilizado 40 expertos

un IVC ≥ 0.51 será suficiente con 14 expertos

un IVC ≥ 0.62 será suficiente con 10 expertos

pero un IVC ≥ 0.99 será necesario cuando el número de expertos sea 7 o


inferior
EL EXPERTO
El juicio de expertos se define como una opinión informada de
personas con trayectoria en el tema, que son reconocidas por otros
como expertos cualificados en este, y que pueden dar información,
evidencia, juicios y valoraciones
EL JUICIO DE EXPERTOS
El juicio de expertos es un procedimiento que nace de la necesidad de estimar
la validez de contenido de un instrumento o prueba.

Para realizarlo se debe recabar información de manera sistemática.


Pasos que permiten organizar la información, de manera que el proceso de juicio de expertos sea
más eficiente.
1. Definir el objetivo del juicio de expertos.
En este apartado los investigadores deben tener clara la finalidad del juicio, ya que
puede utilizarse con diferentes objetivos:
a) Establecer la equivalencia semántica de un instrumento o prueba que se
encuentra validada en otro idioma,

b) Evaluar la adaptación cultural, es decir, el objetivo de los jueces es evaluar si los


ítems del instrumento o prueba miden el mismo constructo en una cultura distinta;
así por ejemplo, los ítems que midan agresividad en una prueba validada en el país
XXXX, pueden no estar midiendo lo mismo en el país YYYY, y
2. Selección de los jueces.

Para ello han de tomarse en cuenta los criterios especificados anteriormente para la selección,
considerando la formación académica de los expertos, su experiencia y reconocimiento en la
comunidad.

3. Explicitar tanto las dimensiones como los indicadores que está


midiendo cada uno de los ítems del instrumento.

Esto le permitirá al juez evaluar la relevancia, la suficiencia y la pertinencia del ítem. No hay que
dar por sentado que el juez únicamente con la descripción del constructo a medir pueda identificarlo
claramente, ya que, es posible que existan diferentes definiciones de un mismo constructo.
4. Especificar el objetivo de la prueba.

El autor debe proporcionar a los jueces la información relacionada con el uso del
instrumento o prueba, es decir, para qué van a ser utilizados los puntajes obtenidos a
partir Validez de contenido y juicio de expertos de ésta. Esto aumenta la contextualización
del juez respecto a la prueba, incrementando a su vez el nivel de especificidad de la
evaluación; ya que la validez de los ítems está directamente relacionada con su utilización,
por ejemplo, para hacer un diagnóstico o un tamizaje, o evaluar desempeño, entre otros.
5. Establecer los pesos diferenciales de las dimensiones de la prueba.

Esto sólo se hace cuando algunas de las dimensiones tienen pesos diferentes. Por ejemplo,
si una prueba va a ser utilizada para el diagnóstico y asignación a un programa de
rehabilitación de una adicción, se debe dar mayor peso a las dimensiones que midan la
calidad de vida que a las que evalúen personalidad adictiva.
6. Diseño de planillas.
La planilla se debe diseñar de acuerdo con los objetivos de la evaluación

7. Calcular la concordancia entre jueces.


Para esto se utilizan los métodos estadísticos.

8. Elaboración de las conclusiones del juicio que serán utilizadas para la descripción
psicométrica de la prueba.
ÍNDICE DE ACUERDO ( IA)

Se define como la proporción que existe entre los jueces que coinciden
con la definición propuesta por el autor

𝐀 A: acuerdo y
IA= D: desacuerdos
𝐀+𝐃

Tomándose como validos los reactivos cuyos valores sean iguales o


mayores que 0,80
COEFICIENTE V DE AIKEN

Este coeficiente es una de las técnicas para cuantificar validez de contenido o


relevancia del ítem respecto a un dominio de contenido en n jueces

S: La sumatoria de si
𝑺
V= si: valor asignado por el experto o juez i
n: Numero de expertos o jueces.
(𝒏(𝒄−𝟏)) c: Número de valores de la escala de valoraciones

La magnitud de este coeficiente va desde 0.00 hasta 1.00; el valor 1.00 es la mayor magnitud posible que indica un perfecto acuerdo
entre los jueces respecto a la mayor puntuación de validez de los contenidos evaluados
Criterio de validez del ítem

En lo que respecta a la proporción de acuerdos que debe existir por cada grupo
de jueces para evaluar la velidez de contenido, encontramos:
• Para un grupo de 5 a 7 jueces, se necesita un completo acuerdo entre ellos
para que el ítem sea válido
• En un grupo de 8 jueces, se requiere que deben estar lo menos 7 jueces en
concordancia para que el ítem sea válido con un nivel de significancia p<0.05.
• En un grupo de 9 jueces, se requiere que deben estar lo menos 8 jueces en
concordancia para que el ítem sea válido con un nivel de significancia p<0.05.
• En un grupo de 10 jueces, se requiere que deben estar lo menos 9 jueces en
concordancia para que el ítem sea válido con un nivel de significancia p<0.05.
En la siguiente Tabla encontramos en primer lugar que los
valores computados para el índice de acuerdo (IA) y el V de
Aiken (V), arrojan resultados similares cuando las respuestas
de los jueces son dicotómicas (C=2), con lo cual comprobamos
que para el caso de los ítem dicotómicos ambas fórmulas son
equivalentes; y en segundo lugar que las probabilidades
asociadas a la prueba binomial (PB) y al V son parecidas, lo
cual confirma la pertinencia del coeficiente V ya que tiene la
facilidad del cómputo del IA y la posibilidad de la
contrastación estadística de la prueba Binomial (PB).
Determinación del número de jueces que deben están de acuerdo con el ítem, para que éste
sea considerado commo válido (Según la Distribución Binomial, debido a que se consideran respuestas
dicotómicas del juez: De acuerdo o En desacuerdo con el ítem )
N° jueces N° Acuerdos Indice de B(n, 0.5) V-Aiken con p_valor =
Criterio de Validez: p<0.05
(n) (x) Acuerdo (IA) P(X=x) C=2: (V) P(X≥x)
5 3 0.6 0.3125 0.6
Un item evaluado con 5 jueces será válido
4 0.8 0.156 0.8
5 1 0.031 1.0 0.031 siempre que los 5 lo valoren como válido
6 4 0.67 0.2344 0.7
Un item evaluado con 6 jueces será válido
5 0.83 0.094 0.8
6 1.00 0.016 1.0 0.016 siempre que los 6 lo valoren como válido
7 5 0.71 0.1641 0.7
Un item evaluado con 7 jueces será válido
6 0.86 0.055 0.9
7 1.00 0.008 1.0 0.008 siempre que los 7 lo valoren como válido
8 6 0.75 0.1094 0.8
Un item evaluado con 8 jueces será válido
7 0.875 0.031 0.9 0.035
8 1 0.004 1.0 0.004 siempre que 7 u 8 lo valoren como válido
9 7 0.78 0.0703 0.8
Un item evaluado con 9 jueces será válido
8 0.89 0.018 0.9 0.020
9 1 0.002 1.0 0.002 siempre que 8 ó 9 lo valoren como válido
10 8 0.8 0.0439 0.8 0.0547 Un item evaluado con 10 jueces será
9 0.9 0.010 0.9 0.011 válido siempre que los 9 ó 10 lo valoren
10 1 0.001 1.0 0.001 como válido
De estos resultados, nos muestran que a medida que se
tengan grupos de jueces más numerosos, se requiere que
la concordancia sea algo menor, sin por ello dejar de ser
válido el ítem evaluado.
El asumir como adecuado el valor del índice de acuerdo
como mayor de 0.80, es solo relativo y depende del
tamaño de la muestra de jueces que se estudia, por lo que
se recomienda se tome en cuenta los resultados
encontrados y aceptar como válido solo los ítem que sean
estadísticamente significativos (con p_valor < 0.05).
Informe de validéz de contenido por el método de Juicio de Experto
Ejemplo de validación con Respetado juez: Usted ha sido seleccionado para evaluar el instrumento __________________ que hace parte de la
investigacion __________________________. La evaluacion de los instrumentos es de gran relevancia para lograr que sean
respuestas dicotómicas de validos y que los resultados obtenidos a partir de estos sean utilizados eficientemente en sus aplicaciones. Agradecemos su
valiosa colaboracion.
los jueces acerca de si ítem
representa o no el Nombres y apellidos del Juez: ____________________________________
Formaci+on académica: _________________________________________
constructo que se pretende Áreas de experiencia profesional : _________________________________
Tiempo: _______ Cargo actual: __________________________________
medir con el indicador Institución: ____________________________________________________
Objetivo de la Investigación: ______________________________________
Objetivo de la Prueba: ___________________________________________

Instrucciones: De acuerdo con los indicadores califique cada uno de los ítems, según si el ítem representa el constructo
contenido en el indicador. (Para cada ítem, valore con 1 si está de acuerdo ó con 0 si está en desacuerdo con la propuesta d e
que ítem mide lo que se desea medir de acuerdo al indicador)

Valoración del experto


Indicador Ítem
1= De acuerdo 0 = En desacuerdo
I1 : 1
I2 : 2
I3 : 3
. .
. .
. .
IN : N.

Firma del experto


DNI :
/ /
Fecha
Cuadro resumen para Validación de contenido por el método de juicio expertos mediante
la V de Aiken. Cada juez valora el ítem con 1 si está de acuerdo o con 0 si está en
desacuerdo)
Indicador (Del Expertos (n = 8): Suma de V Aiken. n=8 y c=2
cuadro de
Ítem acuerdos 𝑺 Validez
Operacionalización E1 E2 E 3 E4 E5 E6 E7 E8 (S) V=
de la variable) 𝒏(𝒄−𝟏)

I1 1 1 0 1 1 1 1 1 1 7 0.88 Si

I2 2 0 1 1 0 1 0 1 1 5 0.63 No

I3 3 1 1 0 1 1 1 1 1 7 0.88 Si
.
.
.
IN N 0 1 1 1 1 1 1 1 7 0.88 Si
Total

Resultado global
Promedio de las
V-Aiken > 0.8 Para que un
Cuestionario
sea válido,
todos los
ítems deben
ser válidos
Ejemplo V Aiken para respuestas politómicas de los jueces (C>2)

La representatividad del constructo contenido en el indicador por parte


del ítem es valorado por el juez en una escala politómica (C>2) como
por ejemplo la escala de Likert (C=5), en la que manifiesta su grado de
acuerdo con el ítem.

Grado de acuerdo:
1 = TD Total desacuerdo
2 = D Descuerdo
3=N Neutral
4=A Acuerdo
5 = TA Total acuerdo
Informe de validéz de contenido por el método de Juicio de Experto
Ejemplo de validación con Respetado juez: Usted ha sido seleccionado para evaluar el instrumento __________________ que hace parte
de la investigacion __________________________. La evaluacion de los instrumentos es de gran relevancia
respuestas en escala de para lograr que sean validos y que los resultados obtenidos a partir de estos sean utilizados eficientemente en
sus aplicaciones. Agradecemos su valiosa colaboracion.
Licker de los jueces acerca
Nombres y apellidos del Juez: ____________________________________
de si ítem representa o no el Formaci+on académica: _________________________________________
Áreas de experiencia profesional : _________________________________
constructo que se pretende Tiempo: _______ Cargo actual: __________________________________
Institución: ____________________________________________________
medir con el indicador Objetivo de la Investigación: ______________________________________
Objetivo de la Prueba: ___________________________________________

Instrucciones: Para cada indicador, valore el grado en que el ítem representa el constructo contenido
en el indicador, es decir si ítem permite medir lo que el indicador se propone medir: 1=TD (Total
descuerdo), 1=D (Desacuerdo), 3=(Neutro, Ni en acuerdo ni en desacuerdo), 4= A (De acuerdo) y
5=TA (Ttal Desacuerdo)

Valoración del experto


Indicador Ítem
1= TD 2=D 3=N 4=A 5 = TA
I1 : 1
I2 : 2
I3 : 3
.
.
.
IN : N.

Firma del experto


DNI :
/ /
Fecha
• Lo primero que hacemos en convertir la escala Lickert a una escala de 0 a 1,
de la siguiente manera:
• Sea Xi = Puntuación en escala de Lickert: { 1, 2, 3, 4, 5}
• La nueva valoración (wi) se obtiene restando al valor original, el valor más
bajo de la escala, en este caso 1, y luego a esta diferencia se lo divide entre
4.
𝑋−1
𝑤=
4
Estos nuevos valores están comprendidos en el intervalo continuo [0, 1] y el
calor de C se transforma a 2.
El coeficiente V Aiken para cada ítem, se obtiene con el promedio de los w
correspondientes a cada unos de los n - jueces
Cálculo del coeficiente V-Aiken para un cuestionario de 20 ítems en escala de Lickert . Los ítems estan agrupados en 4
dimensiones. Se ultilizan n=8 jueces. El ítem, la dimensión y el cuestionario en general será válido si su coeficiente V-Aiken es
igual o mayor de 0.8
Dimensión 1 Dimensión 2 Dimensión 3 Dimensión 4
Juez
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
E1 5 4 5 4 5 5 4 5 5 5 3 5 4 4 5 5 5 4 5 5
E2 4 4 4 5 4 5 5 5 3 5 5 4 5 5 5 5 5 5 4 4
X: Puntuación E3 4 5 5 3 5 2 4 3 5 5 3 5 4 3 5 2 5 4 5 4
original de los E4 2 4 5 4 4 5 5 5 5 5 4 3 5 4 4 5 3 4 5 4
Expertos: En E5 4 3 4 5 4 3 5 5 4 4 5 4 5 5 4 5 5 4 5 4
escala de 1 a 5 E6 3 4 4 4 3 5 3 4 4 5 5 5 4 5 5 3 5 5 4 5
E7 4 5 5 5 1 5 5 4 5 5 5 5 4 4 5 4 5 4 5 5
E8 4 5 5 4 4 5 5 4 5 4 5 4 4 5 4 4 5 5 4 5
E1 1 0.75 1 0.75 1 1 0.75 1 1 1 0.5 1 0.75 0.75 1 1 1 0.75 1 1
E2 0.75 0.75 0.75 1 0.75 1 1 1 0.5 1 1 0.75 1 1 1 1 1 1 0.75 0.75
w: Puntuación E3 0.75 1 1 0.5 1 0.25 0.75 0.5 1 1 0.5 1 0.75 0.5 1 0.25 1 0.75 1 0.75
modificada de E4 0.25 0.75 1 0.75 0.75 1 1 1 1 1 0.75 0.5 1 0.75 0.75 1 0.5 0.75 1 0.75
los Expertos, en E5 0.75 0.5 0.75 1 0.75 0.5 1 1 0.75 0.75 1 0.75 1 1 0.75 1 1 0.75 1 0.75
escala de 0 a 1 E 0.5 0.75 0.75 0.75 0.5 1 0.5 0.75 0.75 1 1 1 0.75 1 1 0.5 1 1 0.75 1
6
E7 0.75 1 1 1 0 1 1 0.75 1 1 1 1 0.75 0.75 1 0.75 1 0.75 1 1
E8 0.75 1 1 0.75 0.75 1 1 0.75 1 0.75 1 0.75 0.75 1 0.75 0.75 1 1 0.75 1
Suma acuerdos ∑ w 5.5 6.5 7.25 6.5 5.5 6.75 7 6.75 7 7.5 6.75 6.75 6.75 6.75 7.25 6.25 7.5 6.75 7.25 7
Validez del Ítem: V
0.69 0.81 0.91 0.81 0.69 0.84 0.88 0.84 0.88 0.94 0.84 0.84 0.84 0.84 0.91 0.78 0.94 0.84 0.91 0.88
-Aiken
Validez dela
Dimensión
0.78 0.88 0.86 0.87
Validez del
0.85
cuestionario
Resultado: Los ítems 1, 5 y 16 no son válidos, La Dimensión 1 tampoco es válida pero elcuestionario completo si puede
considerarse como válido.
Validez de criterio
Se refiere al grado en que el test correlaciona con variables ajenas al test
(criterios) con lo que se espera por hipótesis que debe correlacionar de
determinado modo.

Un criterio es una variable distinta del test que se toma como referencia, que
se sabe que es un indicador de aquello que el test pretende medir o que se
sabe que debe presentar una relación determinada con lo que el test pretende
medir. Se denomina coeficiente de validez a la correlación del test con un
criterio externo. (Si el test es para medir el coeficiente de inteligencia, el criterio podría ser el rendimiento académico)
La elección del criterio es el aspecto crítico en este
procedimiento de determinación de la validez, ya que
es muy difícil obtener buenos criterios. Un mismo test
puede tener más de un tipo de validez, es decir puede
estar validado con respecto a varios criterios y los
diferentes coeficientes de validez que resultan pueden
tener valores diferentes
Dentro del concepto de validez de criterio cabe
distinguir a su vez entre:

- Validez externa y validez interna

- Validez concurrente y validez predictiva


Validez externa e Interna
• Hablamos de validez externa si el test se ha validado con respecto a un
criterio externo, como por ejemplo, una evaluación de rendimiento. La
correlación del test con el criterio da lugar al coeficiente de validez externa

• Hablaremos de validez interna si se correlaciona un test con otro con validez


reconocida que mide el mismo rasgo; los coeficientes de validez interna
suelen ser menores que los de validez externa y su interpretación es difícil.
Para evitar errores de interpretación se suele correlacionar un test con todos
los tests ya validados que miden lo mismo y calcular un coeficiente de
correlación múltiple.
Validez Concurrente y Validez predictiva
• La distinción entre validez concurrente y predictiva se
emplea según se utilice un criterio disponible en el
momento (validez concurrente) o cuando se pretenda
predecir la conducta futura de un individuo (validez
predictiva). Este tipo de validez se exige especialmente
para los instrumentos que se utilizan en selección y
orientación académica o profesional.
Cálculo del coeficiente de criterio
• Martínez Arias (1995) distingue los siguientes casos:
• Un único test y un solo criterio: se emplearían los procedimientos
de correlación y regresión lineal simple.
• Varios predictores (tests) y un solo criterio: se emplea la correlación
y regresión lineal múltiple o el análisis discriminante.
• Varios predictores y varios criterios: regresión lineal multivariante y
la correlación canónica
Validez de constructo
• Se refiere a que las mediciones obtenidas con el instrumento deben
explicar el modelo teórico empírico, que subyace a la variable de
interés. También se dice que se refiere al grado en que el
instrumento de medida cumple con las hipótesis que cabría esperar
para un instrumento de medida diseñado para medir precisamente
aquello que deseaba medir

• El término constructo hace referencia a un concepto teórico psicológico


inobservable (ej. la inteligencia, cada factor de personalidad, las aptitudes, las
actitudes, etc.)
La definición operativa de estos constructos presenta
considerables dificultades en la práctica, ya que no son
directamente observables. Debido a esto, la validación de un
constructo es un proceso laborioso y difícil.

Para la estimación de la validez de constructo se utiliza una


metodología variada.

Algunos de los métodos más utilizados son:


1) Métodos correlacionales
Los coeficientes de correlación nos indican la relación del test con el conjunto
de instrumentos de medida y criterios posibles, así como la relación entre el
test y el constructo.
• Correlación del test con un criterio externo
• Correlación test con otros tests que pretenden medir los mismos aspectos o
aspectos semejantes.
• Correlación del test con otros tests que miden características, que nada
tienen que ver con el constructo que subyace al test.

Campbell y Fiske (1959) proponen que se calcule dos tipos de validez:


a) Validez convergente: indica las correlaciones positivas
con otros tests que miden lo mismo.

b) Validez discriminante: indica las correlaciones nulas con


tests que miden aspectos diferentes.

A través de estos dos tipos de validez se podría ir definiendo un


constructo psicológico.
2. Análisis Factorial del Test
El análisis factorial permite ordenar los datos y facilitar la interpretación de las
correlaciones. Se espera un factor explicativo del constructo con saturaciones
altas del test y los tests que miden aspectos parecidos, y con saturaciones
bajas de aquellos tests que miden aspectos diferentes.

Con frecuencia se habla de la estructura factorial de un test como validez


estructural o validez factorial
CUESTIONES RELATIVAS A LA ESTIMACIÓN DE LA VALIDEZ

1. Valor máximo del coeficiente de validez


El valor máximo que puede alcanzar un coeficiente de
validez, estimado mediante la correlación entre el test y
el criterio, es menor o igual que su índice de fiabilidad.
Cuanto peor medido esté el criterio, o menos fiables sean
las puntuaciones obtenidas en el criterio, la prueba de
rendimiento, peor va a ser la predicción.
2. Validez y longitud del test

Del mismo modo que la fiabilidad de un test mejora


aumentando su longitud, con la validez también ocurre
lo mismo. Es decir, cuanto mayor sea el número de
ítems, mayor será la validez del test.
3. Validez y variabilidad del grupo
La correlación entre dos variables aumenta conforme lo
hace la variabilidad de la muestra. Si restringimos el rango
de variabilidad de las puntuaciones de una muestra de
sujetos, el coeficiente de validez (la correlación del test con
el criterio) será menor de lo que debería.
Validez total
• Se gana con una mayor validez de contenido, validez de constructo y
validez de criterio
• Las mediciones con esta clase de instrumentos (cuestionarios, hojas de
registro, etc. ), esperamos que sean válidos y confiables
Confiabilidad
Antes de iniciar el trabajo de campo, es imprescindible probar
el cuestionario sobre un pequeño grupo de población. Esta
prueba piloto ha de garantizar las mismas condiciones de
realización que el trabajo de campo real.

La confiabilidad responde a la pregunta ¿con cuánta precisión


los ítems, reactivos o tareas representan al universo de donde
fueron seleccionados?. El término confiabilidad “…designa la
precisión con que un conjunto de puntajes de pruebas miden
lo que tendrían que medir”. Entre los métodos para estimar la
confiabilidad, se tienen:
Método Test-Retest:
Una forma de estimar la confiabilidad de un test o
cuestionario es administrarlo dos veces al mismo grupo y
correlacionar las puntuaciones obtenidas. Este método tiene
la desventaja de que los puntajes pueden verse afectados por
el recuerdo, la práctica, etc. Este procedimiento no es
adecuado para aplicarlo a pruebas de conocimientos sino para
la medición de aptitudes físicas y atléticas, tests de
personalidad y motores.
El coeficiente que se obtiene recibe el nombre de coeficiente
de estabilidad porque denota la coherencia de las
puntuaciones en el tiempo. Para un desarrollo adecuado y
sean confiables deben variar entre 0,80 y 0,95 (Popham, 1980,
citado por Fuentes, op. cit.).

Se usa la correlación por el método de los puntajes directos


(Correlación r de Pearson)

𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑟𝑥𝑦 =
𝑛 σ 𝑥2 − σ 𝑥 2
Método común de división por mitades o Hemitest:
Este método computa el coeficiente de correlación entre los
puntajes de las dos mitades del test o cuestionario aplicado. Esto
supone que los dos test mitades son paralelos, tienen igual
longitud y varianza entre sí. Se estima a través del coeficiente de
confiabilidad de Spearman-Brown:
i) Se establece la correlación entre los dos puntajes de las dos
mitades del test a través del método de los puntajes directos,
Correlación r de Pearson:

𝑛 σ 𝑥1 𝑥2 − σ 𝑥1 σ 𝑥2
𝑟12 =
𝑛 σ 𝑥1 2 − σ 𝑥1 2
• ii) Estimación del test completo (Spearman-Brown) con la fórmula:

2 × 𝑟12
𝑟𝑡𝑡 =
1 + 𝑟12

Se interpreta la prueba de hemitest como coeficiente de consistencia


interna, ya que una sola prueba contiene las dos formas equivalentes y
su énfasis lo pone en las puntuaciones de los sujetos, no en los ítemes.
Coefiente Alfa de Cronbach:
Para evaluar la confiabilidad o la homogeneidad de las preguntas
o ítemes es común emplear el coeficiente alfa de Cronbach
cuando se trata de alternativas de respuestas politómicas, como
las escalas tipo Likert; la cual puede tomar valores entre 0 y 1,
donde: 0 significa confiabilidad nula y 1 representa confiabilidad
total. El coeficiente α de Cronbach puede ser calculado por medio
de:

1 − σ 𝑆𝑖2
𝑟𝑡𝑡 =
𝑆𝑡2
• 𝑟𝑡𝑡 ∶ 𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑝𝑟𝑢𝑒𝑏𝑎 𝑜 𝑐𝑢𝑒𝑠𝑡𝑖𝑜𝑛𝑎𝑟𝑖𝑜
• 𝑆𝑖2 ∶ 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑙 í𝑡𝑒𝑚 𝑖
• 𝑆𝑡2 ∶ 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒𝑙 𝑐𝑢𝑒𝑠𝑡𝑖𝑜𝑛𝑎𝑟𝑖𝑜

Cuanto menor sea la variabilidad de respuesta, es decir, que haya


homogeneidad en las respuestas dentro de cada ítem, mayor será el
Alfa de Cronbach.
Método de Kuder-Richarson 20:
Permite obtener la confiabilidad a partir de los datos obtenidos en una sola
aplicación del test. Coeficiente de consistencia interna. Puede ser usada en
cuestionarios de ítemes dicotómicos y cuando existen alternativas dicotómicas con
respuestas correctas e incorrectas.

𝑛 𝑆𝑡2 − σ 𝑝𝑞
𝐾𝑅20 =
𝑛−1 𝑆𝑡2

𝑆𝑡2 = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑝𝑢𝑛𝑡𝑢𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠


𝑝 = 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 𝑞𝑢𝑒 𝑝𝑎𝑠𝑎𝑟𝑜𝑛 𝑢𝑛 í𝑡𝑒𝑚 𝑜 𝑑𝑒 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑠
𝑞 =1−𝑝
Interpretación del Coeficiente de Confiabilidad
El coeficiente de confiabilidad es un coeficiente de correlación,
teóricamente significa la correlación del test consigo mismo. Sus valores
oscilan entre 0 y 1.

Rangos delcoeficiente de
Interpretación
confiabilidad
0.81 0.1 Muy alta
0.61 0.8 Alta
0.41 0.6 Moderada
0.21 0.4 Baja
0 0.2 Muy Baja
Ejemplo (Con Excel)
Considere que deseamos medir la confiabilidad de un cuestionario
diseñado para medir el conocimientos de las medidas de Bioseguridad
en los internos de Medicina de los hospitales Las Mercedes (HRDLM) y
Regional de Lambayeque (HRL) durante el 2015. El investigador diseño
un cuestionario con 15 preguntas, después de pasar por el proceso de
validación por expertos, decidió aplicarlo a un total de 84 internos, de
los cuales 48 correspondían al HRDLM y 36 al HRL.
Las preguntas tuvieron un total de entre 3 y 5 alternativas, de las cuales
solo una de ellas era la correcta, de modo que podrían considerarse
como preguntas dicotómicas, verdadera o falsa, por lo que su fiabilidad
será medida con el coeficiente KR-20 de Kuder-Richardson
Formula del coeficiente de Kuder - Richardson
𝑛 𝑆𝑡2 −σ 𝑝𝑞
• 𝐾𝑅20 =
𝑛−1 𝑆𝑡2

• 𝑆𝑡2 = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑝𝑢𝑛𝑡𝑢𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠


• 𝑝 = 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 𝑞𝑢𝑒 𝑝𝑎𝑠𝑎𝑟𝑜𝑛 𝑢𝑛 í𝑡𝑒𝑚 𝑜 𝑑𝑒 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑠
• 𝑞 =1−𝑝
• 𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 𝑒𝑛𝑡𝑟𝑒𝑣𝑖𝑠𝑡𝑎𝑑𝑜𝑠
Resultados
sexo 1=Varon Hospital 1=HRDLM
Intrerno 2=Mujer 2=HRL P1 P2 P15 Total suma Promedio
1 1 1 1 1 1 15 15 1.000
2 1 1 1 1 1 7 7 0.467
3 2 1 1 1 1 11 11 0.733
4 1 1 1 1 1 6 6 0.400
84 1 2 1 1 1 7 7 0.467

Σ Pi.qi = 2.217
Vt = 7.150
KR-20: rtt = 70%
Total = 960
Prom. General = 11.43
Tasa de éxito = 0.762
Ejemplo de validez y confiabilidad con el Análisis
factorial y el Alpha de Crombach
El siguiente ejemplo corresponde al artículo, Elaboración y validación del
cuestionario: “Desempeños profesionales de directivos y profesores en pro de
una educación creativa: Evaluación y autoevaluación desde la perspectiva
docente”. Elaborado por Michelle Mendoza Lira, Profesora de Lenguaje y
Comunicación, Doctoranda de la Universidad Complutense de Madrid, y
publicada en la revista, Docencia e Investigación, N° 21. 2011 con ISSN, 1133-9926.
El trabajo fue realizado en colegios de Valparaiso - Chile

Objetivo: Elaborar, y posteriormente validar, el cuestionario “Desempeños


profesionales de directivos y profesores en pro de una educación creativa:
evaluación y autoevaluación desde la perspectiva docente”.
Procedimiento:
1° Etapa: Revisión, selección y adaptación de dimensiones, criterios y
descriptores.
El cuestionario se elaboró teniendo en cuenta el marco para la buena
dirección (MINEDUC-2005) y el marco para la buena enseñanza (MINEDUC-
2003), quedando la primera versión del cuestionario con 59 ítems y 9
factores.
2° Etapa: Validación de contenido.
El cuestionario fue presentado a 10 jueces expertos, quienes contaban con
una pauta para evaluar de 1 a 3 la pertinencia de las dimensiones y sus ítems
al propósito del cuestionario, así como también con un espacio para
proponer cambios y/o sugerencias.
Para determinar la validez de contenido, a través del juicio de
expertos, se utilizó la fórmula de Lawshe (1975), (vea diapositivas 16 y 17).
En el cuestionario dirigido a 10 profesores expertos se obtuvo un
IVC (Índice de Validez de Contenido) de 0,8, pero fueron eliminados
cuatro ítems (dos en cada parte del cuestionario), ya que
presentaron un valor muy inferior al mínimo de razón de validez
establecido por Lawshe. Con estas modificaciones, el cuestionario
quedó compuesto por 55 ítems y 9 factores, de los cuales 31 ítems
agrupados en 4 factores servirán para medir la gestión del equipo
directivo y 24 ítems agrupados en 5 dimensiones servirán para
medir la autoevaluación de su desempeño. Para las respuestas, se
utilizó el escalamiento tipo Likert con cinco categorías.
𝑛 𝑒 − 𝑁 Τ2
VALIDACIÓN DE CONTENIDO UTLIZANDO LA FORMULA DE LAUSHE 𝐼𝑉𝐶 =
𝑁 Τ2
3° Etapa: Prueba piloto.
A fin de analizar la consistencia interna del cuestionario, se
llevó a cabo una prueba piloto, en la cual participaron 30
docentes. Los resultados arrojaron un coeficiente de Alfa de
Cronbach de 0,921, el cual excede el valor mínimo de 0,70
para determinar la confiabilidad de la prueba (DeVellis, 2003;
Kline, 2000). Por esta razón, se puede establecer que existe
una alta correlación entre los reactivos del instrumento y una
adecuada consistencia interna. (El cálculo refieren haberlo hecho con el
SPSS 15)
4° etapa: Aplicación de los instrumentos.
En primer lugar, se contactaron diversos colegios de la región
de Valparaíso (Chile) para participar en esta investigación.
Todos los directores de los establecimientos recibieron una
carta en la que se les explicaban los objetivos y alcances de
este estudio y, en el caso de estar interesados, se les invitaba
aparticipar en una reunión para otorgarles más información.
Una vez que accedían a formar parte de este estudio, se
dejaron copias de los instrumentos y se acordó la fecha de
recogida.
Nota: El tamaño de muestra definitivo fue n = 259 docentes
de 29 colegios de Valparaiso - Chile
Análisis de resultados
Validación de constructo

1° parte del cuestionario para medir la Gestión Directiva: 31 Ítems


Método: Análisis factorial de componentes principales
KMO = 0.968 ( >> 0.5 requerido)
Significancia de la prueba de esfericidad de Bartlet = 0.000 (Ho: r = I)

Por lo tanto concluimos que tiene sentido aplicar el análisis factorial para
encontrar los factores que subyacen o que explican la variabilidad de la
muestra.
Confiabilidad
• Los niveles de confiabilidad, obtenidos con el método de Alfa de Cronbach en
cada una de las dimensiones, oscilaron entre 0,911 y 0.934, tal como puede
observarse en la tabla. Estos resultados reflejan un alto índice de consistencia
interna en esta primera parte del cuestionario.

Confiabilidad de las dimensiones. Método Alfa de Cronbach


DIMENSIONES Nº de ítems Consistencia Interna
Liderazgo 5 0.911
Gestión Curricular 7 0.931
Gestión de Recursos 7 0.929
Gestión del clima organizacional y convivencia 9 0.934
Confiabilidad
Los niveles de confiabilidad, obtenidos con el método de Alfa de Cronbach en
cada una de las dimensiones, oscilaron entre 0,929 y 0,788. Los resultados
reflejan un alto índice de consistencia interna en esta primera parte del
cuestionario.
Confiabilidad de las dimensiones. Método Alfa de Cronbach
DIMENSIONES Nº de ítems Consistencia Interna
Prácticas pedagógicas reflexivas 5 0.875
Relaciones profesionales con los miembros de
la comunidad educativa 5 0.874
Apoyo a los alumnos en su desarrollo personal 5 0.879
Relación con la familia de los alumnos 4 0.929
Autonomía profesional 4 0.788
2° Ejemplo con SPSS
• Cargue a su PC la Base de clima institucional según estudiantes (2015)
en formato SPSS, y siga cada una de las etapas para realizar un
análisis ve validez de constructo y fiabilidad con el coeficiente Alfa de
Cronbach
Validez de constructo y fiabilidad con SPSS
Estudio de Repetibilidad y Reproducibilidad (R&R)
• La norma técnica NTC-ISO/IEC 17025 “Requisitos generales de
competencia de laboratorios de ensayos y calibración.”, establece
en el numeral 5.9 “Aseguramiento de la calidad de los resultados
de ensayo y de calibración”, que todo laboratorio de
calibración/ensayo DEBE tener procedimientos de control de la
calidad para realizar el seguimiento de la validez de los ensayos y
las calibraciones llevados a cabo, uno de estos métodos es el
estudio de Repetibilidad y Reproducibilidad.
Repetibilidad
• La repetibilidad puede ser expresada cuantitativamente en términos de la
dispersión característica de los resultados. En la siguiente figura se muestra
el concepto de repetibilidad.
Reproducibilidad
• Teniendo en cuenta que la reproducibilidad es la proximidad de concordancia
entre los resultados de mediciones sucesivas del mismo mensurando bajo
condiciones de medición que cambian, ésta se puede expresar en forma
cuantitativa, en función de las características de la dispersión de los resultados;
la siguiente figura representa el concepto de reproducibilidad.
Métodos para estudiar la repetibilidad y la
reproducibilidad

• 1. Rango

• 2. Promedio y Rango

• 3. ANOVA
Método de Promedios y Rango

Este método permite descomponer la variabilidad del sistema


en dos componentes independientes: la repetibilidad y la
reproducibilidad

Los pasos que comprende este método son:


1. Se determinan los equipos que se desean ensayar, el número de
operadores y el número de ensayos que debe efectuar cada uno de
ellos.
2. Cada operador realiza los ensayos correspondientes de cada equipos y
consigna los resultaos correspondientes en el formato respectivo para
su posterior estudio.

3. Los operadores repiten las mediciones, pero esta vez en diferente


orden y sin observar las mediciones realizadas anteriormente por sus
compañeros. Por ejemplo si tubiéramos 4 operadores, 3 equipos y 5
ensayos o repeticiones, la matriz de datos sería de la siguiente
manera:
Ejemplo de Matriz de datos: m=4 operadores, r=3 equipos o partes y n=5 ensayos

Instrumento (Equipo): j
Operador: i
1 2 3
X111 X121 X131
X112 X122 X132
A X113 X123 X133
X114 X124 X134
X115 X125 X135
X211 X221 X231
X212 X222 X232
B X213 X223 X233
X214 X224 X234
X215 X225 X235
X311 X321 X331
X312 X322 X332
C X313 X323 X333
X314 X324 X334
X315 X325 X335
X411 X421 X431
X412 X422 X432
D X413 X423 X433
X414 X424 X434
X415 X425 X434
4. Con los datos del formato se procede a calcular el rango de cada
parte del equipo por medio de la ecuación(1).
𝑅 = 𝑋𝑀𝑎𝑥 − 𝑋𝑀𝑖𝑛 … … . . (1)
Instrumento (Equipo): j
Operador: i
1 2 3
X111 X121 X131
X112 X122 X132
A X113 R11 X123 R12 X133 R13
X114 X124 X134
X115 X125 X135
X211 X221 X231
X212 X222 X232
B X213 R21 X223 R22 X233 R23
X214 X224 X234
X215 X225 X235
X311 X321 X331
X312 X322 X332
C X313 R31 X323 R32 X333 R33
X314 X324 X334
X315 X325 X335
X411 X421 X431
X412 X422 X432
D X413 R41 X423 R42 X433 R43
X414 X424 X434
X415 X425 X434
5. Se calcula el rango promedio de cada operador utilizando
1
la ecuación (2) ത
𝑅𝑖 =
𝑟
σ𝑟𝑗=1 𝑅𝑖𝑗 ∀ 𝑖 = 1, … , 𝑚 …….. 2

Instrumento (Equipo): j
Operador: i
1 2 3
X111 X121 X131
X112 X122 X132
A X113 R11 X123 R12 X133 R13
X114 X124 X134
X115 X125 X135
X211 X221 X231
X212 X222 X232
B X213 R21 X223 R22 X233 R23
X214 X224 X234
X215 X225 X235
X311 X321 X331
X312 X322 X332
C X313 R31 X323 R32 X333 R33
X314 X324 X334
X315 X325 X335
X411 X421 X431
X412 X422 X432
D X413 R41 X423 R42 X433 R43
X414 X424 X434
X415 X425 X434
6. Se calcula el rango promedio de todos lo rangos
1
usando la ecuación 3 𝑅 = 𝑚 σ𝑚
ധ ത
𝑖=1 𝑅𝑖 … … . (3)

Instrumento (Equipo): j Ranpo promedio de


Operador: i
1 2 3 todos los rangos
X111 X121 X131
X112 X122 X132
A X113 R11 X123 R12 X133 R13
X114 X124 X134
X115 X125 X135
X211 X221 X231
X212 X222 X232
B X213 R21 X223 R22 X233 R23
X214 X224 X234
X215 X225 X235
X311 X321 X331
X312 X322 X332
C X313 R31 X323 R32 X333 R33
X314 X324 X334
X315 X325 X335
X411 X421 X431
X412 X422 X432
D X413 R41 X423 R42 X433 R43
X414 X424 X434
X415 X425 X434
7. Se calcula el porcentaje de la repetibilidad de las mediciones
utilizando la ecuación (4).
𝐾1 ×𝑅ധ
% 𝑑𝑒 𝑅𝑒𝑝𝑒𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = ….. (4)
𝑇

𝐾1 : Constante que depende del número de ensayos


T : Tolerancia de la característica medida (T = Limite de Espec. superior – Límite de Espec. inferior)
𝑅ധ : Tango promedio de todos los rangos

Tabla 1 Valores de las constantes K1 y K2


N° de ensayos 2 3 4 5
K1 4.56 3.05 2.5 2.21
N° operadores 2 3 4 5
K2 3.65 2.7 2.3 2.08
8. Se calcula la medición promedio de cada operador
utilizando la ecuación (5).
Instrumento (Equipo): j
Operador: i
1 2 3
X111 X121 X131
1
𝑋ത𝑖 = σ𝑟𝑗=1 σ𝑛𝑘=1 𝑋𝑖𝑗𝑘
X112 X122 X132
… . (5) A X113 X123 X133
𝑛𝑟 X114 X124 X134
X115 X125 X135
X211 X221 X231
𝑛 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑛𝑠𝑎𝑦𝑜𝑠 B
X212
X213
X222
X223
X232
X233
𝑟 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑞𝑢𝑖𝑝𝑜𝑠 X214 X224 X234
X215 X225 X235
X311 X321 X331
X312 X322 X332
C X313 X323 X333
X314 X324 X334
X315 X325 X335
X411 X421 X431
X412 X422 X432
D X413 X423 X433
X414 X424 X434
X415 X425 X434
9. Se calcula la diferencia entre el promedio mayor y el promedio menor
de los operadores por medio de la ecuación (6).
• 𝑋ത𝐷 = 𝑋ത𝑀𝑎𝑥 − 𝑋ത𝑀𝑖𝑛 …… (6)
10. Se calcula el porcentaje de la reproducibilidad por medio de la
ecuación (7).
2

𝐾1 × 𝑅
𝐾2 ×𝑋ത 𝐷 2 −
𝑛𝑟
• % 𝑅𝑒𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = … … (7)
𝑇

Nota: Si en algún caso el término de la raíz es un número negativo, entonces la reproducibilidad es cero.

• 𝐾2 = 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑞𝑢𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑒 𝑑𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑝𝑒𝑟𝑎𝑑𝑜𝑟𝑒𝑠.


(proporciona un intervalo de confianza del 99% para estas características)

K2 se encuentra en la tabla anterior

𝑋ത𝐷 = 𝐷𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑚𝑎𝑦𝑜𝑟 𝑦 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑚𝑒𝑛𝑜𝑟 𝑑𝑒 𝑙𝑜𝑠 𝑜𝑝𝑒𝑟𝑎𝑑𝑜𝑟𝑒𝑠


11. Se calcula el porcentaje de la relación entre la repetibilidad y la
reproducibilidad mediante la ecuación(8).

• %𝑅&𝑅 = % 𝑅𝑒𝑝𝑒𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 2 + % 𝑅𝑒𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 2 … … … . . (8)

• Interpretación:
• Si %𝑅&𝑅 < 10 entonces el sistema de medición es aceptable

• Si 10 ≤ %𝑅&𝑅 < 30 el sistema de medición puede ser aceptable según su


uso, aplicación, costo del instrumento de medición, costo de reparación

• %𝑅&𝑅 ≥ 30 el sistema de medición es considerado como no aceptable y


requiere de mejoras en cuanto al operador, equipo, método, condiciones, etc.
Ejemplo: Los datos de calibración de la Operador Instrumento (Multímetro)
función Resistencia en ohmios ( Ω ), de 1 (Ω) 2 (Ω) 3 (Ω)
tres multímetros digitales cuya 300.4 300.1 300.5
tolerancia es de 2,9 Ω , se encuentran 300.6 299.9 300.4
en la siguiente tabla. En esta calibración, A 300.8 300.0 300.4
participan tres operadores y cada uno 301.1 300.0 300.5

realiza cinco mediciones por multímetro. 301.0 299.9 300.6

Mediante un análisis R&R, determine si 300.6 300.0 300.4


300.9 300.1 300.6
el sistema de medición es aceptable.
B 300.5 300.0 300.4
300.4 299.9 300.6
300.1 300.0 300.5
300.9 300.1 300.4
300.4 299.9 300.5
C 303.1 300.0 300.6
300.6 300.0 300.5
301.0 300.1 300.4
Tabla 1 Valores de las constantes
Operador Instrumento (Multímetro) Ranpo promedio de
K1 y K2
1 (Ω) 2 (Ω) 3 (Ω) todos los rangos N° de ensayos 2 3 4 5
300.4 300.1 300.5 K1 4.56 3.05 2.5 2.21
300.6 299.9 300.4 N° operadores 2 3 4 5
A 300.8 0.7 300.0 0.2 300.4 0.2 0.37 K2 3.65 2.7 2.3 2.08
301.1 300.0 300.5
301 299.9 300.6
300.6 300.0 300.4 𝑃𝑎𝑟𝑎 𝑛 = 5 𝐾1 = 2.21
300.9 300.1 300.6
B 300.5 0.8 300.0 0.2 300.4 0.2 0.4 0.6 𝑅ധ = 0.60
300.4 299.9 300.6
300.1 300.0 300.5
300.9 300.1 300.4
𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑖𝑎 𝑇 = 2.9
300.4 299.9 300.5
C 303.1 2.7 300.0 0.2 300.6 0.2 1.03
300.6 300.0 300.5
301 300.1 300.4

𝐾1 × 𝑅ധ 2.21 × 0.6
% 𝑑𝑒 𝑅𝑒𝑝𝑒𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = %𝑅𝑒𝑝𝑒𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = × 100 = 45.7%
𝑇 2.9
Operador Instrumento (Multímetro) Tabla 1 Valores de las constantes
1 (Ω) 2 (Ω) 3 (Ω) K1 y K2
300.4 300.1 300.5 N° de ensayos (n) 2 3 4 5
300.6 299.9 300.4 K1 4.56 3.05 2.5 2.21
A 300.41 N° operadores (m) 2 3 4 5
300.8 300.0 300.4
301.1 300.0 300.5 K2 3.65 2.7 2.3 2.08
301 299.9 300.6
2
300.6 300.0 300.4 𝐾1 × 𝑅ധ
ത 2
𝐾2 × 𝑋𝐷 −
300.9 300.1 300.6 𝑛𝑟
B 300.33 % 𝑅𝑒𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =
300.5 300.0 300.4 𝑇
300.4 299.9 300.6
300.1 300.0 300.5 𝑃𝑎𝑟𝑎 𝑛 = 5 𝐾1 = 2.21 𝑅ധ = 0.60
300.9 300.1 300.4
𝑃𝑎𝑟𝑎 𝑚 = 3, 𝐾2 = 2.7 𝑋ത𝐷 = 0.2333
300.4 299.9 300.5
C 303.1 300.0 300.6 300.57
𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑖𝑎 𝑇 = 2.9 𝑛= 5 𝑦 𝑟=3
300.6 300.0 300.5
301 300.1 300.4

2.21 × 0.60 2
2.7 × 0.2333 −2
5×3
% 𝑅𝑒𝑝𝑟𝑜𝑑𝑢𝑐𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = × 100 = 18.2%
2.9
Finalmente el porcentaje de la relación entre la repetibilidad y la
reproducibilidad será:

• %𝑅&𝑅 = 45.7 2 + 18.2 2 = 49.23%

• Como el %R&R = 49.23% > 30% entonces se concluye que el


sistema de medición no es aceptable, y requiere de mejoras tanto en
cuanto al oper.ador como al equipo
Estudio R & R por el método del Análisis de varianza
El método Anova, conocido también como análisis de varianza, es el
método más exacto para calcular la variabilidad de un sistema de
medición porque posee la ventaja de cuantificar la variación debida
a la interacción entre los operadores y las partes. Este método está
basado en la misma técnica estadística utilizada para analizar los
efectos de los diferentes factores en el diseño de experimentos.

Para un sistema de medición, el método Anova debe realizarse para


estudiar simultáneamente los efectos de dos fuentes de variación:
Operadores y Partes.
Arreglo de los datos y las correspondientes sumas para un caso de análisis R&R con:
a=4 operadores, b=3 partes o equipos y n=5 ensayos o repeticiones (BALANCEADO)
Operador:Ai Parte (o equipo) : Bj (b=3) Total Xi..
(a = 4) B1 B2 B3
X111 X121 X131
X112 X122 X132
A1 X113 X11. X123 X12. X133 X13. X1..
X114 X124 X134
X115 X125 X135
X211 X221 X231
X212 X222 X232
A2 X213 X21. X223 X22. X233 X23. X2..
X214 X224 X234
X215 X225 X235
X311 X321 X331
X312 X322 X332
A3 X313 X31. X323 X32. X333 X33. X3..
X314 X324 X334
X315 X325 X335
X411 X421 X431
X412 X422 X432
A4 X413 X41. X423 X42. X433 X43. X4..
X414 X424 X434
X415 X425 X434
Total: X.j. X.1. X.2. X.3. X…
Tabla de Anova para un sistema de medición en la que participan a-operadores,
b-partes o equipos y n-ensayos o repeticiones (constante, caso BALANCEADO)
Fuente de variación Suma de cuadrados Grados de Libertad: g.l. Cuadrado Medio

𝑆𝑆𝐴
Operador (A) SSA a-1 𝑀𝑆𝐴 =
𝑎−1

𝑆𝑆𝐵
Partes o equipo(B) SSB b-1 𝑀𝑆𝐵 =
𝑏−1

𝑆𝑆𝐴𝐵
Interacción (AB) SSAB (a-1)(b-1) 𝑆𝑆𝐴𝐵 =
(𝑎 − 1)(𝑏 − 1)

𝑆𝑆𝐸
Error (E) SSE ab(n-1) 𝑀𝑆𝐸 =
𝑎𝑏(𝑛 − 1)

Total (cpm) SSTm abr-1


Las fórmulas para obtener las sumas de cuadrados son:
1 𝑋… 2
• 𝑆𝑆𝐴 = σ𝑎𝑖=1 𝑋𝑖..2 −
𝑏𝑛 𝑎𝑏𝑛

1 𝑋… 2
• 𝑆𝑆𝐵 = σ𝑏𝑗=1 𝑋.𝑗.
2

𝑎𝑛 𝑎𝑏𝑛

1 𝑎 1 1 𝑋… 2
• 𝑆𝑆𝐴𝐵 = σ𝑖=1 σ𝑏𝑗=1 𝑋𝑖𝑗.
2
− σ𝑎𝑖=1 𝑋𝑖..2 − σ𝑏𝑗=1 𝑋.𝑗.
2
+
𝑛 𝑏𝑛 𝑎𝑛 𝑎𝑏𝑛

1 𝑎
• 𝑆𝑆𝐸 = σ𝑎𝑖=1 σ𝑏𝑗=1 σ𝑛𝑘=1 𝑋𝑖𝑗𝑘
2
− σ𝐼=1 σ𝑏𝑗=1 𝑋𝑖𝑗.
2
𝑛

𝑋… 2
• 𝑆𝑆𝑇𝑚 = σ𝑎𝑖=1 σ𝑏𝑗=1 σ𝑛𝑘=1 𝑋𝑖𝑗𝑘
2

𝑎𝑏𝑛
La repetibilidad del sistema de medida está dado por:

• 𝑟 = 5.15 𝑀𝑆𝐸

donde la constante
5.15 viene de
considerar un
intervalo de
confianza del 99%.
Algunos autores
utilizan el valor 6.
Porcentaje de repetibilidad se calcula por medio de la
siguiente ecuación:
5.15 𝑀𝑆𝐸
• %𝑟 =
𝑇

• Donte T = Tolerancia = (Limite de Espec. Sup. – Límite de Espec. Inf.)

La Reproducibilidad del sistema de medida está dada por:


𝑀𝑆𝐴−𝑀𝑆𝐴𝐵
• 𝑅 = 5.15
𝑏𝑛

Nota: Si en algún caso el término de la raíz es un número negativo, entonces


la reproducibilidad es cero.
El porcentaje de reproducibilidad se calcula por medio de la
ecuación:
𝑅
• %𝑅 = × 100
𝑇

• Donde T = Tolerancia de la característica medida (Diferencia entre los


límites de especificación superior e inferior)
La interacción entre los operadores y las partes se
calcula por medio de la ecuación:

𝑀𝑆𝐴𝐵−𝑀𝑆𝐸
• 𝐼 = 5.15
𝑛

• Nota: Si en algún caso el término de la raíz es un número negativo, la


interacción entre operadores y partes es cero
El porcentaje de la interacción entre los operadores y las
partes se calcula por medio de la ecuación

𝐼
• %𝐼 = × 100
𝑇

• Donde T = Tolerancia de la característica medida (Diferencia entre los


límites de especificación superior e inferior)
La relación entre la Repetibilidad y la Reproducibilidad está dada
por:

• 𝑅&𝑅 = 𝑟 2 + 𝑅2 + 𝐼2

El porcentaje de la relación entre la Repetibilidad y la Reproducibilidad


está dada por:

%𝑟&𝑅 = %𝑟 2 + %𝑅 2 + %𝐼 2
Interpretación

• Si %𝑅&𝑅 < 10 entonces el sistema de medición es aceptable

• Si 10 ≤ %𝑅&𝑅 < 30 el sistema de medición puede ser aceptable


según su uso, aplicación, costo del instrumento de medición, costo de
reparación

• %𝑅&𝑅 ≥ 30 el sistema de medición es considerado como no


aceptable y requiere de mejoras en cuanto al operador, equipo,
método, condiciones, etc.
Ejemplo de Análisis R&R por el método del ANOVA
• En la siguiente Tabla se tienen los datos del diámetro (en centímetros) de
diez roscas fabricadas en un proceso industrial para cierto tipo de tornillo,
estos datos fueron tomados por tres operadores con un mismo
instrumento, repitiendo la medida dos veces. Si la tolerancia para este
diámetro es de 4 cm, calcule el porcentaje de repetibilidad y
reproducibilidad %r & R utilizando el método Anova y diga si este sistema
de medición es o no es aceptable.
Se tienen los siguientes datos del diámetro (cm) de diez roscas fabricadas en un proceso
industrial para cierto tipo de tornillo, estos datos fueron tomados por tres operadores con un
mismo instrumento, repitiendo la medida dos veces. Si la tolerancia para este diámetro es de
0.4 cm, calcule el porcentaje de repetibilidad y reproducibilidad %r & R utilizando el método
Anova y diga si este sistema de medición es o no es aceptable.
a = 3 : Número de Operadores
b = 10 : Número de partes
n = 2 : Número de ensayos o repeticiones
Parte (j)
Operador (i)
1 2 3 4 5 6 7 8 9 10
0.65 1.00 0.85 0.85 0.55 1.00 0.95 0.85 1.00 0.60
A 0.60 1.00 0.80 0.95 0.45 1.00 0.95 0.80 1.00 0.70
0.55 1.05 0.80 0.80 0.40 1.00 0.95 0.75 1.00 0.55
B 0.55 0.95 0.75 0.75 0.40 1.05 0.90 0.70 0.95 0.50
0.50 1.05 0.80 0.80 0.45 1.00 0.95 0.80 1.05 0.85
C
0.55 1.00 0.80 0.80 0.50 1.05 0.95 0.80 1.05 0.80
2
2 2
48.45
2
𝑆𝑆𝑇𝑚 = 0.65 + 0.60 + ⋯ + 0.8 − = 2.2491
60

Cuadro de sumas parciales: Xij. , Xi.. y X.j.


Partes (j) Xi..
Operador (i) 1 2 3 4 5 6 7 8 9 10
A 1.25 2.00 1.65 1.80 1.00 2.00 1.90 1.65 2.00 1.30 16.55
B 1.10 2.00 1.55 1.55 0.80 2.05 1.85 1.45 1.95 1.05 15.35
C 1.05 2.05 1.60 1.60 0.95 2.05 1.90 1.60 2.10 1.65 16.55
X.j. 3.40 6.05 4.80 4.95 2.75 6.10 5.65 4.70 6.05 4.00 48.45

1 48.45 2
𝑆𝑆𝐴 = 16.552 + 15.352 + 16.552 − = 0.048
10x2 60

1 48.45 2
𝑆𝑆𝐵 = 2 2 2
3.40 + 6.05 + … . +4.00 − = 2.0587
3×2 60
2
1 2 2
1 2 2
1 2 2
48.45
𝑆𝑆𝐴𝐵 = 1.25 + … . +1.65 − 16.55 + ⋯ + 16.55 − 3.4 + ⋯ + 4.0 + = 0.1037
2 10 × 2 3×2 60
2 1
𝑆𝑆𝐸 = (0.65 + ⋯ + 0.802 ) − 1.252 + ⋯ + 1.652 = 0.0388
2

Fuente de variación Suma de Grados de Libertad: Cuadrado Medio


cuadrados g.l.
0.0480
Operador (A) SSA = 0.0480 3-1 = 2 𝑀𝑆𝐴 = = 0.0240
2
0.0587
Partes o equipo(B) SSB = 2.0587 10-1 = 9 𝑀𝑆𝐵 = = 0.2287
9
0.1037
Interacción (AB) SSAB =0.1037 (3-1)(10-1) = 18 𝑆𝑆𝐴𝐵 = = 0.00576
18
0.0388
Error (E) SSE = 0.0388 3x10(2-1) = 30 𝑀𝑆𝐸 = = 0.00129
30
Total (cpm) SSTm = 2.2491 3x10x2-1 = 59
• La Repetibilidad está dada por:

𝑟 = 5.15 𝑀𝑆𝐸 = 5.15 0.00129 = 0.1851

• La Reproducibilidad está dada por:

𝑀𝑆𝐴 − 𝑀𝑆𝐴𝐵 0.024 − 0.00576


𝑅 = 5.15 = 5.15 = 0.1555
𝑏𝑛 10 × 2
• La Interacción entre partes y operadores está dada por

𝑀𝑆𝐴𝐵−𝑀𝑆𝐸 0.00576−0.00129
• 𝐼 = 5.15 = 5.15 = 0.2434
𝑛 2

• Porcentaje de repetibilidad:
𝑟 0.1851
%𝑟 = × 100 = × 100 = 46.27%
𝑇 0.4

Porcentaje de Reproducibilidad :

0.1555
%𝑅 = × 100 = 38.9%
0.4
Porcentaje de Interacción entre partes y operadores:

𝐼 0.2434
%𝐼 = × 100 = × 100 = 60.9%
𝑇 0.4

Relación entre repetibilidad y reproducibilidad:

%𝑅&𝑅 = 46.27 2 + 38.9 2 + 60.9 2 = 85.77

Interpretación: Utilizando los criterios de aceptación descritos anteriormente, se


observa que el porcentaje de la relación entre la repetibilidad y la reproducibilidad
es mayor al 30%, (% r & R >30%) esto significa que el sistema de medición no es
aceptable para este proceso y que deben buscarse alternativas dentro del mismo
para mejorarlo
Ejercicio
• Un fabricante de anillos para cierta clase de motor, desea realizar un
estudio de repetibilidad y reproducibilidad para saber si su proceso de
fabricación es o no es aceptable. Para la realización de este estudio dos
operadores midieron tres veces los diámetros de tres anillos y los datos
obtenidos son los que se encuentran en la siguiente Tabla. La tolerancia de
la característica de interés para este estudio es de 0,6 cm.
Datos en centímetros del diámetro de los anillos de cierta clase de motor
Parte - Operador A Operador B
Muestra 1 2 3 1 2 3
1 0.57 0.58 0.58 0.57 0.56 0.58
2 0.58 0.58 0.56 0.57 0.58 0.58
3 0.56 0.58 0.57 0.59 0.57 0.58