Selec Val

Tema 2.
6. ¿Cómo evaluar? Instrumentos de evaluación. 1.

Características psicométricas y criterios de evaluación.
Características psicométricas.
Fiabilidad.
Es el nivel de consistencia en la medida que proporciona el instrumento. Se
manifiesta por cuatro procedimientos:
1. Correlación entre pruebas paralelas.

La fiabilidad se da cuando la puntuación obtenida con el instrumento es
idéntica o al menos correlaciona altamente con la de otra prueba paralela.
Supone elaborar dos instrumentos para medir lo mismo (rendimiento de los
trabajadores. Si correlacionan o son iguales, tenemos garantía de fiabilidad y
controlamos la varianza debida al instrumento usado.
Es poco usado debido al coste de las dos pruebas. También hay que tener en
cuenta el sesgo debido al evaluador que es otra fuente de varianza.
2. Homogeneidad de puntuaciones entre evaluadores.

Cuanto mayor es la correlación de las puntuaciones de dos evaluadores más
confianza se da en la fiabilidad del instrumento. Pero la baja correlación no es
sinónimo de baja fiabilidad. Para Drenth, las bajas correlaciones encontradas
por otros autores, no son síntoma de baja fiabilidad, sino que hay que
comprobar la información de los evaluadores sobre las dimensiones y conductas
a evaluar, y la familiaridad con las personas evaluadas, requisitos que no se
suelen dar. Lo realmente importante no es el instrumento sino el evaluador. No
hay instrumento suficientemente potente como para neutralizar la varianza de
los evaluadores.
Wolf sin embargo afirma que estas diferencias no se deben tanto al
evaluador como a la naturaleza del comportamiento de los evaluados, que varía
en función del evaluador. Por ello la varianza es real. Es difícil así predecir,
tanto el rendimiento en el trabajo como la evaluación con otro evaluador.
3. Estabilidad en el tiempo.
El coeficiente de estabilidad de las puntuaciones (consistencia en distintas
situaciones en el tiempo) es otra medida de fiabilidad. Pero dada la variabilidad
del comportamiento en distintas situaciones, esta medida, siendo baja no sería
indicador de baja fiabilidad. Algunos autores consideran este método como
inadecuado para controlar el error de varianza.
Esto se puede solucionar usando diseños estadísticos de series temporales
para conocer la línea base de la conducta y conocer posteriormente así las
variaciones en el comportamiento en acontecimientos determinados.
Empíricamente esto es inviable por la complejidad de su elaboración y los
costes que implica.
4. Correlación entre ítems o entre ítems y escala.

Correlación entre diversos ítems de la escala y entre estos y la puntuación
total obtenida. Se usa la puntuación alfa de Cronbach: si varias preguntas acerca
de una misma dimensión obtienen respuestas homogéneas, hay alta consistencia
y fiabilidad.
Es como las pruebas paralelas pero considerando cada ítem como una
prueba independiente relacionada con las demás y con la escala completa de
evaluación a que pertenece. (como en la fiabilización de las escalas Likert.)
1
Validez.
Es el grado en que el instrumento mide lo que pretende medir. Es

fundamental reconocer que los ítems de un instrumento son solamente indicadores
de un criterio final más complejo y amplio.
Operativamente nunca es perfecta. Siempre se refiere a aspectos elegidos
como indicadores observables y por tanto parciales. Sus tipos son:
1. Validez de contenido.
Es la relevancia de Drenth. El grado en que el instrumento recoge una
representación adecuada y completa de toda la conducta que debe ser evaluada.
Un instrumento puede tener distintas dimensiones parciales para medir un
rendimiento global, pero estas, juntas, tienen que abarcar todo el contenido
global, de no ser así no habría validez de contenido. La puntuación daría una
idea parcial de lo que se pretende medir. Esto es una baja validez por defecto o
deficiencia. También puede darse lo contrario, que el instrumento contenga
ítems irrelevantes para el verdadero rendimiento que se pretende medir. Sería
una baja validez por exceso, o superfluidad, medimos dimensiones no
relevantes.
Esta validez se basa en el juicio de expertos. Conocedores de todos los
procesos y dimensiones y de su relación con los objetivos de la organización.
2. Validez de constructo.
Muy relacionado con la fiabilidad o consistencia interna de los ítems. Se
trata de confirmar empíricamente que unos determinados reactivos miden una
dimensión teóricamente supuesta, y que esta dimensión es diferente o
independiente de otras, medidas con otros ítems. Hay alta validez si
encontramos que tras factorialización o estudio de correlación entre ítems, los
reactivos poseen alta intercorrelación y consistencia entre sí, y a la vez se
relacionan muy escasamente con otros que suponemos miden dimensiones
independientes. Esta corroboración no excede la falsación popperiana de las
hipótesis y es un complemento empírico de la validez de contenido.
3. Validez de criterio externo.

Establece la adecuación del instrumento para medir el rendimiento en base a la
correlación hallada entre las puntuaciones obtenidas por los trabajadores a
través del mismo y las obtenidas por otros procedimientos distintos (otros
instrumentos (validez convergente), reconocimiento del rendimiento por
compañeros o supervisores, índices de absentismo, accidentes o rotación, etc.)
Supone la existencia de otros instrumentos válidos para evaluar el rendimiento y
que el instrumento discrimina entre los trabajadores de elevado, medio o bajo
rendimiento. Esta validez se apoya finalmente en criterios de validez de
contenido y de constructo anteriormente expuestos.
Poder de discriminación.
Un instrumento puede ser fiable y válido pero a la vez ser relativamente
basto. Incapaz de discriminar diferencias finas. Esto depende de tres factores:
1. Grado de variación que ofrecen las escalas, adecuado a las distintas posibilidades de variación de la
conducta evaluada.
2. Grado de utilización fáctica de cada nivel. A veces los niveles extremos no son nunca utilizados y las
puntuaciones se acumulan en el centro. Esto puede originarse en errores sistemáticos del evaluador
pero se corrige con una formulación adecuada de las conductas a identificar y evaluar.
3. Grupo de referencia que propone el instrumento. Si se usa un grupo no adecuado y comparable con
los sujetos puede que se agrupen todos en el mismo nivel. Se deben usar grupos de referencia
comparables o usar la técnica de la distribución forzada.
2
Criterios de utilización.
A parte de criterios psicométricos hay que insistir en otras características

que pueden considerarse psicométricas pero también importantes. Se relacionan con
la llamada “validez aparente” y son las que hacen más aceptable y utilizable por
evaluadores y evaluados al instrumento.
1. Transparencia. Grado en que aparece clara para el evaluador y sobre todo para el evaluado la
relación entre comportamientos y puntuaciones obtenidas.
2. Aceptabilidad, requiere transparencia pero además requiere otras características de la situación
concreta, como historia, cultura de la organización, método de implantación del sistema, etc.
3. Valor de información del instrumento. Capacidad del sistema usado para conseguir los objetivos,
sobre todo si son de orientación y motivación. Las personas deben saber qué han hecho bien o mal,
por qué lo han hecho mal y cómo pueden mejorar y ser recompensadas por ello.
3
7. ¿cómo evaluar? Instrumentos de evaluación (II).
Técnicas directamente relacionadas con la producción.
Indicadores.
Indicadores objetivos como categorías para evaluar al trabajador:
1. Cantidad de producción. Número de unidades producidas, montadas o ensambladas, o bien número

de pedidos conseguidos, cartas de clientes contestadas, pulsaciones en la máquina de escribir o
expedientes resueltos.
2. Calidad de la producción. En función de estándares y normas fijadas de antemano por la

organización. (piezas defectuosas, sintaxis, errores informativos, etc.) evaluados de diferente manera
por la organización en función de criterios diversos, como exigencia de mercado, tipo de equipos de
producción, nivel general de la fuerza laboral, objetivos, etc.
3. Otros: accidentes causados a sí o a otros, días que falta, antecedentes salariales en función de
incrementos, ritmo de progreso según sus ascensos, etc. Estos son válidos también en trabajos ajenos
a producción.
Cada factor debe compensarse y ponderarse con la información de los otros:

Cantidad y calidad en relación con:
 el entorno físico y tecnológico.(entorno ruidoso, tecnología obsoleta, etc.).
 tipo de trabajo que se realiza.(más o menos complejo)
 antigüedad en el puesto, más antigüedad, más rendimiento.
 El absentismo puede modular los indicadores: un excelente trabajador que
falta mucho o se retrasa en la entrada puede no ser conveniente por su falta
de constancia y responsabilidad.
Todo ello pone de manifiesto el problema de la ponderación de subcriterios en
un criterio compuesto. Pero es posible obtener en este tipo de puestos, unos
indicadores objetivos y directamente cuantificables.
4
Técnicas no relacionadas directamente con la producción.
Bombero, directivo o investigador no ofrecen un producto particular

mensurable. Sólo se puede estimar la competencia mediante la observación de “la
forma en cómo trabaja”. Se aplican las “Técnicas de estimación de Méritos”.
Interviene así un componente subjetivo susceptible de introducir sesgos y
errores sistemáticos. Las técnicas dan formalidad y especificidad en los criterios y
en los procesos a seguir para construir los juicios valorativos. Los errores del
evaluador pueden ser reducidos pero no totalmente eliminados.
Técnicas de comparación (jerarquización.)
También llamadas de “Jerarquización Del Mérito Individual” porque el

sujeto evaluado recibe su puntuación en comparación con los demás de su sección.
Hay un baremo interno al grupo, y no un criterio absoluto. También porque se
organiza en una escala jerárquica, de mejor a peor que puede traducirse después en
puntuaciones ordinales. Hay tres tipos de jerarquización:
1. Jerarquización simple o múltiple. El evaluador (jefe, supervisor, etc.), formula una lista de
subordinados ordenándolos de mejor a peor, en relación a su valor global para la organización.
 Simple. Tiene un criterio simple
 Múltiple: se usa un criterio múltiple, emitiéndose tantas listas de orden como subcriterios analizados.
Se puede pedir además una lista del mérito global, usando para ello un criterio compuesto.
Las ventajas de este método son su simplicidad, facilidad para

comprenderlo y sencillez en la realización si no son más de 15 o 20 sujetos.
Los inconvenientes son:

 Si sin muchos sujetos se hace difícil y engorroso.
 Los intervalos de la jerarquización se tienden a considerar equidistantes
cuando no es así. Hay que considerar su carácter ordinal y no racional.
 No explica por qué un sujeto es mejor que otro respecto a los criterios.
 No se pueden comparar los sujetos clasificados en un grupo con los de otro.
Esto se debe a que se usa un criterio interno al grupo y también a que los
grupos difieren en el número de sujetos. No puede usarse como una escala
de méritos en la organización. Zerelli lo soluciona en parte convirtiendo las
puntuaciones ordinales en una puntuación de posición porcentual que se
convierte después en una puntuación de puntuajes estándar, situando al
sujeto en una escala continua. Este método no resuelve el resto de los
inconvenientes.
2. Jerarquización alternada. Cuando son muchos sujetos se usa un sistema semejante, pero en el que:
a) Se obtiene la lista de todo el personal a evaluar.
b) Se eliminan los sujetos que no hacen un trabajo homogéneo.
c) Se elimina los que no se cree poder evaluar por falta de conocimiento.
d) Se elige al sujeto considerado mejor en la lista restante (LR), y se le coloca
en la lista nueva (LN).
e) Se elige al sujeto peor en la LR y se le coloca último en la LN.
f) Se elige el segundo mejor y se le pasa a la LN.
g) Se elige el segundo peor...
h) Se continúa así con todos.
Las ventajas es que elimina errores por desconocimiento de los evaluados,

pero la discriminación es difícil en los niveles medios. Este método adolece de
todos los problemas del anterior.
3. Comparación por pares.
5
a) el evaluador compara en función de cada subcriterio o del criterio global- cada sujeto con todos
los demás de su sección con un trabajo homogéneo.
b) De cada pareja se elige al mejor.
c) Se suma el número de veces que el sujeto es elegido como mejor. Se realizan estas estimaciones
con varios evaluadores para aumentar la fiabilidad.
d) Se elabora una lista de orden de mejor a peor en función de las elecciones realizadas.
e) Pueden ponderarse eventualmente las puntuaciones obtenidas en cada subcriterio, para asignar
una puntuación de criterio compuesto.
Pueden usarse fichas o una matriz de doble entrada, u otro sistema similar.
Se suman las elecciones favorables obtenidas en la matriz trabajadores x
trabajadores, y se calcula el porcentaje de preferencia de cada trabajador sobre
los demás. Los porcentajes se convierten en puntuaciones estandarizadas Z.
Para eliminar puntuaciones negativas se les suma a todos la puntuación más
baja y así se obtiene una escala continua positiva donde aparecen los individuos
y las distancias entre ellos. Las distancias son indicadoras de las diferencias
relativas entre méritos.
En caso de haber varios evaluadores se procede igual, pero en la matriz se
colocan tantas marcas como evaluadores han elegido a cada sujeto. La matriz de
marcas se convierte en otra de proporciones, donde cada proporción es el
número de elecciones recibidas dividido por el número de elecciones posibles.
(n/N) en los cruces de un sujeto consigo mismo (la diagonal) se coloca la
proporción 0.5. las puntuaciones se convierten en Z con la tabla y se suman los
valores de cada columna. Obtenemos la media de esos valores dividiendo por N
–1 siendo N el total de sujetos evaluados. Se les suma la constante necesaria
para hacerlos positivos y se pasa a representar ya a los sujetos y sus distancias
relativas. (mejor lo vemos en las páginas 133 a 136).
Zerilli propone otro formato.(pagina 137).
El método puede ser útil en algunas circunstancias pero se hace engorroso

con muchos sujetos. En este caso se pueden descomponer el grupo en grupos
pequeños de igual número aleatoriamente y realizar evaluaciones por pequeños
grupos.
Otra posibilidad es elegir una muestra representativa de parejas del total de
parejas del grupo, se verifica la evaluación sólo con esas parejas. Con un buen
muestreo se pueden obtener clasificaciones correlacionadas en un 0.9 con las
obtenidas con el proceso completo de comparación.
Aún así, el resto de las limitaciones del método de ordenamiento o

jerarquización siguen presentes.
6
Técnicas mixtas jerárquico – escalares.
Escalas de distribución forzada.
Un error sistemático habitual es la tendencia a las puntuaciones extremas o

centrales. Para paliarlo se usan estas escalas de distribución forzada. Son técnicas de
comparación iguales a las anteriores pero con la instrucción incorporada de
distribuir a los sujetos en los niveles señalados por la escala.
El supuesto subyacente es que la variable se distribuye normalmente,
habiendo un 5% de excelentes y otros tantos deficientes, un 25% de buenos o
superiores al término medio y otros tantos de mediocres o inferiores al término
medio y un 40% de término medio.
La fiabilidad y validez de estas escalas puede variar en función de los
factores señalados. La operativización puede ser mejor o peor, y en la práctica
describen pobremente el significado de los rasgos y sus niveles porque la
distribución normal no suele ser la adecuada. En caso de cumplirse sería muy útil.
Además lo que se hace es comparar a los trabajadores con sus compañeros
de grupo, con lo que aparecen los inconvenientes generales de las técnicas de
comparación.
Jerarquización por grupos libres.
Sigue el mismo procedimiento que la anterior pero se distingue en que no obliga al

evaluador a distribuir a su personal según porcentajes de rendimiento. Se hacen
cinco categorías y se clasifica en ellas a los sujetos. (Ver ejemplos en páginas 140 y 141)
7
8 ¿Cómo evaluar? Instrumentos de evaluación III.
Técnicas escalares.
Son instrumentos construidos en forma de escalas. Su dificultad y rigor es dispar
pero tienen en común el uso de estándares de rendimiento comunes y fijados para
cada puesto de trabajo de forma que la clasificación de los trabajadores no es por
comparación entre ellos. Las puntuaciones pueden ser iguales para dos trabajadores
Hay dos grupos de escalas, las de estimación basadas en rasgos y las
basadas en la conducta. En la tabla página 144 se identifican ambas.
Listas de verificación y escalas de diferencial semántico.
Son listas de adjetivos o atributos entre los cuales debe verificarse cuales se
aplican más adecuadamente a los trabajadores evaluados.
En un check list o en un diferencial semántico, el evaluador marca con un signo los
adjetivos que se aplican al trabajador. Eventualmente, se puede atribuir un punto
positivo a cada signo marcado en adjetivos favorables y un negativo en los
desfavorables. La puntuación global es la suma algebraica de los reactivos
señalados.
Uhrbrock analiza 2000 adjetivos sobre conductas de trabajadores, cada uno
recibe el valor promedio en que se considera adecuado para definir buenos o malos
trabajadores. Si las puntuaciones de un adjetivo tienen una dispersión muy amplia se
le elimina y se mantienen los que presenten homogeneidad de criterios.
Los inconvenientes son los de las escalas de rasgos.
Una variante son las Escalas de Diferencial Semántico. Suelen trabajar con
adjetivos bipolares pero a veces incluyen descripciones conductuales. En su
estructura coinciden a veces con las escalas de medición de actitudes de las
Técnicas de Investigación Social. La de Osgood es así. La escala BOS de conductas
observadas coincide con la de Likert y las BES, de conductas esperadas asemeja a la
de Thursthone.
En la figura de la página 147 aparece un Diferencial semántico de la
universidad de Barcelona que evalúa los contenidos de los seminarios y a los
profesores. Las hipótesis que fundamentan esta técnica son:
1- El resultado del proceso de cualificación puede concebirse como el lugar que ocupa un concepto
en el continuo de la experiencia del sujeto definido por dos adjetivos bipolares.
El evaluador sitúa al sujeto en un continuo definido por adjetivos bipolares según
su experiencia, observación y seguimiento del evaluado.
2- Muchos de estos continuos son en parte equivalentes y pueden representarse por dimensiones
únicas. Se pueden agrupar en factores o dimensiones.
En el ejemplo del libro, el análisis factorial de componentes tiene una estructura
compacta en las que las escalas tienen alta comunalidad. La rotación factorial
Varimax releva una estructura trifactorial en: Contenidos, características
Personales, y características Profesionales y Didácticas.
3- Un número limitado de escalas bipolares puede definir el espacio semántico de un concepto.

Unos pocos adjetivos pueden definir aceptablemente las características de un trabajador evaluado
relacionadas con su rendimiento.
Quedan por definir aspectos como ítems a incluir en el análisis, tipos de

comunalidades a seleccionar, métodos de rotación etc.
En las escalas de Diferencial Semántico, se pueden obtener distintos tipos de

valores según se trabaje con las escalas. Una vez establecidos por los expertos los
8
adjetivos a usar, se puede verificar si saturan factorialmente cualquiera de los
factores EPA de Osgood: Evaluación, Potencial y Actividad. (existen tablas de
adjetivos al respecto, con sus ponderaciones y pesos en cada factor EPA)
La polarización es una puntuación factorial que describe la reacción efectiva

que tiene el evaluador ante el evaluado respecto a las tres dimensiones. Es la raíz de
la suma de los cuadrados de las puntuaciones EPA.
P = E2+P2+A2
La distancia semántica o puntuación D, es la distancia del significado
connotativo o de la valoración obtenida entre dos evaluados o grupos de evaluados
(por el mismo evaluador) o entre dos evaluadores o grupos de evaluadores (sobre el
mismo sujeto). Su valor es la raíz de la suma del cuadrado de las diferencias entre
cada par de evaluaciones EPA
D = (E1-E2) 2+(P1-P2) 2+(A1-A2) 2

Las comparaciones que pueden establecerse con el DS son las siguientes:
1- Entre evaluadores (o grupos) diferentes sobre un mismo evaluado.
2- Entre evaluados (o grupos) diferentes con los mismos evaluadores.
3- Entre tiempos diferentes con el mismo evaluado y evaluador. (o grupos)
Escalas gráficas y /o numéricas.(GRS Graphic Rating Scales.)
Muy usadas, presentan a los evaluadores unos rasgos referidos al trabajador

acompañados por algunos resultados poco o mal operacionalizados del tipo
“cantidad de trabajo” o “calidad del trabajo”. Estos “rasgos” se consideran
importantes y relacionados con el puesto. Los evaluadores puntúan cada trabajador
en cada uno de los ítems que componen la escala, del 1 al 5 o al 7, o más, aunque
esto no asegure mayor precisión. Un número menor (3) podría ser insuficiente en
algunos casos, si son muchos y sin operativizar cada nivel, es inútil, bien porque no
se usan los extremos o bien porque nos equivocamos al suponer que las pequeñas
diferencias entre trabajadores se deben a una varianza real del rendimiento y no al
verdadero efecto de error sistemático del evaluador.
La calificación global resulta de las puntuaciones dadas por el evaluador a

cada rasgo o ítem. Eventualmente pueden ponderarse con métodos ya descritos. Si
se desea obtener una evaluación con criterios múltiples suelen agruparse diferentes
rasgos por procedimientos de AF, identificando así factores o dimensiones
fundamentales.
En ocasiones, las escalas gráficas o numéricas se presentan en forma de

rasgos o niveles referidos a cada rasgo o dimensión del puesto con descripciones
cualitativas de su significado (figura 10 a y b)
El rigor psicométrico varía según la habilidad con que se eligen los rasgos
verdaderamente relevantes para el puesto de trabajo. También son importantes las
definiciones operativas de dichos rasgos, tanto por lo que se refiere a su significado
como a los niveles de presencia de los mismos contemplados en la escala.
En la búsqueda de indicadores más precisos, se suele pasar de las escalas de

rasgos a las de las conductas.
Escalas de elección forzada.
Surgen como respuesta a los errores sistemáticos de medida por el juicio del
evaluador. El efecto halo, la tendencia a extremos o la distorsión por el
9
conocimiento de los resultados en las variables predictoras, o la intención perversa
voluntaria del evaluador son controlados mediante escalas de elección forzada.
Se trata de que el evaluador no conozca el valor positivo o negativo de sus

juicios. El ideal será que describa rasgos o comportamientos sin saber si esas
descripciones son positivas o negativas.
Estructura.
La escala consta de distintas frases, agrupadas en reactivos, cada uno de los
cuales se orienta a evaluar el rendimiento del trabajador en distintos factores o
dimensiones.
Los reactivos constan de 2 a 5 frases combinadas con carácter positivo o

negativo, que dan lugar a distintos tipos de formato. Highland y Berkshire usan y
valoran estos tipos de reactivos:
Tipo frases tipo se pide al evaluador:
1- Dos ++ ó-- la más descriptiva.
2- Tres +++ ó--- la más y la menos descriptiva
3- Cuatro ++++ los dos más descriptivos
4- Cuatro ++++ el más y el menos descriptivo
5- Cuatro ++,-- el más y el menos descriptivo
6- Cinco --,++, Ø el más y el menos descriptivo.
En estos tipos se comprueba su confiabilidad par impar, su susceptibilidad a

las distorsiones de los evaluadores cuando reciben instrucciones de calificar alto, la
validez de criterio externo y su aceptabilidad general.
Todas las frases deben tener un índice de preferencia bajo, pero el índice de
discriminación debe ser alto para unas y bajo para otras. Las frases positivas debe
parecer igualmente positivas y las negativas igualmente negativas, (índice de
preferencia bajo) pero entre las positivas y de entre las negativas de un mismo
reactivo, debe haber una que discrimine realmente los buenos de los malos (índice
de discriminación alto) y otra que pueda aplicarse a todo el mundo (baja
discriminabilidad)
10
Construcción.
Hay ocho fases en la construcción y aplicación de estas escalas:

1- Identificación de empleados con altos, medios y bajos rendimientos, y explicación de ejemplos
descriptivos de sus conductas y maneras de ser. Se proponen por los futuros evaluadores y se
recogen mediante entrevistas.
2- Traducción de los ejemplos propuestos en frases y enunciados descriptivos de conductas o rasgos
que describan positiva y negativamente a los sujetos.
3- Asignación de las frases a los tres grupos: (favorables, neutras y desfavorables)
4- Cálculo para cada frase de sus índices de preferencia y de discriminación.:
 Preferencia: medida relativa a otros enunciados, que indica el grado en
que la frase es percibida como mejor o peor que otra para describir
positiva o negativamente a un trabajador.
 Discriminación: es el grado en que una frase expresa características
realmente buenas, neutras o malas, diferenciando a los sujetos por su
rendimiento.
5- Selección de parejas, tríos, etc., de frases con un índice de preferencia entre sí bajo y de
discriminación alto entre unas y bajo entre otras.
6- Formación de reactivos mediante parejas, tríos, etc., que reúnan las condiciones de la fase 5.
7- Eventual ponderación de cada frase en orden al cómputo final. Se da mayor valor a las frases con
mayor índice de discriminación.
8- Evaluación global del trabajador, mediante suma algebraica de los valores positivos y negativos
correspondientes a las frases de alto índice de discriminación.
Cálculo del índice de preferencia.

Se requiere un índice de preferencia bajo para evitar las distorsiones del
evaluador. Se obtiene del cálculo de cuatro subíndices:
a) Subíndice de frecuencia de uso. Punto hasta el cual las personas en general tienden a usar una
expresión para describir favorable o desfavorablemente a otros. Es la frecuencia de uso de esa
expresión. El reactivo tiene que tener enunciados con un mismo índice de frecuencia. Para ello se
presenta a los evaluadores un listado y se les pide que elijan 5 o 10 favorables o desfavorables. Se
marcan por orden de preferencia, se tabulan las respuestas y cada uno recibe un índice de frecuencia
igual al porcentaje en que ha sido elegido, eventualmente se puede obtener un subíndice referido a la
elección en primer, segundo, etc. lugar, y un subíndice total de uso.
b) Subíndice de expresividad. Es lo potencialmente bueno que resulta un enunciado para expresar

favorabilidad, neutralidad o desfavorabilidad a juicio de los evaluadores.
Se pide a los evaluadores que en cada grupo de la fase 3 puntúen los enunciados
en función de su bondad o capacidad para expresar realmente favorabilidad,
desfavorabilidad o neutralidad. Una vez clasificados los rasgos expresados en
las frases, se puntúan las respuestas y se clasifica cada uno con la media de los
puntos obtenidos por los evaluadores. a menor dispersión de las puntuaciones
mayor estabilidad. Los enunciados con una desviación típica elevada se
eliminan (según las exigencias y el número de enunciados disponibles)
c) Subíndice de importancia. Grado en que un rasgo descriptivo de una persona resulta importante o
conectado con la obtención de resultados o con el éxito de un trabajo o situación determinada. El
evaluador que quiera distorsionar los resultados tenderá a elegir el rasgo que considere más
específicamente ligado al trabajo en particular antes que una característica general. Los datos se
tabulan como en la anterior.
d) Subíndice de Conveniencia Social. Grado hasta el cual un rasgo es considerado socialmente como
conveniente o inconveniente en una situación social dada.
Los rasgos favorables suelen ser convenientes y aceptables en diferentes
situaciones sociales, pero algunos en principio favorables pueden ser causa de
rechazo por la organización en determinadas situaciones sociales.
Se calcula referido a un puesto y una organización particulares.
11
Índice de discriminación.
Construidas las frases con sus índices de preferencia conocidos, se listan y

se pide a los evaluadores que describan con esas frases a una muestra de
trabajadores ya identificados como de alto, medio y bajo rendimiento. Con ello
calculamos hasta qué punto las diferentes frases pueden usarse par identificar y
describir la conducta de muchos, bastantes o pocos trabajadores, estableciendo su
índice de discriminación.
Otro método es construir una escala Likert con todas las frases ya
analizadas desde la perspectiva del índice de preferencia y descriptoras de rasgos o
comportamientos de los trabajadores. Se pide a los evaluadores que evalúen con
ellas a los trabajadores, señalando hasta qué punto se identifican con ellas, del 1 al 6
para después analizar los datos y ver qué frases reciben puntuaciones a lo largo de
toda la escala y cuales agrupan sus valores en una puntuación determinada. Este
procedimiento es complementario del anterior.
Los mejores formatos de elección forzada. Validez de estas escalas.

El estudio de Highland y Berkshire (1951) da índices de validez y fiabilidad
en función del formato usado.
Todos los formatos tienen alta fiabilidad, pero los 5 y 6 son los mejores.
En validez, el formato 4 es el mejor, seguido por el 3. El uso exclusivo de

enunciados favorables afecta a la validez de las escalas.
La capacidad de resistencia a la distorsión es , de mayor a menor: 3, 2, 1,

4, 5 y 6.
La validez del método, comparada con otros, según Zavala, permiten
concluir que:
1. Validez convergente del método, comparado con otros procedimientos.
Pero finalmente no sabemos si todos los métodos son válidos o si sólo
hemos obtenido una buena muestra de su contabilidad.
2. Cuanto más largas son las escalas de evaluación mayor probabilidad
de aumentar su validez y fiabilidad.
3. El cálculo correcto de los índices de preferencia de los enunciados de
los reactivos es clave para la validez.
12
Escalas de conductas observadas (BOS).
Estructura.
Se asemejan a las escalas Likert, compuestas por ítems que describen
positiva o negativamente formas de actuar de los trabajadores. Se responde
mostrando acuerdo mayor o menor con la identificación de tales conductas con las
del evaluado.
La elaboración es variada, siendo la más conocida el método de los

incidentes críticos. También está el de Conductas Rutinarias.
Flanagan propone en 1949 el método de Incidentes Críticos. Se centra en

identificar y describir los comportamientos específicos que deciden la consecución
eficaz de los objetivos del puesto y componen las tareas esenciales del mismo.
Son conductas de los trabajadores clave en el desempeño eficiente, no son
rutinarias, sino las esenciales y específicas que diferencian el éxito del fracaso.
Observadores cualificados, con una definición clara de los objetivos a
conseguir mediante las tareas pueden establecer las consecuencias significativas que
unos comportamientos tienen respecto a la consecución o no de los resultados.
Las escalas BOS construidas a partir de incidentes críticos basan su valor

en la precisión y claridad con que se definen los objetivos del puesto y en la
capacidad de los observadores para descubrir la conexión entre los objetivos y los
incidentes que han observado.
Construcción.
Las fases son:
1. Definición de objetivos del puesto.
Los objetivos son la base para definir una conducta como clave: cantidad de
piezas, calidad, ahorro de materia prima, satisfacción del cliente, moral de grupo,
etc. Esto lo definen los supervisores o jefes de departamento, con la eventual
supervisión de los jefes o directores de personal u otros directivos, para comprobar
que se integran en los objetivos generales de la organización.
Las definiciones deben ser breves y en términos lo más simples posible.
2. Identificación y especificaciones uniformes de conductas clave (o rutinarias de éxito.)
El técnico que elabora la escala de incidentes críticos debe recoger información

de lo más precisa, objetiva y abundante sobre dos puntos:
 Comportamientos clave: en términos positivos o negativos.
 Conexión con los objetivos. cómo los comportamientos contribuyen o
impiden estos objetivos.
Son mejores los incidentes recientes, sobre todo si los observadores son
alertados y entrenados previamente. Nos fijamos en los comportamientos que han
influido apreciablemente en la consecución de objetivos del puesto. Si no es posible,
se usarán casos recordados y observados anteriormente.
No se trata de describir modelos ideales de comportamiento sino observaciones
de la experiencia.
Las técnicas: entrevista personal, discusión en grupo, cuestionarios u otros.

(ver ejemplos en varios idiomas peninsulares, en páginas 167,68 y 169.)
3. Análisis de los datos.
13
El simple análisis superficial de los incidentes críticos suele revelar categorías
más amplias en las que agrupar los diversos incidentes. En el ejemplo de Kirchner y
Dunnette se hacen quince agrupaciones. En la fase anterior se recogieron 135
incidentes propuestos por 85 gerentes de ventas referidos a más de 1000 vendedores,
se toman como útiles 96 y de ellos 61 son de desempeño eficiente y 35 de fracaso.
(Están en la página 170). Recogen conductas positivas desarrolladas o conductas
perniciosas evitadas. El descuido en uno sólo de los factores podría llevar al fracaso.
No todos los factores parecen tener la misma importancia, algunos incidentes de
determinadas categorías aparecen con más frecuencia que otros.
Un análisis estadístico de estos datos permite analizar y corroborar factores y
dimensiones, el AF confirmatorio puede ser muy útil en este caso.
4. Elaboración del cuestionario de evaluación.
Este recoge las conductas clave obtenidas a través del método de Incidentes
críticos o bien las conductas habituales, identificadas como positivas o negativas y
recogidas mediante cuestionarios, entrevistas u otros procedimientos.
Los ítems de un mismo factor no deben colocarse seguidos, sino mezclados con
otros de otros factores, igual con el sentido positivo o negativo de los mismos.
El formato de respuesta puede ser tipo Likert, con información ordinal, o con
procedimientos psicofísicos de respuesta (Stevens) como la estimación de
magnitudes o producción de líneas, implementados en sistemas informáticos y que
aportan gran información en escalas continuas. (Fig 15, página 172 y 173.)
Una vez construido el cuestionario se pide a los evaluadores que lo usen para
evaluar a los trabajadores (claro), bajo su responsabilidad. Con los datos se
contrasta la validez del constructo con técnicas como la alfa de Cronbach, AF,
comparación de medias para cada ítem entre grupos de alto y bajo rendimiento, etc.
acabado el análisis de ítems, se eliminan los escasamente consistentes con las
subescalas a las que pertenecen. Con el resto se construye la escala definitiva.
La puntuación final del sujeto en cada dimensión y su rendimiento global puede
obtenerse:
 de la suma algebraica de cada ítem
 de esos valores ponderados, por ejemplo multiplicados por el grado de
saturación que posean en el factor al que corresponden.
Conviene reconvertir los valores negativos para homogeneizar el sentido de las
puntuaciones directas del cuestionario.
Ventajas.
Tiene las ventajas de las escalas basadas en conductas (tema 4).

Tziner y Latham, en un experimento de campo en el Israel Airport Authority, llegan
a las siguientes conclusiones:
1. el uso de escalas BOS incrementa la satisfacción de los trabajadores con la evaluación más que si se
usan Escalas gráficas de medida.
2. El feedback seguido del establecimiento de metas produce satisfacción con el trabajo y compromiso
con la organización mayor que el feedback solo.
3. La combinación de evaluación BOS, feedback y establecimiento de metas produce la satisfacción
más alta que las demás condiciones.
Cualquier escala que requiera intervención y participación de evaluadores y

evaluados en la construcción y utilización tiene las ventajas de la participación (cap.
1) y de los efectos que esta produce en los agentes pasivos y activos de la
evaluación.
14
Escalas de conductas esperadas BES.
Estructura.
Se asemejan a las escalas de Thursthone de intervalos aparentemente
equivalentes. Una escala BES se compone de tantas escalas de Thursthone como
dimensiones de un trabajo se identifiquen y pretendan medirse.
Se llaman conductas esperadas porque los ítems suelen formularse como
conductas que cabe esperar de un trabajador en determinadas circunstancias. Más
que como conductas reales que esté realizando específicamente. Los ítems son
ejemplos conductuales que no agotan todas las posibles conductas que pueden
desarrollarse en el trabajo, correspondientes a diferentes niveles de rendimiento. Un
trabajador puede realizar estas conductas o bien otras semejantes no recogidas, por
eso, cabe esperar de él en las circunstancias descritas por el ítem la conducta
expresada en él.
También se han llamado conductas ancladas o ancoradas (BARS) porque
los ítems se hallan anclados a un determinado nivel, en una escala de mayor a menor
rendimiento.
Construcción.
1. Identificación de las dimensiones relevantes de un trabajo y definición clara de las mismas.

Los tres primeros pasos los realizan grupos diferentes de personas. En este caso,
el primer grupo propone cuales son a su juicio las dimensiones más importantes
a analizar.
Por ejemplo, médicos, jefes de servicio, enfermeras y pacientes proponen

dimensiones como:
 atención a los pacientes
 conocimientos técnicos
 conocimiento de los procesos administrativos.
2. Definición de los niveles de rendimiento, correspondientes a las dimensiones identificadas y

traducción operativa de los mismos a ejemplos conductuales concretos.
El mismo grupo define qué entiende por cada una de las dimensiones para
que el futuro evaluador lo conozca. El mismo grupo, después define
cualitativamente tres niveles de rendimiento (alto, medio y bajo) en cada
dimensión, para clarificar con la mayor precisión el significado de la dimensión
y además qué significa ser alto, medio o bajo en ella. El mismo grupo de nuevo
busca ejemplos concretos de conductas observables en el trabajo que
operativicen los niveles antes definidos.(ver páginas 178 a 180)
3. Reclasificación de los ejemplos de conductas individuales en las dimensiones y niveles.
Otro grupo diferente, semejante, reclasifica los ejemplos concretos de

conductas observables en cada una de las dimensiones definidas anteriormente.
La reclasificación debe ser ciega, es decir, ningún individuo del segundo

grupo sabe de antemano en qué dimensión pensaba el primer grupo cuando
propuso tal ejemplo.
15
4. Análisis estadístico de los datos.
Se retienen los ejemplos conductuales asignados a las mismas dimensiones

a las que fueron asignadas por el primer grupo, se retienen los que obtienen una
homogeneidad de juicio alta, por haber sido recolocados en las mismas
dimensiones al menos por el 66% de individuos del segundo grupo. Porcentaje
variable según exigencias y circunstancias.
Después un tercer grupo semejante a los anteriores efectúa una segunda
clasificación colocando cada ejemplo de cada dimensión en cada diferente nivel
de rendimiento, pero esto no se realiza en tres niveles sino en más (nueve) el
criterio para retener un ítem es la homogeneidad en el juicio sobre la asignación
en un determinado nivel. La homogeneidad suele medirse por la dispersión de la
distribución de puntuaciones otorgadas.
Elegidos los ítems se observa qué puntuaciones han recibido y en base a
esto se escogen nueve diferentes para cada dimensión, que cubran toda la gama
de niveles. (ver figura 16 pag 178.) si se elige entre varios de puntuación
semejante se toma el de menor varianza. Los ítems se formulan en forma de
“conductas esperadas” más que de conductas reales.
5. Contrastación empírica.
Se administra la escala a un grupo piloto y se hace un tratamiento de los

resultados confirmatorio de las hipótesis que guiaron su construcción.
En la administración, se marca con un + la conducta o conductas que cabe
esperar del trabajador, si las conductas de la misma dimensión marcadas por el
evaluador para un trabajador tienen alta dispersión el ítem tendrá baja validez.
(semejante al estudio de adecuación de los ítems en la escala de Thursthone.
Si los evaluadores han marcado con + varias conductas concretas se asigna
a este último la media de las puntuaciones vinculadas a cada una de ellas.
Variantes del proceso de construcción.
Flogi y otros substituyen las dos primeras fases por un procedimiento

idéntico al de incidentes críticos:
Para estudiar el rendimiento de cajeros de supermercados se selecciona un

grupo de gerentes, subgerentes y jefes de departamento de la cadena. En total 120.
Se realizan entrevistas estructuradas para recoger los ejemplos conductuales con el
protocolo de incidentes críticos de Flanagan. Con 43 entrevistas valió por que la
información se hacía redundante.
Obtenidos los incidentes conductuales son los investigadores, para aligerar
el trabajo de los otros, los que identifican y definen ocho dimensiones funcionales
del trabajo.
Las fases tercera y cuarta se realizan como se ha descrito arriba. El personal
gerencial clasifica cada incidente en una u otra dimensión definida. Cada incidente
es clasificado por 15 evaluadores y sólo se retienen los que obtienen un acuerdo de
la mayoría.
Igualmente para clasificar por niveles de rendimiento, se envía a los 120
sujetos elegidos de la muestra un cuestionario que recoge los ítems elegidos tras las
fases anteriores. Los 97 jueces que contestaron calificaron el grado en que la
conducta indicaba buen o mal rendimiento en una escala de 7 puntos. Se eliminan
los ítems de desviación alta. Se eligen los ítems con desviación menor entre los de
valores semejantes y se obtiene una media de confiabilidad de la escala.
Ventajas.
a) proporcionan incidentes conductuales cuidadosamente diseñados para cada escala.
16
b) La terminología es propia de los trabajadores y gerentes, dando mayor comprensión y validez
aparente.
c) Elevado consenso sobre la distribución de los incidentes y la diferenciación entre escalas. Elevada
fiabilidad de las mismas.
d) Permite conocer las causas del éxito y fracaso. Esto facilita los estudios de validación de predictores
y las entrevistas para orientación y motivaciones.
e) Los ítems no usados debidos a que se disponía de otros semejantes pueden usarse para elaborar
objetivos de programas de formación, con ellos puede el trabajador ser informado de lo que la
compañía espera de ellos.
f) Puede pedirse a los trabajadores que califiquen los ítems de 1 a 7, comparadas sus respuestas con las
de los superiores pueden analizarse discrepancias para saber que esperan de ellos sus jefes
g) Las mismas discrepancias planteadas por el personal ofrecen oportunidad a la organización de
enunciar, desarrollar y formular y comunicar sus políticas y normas relativas a los objetivos y al
rendimiento.
Estas ventajas están evidenciadas por la experimentación. Silverman y Wexler

examinan si la implicación de los empleados en el desarrollo de escalas de medida,
usadas después en la entrevista de feedback afectaban a la percepción de las
valoraciones de la entrevista por parte de los evaluados. Desarrollan escalas BARS
para todos los profesionales de un hospital. Unos sujetos participan en el desarrollo
de las BARS y otro número semejante no lo hace.
Los resultados muestran que la participación en la construcción de las BARS

conduce a percepciones favorables de los evaluados que consideran el proceso como
bueno y positivo.
17
9.¿Cómo evaluar? Instrumentos de evaluación (IV)
El free- form essay.
Es una forma de evaluación complementaria a otros procedimientos más

estructurados. El Ensayo de Forma Libre es un espacio en blanco donde los
evaluadores formulan por escrito los comentarios y juicios que les parecen más
oportunos para describir a los trabajadores. Se reflejan aspectos que no han quedado
claros o no contemplados por los cuestionarios, escalas, etc.
La comparación de las diversas evaluaciones es grande y sólo se puede usar
el Análisis de Contenido de los textos, para categorizar y comparar los juicios. La
aportación es cualitativa, como matiz y enriquecimiento de las puntuaciones
cuantitativas.
La entrevista libre.
Semejante a la anterior, adolece de baja fiabilidad y validez y dificultad

para hacer comparaciones.
En ocasiones pasa de ser un instrumento de recogida de información a una
forma de comunicar al trabajador el juicio que le merece al evaluador. Si el
evaluador conoce al evaluado y sus circunstancias no sería necesaria esta entrevista,
por ello es más una entrevista de comunicación de la evaluación que de evaluación.
Entrevista basada en objetivos.
Es una entrevista más estructurada, que forma parte de un sistema más

complejo desarrollado por Druker. Surge a partir de las teorías de la motivación de
Maslow y se centra en la consecución de resultados. Se suele conocer por
“Dirección por Objetivos”(MBO) y tiene aceptación en España aún sin los éxitos de
que es capaz, debido a su aplicación parcial y limitada, sin una visión sistémica que
contemple la organización entera con su cultura, historia, estructura, tecnología, etc.
Es útil para evaluaciones con fin de motivación y desarrollo, aunque por su
orientación a resultados también es buena para evaluaciones administrativas. Nos
basaremos en Reiff y Bassford para mostrar el sistema y la técnica:
El sistema de dirección por objetivos. Fundamentos y filosofía.
Es una forma de dirigir, orientada a realizar las cinco funciones básicas de

la dirección: establecer objetivos, planificar, organizar, motivar al personal y
controlar. No es una parte del trabajo de directivo ni una técnica agregada
instrumento de otro proceso, sino la esencia de un sistema de dirección orientado a
resultados y basado en una concepción del comportamiento y la motivación del ser
humano.
La orientación a resultados.
La consideración más importante en una situación directiva es la
consecución de resultados. Frases que expresan esta visión son:
Cuanto más clara sea la idea que se tenga de lo que se trata de lograr más
posibilidades tendrá de éxito.
Si sabe dónde quiere ir aumenta sus posibilidades de llegar. Si no sabe
dónde va, ningún camino le llevará allí.
No se trata de lo que usted haga sino de lo que consigue.
No diga a alguien qué debe hacer, dígale cuales son sus responsabilidades.
18
Pese a la tercera frase, se reconoce que unos resultados deficitarios pueden
deberse también a factores fuera de control del individuo responsable. En este caso
no se puede responsabilizar al individuo, aunque en caso de los directivos, una de las
responsabilidades es resolver los problemas que obstaculizan el logro de los
objetivos. En todo caso se debe tener en cuenta si el problema y su solución están
fuera del alcance de su responsabilidad. Por ello los objetivos no solo pueden ser
resultados, sino también desempeños.
La concepción del comportamiento y motivación del ser humano.
La Dirección por Objetivos se basa en determinados supuestos sobre el ser

humano, su motivación y comportamiento. Se sustenta en:
 Teorías X e Y de Mc gregor
 Las motivacionales de Maslow, Herzberg, y Alderfer, basadas en la jerarquía de necesidades
 Hackman y Oldham, con sus características del puesto y sus estados psicológicos críticos
 Teorías del Proceso
 Especialmente la de la Finalidad, de Locke,
Todas estas teorías aportan explicación y orientación a la Dirección por Objetivos.

Esta presupone que el trabajo es algo natural para la mayoría, y que estando
debidamente motivados, estos son responsables, creativos y se comportan de modo
orientado a la consecución de objetivos. Si se trata a alguien como perezoso,
reacciona de este modo, pero si se le estimula a ser responsable y se le ofrecen
oportunidades para crecer y desarrollarse se convierte en un empleado muy
productivo. Ambas creencias son profecías autocumplidas.
Técnicas y el proceso de la dirección por objetivos.
Hay cuatro componentes que deben integrarse en un proceso que se

alimenta y vigoriza sobre los supuestos anteriores. Los miembros de la organización
establecen sus objetivos de forma participativa: cada uno ayudado de su jefe fijará
su área de responsabilidades, objetivos y establecerá resultados directamente
observables que permitirán identificar la consecución de tales objetivos. También
establecerá planes de acción que dirigirán su esfuerzo con este fin.
Las fases son:
1- Definición de objetivos.
 Primero se identifican las áreas de responsabilidad del empleado. Las
actividades cruciales para el éxito del departamento y la organización de las
que se va a hacer responsable. Son distintas para cada área funcional y
unidad de la organización.
 Después se determinan medidas de resultados, indicadores directamente
observables de las actividades de las que son responsables los individuos y
los departamentos.
 Se establecen los estándares que sirven para medir y comparar los resultados
conseguidos.
Los objetivos establecidos deben respetar varios principios:
- Estar relacionados con las necesidades del negocio y apoyar los fines de
la organización.
- Claros, concisos y realistas.
- Mensurables y cuantificados.
- Guías para la acción: qué y no cómo se debe lograr.
- Ambiciosos para ofrecer un desafío enorgullecedor para el que lo logre.
- Conscientes de las limitaciones internas y externas del empleado.
- Definir objetivos es una tarea conjunta de mutuo acuerdo entre el
responsable y su superior.
2- Desarrollo de planes de acción.
19
Suele fallar en este punto la dirección por objetivos. Es programar
diferentes pasos necesarios para conseguir los objetivos y los recursos
necesarios, la distribución de responsabilidades, el timing y otros detalles
frecuentemente olvidados.
Tiene varias fases:
 Identificar todas las tareas y actividades necesarias para la consecución

de los objetivos. Definir cada etapa, analizar los recursos necesarios y
concretar los resultados esperados para cada una de ellas.
 Establecer las relaciones secuenciales existentes entre cada etapa e
identificar si se pueden realizar alguna de ellas al mismo tiempo.
 Se asignan responsabilidades a individuos particulares y se aportan
recursos personales o materiales que se precisen.
 Se fija el tiempo requerido, las fechas para su término y el plan que
muestre las fechas de comienzo y finalización de todas las etapas.(esto
es el “target”
Esta tarea incluye la planificación de la contingencia, que es una
programación tentativa para si surgen dificultades, anticipándose a los
problemas previstos que pueden dar al traste con el plan de acción. Si
cambian las circunstancias por dificultades, no se deben cambiar los
objetivos, sino desarrollar planes nuevos para alcanzarlos. Con ello los
miembros de la organización aprenden a anticiparse a los cambios y además
a incorporarlos al proceso de planificación., aumentando así las
probabilidades de obtener resultados.
Según las ideas de Locke, este sistema es motivante y beneficioso para
la consecución de objetivos.
3- Las revisiones periódicas.

Se establece un sistema de controles para seguir los procesos
previstos y detectar cualquier desviación sobre lo planificado. Son
pequeñas y parciales evaluaciones de los resultados de las fases
programadas.
Se apoya en normas o estándares parciales para medir el
rendimiento progresivo y su aproximación final también en una función de
información y retroalimentación para los responsables y para la dirección.
Se busca que las personas actúen con la máxima eficacia, al tanto
de los objetivos, el objeto de sus esfuerzos y tareas en relación a ellos, de los
resultados que están consiguiendo y su adecuación o no con los resultados
finales.
4- La evaluación de resultados.
Evaluación anual de la ejecución. Busca:

 Evaluar lo conseguido en relación a los objetivos y estándares
fijados previamente.
 Planificar y establecer nuevos objetivos para el siguiente
ejercicio.
Se centra en resultados aunque también en desempeños,
contemplando de forma integrada tanto la consecución como los pasos
seguidos, dificultades superadas, recursos usados y todo cuanto fue
programado, además de los cambios y reorientaciones introducidas.
Se refiere a los resultados de una unidad o de la organización,
suele referirse a la tarea de los directivos, con un enfoque totalizante que
incluye a muchos sujetos. Es más que una mera evaluación del personal
porque combina actuaciones de personas, departamentos, divisiones,
servicios centrales y muchos grupos, para contrastar el progreso de la
organización como un todo.
El proceso es:
20
1) revisión de los objetivos fijados
2) medición de resultados reales.
3) Identificación de la adecuación o desajuste de los resultados conseguidos con las normas y
estándares de actuación.
Si la persona evaluada no consigue sus objetivos, en la entrevista de él con
su jefe deberán averiguar la razón del fracaso. Este puede venir de que no
se realizaron bien las fases descritas, la falta de claridad sobre lo que se
esperaba de él, la falta de conciencia sobre lo que hace y los resultados
previstos, la falta de preparación o formación o la falta de recursos
aportados, la falta de motivación o la pobre relación del evaluado con su
jefe.
También puede que se hayan planteado objetivos irreales,
demasiado ambiciosos o carentes de sentido. También pueden haberse dado
razones externas fuera de control del evaluado o de su jefe.
Lo fundamental es que no se trata de buscar causas de la deficiencia para

castigar o sancionar al evaluado sino para proyectar un programa de formación y
actuación que permita crecer profesionalmente, sentirse motivado y adquirir las
habilidades necesarias para mejorar el rendimiento. Los errores deben servir para
aprender y no para ser castigado. Es una técnica útil para evaluaciones para
motivación y desarrollo, y también parcialmente para fines administrativos.
Ventajas.
La entrevista basada en objetivos se engloba en el sistema de Dirección por

Objetivos. Las ventajas de este sistema global son:
1) Mayor compromiso y actuación de los directivos o empleados. Mejora el

compromiso del evaluado al potenciar la comunicación con el superior, la
participación en fijar objetivos, retroalimentación de resultados y en
consecuencia la eficacia al saber la persona con precisión de qué es responsable.
2) Mejor planificación y coordinación. No solo hay objetivos sino reflexión y
planificación para alcanzarlos. El plan se desarrolla con acuerdo mutuo y
coordinación, lo que mejora el suministro de apoyos y recursos personales y
organizacionales, además de coordinar de esfuerzos de personas y grupos.
3) Mayor flexibilidad. La planificación de contingencia y del plan de acción
estimula y entrena en actitudes abiertas a la percepción de los cambios y
capacidad para responder a ellos.
4) Mejores relaciones superior- subordinado y mayor desarrollo personal.
Comunicación, reflexión común y acuerdo sobre objetivos, planificación y
atención a problemas , así como la asignación de recursos, aumenta la
comprensión mutua y una a superior y subordinado en una empresa común.
Además se establecen metas personales a parte de las organizacionales que
aumentan la competencia, habilidades y autoestima del subordinado, el
directivo aprende a dirigir más eficazmente, dándole mayor satisfacción y
desarrollo profesional.
21

Selec Val

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Selec Val

Uploaded by

Copyright:

Available Formats

Tema 2.

6. ¿Cómo evaluar? Instrumentos de evaluación. 1.

1. Correlación entre pruebas paralelas.

2. Homogeneidad de puntuaciones entre evaluadores.

4. Correlación entre ítems o entre ítems y escala.

Es el grado en que el instrumento mide lo que pretende medir. Es

3. Validez de criterio externo.

A parte de criterios psicométricos hay que insistir en otras características

Técnicas directamente relacionadas con la producción.

Indicadores objetivos como categorías para evaluar al trabajador:

1. Cantidad de producción. Número de unidades producidas, montadas o ensambladas, o bien número

2. Calidad de la producción. En función de estándares y normas fijadas de antemano por la

Cada factor debe compensarse y ponderarse con la información de los otros:

Bombero, directivo o investigador no ofrecen un producto particular

Técnicas de comparación (jerarquización.)

También llamadas de “Jerarquización Del Mérito Individual” porque el

Las ventajas de este método son su simplicidad, facilidad para

Los inconvenientes son:

Las ventajas es que elimina errores por desconocimiento de los evaluados,

3. Comparación por pares.

Zerilli propone otro formato.(pagina 137).

El método puede ser útil en algunas circunstancias pero se hace engorroso

Aún así, el resto de las limitaciones del método de ordenamiento o

Escalas de distribución forzada.

Un error sistemático habitual es la tendencia a las puntuaciones extremas o

Jerarquización por grupos libres.

Sigue el mismo procedimiento que la anterior pero se distingue en que no obliga al

Listas de verificación y escalas de diferencial semántico.

Los inconvenientes son los de las escalas de rasgos.

3- Un número limitado de escalas bipolares puede definir el espacio semántico de un concepto.

Quedan por definir aspectos como ítems a incluir en el análisis, tipos de

En las escalas de Diferencial Semántico, se pueden obtener distintos tipos de

La polarización es una puntuación factorial que describe la reacción efectiva

D = (E1-E2) 2+(P1-P2) 2+(A1-A2) 2

Escalas gráficas y /o numéricas.(GRS Graphic Rating Scales.)

Muy usadas, presentan a los evaluadores unos rasgos referidos al trabajador

La calificación global resulta de las puntuaciones dadas por el evaluador a

En ocasiones, las escalas gráficas o numéricas se presentan en forma de

En la búsqueda de indicadores más precisos, se suele pasar de las escalas de

Escalas de elección forzada.

Se trata de que el evaluador no conozca el valor positivo o negativo de sus

Los reactivos constan de 2 a 5 frases combinadas con carácter positivo o

Tipo frases tipo se pide al evaluador:

1- Dos ++ ó-- la más descriptiva.

2- Tres +++ ó--- la más y la menos descriptiva

3- Cuatro ++++ los dos más descriptivos

4- Cuatro ++++ el más y el menos descriptivo

5- Cuatro ++,-- el más y el menos descriptivo

6- Cinco --,++, Ø el más y el menos descriptivo.

En estos tipos se comprueba su confiabilidad par impar, su susceptibilidad a

Hay ocho fases en la construcción y aplicación de estas escalas:

Cálculo del índice de preferencia.

b) Subíndice de expresividad. Es lo potencialmente bueno que resulta un enunciado para expresar

Construidas las frases con sus índices de preferencia conocidos, se listan y

Los mejores formatos de elección forzada. Validez de estas escalas.

En validez, el formato 4 es el mejor, seguido por el 3. El uso exclusivo de

La capacidad de resistencia a la distorsión es , de mayor a menor: 3, 2, 1,

La elaboración es variada, siendo la más conocida el método de los

Flanagan propone en 1949 el método de Incidentes Críticos. Se centra en

Las escalas BOS construidas a partir de incidentes críticos basan su valor

Las fases son:

1. Definición de objetivos del puesto.

Las definiciones deben ser breves y en términos lo más simples posible.