Professional Documents
Culture Documents
2005
Hugo Carretero-Dios / Cristino Pérez
NORMAS PARA EL DESARROLLO Y
REVISIÓN DE ESTUDIOS INSTRUMENTALES
International Journal of Clinical and Health Psychology,
septiembre, año/vol. 5, número 003
Asociación Española de Psicología Conductual (AEPC)
Granada, España
pp. 521-551
© International Journal of Clinical and Health Psychology ISSN 1697-2600
2005, Vol. 5, Nº 3, pp. 521-551
RESUMEN. En este estudio teórico se proponen los criterios más importantes a tener
en cuenta para el desarrollo y revisión de estudios que tengan como objetivo crear o
adaptar tests referidos a la norma. En concreto, este artículo va a ocuparse de la
creación/adaptación de los tests que evalúan algún constructo relacionado con el campo
de la Psicología Clínica y de la Salud. La información va a presentarse organizada en
un total de siete apartados, cada uno de los cuales corresponde a una fase distinta
dentro del proceso de creación/adaptación de tests. Estos apartados son: justificación
del estudio, delimitación conceptual del constructo a evaluar, construcción y evaluación
cualitativa de ítems, análisis estadístico de los ítems, estudio de la dimensionalidad del
instrumento, estimación de la fiabilidad y obtención de evidencias externas de validez.
El trabajo finaliza con un resumen de las reglas básicas a considerar, insistiéndose que
éstas sean tenidas en cuenta no sólo para desarrollar o revisar estudios cuyo objetivo
sea crear/adaptar tests, sino también para decidir sobre el uso de un instrumento de
medida en una investigación.
1
Correspondencia: Facultad de Psicología. Universidad de Granada. Campus Cartuja. 18071 Granada (Es-
paña). E-mail: hugocd@ugr.es.
522 CARRETERO-DIOS y PÉREZ. Desarrollo y revisión de estudios instrumentales
clinical and health psychology fields. The content is structured on seven principal
points, which are centred in each one of distinct phases of the test creation/adaptation
process. These are: study justification, conceptual and theoretical framework related to
construct to be assessed, items contruction and item theoretical assessment, item analysis,
internal structure study, reliability, and studies to obtain external evidences of validity.
An abstract of basic rules to be considered is presented. Finally it is noted the relevance
to not consider this rules only to create or adapt tests but to assess the adequacy about
using a particular assessment instrument.
KEY WORDS. Norms to review instrumental studies. Test construction. Tests adaptation.
Theoretical study.
Introducción
Dentro de la gran variedad de trabajos de investigación que surgen desde la Psi-
cología, los centrados en la construcción o adaptación de tests ocupan un lugar desta-
cado, lo que podría ponerse de manifiesto a través de distintos ejemplos. Así, la base
de datos PsycINFO, con las palabras clave test construction, test adaptation y test
translation dentro del campo de búsqueda materia (unidas con el nexo “or”), propor-
ciona para los últimos cinco años (2000-2004) un total de 2752 publicaciones. De igual
modo, en un estudio donde fue analizada la proporción de trabajos publicados según su
metodología de estudio en las revistas de Psicología en castellano con factor de impacto
durante los años 2000-2001 (Buela-Casal, Carretero-Dios y De los Santos-Roig, 2002),
se constató como el 22% de los artículos publicados en la revista Psicothema, el 13%
de los aparecidos en la Revista Latinoamericana de Psicología y el 25% de los presen-
tes en la Revista Mexicana de Psicología tenían como objetivo analizar las propiedades
psicométricas de algún instrumento de evaluación. Si a esto se le añade que en la
mayoría de trabajos de investigación llevados a cabo en Psicología se hace uso de tests,
En este estudio van a proponerse las normas a tener en cuenta para la elaboración
y revisión de investigaciones instrumentales (véase el Anexo 1). Su finalidad es la de
servir como referencia para el interesado en la publicación o revisión de trabajos de
estas características, a la vez que se llama la atención al “usuario” de tests, es decir,
se insiste en que estas normas sean igualmente tenidas en cuenta a la hora de seleccio-
nar un instrumento de medida ya disponible para su aplicación. La intención no es que
los criterios que van a especificarse sean definitivos e indiscutibles. Éstos, a través de
la comunicación e intercambio entre profesionales, junto con el inevitable avance del
conocimiento, y considerando las observaciones, reflexiones y sugerencias que puedan
emitirse desde distintos puntos de vista, deberán ir retocándose y adaptándose.
a cabo los resultados suelen alejarse de los encontrados con la escala original. Así,
distintos autores han destacado como la traducción suele ser una elección rápida y
arriesgada que conduce a resultados inadecuados (Osterlind, 1989; Smith et al., 2003),
y que finalmente provoca, en el mejor de los casos, un paso atrás en la investigación
para una nueva formulación de ítems, y en el peor, un abandono del proceso y un dato
más sin conexión ni utilidad. Por ello, hay que insistir en que la creación y adaptación
de tests es cuestión de reflexión y no de premura, y que se adopte la elección que se
adopte, deben seguirse las recomendaciones generales sobre este difícil proceso (AERA
et al., 1999). Dado que la traducción es una práctica habitual entre los investigadores,
las normas que van a presentarse van a ocuparse de este proceso, aunque entendido
como uno de los posibles pasos a dar dentro de una adaptación, y sin dejar de recomen-
dar al lector que acuda a trabajos especializados como los anteriormente citados.
estas relaciones las que acaban dando significado al valor que la escala facilite, siendo
esencial e ineludible su justificación y especificación.
definición semántica quedó bien recogida en los ítems formulados. En este sentido,
dentro de la fase que nos ocupa, el propósito es proporcionar evidencias a favor de que
los ítems construidos son relevantes para el constructo y representan adecuadamente a
cada uno de los componentes propuestos en la definición semántica (Sireci, 1998). En
los estándares para la creación de tests psicológicos y educativos (AERA et al., 1999)
se subraya la necesidad de someter la batería de ítems a una evaluación por parte de
jueces seleccionados por tener unas características similares a la población objetivo o
por ser expertos en la temática. Lynn (1986) sugiere un mínimo de 3 jueces, aunque
esta cifra no está consensuada (Gable y Wolf, 1993) y va a depender de los intereses
del investigador y de la complejidad del constructo. A los jueces seleccionados se les
debe facilitar la definición operativa del constructo a evaluar y la batería de ítems
creada. Tienen que estimar si los ítems son pertinentes para la faceta para la que han
sido creados, a la vez que indicar si el número de ítems por componente refleja ade-
cuadamente la importancia atribuida en la definición. Además, se aconseja recoger
información sobre si los ítems están redactados de manera clara. Esta estimación debe
hacerse a través de una escala numérica de entre 5 y 7 puntos (Haynes et al., 1995) o
con cualquier otro procedimiento que permita cuantificar la valoración de los jueces,
aunque luego los datos a tener en cuenta sean meramente descriptivos, usándose si
acaso el acuerdo inter-jueces para eliminar los ítems más problemáticos. Si después de
esta fase se opta por modificar algunos ítems o escribir nuevos elementos, el proceso
de evaluación debe repetirse. Finalizada la valoración de los ítems por parte de los
jueces, el autor/adaptador debe informar con claridad qué ítems han sido eliminados y
por qué, a la vez que debe especificarse cuál es finalmente la batería de ítems conser-
vada.
La puntuación individual que se obtenga para cada componente debe tener elementos
comunes con las otras facetas delimitadas, ya que han sido propuestas como integrantes
de un mismo constructo. Sin embargo, estos elementos comunes no deben superar un
límite, ya que de lo contrario no podría sostenerse que son componentes distintos. En
esta dirección es donde resulta aconsejable hacer mención a nuevos análisis a incluir
en el estudio estadístico de los ítems.
Junto al coeficiente de correlación ítem-total corregido deben efectuarse los aná-
lisis de correlación entre la puntuación de los ítems que configuran un componente y
la puntuación total de los componentes que no sean el de pertenencia teórica. Algunos
autores plantean que debe existir una diferencia positiva a favor del primer análisis de
al menos dos décimas (Jackson, 1970). Junto con el cálculo anterior, es aconsejable
incluir la correlación media inter-item. Este aspecto necesita de cierta reflexión. Cuan-
do está elaborándose un instrumento con la intención de verificar una propuesta con-
ceptual sobre un constructo determinado, un criterio normalmente tenido en cuenta es
trabajar para que los componentes del constructo sean homogéneos. Para lograr esta
homogeneidad, tradicionalmente ha sido usado el índice de fiabilidad de consistencia
interna, intentándose que éste fuera lo mayor posible como indicativo de una faceta
homogénea. Así, cuando es calculado el índice de discriminación de los ítems, se opta
por eliminar los que provocan que la consistencia interna del componente se incremente
(tal y como anteriormente ha sido explicado). Sin embargo, resulta necesario distinguir
consistencia interna de homogeneidad. Tal y como Cortina (1993) especifica, la consis-
tencia interna es el grado en el que los ítems de un componente o faceta están inter-
correlacionados, mientras que la homogeneidad se refiere a si los ítems de ese compo-
nente evalúan fundamentalmente sólo a éste. Esto significa que la consistencia interna
es algo necesario pero no suficiente para conseguir una faceta homogénea, o dicho de
otro modo, puede tenerse un grupo de ítems altamente inter-correlacionados y que aún
así no puedan ser considerados como representativos de un único componente (Clark
y Watson, 2003). Debido a esto es recomendable llevar a cabo el cálculo de la correla-
ción media entre los ítems.
La forma de proceder a la hora de llevar a cabo la correlación media inter-item,
consiste en calcular ésta para los ítems de cada uno de los componentes por separado,
para posteriormente calcularla teniendo en cuenta los posibles cruces entre componen-
tes. La lógica que debe subyacer para interpretar los datos es que la correlación media
entre los ítems de componentes distintos tiene que ser positiva para poder concluir que
forman parte de un mismo constructo, pero inferior a la aparecida para los ítems de un
mismo componente (una diferencia de al menos dos décimas según Clark y Watson,
2003). Llegado a este momento es donde algunos autores recomiendan el uso del
análisis factorial como procedimiento inicial incluido dentro del estudio de las propie-
dades de los ítems (Floyd y Widaman, 1995). De hecho, las conclusiones que pueden
derivarse de los cálculos de correlación media inter-item son fácilmente obtenidas a
través de la “lectura” del patrón de saturaciones factoriales. Así, la técnica de análisis
factorial podría ser usada en esta fase, no todavía como procedimiento de validez
interna, sino como herramienta para la selección de ítems homogéneos (véase el si-
guiente apartado para un comentario más detallado sobre el análisis factorial).
el otro a los negativos. Así, el formato de los ítems puede pesar más que la significa-
ción conceptual y sin una exploración detallada de los resultados lo empírico, pero
irrelevante, puede prevalecer sobre lo psicológicamente sustantivo. Así, cualquier cri-
terio usado debe estar caracterizado por la flexibilidad en su aplicación. Los autores de
este artículo quieren mostrar su total rechazo hacia aquellos trabajos donde a partir de
un agrupamiento de ítems inadecuadamente derivados, y según la estructura factorial
resultante, se señala el “descubrimiento” de los aspectos subyacentes de una realidad
psicológica. Se recuerda que la técnica debe estar sometida a los intereses conceptuales
y que un agrupamiento de ítems es sólo eso, un agrupamiento, y que aunque empíri-
camente relevante, puede carecer de significado psicológico. Los factores “no psicoló-
gicos” que pueden hacer que unos ítems aparezcan juntos son tantos que la aplicación
de esta técnica de análisis en el vacío teórico es totalmente improductiva e ineficaz, no
recomendándose su uso en estas condiciones (Nunnally y Bernstein, 1995). Dado lo
apuntado, viene a recordarse que los procedimientos exploratorios sirven para “inda-
gar” y que, por lo tanto, esta indagación debe ser posteriormente sometida a confirma-
ción. Así, aunque el autor deberá informar sobre los criterios tomados en cuenta para
concluir sobre qué factores y cuántos son vistos como determinantes (véase una revi-
sión en Ferrando, 1996 o Martínez-Arias, 1995), estos criterios deberán verse relacio-
nados en la discusión con referentes teóricos, a la vez que se declara la momentaneidad
de las conclusiones hasta que la replicación sea suficiente y la confirmación de la
hipótesis llevada a cabo.
Cuando el objetivo es confirmar si la estructura empírica de la escala se corres-
ponde con la teórica, la técnica de análisis no debe ser exploratoria. Aunque en los
últimos años está observándose un incremento en el uso de los procedimiento
confirmatorios en la publicaciones referentes a la creación/adaptación de tests, su uso
aún está poco generalizado, siendo lo común la aplicación de procedimientos exploratorios
(Batista-Foguet, Coenders y Alonso, 2004). No es este el espacio para explicar el uso
de estrategias confirmatorias a través de los modelos de ecuaciones estructurales (se le
recomienda al lector el trabajo de Batista-Foguet y Coenders, 2000); sin embargo, sí se
resaltan las etapas que el encargado de su aplicación debe considerar (Batista-Foguet
et al., 2004) y los datos que deben hacerse explícitos al publicar los resultados. El autor
debe especificar claramente cuál es el modelo (forma en la que los ítems se agrupan)
que pretende someterse a prueba, recomendándose el uso simultáneo de otros modelos
alternativos para analizar el ajuste comparativo, y facilitando la información que ase-
gure que los modelos pueden ser contrastados en función de los requisitos de las
ecuaciones estructurales. El tamaño de la muestra debe ser adecuado para este tipo de
análisis. Así, no debe aplicarse este método de análisis con muestras inferiores a 200
participantes, aunque dependerá del número de ítems, componentes propuestos, etc.
(Batista-Foguet et al., 2004). Una vez especificado el o los modelos, comprobado que
la aplicación de la técnica es posible y que la muestra es adecuada, debe seleccionarse
el método de estimación a usar para concluir si lo teóricamente propuesto se ajusta a
los datos empíricos. Cuando se usan ítems con una escala de respuesta tipo Likert, la
recomendación es tratar a las puntuaciones como datos categoriales no continuos, ya
que son en realidad las propiedades de dichas puntuaciones (Jöreskog y Sörbom, 1993).
o que puedan usarse para el objetivo inicialmente planteado. Para llegar a esta conclu-
sión es necesario obtener las pertinentes evidencias externas de validez. Las evidencias
de validez externa deben basarse en el estudio de las relaciones entre el test y a) un
criterio que se espera prediga éste (validez de criterio), b) otros tests que supuestamente
miden lo mismo o con otros constructos con los que tendría que mostrar relación
(validez convergente); y c) otras variables teóricamente relevantes y de las que debería
diferenciarse (validez discriminante) (AERA et al., 1999). Como puede deducirse, cuando
se habla de evidencias externas de validez se produce una vuelta a la elaboración
teórica inicial. De hecho, se trataría de establecer si aparecen las relaciones teóricamen-
te predichas entre las puntuaciones obtenidas con el instrumento de evaluación y otras
variables externas delimitadas como importantes para el constructo evaluado. Así, el
análisis de la validez externa de las puntuaciones de un test no es ni más ni menos que
el intento por “ubicar” al constructo en un entramado teórico significativo, dándole
“coherencia psicológica”. De esta forma, estos estudios supondrían el soporte a partir
del cual interpretar las puntuaciones de la herramienta de evaluación y, por lo tanto, el
modo de otorgar significado psicológico a un dato numérico (Paz, 1996). Los autores
de este artículo quieren advertir algo que con frecuencia suele ser pasado por alto.
Llegados a este momento del proceso de construcción/adaptación de un test, lo que los
estudios siguientes deben aportar no es algo “exclusivo” de la tarea que supone esta
construcción o adaptación. Lo que quiere decirse es que en cualquier campo de inves-
tigación, al estudiar una dimensión, se busca integrar ésta en un esquema general que
le dé sentido y donde pueda dársele utilidad y significado. De esta forma, el estudio de
la faceta psicológica que sea, tiene que enmarcarse en una tradición empírica y teórica
previa, para posteriormente proceder a analizar si la propuesta resulta adecuada (vali-
dación). Con esto viene a sostenerse que el proceso de validación asentado en estos
objetivos no es algo que se observe sólo dentro de esta fase de construcción/adaptación
de un test, sino que debe tratarse más como una finalidad y quehacer común dentro de
una disciplina científica. Así, esto tiene su reflejo en que no hay una “metodología de
estudio” particular para esta tarea de validación externa de un instrumento, sino que la
clave son las relaciones teóricamente propuestas como significativas, aplicándose la
metodología y diseño más conveniente (experimental, cuasi-experimental o no experi-
mental), en función de los intereses teóricos.
Para la elaboración o revisión de un trabajo dirigido a la obtención de evidencias
externas de validez de un test, los autores deben justificar éste a partir de las teorías
de referencia y resultados de investigación previos (lo cual debería estar concretado en
la definición sintáctica de la variable realizada en las primeras fases de construcción/
adaptación), y su puesta en marcha debe seguir los criterios consensuados para cual-
quier investigación (Bobenrieth, 2002), además de tener en cuenta los particulares de
la metodología concreta que haya decidido usarse, como por ejemplo la experimental
(Ramos-Álvarez y Catena, 2004). Este es el motivo por el que para esta fase en cues-
tión no podrá observarse al finalizar el informe una tabla resumen dedicada a los
aspectos más sustantivos de ésta, remitiéndose al lector a los trabajos ya citados
(Bobenrieth, 2002; Ramos-Álvarez y Catena, 2004) o a cualquier otro encargado de
tratar las normas para la publicación de artículos en Ciencias del Comportamiento.
sobre una variable de interés. Sin embargo, no está exento de problemas, y el autor
deberá justificar su uso y reflexionar sobre sus condiciones de aplicación y verdaderas
aportaciones a la hora discutir los resultados (véase Martínez-Arias, 1995 o Nunnally
y Bernstein, 1995 para un análisis de los factores a tener en cuenta a la hora de usar
el análisis de regresión lineal simple y múltiple). A pesar de haberse destacado el uso
del análisis de regresión lineal, no debería perderse de vista que esta técnica de análisis
no agota las posibilidades. Así, y aunque dependiendo del número de variables y de sus
particularidades métricas, el hecho es que lo habitual sería poder acudir a casi la
totalidad de técnicas de análisis multivariado, por lo que el investigador debería ser
conocedor de las características principales de cada una de éstas, para así aplicarlas en
las circunstancias adecuadas (véase Muñiz, 1998 para profundizar en el uso de estas
técnicas dentro de los estudios de validez externa).
Para finalizar los comentarios referidos a la obtención de evidencias externas de
validez habría que hacer una reflexión sobre un aspecto muy tratado en los últimos
estándares para la creación de tests psicológicos y educativos (AERA et al.,1999). Se
trata del estudio dirigido a explorar si las evidencias de validez obtenidas para deter-
minadas muestras y en contextos concretos pueden generalizarse sin necesidad de nuevos
estudios de validez. Aquí el problema residiría en que los coeficientes de validez ob-
tenidos se ven afectados por la variabilidad de las muestras, los distintos instrumentos
usados, criterios considerados en cada estudio, etc. Así, el objetivo es determinar si la
variación en dichos coeficientes es simplemente producto de estas influencias “inevi-
tables”, o bien existen otras variables no tenidas en cuenta y que deberían ser pues
incluidas dentro de los estudio de validez del instrumento en cuestión. Para este obje-
tivo la propuesta se ha centrado en hacer uso de variaciones del meta-análisis tradicio-
nal y que viene a suponer más que una “puesta en común” y equiparación de los
resultados logrados en diversos estudios. Como puede deducirse, las conclusiones son
tomadas cuando éstas se ven precedidas por un amplio bagaje de resultados y, por lo
tanto, por un conjunto de estudios numeroso. Esto de nuevo pone de relieve que hasta
que un test cuenta con todas las evidencias necesarias de validez interna y externa,
junto con las encargadas de reflejar la fiabilidad, las fases a seguir son varias, su puesta
en marcha debe ser repetida y el tiempo que se necesita es igualmente elevado. Así,
no hay test fiable y válido sin un trabajo estructurado, sistemático y prolongado de-
trás.
Referencias
AERA, APA y NCME (1999). Standards for educational and psychological tests. Washington
DC: American Psychological Association, American Educational Research Association,
National Council on Measurement in Education.
Barbero, M.I. (2003). Psicometría. Madrid: Universidad Nacional de Educación a Distancia.
Batista-Foguet, J.M. y Coenders, G. (2000). Modelos de ecuaciones estructurales. Madrid: La
Muralla.
Batista-Foguet, J.M., Coenders, G. y Alonso, J. (2004). Análisis factorial confirmatorio. Su uti-
lidad en la validación de cuestionarios relacionados con la salud. Medicina Clínica, 122,
21-27.
Haynes, S.N., Richard, D.C.S. y Kubany, E.S. (1995). Content validity in psychological assessment:
A functional approach to concepts and methods. Psychological Assessment, 7, 238-247.
Jackson, D.N. (1970). A sequential system for personality scale development. En C.D. Spielberger
(Ed.), Current topics in clinical and community psychology (vol. 2) (pp. 61-96). Nueva
York: Academic Press.
Jöreskog, K.G. y Sörbom, D. (1993). LISREL 8. User´s referente guide. Chicago, IL: Scientific
Software.
Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports,
3, 635-694.
Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison Wesley.
Lynn, M. (1986). Determination and quantification of content validity. Nursing Research, 35,
382-385.
Martínez-Arias, R. (1995). Psicometría: teoría de los test psicológicos y educativos. Madrid:
Síntesis.
Montero, I. y León, O. (2002). Clasificación y descripción de las metodologías de investigación
en Psicología. Revista Internacional de Psicología Clínica y de la Salud/Internacional
Journal of Clinical and Health Psychology, 2, 503-508.
Montero, I. y León, O.G. (2005). Sistema de clasificación del método en los informes de inves-
tigación en Psicología. Internacional Journal of Clinical and Health Psychology, 5, 115-
127.
Muñiz, J. (1998). Teoría clásica de los tests. Madrid: Pirámide.
Muñiz, J. y Hambleton, R.K. (1996). Directrices para la traducción y adaptación de los tests.
Papeles del Psicólogo, 66, 63-70.
Muñiz, J. y Hambleton, R.K. (2000). Adaptación de los tests de unas culturas a otras. Metodo-
logía de las Ciencias del Comportamiento, 2, 129-149.
Murphy, K.R. y Davidshofer, C.O. (1994). Psychological testing: Principles and applications (3ª
ed.). Englewood Cliffs, NJ: Prentice-Hall.
Navas, M.J. (2001). Métodos, diseños y técnicas de investigación psicológica. Madrid: Univer-
sidad Nacional de Educación a Distancia.
Nunnally, J.C. y Bernstein, I.J. (1995). Teoría psicométrica. Madrid: McGraw-Hill.
Osterlind, S.J. (1989). Constructing Test Items. Londres: Kluwer Academic Publishers.
Paunonen, S.V. y Ashton, M.C. (2001). Big Five factors and facets and the prediction of behavior.
Journal of Personality and Social Psychology, 81, 524-539.
Paz, M.D. (1996). Validez. En J. Muñiz (Ed.), Psicometría (pp. 499-103). Madrid: Universitas.
Pelechano, V. (1997). Prólogo. En G. Buela-Casal y J.C. Sierra (dirs.), Manual de evaluación
psicológica. Fundamentos, técnicas y aplicaciones (pp. 31-35). Madrid: Siglo XXI.
Pelechano, V. (2002). Valoración de la actividad científica en psicología? Pseudoproblema,
sociologismo o ideologismo? Analisis y Modificacion de Conducta, 28, 323-362.
Prieto, G. y Delgado, A.R. (1996). Construcción de los ítems. En J. Muñiz (Ed.), Psicometría
(pp. 139-170). Madrid: Universitas.
Ramos-Álvarez, M.M. y Catena, A. (2004). Normas para la elaboración y revisión de artículos
originales experimentales en Ciencias del Comportamiento. International Journal of Clinical
and Health Psychology, 4, 173-189.
Rubio, D.M., Berg-Weger, M., Tebb, S.S., Lee, E.S. y Rauch, S. (2003). Objectifying content
validity: Conducting a content validity study in social work research. Social Work Research,
27, 94-104.
Sireci, S.G. (1998). Gathering and analyzing content validity data. Educational Measurement, 5,
299-321.
Smith, G.T., Fischer, S. y Fister, S.M. (2003). Incremental validity principles in test construction.
Psychological Assessment, 15, 467-477.
Smith, G.T., y McCarthy, D.N. (1995). Methodological considerations in the refinement of clinical
assessment instruments. Psychological Assessment, 7, 300-308.
Snook, S.C. y Gorsuch, R.L. (1989). Component analysis versus common factor analysis: A
Monte Carlo study. Psychological Bulletin, 106, 148-154.
Stevens, J. (1992). Applied multivariate statistics for the social sciences. Hillsdale, NJ: Lawrence
Erlbaum.
Tanaka, J.S. (1993). Multifaceted conceptions of fit in structural models. En K.A. Bollen y J.S.
Long (Eds.), Testing Structural Equation Models (pp. 10-39). Thousand Oaks: Sage.
Traub, R.E. (1994). Reliability for the social sciences: Theory and applications. Londres: Sage.
Walsh, W.B. (1995). Tests and assessment. Nueva York: Prentice-Hall.
Whiteside, S.P. y Lynam, D. R. (2001). The five factor model and impulsivity: Using a structural
model of personality to understand impulsivity. Personality and Individual Differences,
30, 669-689.
DELIMITACIÓN CONCEPTUAL
DELIMITACIÓN CONCEPTUALDEL CONSTRUCTO A EVALUARA(B)EVALUAR (B)
DEL CONSTRUCTO
Sí Dudoso No
B.1. Aparecen claramente especificados los intentos de conceptuación más
relevantes del constructo de interés.
B.2. Las distintas propuestas conceptuales se presentan integradas en uno o
varios marcos teóricos de referencia.
B.3. Se hace una revisión de los principales instrumentos de evaluación
encargados de evaluar a éste o a constructos relacionados.
B.4. Tras la revisión se realiza una propuesta operativa de las facetas o
componentes operativos del constructo a evaluar, la cual es sometida a
evaluación a través de expertos.
B.5. Se presenta detalladamente la información relacionada con el juicio de
expertos (selección de expertos, material utilizado, forma de evaluar,
etc.)
B.6. Considerando los resultados de la evaluación de los expertos, los datos
de investigación y los marcos teóricos de referencia, se concreta
definitivamente la definición operativa del constructo.
B.7. Teniendo en cuenta la definición adoptada del constructo, se concretan
las relaciones esperadas entre éste y otras variables.
B.8. Las relaciones predichas para la puntuación total en el constructo están
adecuadamente justificadas.
B.9. En el caso de que el constructo esté compuesto por distintas facetas o
componentes también son establecidas las relaciones esperadas para
cada uno de estos componentes.
B.10. Las relaciones predichas se presentan claras, especificándose cuando el
constructo va ser variable predictora, cuando predicha y cuando
covariado.
Sí Dudoso No
C.1. La información que justifica el tipo de ítems a construir (incluyendo
formato, tipo de redacción, escala de respuesta, etc.) es presentada con
claridad.
C.2. El autor hace uso de una tabla de especificaciones de los ítems para
guiar la elaboración de éstos.
C.3. La tabla de especificaciones de los ítems recoge toda la información
necesaria para la construcción de éstos.
Análisis estadístico
ANÁLISIS de los ítems (D)
ESTADÍSTICO DE LOS ÍTEMS (D)
Sí Dudoso No
D.1. La delimitación del trabajo es clara (primer estudio de los ítems, estudio
piloto o validación cruzada)
D.2. Los objetivos del análisis aparecen claramente especificados
(homogeneidad y consistencia de la escala frente a validez de criterio).
D.3. Es facilitada toda la información referente a los ítems, instrucciones a
los participantes, contexto de aplicación, etc.
D.4. La muestra de estudio tiene características similares a las de la
población objetivo del test.
D.5. El tamaño de la muestra es adecuado para los objetivos del estudio.
D.6. El procedimiento de evaluación es similar al que se tiene planificado
para la escala definitiva (muestreo).
C.7. Se especifican con claridad los criterios a considerar para la selección-
eliminación de los ítems.
C.8. Los cálculos estadísticos efectuados resultan pertinentes.
C.9. Los resultados (cualitativos y cuantitativos) se discuten con claridad.
C.10. Las decisiones sobre los ítems tienen en cuenta cuestiones teóricas.
C.11. Se especifica claramente que ítems son eliminados y por qué.
C.12. Los ítems seleccionados quedan claramente delimitados.
ESTUDIO
Estudio de laDE LA DIMENSIONALIDAD
dimensionalidad DEL interna)
del instrumento (estructura INSTRUMENTO
(E) (ESTRUCTURA
INTERNA) (E)
Sí Dudoso No
E.1. La delimitación del trabajo es clara (primer estudio de dimensionalidad
de la escala o validación cruzada de resultados previos).
E.2. Los objetivos del análisis aparecen claramente especificados (estudio
exploratorio frente a análisis confirmatorio, o ambos).
E.3. La información presentada sirve para justificar con claridad los
objetivos propuestos.
E.4. Es facilitada toda la información necesaria para que el lector conozca
los antecedentes que justifican la escala y la dimensionalidad esperada
de ésta.
E.5. La información sobre la muestra es completa y pertinente.