You are on page 1of 35

FILIAL- ICA.

PSICOMETRIA
LECTURA N 1

Mag. Jos Abel Motta Dueas

TEMA 1: EL PROBLEMA DE LA MEDICIN EN PSICOLOGA 1.1 Introduccin La Psicometra es la rama de la Psicologa que se ocupa de cuestiones relacionadas con la medicin de aspectos psicolgicos. El psicodiagnstico y la evaluacin psicolgica estn tomadas de la interaccin entre psicometra y el desarrollo de instrumentos de medida. La psicometra trata dos grandes reas:

a Contenido de aplicacin, cmo se desarrollan y aplican los test. b Contenido terico de la teora de los test (estadstica e informtica). Los test psicomtricos son una medida objetiva y tipificada de una muestra de conducta que han sido cuidadosamente elegidos y que estn controlados de antemano. Fundamentalmente nos permiten hacer descripciones, una descripcin es mucho ms exacta si conlleva o no medicin. Nos permiten con posibilidad de errores hacer pronsticos, ms exactos que solo cualitativos. Nos sirve para comparar a una persona con otra, a una misma persona en diferentes momentos de su vida; deben existir reglas para medir y comparar (tambin es un campo de la psicometra). Los test deben saber utilizarse, miden bien si estn bien utilizados. Es necesario elegirlos en base a la naturaleza de la cuestin a medir. El valor de un test es relativo (p.e. un microscopio nos puede servir para ver partculas pero no para ver astros), puede servir para una personas pero para otras no, y cuesta determinarlo (riesgo de utilizar inadecuadamente un test por eso hay que saber a quin y para qu se usa). 1.2 Mtodos de medicin Mtodo de prueba. Es un test psicomtrico, en el que estn controlados todos los tems, forma de aplicacin, correccin y anlisis de resultados. Hay una gran estandarizacin y son bastante artificiales (p.e. MMPI). Mtodo observacional de medicin. Se mide la conducta manifiesta de una persona de forma ms natural, menos controlada, en la vida cotidiana. Mtodos mixtos. Se puede planificar una observacin para medir, yo la planifico, algo estratgico, normalizo algunos de los pasos pero la hago en el medio natural. 1.3 Escalas de medicin Para simplificar las cosas se les puede asignar nmeros a los datos, dependiendo del uso que se les de. Cada una de las escalas de medicin conlleva diferente operacin matemtica, algunos tipos de escalas son: a Rtulos. Es una utilizacin del nmero (no es una medida en s). Por ejemplo, el nmero uno de la lista, solo nombra-permite identificar personas, objetos, cosas... pero no tiene una implicacin matemtica. b Categoras. Cuando los nmeros nos permiten agrupar a ms de un objeto por algo comn o semejante que tengan respecto a un atributo o caracterstica (p.e. 1 chico, 2 chicas; son posibles de manejar matemticamente). c Ordinales. Permiten ordenar a las personas u objetos en base a una caracterstica-atributo, a la manifestacin de ese atributo en esas personas. Tenemos un punto de partida, no sabemos si es cero (p.e. uno es ms alto que el otro).

2
d Intervalo. Tenemos informacin del orden de la diferencia de tamao de una clasificacin y se puede tener otro (p.e. edad). e Razn o proporcin. Se usa el punto cero, se hace una comparacin (porcentaje, percentiles) En base a las escalas existen diferentes baremos, tipificaciones y manejo de formas de medida. 1.4 Normas de medida Criterios. No tienen porque tener una normalizacin o ser comparados con otros. Permiten una meta a conseguir, la comparacin es personal (p.e. reducir el nmero de cigarros que fuma una persona de 20 a 10). Normas. Normalmente nos permiten saber cmo manejar los nmeros, cmo asignarlos con el propsito de representar una caracterstica. Se asignan nmeros de manera uniforme/estndar, permiten comparar ya que utiliza unas mismas reglas para medir a diferentes personas. Comparacin grupal (la normalizacin es utilizada para comparar unas personas con otras). Los test psicomtricos estn basados en normas, comparaciones grupales pero no estn basadas en normas (p.e. escalas subjetivas basadas en criterios). Las normas de medicin no tienen valor moral ni tico solo numrico/estadstico. Las normas de medida las trasladamos a la norma social (p.e. decir que la persona se encuentra por encima o debajo de la media, como resultado de un test, no tiene valor moral). Cuando transformamos el nmero y le damos una cualidad, hacemos una interpretacin del nmero relativa y con posibilidad de errores. Algunas normas bsicas para establecer comparaciones son: a. Normas de edad. Punto de referencia que compara, se elige una muestra normativa (muestre que represente a la poblacin en la cual vamos a utilizar esa medida y en base a la cual vamos a extraer las reglas que utilizaremos). Por ejemplo, en un test infantil se escogen nios de diferentes edades, extraemos el promedio de actuacin (la media) y de ah podemos decir que lo normal es que un nio de 6 aos es que saqu 7 puntos en ese test, si lo hace estara en la media pero si saca 5 puntos estara por debajo, o por encima si saca 8 puntos. Se compara a los nios de 6 aos con la media de actuacin de esa edad. b. Normas de grado. La muestra normativa se elige en base a un nivel escolar (p.e. se extrae en base a los nios de primer grado no segn la edad, test escolares). c. Normas de porcentaje. No se necesita escoger una muestra normativa externa, se puede utilizar el propio grupo de muestra (p.e. percentiles, campana de Gauss y de ah las notas). d. Normas estndares o de tipificacin. No solo se utiliza el grupo de referencia y el punto medio de actuacin sino que se compara el grupo con la media y la desviacin tpica, es ms compleja (p.e. t de student, se pueden obtener tipificando las normas de porcentaje) Estas normas se pueden combinar entre s y en base a estas normas haremos los baremos, transformacin de las puntuaciones directas en puntuaciones indirectas (p.e en el WAIS, puntuaciones escalares), y ello da la normalidad o no al grupo. Las escalas normativas son combinacin de escalas de medicin (uso de los nmeros) y las reglas que seguimos para medir (normas). Existen diferentes tipos (centiles, cociente intelectual):

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

Escala tpicas. Escalas tpicas normalizadas y derivadas de estas puntuaciones tpicas normalizadas y transformadas , para que no sean negativas y no se trabaje con decimales (p.e. eneatipos 1 a 9, del 1 al 10).

4
TEMA 2: LOS TEST PSICOMTRICOS 2.1 Caractersticas Son procesos estandarizados de recogida de informacin, son voluntarios, no enmascarados (sabemos la finalidad de la prueba) y estandarizados. Se basan en procedimientos estadsticos y el material esta tipificado (que todos lo utilizan de forma uniforme, en la aplicacin, correccin e interpretacin). Los test psicomtricos iniciaron dentro de la teora de los rasgos, pero actualmente se apoyan en diferentes modelos, tienen en comn que poseen una base emprica y todos intentan medir. 2.2 Componentes de los test 1. Manual tcnico de descriptores del test a Descripcin del test (para qu sirve?, autor, ao de publicacin, cmo se comercializa). b Desarrollo de las escalas (qu pasos sigui para elaborar los tems, tareas, qu modificaciones se han dado, criterios seguidos paras las modificaciones) c Proceso de adaptacin espaola del test.. d Justificacin estadstica (tratamiento de los datos, fiabilidad, validez, estudios comparativos, grupos normativos especiales, estudios transculturales). e Normas de interpretacin (parmetros de cmo valorar cada una de las puntuaciones que se han obtenido). f Otros (bibliografa). g Tablas de los normativos (estudios de estandariazacin). WAIS: a. Estimacin de las capacidades intelectuales de una persona. c. Adaptacin de un test en otra lengua a la espaola (cmo se han superado los sesgos culturales p.e. en los subtest de informacin) g. Datos estadsticos de las caractersticas de la muestra con la que se ha hecho la estadarizacin (p.e. edad, sexo, nivel educativo) en el WAIS p.e. hay datos de varias edades. 2.3 Manual de aplicacin y correccin (cmo se administran cada una de las tareas): a mbito de aplicacin (lugar) b Cualificacin del examinador (condiciones psicolgica en individuales, si tiene dificultad para comprender o algn problema sensorial). c Procedimiento normalizado (reglas, instrucciones, etc.) d Tiempo de aplicacin (para cada subtest, tiempo mnimo esperado en el WAIS hora y media). e Condiciones ambientales. f Tablas y baremos de correccin y ajustes estadsticos (inicialmente aparecen diferenciados para cada subgrupo de edad) g Obtencin de puntuaciones tpicas, escalares y CI/ndices. 2. Cuadernillo/hoja de respuestas, pueden estar o no. 3. Materiales de administracin para cada test. 4. Plantilla de correccin: manual o informatizada. 2.4 Presentacin de un test La forma de presentacin de un test difiere segn la finalidad de este, existen cuatro tipos:

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

a. Forma de presentacin de los tems (preguntas y respuestas). Verbales. Grficos (p.e. visuales, test de Raven, test de domin). Manipulativos Mixtos (WAIS). b. Contenido del test. Cmo est estructurado, pueden ser: Homogneo o de tarea nica, siempre se realiza la misma tarea (MMPI). mnibus, tiene diferentes tareas con diferentes puntuaciones pero que llevan a una nica puntuacin global (p.e. WAIS). Batera de test, son mltiples tareas pero con diferentes puntuaciones (p.e. batera de aptitudes diferenciales de Thurstone, se saca un perfil con diferentes puntuaciones, que son independientes entre s). c. Tipo de respuesta, que se le pide al sujeto: Respuesta ya elaborada por el autor del test (p.e. exmenes tipo test, se selecciona la R/) Test de produccin de respuesta, el sujeto produce su propia respuesta (p.e. examen de desarrollo). d. Segn la aplicacin del test: Colectiva, se pueden aplicar tambin de forma individual. Individual, no se pueden aplicar de forma colectiva. 2.4 Etapas de elaboracin de un test 1. Demarcacin de la prueba: Qu queremos hacer? (p.e. un test de calidad de vida del enfermo de cncer, ya est hecho o no, cmo es, hacer un estudio de mercado). Ubicar el instrumento, definir qu voy a medir, a qu problema va ser dirigido (p.e. calidad de vida, cncer), qu deseo hacer con el, para qu sirve (p.e. clasificar, intervenir, saber el estado actual de su enfermedad). Buscar a nivel prctico y terico. 2. Delimitacin conceptual y operativa: a) Fundamentar tericamente el atributo a medir, buscar bibliografa (qu es calidad de vida). b) Definir el objetivo, finalidad y uso del test (por qu y para qu se construye el instrumento) c) Elegir a qu sujeto se destina el test (para quin se hace el instrumento (personas con cncer del Pas Vasco). Con mayor precisin en la definicin pensaremos mejor en ellas. d) Establecer cmo se va a aplicar el instrumento, colectivo o individual, procedimiento y presentacin. e) Cmo se define de forma operativa ese atributo. 3. Elaboracin del protocolo: a) Formato del test: grfico, verbal, manipulativo..., forma de presentacin: cuadernillo, hoja de respuesta. b) tems que va a tener el instrumento (verbales-creencias, grficos-nios, manipulativos o mixtos). Se elaboran en base a la edad, contexto sociocultural, qu es lo que yo quiero valorar Cuntos tems hacer?, a la hora de construir el test hacer un 25% ms de tems por los que se puedan desechar. Tiempo disponible para la aplicacin y tipo de tarea. Elaboracin de tems, cmo ordenarlos? (p.e. de menor a mayor dificultad). Presentacin del test

6
(hoja de instrucciones, ejercicios prcticos como modelo, ficha de identificacin o no, etc.). Construccin de los tems tems de construccin de respuesta libre o produccin de respuesta: a. tems de ensayo. El sujeto debe responder con sus propias palabras, no hay una nica respuesta. Es la ms completa. El sujeto desarrolla de forma abierta y libre una respuesta ante una pregunta que se plantea, desde una perspectiva personal y su propio lenguaje. Puede ser verbal, manipulativo o grfico. Ventajas: se recoge la creatividad/originalidad de la respuesta del sujeto, se permiten varias respuestas verdaderas y se puede valorar no solo lo que dice sino tambin cmo lo expone y lo construye (informacin adicional). Desventajas: la subjetividad a la hora de construir y, fundamentalmente, a la hora de valorar estos tems (diferentes evaluadores no llegan al mismo acuerdo, es diferente segn el juez, evaluacin sesgada, a no ser que evalu un solo juez). Sobre los dems tiene la ventaja de tener la mejor manera de valorar la creatividad y originalidad del sujeto. b. tems de respuesta restringida. En los que se le pide una respuesta breve, tiene menor libertad pero se puede ampliar el nmero de tems (hacer ms preguntas). Ventajas: correccin rpida y se llega a un acuerdo entre jueces. Desventajas: perdemos mucho la valoracin de la creatividad del sujeto y sigue siendo subjetiva. Son ms globalistas. tems de respuesta estructurada o eleccin de respuesta: Se pierde totalmente la posibilidad de valorar respuestas creativas (p.e. exmenes tipo test), se le dan las respuestas al sujeto y se le pide que elija una alternativa. La muestra es mucho mayor, se hacen ms preguntas. Se responde a cada tem por separado, son independientes entre s y se suelen puntuar uno a uno. Ventajas: permiten la comparacin de grupo por presentar las mismas respuesta a cada sujeto. Ms fciles de cuantificar, mayor precisin, hay una clave de correccin clara y por ende, ms acuerdo entre los jueces. Desventaja: menor libertad a la hora de responder, no se valora la originalidad y creatividad. Perdemos cualidades, son muy atomistas (analiza una pequea parte del comportamiento del sujeto). Existen diferentes tipos: a. tems de respuesta alterna. Verdadero-falso, s-no. 1. Asegurarse de que el tem se puede clasificar inequvocamente de verdadero o falso. 2. Utilizacin de trminos que no sean generales o universales, pues son errneos (nunca, siempre, todas, ninguna...) 3. Evitar el empleo de trminos ambiguos o indefinidos para asignar cantidad (p.e. hace ejercicio frecuentemente?, la interpretacin de este puede variar de una persona a otra). Es necesario poner cantidad (3, 4 o ms veces por semana). 4. Procurar no utilizar negaciones (enunciados negativos) y muchsimo menos la doble negacin (pues esto afirma). 5. Limitar los enunciados de verdadero-falso a una sola idea (una idea para cada enunciado) 6. Que los enunciados tengan aproximadamente la misma extensin (p.e. generalmente, un enunciado verdadero es ms extenso que uno falso).

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

Ventajas: se pueden construir muchos, recoger ms muestras de conducta, son fciles de corregir y rpidos. Desventajas: difciles de construir, pierde la capacidad de creatividad. b. tems de eleccin de respuesta mltiple. 1. Poseen ms de dos alternativas, generalmente de 3 a 5. Son ms flexibles, representan mejor lo que quieren evaluar, hay ms opciones para el sujeto. 2. Es necesario delimitar bien el enunciado de las alternativas de respuesta. El enunciado debe contener toda la pregunta (saber que estamos preguntando y poner las alternativas pertinentes). El enunciado puede ser amplio pero las alternativas de respuesta deben ser breves. 3. El enunciado debe ser claro y especfico, claramente expuesto (cul es nuestra pregunta) y que sea positivo, no utilizar la doble negacin (pues esta evala lo peor de una persona no lo mejor). 4. Utilizar material novedoso para explorar la creatividad del sujeto. 5. Asegurarse de que haya solo una respuesta vlida o que expresa mejor lo que se pregunta (p.e. en los test de personalidad, la respuesta que manifiesta mejor ese rasgo). Que haya una nica respuesta ptima, evidente sobre las dems y asegurarse de que las otras tambin sean plausibles. 6. No proporcionar indicadores involuntarios para las respuesta (todas tienen que acercarse a lo que quieren medir).

Ventajas: suele ser ms objetiva la correccin, existe un mayor acuerdo y se puede corregir mediante el uso del ordenador (p.e. en la seleccin de personal). Se corrige rpidamente y de forma objetiva se puede comparar y el nmero de tems es amplio para tener una muestra representativa de la conducta del sujeto. Recogen mucha informacin en poco tiempo. Desventajas: para redactarlos bien lleva mucho tiempo (su construccin), no permiten analizar la creatividad del sujeto. A veces es difcil determinar cuando una respuesta ptima es correcta sobre las dems. Su utilizacin depende del mbito de trabajo, por ello puede ser mejor o peor en una determinada situacin (p.e. para aplicaciones grupales son buenas pero en el mbito clnico no, seran mejores las de ensayo). Qu peso relativo tiene cada rea de evaluacin? La caracterstica a evaluar se puede plasmar en diferentes mbitos, puedo elegir algunos o uno. Si cada mbito va ser valorado igual habr un mismo nmero de tems para cada rea (p.e. la asertividad en la familia, el trabajo, con los amigos), si le damos ms relevancia = mayor nmero de tems y obtener ms muestras de conducta. Temas: Conceptos 10% Relacin 30% Aplicacin 60% Total: 100 Objetivos Introd. Psicometra Test psicomtricos Teora de los test 20% 40% 40% 2 4 4 6 12 20 12 24 40 12 24 40

8
Est es una tabla de doble entrada, que nos permite darle peso a cada rea del test. Para ello no hay una regla fija, es relativo y depende de quien elabora el test. No hay que extrapolar los datos obtenidos en un rea a otras (p.e. del laboral al familiar). Toma de decisiones subjetiva. Cmo elegimos los tems? La eleccin de los tems la hace el autor de los test, tomando en cuenta: 1. Que sean representativos del atributo que quiero medir, cmo se manifiesta ese atributo? observacin directa, definir cul es la manifestacin, tomar datos de campo. 2. Hasta que punto necesito una precisin de los datos, cuanto ms estructurado es un tem ms preciso es pero menos creativo. Qu quiero evaluar y qu precisin quiero; me interesan los datos cualitativos o cuantitativos, describir (cualidad, ensayo) o predecir (cantidad, respuesta alternativa). 3. Las personas, a quien voy a evaluar, considerar edad, nivel sociocultural, acadmico, contexto, ambiente. Variables del sujeto. 4. Forma de administracin: individual o colectiva. 5. Tiempo disponible (las pruebas verbales son ms rpidas de aplicar y corregir que una manipulativa o grfica) 6. Dificultad que le quiero dar a la prueba (p.e. para un nio son ms difciles los tems verbales que los grficos). 7. Destrezas del propio autor del test (p.e. que sepa dibujar). Longitud (cuntos tems tendr la prueba): 1. Ver la caracterstica que quiero evaluar y lo amplia que es (p.e. una caracterstica de personalidad es ms amplia que el clima familiar, ms concreto), y ver si tengo de esa caracterstica tengo ms reas de evaluacin, si es as necesitar ms tems. Cada uno de los tems es una muestra de conducta, cuntas ms tengamos mejor podremos entender al sujeto pero sin perder el equilibrio (no preguntas en exceso). 2. Tipo de tems elegidos (la prueba es ms larga o corta segn los tems, las pruebas verbales tienen ms tems, los manipulativos son menos). Demarcar la longitud del test. 3. Finalidad del instrumento, segn ella la longitud puede cambiar. 4. Forma de aplicacin. Los test individuales suelen tener menor nmero de tems, en los colectivos se pierden la relacin de t a t y otra informacin, hay que tener ms preguntas, son ms amplios que los individuales (p.e. tiempo de reaccin WAIS, dificultad de los tems y cunto tiempo necesita para pensar y responder). 5. Caractersticas del sujeto. 6. Tiempo de aplicacin, si tenemos menos tiempo utilizamos test cortos. No hay normas fijas, depende de estos apartados y del autor. Qu nivel de dificultad deben tener los tems? Tomar en cuenta el tipo de prueba, en las de personalidad tendr que ser una dificultad media y media-alta, en los test de manipulativos y de inteligencia existirn diferentes niveles. Por ende, hay que valorar lo que mide la prueba y el tipo de sujetos a evaluar (tipo de tems, presentacin, reas de contenido y caractersticas del sujeto marcarn la dificultad). Es importante que el nivel de lectura o lenguaje de los sujetos evaluados no sea un obstculo para responder a las tareas, debe estar adecuado a su nivel de lenguaje. La nica excepcin sera si se trata de una prueba en que se evalu el rendimiento en el lenguaje, pero en ellas poco a poco se va aumentado el grado de dificultad para que el sujeto encuentre tems que pueda resolver.

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

Construccin de las instrucciones del protocolo Instrucciones del protocolo/cuestionario, existen dos niveles de instrucciones: a. Instrucciones para el sujeto que va a realizar el test. Explicar la sujeto cul es la tarea que va a realizar con un lenguaje claro, precio y sencillo. El protocolo debe proporcionar algn tipo de ejemplo con la tarea ya resuelta, explicarle al sujeto si hay lmite de tiempo o no, si existe penalizacin por las respuestas incorrectas o no (p.e. en test de rendimientos s). b. Instrucciones para el evaluador (manual del test). - Especificar si el evaluador necesita una preparacin previa y de qu tipo. - Circunstancias situacionales: situacin ambiental, tiempo que requiere, material a utilizar... - Ficha tcnica del test, datos de fiabilidad y validez. - Condiciones y claves de correccin, cmo se utiliza la plantilla si hay. - Condiciones de interpretacin del test. - El autor debe decir a que marco terico pertenece. - Instrucciones de manejo y calidad cientfica del test. Por ltimo, deben estar las tablas de conversin de datos (baremos) para poder comparar al sujeto con otros, y otras referencias. 4. Primer estudio emprico Saber si lo que hemos construido es vlido o no, se realiza un anlisis cuantitativo y cualitativo. Los pasos a seguir son los siguientes: I. Identificar y seleccionar una muestra en la cual aplicar el test (debe representar la poblacin a la que va dirigida el test). II. Aplicar el test en las mejores condiciones posibles y corregirlo, obtenemos las puntuaciones que nos permitan un primer anlisis estadstico descriptivo de los resultados III. Anlisis de cada uno de los tems, saber cules no son importantes o estn mal redactados. Se realiza el anlisis en dos niveles: a Cuantitativo. Analizar el contenido (representan lo que miden) y redaccin de los tems (lo buenos que son, si se entienden o no). b Cualitativo. Analizar hasta que punto el tem discriminan bien, nivel de dificultad que tiene, cmo es de consistente (si siempre mide igual), son homogneos o heterogneos, independencia de cada uno de los tems, hasta que punto responden bien a la finalidad del test, interesa comparar el tem consigo mismo y el exterior. IV. Reestructuracin de la prueba, modificar los tems que estn mal o quitarlos, dejar los que sirven, cambio en el orden o la presentacin. 5. Segundo estudio emprico Volver a aplicar el test, ampliar la muestra de sujetos, para baremar el test. Su objetivo es garantizar la bondad del instrumento desde el punto de vista psicomtrico y cientfico. La muestra debe ser realmente representativa de la poblacin para que sea punto de comparacin para los sujetos futuros. Se deben tomar en cuenta todas las variables (edad, sexo, nivel acadmico o sociocultural...). No debe ser un muestreo aleatorio sino que se debe hacer una estratificacin (p.e. mismo porcentaje de hombres y mujeres, en clase seran ms chicas que chicos), se deben utilizar estrategias de muestreo. 6. Aplicacin del test Se analizan los tems para validar nuevamente el instrumento, confrontar que est bien.

10
7. Estudio de la fiabilidad del test Elegir el mtodo ms apropiado (estadsticos de correlacin), nos dicen hasta que punto esos datos obtenidos nos dan una seguridad porque se mantiene en el tiempo (p.e. una balanza que siempre de el mismo peso para un objeto). Si hay estabilidad en la medida es una medida fiable pero no me asegura que es buena (p.e. si la balanza pesa 2kg. de ms), puede conllevar error, por ello se necesita la validez. 8. Estudio de la validez del test Existen diferentes modos dependiendo de la finalidad que tiene, saber hasta que punto es vlido y til 9. Capacidad de prediccin del test (tambin estadsticos) 10.Tipificacin Elegir las normas a partir de las cuales hacer la tipificacin y luego pasamos las puntuaciones directas a puntuaciones indirectas, lo hacemos a travs de un baremo. En base a los datos de la muestra normativa. 11.Llevarlo a la imprenta, ponerle precio y distribuirlo Definiciones: Anlisis de los tems, ordenar y analizar los datos de la muestra o poblacin. Poblacin estadstica, conjunto de elementos que cumplen una serie de caractersticas o propiedades en comn. Poblacin finita, conocemos el nmero de sujetos y en la poblacin infinita no lo sabemos. Muestra, es la parte representativa de la poblacin. Estadstica, es la ciencia. Estadsticos son operaciones matemticas que proporcionan descripciones de una muestra. Parmetro, propiedad que le pertenece a la poblacin. Cualidad, atributo. Modalidad, cmo se presenta la caracterstica. Medicin, proceso de atribucin de nmeros a caractersticas o cualidades. Escalas de medicin, uso que se les da a los nmeros. Los atributos pueden ser: variables, pueden tomar diferentes nmeros o valores y se puede mostrar en diferentes modalidades (cuantitativa: gnero, profesin y cualitativa: rasgos de personalidad, altura) y constantes. Valor de la variable, dato cuantitativo de ese momento. Las variables cuantitativas pueden ser: discretas, solo puede tomar un nmero finito de valores (p.e. nmero de hijos, ji cuadrada) y continuas, que al menos tericamente puede tomar infinitos valores en un intervalo (p.e. talla, peso). Estadstica descriptiva, describen la muestra a partir de una o ms caractersticas o variables. Intenta describir y analizar a una muestra en base a caractersticas o variables. Estadstica inferencial, a partir de una muestra representativa no sesgada, tener un conocimiento de la representatividad de la poblacin. Hacemos inferencias de que eso le pertenece a una poblacin. En la estadstica inferencial adquieren mucha importancia las puntuaciones: Puntuaciones directas o brutas, aquellas que se obtienen a partir de la medida de una caracterstica manifiesta (p.e. el Raven 84, pero no da mucha informacin

10

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

psicolgica, para saberlo es necesario comparar esa informacin: la puntuacin obtenida por el sujeto menos la media del grupo pero a veces esta medida queda corta). Puntuaciones indirectas o ponderadas, para que tengan un sentido es necesario transformar las puntuaciones para poder hacer comparaciones. Es importante comparar de la forma ms exacta posible, lo ms verdica (que me compare con mi grupo de referencia real). Por ejemplo, si se aplica un test de razonamiento abstracto para compararlo con el rendimiento de las notas de matemtica, es necesario saber cmo es el grupo, cmo se distribuyen las puntuaciones (representacin grfica: diagrama de barras, histograma: polgono de frecuencias, pictograma, etc.). Es necesario analizar los datos, ordenarlos a travs de una tabla de frecuencias o grfico, donde se resuma la realidad objetiva de los datos. Luego a partir de la representacin grfica se siguen operando los datos. En la estadstica descriptiva veremos cmo son los chicos, cmo se comportan como grupo (estadsticos de posicin: media-promedio de actuacin del grupo, moda-valor que ms se repite, mediana-punto que divide a al distribucin en dos parte iguales, percentiles-50% a la izquierda y 50% a la derecha. La desviacin tpica, variable del grupo con respecto a la media (si esta fuera de la desviacin tpica del grupo, el sujeto seria anormal estadsticamente), nos dice la posicin del sujeto, si est cerca o no del grupo, si hay diferencia o no entre los miembros. Nos muestra cunto se desva cada sujeto con respecto a la media. La varianza, nos dice si como grupo somos muy homogneos o heterogneos, variacin total de grupo con respecto a otros grupos. Si la varianza es pequea el grupo ser ms homogneo (parecido) y si es grande, el grupo ser ms heterogneo (ms diferente). Coeficiente de variacin, comparar a un grupo con respecto a otros (CV = (S/X) x 100). Para poder inferir y predecir se necesitan los estadsticos de correlacin (expresan la relacin entre dos o ms conjuntos de puntuaciones o variables). Cuando nos interesa saber la relacin entre dos caractersticas se utiliza la estadstica descriptiva. En la correlacin, dos o ms variables que covaran juntas, nos basamos en las varianzas del grupo. Tambin existen correlaciones mltiples. Los valores de la correlacin directa van de +1 a -1 y los de la correlacin inversa de 0 a +1. Son necesarias las medidas de relacin en: 1. Cuando nos interesa saber la relacin entre dos caractersticas o variables (describir). 2. Cuando estudiamos la relacin entre dos variables para hacer una prediccin a partir de los datos de otra. 3. Determinar hasta que punto un test o instrumento psicolgico es til como instrumento de medicin (fiabilidad). 4. A partir de un instrumento o test pretendemos evaluar las caractersticas actuales de la persona para predecir otras que aun no se han dado (p.e. mejores notas, mejor profesional?) Los estadsticos de correlacin se utilizan en unas condiciones determinadas, por ejemplo, para variables continuas, lineales se utiliza la r de Pearson pero si las

11

12
variables son nominales se utiliza la ji cuadrada (nombran) y para variables ordinales la r de Spearman (cuando se han ordenado). A veces hay variables continuas que las hacemos discretas, variables dicotmicas (p.e. gnero), las que tienen dos categoras (altura, variable continua), la podemos dicotomizar artificialmente (pequeos, altos), ji cuadrada. La mayor parte de la poblacin est en un lmite determinado, media + 3 desviaciones tpicas, se hallan el 99.8% de los sujetos. El 95.4% en + 2 s y el 68.2% + 1 s. Por ejemplo, aqu con una desviacin tpica (s) = 0.5, las notas estara entre 4.5 y 7.5, un 9 seria anormal estadsticamente Preguntas: 1. Cul es la tendencia de esas puntuaciones?, cmo se representan grficamente el conjunto de puntuaciones para saber cmo se comporta el grupo? Para saber la tendencia de las puntuaciones podemos analizar en base a los estadsticos de posicin (media, mediana, moda), en este caso utilizamos la moda porque es la que ms se repite y se representa grficamente un histograma (polgono de frecuencias). 2. A travs de qu estadstico podemos saber el promedio de actuacin del grupo. La media 3. Cmo podemos saber como de bueno es el grupo respecto a otro grupo del colegio? Diferencia de medias, si es significativa (el grupo con mayor diferencia tendr una mejor actuacin). 4. Cul es el nivel tpico de ejecucin de grupo?. Moda (porque nos da el que ms se repite). 5. Los chicos con muy iguales o no entre s, cmo es de amplia su variacin? Estadsticos de dispersin, porque nos dan la posicin del individuo con respecto a su grupo (desviacin tpica), nos dice cmo de homogneo es el grupo. La varianza nos dara la dispersin total del grupo y para saber cmo de amplia es esa dispersin (amplitud o recorrido de una distribucin), le restamos al dato mximo el dato mnimo. 6. Cul es la dispersin de todo el grupo? La dispersin grupal nos la da la varianza (mientras que la desviacin tpica nos dice cunto se desva el sujeto respecto al grupo, los percentiles solo nos dan una posicin aproximada del sujeto-posicin relativa). Cuanto ms te alejas de la media hay mayor dispersin, ms cerca de la media las puntuaciones entre sujetos estn ms cercanas, entre ms lejos de la media ms lejanas las puntuaciones entre los sujetos). 7. Cul es el lugar concreto de un sujeto con respecto a ese grupo? Puntuacin tpica (z), nos da la posicin exacta del sujeto (al tipificar las puntuaciones puedo comparar puntuaciones de diferentes variables). 8. Relacin entre la capacidad de abstraccin y el rendimiento en matemtica, cul es la relacin, se dan juntas estas dos variables. Si covarian juntos (la covarianza nos da la correlacin).

12

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

13

14
Anlisis de los tems Se puede hacer de forma cualitativa o cuantitativa. El anlisis cuantitativo se puede realizar con una tabla de doble entrada, en la parte superior se coloca cada tem con sus alternativas de respuesta y en las columnas se pone la actuacin de cada alumno, que respuesta a dado. La siguiente tabla es un ejemplo de matriz de datos: Su jet o 1 2 3 a X X X X X 1 b c a 2 b X c a 3 b X X X c

Tambin se utiliza en test manipulativos (donde haya una respuesta), es ms difcil en tems de ensayo. Estas tablas se utilizan para cuantificar el test y ver cmo se comportan los tems, se le pide que ordene a los sujetos, de la mayor a la menor puntuacin en el test. Se tomar el 25% con las puntuaciones ms altas y el 25% de puntuaciones ms bajas (se trabaja con el 50% ms representativo de la poblacin, con los datos ms representativos. ndices de facilidad-dificultad: a. ndice de facilidad, para saber si es fcil el test o cada uno de los tems, se calcula: cuntos aciertos ha tenido el tem partido por el nmero total de sujetos a los que se aplico el test por 100. Por ejemplo, si el test se ha aplicado a 180 sujetos y se han obtenido 100 aciertos en un determinado de tem la operacin seria 100 entre 180, por 100. b. ndice de dificultad. Se hace el mismo procedimiento pero en lugar de utilizar los aciertos se utilizan los fallos: fallos entre el nmero de sujetos, por 100. Hay que ver en las personas con mayores puntuaciones los tems que se han hecho mal, si son muchos el nivel de dificultad es grande, pueden estar mal redactados. Viendo los aciertos y errores que tienen el 25% de los mejores y el 25% de los peores. c. ndice de discriminacin de cada tem, se puede hacer de dos maneras: - Cogiendo los aciertos del grupo superior menos los aciertos del grupo inferior, partido n ID = aciertos del grupo superior aciertos del grupo inferior n Si el tem se discrimina bien sale positivo (hay ms aciertos en el grupo superior), si sale negativo significa que el grupo inferior sali mejor. - Si se tienen en cuenta los aciertos, esto nos dice que porcentaje de sujetos del grupo superior han acertado: Aciertos del grupo superior________________ Nmero de aciertos del grupo inferior + aciertos del grupo inferior Tambin hay otros indicadores para saber si es bueno o malo un tem.

14

FILIAL- ICA.

PSICOMETRIA
TEMA 3: LA FIABILIDAD

Mag. Jos Abel Motta Dueas

1. Introduccin La fiabilidad se denomina de diferentes formas: confiabilidad, concordancia, precisin, consistencia, entre otros. Nos indica hasta que punto un test nos da puntuaciones estables, es un test es confiable en la medida que nos da una medida ms o menos exacta. La fiabilidad se analiza viendo si hay cambios, si flucta o no, esta basada en varias observaciones hechas en el mismo test, ver si hay cambios (si son radicales no es fiable), no es estable y no le damos representatividad. Es necesario hacer comparaciones en diferentes situaciones, si existe un acuerdo entre las medidas (acuerdo = fiabilidad, la medida y el instrumento nos dan puntuaciones precisas). La inconfiabilidad de una medida puede ser debida al test (puede estar mal construido o los tems no estn bien construidos) o de elementos externos al test (respuestas al azar, evaluador subjetivo, situaciones externas que alteran la medida, circunstancias personales de cambio). Hay variables externas que pueden alterar la medida, solo podemos saber si un test es confiable por cmo mide, por la medida que arroja (aplicar y analizar la medida que obtengo a travs de l, es la nica forma de saber si es confiable o no), por lo tanto hay que aplicarlo de forma uniforme (normas de aplicacin del test). Es necesario saber investigar empricamente la fiabilidad del test para unos sujetos determinados en situaciones especficas, si cambiamos de sujetos o situaciones habr que cambiar el test. Para cada instrumento y situacin hay que demostrar la fiabilidad, que sirve. El test es relativamente confiable, no existe una fiabilidad absoluta, tambin es relativo al tiempo (puede caducar). Para saber si una medida es estable hay que ver el grado de variacin en el mismo sujeto, hay que aplicar el test varias veces para ver si existe una cuerdo en la medida o no, es necesario comparar una puntuacin con otra, as sabremos la consistencia de la medida. Es necesario comparar las condiciones del sujeto con respecto al grupo, si no varia decimos que es confiable (hay que utilizar baremos, si el percentil que obtenemos es siempre el mismo, la medida es estable): a. Variacin comparado el sujeto consigo mismo (estadsticos de dispersin). b. Variacin con respecto al grupo. Hay que demostrar estadsticamente la estabilidad de las puntuaciones (grado de acuerdo entre las medidas), de puntuaciones obtenidas en diferentes situaciones en un mismo sujeto o grupo de sujetos (se computa a travs de los estadsticos de correlacin). 2. Postulados bsicos La confiabilidad est basada desde el punto de vista de la teora clsica en el modelo lineal de Spearman: una puntuacin que podemos obtener a travs de de la medicin est compuesta por dos elementos bsicos: a. Puntuacin verdadera, la medida real de la caracterstica del sujeto (Pv). b. El error que cometo en la medicin (e). Puntuacin total = Puntuacin verdadera + error A travs de esa teora se puso de manifiesto que cada vez que medimos cometemos errores (p.e. cuando medimos la altura con un metro, el cuerpo se dilata segn la hora, as que podemos obtener alturas con milmetros de diferencia). Lo que queremos con los test es que se acerquen mucho a la puntuacin verdadera y cometamos menos errores. La puntuacin verdadera no se puede obtener directamente, por lo que se toma la media de en que t has medido esa caracterstica bajo las misma circunstancias (p.e. te mides 100 veces con el mismo instrumento, se saca la media de las medidas obtenidas y entonces desprecias las diferencias), as la media de las puntuaciones en la puntuacin verdadera. Siempre que medimos

15

16
cometemos errores, estos errores son diferentes e independientes entre si. Buscamos la fiabilidad que cometa el mnimo de errores posibles y que la medida sea lo ms estable posible. La fiabilidad tiene que ser evaluada estadstica y empricamente, es la proporcin de la varianza verdadera que explica la varianza total. La confiabilidad es una correlacin, cmo varan juntas dos o ms variables, ver si varan o no juntas. Coeficiente de confiabilidad = varianza verdadera al cuadrado / varianza total al cuadrado rxx = Sv2 / St2 Esto es un coeficiente de correlacin que analiza la confiabilidad y se denomina coeficiente de confiabilidad (rxx), nos dice la relacin de las puntuaciones. Es confiable en la media que la varianza verdadera (Sv) vara con la varianza total (St). Si tenemos que Sv = St, estamos diciendo que la confiabilidad es total porque la correlacin es igual a 1. La confiabilidad es la exactitud con que un test mide medidas verdaderas y se expresa empricamente a travs del coeficiente de confiabilidad (que es un coeficiente de correlacn) y que toma valores de 0 a 1, no toma valores negativos pues el test mide una variable que a priori se ha visto que instrumento y variables estn correlacionados. Si los dos valores son cercanos (Sv y St), la divisin va a dar cercana a 1 (p.e. rxx = 2.8 / 2.8 = 1, es la correlacin mxima, es total por lo que el test mide con exactitud, da una medida verdadera). Toda medida conlleva error, cmo sabemos que el error de medida es normal o no?, se encuentra el error tpico de medida (ETM), que se puede calcular a partir de: a. A partir de la correlacin. b. Hacer una distribucin de errores, la hacemos comparando cada puntuacin con la media (puntuacin verdadera) y sacamos la diferencia (puntuacin media) y as tenemos una distribucin de errores. En esa distribucin hallamos las medias de los errores que hemos encontrado, y de ah sacamos la desviacin tpica de errores (ETM = desviacin tpica de errores). Son todos los errores que podemos cometer dentro de la normalidad del grupo. Para saber si la persona se desva mucho o no: Desviacin tpica del error = desviacin tpica total x raz cuadrada de (1- rxx) Se = St (1- rxx) El error tpico de medida de un test est relacionado con la desviacin tpica del test y con su fiabilidad. En el caso de tener una fiabilidad mxima de 1, el error tpico de medida es 0. Cuando la confiabilidad es 0, el error es tan grande que es igual a la desviacin tpica de la medida, la medida cambia por influencia del error, Se = St El coeficiente de confiabilidad y error tpico de medida son dos elementos fundamentales para saber si el test tiene una medida precisa. Hasta que punto el test mide medidas verdaderas (ndice de confiabilidad, correlacin entre las medidas verdaderas y las medidas totales). ndice de confiabilidad = raz cuadrada del coeficiente de confiabilidad Ese ndice es til porque es el tope terico de la validez de un test, cuando ms grande es el ndice de confiabilidad ms probabilidad tiene el test de ser vlido. Nunca un ndice de fiabilidad ser ms pequeo que el coeficiente de validez. La validez del test no puede ser mayor que el ndice de confiabilidad. Todo instrumento para ser vlido tiene que demostrar primero la estabilidad del test (ndice de confiabilidad). 3. Mtodos para encontrar la fiabilidad Existen cuatro mtodos de encontrar la fiabilidad: a. Test retest:

16

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

Consiste en repetir el test al menos dos veces, en dos momentos diferentes en situaciones similares y con un intervalo de tiempo bastante amplio (correlacin de las dos aplicaciones del test, coeficiente de confiabilidad). Este mtodo es prctico, til y relativamente econmico y nos va a dar consistencia interna, si la medida varia o no. cada mtodo nos va a dar una cualidad de la confiabilidad. Hay influencias internas y externas que conllevan errores que no son controlados, dichos errores influyen negativamente en la medida. El dato de confiabilidad es mayor que en otros. Son muy conscientes de que existen errores (p.e. con la misma balanza, en la maana o la tarde un mismo objeto puede pesar diferente). Influyen en la medicin factores como la maduracin, circunstancias personales, contexto, edad, etc. y nos los podemos controlar. b. Test paralelos o equivalentes: Lo importante es elegir un test que sea equivalente al primero, que mida la misma caracterstica y se construido desde el mismo marco terico. Que se haya demostrado que es vlido y fiable (p.e. se aplica el 16PF, punto de referencia, y se compara con la escala de Pinillos). Puede tener intervalo tiempo o no. Se correlacionan esas dos medidas, esa correlacin es el coeficiente de confiabilidad del primer test (el segundo es el punto de comparacin). Tenemos un dato de consistencia externa, porque comparamos la tarea del test con otra tarea, aunque midan lo mismo, no se compara consigo mismo (p.e. se utiliza una balanza para pesar en la maana y otra para la tarde). Tiene la ventaja de mostrar mucha estabilidad en la medida (independientemente de la tarea yo sigo sacando la misma medida). Por ejemplo, con el test retest el sujeto puede aprender o memorizar el test, pues se utiliza el mismo test como punto de comparacin. Controla una serie de errores y otros no, controlar ms errores con un mayor intervalo de tiempo para dejar que se den los errores. (Cada uno de estos mtodos de datos cuantitativos difieren porque el dato se haya de manera diferente pues hemos correlacionado diferentes cosas). c. Mtodo de las dos mitades o subdividido: Econmicamente es ms barato en tiempo, esfuerzo y costo, este mtodo solo necesita una aplicacin del test (no se aplica dos veces, ni con o sin intervalo de tiempo). Una vez aplicado el test se subdivide para hallar los resultados (p.e. se divide en tems pares e impares, equilibrio en dificultad o segn qu evalan). Si la dificultad y la tarea son las mismas en el test, se toman por ejemplo los primeros 30 tems para una parte y los restante 30 para la otra. Se hayan las correlaciones entre ambas partes (r no es igual a rxx) pero si podemos hallar de forma indirecta la confiabilidad del test: r tt = 2 r / 1 + r Es muy utilizado pero no controla una serie de errores, no tiene puntos de referencia externos, da datos poco precisos. Influyen muchos errores que no controlamos, solo nos da una consistencia del test porque compara una mitad con otra, consistencia interna pobre (no compara todos los tems, solo la mitad). d. Estadstica de tems: Una nica aplicacin del test pero en este caso cada uno de los tems es comparado y correlacionado con el test global (p.e. si hay 100 tems se correlacionan los 100). Se utilizan dos frmulas para hacerlo de Kuder-Richardson 20 y 21: a. Basado en la media de aciertos y errores del grupo. b. Basndose en la probabilidad (probabilidad del sujeto de acertar o no)

17

18
4. Comparacin de mtodos Variacion es Medida Retest c/ s/ X X Paralelos* c/ X s/ X Subdividido X Estadstica de tems X

Todos intentan controlar esas pequeas variaciones a travs del error tpico de medida y van a interpretar el dato de confiabilidad con esa posibilidad de cambio. Cambios en X X Tienen en Es ms el sujeto cuenta + caro errores, se Cambio en X X utilizan otros la tarea porque son ms econmicos. Velocidad X X X X No se pueden dar de trabajo Equivalencia de tems para q comparaciones aunque el duren ms o menos lo mismo. evaluador fije un tiempo para Tiene dos aplicaciones y dos acabar el test. velocidades. Cambios en el sujeto por circunstancias personales, motivacin. (* Probabilidad de encontrar un test que realmente sea equivalente al mo). Cambios en la tarea: me gusta ms, mejor definida. Velocidad de trabajo, la medida en s tiene variaciones. Todas las variaciones son fuente de error, al menos tericamente. Tambin cada uno de los mtodos nos dar diferentes caractersticas de fiabilidad: Test retest Paralelos Subdividido Estadsticos c/ s/ c/ s/ Precisin 3 S 4 No 1 2 No 6 No se 5 No se en la maduraci madurac Controla contro controla la controla la medicin n No tarea in no fuentes la consistencia consistencia tarea. de error cambi interna, muy interna. os del pobre sujeto Consiste Muy precaria X ncia X X interna Consiste X X ncia externa Estabilid X X Cronbach ad KuderMs de una puntuaci Richardson aplicacin del mismo n test verdader a Si nuestro test correlaciona bien con las puntuaciones verdaderas tiene que haber ms de una aplicacin del test. Precisin de la medicin, el mtodo que controla ms las Fuentes de error es ms preciso. 5. Fiabilidad y longitud del test Si modificamos la longitud del test (aumento o disminucin del nmero de tems) se modifica la fiabilidad. Generalmente, es ms probable que el test sea fiable un test

18

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

si tiene ms tems (ms muestras de conducta). Al aumentar el nmero de tems, tericamente podemos aumentar la confiabilidad del test, sin embargo en las pruebas excesivamente extensas encontramos variables que influyen disminuyendo la confiabilidad (p.e. dificultad, cansancio, desmotivacin, atencin). Para aumentar la confiabilidad de un test se modifica el nmero de tems: r tt = nueva confiabilidad que quiero. r tt = confiabilidad que tengo. N = nmero de veces que quiero alargar o acortar una prueba. Por ejemplo, en el MMPI: Si disminuye la confiabilidad muy poco, dentro de un margen, nos puede ser til: Aparentemente los test con ms tems tienen ms probabilidad de ser confiables. Si un test corto es fiable, los tems son muy representativos. 6. Fiabilidad y homogeneidad de la muestra En muestras heterogneas (tienen mucha dispersin, variedad de sujetos, muy diferentes entre ellos), la confiabilidad es mayor que en muestras muy homogneas. Si el grupo es muy homogneo (p.e. muy preocupado por su salud habrn menos fumadores), ser ms difcil de acertar en una prediccin y ms difcil en hacer diferenciaciones, se cometen ms errores. En cambio en los grupos heterogneos pasan ms desapercibidos los errores. Los grupos homogneos tienen baja fiabilidad y los grupos heterogneos alta fiabilidad. Un test que demuestre ser muy preciso en la medicin de un grupo homogneo lo ser ms en un grupo heterogneo, ms preciso y ms fiable. Cuando ms grande es la dispersin, eso favorece que el dato cuantitativo de la confiabilidad sea mayor. 7. Fiabilidad de la diferencia de puntuaciones En base a la diferencia entre dos puntuaciones se encuentra la confiabilidad (p.e. capacidad verbal menos notas de lenguaje), hay que tener en cuenta la relacin que existe (lo que tienen en comn desaparece). Distribucin de diferencias en un grupo, al tener todas las diferencias entre las dos reas de todos los alumnos de clase. Confiabilidad ms baja que puntuaciones por separado, de pares de los errores de las dos medidas que influyan en la diferencia. Para saber si los datos son significativos o no: 8. Interpretacin de datos de fiabilidad El coeficiente de confiabilidad tiene valores entre 1 y 0 (1 sera la confiabilidad total). Condiciones para analizar los datos de confiabilidad: 1. Tiene que darnos el error que cometemos (ETM), para interpretar hay que conocer siempre el ETM (el error que yo permito en mi medicin): ms bajo el error y ms el dato de confiabilidad. Puede influir el tipo de tarea, situacin tipo de persona a medir, cambios ambientales y del sujeto. 2. Es necesario ver cmo es la dispersin del grupo (homogneo o heterogneo), longitud del test (largo o corto), cantidad de tems, capacidad del grupo (bajo, medio, alto). 3. Dependiendo del mtodo que el autor escoja para encontrar la fiabilidad, la fiabilidad es ms baja si el test es paralelo o retest, y ser ms alta en los test subdivididos. 4. Analizar respecto a una muestra de sujetos y un test determinado, bien construido, que tenga bajo ETM y un coeficiente de confiabilidad alto.

19

20
Debe existir un equilibrio entre el nivel prctico y el nivel de confiabilidad (el mejor test cuantificable, mucha confiabilidad, y el mejor test para el sujeto, que se adecue para l). Todos los test no sirven para todas las personas, si la confiabilidad est por debajo de 0.5 no es fiable. Problema: Hemos desarrollado una prueba para medir la capacidad para las matemticas que tiene un coeficiente de confiabilidad de test subdividido de 0.84. En la prueba de retest sin intervalo de tiempo se obtiene un coeficiente de 0.85. Buscamos un test paralelo y lo aplicamos una semana ms tarde y obtenemos una confiabilidad de 0.65. Qu ha ocurrido? En el test retest, el coeficiente tendra que haber dado un dato ms bajo, pero hay un dato ms alto porque el sujeto pudo aprender las respuestas que hemos dado en la primera aplicacin. El sujeto responde por aprendizaje, ese aprendizaje puede que haga que los das haya respondido igual (elevada correlacin). Si lo que est en juego no es el rendimiento puede que haya algn cambio (respuesta de memoria). En el test paralelo obtuvo 0.65, la tarea es diferente y por lo tanto no ha habido aprendizaje, controlan ms la fuente de error, pueden haberse dado cambios en el sujeto.

20

FILIAL- ICA.

PSICOMETRIA
TEMA 4: LA VALIDEZ

Mag. Jos Abel Motta Dueas

1. Introduccin: Normalmente buscamos que el test tenga un valor inferencial (adelantarnos, actuar de forma adecuada, hacer pronsticos y tomar decisiones). Ese valor inferencial cuantitativamente es la validez de un instrumento, hasta que punto nos permite predecir o no. Un instrumento no es vlido si no es fiable, primero tiene que demostrar que es fiable, es una condicin sin la cual no hay validez, pero tiene que haber ms condiciones para ser vlido. Con la validez demostramos la utilidad del instrumento, se haya en un proceso permanente, en continua revisin, se ve el uso que se le da. Es vlido para una persona, sistema y tiempo determinado. Si le vamos a dar un uso diferente al test tiene que ser adaptado. La validacin tiene una caducidad (10-15 aos), no hay garantas de que el test sea igualmente til, hay que revisar si aun los datos de validez son aceptables. Al aplicar un test buscamos tres propsitos: 1. Establecer una relacin funcional con una variable. 2. Medimos para analizar rasgos psicolgicos. 3. Analizar comportamientos manifiestos. Todas esas medidas con diferentes propsitos, tienen diferentes tipos de validez: a. Validez predictiva, predecir un comportamiento. b. Validez de contenido (tems) c. Validez de constructo (rasgo) Un mismo test si tiene diferentes usos necesita diferentes tipos de validez. La validez nos tiene que dar la utilidad de un instrumento, hasta que punto es til y es ms til que otros instrumentos que estn en el mercado. 2. Definicin de validez: Un test es vlido cuando mide aquello que pretendemos medir, lo mide bien y mide solo lo que quiere medir (solo esa caracterstica). La validez de un test es la exactitud con la que puede hacer mediciones significativas y adecuadas. En el sentido que solo mide lo que pretende medir, para lo que est construido. Primero hay que analizar que variables o caractersticas desea medir el test y que uso le vamos a dar y en quin lo vamos a medir. Si vamos a medir ms de un uso habr que hallar ms de un tipo de validez. La validez es estimada a travs de un coeficiente de validez (coeficiente de correlacin), correlaciona los datos obtenidos (medidas del test) con los criterios (datos externos). El test no tiene un coeficiente de validez fijo, depende del contexto, sujeto y propsitos (pueden haber diferentes coeficientes en un mismo test). Es necesario saber elegir el criterio adecuadamente para que la validez sirva. Prediccin Validez Fiabilidad Estadsticos correlacin Estadsticos dispersin Estadsticos posicin Observar la realidad 3. Problemas de criterio de validez:

21

22
El criterio no debe estar incluido en el test, debe ser mensurable de forma directa o indirecta que nos permita cuantificar. Un criterio raramente es exacto, puede estar contaminado porque lo mide alguien, nos encontramos criterios parciales pues no son verdaderos. Es importante definir lgica y operativamente el criterio, que guarde relacin con lo que pretendo medir. Aunque el criterio sea adecuado sigue siendo un criterio parcial: el dato de validez es relativo y tambin es relativo a ese criterio. Condiciones de un buen criterio: 1. Adecuado, consideracin lgica, grado en que se acerca a la caracterstica que quiero evaluar y a su contexto. 2. Excepto de prejuicios, ofrece las mismas oportunidades a todas las personas que puedan responder, que no est sesgado. 3. Que haya demostrado confiabilidad, que sea estable en el tiempo mnimamente. Los criterios tambin evolucionan, varan, por lo que hay que revisarlos despus de un tiempo (p.e.10 aos). 4. Deber ser vlido. 5. Disponible, hay que buscar un equilibrio entre un buen criterio y que sea prctico y econmico (no caro en tiempo, esfuerzo, dinero). Todas estas condiciones para elegir un criterio y quien elige el criterio es el autor del test. El criterio debe ser totalmente independiente al test, debe estar valorado por un juez externo al test, nunca puede ser el autor. El criterio puede medir la misma variable del test pero debe ser de forma independiente, no debe interferir el test con el criterio. Para que no este contaminado el criterio, tendr un cierto nivel de subjetividad y error, y eso influir luego en cmo hallemos la validez del test. An as el criterio del test lo elige el autor, no hay criterios absolutamente verdaderos y es responsabilidad del autor y editor que estn bien elegidos. El criterio de validez debe ser independiente al test y muchos autores escogen otro test como criterio de validez, valorado por otros jueces diferentes al autor. En los test paralelos, el propio autor los escoge y los utiliza como criterio de validez, la aplicacin y validez externa no lo hace el autor y hay un intervalo de tiempo entre una aplicacin y otra. 4. Tipos de validez: Hay diferentes tipos, parte de que la validez no es emprica (coeficiente de validez) sino lgica (que se analiza a travs de jueces). Validez lgica, no hay un coeficiente de correlacin, variable cualitativa: - Validez de apariencia. - Validez de contenido (intrnseca, relevancia, circular, representatividad). - Validez de constructo, una parte. Validez emprica o estadstica: - Validez concurrente. - Validez predictiva. - Validez de constructo. - Validez discriminante y convergente. Validez lgica: a. Validez de apariencia. El instrumento parece que mide lo que pretende medir, lo dicen los usuarios potenciales (que representa bien lo que quiere medir). Un test puede tener buena apariencia y no ser bueno, y no siempre los usuarios no valoran bien un test, concierne al juicio de que si el test esta bien o mal construido, implica una tendencia de parte del usuario. No nos da ningn dato acerca de su poder predictivo, no da la imagen del producto para luego hacer orientaciones claras con el. Sirve para saber si es vendible, llama

22

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

la atencin, se valora positivamente (p.e. comprarme una lavadora azul por su apariencia pero sesga nuestro juicio acerca de su calidad). Es el primer tipo de validez, ms superficial, ms sencillo y ms subjetivo b. Validez de contenido. Ms profunda y lgica. Es un validez importante porque nos interroga hasta que punto el test o tem, tienen que ver con los objetivos marcados, representa todo lo que queremos evaluar (p.e. analizar que estos tems representan todas las caractersticas de personalidad, MMPI, se analiza cada uno de los tems de cara a lo que pretenda medir el test, detallar al atributo que quiere medir el test). Describir el constructo de forma calara y precisa segn lo que vamos a medir. Analizar al tem respecto a esa definicin. Anlisis cualitativo: orden, presentacin de los tems, no negaciones, nivel de lectura y vocabulario del sujeto, no tecnicismos. Lo analizan expertos independientes al test, pueden ser profesionales de la propia especialidad u otros, dependiendo del campo y para qu sirva el test. Normalmente son varios jueces los que lo analizan. A veces solo se hace ese tipo de validez, en aquellos en los instrumentos en los que voy a describir al sujeto de forma cualitativa, sin hacer comparaciones (incluso cuantitativamente pero sin hacer comparaciones). Por ejemplo, la escala de miedo, algunos test de rendimiento. Es necesario que los jueces al valorar el contenido y la representatividad tengan en cuenta a quien va dirigido el test y su uso. Validez emprica o estadstica: a. Validez predictiva. Relacionada con el criterio. Es una variable emprica o estadstica, que se halla de forma cuantitativa y por lo tanto, tenemos que definir y elegir un criterio de validez. Tenemos que definir y elegir un criterio de validez. Tenemos que encontrar la validez predictiva cuando nuestro objetivo con un instrumento es predecir, pronosticar o hacer inferencias. Esta validez se halla siempre a travs de un coeficiente de validez, que es una correlacin (se correlacionan los datos del test y los datos del criterio de validacin). Ese criterio lo ha elegido el autor del test, pero no est presente en el test , y lo evala un juez no el autor del test. Los valores de la validez se dan entre 0 y 1, solo se toman los datos positivos. Tambin tiene un error tpico de medida. Los datos del test no se dan a la vez que los datos del criterio (p.e. un sujeto puede puntuar alto en un test de aptitudes para vendedores, luego habr que ver si es un buen vendedor; si tiene una puntuacin alta y tambin es un buen vendedor hay una gran correlacin y una gran capacidad predictiva). En la validez predictiva hay que esperar al futuro para que se de el criterio, debe pasar un intervalo de tiempo. Todos los test con los que voy a realizar un pronstico tienen que tener una validez predictiva (p.e. en la seleccin de personal, orientacin vocacional). b. Validez concurrente. Es una validez emprica y lgica, hay un criterio de validez que tenemos que elegir, sus valores van de 0 a 1 (se correlacionan los datos del test y los criterios que hemos elegido de antemano). Pero a diferencia de la validez predicativa, en la validez concurrente el criterio est presente en el test, en el momento que recogemos los datos (los datos del test y los criterios se dan a la vez). Por ejemplo, para ver la depresin de una persona, tenemos que saber si hoy est deprimido no si se va a deprimir en el futuro. Para hacerlo lo ms rpido posible en situaciones clnicas o de psicodiagnstico, utilizamos instrumentos que tengan ese poder diagnstico (tiene que demostrar su validez concurrente). Un instrumento para diagnosticar, clasificar y predecir tendra que hallar la validez predictiva (caso particular en que se usa) y concurrente. Por cada uso que le demos al instrumento debemos encontrar su validez y por cada tipo de poblacin (si cambio de sujeto o circunstancias cambia la validez). Por ejemplo, si queremos

23

24
saber si un examen de estadstica es un buen test de rendimiento debemos demostrar su validez de contenido, si queremos saber si es un buen predictor de xito en psicometra (validez predictiva) y si lo queremos utilizar para clasificar a los alumnos de clase (variable concurrente). Cualquier validez emprica tambin se analiza con un error tpico de medida (el mismo que el de la confiabilidad, ETM errores a la hora de hacer una medida, cuando mido). El coeficiente de validez est relacionado con el ETM, ms pequeo el ETM mayor validez. c. Validez de constructo. Se denomina tambin validez de concepto, conceptual o de construccin. Es lgica y emprica, es una validez relativamente nueva, la desarroll Cronbach para poder validar mediad psicolgicas, especialmente aquellas que tienen que ver con constructor tericos que se infieren (para saber hasta que punto la teora se corresponde con la realidad). Es una validez ms compleja de hallar y existen diferentes formas de hacerlo: 1. Matriz multivariable o multivalores (Campbell y Fiske). 2. Mtodo de Cronbach y Meehl. 3. Modelos causales para la validez de constructo. La validez de constructo se utiliza para saber el grado de coincidencia entre los planteamientos o hiptesis de una teora y los resultados de una prueba. Tambin para medir los rasgos para los que se construyo el instrumento y ver su eficacia (al validar el instrumento tambin se valida la teora). A travs de las respuestas del sujeto en el instrumento se analiza que la respuesta es correcta y la teora tambin, se hace de forma emprica y lgica, los pasos a seguir son: 1. Especificar el atributo y sus manifestaciones. Definir el atributo que pretende medir el test de forma operativa y lgica. Cuanto ms grande es el atributo ms difcil es saber que variables le pertenecen o no. Tambin es necesario de limitar una parte de la realidad, determinar al constructo dentro de unos lmites, especificar para poder medir. Al mismo hay que definir que tipo de variables le pertenecen, una o ms (si hay ms, cmo se relacionan entre s) y que pesos tienen esas variables para analizar ese atributo. 2. Determinar el grado en que las observaciones se correlacionan entre s. 3. Peso de las variables sobre el atributo. No hay un criterio externo nico que pueda tomarse de base para la validez emprica (si no hay un criterio externo no podemos hacer una validez emprica, correlacionar los datos del test y del criterio), otras formas de hallarla, cada autor la desarrolla de una manera determinada: Mtodo de Cronbach-Meehl. Para hallar la validez emprica, esta basado en que el atributo se puede manifestar de diferentes maneras: 1. Lgico: comparar cada uno de los tems de la prueba con la definicin del atributo que hemos definido (si lo representa o no). Emprico: comprando cada uno de los tems con el test total (puntuacin). 2. El test tiene que mostrar una correlacin ms alta con otros instrumentos que estn diseados para medir la misma caracterstica, que con instrumentos que estn diseados para caractersticas diferentes. 3. Trabajar con diferentes grupos (p.e. que en un grupo se da ms la socializacin que en otro), esperamos a priori que haya una diferenciacin de grupos, si est bien construido el test tiene que detectar esa diferencia (ver si tiene poder diferenciador ese test). 4. Si yo intervengo experimentalmente, deliberadamente para cambiar las manifestaciones del atributo, el test debe detectar los cambios en el grupo que he tratado (detectar un tratamiento experimental).

24

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

5. A travs de hiptesis contrarias (p.e. test de socializacin y test de habilidades intelectuales), si el test mide otras cosas, no las para las que esta construido, est mal construido, si correlaciona con otras variables para las que no ha sido construido. Todas estas fases se basan en la correlacin (inferencias algo que pronosticas, medir algo que tienes hoy). Pueden ser varias variables en el mismo atributo y se pueden evaluar varias (p.e. cuatro variables de un atributo) pero no se pueden evaluar dos atributos. Lo ideal es hacer todas estas fases para ser exactos o sino no queremos hacer todas: tenemos que coger siempre la primera y una ms (algunos autores toman solamente alguna). Mtodo de Campbell y Fiske. Aunque define lgicamente los atributos es un mtodo bastante cuantitativo-emprico. Utiliza varios mtodos para evaluar varias variables (tres mtodos por cada uno de los atributos, ms sencillo 3 mtodos-3 variables). Matriz de correlaciones: son correlaciones mltiples, coger tres test para medir tres cosas diferentes, se van a correlacionar todos los test con todas las variables. Validez ndice de confiabilidad r Coeficiente de confiabilidad tt Correlacin Coeficiente de confiabilidad (r tt). El ndice de confiabilidad (raz cuadrada de r tt) nos dice hasta que punto las puntuaciones obtenidas de un test correlacionan con las puntuaciones verdaderas de un sujeto. Capacidad de detectar puntuaciones verdaderas, ms all de ese ndice no puede ir la validez (es el tope terico de la validez, p.e. si el ndice de confiabilidad es de 0.85, la validez no puede ser mayor). Cuanto ms alto es el ndice de confiabilidad existe ms oportunidad de que el test sea vlido, luego hay que comprobar de que realmente es vlido el test Ejemplo: Variables: socializacin, depresin y personalidad. Mtodos: Test de socializacin para adolescentes (TSA, es el que quiero validar), Test de depresin de Beck y 16PF. Hago una matriz de correlacin con ellos: A TSA B 16PF C - Beck Socializacin (1) r A1 r B1 r C1 Personalidad (2) r A2 r B2 r C2 Depresin (3) r A3 r B3 r C3

Cuando medimos con el A, detectamos algo de las otras caractersticas (B, C). La correlacin tiene que ser mayor a 0 y es necesario contrastar la relacin de A, B y C con 1 ( para que demuestre que sirve para lo que fue construido y mide mejor que otros), la correlacin de A con 2 y 3 tiene que ser menor. La mayor correlacin de la matriz tiene que ser A-1 y 1-A porque para eso ha sido construido. Si otros test correlacionan con mi caracterstica (socializacin) significa que otros test en el mercado miden mejor que mi instrumento o que mi instrumento mide otras cosas. Anlisis cualitativo: especifica el contenido del constructo que quiere evaluar, el grado en que todas o algunas de las reas del contenido que correlacionan entre s y el peso de cada una de las reas (delimitacin de contenido).

25

26
d. Validez discriminante. Si tuviramos varios mtodos que evalan la misma variables (p.e. sociabilidad: TSA, Bell y BAS), tratar de valorar que test correlaciona ms con la variable. Si un test tiene capacidad discriminativa es el test que mide mejor esa variable (el mejor que correlaciona con esa variable), los otros test medirn la variable con menos eficacia. e. Validez convergente. Conseguir que la correlacin de rA1 es mayor que rB1 y rC1. Mi instrumento correlaciona ms con la variable. En r AB y rAC tiene que existir una correlacin significativa para comprobar de que estamos tratando con la misma variables (si miden la misma variable tienen que correlacionar entre s). r BC no nos interesa esa correlacin porque se supone que ya esta validada y lo que nos interesa es comprobar que nuestro test correlaciona con los otros (B-C) que ya estn validados. (Los test deben ser validados en la misma poblacin: A, B y C en Espaa no en diferentes pases). Dependiendo del uso que le quiera dar al test tendr que escoger un tipo de validez (p.e. si quiero diagnosticar y clasificar utilizar la validez discriminativa y convergente). Antes de empezar a analizar el coeficiente de validez es necesario saber: 1. Cmo se ha definido la variable o caracterstica que interesa medir?, qu pretende medir el test? 2. En quin lo mide: tipo de poblacin, en que muestra se ha validado el test? 3. Cul ha sido el criterio de validez? 5. Interpretacin del coeficiente de validez: Teniendo en cuenta esto, no hay un dato de validez exacto, es muy relativo y no podemos comparar la validez de un instrumento con la de otro, debe cumplir unas condiciones: que midan la misma variable, construidos en base a la misma poblacin, que tengan un mismo uso y utilicen el mismo tipo de validez. Adems tenemos que analizar: 1. El error tpico de medida (ETM), cuanto ms pequeo es, ms probabilidad de que el instrumento sea vlido. 2. El coeficiente de confiabilidad del test y su ndice de fiabilidad: a mayor coeficiente e ndice de confiabilidad, mayor probabilidad de que el test sea vlido. 3. Cuanto mayor es la confiabilidad y validez demuestre el criterio, es mayor la probabilidad de que el test sea vlido. 4. En ms fcil encontrar un coeficiente de validez en grupos heterogneos (a priori sabemos que los datos cuantitativos van a ser mayor que en grupos homogneos porque el error tpico de medida influir menos en el grupo heterogneo). 5. Tipo de grupo que es, es disperso o no (por la varianza y desviacin tpica del grupo). 6. Finalidad y usos del test, as tendremos diferentes tipos del coeficiente de validez. El criterio no es confiable porque puede estar contaminado: no elegir bien el criterio, que no plasme bien el criterio verdadero, que este valorado por jueces muy subjetivos y que no haya un acuerdo, validez de forma poco representativa (no son medidas adecuadas, superficiales, no significativas) o porque est sesgado el propio criterio (ms oportunidad de salgan mejor unos sujetos que otros). Todo esto puede reducir la validez porque no est bien diseado. El criterio debe ajustarse a las circunstancias y a la poblacin, no siempre sirve el mismo criterio. Un instrumento es vlido segn para quin y para qu, por lo tanto, los datos de validez siempre son relativos y tienen que validarse continuamente (cada 10 o 15 aos) pues cambian los grupos, las condiciones, hay que validar el uso del test no el test en s. Tambin hay que valorar la practicidad del test, que existe un equilibrio entre la validez del test emprica y prctica).

26

FILIAL- ICA.

PSICOMETRIA
TEMA 5: LA PREDICCIN

Mag. Jos Abel Motta Dueas

Sobre la validez estara al prediccin, si no es valido un instrumento no es predictivo y para que prediga debe haber demostrado su validez predictiva. La prediccin es fundamental siempre que hagamos diagnsticos, orientacin vocacional, seleccin, consejo, toma de decisiones, terapia o intervencin (p.e. un diagnstico me permite hacer un pronstico, una prediccin). Nuestra labor profesional est basada en gran medida en anticiparnos al futuro. Los test son indicadores parciales de lo que puede suceder en el futuro, hacer pronsticos relativos a una circunstancia y tiempo determinados. Para hacer una buena prediccin debemos recoger informacin de diferentes tcnicas, y combinar los resultados obtenidos (ellos nos asegura de que se cumplir la prediccin) y esos test deben haber demostrado su validez predictiva. Nos sirven para anticiparnos, nos permite crear metas, dirigir y controlar el comportamiento, adecuarnos a las circunstancias. Desde el punto de vista psicomtrico, la prediccin nos ahorra tiempo y esfuerzo, y estadsticamente primero hay que demostrar que predice y con qu exactitud lo hace. Basado en la relacin entre dos variables, si covaran juntas (si yo s los datos de una variable puede en base a ellos predecir la otra). Est prediccin puede ser ms o menos exacta, dependiendo del poder predicativo del instrumento, pero esa tcnica va a cometer errores (errores que cometemos en x), van influir en que la precisin de la prediccin sea alta. Primero est el error de medida y luego el error de estimacin (los que cometemos en la prediccin); ambos influyen en la exactitud de la prediccin: menos errores ms posibilidad de que mi prediccin sea exacta. Relacin entre variables: Entre ms correlacionen las variables existe mayor probabilidad de que la prediccin se cumpla, por ejemplo, hay mayor probabilidad de que nuestra prediccin se cumpla cuando las dos variables tienen mucha relacin). A ms correlacin ms facilidad en predecir una en base a la otra. Circunstancias y sujetos: La prediccin es ms fcil cuando el grupo es muy grande y cuando es ms heterogneo, tenemos tambin ms posibilidad de prediccin. Es ms fcil predecir en grupo que a nivel individual (ms dificultad de hacer y acertar), ms grande el grupo ms facilidad de predecir. Un instrumento que predice bien a nivel grupal no siempre es bueno a nivel individual. Un test validado en un grupo heterogneo no siempre es un buen predictor para un grupo homogneo. Los elementos cuantitativos que influyen en la prediccin: a. Si correlaciona mucho con el criterio. b. Cometer los mnimos errores posibles de medicin y estimacin (influyen ambos tipos de error en la medicin). Error relativo: El error relativo es igual al coeficiente de alienacin (k) que multiplicado por 100 nos dice el error que se comete cuando se predice. Viene expresado por el error tpico de estimacin en la desviacin tpica del criterio. Cuanto mayor es el error de estimacin, cuando ms se acerca a la desviacin tpica del criterio es menos probable de que la prediccin se cumpla. K = Syx = Error tpico de estimacin, error que cometo cuando a partir de x predigo y. Sy Desviacin tpica del criterio.

27

28
K x 100 = Error relativo que cometo en la prediccin, es decir, la inseguridad que tengo al predecir un criterio y en base a un criterio x. Basado en que yo cometo errores de medicin y estimacin, si el error de estimacin es muy grande mi prediccin se cumplir al azar, pero si el error influye poco hay ms garanta de que mi prediccin se cumpla (influye menos en la prediccin). Coeficiente de valor predictivo (e = 1 k (100)): Es contrario al coeficiente de alienacin, e = 1-k multiplicado por 100, expresa el porcentaje se seguridad que podemos tener en la prediccin que vamos a hacer. Si la correlacin de un test es positiva (la variable correlaciona con el criterio), si yo se una puedo predecir la otra (cunta seguridad tiene mi prediccin: k y e. Si k=0.2, entonces e=1-0.2=0.8) Coeficiente de determinacin (d): Nos ayuda a analizar la prediccin en un test, se haya elevando al cuadrado la correlacin entre x y y. d = r xy 2 Nos explica hasta que punto la varianza del criterio est explicada por el test, si la varianza varia con el test (si varan juntas, correlaciona con el criterio, si yo cambio en el test y cambia el criterio = ms posibilidad de que cuando predigo el criterio acierte). La parte de la varianza total del criterio que no es explicada por el test es la varianza residual o parcial. Si el test es capaz de explicar gran parte de esa varianza, el test va a predecir mejor. Todos estos coeficientes van a determinar si el test tiene capacidad predictiva o no: Factores a tomar en cuenta para saber si un test tiene capacidad predictiva: 1. Que el test correlacione altamente con el criterio. 2. Que el error estndar de medicin y el error de estimacin sean bajos. 3. Alto coeficiente de confiabilidad. 4. Alto ndice de confiabilidad en el test. 5. Alto coeficiente de validez predictiva, entre ms alto sea mejor. 6. Coeficiente de alienacin bajo y alto coeficiente de valor predictivo. 7. Coeficiente de determinacin alto. 8. Que el test sea suficientemente largo (si es muy corto menor probabilidad de que sea predictivo). 9. Se cumple ms fcilmente la prediccin con sujetos muy heterogneos (ms exacta), que en grupos homogneos. 10. Hay una correlacin estadstica por inconfiabilidad o por atenuacin que permite mejorar la prediccin del test. Mejora el valor predictivo del test: r TC = Nueva correlacin test-criterio. r tc = Correlacin test-criterio. r cc = Confiabilidad del criterio. r tt = Confiabilidad del test. Por ejemplo, en el test de aptitudes para la comunicacin, tiene que existir una correlacin que tiene que darse entre el test (alta puntuacin) y el criterio (buen presentador), si se da una correlacin obtenemos la validez predictiva del test (correlacionan los datos del test con los datos del criterio). Si quiero mejorar esa prediccin (rTC) tengo que ver si falla el criterio (r cc) o el test (rtt). Utilidad de la prediccin: Se puede utilizar en la seleccin de personal, orientacin vocacional, programas de entrenamiento, toma de decisiones futuras, terapia, entre otros. An as los test son indicadores parciales, relativos y falibles, no hay una prediccin exacta, por lo tanto

28

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

nuestros pronsticos son relativos y caducos (vlidos para cierto tiempo no para toda la vida). Al hacer predicciones psicolgicas se debe hacer con ms de una fuente de informacin. Combinar varias tcnicas y varias fuentes, es lo ms factible para asegurarse de que se va a dar nuestra prediccin.

29

30
TEMA 6: TIPIFICACIN Y BAREMACIN Los test nos permiten obtener datos cuantitativos y cualitativos, arrojan resultados que en s mismos (puntuaciones brutas) no dos dicen mucho, pero obtener ms informacin cuando la comparamos con los resultados obtenidos por otros grupos, as podemos interpretarla. Existen dos formas para comparar los resultados, dependiendo de la forma en que ha sido construido el test (por normas o por criterios), son las siguientes: a. Normas. Se compara al sujeto con un grupo de referencia (otros sujetos). b. Criterios. Se compara al sujeto con respecto a un objetivo a lograr (lo puedo comparar consigo mismo), hasta que punto se la logrado o no el objetivo propuesto (p.e. en lugar de comer una tableta de chocolate comer solo dos onzas al da). La mayor parte de los test estn construidos en base a normas, fundamentados en la teora clsica de los test. Por lo tanto: 1. Se posiciona al sujeto dentro de un colectivo, un grupo de referencia en cuanto a una caracterstica. Existen diferentes formas de posicionar al sujeto, por medio de percentiles, desviacin tpica... 2. Los resultados obtenidos se comparan y el sujeto adquiere una posicin relativa a un grupo de referencia (grupo normativo). Los test basados en criterios tienen las siguientes caractersticas: 1. Se construyen y aplican con el fin de saber si un sujeto ha conseguido el objetivo o no. 2. Para diferenciar si un sujeto se puede catalogar como apto o no para una tarea determinada. 3. Clasifico en base a la puntuacin obtenida por el sujeto (lo comparo consigo mismo). 4. Existen diferentes tipos de poblacin por lo que se utilizan puntos de corte, es decir, puntuaciones que diferencian, p.e. a un depresivo de un no depresivo, es el punto donde se divide la poblacin (hasta aqu es normal...), diferencia la poblacin normal de la clnica. Tambin existen diferencias en cuanto a cmo se hace la comparacin y las inferencias: - Normas. Juega un papel primordial la varianza, lo que se busca es una diferenciacin, hacer una discriminacin entre sujetos del mismo. Por ejemplo, cuando se utiliza la campana de Gauss para obtener la nota de un examen, la puntuacin se obtiene en base a las notas del mismo grupo. - Criterios. Se trata de que todos los sujetos puedan llegar al objetivo, no importa la varianza. En los tipos de test hay que encontrar la fiabilidad pero en: a. Los test basados en criterios, se hace nfasis en que la fiabilidad se da en las clasificaciones que hago en base a los criterios. b. Los test basados en normas, la fiabilidad est en las medidas que tomamos (un test es fiable si la medida es fiable). Ambos tipos no son excluyentes, se pueden complementar. Para qu sirven los test normalizados? Para transformar las puntuaciones brutas en puntuaciones indirectas, es decir, para comparar a un sujeto con el grupo. Tipificar, es el establecimiento de las normas que nos va a permitir comparar. Las normas se extraen siempre del promedio de actuacin de un grupo de referencia (grupo normativo) al que tiene que pertenecer el sujeto o en base a la muestra de normalizacin, pero debe ser realmente representativa de su poblacin de referencia. Para tipificar un test se siguen los siguientes pasos: 1. Acotar la poblacin a la que va dirigida el test.

30

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

2. Elegir una muestra normativa (parte representativa de la poblacin) para poder hacer inferencias a la poblacin. 3. Para elegir la muestra utilizamos un muestreo (proceso de eleccin de muestra, extrayndola de la poblacin). Para hacer el muestreo se utilizan diferentes mtodos: probabilstico, intencional u opintico, circunstancial o errtico, etc.; y a su vez existen diferentes tcnicas para llevarlo a cabo: aleatorio simple, por etapas, estratificado, etc. 4. Establecer normas de comparacin (edad, sexo, grado, nivel socioeconmico, cultura) 5. Aplicar el test. 6. En base a las normas se analiza la forma de actuacin del grupo normativo y obtiene la media de actuacin. Los mtodos ms usados para describir la posicin de un sujeto respecto al grupo son: a. Puntuacin tpica (z). b. Rangos percentiles. Son ms fciles de usar e interpretar pero no son exactos en la posicin, conllevan ms errores. La puntuacin tpica (z), es el nmero de desviaciones tpicas (relacin directa con las puntuaciones brutas) con respecto a la medida que tiene un sujeto. Est puntuacin tpica (z) significa lo mismo en cualquier distribucin, tambin en diferentes grupos y variables. Se puede comparar un test con otro y tenemos una posicin exacta de la persona (cunto se dispersa su grupo). La media de una puntuacin z es igual a cero. Baremos, tablas de comparacin, de transformacin de puntuaciones. Estn construidos en base a una o varias escalas normativas (se aplican a un grupo o muestra y en base a ella luego se hacen inferencias para la poblacin). Existen diferentes tipos: a. Cociente intelectual (CI). Se trata de comparar la edad cronolgica (EC) con la edad mental (EM). Es la media de actuacin de cada edad, punto de referencia. En base a ese promedio, por ejemplo, sabemos que un nio de 6 aos que ha obtenido 8 puntos est en la media esperada para su edad, si saca 10 puntos est por encima de la media de su edad y tiene una edad cronolgica de actuacin de un nio de 8 aos. CI = (EC/EM) x 100 Ventajas: el CI tiene un uso universal y una interpretacin generalizada. Desventajas: el desarrollo es diferente segn la edad y la interpretacin es diferente, el CI es dependiente de eso. Es difcil ver las diferencias despus de los 18 aos. b. Escalas centiles. Ordenan al grupo, respecto a la actuacin que todos los sujetos tienen. Pueden ser centiles o percentiles. X f fa Pa Z Zn 8 1 1 1 -2.64 -2.33 9 2 3 2 -2.04 ... 10 6 9 8 -1.45 ... 11 12 21 19 -0.86 ... 12 24 45 41 ... ... ... 10 ... ... ... ... N= 100

31

32
Eneatip o 0 --------Los percentiles son bastante usados pero son poco estables. Son porcentajes y no tienen equivalencia unos con otros, solo se pueden comparar los que --son de la misma distribucin y variables. Por ello, se --utilizan las puntuaciones tpicas z, pues son 12 transformaciones lineales, el sujeto mantiene la --misma posicin, nos da una idea exacta de la --puntuacin del sujeto. Puede comparar entre grupos, dentro del mismo grupo, con el propio sujeto, comparar una variable con otra, se pueden hacer mltiples comparaciones. La desventaja es que z tiene un valor de + 3, es un lmite muy corto, no son enteras las puntuaciones, se pueden tener puntuaciones negativas y son ms difciles de interpretar por ello se utilizan menos. c. Puntuaciones tpicas normalizadas (Zn). Son puntuaciones transformadas y normalizadas, se ajustan a la curva normal. Pueden ser eneatipos o estaninos (media 5 y desviacin tpica 2), puntuaciones de 0 a 9, y decatipos (media 6 y desviacin tpica 2), puntuaciones de 1 a 10. Un decatipo se puede comparar con otro, es ms estable que el percentil. Son fciles de interpretar y son positivas. P. directa x 8 9 10 11 12 Percent

32

FILIAL- ICA.

PSICOMETRIA
PSICOMETRA

Mag. Jos Abel Motta Dueas

Fuentes de informacin sobre los test I Bases de datos: - Psyc INFO - Psyc LIT - Mental Measurement online database (Buros Institute). - The Mental Measurement yearbook (1998, CD-Rom). Catlagos: - The 13th Mental Measurements yearbook (1998). Posee 19 reas de evaluacin y no es comercial. Distribuidoras comerciales: - P.A.R. Psychological Assessment Resources (ingls y castellano). - T.E.A. Ediciones (castellano). - Lafayette Instruments. - The Psychologial Corporation. - CTB McGraw-Hill. - The Thames Company. Fuentes de informacin sobre los test II Artculos revistas especializadas: - Psychological Bulletin. - Psychological Review. - Psychoilogical Assessment. - Educational and Psychological Measurement. - Journal of Personality Assessment. Organizaciones: - A.P.A. (Servicio de Finding Information about Psychological test). - A.E.R.A. (American Educational Research Association). - N.C.M.E. (National Council a Measurement in Education). - International Test Commision. - Personnel Testing Council. Libros / Compendium: - Manuales de cada prueba. Otros: - Docimotecas. Seis criterios de clasificacin de test Estandarizado / No estandarizado. En los test estandarizados el evaluador lee las instrucciones al sujeto, est establecido a priori cmo debe administrar la prueba hasta el ltimo detalle. - Posee normas de correccin / administracin. - Esta diseado por experto (psicometra). - Dirigido a un grupo especfico de poblacin (p.e. sexo, edad, discpacidad). Individual / Grupal. Los test grupales tienden a perder calidad de la informacin. - Velocidad / calidad. Objetivos / No objetivos. - Criterios fijos y precisos a priori de respuestas concretas. Cronometrados / No cronometrados. Verbal / No verbal. Verbal, preguntas y/o respuestas de contenido verbal (escrito u oral). No verbal = manipulativo o de ejecucin, p.e. un rompecabezas. En este aspecto hay que tomar en cuenta que no existan sesgos culturales. Cognoscitivos (logro-aptitud) / Afectivos (intereses, valores, temperamento).

33

34
Medidas de logro, evalan conocimiento pasado. Capacidad de un sujeto en un mbito concreto, capacidad adquirida en el pasado hasta el momento de la evaluacin. Medidas de aptitud, capacidad futura para desempear una labor (p.e. pruebas de seleccin de personal que miden una posible ejecucin futura en un puesto concreto). Afectivo, estado emocional concreto, generalmente cuestionarios de depresin.

tica y normas para el uso de los test Cdigos: - Cdigo deontolgico del C.O.P. (Colegio Oficial de Psiclogos 1987-1993) - Standards for the distribution of psychological testing (A.P.A., 1985) - Ethical standards for the distribution of psychological test and diagnostic aids (A.P.A., 2001 2a Edicin) - Guidelines for computer based test and interpretations (A.P.A., 1986) - Principles for the validation and use of personnel selection procedures (Society for Industrial and Organizational Psychology, 1987) Principios especficos para: a) Poblacin con necesidades especiales. b) Administracin, correccin, interpretacin por ordenador. Sistema de clasificacin para la aplicacin de test: a) Nivel A. Pruebas auxiliares que pueden administrarse y corregirse adecuadamente con un buen conocimiento del manual y una orientacin general por parte de un profesional. Requisitos: licenciatura, magisterio o diplomado en Psicologa. b) Nivel B. Requieren conocimiento tcnico de Psicologa, Estadstica y Psicologa de las diferencias individuales (p.e. procedimiento de adaptacin, actitudes). Requisitos: licenciado en Psicologa. c) Nivel C. Requiere una comprensin exhaustiva de la aplicacin de la prueba y otros campos psicolgicos de apoyo junto con experiencia previa supervisada en su administracin, correccin e interpretacin. Requisitos: doctorado en Psicologa o programa especfico postlicenciatura. Requisitos para los usuarios de los test. Un no psiclogo puede... adquirir, administrar y corregir un test, interpretarlo y sacar conclusiones? De quin es la responsabilidad de que los test se empleen de forma correcta? Derechos del evaluado Derecho a dar o no su consentimiento informado para la prueba. Derecho para permitir ser evaluado, este consentimiento tiene carcter legal ya sea dado oral o escrito pero principalmente escrito (p.e. es un procedimiento legal y tico para una evaluacin psicolgica, filmarla o utilizar la informacin confiada). Deber cumplir ciertas caractersticas: - Saber porqu se le est evaluando. - Qu otros modos de evaluacin existen. - Cmo se usarn los resultados. - Qu informacin ser revelada, a quin y con qu objetivo. Pueden darse algunas excepciones para romper este derecho, p.e. en un procedimiento judicial que presente una notificacin oficial escrita. Derecho a ser informado del resultado. a) En contra de la tendencia pasada (antiguamente la informacin de una evaluacin era entregada a la persona que la solicitaba y no a la persona evaluada). b) En un lenguaje accesible para la persona.

34

FILIAL- ICA.

PSICOMETRIA

Mag. Jos Abel Motta Dueas

Derecho a que no se viole su privacidad: principio de confidencialidad de los datos. b) Concepto de informacin privilegiada, proteccin de los derechos del evaluado en un tribunal. No es absoluto (tica, orden judicial). c) Concepto de perpetuidad, dentro de la consulta privada se establecen un mnimo de 3 a 5 aos para guardar los resultados de una evaluacin. Derecho a la clasificacin menos estigmatizadora. Tratar que los resultados concluyan con la etiqueta menos negativa para la persona, sin olvidar que el resto de informacin sea coherente con los resultados del test. Pero... qu ocurre en el caso de un menor, una persona incapacitada legalmente? El tutor representa los derecho de la persona. WAIS III El WAIS se cre en 1939 y su ltima versin en castellano, WAIS-III sali en 1999 al mercado. Este test consta de 14 subtest, 7 verbales: vocabulario, semejanzas, aritmtica, dgitos, informacin, comprensin y letras/nmeros; y 7 subtest manipulativos: figuras incompleta, clave de nmeros, cubos, matrices, historietas, bsqueda de smbolos y rompecabezas. Sus objetivos son: - Estimular el rendimiento intelectual general de la persona. - Diagnosticar retardo mental (CI total inferior a 70), diagnstico persona superdotada. - Diagnosticar dficit neurolgicos. La nueva versin de la escala tiene entre otras novedades: Introduccin de subtest nuevos, para el CI no es necesario aplicar todas las pruebas (12). Ampliacin de la franja de edades de la muestra estandarizada (+16). Modernizacin de materiales. nfasis en conceptos muy actuales: memoria de trabajo, razonamiento fluido y abstracto, relativizar la importancia de la ejecucin rpida en la poblacin adulta. Relativizar la divisin en dos nicos aspectos de la inteligencia: CI verbal y CI manipulativo, aparecen los ndices parciales: comprensin verbal, memoria de trabajo, organizacin perceptual, velocidad de procesamiento. Correccin: la puntuacin directa (PD), es el resultado que ha obtenido el sujeto en el test. Se van a obtener 14 puntuaciones directas que por s mismas no nos dicen nada del rendimiento. Las puntuaciones directas se transforman en puntuaciones escalares (Pe), este proceso de conversin est ajustado al grupo de referencia (se corrige la PD en funcin del grupo de edad). Por ejemplo, en una persona mayor de 70 aos las puntuaciones escalares sern menores que las de uno de 21.

35

You might also like