You are on page 1of 30

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

NOTAS SOBRE EL ANLISIS DE DATOS

INTRODUCCIN

Los presentes apuntes, son notas introductorias al componente de estadstica del curso. En el se recogen elaboraciones que he realizado para este curso, ms otras sacadas de textos y aportes Profesor Alejandro Vsquez, las cuales se encuentran debidamente sealadas.

EL ANLISIS DE DATOS. INTRODUCCIN Una primera aproximacin al concepto de datos, se puede realizar desde el enfoque positivista, donde dato alude a una realidad externa, independiente del sujeto. As dato, haciendo referencia a la etimologa de la palabra significa lo dado. Sin embargo desde otros enfoques, como el interpretativo, los datos son todas aquellas informaciones relativas a las interacciones de los sujetos entre s y con el investigador, sus actividades y los contextos en que tiene lugar, la informacin proporcionada por los sujetos bien a iniciativa propia bien a requerimientos del investigador, o por los artefactos que construyen y usan (documentos escritos u objetos materiales) (Gil Flores, 1994:25). Aparece en este enfoque la idea del dato como una construccin, a partir de las creencias y supuestos previos que estn atravesados por la cultura

Anlisis estadstico univariado El anlisis de datos depende de la calidad y cantidad de stos. Este tipo de anlisis involucra el anlisis de cada variables de estudio, lo que implica la construccin de una tabla de frecuencias, en la cual se incluyen los distintos valores que toman las variables, acompaado por su frecuencia, es decir, el nmero de veces que aparece. Utilizacin de estadsticos Medidas de tendencia central Media la medida ms representativa siempre y cuando la variable sea cuantitativa. Incluye a todos los valores de la distribucin. Se ve afectado por valores muy extremos Mediana valor que divide la distribucin en dos partes iguales, o sea, se sita al medio de la distribucin. Supone variable de medida ordinal y no se necesitan todos los datos. La moda es el valor de mayor frecuencia en la distribucin y puede ser unimodal (una sola moda) o bimodal o multimodal. Se utiliza para cualquier tipo de variable.

Cul elegir? Debe ser la media, por su mayor nivel de medida, porque al basarse en todos los datos puede describir mejor stos. Es el mejor estimador

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

de los parmetros de una poblacin. Medidas de dispersin Referida a la representatividad, ligado a la mayor o menor variabilidad Rango o recorrido La desviacin tpica que es el promedio de la desviacin de los casos con respecto a la media. Se utiliza calculando la media. Slo variables cuantitativas La varianza definida como el cuadrado de la desviacin tpica. Expresa el grado de heterogeneidad de una poblacin respecto de la variable medida

Anlisis bivariables El anlisis bivariado es aquella rama de la estadstica que estudia el comportamiento simultneo de dos variables, representativas de dos tipos distintos de fenmenos. El anlisis bivariado es un caso especial del anlisis multivariado, es decir, aquel anlisis que estudia la existencia de relaciones de asociacin o dependencia entre varias variables. El anlisis bivariado permite descubrir si dos fenmenos se comportan en forma simultnea, pues la ocurrencia de uno de ellos puede ocasionar la ocurrencia del otro. En tal caso hablaremos de la existencia de una relacin de causalidad entre ambos fenmenos, y uno de ellos podr ser considerado la causa del otro. Sin embargo, y como veremos ms adelante, slo en raras ocasiones puede llegar a demostrarse una relacin de causalidad entre dos o ms variables. Pero s es posible muchas veces descubrir la existencia de una asociacin o correlacin entre variables, que indica que dos fenmenos varan en forma simultnea. Esto puede ser analizado a travs de dos tipos de pruebas estadsticas: pruebas paramtricas y pruebas no paramtricas. Entre las primeras la ms conocida es el anlisis de regresin, y entra las segundas, la prueba de 2 (Chi-Cuadrado). SE utiliza tanto con fines descriptivo como explicativos. Tablas de contingencia cruce de al menos dos variables. Si se toma el total de filas el porcentaje ser horizontal y las comparaciones entre sub grupos se harn verticalmente.

Anlisis multivariable El anlisis estadstico multivariado permite estudiar el comportamiento simultneo de una gran cantidad de variables. Ejemplos de anlisis multivariados ms conocidos son el anlisis de regresin mltiple, el anlisis factorial, el anlisis de conglomerados (clusters), el anlisis discriminante, el anlisis de varianza multifactorial, el anlisis de correspondencias mltiples y el anlisis log-lineal. Operan con un nmero elevado de variables de manera simultnea.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

Cuadro 1. Caractersticas de los mtodos cuantitativos y cualitativos de reunin de datos

Mtodos cuantitativos Uso Para medir numricamente quin, qu, cundo, dnde, cunto, cuntos, con qu frecuencia. Entrevistas normalizadas; encuestas utilizando preguntas de respuestas limitadas; observacin. Proporcionan datos irrefutables cuantitativos, exactos y precisos para probar que algunos problemas existen Pueden analizar las relaciones estadsticas entre un problema y las causas evidentes Pueden proporcionar un amplio panorama de toda una poblacin Permiten hacer comparaciones Establecen informacin de referencia que se puede utilizar para evaluar los efectos. Podran ser precisos pero no medir lo que se desea No pueden explicar las causas subyacentes de las situaciones.

Mtodos cualitativos Para analizar cualitativamente cmo y por qu.

Ejemplos

Entrevistas libres y dirigidas (incluidos grupos focales); encuestas utilizando preguntas de respuestas abiertas; observacin; interpretacin de documentos. tiles al planificar un programa interesado en el cambio social Proporcionan una comprensin cabal del contexto del programa/proyecto para interpretar los datos cuantitativos Permiten conocer las actitudes, creencias, motivos y comportamientos de una pequea muestra de la poblacin (familias, comunidades) Establecen informacin de referencia que se puede utilizar para evaluar las conclusiones cualitativas (cambios en cuanto al conocimiento, actitudes, comportamientos, procesos institucionales, etc.) tiles en caso de limitaciones de dinero y tiempo Por lo general no son representativos; no permiten hacer generalizaciones Susceptibles de sesgo por parte de entrevistadores, observadores e informantes.

Ventajas

Desventajas

Fuentes: UNICEF, 1991. Gosling, 1995; USAID TIPS No 2, 1996.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

II.- ORDENAMIENTO CUANTITATIVA

PRESENTACIN

DE

DATOS

EN

LA

LGICA

El primer paso para la realizacin de un anlisis, es ordenar y organizar los datos que se han recogido o creado. Cuando se trabaja con informacin cuantitativa, y ms an con informacin que proviene de muestras, tendremos una cantidad considerable de valores numricos que provienen de las mediciones que se han realizado. Cuando se habla de mediciones, nos estamos refiriendo a las observaciones que se han realizado en un conjunto o parte del universo lo cual permite obtener informacin que es traducida en valores numricos. Por ejemplo, si en un cuestionario hemos preguntado por el sexo del entrevistado, podemos tener la siguiente matriz de datos considerando que para cada uno de las categoras o recorrido de la variable se han utilizado los siguientes valores numricos: Matriz 1 1 1 1 1 2

Hombre Mujer

:1 :2

1 2 1

1 2 2

2 2 1

2 2 2

2 1 1

2 2 2

2 2 1

1 2 2

La lectura de esta matriz y el ordenamiento es bastante sencilla, ya que presupone su agrupamiento en dos categoras (hombre y mujer). Tambin, conociendo los valores asignados a sexo, la matriz es de fcil lectura respecto de identificar y contar si quienes respondieron son hombres o mujeres. Sin embargo, esta situacin se puede volver un poco ms compleja si se trabaja con variables con un alto nivel de medicin. Por ejemplo. Si se ha preguntado por la edad de los entrevistados, podemos tener la siguiente matriz: Matriz 20 34 23 28 34 51

Edad de los entrevistados (respuesta abierta)

18 54 23

35 19 27

67 19 56

43 43 34

35 34 58

62 39 46

21 68 49

34 19 50

Al observar la matriz, nos encontramos con una dificultad. Si bien podemos entender que los valores que estn contenidos en la matriz corresponden a la edad de los entrevistados, es muy difcil proceder a ordenarlos inmediatamente y a contarlos, por lo tanto, este paso, requiere que se introduzca un elemento adicional, que es determinar la forma en que estos datos se van a ordenar, cuestin que en lo relacionado con el sexo presentado ms arriba es mucho ms sencilla. Esto est suponiendo, que al momento de enfrentarnos a los datos necesitamos de alguna estructuracin que nos permita llegar a ese orden. La forma que en la investigacin cuantitativa se ordenan y estructuran los datos es a travs de la TABULACIN DE LOS DATOS. Como seala Fernndez; Olea y Collantes tabular lo datos consiste en disponerlos de tal forma que, a partir de tal disposicin, podemos empezar a representarlos o a

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

obtener valores representativos de los mismos (1987:37). Esto va a dar origen a lo que se conoce como DISTRIBUCIN DE FRECUENCIAS, que en el fondo es una representacin grfica que permite agrupar los datos para que estos queden disponibles para su manipulacin y clculo y que se conocer tambin como TABLAS DE FRECUENCIAS. Los datos siguientes corresponden a los aos de escolaridad en 60 mujeres bajo tratamiento en un consultorio de Salud Mental A en el primer semestre del ao 2000. El primer paso para el ordenamiento de la informacin, que es construir la tabla de frecuencias, es determinar los valores mnimos y mximos que se pueden encontrar en los datos. Por ejemplo si analizamos la matriz de datos, podemos identificar que el valor mnimo es 0 y e valor mximo es 14 8 9 12 4 13 12 13 9 12 8 11 6 11 12 14 10 12 11 9 7 0 11 12 5 7 10 10 13 10 13 8 11 7 6 8 2 8 10 8 12 10 13 12 12 12 13 14 8 12 12 9 12 12 4 12 10 13 12 10 10

La frmula para calcular entonces la amplitud total de los datos, o sea, cuantos valores tenemos en la matriz es la siguiente: At= Xmax Xmin. + 1 Entonces, tendramos que reemplazar esos valores en la formula. At= 14 0 + 1= 15 Esto quiere decir, que los valores que tenemos en la matriz sin repetir es de 0 a 14, o sea, 15 datos. Por eso a la formula se agrega ms uno, ya que si contamos de 0 a 14, tendremos 15 valores.

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 ( 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11,12, 13, 14, 15)

Una vez realizado este procedimiento se define el nmero de intervalos a construir, que en este caso sern 3. Para esto, habra que dividir la Amplitud del Intervalo (AT) por el nmero de intervalos a construir, que en este caso son 3

I= 15= 5 3
El valor obtenido por la divisin, es la amplitud para cada uno de los intervalos a construir, o sea, cada intervalo tendr una amplitud de 5 valores. De esta forma, se puede comenzar a construir los intervalos, para lo cual tenemos que realizar el siguiente procedimiento:

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

Tomar el valor mnimo del intervalo, que en este caso coincide con el valor mnimo de la matriz, en este caso cero (0) Sumar el valor obtenido para la amplitud del intervalo, que en este caso es 5 Restar uno (1), ya que compensa el nmero de valores que se necesita, en este casi 5. Por ejemplo, si se observa el primer intervalo, y nos quedamos slo con la suma de 0 ms 5, tendramos un intervalo de 6 valores y no de 5 (0,1,2,3,4,5,). Por lo tanto, el menos uno, corrige la diferencia. I1 = 0 + 5 -1 = 4 I2 = 5 + 5 -1 = 9 I3 = 10 + 5 -1 = 14

Realizado esto, es posible entonces construir la tabla de frecuencia y proceder a contar los valores que estaran dentro de cada intervalo, tal como se observa en la tabla a continuacin y que representa la distribucin de datos de la matriz que estamos trabajando. Aos de escolaridad de mujeres bajo tratamiento en un consultorio de Salud Mental en el primer semestre del ao 2009. na 4 17 39 60 fr 6,7 28,3 65,0 100

0-4 5-9 10-14 Total

Presentacin de la informacin. Para que sirve un cuadro? Cuando se trata de analizar un cuadro, hay que recordar como primera cuestin fundamental, para qu se construy? cul es el fin y su utilidad? qu representa? Todo cuadro o tabla tiene que tener Un encabezamiento que incluye nmero correlativo y ttulo claro y preciso referido a su contenido Un cuerpo que abarca la o las variables, sus categoras o intervalos y las casillas con los datos correspondientes presentados en cuanto a frecuencias absolutas y relativas, ordenada en filas y columnas.

Otras recomendaciones: Letras mayscula solo para el encabezamiento y nombrar las variables Evite rayas innecesarias Si datos muy nmerosos prefiera un cuadro ms largo que ancho No use abreviaturas

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

Destaque los totales

La presentacin a partir de tablas de frecuencias, puede ser acompaada por la utilizacin de grficos, como: el diagrama de barras el cual consiste en una serie de barras donde las frecuencias son expresadas por barras, el histograma, es similar al anterior aunque se utiliza ms para graficar variables mtricas o sea de razn. Polgonos, el cual es un grfico lineal que se traza sobre los punto medios de cada intervalo a una altura proporcional a su frecuencia. Los lmites se calculan sumando los lmites de los intervalos, y dividindolos entre 2, obteniendo el valor que representar al intervalo. Ojivas que son polgonos de frecuencias acumulada que muestran la frecuencia de casos por encima o debajo de un determinado valor de la distribucin.

III.- LA UTILIZACIN DE PORCENTAJES EN LA PRESENTACIN DE DATOS La palabra porcentaje significa por ciento y se emplean con mayor frecuencia que las proporciones. Las cifras de porcentajes sirven para indicar con ms claridad, la magnitud relativa de dos a ms nmeros. Esto se realiza de dos maneras: a) reducen todos los nmeros a un orden que facilite su multiplicacin y divisin y b) Transforma uno de los nmeros que es la base, en la cifra 100, que es fcil de dividir entre y por otros nmeros, lo que permite apreciar con mayor facilidad la relacin que guardan entre s la parte y el final. El empleo de porcentajes comporta por lo regular una estabilidad mucho mayor de las cifras. Por lo tanto hay dos reglas importantes: A) Hay que indicar siempre el nmero de casos juntamente con los porcentajes o las proporciones, y B) no se calcule un porcentaje, a menos que el nmero de casos en que est basado se halle a proximidad de los 50 a ms ( no se calculan porcentajes cuando la base es inferior a 50). Si el nmero de casos es muy pequeo ser preferible indicar el nmero efectivo de ellos en cada categora. LA UTILIZACIN DE PORCENTAJES PERMITE REALIZAR DE MANERA MS SENCILLA COMPARACIONES, QUE AL INTENTAR HACERLO CON FRECUENCIAS ABSOLUTAS. Ejemplo: Si se observa el cuadro I-1 expresada en frecuencias absolutas, se ver, que es difcil hacer comparaciones. Sin embargo el cuadro I-2 expresado en cifras de porcentaje nos permitir describir mejor la situacin, para as ver el grado en que difieren las proporciones de ventas en las dos regiones.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

Cuadro I-1

Registro de automviles nuevos en dos zonas en 1965 Nueva York 453.569 172.748 128.359 31.241 785.917 Carolina del Norte 87.083 57.260 28.424 7.424 180.209

General Motors Ford Chriysler American motors y otros Total

Cuadro I-2

Proporciones de automviles nuevos por fabricantes en dos zonas en 1965 Nueva York Carolina del Norte General Motors 57.7 48.3 Ford 22.0 31.8 Chrysler 16.3 15.8 American Motors y otros 4.0 4.1 Total (Nmero de automviles) 100.0 (785.917) 100.0 (180.209)

PRESENTACIN DE LAS CIFRAS DE PORCENTAJES

La funcin principal de las cifras de porcentajes es simplificar y, por tanto, aumentar la claridad de ciertas relaciones numricas. Generalmente, la utilizacin de porcentajes conlleva la utilizacin de decimales, pero el uso de estos, puede tender a desvirtuar el uso de las cifras de porcentajes. Cada decimal que se agrega. implica perder la sencillez original de estos. Por ejemplo, si utilizamos dos decimales en las siguientes relaciones: nmero porcentaje base(=100%) 97 27.55 (352) 129 42.14 (306) 292 84.88 (344)

La exactitud conseguida al incorporar dos decimales, no permite una lectura fcil. Sin embargo, redondendolas podemos simplificarlas y hacer que cumplan una mejor funcin. porcentaje base 28 (352) 42 (306) 85 (344)

Esto no significa, que debemos obviar el uso de decimales. Al contrario, en algunos casos es necesario recurrir a ellos, cuando las diferencias son significativas, por lo tanto no es tan importante la presentacin. Por ejemplo:

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

porcentaje base

11.5 (9.367)

11.9 10.072)

12.4 (10.031)

En este ejemplo, si no utilizramos los decimales, se eliminaran todas las diferencias perceptibles entre las cifras, ya que todas se leeran 12 %, y siendo diferencias pequeas provenientes de muestras grandes tienen importancia estadstica. esto carecera de importancia en una muestra de unos cuantos cientos de casos. Los decimales debern conservarse tambin cuando se piensa repetir la investigacin y se necesite comparar los resultados. Por otra parte, a menos que los decimales tengan una funcin especial, debern omitirse. Otra sugerencia, es evitar los porcentajes que excedan considerablemente de 100. Cuando no es posible evitar esto, es aconsejable explicar la diferencia con una nota a pie de pgina donde aparezcan el nmero de casos considerados en la parte inferior de la columna. La mayor amenaza contra la funcin simplificadora de la cifra de porcentajes proviene de la tendencia a amontonar demasiadas cifras en un solo cuadro, que incluyan frecuencias absolutas y relativas. Lo fundamental es preguntarse si hay o no necesidad de presentar los nmeros y porcentajes. Como respuesta, hay que considerar si los nmeros absolutos se basan en operaciones de muestreo, y por lo tanto carecen de significado directo, sera un error llenar una tabla de cifras sin sentido. Lo que se necesita solamente es la base (n de casos) de la cual se calculan los porcentajes. Por ejemplo el siguiente cuadro:

Suicidios e intentos de suicidios en Japn en 1961 Reales


hombres n menos de 20 aos 1.115 de 20 a 40 aos 4.904 de 40 aos o ms 4.687 % 10.4 45.8 43.8 mujeres n 797 3.202 3.257 % 11.8 45.8 44.9 hombres n 898 3.995 467 % 16.7 74.6 8.7

Intentos
mujeres n 1.299 3.892 381 % 23.3 69.9 6.8

TOTAL

10.706

100.0

7.256

100.0

5.360

100.0

5.572

100.0

En este cuadro. no se puede distinguir los nmeros absolutos de los porcentajes, y esto es mucho ms complicado ya que contienen al mismo tiempo decimales innecesarios. Adems como la intencin del autor era contrastar los suicidios con los intentos de suicidios se debiera haber reordenado las columnas, tal como se presentan en el siguiente cuadro:

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

10

Suicidios e intentos de suicidios en Japn por sexo y edad en 1961 Hombres


Reales % 10 46 44 100 (10.706) Intentos % 17 74 9 100 (5.360) Reales % 11 44 45 100 (7.256)

Mujeres
Intentos % 23 70 7 100 (5.572)

menos de 20 aos De 20 a 40 aos De 40 aos o ms TOTAL (Nmero de casos)

Solo s los nmeros representan un recuento completo, y tienen un significado directo, deben entonces conservarse. En estos casos es necesario recurrir a ciertos recursos tipogrficos, para hacer ms fcil la comparacin: a) Cursivas 18 ; b) Negritas 18, c) Parntesis (18)

LA DIRECCION EN LA ANOTACION DE PORCENTAJES

Los porcentajes pueden calcularse tanto en sentido vertical como horizontal. Esto implica que hay que examinar cuidadosamente los cuadros para ver la forma en que han sido calculados. Para el caso en que por la teora sabemos cual es la variable dependiente y independiente, situamos la Vi en la parte alta del cuadro, y la Vd al lado izquierdo, los porcentajes sumaran 100 hacia abajo, y las comparaciones se harn de izquierda a derecha. En que direccin deben calcularse los porcentajes? Para Seizel, deben calcularse en la direccin del factor causal siempre y cuando la muestra sea representativa en esa direccin. Esto no quiere decir que uno de los factores tiene que ser la verdadera causa del otro, sino que en la mente del analista, se ve a uno de ellos como si influyera en el otro. Los porcentajes de los totales se pueden calcular en forma horizontal o vertical. Sin embargo, a menudo este principio causal no ser tan claramente aplicable, ya que la ambigedad de la informacin no lo permitir, debido por ejemplo, a las limitaciones estadsticas de la muestra. Los problemas planteados por el anlisis de datos estn directamente relacionados con la complejidad de la, o las, hiptesis. Tambin se pueden plantear dos tipos de preguntas en relacin al anlisis: a) relacionado con las tcnicas de representacin de datos, y b) los mtodos para ordenar los datos lgicamente. La distribucin de frecuencias o tabulacin, es la forma ms sencilla de representar los descubrimientos de una investigacin. Estos trminos dan a entender la presentacin en una columna de las distintas cualidades de un atributo, o

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

11

los distintos valores de una variable, junto a lo cual, se agrega otra columna, que indica la frecuencia en que se presenta cada una de las clases. Para la construccin de una distribucin de frecuencias, se puede utilizar el sentido comn respecto a tres cosas. 1.- Las unidades que se anotan en la columna de la izquierda, y que describen las cualidades o valores, tienen que excluirse mutuamente, y deben incluir casi la totalidad de las observaciones. 2.- Para que la tabulacin alcance la mxima utilidad debe tener lgica y orden interno. As si estamos tabulando una variable como estatura, lo haramos siguiendo un orden. Sin embargo, cuando se tabulan cantidades donde el orden puede no ser tan manifiesto, es necesario un orden lgico. Por ejemplo, en una encuesta se les peda a las mujeres los motivos que tenan para comprar determinada crema, los resultados son los siguientes:

Motivos para la compra de crema facial Motivos Recomendacin beneficiosa para el cutis O anunciarla por radio La vi en el mostrador Es de precio razonable Su aroma es atractivo Debido a un estado especial de cutis Total Porcentaje de contestantes 28.0 21.0 18.0 15.0 10.0 8.0 7.0 107.0

Al apreciar los resultados, vemos que el total alcanza un 107%, lo que implica que esta tabla no tiene el primer requisito: las categoras deben excluirse mutuamente. La pregunta que nos haremos, es cmo es posible mejorar la utilidad de la tabulacin para fines analticos? La respuesta est en buscar agrupamientos lgicos de respuestas. As es posible descubrir tres categoras ms grandes, lo que aumenta la utilidad de la tabla La realizacin de los que se denomina tcnicamente el anlisis de los datos, es un procedimiento que tanto para la lgica cuantitativa y cualitativa, conlleva la realizacin de dos pasos: Ordenamiento de los datos y presentacin de estos Interpretacin

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

12

IV.- MEDIDAS DE POSICIN1


Tambin llamadas de centralizacin o de tendencia central. Sirven para estudiar las caractersticas de los valores centrales de la distribucin atendiendo a distintos criterios. Veamos su significado con un ejemplo: Supongamos que queremos describir de una forma breve y precisa los resultados obtenidos por un conjunto de alumnos en un cierto examen; diramos: a) La nota media de la clase es de 6,5. b) La mitad de los alumnos han obtenido una nota inferior a 5. c) La nota que ms veces se repite es el 4,5. En la expresin a) se utiliza como medida la media aritmtica o simplemente la media. En la b) se emplea como medida la mediana, que es el valor promedio que deja por debajo de ella la mitad de las notas y por encima de ella la otra mitad. Y en la c) se usa el valor de la nota que ms veces se ha repetido en ese examen, este valor es la moda.

1.- MEDIA ARITMTICA


Normalmente se suele distinguir entre media aritmtica simple y media aritmtica ponderada. Media aritmtica simple: Es la suma de todos los elementos de la serie dividida por el nmero de ellos. Se calcula como:
k

x
x=
siendo: x : la media
k

i =1

x
i =1

: suma de elementos

n : nmero de elementos (incluyendo a los de igual valor) k : nmero de elementos con distinto valor. Ejemplos: 1. Hallar la media aritmtica de los siguientes valores: 5, 7, 8, 10, 15.
1

Fuente: Estadstica; Fernando Garca y Fernando Garzo, Editorial McGraw-Hill; Madrid

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

13

= 5 + 7 + 8 + 10 + 15 = 45

n=5

x =9
2. Si las notas de un alumno en las distintas asignaturas de un curso durante una evaluacin fueron: 7; 5; 6,5; 3,7; 5, 6,2. Hallar la nota media de la evaluacin. (Resp. 5,5666...) 3. La media de 6 elementos se sabe que es 10. Sabiendo que cinco de ellos son: 8, 12, 13, 5 y 9, hallar el elemento que falta. (Resp. 13) Media aritmtica ponderada: Por lo general, en Estadstica, los datos se nos presentan agrupados mediante una distribucin de frecuencias que hace que no todos los elementos de la serie tengan el mismo peso especfico, y eso influye a la hora de calcular la media, por eso se llama media ponderada. Se define como la suma de los productos de cada elemento de la serie por su frecuencia respectiva, dividida por el nmero de elementos de la serie.
k

x
x=
i =1

ni

donde ni es la frecuencia o nmero de veces que se repite un valor. Tambin ni puede ser la ponderacin de cada valor xi. Ejemplos: 1. Durante el mes de octubre de 1981 los salarios recibidos por un obrero fueron: Salario pesos 200.000 220.000 300.000 en Frecuencia das 5 15 4 en

Hallar el salario medio durante ese mes.

x=

200.000 x 5 + 220.000 x 15 + 300.000 x 4 24

2. Un alumno obtiene en tres exmenes parciales las siguientes notas: 7, 5 y 3; en el examen final consigue un 6. Suponiendo que esta nota final tenga doble valor que las parciales, cul ser su nota media? (Resp. 5,4) 3. Si la renta anual media de los trabajadores del campo es de 1.000.000 de pesos y la renta anual media de los trabajadores de la construccin en esa poblacin es de

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

14

1.200.000 pesos, sera la renta anual media para ambos grupos de pesos? Explica.

1.100.100

Sin embargo, lo normal es Estadstica es que los datos vengan agrupados en clases o intervalos, o que nosotros mismos hagamos esa agrupacin cuando el nmero de elementos sea muy extenso, ya que en ese caso el clculo de la media por los procedimientos vistos para datos sin agrupar sera muy laborioso. Antes de estudiar los mtodos ms usuales para el clculo de la media con datos agrupados, vamos a ver algunas propiedades de la media aritmtica que nos ayudarn a comprender mejor el contenido de esos mtodos. Propiedades de la media aritmtica: Las propiedades ms importantes son 1. La suma algebraica de las desviaciones de un conjunto de nmeros respecto de su media aritmtica es cero. 2. La suma de los cuadrados de las desviaciones de un conjunto de nmeros con respecto a cualquier otro nmero es mnima cuando ese otro nmero es precisamente la media aritmtica. 3. Si suponemos, antes de calcularla, que la media de un conjunto de nmeros es cualquier nmero A, resulta que la verdadera media aritmtica es:

x = A+
donde

d
n

A: media supuesta d : suma de las desviaciones respecto de A.

n : nmero de elementos. 4. Si A1 nmeros tienen una media m1, A2 nmeros una media m2, ...., An nmeros una media mn, entonces la media de todos ellos es:

x=

A1 m1 + A2 m 2 + + An m n A1 + A2 + An

o sea, es la media aritmtica ponderada de todas las medias. Ejemplo: En una cierta empresa de 80 empleados, 60 de ellos ganan 500.000 pesos al mes y los 20 restantes ganan 700.000 pesos al mes, cada uno de ellos. Se pide: a) Determinar el sueldo medio b) Sera igual la respuesta si los primeros 60 empleados ganaran un sueldo medio de 500.000 pesos y los otros 20 un sueldo medio de 700.000 pesos? c) Comentar si ese sueldo medio es o no representativo. Clculo de la media aritmtica a partir de datos agrupados en clases.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

15

Hay dos mtodos principalmente para calcular la media de una distribucin con datos agrupados: mtodo directo (o largo) y mtodo abreviado (o corto).

Mtodo directo Consiste en aplicar la frmula ya vista para el clculo de la media ponderada, con la nica salvedad de que se toman como valores representativos de la variable los puntos medios de cada intervalo, que se denotan con xm. O sea:

x=

ni

Ejemplo: Hallemos la media aritmtica por el mtodo directo de la siguiente serie: 25 31 13 25 24 33 18 20 29 27 27 16 27 33 23 20 29 37 17 15 14 33 26 22 21 21 22 19 25 24 33 23 25 31 18 29 17 24 27 25 25 21 25 21 23 17 26 20 14 24

(Resp: 23,76)

2.- MEDIANA

Una vez dispuestos todos los valores que toma la variable en una serie creciente o decreciente, el valor central de esa serie, si existe, es la mediana. As pues, la mediana deja el mismo nmero de valores a su izquierda como a su derecha. Cuando no existe un valor central se puede definir como la media aritmtica de los valores medios. Para su clculo distinguiremos tres casos: a) Mediana de una serie con datos no agrupados. b) Mediana de una serie con datos agrupados por frecuencias y agrupados en intervalos. c) Mediana de una serie con datos agrupados slo por frecuencias, pero sin agrupar en intervalos. Clculo de la mediana con datos no agrupados Para calcular la mediana con datos no agrupados se ordenan los elementos en orden n +1 creciente o decreciente, y la mediana es el valor que ocupa el lugar 2 Ejemplos: Determinar la mediana de la serie 5, 6, 9, 11, 15, 19, 23, 26, 27. Luego de la serie 5, 7, 10, 15, 20, 21, 24, 27.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

16

En los dos ejemplos anteriores ocurra que la frecuencia de cada elemento era 1. Pero no siempre sucede as. Sea ahora la serie: 3, 4, 4, 4, 6, 8 donde el elemento 4 tiene una frecuencia 3. Consideremos el intervalo que comprende cada elemento desde 0,5 unidades a loa izquierda hasta 0,5 unidades a la derecha. En nuestra serie, los tres elementos 4 se distribuyen entre 3,5 y 4,5. Los representamos en el eje real de la siguiente forma:

Vemos que el valor 4,16 deja a su izquierda tres elementos (3, 4 y 4) y a su derecha otros 3 (4, 6 y 8), luego la mediana es 4,16. De la misma forma determina la mediana de 5, 6, 8, 8, 8, 8, 10, 12, 13. 8,125) Clculo de la mediana con datos agrupados Cuando los datos conviene agruparlos por intervalos, debido al elevado nmero de ellos, la mediana se calcula de la siguiente forma: 1. Se calcula n/2. 2. A la vista de las frecuencias acumuladas, se halla el intervalo que contiene a la mediana. 3. Se calcula la frecuencia del intervalo que contiene a la mediana. 4. Se halla uno cualquiera de los lmites exactos (el superior o el inferior) del intervalo que contiene a la mediana. Sabiendo que lmites exactos de un intervalo a b, se refiere a los nmeros a-0,5 y b+0,5. 5. Se halla la frecuencia de los valores que quedan por debajo del intervalo que contiene a la mediana, o la frecuencia de los valores que quedan por encima, y segn hayamos decido hacer, calculamos la mediana por alguna de estas dos frmulas, respectivamente: (Resp.

M =I+

I n ( fi ) fM 2 I n ( fs ) fM 2

M = L

siendo: M: Mediana l: Lmite inferior del intervalo de la mediana. L: Lmite superior del intervalo de la mediana I: Amplitud del intervalo de la mediana. fM: Frecuencia del intervalo de la mediana. fi: Frecuencia acumulada de los valores inferiores al intervalo de la mediana. fs: Frecuencia acumulada de los valores superiores al intervalo de la mediana. n: Nmero total de valores.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

17

Ejemplo 1: Clases Frecuenci Frecuenci as as Acumula das 3 3 5 8 9 17 12 29 5 34 4 38 2 40 40

118 126 127 135 136 144 145 153 154 162 163 171 172 - 180

Con los tres primeros intervalos o clases, abarcamos 17 elementos y con las cuatro primeras abarcamos 29, luego est claro que la mediana se encuentra en la cuarta clase, pues n/2 = 20. Entonces l = 144,5 (lmite inferior de la clase mediana) I = 9 (amplitud de cada intervalo) fM = 12 (frecuencia de la clase mediana) fi = 17 (frecuencia acumulada en el intervalo inmediatamente anterior al de la mediana) n = 40 (nmero total de elementos de la serie) Luego

M = 144,5 +

9 (20 17) = 146,8 12

Ejercicio: Determinar la mediana de la siguiente serie de valores, agrupando los datos por intervalos y por frecuencia con amplitud 4 y como primera clase la 10 14. Ten presente para este caso que los lmites se hacen coincidir con los extremos. (Resp. M = 23) Clculo de la mediana con datos agrupados slo por frecuencias Se puede decir que es un caso particular del mtodo anterior. El procedimiento es el siguiente: Una vez calculado el nmero alrededor del cual se encuentra la mediana, se considera este nmero como centro de un intervalo de amplitud 1; a continuacin se aplica la frmula anterior para el clculo con datos agrupados en intervalos.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

18

Ejemplo: x 1 2 3 4 5 6 7 8 9 10 n = 89/2 = 44,5 Por tanto, la mediana es un valor prximo a 5. f 5 7 6 12 20 15 11 6 5 2 fa 5 12 18 30 50 65 76 82 87 89

M = 4,5 +

1 (44,5 30) = 5,225 20


MODA

La moda de una serie de nmeros es el valor que se presenta con mayor frecuencia; es decir, el que se repite un mayor nmero de veces. Es por tanto, el valor comn. Por ejemplo, en la serie: 2, 4, 4, 5, 5, 5, 7, 8, la moda es 5. En una distribucin puede ocurrir que haya dos o ms modas, entonces se habla de distribucin bimodal, trimodal, etc. Incluso puede no existir la moda, como en la serie 2, 3, 4, 5, 7, 10. Clculo de la moda con datos agrupados En el caso de una distribucin de frecuencias con datos agrupados, si hiciramos una grfica o curva de frecuencias, la moda sera el valor (o valores) de la variable correspondiente al mximo (o mximos) de la curva. La moda se puede calcular aplicando la siguiente frmula:

Mo =l +(

1 ) I 1 + 2

donde: l: lmite inferior de la clase que contiene a la moda. (Clase Modal) 1: Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase contigua inferior. 2: Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase contigua superior. I: Amplitud del intervalo de la clase.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

19

Ejemplo: Determinemos la moda de la siguiente distribucin de frecuencias:

Clase 10 20 30 40 50 60 70 80 20 30 40 50 60 70 80 90

Frecuen cia 11 14 21 30 18 15 7 3 119


Mo = 40 + 9 10 = 4,28 9 + 12

Ejercicio: Hallar las tres medidas de tendencia central, media, mediana y moda, de la siguiente tabla:
Clases 10 20 20 30 30 40 40 50 50 60 60 70 70 80 80 90 ni 11 14 21 30 18 15 7 3 fa d fd

Resp: 44,91; 44,5; 44,28 respectivamente.


Consideraciones finales En general, la media aritmtica es la medida ms utilizada ya que se puede calcular con exactitud y se basa en el total de las observaciones. Se emplea preferentemente en distribuciones simtricas y es el valor que presenta menores fluctuaciones al hacer variar la composicin de la muestra. Finalmente, la media aritmtica es especialmente til cuando se precisa despus calcular otros valores estadsticos, como desviaciones, coeficientes de correlacin, etc. La mediana es preferida cuando la distribucin de los datos es asimtrica, y cuando los valores extremos estn tan alejados que distorsionaran el significado de la media. Tambin se calcula la mediana en aquellas distribuciones en las que existen valores sin determinar, por ejemplo, aquellas cuya primera clase es del tipo menos que x, y la ltima clase: ms de y. En definitiva, lo ms importante de esta medida es que no se

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

20

ve afectada por los valores extremos. Tiene, sin embargo, como inconveniente que se presta menos a operaciones algebraicas que la media aritmtica. La moda es una medida que no suele interesar especialmente, a no ser que haya tal concentracin de datos en la distribucin que un valor destaque claramente sobre todos los dems. Puede servir tambin para cuando queramos estimar de una forma rpida, y no muy precisa, una medida de tendencia central. La moda, al igual que la mediana, es un valor que no se ve afectado por los valores extremos de la distribucin y tambin es poco susceptible de efectuar con l operaciones algebraicas.

MEDIDA DE VARIABILIDAD2

Desviacin estndar: La desviacin estndar de una variable es una medida de variabilidad que se obtiene sumando los cuadrados de las diferencias entre los valores que toma la variable y su media aritmtica, y dividiendo el resultado de esta suma por el nmero de valores:

La frmula para la desviacin estndar para distribuciones de frecuencias es la siguiente:

(x
s=
i =1

x)2
, donde N = fi

El valor de la desviacin estndar es una medida de la dispersin o variabilidad de los valores de la variable. Esto se traduce en que un valor bajo de la varianza indicar escasa variabilidad de la variable, es decir, valores muy similares entre s; en cambio, un valor alto de la desviacin estndar indicar una gran variabilidad para x, es decir sus valores difieren mucho entre s.

Varianza: La Varianza de una variable es una medida de variabilidad que se obtiene simplemente elevando al cuadrado la desviacin estndar.

s2 =

( xi x) 2 , N i =1
N

donde N = fi

Su interpretacin es anloga a la de sta ltima medida: un valor alto de la varianza indicar una gran dispersin en los valores que toma la variable, es decir, una gran variacin en los distintos valores que toma la variable, y un

La parte de variabilidad y de asociacin y correlacin fueron confeccionados por el Profesor Alejandro Vsquez.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

21

valor bajo de la varianza indicar baja dispersin, es decir, gran similitud en los valores.

ANALISIS DE ASOCIACION Y CORRELACIN


1.- Anlisis no paramtricos Este tipo de anlisis no supone que la distribucin poblacional sea normal y se utiliza con variables de medicin nominal u ordinal, aunque se puede utilizar variables de mayor nivel de medicin siempre y cuando sean recategorizadas a nivel ordinal 1.1.- La prueba de
2

La prueba de 2 (Chi-cuadrado) es una prueba de diferencia de proporciones, que permite verificar si existe diferencia en la proporcin en que algn atributo definido por una variable relevante est presente en dos o ms grupos. Tambin como test de independencia para comprobar la asociacin entre las variables de la tabla, o sea rechazar la hiptesis nula de independencia entre ambas variables, por lo tanto, hay que sealar que la 2 no considera relaciones causales. El nivel de medicin de las variables a utilizar en esta prueba, corresponden a nominales u ordinales. Se pueden utilizar variables de nivel de medicin de intervalo o razn siempre y cuando se reduzcan a ordinales. Por otra parte, hay que sealar que el ideal de nmeros de casos a utilizar en este tipo de pruebas es mayor a 50, aunque se puede utilizar con un nmero menor no inferior a 30. Sin embargo habra que considerar que con nmeros pequeos, hay que ver la factibilidad de que los casilleros de la tabla no queden vacos o con un nmero de casos menor a 5. Si esto sucede, hay que recategorizar las categoras de las variables para que se cumplan estos requisitos La prueba, suponen contar con informacin para dos variables cualitativas o categricas: la primera variable (posible variable dependiente) corresponder a la variable de estudio, y la segunda (variable independiente) a la variable que define los grupos para los que queremos verificar la diferencia o no en la proporcin para el atributo definido por la variable dependiente. La informacin corresponder a una distribucin de frecuencias bivariada debe ser ordenada en un cuadro de doble entrada (cuadro de contingencia), cuyas filas estarn definidas por las categoras de la variable de estudio, y cuyas columnas indicarn los grupos a comparar y estarn dadas por las categoras de la variable independiente. Con el fin de someter a verificacin la hiptesis de ausencia de relacin entre las variables (igualdad de proporciones para el atributo), es necesario comparar los datos (frecuencias observadas fo) con que se cuenta con las que deberan presentarse si la hiptesis fuese cierta (frecuencias esperadas fe). Para esto se seguir los siguientes pasos:

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

22

1. Se calcula en cada casilla del cuadro de contingencia la diferencia entre la frecuencia observada y la frecuencia esperada (fo - fe); 2. Se elevar al cuadrado para evitar trabajar con posibles resultados negativos, y se divide por la frecuencia esperada fe; 3. Se suman estos resultados obtenidos para cada una de las casillas. El valor de esta suma recibe el nombre de 2 (Chi-cuadrado) observado. 4. A partir de la distribucin de muestreo del parmetro 2 se obtiene el valor que define el inicio de la regin critica o de rechazo (valor critico), y se comprueba si 2 observado se sita dentro de la regin de aceptacin o de la de rechazo.
Probablilidad

Regin de aceptacin
Regin de rechazo

(fo fe)2 2 o = -------------fe

EJERCICIO 1: Se tiene la siguiente tabla de contingencia para la actitud de aceptacin o rechazo de los mtodos anticonceptivos en una muestra de mujeres de reas urbanas y una muestra en reas rurales. Existe dependencia entre las variables al nivel de significacin =0,05 ?. Zona urbana 420 300 720 Zona rural 330 360 690 Total 750 660 1.410

Aceptacin Rechazo Total

Solucin: Las variables para este ejercicio son de tipo cualitativo y corresponden a: Variable dependiente: actitud de las mujeres hacia los mtodos anticonceptivos. Variable independiente: zona (urbana o rural) La Hiptesis Nula para este ejercicio ser la no existencia de dependencia entre las variables, lo que equivale a decir que no hay diferencia en las proporciones con que el atributo de inters (en este caso, la aceptacin de los mtodos anticonceptivos) se presenta en ambas poblaciones. Es decir: H0: p1 = p2 donde: p1 = proporcin de aceptacin en la poblacin 1, y

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

23

p2 = proporcin de aceptacin en la poblacin 2. Calculamos las frecuencias que se presentaran en las casillas si la hiptesis fuera cierta, es decir, si la proporcin de aceptacin no presentase diferencias segn se trate de zonas urbanas o rurales; estas frecuencias para una hiptesis verdadera reciben el nombre de frecuencias esperadas. Las proporciones de aceptacin y rechazo a nivel del total de mujeres son: Proporcin de aceptacin: 750 / 1.410 = 0,53 Proporcin de rechazo: 660 / 1.410 = 0,47 Calculamos a continuacin las frecuencias esperadas distribuyendo las mujeres urbanas en las proporciones calculadas, y luego hacemos lo mismo para las mujeres rurales: Identificaremos a cada una de las cuatro casillas con una letra:
Zona urbana a c Zona rural b d

Aceptacin Rechazo

Las frecuencias esperadas son: Casilla Casilla Casilla Casilla a (mujeres urbanas que aceptan): b (mujeres rurales que aceptan): c (mujeres urbanas que rechazan): d (mujeres rurales que rechazan):
2

fe = 0,53 720 = fe = 0,53 690 = fe = 0,47 720 = fe = 0,47 690 =

381,6 365,7 338,4 324,3

El valor observado para

es:

(fo fe)2 (420 381,6)2 (330 365,7)2 (300 338,4)2 (360 324,3)2 = ---------------- = ------------------- + ------------------- + ------------------- + ------------------381,6 365,7 338,4 324,3 fe

Casilla a

Casilla b

Casilla c

Casilla d

(-35,7)2 (38,4)2 (35,7)2 (38,4)2 = ---------------- + ---------------- + --------------- + -----------------365,7 338,4 324,3 381,6 1.474,56 1.274,49 1.474,56 1.274,49 = ---------------- + ----------------- + ------------------ + ------------------365,7 338,4 324,3 381,6 = 3,86 + 3,49 + 4,36 + 3,93

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

24

observado

= 15,64

De la tabla para 2 se obtiene, para un nivel de significacin =0,05 y grados de libertad df = (m-1) (n-1) = (2-1) (2-1)= 11= 1, el valor crtico, es decir, el valor de 2 que marca el inicio de la regin crtica o de rechazo:
2 CRTICO

= 3,841

Dado que 2 OBSERVADO > 2 CRTICO, se rechaza la hiptesis nula, es decir, se concluye que s existe dependencia entre las variables. Esto quiere decir que LA ACTITUD DE LAS MUJERES FRENTE A LOS ANTICONCEPTIVOS ES DISTINTA EN ZONAS URBANAS Y RURALES.

EJERCICIO 2: Cierta encuesta de opinin entreg los siguientes datos relativos a la aprobacin de la conduccin del gobierno entre personas de ambos sexos mayores de 18 aos:

Aprueban Desaprueban

Hombres 120 101

Mujeres 115 104

Es posible afirmar que hombres y mujeres difieren en su evaluacin de la gestin de gobierno?. Solucin: Hiptesis nula (H0): No hay diferencia en aprobacin de la conduccin del gobierno para hombres y mujeres

De los datos se obtiene: De la tabla se obtiene: Dado que

2 observado = 0,170 = 3,841 2 crtico

observado

<

crtico,,

La diferencia de proporciones correspondiente a los datos cae dentro de la regin de aceptacin, por lo que se acepta la hiptesis, y se concluye que no hay diferencia significativa para la opinin de hombres y mujeres.

EJERCICIO 3: Se ha consultado a los habitantes de una ciudad si aprueban o no el nuevo plan regulador propuesto por las autoridades. Se desea saber si es posible afirmar o no que

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

25

los habitantes del centro de la ciudad tienen una opinin distinta de quienes viven en la periferia de ella.
Sector de la ciudad Centro Periferia 56 89 71 62

Opinin ante el plan Aprueba regulador Desaprueba

Solucin: El valor de
2

que se obtiene a partir de estos datos es:


2 observado

= 6,094

De la tabla para 2 se obtiene, para =0,05 y df = (m-1) (n-1) = (2-1) (2-1)= 11=1 el valor crtico, es decir, el valor de 2 que marca el inicio de la regin crtica o de rechazo: 2 CRTICO = 3,841 Dado que 2 OBSERVADO > 2 CRTICO, se rechaza la hiptesis nula, es decir, se concluye que s existe dependencia entre las variables. Esto quiere decir que la actitud de las mujeres frente a los anticonceptivos es distinta en zonas urbanas y rurales. Hay que sealar adems que existen otras pruebas para evaluar si las variables en una tabla de contingencia estn correlacionadas. Siguiendo a Hernndez, Fernndez y baptista, se pueden sealar los siguientes coeficientes de correlacin:
Coeficiente Tablas de contigencia 2x2 Cualquier tamao Nivel de medicin de ambas variables nominal nominal Interpretacin Vara entre 0 y +1. 0 es ausencia de correlacin y +1 correlacin perfecta 0 es ausencia de correlacin. El valor mximo vara segn el tamao de las tablas. As, para una de 2 x 2 vara de 0 a 0 .707. Para tablas de 3 x 3 vara de 0 a o.816 Vara entre 0 y +1. 0 es ausencia de correlacin y +1 correlacin perfecta Vara entre 0 y +1. 0 es ausencia de correlacin y +1 correlacin perfecta Vara de 1 a +1. 1 relacin negativa perfecta y +1 una relacin positiva perfecta

Fi Coeficiente de contingencia p C de Pearson

V de Cramer (V) Lambda Gamma

Mayores de 2 x 2 Cualquier tamao

nominal

nominal Cualquier tamao ordinal Tau-b de Kendall Cualquier tamao, pero es mejor utilizar en tablas de igual nmero de columnas y filas

Ordinal

Vara de 1 a +1.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

26

2.- Anlisis paramtricos El anlisis de tipo paramtricos, es un tipo de anlisis que supone que la distribucin poblacional de la variable dependiente es normal. Por otra parte, este tipo de anlisis considera el uso de variables en su nivel de intervalo o razn.

2.1.- Correlacin y regresin El anlisis de correlacin hace posible el estudio de la existencia de relaciones de asociacin o dependencia entre variables. Un anlisis de este tipo permite descubrir si dos fenmenos se comportan en forma simultnea, pues la ocurrencia de uno de ellos puede ocasionar la ocurrencia del otro. En tal caso hablaremos de la existencia de una relacin de causalidad entre ambos fenmenos, y uno de ellos podr ser considerado la causa del otro. Sin embargo, slo en raras ocasiones puede llegar a demostrarse una relacin de causalidad entre dos o ms variables, dado que ello requiere un conocimiento muy profundo y detallado del fenmeno estudiado, e informacin emprica previa muy precisa. No obstante, s es posible muchas veces descubrir la existencia de una asociacin o correlacin entre variables, que indica que dos fenmenos varan en forma simultnea. En este caso, una vez descubierta esta relacin de asociacin o correlacin, debe analizarse cul puede ser el posible significado de esta asociacin. Como se ha dicho, a partir de una asociacin estadstica no es posible deducir una relacin de causalidad, pues puede ocurrir que ambas variables estn variando en forma simultnea debido a la accin de una tercera variable que ocupa una posicin cronolgicamente anterior, como se muestra en la siguiente figura:
VARIABLE A

VARIABLE C

VARIABLE B Figura 1: la relacin de asociacin (correlacin) existente entre las variables A y B se debe a la accin de una tercera variable desconocida C.

Ejemplo: Se tiene el siguiente cuadro que muestra, para siete ciudades, su porcentaje de poblacin rural y su tasa de cesanta: % de Cesanta en la Comuna % de Poblacin Rural en la Comuna 5 15 6 24 7 28 9 32 9 36 12 40 11 46

1. Es posible afirmar que existe una relacin entre la ruralidad y la cesanta para estas ciudades?.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

27

2. Qu % de cesanta (aproximado) cabra esperar en una ciudad con 65% de poblacin urbana?. 3. Grafique los datos del cuadro y la recta de regresin correspondiente. SOLUCIN: a.- Clculo del coeficiente de correlacin de pearson (r): La frmula para el coeficiente de correlacin es:

r=

N xy x y N x ( x) 2 N y 2 ( y ) 2
2

Las variables dependiente e independiente son las siguientes: y = variable dependiente = % de cesanta en la comuna x = variable independiente = % de poblacin rural en la comuna Para saber si existe una relacin de dependencia entre estas dos variables debemos calcular el valor del coeficiente de correlacin de Pearson (r). Para ello necesitamos calcular las siguientes sumatorias: x, x2, y , y2, y xy:
x = 15 + 24 + 28 + 32 + 36 + 40 + 46 = 221 x2 = (15)2 + (24)2 + (28)2 + ... + (46)2 = 225 + 576 + 784 + ... + 2.116 = 7.621 y = 5+ 6 + 7 + 9 + 9 + 12 + 11 = 59 y2 = (5)2 + (6)2 + (7)2 + ... + (11)2 = 25 + 36 + 49 + ... + 121 = 537 xy = (15.5) + (24.6) + (28.7) + ... + (46.11) = 75 + 144 + 196 + ... + 506 = 2.013

N=7 Luego reemplazamos en la frmula de r:

7(2.013) (221)(59) 7(7.621) (221) 2 7(537) (59) 2

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

28

14.091 13.039 53.347 48.841 3.759 3.481 1.052 4.506 278 = 1.052 1.052 = 67,13 * 16,67 1.119,06

r = 0,94

El coeficiente de correlacin tiene un valor muy cercano a 1, lo que indica que la relacin de dependencia entre las variables es lineal y muy fuerte. Al graficar la recta de regresin que aproxima estos datos, los puntos estarn muy cercanos a dicha recta, es decir, la dispersin de los datos respecto de ella ser pequea. El signo positivo de r indica que la relacin entre las variables es directa, esto significa en este caso que, para la muestra de 7 ciudades estudiadas, aquellas con mayor porcentaje de poblacin rural presentan mayor porcentaje de cesanta, y viceversa. El grfico de la recta de regresin ser por lo tanto ascendente.

b.- Obtencin de la recta de regresin para predecir valores de y a partir de valores de x: La recta de regresin tendr la forma Y = A + BX. encontrar los valores de las constantes A y B: Nxy - xy 1.052 = ---------------------- = ----------- = 0,23 4.506 Nx2 - (x2) y 59 A = Y BX Y = ------- = ---- = 8,43 N 7
x X = ------ = N

Debemos, por lo tanto,

221 ------ = 31,57 7

Luego:

A = 8,43 0,23(31,57) = 8,43 7,26

A = 1,17 Por lo tanto, la ecuacin de la recta regresin es la siguiente:

Y = 1,17 + 0,23X

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

29

La ecuacin de la recta regresin nos permitir predecir, en forma aproximada, el porcentaje de cesanta que tendra una ciudad con 65% de poblacin urbana: Si X = 65 (%), entonces: Y = 1,17 + 0,23(65) = 1,17 + 14,95 = 16,12 Por lo tanto, se puede predecir que en una ciudad con 65% de poblacin urbana habra, aproximadamente, un 16,12% de cesanta.

c.- Grfico de los datos y de la recta de regresin: El grfico de los datos y la recta de regresin es el siguiente. Para graficar la recta basta ubicar dos puntos cualesquiera que pertenezcan a ella, y unirlos con un trazo recto. Dado que conviene tomar puntos extremos de la recta dentro del grfico, se proceder a utilizar la ecuacin de regresin de la siguiente forma: se dar a X un valor bajo y calcular el valor de Y correspondiente, y luego a hacer lo mismo para un valor alto de X. Entonces podemos ubicar dos puntos P1 = (x1, y1) y P2 = (x2, y2) de la recta utilizando la ecuacin de regresin de la siguiente forma: Si x1 = 10 y1 = 1,17 + 0,23(10) = 1,17 + 2,30 = 3,47

Por lo tanto, el punto P2 = (x1, y1) = (10 ; 3,47) pertenece a la recta. Por otro lado, si x2 = 50 y2 = 1,17 + 0,23 (50) = 1,17 + 11,5 = 12,67

Por lo tanto, el punto P2 = (x2, y2) = (50 ; 12,67) pertenece a la recta.

UNIVERSIDAD ACADEMIA DE HUMANISMO CRISTIANO ESCUELA DE PSICOLOGA RAL ZARZURI CORTES/ CUANTITATIVA 2010

30

14 12 10 8 6 4 2 0 0

% de Cesanta

10

20

30

40

50

% Poblacion rural

You might also like