You are on page 1of 26

1

TEMA 01 DISTRIBUCIN DE FRECUENCIAS EN VARIABLES UNIDIMENSIONALES Y SUS CARACTERSTICAS NUMRICAS Carmen Prez Pintos Olga Sanz Espinosa
Curso-Master en Bioestadstica y sus aplicaciones en Ciencias de la Salud. Especialistas en Bioestadstica aplicada a la investigacin. Diplomadas en Estadstica (UCM)

CONTENIDO

Introduccin 1. Conceptos bsicos 2. Distribucin de frecuencias de variables discretas y continuas 3. Media, Mediana, Moda y Cuantiles

4. Medidas de dispersin 5. Momentos 6. Medidas de asimetra y curtosis Resumen Ejercicios

Introduccin Hasta la Edad Media slo exista la estadstica descriptiva creada por la escuela de A. Chenwall. Posteriormente, aparece una nueva escuela, la de matemticos polticos, utilizada para contar eventos sociales. En esta escuela se intenta contar las causas que originan esos fenmenos. El representante ms significativo de esta poca fue Queteret, quien puso de manifiesto la posibilidad de estudiar la estadstica para saber las causas de diferentes fenmenos. La Estadstica descriptiva tiene la necesidad de buscar apoyo en el clculo de probabilidades, ya que en ella no se sacan conclusiones, sino que slo se describen los fenmenos. Es a principios del s. XX cuando se unen estos dos conceptos, dando lugar a la Estadstica matemtica.

1. Conceptos bsicos Estadstica. Ciencia que estudia los nmeros para leyes que dependen del azar. Estudio de los conjuntos numricos y sus funciones. Ciencia que estudia fenmenos no predecibles y establece conclusiones slidas, teniendo en cuenta la variabilidad presente en los mismos. Estadstica Descriptiva. Mtodos que nos permiten analizar datos que dependen de criterios numricos. Se ocupa de resumir las caractersticas de un conjunto

de datos en un nmero reducido de medidas o grficos. Sintetiza la informacin revelada por los datos sin tener en cuenta objetivos de naturaleza inductiva. Inferencia estadstica. Se ocupa de la extrapolacin de los resultados de la muestra a la poblacin. Su objetivo es inferir conclusiones que hagan referencia a la poblacin global, as como proporcionar medidas que permitan cuantificar el grado de confianza que podemos tener al sacar las conclusiones. Poblacin. Conjunto de animales, personas o cosas de cualquier naturaleza sobre los que se realiza un estudio. (Es necesario tener claro quines componen la poblacin que vamos a estudiar, es decir, que no exista ambigedad). Muestra. Subconjunto de la poblacin suficientemente representativo para la realizacin del estudio. Elemento. Cada uno de los individuos que constituye la poblacin. Tamao de la poblacin. Es el nmero de individuos que constituyen la poblacin. Carcter. Cada una de las caractersticas de la poblacin, es decir, el objeto de estudio. Modalidades. Diferentes valores que pueden tomar los caracteres objetos de estudio. Deben ser excluyentes. Variable. Caracteres estudiados. Dominio. Conjunto de valores que puede tomar la variable. Variable cualitativa. Toman valores no numricos que describen cualidades o atributos. No se pueden medir. Variable cuantitativa. Toman valores numricos. Discretas: Toman nicamente una cantidad finita o numerable. Ejemplos: colores, numero de hijos... Continuas: Pueden tomar cualquier valor de un intervalo. Ejemplos: Edad, peso, estatura

2. Distribucin de frecuencias de variables discretas y continuas. Presentacin de datos indicando las clases o atributos considerados y su frecuencia de aparicin. Los valores observados con sus respectivas frecuencias recogidas en una tabla es lo que denominamos distribucin de frecuencias de la variable. -- Frecuencia absoluta: Nmero de veces que se repiten los valores de cada variable. Ejemplo frecuencia absoluta variable discreta:

Xi color de ojos (nombre de la variable en estudio) ni frecuencia absoluta. N Numero total de la poblacin.

n
i 1

i = 1i = K son los valores de la variable Xi Verde Azul Marron Negro Total ni 4 2 6 8 20

-- Frecuencia relativa: Razn entre la frecuencia absoluta y el nmero total de observaciones. Permite comparar la variable estudiada en poblaciones de distintos tamaos. Ejemplo frecuencia relativa variable discreta: Xi color de ojos (nombre de la variable en estudio) fi frecuencia relativa.

f
i 1

=1 Xi Verde Azul Marron Negro Total fi 4/20 2/20 6/20 8/20 1

-- Frecuencia acumulada: Nmero de individuos de la poblacin que representa el valor de la variable menor o igual a la posicin del valor. Ejemplo de frecuencia relativa acumulada variable discreta: Xi color de ojos (nombre de la variable en estudio) Fi frecuencia relativa acumulada.

Xi Verde Azul Marron Negro

Fi 4/20 2/20 + 4/20 6/20 + 2/20 + 4/20 8/20 + 6/20 + 2/20 + 4/20 = 1

Nota: La ltima fila de la tabla de frecuencias relativas acumuladas debe sumar uno.

Ejemplo de frecuencia absoluta acumulada variable discreta: Xi color de ojos (nombre de la variable en estudio) Ni frecuencia absoluta acumulada. Xi Verde Azul Marron Negro Ni 4 2+4 6+2+4 8+6+2+4

Ejemplo de frecuencia absoluta variable continua: Xi altura (nombre de la variable en estudio) ni frecuencia absoluta. N Nmero total de la poblacin.

n
i 1

Xi [1.55-1.60) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] 1) TOTAL

ni 4 9 35 43 18 8 3 1 121

Ejemplo de frecuencia relativa variable continua: Xi altura (nombre de la variable en estudio) fi frecuencia relativa.

f
i 1

=1

Xi [1.55-1.60) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] 2) TOTAL

fi 4/121 9/121 35/121 43/121 18/121 8/121 3/121 1/121 1

Ejemplo de frecuencia absoluta acumulada variable continua: Xi altura (nombre de la variable en estudio) Ni frecuencia absoluta acumulada. Xi [1.55-1.60) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] Ni 4 4+9 4+9+35 4+9+35+43 4+9+35+43+18 4+9+35+43+18+8 4+9+35+43+18+8+3 4+9+35+43+18+8+3+ 1

Ejemplo de frecuencia relativa acumulada variable continua: Xi altura (nombre de la variable en estudio) Fi frecuencia relativa acumulada. Xi [1.55-1.60) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] Fi 4/121 4/121+9/121 4/121+9/121+35/121 4/121+9/121+35/121+43/121 4/121+9/121+35/121+43/121+18/121 4/121+9/121+35/121+43/121+18/121+8/121 4/121+9/121+35/121+43/121+18/121+8/121+3/121 4/121+9/121+35/121+43/121+18/121+8/121+3/121+1/1 21=1

Nota: La ltima fila de la tabla de frecuencias relativas acumuladas debe sumar uno.

Cuando la variable estadstica es continua, se utiliza:

Marca de clase como valor de la variable (Xi), que es la semisuma de los extremos del intervalo. Ejemplo de marca de clase: Mc Marca de Clase Xi [1.60-1.65) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] Mc (1.60+1.65)/ 2 (1.65+1.70)/ 2 (1.70+1.75)/ 2 (1.75+1.80)/ 2 (1.80+1.85)/ 2 (1.85+1.90)/ 2 (1.90+1.95)/ 2 (1.95+2.00)/ 2

Amplitud del intervalo se define como la diferencia existente entre el extremo superior e inferior del intervalo. Ejemplo amplitud de intervalo: ai = Li Li-1 Xi [1.60-1.65) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] ai 1.65-1.60 1.70-1.65 1.75-1.70 1.80-1.75 1.85-1.80 1.90-1.85 1.95-1.90 1.95-2.00

3. Media, Mediana, Moda, Percentiles Media aritmtica. Suma de todas las observaciones dividida por el nmero total de observaciones.
x media aritmtica

xi valores que toma la variable en estudio. (En caso de variables agrupadas en intervalos, hay que utilizar la marca de clase) ni frecuencia absoluta N nmero total de observaciones.

1 N

X n
i 1

Nota: En caso de trabajar con frecuencias relativas, se utilizar la siguiente frmula:

x X i fi
1

Media geomtrica. nicamente se utilizar con valores positivos de la variable en estudio y cuando en sta existan grandes variaciones entre los valores de la variable y estos sean pequeos, es decir, cuando los valores de la variable se encuentran formando una progresin geomtrica. G = Media geomtrica. x1....xk = valores que toma la variable en estudio. n1....nk = frecuencias absolutas de cada uno de los valores de la variable de estudio. N = Numero total de observaciones.
n1 n2 n3 n4 n5 nK

G=

x 1 x 2 x 3 x 4 x 5 ...x K

Media cuadrtica. Se utilizar cuando los valores de la variable en estudio presentan oscilaciones. MQ = Media cuadrtica. xi = valores de la variable en estudio. fi = Frecuencias relativas de cada uno de los valores de la variable en estudio. MQ = ( xi fi)1/2 MQ =

x
i 1

fi

Existen ms tipos de medias, como la media aritmtica ponderada o la media armnica; pero las ms utilizadas son las mencionadas en este captulo.

Mediana. Es el lugar central de una distribucin de modo que queden a ambos lados el mismo nmero de observaciones. Es decir, es un nmero tal que, ordenados los datos en sentido creciente o decreciente, la mitad son superiores a este nmero y la otra mitad son inferiores. En caso de variables discretas, se ordenan los datos y se eligen segn si el nmero de observaciones es par o impar. Si el nmero de observaciones es par, la mediana ser: N/2, siendo N el nmero de observaciones. Si el nmero de observaciones es impar, la mediana ser el valor central de los datos ordenados. En caso de variables continuas, la mediana ser: Me = Mediana. ai = Amplitud del intervalo mediano. N = Nmero total de observaciones. Ni-1 = Frecuencia absoluta acumulada del intervalo anterior al intervalo mediano. ni = frecuencia absoluta del intervalo mediano. Li-1 = Extremo inferior del intervalo mediano. Intervalo mediano. Intervalo al que pertenece el valor mediano. ( [ Li-1 , Li) ). Lo obtenemos buscando el valor de Ni que toma por primera vez el valor N/2.
N i -1 ni

Me = L i -1

N 2

ai

Cuantiles. Son una generalizacin de la mediana, y distribuyen la poblacin en dos partes iguales. Los ms importantes son: Mediana: Me = Q1/2 Cuartiles: Q1/4, Q1/2, Q3/4 Deciles: Q1/10, Q2/10, Q3/10, Q4/10, ...Q9/10 Percentiles: Q1/100, Q2/100, , Qi/100 En caso de variables discretas, se calculan las frecuencias absolutas acumuladas y se busca el valor de la frecuencia absoluta acumulada que toma por primera Np vez un valor . 100 Si Ni =
Np 100

, los cuantiles sern: Qp =

x i x i 1 2

Si Ni > Siendo:

Np 100

, los cuantiles sern: Qp = xi

Np = Frecuencia absoluta acumulada del cuantil que queremos calcular. Qp = Cuantil que queremos calcular. xi = Valor de la variable correspondiente al valor obtenido de N i (Frecuencia absoluta acumulada). xi+1 = Valor de la variable posterior al correspondiente valor obtenido de Ni. En caso de variables continuas, los cuantiles se calculan de la siguiente forma: Qp = Cuantil p. Li-1 = Extremo inferior del intervalo al que corresponde Qp. Ni-1 = Frecuencia absoluta acumulada de intervalo anterior al que corresponde Qp. ni = Frecuencia absoluta del intervalo al que corresponde Qp.
Np

Qp = L i 1

100

N i -1 ni

ai

Moda. Es el valor de la variable que ms veces se repite. Puede existir ms de una moda. Si la variable es discreta, la moda ser el valor de la variable que mayor frecuencia tiene. Si la variable es contina, agrupada por intervalos, el intervalo modal ser el de mayor altura o densidad. Ejemplo: Vamos a buscar el valor ms frecuencia en la siguiente distribucin. Xi 0.9-1.3 1.3-1.6 1.6-2.2 2.2-3 3-5 Frecuencia (ni) 8 12 15 6 5 Ai 0.4 0.3 0.6 0.8 2 Hi 20 40 25 7.5 2.5

El intervalo de mayor frecuencia es el 1.6-2.2, pero debemos tener en cuenta que abarca ms valores que los dos anteriores a l, por lo que no tiene por qu corresponder a este intervalo el valor que ms veces se ha presentado. Por ello se debe realizar el clculo de las alturas para ver cal es el intervalo de mayor altura. El intervalo de mayor altura es el segundo. Por tanto vamos a razonar el clculo de la moda :

10

11

Ejemplo de clculo media, mediana, moda y cuantiles en variables discretas: En una consulta de mdico de familia se pretende calcular el valor promedio, la moda, la mediana y los cuantiles 25, 75, 80, 95, de una muestra de pacientes que presentan el virus de la gripe y que se resume en la siguiente tabla, siendo: xi= nmero de expediente de enfermos con gripe ni= nmero de veces que ha enfermado el paciente en el ultimo ao (frecuencia absoluta) xi ni 1 2 2 2 3 2 4 1 5 1 6 1 7 2 9 1 10 1 12 2 14 1 TOTAL 16 Ni 2 4 6 7 8 9 11 12 13 15 16 fi 2/16 2/16 2/16 1/16 1/16 1/16 2/16 1/16 1/16 2/16 1/16

Media aritmtica:
x =

1* 2 2 * 2 3 * 2 4 *1 5 *1 6 *1 7 * 2 9 *1 10 *1 12 * 2 14 *1 = 6,125 16

Media geomtrica: G=
16 2

1 2 2 32 41 51 61 7 2 91 101 12 2 141 = 1,4360

Para calcular ahora la media cuadrtica debemos hallar previamente las frecuencias relativas de nuestra tabla de datos, como se puede ver en ella. As podemos obtener que la media cuadrtica es: Media cuadrtica: MQ= 12

2 22 22 21 21 21 22 21 1 2 1 2 3 4 5 6 7 9 102 122 142 = 7,297 16 16 16 16 16 16 16 16 16 16 16

Calculamos ahora la mediana: Como tenemos una variable discreta y un nmero de observaciones xi impar la mediana ser el valor central de los datos ordenados, es decir, xi=6

12

Moda. En este caso podemos ver que los valores de la variable con frecuencia absoluta 2, es valor de mayor frecuencia, luego tenemos ms de una moda que se corresponden con los valores xi = 1,2,3,7,12. Cuantiles. Calculamos primero las frecuencias absolutas acumuladas Ni. Entonces: Q25:

16 * 25 = 4 ; Q25 = 2 3 = 2,5 100 2


16 * 75 9 10 = 12 ; Q75= 9,5 100 2 16 * 80 12,8 100

Q75;

Q80:

; Q80 = 10

Q90: 16 * 90 14,4 ; Q90 = 12 100 Ejemplo de clculo de media, mediana, moda y cuantiles en variables continuas: En un hospital se pregunt la edad de diferentes pacientes diabticos, agrupada sta en intervalos, obtenindose la siguiente tabla de distribucin: Fi 10/200 30/200 55/200 70/200 110/20 0 [60-70) 65 50 160 50/200 160/20 0 [70-80] 75 40 200 40/200 1 TOTAL 200 1 Siendo: xi Las edades de los pacientes diabticos ni Nmero de pacientes Como se trata de una variable aleatoria continua, trabajaremos con las marcas de clase (Mc) en vez de utilizar las xi. Media aritmtica:
X=

xi [10-20) [20-30) [30-40) [40-50) [50-60)

Mc 15 25 35 45 55

ni 10 20 25 15 40

Ni 10 30 55 70 110

fi 10/200 20/200 25/200 15/200 40/200

15 * 10 25 * 20 35 * 25 45 * 15 55 * 40 65 * 50 75 * 40 =53,25 200

13

Media geomtrica: G =

200

1510 * 25 20 * 35 25 * 4515 * 55 40 * 6550 * 75 40

Para este ejemplo, como los valores son altos y no siguen una progresin geomtrica, es decir, no existen grandes variaciones entre ellos, no tiene sentido calcular la media geomtrica; pero nosotros lo dejamos indicado para que se vea el modo de clculo. Media cuadrtica: MQ= 152

10 20 25 15 40 50 40 252 352 452 552 652 752 = 48,179 200 200 200 200 200 200 200
N 200 = =100 2 2

Mediana: Calculamos en primer lugar el intervalo mediano,

Nos fijamos en la tabla (columna Ni) y vemos que corresponde al intervalo [50-60), ya que es el primer valor que sobrepasa el valor 100. Para calcular el valor exacto de la mediana utilizamos la frmula:

200 70 2 i) Me = 50 10 57,5 40 Moda: El intervalo modal sera [60 70) ya que el ni = 50 Aplicando la frmula tenemos:
50 40 10 10 Mo = 60 10 65 2 50 40 40 10 10 10

Cuantiles: Nos fijamos en la tabla en la columna de las frecuencias absolutas acumuladas Ni, y aplicamos la frmula para las variables continuas: Q25:
200 * 25 55 - 30 50 ; Q25= 30 10 40 100 25 200 * 75 160 110 150 ; Q75= 60 10 70 100 50

Q75:

200 * 80 160 110 160 ; Q80= 60 10 70 100 50 200 * 90 200 160 180 ;Q90= 70 10 80 Q90: 100 40

Q80:

14

4. Medidas de dispersin Recorrido. Es el mximo valor que toma la variable menos el mnimo valor que toma la variable. Es el menos utilizado, pero el ms fcil de calcular y la ms imprecisa. xi =valores de la variable R = max {xi} min {xi}

Recorrido Intercuartlico: Tiene en cuenta slo los datos centrales, es decir, ignora tanto el 25% de los primeros datos, como el ltimo 25% de los datos. Q25 y Q75 = cuantiles 25 y 75 respectivamente RI = Q75 Q25

Recorrido Interpercentlico: Es una variacin del anterior, ignora el 10% de los datos menores y de los mayores, y se define como: p= percentil que queremos ignorar

RIp = Q100-p - Qp , cuando p < 50

Recorrido semiintercuartlico: Si p es el valor central del intervalo cuartlico (Q25 , Q75), esta medida me da el intervalo en el que se encuentra el 50% de las observaciones ( p RIS , p + RIS).

RIS =

Q 75 Q 25 2

Varianza: Es la media aritmtica de las desviaciones de los valores de la variable a la media elevados al cuadrado. Siempre es positiva (ya que todos los nmeros elevados al cuadrado son mayores o iguales a cero). x = media de los datos de la variable xi = valores de la variable ni = frecuencias absolutas de los valores de la variable

15

Vx =

1 N

i 1

( xi - x )2 ni

Tambin se denota por S2x , 2. Desviacin tpica: Es la raz cuadrada positiva de la varianza. Vx = Varianza de la variable de estudio

Vx

Tambin se denota por Sx. Medidas de dispersin relativas a la mediana: Son cocientes entre medidas de dispersin absolutas (las anteriormente explicadas) y un promedio. No se pueden utilizar cuando la mediana es cero o proxima a cero. Podemos distinguir entre: Intervalo intercuartlico relativo:
Q 75 25 Me

IIr =

Intervalo semiintercuartlico relativo:


Q 75 25 2Me

ISIr =

Coeficiente de variacin mediana: = Desviacin tpica. Me = Mediana

CVMe =

Me

16

Coeficientes de dispersin relativos a al media: Podemos distinguir entre: Recorrido relativo: R= Recorrido x = Media de la variable de estudio.

Rr = R
x

Coeficiente de variacin cuartlica:

VQ =

Q 75 Q 25 Q 75 Q 25

Coeficiente de variacin de Pearson: Es el cociente entre la desviacin tpica y la media de la variable. Puede variar ante cambios de origen, pero no ante los cambios de escala.

Ejemplo de variable continua: Se quiere realizar un estudio sobre los salarios diarios de una empresa de informtica. Para ello se dispone de la siguiente tabla de frecuencias: Salarios N empleados(ni) 80 100 10 100 15 120 120 20 140 140 15 160 160 12 180 Mc ai Ni

90 20 90 110 20 200 130 20 330 150 20 480 170 20 650

Calcular los diferentes recorridos, as como la varianza, desviacin tpica y el coeficiente de variacin de Pearson. Antes de realizar los clculos que nos piden, hallaremos los valores de las marcas de clase, la amplitud de los intervalos y frecuencias absolutas acumuladas (las podemos ver en la tabla de frecuencias), as como la media, mediana, cuantiles 25 y 75, que necesitaremos para los clculos pedidos en nuestro enunciado.

17

x =

(90 * 10) (110 * 15) (130 * 20) (150 * 15) (170 * 12) = 131,11 72

N 72 = = 36, luego el intervalo mediano ser [ 80 ; 100 ) y, por tanto, la me2 2

diana es: Me = 80 +

36 0 20 = 152 10

Q25 :

pN 25 * 72 = = 18, luego tenemos [80, 100), entonces: 100 100


Q25= 80 +
18 0 20 = 116 10

Q75:

75 * 72 =54, luego tenemos [80 ; 100), entonces: 100 54 0 Q75= 80 + 20 = 188 10

Ahora ya podemos calcular todo lo que nos piden: R = 170 90 = 80 RI = 188 116 = 72 188 116 RSI = = 36 2 Vx =
1 [(90-131,11)210+(110-131,11)215+(130-131,11)220+(15072

131,11)215+(170-131,11)212] = 654,320

= IIr =

654,320 = 25,579
188 116 = 0,4736 152

ISIr =

188 116 = 0,2368 2 * 152


25,579 = 0,1682 152

CVMe =

18

Rr =

80 = 0,6101 131,11

188 116 = 0,2368 188 116 25,579 CV = = 0,1950 131.11


VQ = 5. Momentos Los momentos de una distribucin de frecuencias son nicos, es decir, si tenemos dos distribuciones de frecuencias iguales, los momentos de ambas coinciden. Dependiendo del respecto a que se mire, hay que distinguir: Momentos respecto al origen de orden r o momentos centrales: Se definen como la ponderacin de todos los valores de la variable elevadas a r, es decir: ar momento respecto al origen de orden r momento central de orden r fi frecuencia relativa de cada valor de la variable en estudio. xi valores que toma la variable en estudio

ar =

i 1

fi (xi) r

Los momentos centrales ms importantes son: a0 = 1 a1 =


i 1 N

fi xi media aritmtica.

Momentos respecto a la media de orden r: son las distancias elevadas al orden r de todos los puntos a la media. mr momento respecto a la media de orden r. fi frecuencia relativa de cada valor de la variable en estudio. xi valores que toma la variable en estudio. x media aritmtica de la variable en estudio.

mr =

i 1

fi (xi - x )r

19

Los momentos respecto a la media de orden r ms importantes son: m0 = 1 m1 = 0 m2 =

i 1

fi (xi - x )2 varianza muestral.

Ejemplo de momentos centrados y no centrados para variables aleatorias discretas: En un cierto centro de salud se tomaron de forma aleatoria las edades de 11, 12, 14 y 17 aos de 10 adolescentes, obtenindose la siguiente tabla de distribucin: xi ni Ni 11 2 2 12 2 4 14 2 6 17 4 10 I 10 fi Fi 2/10 2/10 2/10 4/10 2/10 6/10 4/10 1 1

xi Edad de los adolescentes. ni nmero de adolescentes con dichas edades. Frecuencia absoluta. Calcular los momentos centrados de orden 2 y 3 y el momento no centrado de orden 2. a2 =

f (x )
i 1 N i i

2 2 2 2 2 2 4 2 11 12 14 17 207,8 10 10 10 10
2 3 2 3 2 3 4 3 11 12 14 17 3125,8 10 10 10 10

a3 =

f (x )
i 1 N i i

m2 = f i ( x i x) 2 .
i 1

Para calcular los momentos no centrados de cualquier orden, necesitamos previamente calcular la media aritmtica.
x a 1 f i (x i )
i 1 N

2 2 2 4 11 12 14 17 14,2 10 10 10 10

m2 = f i ( x i x) 2
i 1

2 2 2 4 (11 14,2) 2 (12 14,2) 2 (14 14,2) 2 (17 14,2) 2 6,16 10 10 10 10

Nota: En ejemplos de momentos centrados y no centrados para variables aleatorias continuas, se haran los mismos clculos que para variables aleatorias discretas; pe-ro en vez de utilizar los valores de la variable (xi), utilizaramos las marcas de clase de cada intervalo (Mc).

20

6. Medidas de asimetra y curtosis 6.1. Medidas de asimetra Coeficiente de asimetra de Pearson: Se basa en la relacin existente entre la moda y la media. Es el ms fcil de calcular. Permite estudiar las diferencias entre dos variables distintas ya que se trata de una medida adimensional. Se cumple que: Si x - Mo > 0 tenemos asimetra a la derecha. Si x - Mo < 0 tenemos asimetra a a la izquierda Si x - Mo = 0 tenemos simetra. El coeficiente de asimetra viene definido como:
x Mo

AS =

Siendo: x = Media de la variable de estudio Mo = Moda de la variable = Desviacin tpica. Coeficiente de Fisher: Es ms fiable que el coeficiente de Pearson pero es ms difcil de calcular. Se cumple que: Si g1 > 0 tenemos sesgo a la derecha o positivo Si g1 < 0 tenemos sesgo a la izquierda o negativo Si g1 = 0 tenemos simetra. El coeficiente de asimetra viene dado por:

g1 =

m3

Siendo: m3 = Momento de orden 3 respecto a la media. 3 = desviacin tipica elevada el cubo. Para una misma distribucin, si se calcula la asimetra utilizando ambos Coeficientes, la conclusin final debe ser la misma, aunque el valor numrico del Coeficiente no coincida. 6.2. Curtosis o aplastamiento

21

Nos indica si la distribucin que tenemos se parece ms o menos a la campana de Gauss, es decir, si es ms aplastada o no que la distribucin normal, de forma que: Si es ms apuntada que la normal, se llama leptocrtica; si es ms aplastada, se llama platicrtica; y si es igual de aplastada, se llama mesocrtica. Coeficiente de Fisher: Se cumple que: Si g2 > 0 tenemos que la distribucin es leptocrtica. Si g2 < 0 tenemos que la distribucin es platicrtica. Si g2 = 0 tenemos que la distribucin es mesocrtica El coeficiente de curtosis esta definido como:

g2 =

m4

Siendo: m4 = Momento de orden 4 respecto de la media 4 = Desviacin tpica elevada a cuatro.

Indice de Gini. Nos indica si el reparto de los valores de la variable se distribuye de forma equitativa, de forma que si el valor del este ndice es alto, el reparto es menos equitativo; y si el valor del ndice es mas bajo, el reparto es ms equitativo. Se cumple que: Si Ico = 0 tenemos que el reparto es equitativo. Si Ico = 1 tenemos que el reparto es el menos equitativo posible, es decir la riqueza se concentra en un solo grupo o individuo. El ndice viene definido como:

pi = Fi * 100

(p

K 1 1

qi )
i

x n
j

Ico =
j

p
1

K 1

qi =

j-1

p
i 1

K -1

Siendo: pi = proporcin de individuos hasta la clase i qi = proporcin de riquezas xj = valor j de la variable.

22

ni = frecuencias absolutas j de la variable. Ejemplo en variable continua: El tamao de cierta especie de pez encontrada en un pais tropical se ha clasificado segn el dimetro que ha sido observado por los investigadores, obtenindose la siguiente tabla de datos: Dimetro del pez [5 -15) [15 25) [25 35) [35 45) [45 55) Nmero de peces (ni) 8 10 12 14 6 Mc 10 20 30 40 50 ai hi = ni/ai 10 10 10 10 10 8/10 10/10 12/10 14/10 6/10

Calcular el grado de asimetra de la poblacin de peces y la curtosis. Tenemos que el coeficiente de asimetra Pearson es: AS = ficiente de asimetra de Fisher es, g1 =

x Mo

y el coe-

m3

; luego entonces, calcularemos previa-

mente los valores de la media, moda, momento respecto de la media de orden 3 y la desviacin tpica elevada al cubo. Para el clculo de la media utilizamos las marcas de clase por ser una variable continua.
x 1 N

X n
i 1

1 (8 * 10) (10 * 20) (12 * 30) (14 * 40) (6 * 50) = 30 50

Vx = =

1 N

i 1

( xi - x )2 ni = 160

Vx = 12,64

m3 =

i 1

fi (xi - x )3 = -240

Mo: Tenemos que calcular los hi =

ni n n ;hi-1 = i 1 ;hi+1 = i 1 ai a i 1 a i 1

En la tabla de datos podemos ver el clculo de los hi. El intervalo modal es [35; 45), luego la moda ser: Mo = L i -1

h i h i -1 a i = 38,3 2h i h i 1 h i -1

Entonces tenemos que el coeficiente se asimetra es:

23

tra a la izquierda.
g1 = quierda.

AS =

x Mo

30 38,3 0,66 , lo que indica que la distribucin tiene sime12,64

m3

240 = - 0,12, lo que me dice que tenemos asimetra a la iz(12,64) 3

Veamos ahora el clculo de la curtosis segn el coeficiente de Fisher:

Calculamos el momento de orden 4: m4 = g2 =

i 1

fi (xi - x )4= 49600

m4

3 =

49600 3 1,0321 , lo que me dice que la distribucin es plati(12,64) 4

crtica, es decir, ms achatada de lo normal.

Resumen En este primer tema hemos adquirido los primeros conocimientos estadsticos bsicos que nos permiten hacer los primeros clculos para obtener informacin sobre nuestros datos. Estos clculos bsicos ms importantes son: La tabla de frecuencias y frecuencias acumuladas: Xi=valor variable X1 X2 X3 X4 X5 xK ni=frec. abs n1 n2 n3 n4 n5 nK fi = xi/ni Ni=FREC.abs.acum. X1/n1 X2/n2 X3/n3 X4/n4 X5/n5 XK/nK n1 n1+ n2 n1+ n2+ n3 n1+ n2+ n3+ n4 n1+ n2+ n3+ n4+ n5 n1+ n2+ n3+ n4+ n5++ nk N Fi=Frec.rel.acum f1 f1+f2 f1+f +f3 f1+f2+f3+f4 f1+f2+f3+f4+f5 f1+f2+f3+f4+f5++f1 1

As como los clculos ms importantes, que son: Media aritmtica: x


1 N

X n
i 1

24

Mediana (variables continuas): Me = L i -1

N 2

N i -1 ni

ai

Moda (variables continuas): Mo= L i -1

h i h i -1 ai 2h i h i 1 h i -1

Np

Cuantiles de orden p: Qp = L i 1
1 N

100

N i -1 ni

ai

Varianza: Vx =

i 1

( xi - x )2 ni

Desviacin tpica: =

Vx

Coeficiente de variacin: CV =

Momentos centrales y respecto de la media:

ar =

i 1

fi (xi)

mr =

i 1

fi (xi - x )r

Coeficientes de asimetra AS = y curtosis: m g2= 4 3 4

x Mo

Todas estas frmulas nos permiten hacer clculos estadsticos bsicos, tanto en variables discretas como en variables continuas (stas sern ms utilizadas de ahora en adelante)

EJERCICIOS DE EVALUACIN
[Envense las respuestas de estos ejercicios por e-mail, con la extensin que se estime necesaria, a: carmen_perez_pintos@hotmail.com]

1. En cierto centro diettico, se tomo como variable aleatoria la altura de 110 clientes femeninos obtenindose la siguiente tabla de distribucin:

25

xi [1,551,60) [1,601,70) [1,701,80) [1,801,90) [1,902,00)

ni 1 8 3 1 2 4 2 0 1 7

Donde: xi altura de los cliente femeninos ni nmeros de clientes femeninos Calcular el valor promedio, la mediana y la moda de dicha variable. 2. Sea la variable aleatoria que recoge los riesgos de un hospital, ordenados por tramos dependiendo del nmero de pacientes: ni 55,2 8 [4-20) 21,0 1 [20-100) 19,3 1 [1003,55 200) [2000,85 260) Donde: xi nivel de riesgo ni porcentaje de pacientes Calcular los cuatro primeros momentos centrados, y los cuatro no centrados y a partir de ellos calcular todas las medidas e ndices posibles. 3. En una encuesta realiza sobre el porcentaje de sueldo que una familia gasta en comida, se obtuvieron los siguientes resultados: 20, 41, 23, 25, 26, 26, 24, 35, 32, 24, 26, 25, 56, 24, 37, 29, 28 51, 40, 52, 32, 21, 26, 60, 28, 19, 37, 68, 26, 37, 28, 53, 26, 27 a) Definir la variable estadstica, decir que tipo de variable es y construir la tabla de frecuencias completa. b) Discretizar la variable estadstica y calcular su varianza y desviacin tpica. c) Calcular los cuantiles 50,60, 75 y 90. xi [0-4)

26

4. En un experimento que meda los porcentajes de un determinado medicamento en la sangre de los pacientes 15 minutos despus de la ingestin, se obtuvieron los siguientes resultados: 1.3, 20.5, 17.9, 17.3, 17.1, 15.8, 16.9, 17.1, 19.5, 22.5, 20.7, 18.5, 22.5 19.1, 17.9, 18.4, 18.7, 18.8, 17.5, 17.5, 14.9, 12.3, 19.4, 16.8, 19.3 a) Agrupa la variable en intervalos de la misma longitud, calcula el mximo, el mnimo, el recorrido intercuartlico y la amplitud del intervalo. b) Calcula el coficiente de variacin, la varianza y lo moda. 5. Sean las siguientes longitudes, medidas en centmetros y agrupadas en intervalos de la siguiente manera: xi [01) [12) [23) [34) [45) ni 1 0 1 2 1 2 1 0 7

a) Hallar el coeficiente de Fisher y el coeficiente de Pearson. b) Ver su simetra y el coeficiente de apuntamiento o Kurtosis.

You might also like