Professional Documents
Culture Documents
TEMA 01 DISTRIBUCIN DE FRECUENCIAS EN VARIABLES UNIDIMENSIONALES Y SUS CARACTERSTICAS NUMRICAS Carmen Prez Pintos Olga Sanz Espinosa
Curso-Master en Bioestadstica y sus aplicaciones en Ciencias de la Salud. Especialistas en Bioestadstica aplicada a la investigacin. Diplomadas en Estadstica (UCM)
CONTENIDO
Introduccin 1. Conceptos bsicos 2. Distribucin de frecuencias de variables discretas y continuas 3. Media, Mediana, Moda y Cuantiles
Introduccin Hasta la Edad Media slo exista la estadstica descriptiva creada por la escuela de A. Chenwall. Posteriormente, aparece una nueva escuela, la de matemticos polticos, utilizada para contar eventos sociales. En esta escuela se intenta contar las causas que originan esos fenmenos. El representante ms significativo de esta poca fue Queteret, quien puso de manifiesto la posibilidad de estudiar la estadstica para saber las causas de diferentes fenmenos. La Estadstica descriptiva tiene la necesidad de buscar apoyo en el clculo de probabilidades, ya que en ella no se sacan conclusiones, sino que slo se describen los fenmenos. Es a principios del s. XX cuando se unen estos dos conceptos, dando lugar a la Estadstica matemtica.
1. Conceptos bsicos Estadstica. Ciencia que estudia los nmeros para leyes que dependen del azar. Estudio de los conjuntos numricos y sus funciones. Ciencia que estudia fenmenos no predecibles y establece conclusiones slidas, teniendo en cuenta la variabilidad presente en los mismos. Estadstica Descriptiva. Mtodos que nos permiten analizar datos que dependen de criterios numricos. Se ocupa de resumir las caractersticas de un conjunto
de datos en un nmero reducido de medidas o grficos. Sintetiza la informacin revelada por los datos sin tener en cuenta objetivos de naturaleza inductiva. Inferencia estadstica. Se ocupa de la extrapolacin de los resultados de la muestra a la poblacin. Su objetivo es inferir conclusiones que hagan referencia a la poblacin global, as como proporcionar medidas que permitan cuantificar el grado de confianza que podemos tener al sacar las conclusiones. Poblacin. Conjunto de animales, personas o cosas de cualquier naturaleza sobre los que se realiza un estudio. (Es necesario tener claro quines componen la poblacin que vamos a estudiar, es decir, que no exista ambigedad). Muestra. Subconjunto de la poblacin suficientemente representativo para la realizacin del estudio. Elemento. Cada uno de los individuos que constituye la poblacin. Tamao de la poblacin. Es el nmero de individuos que constituyen la poblacin. Carcter. Cada una de las caractersticas de la poblacin, es decir, el objeto de estudio. Modalidades. Diferentes valores que pueden tomar los caracteres objetos de estudio. Deben ser excluyentes. Variable. Caracteres estudiados. Dominio. Conjunto de valores que puede tomar la variable. Variable cualitativa. Toman valores no numricos que describen cualidades o atributos. No se pueden medir. Variable cuantitativa. Toman valores numricos. Discretas: Toman nicamente una cantidad finita o numerable. Ejemplos: colores, numero de hijos... Continuas: Pueden tomar cualquier valor de un intervalo. Ejemplos: Edad, peso, estatura
2. Distribucin de frecuencias de variables discretas y continuas. Presentacin de datos indicando las clases o atributos considerados y su frecuencia de aparicin. Los valores observados con sus respectivas frecuencias recogidas en una tabla es lo que denominamos distribucin de frecuencias de la variable. -- Frecuencia absoluta: Nmero de veces que se repiten los valores de cada variable. Ejemplo frecuencia absoluta variable discreta:
Xi color de ojos (nombre de la variable en estudio) ni frecuencia absoluta. N Numero total de la poblacin.
n
i 1
-- Frecuencia relativa: Razn entre la frecuencia absoluta y el nmero total de observaciones. Permite comparar la variable estudiada en poblaciones de distintos tamaos. Ejemplo frecuencia relativa variable discreta: Xi color de ojos (nombre de la variable en estudio) fi frecuencia relativa.
f
i 1
-- Frecuencia acumulada: Nmero de individuos de la poblacin que representa el valor de la variable menor o igual a la posicin del valor. Ejemplo de frecuencia relativa acumulada variable discreta: Xi color de ojos (nombre de la variable en estudio) Fi frecuencia relativa acumulada.
Fi 4/20 2/20 + 4/20 6/20 + 2/20 + 4/20 8/20 + 6/20 + 2/20 + 4/20 = 1
Nota: La ltima fila de la tabla de frecuencias relativas acumuladas debe sumar uno.
Ejemplo de frecuencia absoluta acumulada variable discreta: Xi color de ojos (nombre de la variable en estudio) Ni frecuencia absoluta acumulada. Xi Verde Azul Marron Negro Ni 4 2+4 6+2+4 8+6+2+4
Ejemplo de frecuencia absoluta variable continua: Xi altura (nombre de la variable en estudio) ni frecuencia absoluta. N Nmero total de la poblacin.
n
i 1
ni 4 9 35 43 18 8 3 1 121
Ejemplo de frecuencia relativa variable continua: Xi altura (nombre de la variable en estudio) fi frecuencia relativa.
f
i 1
=1
Ejemplo de frecuencia absoluta acumulada variable continua: Xi altura (nombre de la variable en estudio) Ni frecuencia absoluta acumulada. Xi [1.55-1.60) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] Ni 4 4+9 4+9+35 4+9+35+43 4+9+35+43+18 4+9+35+43+18+8 4+9+35+43+18+8+3 4+9+35+43+18+8+3+ 1
Ejemplo de frecuencia relativa acumulada variable continua: Xi altura (nombre de la variable en estudio) Fi frecuencia relativa acumulada. Xi [1.55-1.60) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] Fi 4/121 4/121+9/121 4/121+9/121+35/121 4/121+9/121+35/121+43/121 4/121+9/121+35/121+43/121+18/121 4/121+9/121+35/121+43/121+18/121+8/121 4/121+9/121+35/121+43/121+18/121+8/121+3/121 4/121+9/121+35/121+43/121+18/121+8/121+3/121+1/1 21=1
Nota: La ltima fila de la tabla de frecuencias relativas acumuladas debe sumar uno.
Marca de clase como valor de la variable (Xi), que es la semisuma de los extremos del intervalo. Ejemplo de marca de clase: Mc Marca de Clase Xi [1.60-1.65) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] Mc (1.60+1.65)/ 2 (1.65+1.70)/ 2 (1.70+1.75)/ 2 (1.75+1.80)/ 2 (1.80+1.85)/ 2 (1.85+1.90)/ 2 (1.90+1.95)/ 2 (1.95+2.00)/ 2
Amplitud del intervalo se define como la diferencia existente entre el extremo superior e inferior del intervalo. Ejemplo amplitud de intervalo: ai = Li Li-1 Xi [1.60-1.65) [1.65-1.70) [1.70-1.75) [1.75-1.80) [1.80-1.85) [1.85-1.90) [1.90-1.95) [1.95-2.00] ai 1.65-1.60 1.70-1.65 1.75-1.70 1.80-1.75 1.85-1.80 1.90-1.85 1.95-1.90 1.95-2.00
3. Media, Mediana, Moda, Percentiles Media aritmtica. Suma de todas las observaciones dividida por el nmero total de observaciones.
x media aritmtica
xi valores que toma la variable en estudio. (En caso de variables agrupadas en intervalos, hay que utilizar la marca de clase) ni frecuencia absoluta N nmero total de observaciones.
1 N
X n
i 1
x X i fi
1
Media geomtrica. nicamente se utilizar con valores positivos de la variable en estudio y cuando en sta existan grandes variaciones entre los valores de la variable y estos sean pequeos, es decir, cuando los valores de la variable se encuentran formando una progresin geomtrica. G = Media geomtrica. x1....xk = valores que toma la variable en estudio. n1....nk = frecuencias absolutas de cada uno de los valores de la variable de estudio. N = Numero total de observaciones.
n1 n2 n3 n4 n5 nK
G=
x 1 x 2 x 3 x 4 x 5 ...x K
Media cuadrtica. Se utilizar cuando los valores de la variable en estudio presentan oscilaciones. MQ = Media cuadrtica. xi = valores de la variable en estudio. fi = Frecuencias relativas de cada uno de los valores de la variable en estudio. MQ = ( xi fi)1/2 MQ =
x
i 1
fi
Existen ms tipos de medias, como la media aritmtica ponderada o la media armnica; pero las ms utilizadas son las mencionadas en este captulo.
Mediana. Es el lugar central de una distribucin de modo que queden a ambos lados el mismo nmero de observaciones. Es decir, es un nmero tal que, ordenados los datos en sentido creciente o decreciente, la mitad son superiores a este nmero y la otra mitad son inferiores. En caso de variables discretas, se ordenan los datos y se eligen segn si el nmero de observaciones es par o impar. Si el nmero de observaciones es par, la mediana ser: N/2, siendo N el nmero de observaciones. Si el nmero de observaciones es impar, la mediana ser el valor central de los datos ordenados. En caso de variables continuas, la mediana ser: Me = Mediana. ai = Amplitud del intervalo mediano. N = Nmero total de observaciones. Ni-1 = Frecuencia absoluta acumulada del intervalo anterior al intervalo mediano. ni = frecuencia absoluta del intervalo mediano. Li-1 = Extremo inferior del intervalo mediano. Intervalo mediano. Intervalo al que pertenece el valor mediano. ( [ Li-1 , Li) ). Lo obtenemos buscando el valor de Ni que toma por primera vez el valor N/2.
N i -1 ni
Me = L i -1
N 2
ai
Cuantiles. Son una generalizacin de la mediana, y distribuyen la poblacin en dos partes iguales. Los ms importantes son: Mediana: Me = Q1/2 Cuartiles: Q1/4, Q1/2, Q3/4 Deciles: Q1/10, Q2/10, Q3/10, Q4/10, ...Q9/10 Percentiles: Q1/100, Q2/100, , Qi/100 En caso de variables discretas, se calculan las frecuencias absolutas acumuladas y se busca el valor de la frecuencia absoluta acumulada que toma por primera Np vez un valor . 100 Si Ni =
Np 100
x i x i 1 2
Si Ni > Siendo:
Np 100
Np = Frecuencia absoluta acumulada del cuantil que queremos calcular. Qp = Cuantil que queremos calcular. xi = Valor de la variable correspondiente al valor obtenido de N i (Frecuencia absoluta acumulada). xi+1 = Valor de la variable posterior al correspondiente valor obtenido de Ni. En caso de variables continuas, los cuantiles se calculan de la siguiente forma: Qp = Cuantil p. Li-1 = Extremo inferior del intervalo al que corresponde Qp. Ni-1 = Frecuencia absoluta acumulada de intervalo anterior al que corresponde Qp. ni = Frecuencia absoluta del intervalo al que corresponde Qp.
Np
Qp = L i 1
100
N i -1 ni
ai
Moda. Es el valor de la variable que ms veces se repite. Puede existir ms de una moda. Si la variable es discreta, la moda ser el valor de la variable que mayor frecuencia tiene. Si la variable es contina, agrupada por intervalos, el intervalo modal ser el de mayor altura o densidad. Ejemplo: Vamos a buscar el valor ms frecuencia en la siguiente distribucin. Xi 0.9-1.3 1.3-1.6 1.6-2.2 2.2-3 3-5 Frecuencia (ni) 8 12 15 6 5 Ai 0.4 0.3 0.6 0.8 2 Hi 20 40 25 7.5 2.5
El intervalo de mayor frecuencia es el 1.6-2.2, pero debemos tener en cuenta que abarca ms valores que los dos anteriores a l, por lo que no tiene por qu corresponder a este intervalo el valor que ms veces se ha presentado. Por ello se debe realizar el clculo de las alturas para ver cal es el intervalo de mayor altura. El intervalo de mayor altura es el segundo. Por tanto vamos a razonar el clculo de la moda :
10
11
Ejemplo de clculo media, mediana, moda y cuantiles en variables discretas: En una consulta de mdico de familia se pretende calcular el valor promedio, la moda, la mediana y los cuantiles 25, 75, 80, 95, de una muestra de pacientes que presentan el virus de la gripe y que se resume en la siguiente tabla, siendo: xi= nmero de expediente de enfermos con gripe ni= nmero de veces que ha enfermado el paciente en el ultimo ao (frecuencia absoluta) xi ni 1 2 2 2 3 2 4 1 5 1 6 1 7 2 9 1 10 1 12 2 14 1 TOTAL 16 Ni 2 4 6 7 8 9 11 12 13 15 16 fi 2/16 2/16 2/16 1/16 1/16 1/16 2/16 1/16 1/16 2/16 1/16
Media aritmtica:
x =
1* 2 2 * 2 3 * 2 4 *1 5 *1 6 *1 7 * 2 9 *1 10 *1 12 * 2 14 *1 = 6,125 16
Media geomtrica: G=
16 2
Para calcular ahora la media cuadrtica debemos hallar previamente las frecuencias relativas de nuestra tabla de datos, como se puede ver en ella. As podemos obtener que la media cuadrtica es: Media cuadrtica: MQ= 12
Calculamos ahora la mediana: Como tenemos una variable discreta y un nmero de observaciones xi impar la mediana ser el valor central de los datos ordenados, es decir, xi=6
12
Moda. En este caso podemos ver que los valores de la variable con frecuencia absoluta 2, es valor de mayor frecuencia, luego tenemos ms de una moda que se corresponden con los valores xi = 1,2,3,7,12. Cuantiles. Calculamos primero las frecuencias absolutas acumuladas Ni. Entonces: Q25:
Q75;
Q80:
; Q80 = 10
Q90: 16 * 90 14,4 ; Q90 = 12 100 Ejemplo de clculo de media, mediana, moda y cuantiles en variables continuas: En un hospital se pregunt la edad de diferentes pacientes diabticos, agrupada sta en intervalos, obtenindose la siguiente tabla de distribucin: Fi 10/200 30/200 55/200 70/200 110/20 0 [60-70) 65 50 160 50/200 160/20 0 [70-80] 75 40 200 40/200 1 TOTAL 200 1 Siendo: xi Las edades de los pacientes diabticos ni Nmero de pacientes Como se trata de una variable aleatoria continua, trabajaremos con las marcas de clase (Mc) en vez de utilizar las xi. Media aritmtica:
X=
Mc 15 25 35 45 55
ni 10 20 25 15 40
Ni 10 30 55 70 110
15 * 10 25 * 20 35 * 25 45 * 15 55 * 40 65 * 50 75 * 40 =53,25 200
13
Media geomtrica: G =
200
Para este ejemplo, como los valores son altos y no siguen una progresin geomtrica, es decir, no existen grandes variaciones entre ellos, no tiene sentido calcular la media geomtrica; pero nosotros lo dejamos indicado para que se vea el modo de clculo. Media cuadrtica: MQ= 152
10 20 25 15 40 50 40 252 352 452 552 652 752 = 48,179 200 200 200 200 200 200 200
N 200 = =100 2 2
Nos fijamos en la tabla (columna Ni) y vemos que corresponde al intervalo [50-60), ya que es el primer valor que sobrepasa el valor 100. Para calcular el valor exacto de la mediana utilizamos la frmula:
200 70 2 i) Me = 50 10 57,5 40 Moda: El intervalo modal sera [60 70) ya que el ni = 50 Aplicando la frmula tenemos:
50 40 10 10 Mo = 60 10 65 2 50 40 40 10 10 10
Cuantiles: Nos fijamos en la tabla en la columna de las frecuencias absolutas acumuladas Ni, y aplicamos la frmula para las variables continuas: Q25:
200 * 25 55 - 30 50 ; Q25= 30 10 40 100 25 200 * 75 160 110 150 ; Q75= 60 10 70 100 50
Q75:
200 * 80 160 110 160 ; Q80= 60 10 70 100 50 200 * 90 200 160 180 ;Q90= 70 10 80 Q90: 100 40
Q80:
14
4. Medidas de dispersin Recorrido. Es el mximo valor que toma la variable menos el mnimo valor que toma la variable. Es el menos utilizado, pero el ms fcil de calcular y la ms imprecisa. xi =valores de la variable R = max {xi} min {xi}
Recorrido Intercuartlico: Tiene en cuenta slo los datos centrales, es decir, ignora tanto el 25% de los primeros datos, como el ltimo 25% de los datos. Q25 y Q75 = cuantiles 25 y 75 respectivamente RI = Q75 Q25
Recorrido Interpercentlico: Es una variacin del anterior, ignora el 10% de los datos menores y de los mayores, y se define como: p= percentil que queremos ignorar
Recorrido semiintercuartlico: Si p es el valor central del intervalo cuartlico (Q25 , Q75), esta medida me da el intervalo en el que se encuentra el 50% de las observaciones ( p RIS , p + RIS).
RIS =
Q 75 Q 25 2
Varianza: Es la media aritmtica de las desviaciones de los valores de la variable a la media elevados al cuadrado. Siempre es positiva (ya que todos los nmeros elevados al cuadrado son mayores o iguales a cero). x = media de los datos de la variable xi = valores de la variable ni = frecuencias absolutas de los valores de la variable
15
Vx =
1 N
i 1
( xi - x )2 ni
Tambin se denota por S2x , 2. Desviacin tpica: Es la raz cuadrada positiva de la varianza. Vx = Varianza de la variable de estudio
Vx
Tambin se denota por Sx. Medidas de dispersin relativas a la mediana: Son cocientes entre medidas de dispersin absolutas (las anteriormente explicadas) y un promedio. No se pueden utilizar cuando la mediana es cero o proxima a cero. Podemos distinguir entre: Intervalo intercuartlico relativo:
Q 75 25 Me
IIr =
ISIr =
CVMe =
Me
16
Coeficientes de dispersin relativos a al media: Podemos distinguir entre: Recorrido relativo: R= Recorrido x = Media de la variable de estudio.
Rr = R
x
VQ =
Q 75 Q 25 Q 75 Q 25
Coeficiente de variacin de Pearson: Es el cociente entre la desviacin tpica y la media de la variable. Puede variar ante cambios de origen, pero no ante los cambios de escala.
Ejemplo de variable continua: Se quiere realizar un estudio sobre los salarios diarios de una empresa de informtica. Para ello se dispone de la siguiente tabla de frecuencias: Salarios N empleados(ni) 80 100 10 100 15 120 120 20 140 140 15 160 160 12 180 Mc ai Ni
Calcular los diferentes recorridos, as como la varianza, desviacin tpica y el coeficiente de variacin de Pearson. Antes de realizar los clculos que nos piden, hallaremos los valores de las marcas de clase, la amplitud de los intervalos y frecuencias absolutas acumuladas (las podemos ver en la tabla de frecuencias), as como la media, mediana, cuantiles 25 y 75, que necesitaremos para los clculos pedidos en nuestro enunciado.
17
x =
(90 * 10) (110 * 15) (130 * 20) (150 * 15) (170 * 12) = 131,11 72
diana es: Me = 80 +
36 0 20 = 152 10
Q25 :
Q75:
Ahora ya podemos calcular todo lo que nos piden: R = 170 90 = 80 RI = 188 116 = 72 188 116 RSI = = 36 2 Vx =
1 [(90-131,11)210+(110-131,11)215+(130-131,11)220+(15072
131,11)215+(170-131,11)212] = 654,320
= IIr =
654,320 = 25,579
188 116 = 0,4736 152
ISIr =
CVMe =
18
Rr =
80 = 0,6101 131,11
ar =
i 1
fi (xi) r
fi xi media aritmtica.
Momentos respecto a la media de orden r: son las distancias elevadas al orden r de todos los puntos a la media. mr momento respecto a la media de orden r. fi frecuencia relativa de cada valor de la variable en estudio. xi valores que toma la variable en estudio. x media aritmtica de la variable en estudio.
mr =
i 1
fi (xi - x )r
19
i 1
Ejemplo de momentos centrados y no centrados para variables aleatorias discretas: En un cierto centro de salud se tomaron de forma aleatoria las edades de 11, 12, 14 y 17 aos de 10 adolescentes, obtenindose la siguiente tabla de distribucin: xi ni Ni 11 2 2 12 2 4 14 2 6 17 4 10 I 10 fi Fi 2/10 2/10 2/10 4/10 2/10 6/10 4/10 1 1
xi Edad de los adolescentes. ni nmero de adolescentes con dichas edades. Frecuencia absoluta. Calcular los momentos centrados de orden 2 y 3 y el momento no centrado de orden 2. a2 =
f (x )
i 1 N i i
2 2 2 2 2 2 4 2 11 12 14 17 207,8 10 10 10 10
2 3 2 3 2 3 4 3 11 12 14 17 3125,8 10 10 10 10
a3 =
f (x )
i 1 N i i
m2 = f i ( x i x) 2 .
i 1
Para calcular los momentos no centrados de cualquier orden, necesitamos previamente calcular la media aritmtica.
x a 1 f i (x i )
i 1 N
2 2 2 4 11 12 14 17 14,2 10 10 10 10
m2 = f i ( x i x) 2
i 1
Nota: En ejemplos de momentos centrados y no centrados para variables aleatorias continuas, se haran los mismos clculos que para variables aleatorias discretas; pe-ro en vez de utilizar los valores de la variable (xi), utilizaramos las marcas de clase de cada intervalo (Mc).
20
6. Medidas de asimetra y curtosis 6.1. Medidas de asimetra Coeficiente de asimetra de Pearson: Se basa en la relacin existente entre la moda y la media. Es el ms fcil de calcular. Permite estudiar las diferencias entre dos variables distintas ya que se trata de una medida adimensional. Se cumple que: Si x - Mo > 0 tenemos asimetra a la derecha. Si x - Mo < 0 tenemos asimetra a a la izquierda Si x - Mo = 0 tenemos simetra. El coeficiente de asimetra viene definido como:
x Mo
AS =
Siendo: x = Media de la variable de estudio Mo = Moda de la variable = Desviacin tpica. Coeficiente de Fisher: Es ms fiable que el coeficiente de Pearson pero es ms difcil de calcular. Se cumple que: Si g1 > 0 tenemos sesgo a la derecha o positivo Si g1 < 0 tenemos sesgo a la izquierda o negativo Si g1 = 0 tenemos simetra. El coeficiente de asimetra viene dado por:
g1 =
m3
Siendo: m3 = Momento de orden 3 respecto a la media. 3 = desviacin tipica elevada el cubo. Para una misma distribucin, si se calcula la asimetra utilizando ambos Coeficientes, la conclusin final debe ser la misma, aunque el valor numrico del Coeficiente no coincida. 6.2. Curtosis o aplastamiento
21
Nos indica si la distribucin que tenemos se parece ms o menos a la campana de Gauss, es decir, si es ms aplastada o no que la distribucin normal, de forma que: Si es ms apuntada que la normal, se llama leptocrtica; si es ms aplastada, se llama platicrtica; y si es igual de aplastada, se llama mesocrtica. Coeficiente de Fisher: Se cumple que: Si g2 > 0 tenemos que la distribucin es leptocrtica. Si g2 < 0 tenemos que la distribucin es platicrtica. Si g2 = 0 tenemos que la distribucin es mesocrtica El coeficiente de curtosis esta definido como:
g2 =
m4
Indice de Gini. Nos indica si el reparto de los valores de la variable se distribuye de forma equitativa, de forma que si el valor del este ndice es alto, el reparto es menos equitativo; y si el valor del ndice es mas bajo, el reparto es ms equitativo. Se cumple que: Si Ico = 0 tenemos que el reparto es equitativo. Si Ico = 1 tenemos que el reparto es el menos equitativo posible, es decir la riqueza se concentra en un solo grupo o individuo. El ndice viene definido como:
pi = Fi * 100
(p
K 1 1
qi )
i
x n
j
Ico =
j
p
1
K 1
qi =
j-1
p
i 1
K -1
22
ni = frecuencias absolutas j de la variable. Ejemplo en variable continua: El tamao de cierta especie de pez encontrada en un pais tropical se ha clasificado segn el dimetro que ha sido observado por los investigadores, obtenindose la siguiente tabla de datos: Dimetro del pez [5 -15) [15 25) [25 35) [35 45) [45 55) Nmero de peces (ni) 8 10 12 14 6 Mc 10 20 30 40 50 ai hi = ni/ai 10 10 10 10 10 8/10 10/10 12/10 14/10 6/10
Calcular el grado de asimetra de la poblacin de peces y la curtosis. Tenemos que el coeficiente de asimetra Pearson es: AS = ficiente de asimetra de Fisher es, g1 =
x Mo
y el coe-
m3
mente los valores de la media, moda, momento respecto de la media de orden 3 y la desviacin tpica elevada al cubo. Para el clculo de la media utilizamos las marcas de clase por ser una variable continua.
x 1 N
X n
i 1
Vx = =
1 N
i 1
( xi - x )2 ni = 160
Vx = 12,64
m3 =
i 1
fi (xi - x )3 = -240
ni n n ;hi-1 = i 1 ;hi+1 = i 1 ai a i 1 a i 1
En la tabla de datos podemos ver el clculo de los hi. El intervalo modal es [35; 45), luego la moda ser: Mo = L i -1
h i h i -1 a i = 38,3 2h i h i 1 h i -1
23
tra a la izquierda.
g1 = quierda.
AS =
x Mo
m3
i 1
m4
3 =
Resumen En este primer tema hemos adquirido los primeros conocimientos estadsticos bsicos que nos permiten hacer los primeros clculos para obtener informacin sobre nuestros datos. Estos clculos bsicos ms importantes son: La tabla de frecuencias y frecuencias acumuladas: Xi=valor variable X1 X2 X3 X4 X5 xK ni=frec. abs n1 n2 n3 n4 n5 nK fi = xi/ni Ni=FREC.abs.acum. X1/n1 X2/n2 X3/n3 X4/n4 X5/n5 XK/nK n1 n1+ n2 n1+ n2+ n3 n1+ n2+ n3+ n4 n1+ n2+ n3+ n4+ n5 n1+ n2+ n3+ n4+ n5++ nk N Fi=Frec.rel.acum f1 f1+f2 f1+f +f3 f1+f2+f3+f4 f1+f2+f3+f4+f5 f1+f2+f3+f4+f5++f1 1
X n
i 1
24
N 2
N i -1 ni
ai
h i h i -1 ai 2h i h i 1 h i -1
Np
Cuantiles de orden p: Qp = L i 1
1 N
100
N i -1 ni
ai
Varianza: Vx =
i 1
( xi - x )2 ni
Desviacin tpica: =
Vx
Coeficiente de variacin: CV =
ar =
i 1
fi (xi)
mr =
i 1
fi (xi - x )r
x Mo
Todas estas frmulas nos permiten hacer clculos estadsticos bsicos, tanto en variables discretas como en variables continuas (stas sern ms utilizadas de ahora en adelante)
EJERCICIOS DE EVALUACIN
[Envense las respuestas de estos ejercicios por e-mail, con la extensin que se estime necesaria, a: carmen_perez_pintos@hotmail.com]
1. En cierto centro diettico, se tomo como variable aleatoria la altura de 110 clientes femeninos obtenindose la siguiente tabla de distribucin:
25
ni 1 8 3 1 2 4 2 0 1 7
Donde: xi altura de los cliente femeninos ni nmeros de clientes femeninos Calcular el valor promedio, la mediana y la moda de dicha variable. 2. Sea la variable aleatoria que recoge los riesgos de un hospital, ordenados por tramos dependiendo del nmero de pacientes: ni 55,2 8 [4-20) 21,0 1 [20-100) 19,3 1 [1003,55 200) [2000,85 260) Donde: xi nivel de riesgo ni porcentaje de pacientes Calcular los cuatro primeros momentos centrados, y los cuatro no centrados y a partir de ellos calcular todas las medidas e ndices posibles. 3. En una encuesta realiza sobre el porcentaje de sueldo que una familia gasta en comida, se obtuvieron los siguientes resultados: 20, 41, 23, 25, 26, 26, 24, 35, 32, 24, 26, 25, 56, 24, 37, 29, 28 51, 40, 52, 32, 21, 26, 60, 28, 19, 37, 68, 26, 37, 28, 53, 26, 27 a) Definir la variable estadstica, decir que tipo de variable es y construir la tabla de frecuencias completa. b) Discretizar la variable estadstica y calcular su varianza y desviacin tpica. c) Calcular los cuantiles 50,60, 75 y 90. xi [0-4)
26
4. En un experimento que meda los porcentajes de un determinado medicamento en la sangre de los pacientes 15 minutos despus de la ingestin, se obtuvieron los siguientes resultados: 1.3, 20.5, 17.9, 17.3, 17.1, 15.8, 16.9, 17.1, 19.5, 22.5, 20.7, 18.5, 22.5 19.1, 17.9, 18.4, 18.7, 18.8, 17.5, 17.5, 14.9, 12.3, 19.4, 16.8, 19.3 a) Agrupa la variable en intervalos de la misma longitud, calcula el mximo, el mnimo, el recorrido intercuartlico y la amplitud del intervalo. b) Calcula el coficiente de variacin, la varianza y lo moda. 5. Sean las siguientes longitudes, medidas en centmetros y agrupadas en intervalos de la siguiente manera: xi [01) [12) [23) [34) [45) ni 1 0 1 2 1 2 1 0 7
a) Hallar el coeficiente de Fisher y el coeficiente de Pearson. b) Ver su simetra y el coeficiente de apuntamiento o Kurtosis.