You are on page 1of 37

Estadstica Descriptiva

para una variable


Conceptos bsicos. Tipos de variables
Organizacin de datos. Tablas de
frecuencias
Descripciones grficas de los datos
Descripciones Numricas
Ejercicios

Conceptos Bsicos
La ESTADISTICA es la ciencia que se ocupa de la
Sistematizacin, recogida, ordenacin y presentacin
de los datos referentes a un fenmeno que presenta
variabilidad o incertidumbre para su estudio
metdico, con objeto de
deducir las leyes que rigen esos fenmenos,
y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones.

a
v
i
t
p
i
cr
s
De
ad
d
li
i
b
a
ob
r
P
ia
c
en
r
e
f
In

Conceptos Bsicos

Poblacin: es el conjunto sobre el que estamos


interesados en obtener conclusiones (hacer
inferencia).
Normalmente es demasiado grande para
poder abarcarlo.

Individuo: Cada uno de los elementos que


componen la poblacin estadstica en estudio. Es
un ser observable que no tiene por qu ser una
persona, puede ser un objeto, un ser vivo, etc

Muestra: es un subconjunto de la poblacin al que


tenemos acceso y sobre el que realmente hacemos
las observaciones (mediciones)
Debera ser representativo
Esta formado por miembros seleccionados
de la poblacin (individuos, unidades
experimentales).

Conceptos Bsicos
Caracteres o variables: Cualquier cualidad o propiedad inherente al individuo.
Una caracterstica observable que vara entre los diferentes individuos de una
poblacin. La informacin que disponemos de cada individuo es resumida en
variables, que representamos normalmente por las ltimas letras maysculas X,
Y, Z,
En los individuos de la poblacin espaola, de uno a otro es variable:

El grupo sanguneo
{A, B, AB, O} Var. Cualitativa
Su nivel de felicidad declarado
{Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal
El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta
La altura
{162 ; 174; ...} Var. Numrica continua

Podemos distinguir los siguientes tipos de variables:

Conceptos Bsicos

Cualitativas
Si sus valores no se pueden asociar naturalmente a un nmero (no se pueden
hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar


Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)
Ordinales: Si sus valores se pueden ordenar
Mejora a un tratamiento, Grado de satisfaccin, Intensidad del
dolor

Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones algebraicas con
ellos)

Discretas: Si toma valores enteros


Nmero de hijos, Nmero de cigarrillos que fuma
Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
Altura, Presin intraocular, Dosis de medicamento administrado

Conceptos Bsicos

Es buena idea codificar las variables como nmeros para poder procesarlas con
facilidad en un ordenador.
Es conveniente asignar etiquetas a los valores de las variables para recordar qu
significan los cdigos numricos.
Sexo (Cualit: Cdigos arbitrarios)
1 = Hombre
2 = Mujer
Raza (Cualit: Cdigos arbitrarios)
1 = Blanca
2 = Negra,...
Felicidad Ordinal: Respetar un orden al
codificar.
1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz
Se pueden asignar cdigos a respuestas
especiales como
0 = No sabe
9 = No contesta
Estas situaciones debern ser tenidas en
cuenta en el anlisis. Datos perdidos
(missing data)

Conceptos Bsicos

Aunque se codifiquen como nmeros, debemos recordar siempre el


verdadero tipo de las variables y su significado cuando vayamos a usar
programas de clculo estadstico.
No todo est permitido con cualquier tipo de variable.

Conceptos Bsicos
Modalidades o valores de las variables: Cada uno de los posibles valores
que puede tomar una variable y se representan con las letras minsculas x1, x2,
, xn.
Ejemplo: La variable cualitativa estado civil puede tomar los valores o
modalidades: casado, soltero o viudo. La variable cuantitativa edad puede
tomar las modalidades o valores: 10 aos, 12 aos, 15 aos, etc

Las modalidades pueden agruparse en clases (intervalos)


Edad (Menos de 20 aos, de 20 a 50 aos, ms de 50 aos)

Las modalidades/clases deben forman un sistema exhaustivo y excluyente:


Exhaustivo: No podemos olvidar ningn posible valor de la variable
Mal: Cul es su color del pelo: (Rubio, Moreno)?

Excluyente: Nadie puede presentar dos valores simultneos de la variable


Mal: De los siguientes, qu le gusta: (deporte, cine)

Organizacin de los datos


Antes de trabajar con cualquier conjunto de datos obtenidos de un experimento
debemos organizarlos.

Gnero

Frec.

Hombre

Mujer

Las tablas de frecuencias y las representaciones grficas son dos maneras


equivalentes de presentar la informacin. Las dos exponen ordenadamente la
informacin recogida en una muestra.

Organizacin de los datos

La tabla de frecuencias es la representacin estructurada, en forma de tabla, de


toda la informacin que se ha recogido sobre la variable que se estudia. Exponen
la informacin recogida en la muestra, de forma que no se pierda nada de
informacin (o poca).

Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad


Frecuencias relativas (porcentajes): Idem, pero dividido por el total
Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas y
son muy tiles para calcular cuantiles (ver ms adelante)

Variable

Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8


Entre 4 y 6 hijos? Sol 2: 97,3% - 83,8% = 13,5%
Frecuencias absolutas

Frecuencias relativas

(Valor)

Simple

x1

n1

N1= n1

f1 = n 1 / N

F1= f1

x2

n2

N2= n1 + n2

f2 = n 2 / N

F2= f1 + f2

...

...

...

...

...

xn-1

nn-1

Nn-1= n1 + n2

fn-1 = nn-1 /

Fn-1= f1 + f2

+ ...+ nn-1

+ + f

Nn = n = N

fn = n n / N

Fn = f =1

xn

nn

Acumulada

Simple

Nmero de hijos

Acumulada
Vlidos

n-1

Perdidos
Total

0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta

Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517

Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0

Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

Organizacin de los datos


Ejemplo

Cuntos individuos tienen


menos de 2 hijos?
frec. indiv. sin hijos
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos

Qu porcentaje de individuos
tiene 6 hijos o menos?
97,3%

Qu cantidad de hijos es tal


que al menos el 50% de la
poblacin tiene una cantidad
inferior o igual?
2 hijos

Nmero de hijos

0
1
2
3
4
5
6
7
Ocho+
Total

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

50%

Descripciones grficas
Datos de un carcter cualitativo

Diagramas de barras

Diagramas de sectores (tartas, polares)

Alturas proporcionales a las frecuencias (abs. o rel.)


Se pueden aplicar tambin a variables discretas

No usarlo con variables ordinales.


El rea de cada sector es proporcional a su
frecuencia (abs. o rel.)

Pictogramas

Fciles de entender.
El rea de cada modalidad debe ser proporcional a
la frecuencia.

Descripciones grficas
Datos, sin agrupar, de un carcter cuantitativo
Diagrama de barras

Diagrama de frecuencias acumuladas

N de hijos (Xi)

N de familias (ni)

Descripciones grficas
Datos, agrupados, de un carcter cuantitativo
Histogramas

Polgono de frecuencias acumuladas

Ii

ni

fi

Ni

Fi

7'5 - 9

0'088

0'088

9 10'5

0'236

11

0'324

10'5 - 12

10

0'294

21

0'618

12 - 13'5

10

0'294

31

0'912

13'5 - 15

0'029

32

0'941

15 - 16'5

0'059

34

Descripciones Numricas

Posicin
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
Percentiles, cuartiles, deciles,...
Centralizacin
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y moda
Dispersin
Indican la mayor o menor concentracin de los datos con respecto a
las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza
Forma
Asimetra
Apuntamiento o curtosis

Descripciones Numricas
Medidas de posicin
Cuartiles: Sea q un nmero real tal que 0 q 4. El cuartil q (cq) es un
valor del recorrido de las observaciones tal que el q/4 de las observaciones
son menores o iguales que cq.. El cuartil 2 es la mediana
Deciles: Sea q un nmero real tal que 0 q 10. El decil q (dq) es un
valor del recorrido de las observaciones tal que el q/10 de las observaciones
son menores o iguales que dq.. El decil 5 es la mediana.
Percentiles: Sea q un nmero real tal que 0 q 100. El percentil q (pq)
es un valor del recorrido de las observaciones tal que el q % de las
observaciones son menores o iguales que pq. El percentil 50 es la mediana.

Descripciones Numricas
Medidas de posicin (EJEMPLO)
El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera
demasiado bajo?
Percentil 5 o cuantil 0,05

10

15

20

25

Percentil 5 del peso

frecuencia

3
Peso al nacer (Kg) de 100 nios

Descripciones Numricas
Medidas de posicin (EJEMPLO)
Qu peso es superado slo por el 25% de los individuos?
Percentil 75 o tercer cuartil

15
10
5
0

frecuencia

20

25

30

Percentil 75 del peso

50

55

60

65

70

Peso (Kg) de 100 deportistas

75

80

85

Descripciones Numricas
Medidas de posicin (EJEMPLO)
El colesterol se distribuye simtricamente en la poblacin. Supongamos que se
consideran patolgicos los valores extremos. El 90% de los individuos son
normales Entre qu valores se encuentran los individuos normales?

10

15

20

Percentiles 5 y 95

frecuencia

180

200

220
Colesterol en 100 personas

240

260

Descripciones Numricas
Medidas de centralizacin

Media Es la media aritmtica (promedio) de los valores de una variable.


Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos

Mediana Es el valor de la variable que divide a las observaciones en dos


grupos con el mismo nmero de individuos (percentil 50). Si el nmero de
datos es par, se elige el primer valor de la variable que cubra el 50%.
Mediana de 1,2,4,5,6,6,8 es 5
Es conveniente cuando los datos son asimtricos. No es sensible a
valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Moda Es el/los valor/es donde la distribucin de frecuencia alcanza un


mximo.

Descripciones Numricas

Altura mediana

Descripciones Numricas
Medidas de centralizacin
Media
Media Aritmtica

x n
i

Moda: Es el valor que ms se repite en la muestra

Mediana :

Datos sin agrupar

Datos agrupados

Me = x[N/2] + 1

Me = xj

Descripciones Numricas
xi

ni

Ni

ordenamos los valores en orden creciente


0 0 0 1 1 2 2
el 1 ser el valor que cumple la definicin de mediana.

Ejemplo:
La distribucin de frecuencias acumuladas del ejemplo del nmero de hijos era
N de hijos (xi)

Frec. Acumuladas (Ni)

11

19

23

25

y como es n/2=12'5 y 11 < 12'5 < 19, en consecuencia la mediana ser M e= 2.

Descripciones Numricas
Datos Agrupados: Las grficas siguientes, correspondientes a polgonos de frecuencias
absolutas acumuladas, nos plantea dos situaciones diferentes a considerar:

El ms sencillo, el de la derecha, en el que existe una frecuencia absoluta


acumulada Nj tal que n/2 = Nj, la mediana es Me = xj.
Si la situacin es como la que se representa en la figura de la izquierda, en la
que Nj-l < n/2 < Nj entonces, la mediana, est en el intervalo [xj-1, xj), es decir
entre xj-1 y xj, tomndose en ese caso, por razonamientos de proporcionalidad,
como mediana el valor

Descripciones Numricas
Ejemplo:
La distribucin de frecuencias del ejemplo de los niveles de colinesterasa es:
Intervalo

Ii

7'5-9

9-10'5 10'5-12 12-13'5 13'5-15 15-16'5

Frecuencia

ni

10

10

Frecuencia
Acumulada

Ni

11

21

31

32

34

Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estar en el intervalo [10'5 ,


12), y aplicando la frmula anterior, ser

Descripciones Numricas
Medidas de dispersin
Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe
Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30
Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30
A la vista de estas medidas podramos llegar a la conclusin equivocada de que
los tres conjuntos de datos son muy similares. Sin embargo, si dibujamos los
histogramas:

vemos claramente la diferencia entre los tres conjuntos: en el primero, la


dispersin de los datos es total, en el tercero es la mxima concentracin y el
segundo es una situacin intermedia.

Descripciones Numricas
Medidas de dispersin

P25

P50

P75

Mx.

0.03

Amplitud o Rango:
Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.

0.02

Mn.

0.04

0.05

Miden el grado de dispersin (variabilidad) de los datos, independientemente de


su causa.

25%

25% 25%

25%

Rango intercuartlico
0.01

Rango intercuartlico:
Rango
Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = P - P
75
25
150
160
170
180
190
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.
No es tan sensible a valores extremos.
0.00

Descripciones Numricas

Medidas de dispersin
Varianza S2: Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.

Es sensible a valores extremos (alejados de la media).


Sus unidades son el cuadrado de las de la variable. De interpretacin difcil
para un principiante.
La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la
informacin geomtrica relevante en muchas situaciones donde la energa
interna de un sistema depende de la posicin de sus partculas.
Energa de rotacin (va el coeficiente de inercia): patinadores con
brazos extendidos (dispersos) o recogidos (poco dispersos)
Energa elstica: Muelles estirados con respecto a su posicin de
equilibrio (dispersos) frente a muelles en posicin cercana a su posicin
de equilibrio (poco dispersos)

Descripciones Numricas
Medidas de dispersin
Desviacin tpica: Es la raz cuadrada de la
varianza
S S2

Tiene las misma dimensionalidad (unidades)


que la variable. Versin esttica de la
varianza.

50

40

30

20

Cierta distribucin que veremos ms adelante


(normal o gaussiana) quedar completamente
determinada por la media y la desviacin
tpica.
A una distancia de una desv. tpica de la
media hay ms de la mitad.
A una distancia de dos desv. tpica de la
media las tendremos casi todas.

10

Desv. tp. = 568,43


Media = 2023

N = 407,00

Peso recin nacidos en partos gemelares

Descripciones Numricas

0.01

0.01

0.02

0.02

0.03

0.03

0.04

0.04

0.05

0.05

Medidas de dispersin

xs

x 2s
95 %

0.00

0.00

68.5 %

150

160

170

180

190

150

160

170

180

Centrado en la media y a una desv. tpica de distancia hay aproximadamente el


68% de las observaciones.

A dos desviaciones tpicas tenemos el 95% (aprox.)

190

Descripciones Numricas
Medidas de dispersin
Coeficiente de variacin: Es la razn entre la desviacin tpica y la media.
S
Cv
x x
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la
media
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si
la media es 80 y la desviacin tpica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad de
diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan ms dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor
0 sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F
Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso).

Descripciones Numricas
Medidas de forma
Asimetra o sesgo

Una distribucin es simtrica si la mitad


izquierda de su distribucin es la imagen
especular de su mitad derecha.
En las distribuciones simtricas media y
mediana coinciden. Si slo hay una moda
tambin coincide
La asimetra es positiva o negativa en
funcin de a qu lado se encuentra la cola
de la distribucin.
La media tiende a desplazarse hacia las
valores extremos (colas).
Las discrepancias entre las medidas de
centralizacin son indicacin de asimetra.

Descripciones Numricas
Medidas de forma
Asimetra o sesgo

Hay diferentes estadsticos que sirven para detectar asimetra.


Basado en diferencia entre estadsticos de tendencia central.
Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3.
Basados en desviaciones con signo al cubo con respecto a la media (coeficiente
de asimetra de Fisher).
Los calculados con ordenador. Es pesado de hacer a mano
En funcin del signo del estadstico diremos que la asimetra es positiva o
negativa.
Distribucin simtrica asimetra nula.
g1< 0 Asimtrica Negativa
g1 = 0 Simtrica
g > 0 Asimtrica Positiva

Descripciones Numricas
Medidas de forma
Apuntamiento o Curtosis

La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin con


respecto a la distribucin normal o gaussiana. Es adimensional.

Platicrtica (aplanada): curtosis < 0


Mesocrtica (como la normal): curtosis = 0
Leptocrtica (apuntada): curtosis > 0

g2< 0 Platicrtica
g2 = 0 Mesocrtica
g2 > 0 Leptocrtica

En el curso sern de especial inters las mesocrticas y simtricas (parecidas a la normal).

Ejercicios
1) En una clnica infantil se han ido anotando, durante un mes, el nmero de
metros que el nio anda, seguido y sin caerse, el primer da que comienza a
caminar. Obtenindose as la tabla adjunta:

Nmero de nios 2

10

10

Nmero de
metros

Se pide:
1.
Tabla de frecuencias.
2.
Diagrama de barras para frecuencias absolutas.
3.
Diagramas de frecuencias acumuladas (absolutas).
4.
Mediana, Moda y Cuartiles.
5.
Media aritmtica.

Ejercicios
2) Se han medido los pesos y alturas de seis personas, obtenindose los datos
siguientes:

Pesos

65

60

65

63

68

68

Alturas

1,70

1,50

1,68

1,70

1,75

1,80

Se quiere saber:
a) Qu medidas estn ms dispersas, los pesos o las alturas?.
b) Cul es el coeficiente de variacin de Pearson en cada caso?.

Ejercicios
3) En la caja de reclutas se ha medido la altura de 110 jvenes, obtenindose la
siguiente tabla:

Altura

N jvenes

1,55-1,60

18

1,60-1,70

31

1,70-1,80

24

1,80-1,90

20

1,90-2,00
17
Calclense:
a) Los percentiles 21 y 87 y los deciles 3 y 9.
b) Se consideran "bajos" a aquellos cuya altura est bajo el percentil 3.
Cul es la altura mxima que pueden alcanzar?
c) Se consideran "altos" aquellos cuya altura est sobre el percentil 82.
Cul ser su altura mnima?.
d) En qu percentil estar un joven de altura 1,78?
e) Coeficiente de asimetra de Fisher.

You might also like