Estadistica

ESTADISTICA
1. INTRODUCCION A LA ESTADISTICA DESCRIPTIVA

Definicin: la ciencia que permite estudiar las regularidades o
patrones en un conjunto de datos para tomar decisiones racionales.
El trmino estadstica es utilizado en tres mbitos:
a) Estadstica como enumeracin de datos.
b) Estadstica como descripcin (ESTADSTICA DESCRIPTIVA)
c) Estadstica matemtica o inferencia. Se encarga de extraer
conclusiones a partir de una muestra al total de la poblacin con un
pequeo margen de error. (ESTADSTICA INDUCTIVA)
El anlisis estadstico sigue una serie de etapas:
1) Definicin del problema de estudio y objetivos del mismo.
2) Seleccin de informacin necesaria para realizar el estudio.
3) Recogida de informacin dependiente del presupuesto y la calidad de
los datos exigida.
4) Ordenacin y clasificacin de la informacin en tablas y grficos.
5) Resumen de datos mediante medidas de posicin, dispersin,
asimetra y concentracin.
6) Anlisis estadstico formal obteniendo hiptesis y contrastndolas.
7) Interpretacin de resultados y extraccin de conclusiones.
8) Extrapolacin y prediccin.
2. NOCIONES BASICAS DE ESTADISTICA DESCRIPTIVA
La estadstica descriptiva es la ciencia que analiza series de datos (edad
de una poblacin, pesos, etc) y trata de extraer conclusiones sobre el
comportamiento de estos elementos o variables. Las variables que se
observan y analizan pueden ser de dos tipos:
a) Variables cualitativas o atributos: no se pueden medir
numricamente, representan caractersticas o atributos de las variables
(nacionalidad, sexo, religin,etc.).
b) Variables cuantitativas: tienen valor numrico (edad, altura, precio

de un producto, ingresos anuales, etc.).
Las variables cuantitativas se clasifican a su vez segn los valores que
puedan tomar en:
-
Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.).

Por ejemplo: nmero de hermanos (puede ser 1, 2, 3...., etc. pero
nunca podr ser 3,45, etc).
Continuas: pueden tomar cualquier valor real dentro de un
intervalo. Por ejemplo, la velocidad de un vehculo puede ser 80,3
km/h, etc.
Segn sea de un tipo u otro la variable podr medirse de distinta

manera, es decir; tendrn distintas escalas de medida:
a) Variables cualitativas:
- Escala nominal: Identifica la pertenencia de un elemento sujeto
u objeto a un grupo u otro, a niveles generalmente mutuamente
excluyentes. Permite la distincin entre elementos pero no su
ordenacin.
- Escala ordinal: Identifica a cada elemento en una posicin de
escala respecto a los otros.
b) Variables cuantitativas:
- Escala por intervalo: Identifica la posicin ordinal de cada
elemento y permite adems medir las distancias entre unos y
otros utilizando una escala de medida subjetiva.
- Escala de proporcin: Permite medir las distancias entre
elementos utilizando una escala de objetiva y, por lo tanto,
posibilita la utilizacin de razones o ratios comparativos.
La informacin que se recoge de las variables se presenta en tablas que
representan la distribucin de dichas variables y tambin se pueden
clasificar en:
a) Distribuciones unidimensionales: slo recogen informacin sobre
una caracterstica (edad de los alumnos/as de una clase).
b) Distribuciones bidimensionales: recogen informacin sobre dos
caractersticas de cada elemento de la poblacin simultneamente
(edad y al tura de los alumnos/as de una clase).
c) Distribuciones multidimensionales: recogen informacin sobre
tres o ms caractersticas de cada elemento (edad, altura y peso de los
alumnos/as de una clase).
3. DISTRIBUCIONES UNIDIMENSIONALES
Una vez definido los objetivos que se quiere cubrir con el anlisis y
obtenido la informacin relevante, se debe presentarla en tablas y
grficos para conocer mejor el problema que se est analizando.
Las primeras herramientas para conocer y describir el problema que
estamos analizando nos las proporciona la estadstica descriptiva a
travs de las siguientes maneras de clasificar la informacin:
Tabulacin de la informacin
Consiste en presentar la informacin organizada en tablas.

-
Valores de la variable sin agrupar:
xi =Valor de la variable (datos)

ni = Frecuencia absoluta: Nmero de veces que aparece un determinado valor
de x
fi = Frecuencia relativa: Nmero de veces que aparece un determinado valor
de x respecto al total
Ni = Frecuencia absoluta acumulada: Suma de la frecuencia absoluta
correspondiente ms todas las anteriores.
Fi = Frecuencia relativa acumulada: Suma de la frecuencia relativa
correspondiente ms todas las anteriores
N = Tamao de la muestra
Distribucin = Representa los valores de la variable y la frecuencia con que
aparecen dichos valores (xi, ni)
Recorrido = Diferencia entre el mximo y el mnimo valor de la variable
Xi
X1
X2
ni
n1
n2
fi
n1/N
n2/N
Ni
N1 = n1
N2=n1+n2
Fi
F1=f1
F2=f1+f2
Xn
nn
nn/N
Nn=N
Fn=1
n=N
fi=1
Se utiliza este tipo de distribucin cuando el nmero de valores que toma la
variable no es grande (15 a 20).
EJEMPLO:
Se
Xi
ni
fi
Ni
Fi
0.15
0.15
0.2
0.35
0.35
14
0.7
0.15
17
0.85
0.15
20
busca el
nmero de
hijos de 20
viviendas en
cierto barrio.
1 3 2 3
1
2 2 0 3
0
4 2 1 2
2
-
Datos de variables agrupados
Cuando el nmero de valores diferentes que puede tomar la variable es

demasiado grande se utilizan los intervalos. En el caso en que tengamos
variables agrupadas en intervalos, introducimos el concepto de marca de clase
(Mc) que es el punto medio del intervalo. En el caso de variables agrupadas en
intervalos las frecuencias hacen referencia al intervalo y nunca a valores
concretos de dicho intervalo. Puede haber intervalos de la misma o distinta
amplitud (ci). La distribucin en este caso viene dada por el extremo inferior
(Li-1), el extremo superior (Li) y la frecuencia (Li-1- Li, ni).
Mc=
Marca de clase =
LiLs
2
EJEMPLOS:
El curso MEB de ESCP-EAP obtiene las siguientes puntuaciones en un test de
habilidad mental:
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51
48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30
40 39 42 30 35 40 38 36 46 45 68 50 69 69
Formar una distribucin de frecuencias con 14 intervalos:
N=64
a)
FORMULAS:
Rango o recorrido= R= Xmax Xmin

R= 71 30 = 41
Numero de clase(N de intervalos este debe ser entre 5-20)=
Starges = k=
1+log 2 n
k= 1+ 3,3log n
(aplica para muestras pequeas)
En este caso ya tenemos el nmero de intervalos que equivale a k= 14
Amplitud =
c=
R
K
c=
41
=2.9285 se redondea siempre al
14
prximo c= 3
Xi
30 33
33 36
36 39
39 42
42 45
45 48
48 51
51 54
54- 57
57 60
60 63
63 66
66 69
69 - 72
ni
5
4
6
8
3
9
9
6
2
2
3
1
3
3
N = 64
fi
0.078125
0.0625
0.09375
0.125
0.046875
0.140625
0.140625
0.09375
0.03125
0.03125
0.046875
0.015625
0.046875
0.046875
Ni
5
9
15
23
26
35
44
50
52
54
57
58
61
64
Fi
0.078125
0.140625
0.234375
0.359375
0.40625
0.546875
0.6875
0.78125
0.8125
0.84375
0.890625
0.90625
0.953125
1
Representaciones graficas de la informacin
Las representaciones grficas de los datos ofrecen una idea ms

intuitiva y ms fcil de interpretar de un conjunto de datos sometidos a
investigacin. Por ello las representaciones grficas se convierten en un
medio muy eficaz para el anlisis ya que las regularidades se recuerdan
con ms facilidad cuando se observan grficamente.
-
Representaciones grficas para datos sin agrupar:
Diagrama de barras: representa frecuencias sin acumular. Estos

grficos son vlidos para datos cuantitativos (de tipo discreto) y
cualitativos. En el eje y se pueden representar tanto las frecuencias
absolutas como relativas:
EJEMPLO: GRAFICO DEL NUMERO DE HIJOS EN LAS VIVIENDAS
frecuencia absoluta
8
7
6
5
4
3
2
1
0
frecuencia absoluta
Diagrama de escalera: representa frecuencias acumuladas de un

conjunto de datos. Este grfico puede representar tanto las frecuencias
absolutas como relativas.
EJEMPLO: GRAFICO DEL NUMERO DE HIJOS EN LAS VIVIENDAS
frecuencia absoluta acumulada

25
20
frecuencia absoluta
acumulada
15
10
5
0
0
Representaciones grficas para datos agrupados
Histograma: representa frecuencias sin acumular. Este grfico es vlido

para datos cuantitativos de tipo continuo o discreto si tiene un gran
nmero de datos. El histograma est formado por rectngulos de rea
igual o proporcional a la frecuencia observada.
rea = base * altura
ni = ci * altura
altura = densidad de frecuencia = ni/ci
Es decir la altura del rectngulo vendr dada por ni y ser proporcional a

dicho valor (tambin se llama funcin de densidad).
Por tanto en el caso de intervalos iguales, la altura nos est dando una
idea de cul es el intervalo ms frecuente (aquel cuya barra del
histograma sea ms alta). En el caso de construir el histograma
utilizando fi la suma total del rea del histograma ser igual a 1.
EJEMPLO:
Polgono de frecuencias acumuladas: representa frecuencias

acumuladas. Su construccin se realiza levantando sobre las marcas de
clase, localizadas en el eje de abscisas, puntos de altura igual a la
frecuencia observada. La unin de estos puntos da lugar a una lnea
poligonal denominada polgono de frecuencias.
Tanto los histogramas como los polgonos de frecuencia se pueden
realizar con frecuencias absolutas o relativas.
EJEMPLO: puntuaciones en un test de habilidad mental
poligono de frecuencias
10
9
8
7
6
5
4
3
2
1
0
poligono de frecuencias
Grficos de sectores: Estos grficos se basan en un crculo o bien en

un semicrculo. Generalmente se utilizan para representar series de
atributos o series cuantitativas presentadas en pocos intervalos.
EJEMPLO:
Grafico de sectores
1 2
360
x=
fi
100
Xi
ni
fi
Ni
FI
12
10
25%
10
25%
34
22
55%
32
80%
5-6
20%
40
100%
Diagramas
Gannt:
Estos
diagramas nos permiten conocer
N=20
la evolucin de una variable en
estudio desde una situacin
inicial hasta el momento actual. Es un grfico de mucha utilidad para
analizar crecimientos, tendencias, en definitiva, la evolucin de la serie
en el tiempo.
EJEMPLO:
120
100
80
60
40
20
0
1
T
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
9 10 11 12 13 14 15
Xi
10
20
30
40
5
15
25
35
45
35
55
75
85
105
105
Medidas resumen de las distribuciones de frecuencia
Una vez que la ha organizado y representado mediante la tabulacin y

los grficos se debe resumir la informacin disponible. Para resumir la
informacin dispone de las siguientes medidas que son distintas
funciones de la variable:
Medidas de posicin
o Medidas de posicin central.- Estas medidas pretenden
caracterizar la distribucin de la variable/s que estamos
analizando por los valores del centro. Es decir, son valores
representativos de todos los valores que toma la variable.
- Media aritmtica: Representa el centro de gravedad de una
distribucin y se define como la suma ponderada de los valores de
la variable por sus frecuencias relativas y lo denotaremos por
y se calcula mediante la expresin:

n
i=1
i=1
X = xif i=
x ini
N
Dnde xi representa el valor de la variable en distribuciones no

agrupadas o la marca de clase en distribuciones agrupadas.
n
Xi
ni
fi%
Ni
Fi%
15
15
20
35
35
14
70
15
17
85
15
20
100
EJEMPLO:
i=1
x ini
N
0 ( 3 ) +1 ( 4 ) +2 (7 ) +3 ( 3 ) +4 ( 3 )
X =
=1.95
20
n
x if i
i=1
X =0 ( 15 ) +1 ( 20 ) +2 ( 35 ) +3 ( 15 )+ 4 ( 15 )=1.95
Media aritmtica simple y ponderada: Hay veces donde hay que

obtener una media aritmtica de variables cuyos valores observados
tienen distinta importancia y por tanto se deben ponderar de distinta
manera para obtener la media.
En el caso de que la ponderacin sea distinta estaremos hablando de
una media ponderada y los valores por los cuales se ponderan los
distintos valores se llaman pesos o ponderaciones (wi).
n
xi w i
x = i=1n
wi
i=1
EJEMPLO:
Mediana: La mediana es el valor central de la variable. Para

calcular la mediana debemos tener en cuenta si la variable es
discreta o continua.
Clculo de la mediana en el caso discreto: Tendremos en cuenta el

tamao de la muestra.
-
Si N es Impar, hay un trmino central, el trmino

ser el valor de la mediana.
Si N es Par, hay dos trminos centrales,
X N , XN
2
+1
XN
2
+1
que
la mediana
ser la media de esos dos valores.

EJEMPLO: hallar la mediana de los siguientes datos
Xi
ni
fi%
Ni
Fi%
15
15
20
35
35
14
70
15
17
85
15
20
100
Ni= 20
20
20
X = =10 X = +1=11
2
2
x =2
Clculo de la mediana en el caso de datos en intervalo: Para

determinar el valor de la mediana en el caso de tener representada los
valores de la variable en intervalos hay que partir de una hiptesis: la
variable evoluciona de manera continua y uniforme dentro del propio
intervalo.
En este caso el clculo de la mediana consta de dos fases, la
determinacin del intervalo que contiene la mediana y el clculo de su
valor.
1 Para determinar el intervalo en el que se encuentra la mediana se
acumulan las frecuencias y el primer intervalo cuya frecuencia
acumulada (Ni) sea mayor o igual a
N
2
es el intervalo que contiene la
mediana.
-
Moda: La moda es el valor de la variable que tenga mayor

frecuencia absoluta, la que ms se repite, es la nica medida de
centralizacin que tiene sentido estudiar en una variable
cualitativa, pues no precisa la realizacin de ningn clculo.
Por su propia definicin, la moda no es nica, pues puede haber dos o

ms valores de la variable que tengan la misma frecuencia siendo esta
mxima.
EJEMPLO:
Xi
ni
fi%
Ni
Fi%
15
15
20
35
35
14
70
15
17
85
15
20
100
^x =2
o Medidas de posicin no central.- Estas medidas dividen a la

poblacin en partes iguales y sirven para clasificar a un individuo
dentro de una determinada muestra o poblacin (mismo concepto
que la mediana).
-
Cuartil: Medidas de localizacin que divide a la poblacin en

cuatro partes iguales.
Q1: Valor de la distribucin que deja el 75% de los valores por encima
Q2: Valor de la variable que deja el 50% de los valores de la variable por
encima (coincide con la mediana)
Q3: Valor de la variable que deja el 25% de los valores de la variable por
encima.
Q 1=
EJEMPLO:
1N
4
1N
N i1
4
Q1=Li1+
ci
n1
Intervalos
Marca
de
clase
7.5
12.5
17.5
22.5
27.5
32.5
37.5
5-10
10-15
15-20
20-25
25-30
30-35
35-40
Q 1=
140
=10
4
Ni
fi
Fi
2
8
14
6
6
3
1
2
10
24
30
36
39
40
0.05
0.20
0.35
0.15
0.15
0.075
0.025
0.05
0.25
0.6
0.75
0.9
0.975
1
140
2
4
Q1=10+
5=15
8
(10-15)
Deciles: Medidas de localizacin que divide a la poblacin en diez

partes iguales dk = Decil k-simo es aquel valor de la variable que
deja a su izquierda el k10 % de la distribucin.
1N
N i1
10
D1=Li1+
ci
n1
1N
D 1=
10
ni
Percentiles: Medidas de localizacin que divide a la poblacin en

cien partes iguales. El primer percentil supera al uno por ciento de
los valores y es superado por el noventa y nueve por ciento
restante. Pk = Percentil k-simo es aquel valor que deja a su
izquierda el K*1% de la distribucin.
1N
N i1
100
P1=Li1+
ci
n1
1N
P1=
100
Medidas de dispersin
Hasta el momento se estudi los valores centrales de la distribucin,

pero tambin es importante conocer si los valores en general estn
cerca o alejados de estos valores centrales, para ver si estos valores son
o no son representativos. Es por esto por lo que surge la necesidad de
estudiar medidas de dispersin.
Los momentos son valores especficos de la distribucin y van
ntimamente ligados a las medidas de dispersin y se hallan con la
siguiente frmula:
xi
M r=
Momentos respecto al origen (a1, a2...) Cuando Ot = 0
i=1
Momentos respecto a la media (m1, m2)

Cuando Ot = x
El momento de orden r es el promedio de las desviaciones de los valores

de una variable, con respecto al origen o a la media, elevadas a la
potencia r. Relacin entre momentos:
m0 = a 0
a1= media
m1= 0
-
Medidas de dispersin absolutas
Rango o recorrido: Es la diferencia entre el mayor valor de una

variable y el menor. Depende mucho de los valores extremos y esto
puede dar una impresin falsa de la dispersin, por lo que se suele
utilizar el rango intercuartlico que es la diferencia entre el tercer y
primer cuartel (Q3 Q1).
R= Xmax Xmin
EJEMPLO:
Xi
0
1
2
3
X =1.476
N=21
ni
3
9
5
4
Ni
3
12
17
21
R=30=3
fi
14.29%
42.86%
23.81%
19.04%
Fi
14.29%
57.15%
80.96%
100.00%
En valor absoluto: Estas medidas tienen las mismas unidades de

medidas que la variable a la que hacen referencia (Xi)
X I promedio / N
i=1
Con estas medidas de dispersin, slo se pueden comparar, en principio

distribuciones con las mismas unidades de medida.
EJEMPLO:
[( 01.476 )3 ] + [ ( 11.476 )9 ] + [ ( 21.476 )5 ]+ [ ( 31.476 )4 ] =0.830
21
Cuadrticas: Las unidades de medida son las de la variable elevada al
cuadrado.
2
2
Varianza ( , s ) : es la media aritmtica de los cuadrados de las
desviaciones respecto a la media.
X
i=1
2=
[ ( 01.476 ) 3 ]+ [ ( 11.476 ) 9 ] + [ ( 21.476 ) 5 ] + [ ( 31.476 ) 4 ] =0.916

21
Al igual que la media, en el caso de que los datos estn agrupados en

clases, se tomar la marca de clase como xi.
El problema de estas medidas es que para comparar variables s tienen
diferentes unidades de medida no se pueden comparar. La solucin por
tanto es eliminar las unidades de medida y por tanto necesito medidas
que no estn afectadas por las unidades.
Para solucionar este inconveniente se hace lo siguiente: desviacin

X
I promedio 2 n ,/ N
i=1
=s=
[ ( 01.476 ) 3 ] + [ (11.476 ) 9 ] + [ ( 21.476 ) 5 ] +[ ( 31.476 ) 4 ]

21
=0.957
= 0.916
La desviacin tpica es la mejor medida de dispersin y la ms
empleada. Cuando las distribuciones de frecuencias se aproximan a una
distribucin simtrica o normal entonces se verifica una propiedad muy
importante que consiste, en que aproximadamente:
El 68% de los valores de la variable estn comprendidos entre
3
-
Medidas de dispersin relativas: estas medidas no tienen

unidades de medida.
Recorrido relativo Rr: Nmero de veces que el recorrido contiene a la
media. Rr = X
Recorrido semintercuartlico R:
Coeficiente de apertura Ap: Ap=
Xn
X1
C 3C 1
C 3+1
De variacin de Pearson: A veces interesa comparar la variabilidad o

dispersin de una poblacin desde dos puntos de vista diferentes e
incluso comparar la variabilidad de dos poblaciones o muestras distintas.
Cuando no podemos utilizar la desviacin tpica (porque las
distribuciones son muy diferentes o porque las variables presentan
distintas unidades de medida) se utiliza el coeficiente de variacin ya
que se obtienen medidas homogneas y por tanto comparables. Aqulla
que mayor CV tenga nos indica una mayor dispersin en la distribucin.
S
CV =
X
EJEMPLO UTILIZANDO LA TABLA ANTERIOR:
CV =
0.916
=0.620=62
1.476
Medidas de asimetra
Estas medidas tratan de ver como se distribuye la variable en torno a un

eje de simetra. Este eje de simetra se fija en una recta que pase por la
media aritmtica de la distribucin. La asimetra tambin se utiliza para
comparar distribuciones por que se pretende que estas medidas
carezcan de unidades.
La medida que da el grado de asimetra de una distribucin de datos es
el sesgo. Existen varias frmulas para hallar el sesgo.
-
Coeficiente de asimetra: cuanta de las desviaciones por

encima de la media y la cuanta de las desviaciones por debajo.
Coeficiente de asimetra de Fisher: momento de orden 3 respecto a

la media dividido por la desviacin tpica elevada al cubo. Este
coeficiente se calcula para distribuciones acampanadas y en forma de
u.
n
( x=x ) N1
g1= i1
m3
S3
g1 > 0 Asimtrica positiva (Asimtrica por la izquierda)

g1 = 0 Simtrica
g1 < 0 Asimtrica negativa (Asimtrica por la derecha)
Coeficiente de asimetra de Pearson: Este coeficiente se calcula

para distribuciones en forma de campana.
XMo
AP=
S
Ap > 0 Asimtrica por la derecha (Mo >
Ap = 0 Simtrica
Ap < 0 Asimtrica por la izquierda (Mo <
X )
X )
EJEMPLO:
Xi
0
1
2
3
X =1.476
AP=
ni
3
9
5
4
Ni
3
12
17
21
Moda(Mo)=1
fi
14.29%
42.86%
23.81%
19.04%
Fi
14.29%
57.15%
80.96%
100.00%
(s)= 0.916
1.4761
=0.5196
0.916
Coeficiente de asimetra de Bowley

c3 +c
12Me
c 3c1
Ab=
EJEMPLO: nmero de visitas a un museo en un mes encuesta a 20 personas
Xi
0
1
2
3
4
5
ni
4
6
3
4
2
1
Q1=1 Q3=3 mediana(Me)=1.5
Ni
4
10
13
17
19
20
fi %
20
30
15
20
10
5
Fi %
20
50
65
85
95
100
Ab=
3+12(1.5)
=0.5
31
Ab > 0 Asimtrica por la derecha

Ab = 0 Simtrica
Ab < 0 Asimtrica por la izquierda
Medidas de apuntamiento o curtosis
Con el coeficiente de Curtosis se pretende observar cmo se distribuyen

los valores centrales de nuestra variable. Para ello se compara la
distribucin que se est analizando con la distribucin normal. Estas
medidas nos van a indicar si la distribucin tiene una forma de campana
ms o menos apuntada que la distribucin normal.
g2 =
m4
3
s4
g2> 0 Leptocrtica (perfil estirado)

g2 = 0 Mesocrtica (perfil intermedio)
g2 < 0 Pleticrtica (perfil achatado)
El apuntamiento tiene como unidad de medida la curtosis. Para medir la
curtosis (K) pueden utilizarse los cuartiles y percentiles:
P90 P
Q
k=
10
K= coeficiente de curtosis percentlico

Q3 Q
2
Q= rango semiintercuartlico
P90= Percentil 90
P10= Percentil 10
Medidas de concentracin
Estas medidas tienen por finalidad medir la uniformidad del reparto de la

frecuencia total de una variable. Por ejemplo, si un grupo de
trabajadores, percibieran el mismo salario, la uniformidad de la variable
sera absoluta; por el contrario, en un caso hipottico, si la masa total de
los salarios fuera percibida por un solo trabajador, entonces la falta de
uniformidad sera total en este caso diremos que la concentracin es
mxima. Lgicamente, cuando se tiende a la uniformidad absoluta, la
media aritmtica es perfectamente representativa de la distribucin de
frecuencias, contrariamente a lo que sucede cuando la concentracin es
mxima.
Las medias ms habituales para la medicin de la concentracin de una
distribucin de frecuencia son:
-
Curva de Lorenz: Medida grfica: La curva de Lorenz es una

representacin grfica que se obtiene de colocar en los ejes de
abscisas y coordenadas los porcentajes acumulados del nmero de
observaciones y del total del valor de la variable analizada. Por ser
idnticos tanto la escala como el campo de variacin de cada uno
de los ejes, la curva de Lorenz encaja perfectamente en un
cuadrado. Se representa tambin la diagonal que arranca desde el
origen, que se toma como punto de referencia de la curva. Si la
variable analizada fuese totalmente uniforme, la curva de Lorenz
coincidira con el dibujo de la diagonal dibujada. En el caso
opuesto, la curva de Lorenz estara formada por los lados inferior y
derecho del cuadrado.
ndice de Gini: La curva de Lorenz es ilustrativa de la

concentracin de una distribucin. Sin embargo, es conveniente
disponer de un indicador que nos permita valorar numricamente
dicha concentracin y, al mismo tiempo, facilite la comparacin
entre dos distribuciones.
El ndice de Gini se define como el cociente entre el rea rayada
entre la curva de Lorenz y la diagonal principal y el rea
comprendida entre uno de los dos tringulos obtenidos por la
diagonal principal.
El ndice de Gini, por tanto, vara entre 0 y 1, aproximndose a 1
cuando la concentracin tiende a ser mxima, y a 0 en caso
contrario. Numricamente, el ndice de Gini slo se puede calcular
a travs de un sistema de clculo de reas.
EJEMPLO: estudio de noches de hotel que venden un determinado n de

agencias de viajes
vi
fi
Fi
Ui
(Nnoc
hes
vendid
as)
(Nde
agenci
as)
(frecuen
cia
acumula
da)
(volumen
de noches
vendidas)
(volumen
acumulad
o de
noches
vendidas
)
PI
(Fi/N)*1
00
Qi
(Ui/Uf)*
100
(PiQi)
Vi =0
Vi=15
2
2
2
4
0
30
0
30
10
20
0.000
3.636
60
90
35
10.909
10
90
180
50
21.818
14
160
340
70
41.212
Vi=50
17
150
490
85
59.394
Vi=60
18
60
550
90
66.667
Vi=75
19
75
625
95
75.758
825
100
100
10
16.36
4
24.09
1
28.18
2
28.78
8
25.60
6
23.33
3
19.24
2
0
Vi=20
Vi=30
Vi=40
fi*vi
Vi=200
1
20
200
N= 20 (agencias)
Nmero total de noches vendidas = 825
k1
( PiQ i)
IG=
k 1
Pi
175.606
=0.386
455
4. DISTRIBUCIONES BIDIMENSIONALES
La mayora de los fenmenos que se estudian en cualquier disciplina
estn determinados por la observacin de distintas variables relativas a
dicho fenmeno. Es decir, si queremos estudiar las caractersticas de un
producto y compararlo con los de la competencia normalmente se
recoger informacin sobre distintos atributos del producto como por
ejemplo tamao, color, precio, unidades vendidas, etc. Es decir, todas
estas caractersticas son variables referentes a nuestro producto y por
tanto tendremos distribuciones que no sern unidimensionales. En
concreto vamos a analizar las distribuciones bidimensionales que

consiste en el estudio de dos caractersticas a la vez en una muestra.
Los dos caracteres observados no tienen por qu ser de la misma clase,
as nos podemos encontrar con las siguientes situaciones:
TIPOS
VARIABLES(X,Y)
EJEMPLO
Variables cualitativas
Sexo y clase social

N de hermanos y Nde hijos
Variables
cuantitativas
Categrica/categric
a
Discreta/discreta
Continua/continua
Discreta/continua
Cualitativa y
cuantitativa
Categrica/discreta
categrica/continua
Peso y altura
Pulsaciones y temperatura
cuerpo
Sexo y N de cigarrillos
Sexo e ingresos
Otro factor a tener en cuenta es que el nmero de modalidades distintas

que adopta el carcter X no tiene por qu ser el mismo que el que
adopta el carcter Y:
X = { x1, x2, x3, ..., xj} ; Y = { y1, y2, y3, ..., yk}
Tabulacin cruzada
En el caso de distribuciones bidimensionales a la hora de organizar los

datos y observar la relacin entre dos variables se utilizan las tablas de
doble entrada. Estas tablas tienen la siguiente estructura:
x
y
x1
x2
Y1
Y2
YJ
Yk
ni.
n11
n12
n1 j
n1 k
n1.
n22
n2 j
n2 k
n2.
xi
n .j
nh 1
nh 2
n .1
n .2
n .j
nhk
nh
n . k
nij= Frecuencia conjunta

Nmero de veces que aparece el valor Xi con Yj
ni.= Frecuencia marginal de la variable X
n.j= Frecuencia marginal de la variable y
N= Suma del total de las observaciones
(xi yj nij)= Distribucin conjunta
(xi ni.)= Distribucin marginal de X
(yj nj.)= Distribucin marginal de y
En este tipo de representacin tambin podemos representar las
frecuencias relativas. Basta con dividir las frecuencias conjuntas entre el
nmero total de observaciones:
f ij =
nij
N
La suma de las frecuencias absolutas es igual al nmero de pares

observados (N):
h
nij =N
i=1 j=1
La suma de las frecuencias relativas es igual a la unidad:

h
f ij= Nij =N
i=1 j=1
i=1 j=1
Una tabla de doble entrada tambin se puede expresar como una tabla
simple o marginal, de forma que siempre es posible pasar de una a otra
segn convenga.
Distribuciones Marginales:
Si en una tabla de doble entrada utilizamos solamente los valores
correspondientes a X, sin que para nada intervengan los valores de la
variable y, esta distribucin se denomina distribucin marginal de la
variable X y de igual forma ocurre con la variable y
De las frecuencias absolutas marginales se obtienen las frecuencias

relativas marginales. Y de igual forma podemos obtener las medias,
varianzas y desviaciones tpicas marginales.
Frecuencias absolutas marginales:
n i.=N ; n. j=N
i
Frecuencias relativas marginales:

f i .=
ni
n
; f .J = .J
N
N
Medias marginales:
h
xi n. i
x = i=1
y j n. i
; y = j=1
Varianzas marginales:
x
x
2
i .
n i.
y 2. j n. j
j=1
i=1
s 2x =
Desviaciones tpicas marginales:
x
x
2
i .
n i.
y . j n. j
j=1
i=1
S x =
Distribuciones condicionadas:
En ocasiones podemos necesitar condicionar los valores de la variable Y
a un determinado valor de X o viceversa. Estas distribuciones as
obtenidas se denominan: distribucin de la variable Y condicionada a
X=xi o distribucin de la variable X condicionada a Y=y j
xi / y = y j
n = { n1 j , n2 j , ..n ij , nhj }
y j / x=x i
n = { ni 1 , ni 2 , ..n ij , nik }
n ( x i / y= y j ) =
( xi / y = y j )
n. j
n ( y j / X=x i )=
( y j / X=x i )
ni .
Representacin grafica
Diagramas de dispersin
Es la representacin sobre unos ejes cartesianos de los distintos valores

de la variable (X, Y). En el eje de abscisas representamos los valores de
X y en el de ordenadas los valores de Y, de tal forma que cada par viene
representado por un punto del plano XY.
En el caso de que las dos variables estn agrupadas en intervalos el
diagrama se construye mediante casillas que tienen dentro tantos
puntos como el valor de la frecuencia absoluta correspondiente a los
intervalos X e Y.
Si las variables que componen el par son una discreta y otra continua se
utilizan las marcas de clase, siendo un caso similar al primero Los
diagramas de dispersin tambin se conocen como nube de puntos.
Diagramas de frecuencias
Como en un diagrama de dispersin no puede quedar reflejado las veces

que se repite un par o un intervalo, hemos de recurrir a una
representacin en tres dimensiones de (X, Y). Dos son para la variable
bidimensional y una dimensin para expresar las frecuencias.
La figura adjunta representa los datos del ejemplo 1. La variable X toma
los valores 10, 15,... y la variable Y los valores 0, 1,2,...; en el eje Z estn
representadas las frecuencias absolutas del par (X, Y).
Medidas de resumen y asociacin
Medidas de resumen para el caso de distribuciones bidimensionales con

variables cuantitativas.
-
Cuando hay pocos datos o estn muy agrupados (tablas de

2 o 3 columnas)
Aparece un parmetro nuevo que es la covarianza que es la media

aritmtica de las desviaciones de cada una de las variables respecto a
sus medias respectivas. Es decir, representa la variacin conjunta de las
dos variables que se estn analizando y pueden tener cualquier signo.
Viene representada por la siguiente expresin:
n
S xy =m 11= ( x ix )( y j y )
i=1 j=1
nij
N
S Sxy es mayor que 0 las dos variables se mueven en el mismo sentido

( x y)
S Sxy es menor que 0 las dos variables se mueven en distinto sentido (
x D y)
-
Cuando hay muchos datos (tablas de doble entrada)
Puede pasar que se quiera medir la relacin que existe entre dos
conjuntos de datos, es decir la dependencia o independencia estadstica
entre dos variables de una distribucin bidimensional. Por ejemplo, si se
analiza la estatura y el peso de los alumnos de una clase es muy posible
que exista relacin entre ambas variables: mientras ms alto sea el

alumno, mayor ser su peso. Entonces vamos a obtener la correlacin o
dependencia entre dos variables.
Segn sean los diagramas de dispersin podemos establecer los
siguientes casos:
Independencia funcional o correlacin nula: cuando no existe
ninguna relacin entre las variables. (r = 0)
Dependencia funcional o correlacin funcional: cuando existe una
funcin tal que todos los valores de la variable la satisfacen (a cada
valor de x le corresponde uno solo de y o a la inversa) (r = 1)
Dependencia aleatoria o correlacin lineal: cuando los puntos del
diagrama se ajustan a una lnea recta o a una curva, puede ser positiva
o directa, o negativa o inversa (-1<r<0 0<r<1).
Para establecer estas relaciones tenemos las siguientes medidas
1. Coeficiente de correlacin lineal: es una forma de cuantificar ms
precisa el tipo de correlacin que hay entre las dos variables.
2. Regresin: consiste en ajustar lo ms posible la nube de puntos
de un diagrama de dispersin a una curva. Cuando esta es una
recta obtenemos la recta de regresin lineal, cuando es una
parbola, regresin parablica, cuando es una exponencial,
regresin exponencial, etc. (lgicamente r debe ser distinto de 0
en todos los casos).
Coeficiente de correlacin lineal
Este mide el grado de intensidad de esta posible relacin entre las

variables. Este coeficiente se aplica cuando la relacin que puede existir
entre las variables es lineal (es decir, si representramos en un grfico
los pares de valores de las dos variables la nube de puntos se
aproximara a una recta).
No obstante, puede que exista una relacin que no sea lineal, sino
exponencial, parablica, etc. En estos casos, el coeficiente de
correlacin lineal medira mal la intensidad de la relacin de las
variables, por lo que convendra utilizar otro tipo de coeficiente ms
apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de
correlacin lineal, lo mejor es representar los pares de valores en un
grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente
frmula:
i x m
x
( y i y m )
i x m
x
i y m
y
1/ n
( )
1/ n
1/ n
Numerador: se denomina covarianza. Se suma el resultado obtenido de

todos los pares de valores y este resultado se divide por el tamao de la
muestra.
Denominador: es la raz cuadrada del producto de las varianzas de "x"

y de "y".
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r
<1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una
variable sube el de la otra). La correlacin es tanto ms fuerte cuanto
ms se aproxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una
variable disminuye el de la otra). La correlacin negativa es tanto ms
fuerte cuanto ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr
menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra
existir otro tipo de correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco
esto querra decir obligatoriamente que existe una relacin de causaefecto entre las dos variables, ya que este resultado podra haberse
debido al puro azar.
Regresin lineal
Si representamos en un grfico los pares de valores de una distribucin

bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la
variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de
puntos sigue una tendencia lineal:
El coeficiente de correlacin lineal nos permite determinar si,
efectivamente, existe relacin entre las dos variables. Una vez que se
concluye que s existe relacin, la regresin nos permite definir la recta
que mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente frmula:

y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene
definida a partir de la otra variable "x" (variable independiente). Para
definir la recta hay que determinar los valores de los parmetros "a" y
"b": El parmetro "a" es el valor que toma la variable dependiente "y",
cuando la variable independiente "x" vale 0, y es el punto donde la recta
cruza el eje vertical. El parmetro "b" determina la pendiente de la recta,
su grado de inclinacin. La regresin lineal nos permite calcular el valor
de estos dos parmetros, definiendo la recta que mejor se ajusta a esta
nube de puntos.
El parmetro "b" viene determinado por la siguiente frmula:
i x m
x
( y i y m )
i x m
x
1/ n
b=
Es la covarianza de las dos variables, dividida por la varianza de la
variable "x".
El parmetro "a" viene determinado por:
a = ym - ( b * xm )
Es la media de la variable "y", menos la media de la variable "x"
multiplicada por el parmetro "b" que hemos calculado.

Estadistica

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estadistica

Uploaded by

Copyright:

Available Formats

ESTADISTICA

1. INTRODUCCION A LA ESTADISTICA DESCRIPTIVA

b) Variables cuantitativas: tienen valor numrico (edad, altura, precio

Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.).

Segn sea de un tipo u otro la variable podr medirse de distinta

Consiste en presentar la informacin organizada en tablas.

Valores de la variable sin agrupar:

xi =Valor de la variable (datos)

Datos de variables agrupados

Cuando el nmero de valores diferentes que puede tomar la variable es

Rango o recorrido= R= Xmax Xmin

(aplica para muestras pequeas)

En este caso ya tenemos el nmero de intervalos que equivale a k= 14

Representaciones graficas de la informacin

Las representaciones grficas de los datos ofrecen una idea ms

Representaciones grficas para datos sin agrupar:

Diagrama de barras: representa frecuencias sin acumular. Estos

Diagrama de escalera: representa frecuencias acumuladas de un

frecuencia absoluta acumulada

Representaciones grficas para datos agrupados

Histograma: representa frecuencias sin acumular. Este grfico es vlido

Es decir la altura del rectngulo vendr dada por ni y ser proporcional a

Polgono de frecuencias acumuladas: representa frecuencias

Grficos de sectores: Estos grficos se basan en un crculo o bien en

Medidas resumen de las distribuciones de frecuencia

Una vez que la ha organizado y representado mediante la tabulacin y

la variable por sus frecuencias relativas y lo denotaremos por

y se calcula mediante la expresin:

Dnde xi representa el valor de la variable en distribuciones no

Media aritmtica simple y ponderada: Hay veces donde hay que

Mediana: La mediana es el valor central de la variable. Para

Clculo de la mediana en el caso discreto: Tendremos en cuenta el

Si N es Impar, hay un trmino central, el trmino

Si N es Par, hay dos trminos centrales,

ser la media de esos dos valores.

Clculo de la mediana en el caso de datos en intervalo: Para

acumulada (Ni) sea mayor o igual a

es el intervalo que contiene la

Moda: La moda es el valor de la variable que tenga mayor

Por su propia definicin, la moda no es nica, pues puede haber dos o

o Medidas de posicin no central.- Estas medidas dividen a la

Cuartil: Medidas de localizacin que divide a la poblacin en

Deciles: Medidas de localizacin que divide a la poblacin en diez

Percentiles: Medidas de localizacin que divide a la poblacin en

Hasta el momento se estudi los valores centrales de la distribucin,

Momentos respecto al origen (a1, a2...) Cuando Ot = 0

Momentos respecto a la media (m1, m2)

El momento de orden r es el promedio de las desviaciones de los valores

Medidas de dispersin absolutas

Rango o recorrido: Es la diferencia entre el mayor valor de una

En valor absoluto: Estas medidas tienen las mismas unidades de

Con estas medidas de dispersin, slo se pueden comparar, en principio

[ ( 01.476 ) 3 ]+ [ ( 11.476 ) 9 ] + [ ( 21.476 ) 5 ] + [ ( 31.476 ) 4 ] =0.916

Al igual que la media, en el caso de que los datos estn agrupados en

Para solucionar este inconveniente se hace lo siguiente: desviacin

[ ( 01.476 ) 3 ] + [ (11.476 ) 9 ] + [ ( 21.476 ) 5 ] +[ ( 31.476 ) 4 ]

El 95% de los valores de la variable estn comprendidos entre

El 99% de los valores de la variable estn comprendidos entre

Medidas de dispersin relativas: estas medidas no tienen

Recorrido relativo Rr: Nmero de veces que el recorrido contiene a la

Coeficiente de apertura Ap: Ap=

De variacin de Pearson: A veces interesa comparar la variabilidad o

Estas medidas tratan de ver como se distribuye la variable en torno a un

Coeficiente de asimetra: cuanta de las desviaciones por