Professional Documents
Culture Documents
3. DISTRIBUCIONES UNIDIMENSIONALES
Una vez definido los objetivos que se quiere cubrir con el anlisis y
obtenido la informacin relevante, se debe presentarla en tablas y
grficos para conocer mejor el problema que se est analizando.
Las primeras herramientas para conocer y describir el problema que
estamos analizando nos las proporciona la estadstica descriptiva a
travs de las siguientes maneras de clasificar la informacin:
Tabulacin de la informacin
ni
n1
n2
fi
n1/N
n2/N
Ni
N1 = n1
N2=n1+n2
Fi
F1=f1
F2=f1+f2
Xn
nn
nn/N
Nn=N
Fn=1
n=N
fi=1
Se utiliza este tipo de distribucin cuando el nmero de valores que toma la
variable no es grande (15 a 20).
EJEMPLO:
Se
Xi
ni
fi
Ni
Fi
0.15
0.15
0.2
0.35
0.35
14
0.7
0.15
17
0.85
0.15
20
busca el
nmero de
hijos de 20
viviendas en
cierto barrio.
1 3 2 3
1
2 2 0 3
0
4 2 1 2
2
-
Mc=
Marca de clase =
LiLs
2
EJEMPLOS:
El curso MEB de ESCP-EAP obtiene las siguientes puntuaciones en un test de
habilidad mental:
43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45 49 46 47 51 64 36 39 51 51
48 49 53 66 38 41 43 71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60 32 30
40 39 42 30 35 40 38 36 46 45 68 50 69 69
Formar una distribucin de frecuencias con 14 intervalos:
N=64
a)
FORMULAS:
Starges = k=
1+log 2 n
k= 1+ 3,3log n
Amplitud =
c=
R
K
c=
41
=2.9285 se redondea siempre al
14
prximo c= 3
Xi
30 33
33 36
36 39
39 42
42 45
45 48
48 51
51 54
54- 57
57 60
60 63
63 66
66 69
69 - 72
ni
5
4
6
8
3
9
9
6
2
2
3
1
3
3
N = 64
fi
0.078125
0.0625
0.09375
0.125
0.046875
0.140625
0.140625
0.09375
0.03125
0.03125
0.046875
0.015625
0.046875
0.046875
Ni
5
9
15
23
26
35
44
50
52
54
57
58
61
64
Fi
0.078125
0.140625
0.234375
0.359375
0.40625
0.546875
0.6875
0.78125
0.8125
0.84375
0.890625
0.90625
0.953125
1
frecuencia absoluta
8
7
6
5
4
3
2
1
0
frecuencia absoluta
15
10
5
0
0
poligono de frecuencias
10
9
8
7
6
5
4
3
2
1
0
poligono de frecuencias
Grafico de sectores
1 2
360
x=
fi
100
Xi
ni
fi
Ni
FI
12
10
25%
10
25%
34
22
55%
32
80%
5-6
20%
40
100%
Diagramas
Gannt:
Estos
diagramas nos permiten conocer
N=20
la evolucin de una variable en
estudio desde una situacin
inicial hasta el momento actual. Es un grfico de mucha utilidad para
analizar crecimientos, tendencias, en definitiva, la evolucin de la serie
en el tiempo.
EJEMPLO:
120
100
80
60
40
20
0
1
T
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
9 10 11 12 13 14 15
Xi
10
20
30
40
5
15
25
35
45
35
55
75
85
105
105
i=1
i=1
X = xif i=
x ini
N
Xi
ni
fi%
Ni
Fi%
15
15
20
35
35
14
70
15
17
85
15
20
100
EJEMPLO:
i=1
x ini
N
0 ( 3 ) +1 ( 4 ) +2 (7 ) +3 ( 3 ) +4 ( 3 )
X =
=1.95
20
n
x if i
i=1
X =0 ( 15 ) +1 ( 20 ) +2 ( 35 ) +3 ( 15 )+ 4 ( 15 )=1.95
xi w i
x = i=1n
wi
i=1
EJEMPLO:
X N , XN
2
+1
XN
2
+1
que
la mediana
ni
fi%
Ni
Fi%
15
15
20
35
35
14
70
15
17
85
15
20
100
Ni= 20
20
20
X = =10 X = +1=11
2
2
x =2
N
2
mediana.
-
ni
fi%
Ni
Fi%
15
15
20
35
35
14
70
15
17
85
15
20
100
^x =2
Q1: Valor de la distribucin que deja el 75% de los valores por encima
Q2: Valor de la variable que deja el 50% de los valores de la variable por
encima (coincide con la mediana)
Q3: Valor de la variable que deja el 25% de los valores de la variable por
encima.
Q 1=
EJEMPLO:
1N
4
1N
N i1
4
Q1=Li1+
ci
n1
Intervalos
Marca
de
clase
7.5
12.5
17.5
22.5
27.5
32.5
37.5
5-10
10-15
15-20
20-25
25-30
30-35
35-40
Q 1=
140
=10
4
Ni
fi
Fi
2
8
14
6
6
3
1
2
10
24
30
36
39
40
0.05
0.20
0.35
0.15
0.15
0.075
0.025
0.05
0.25
0.6
0.75
0.9
0.975
1
140
2
4
Q1=10+
5=15
8
(10-15)
1N
D 1=
10
ni
1N
P1=
100
Medidas de dispersin
M r=
i=1
Xi
0
1
2
3
X =1.476
N=21
ni
3
9
5
4
Ni
3
12
17
21
R=30=3
fi
14.29%
42.86%
23.81%
19.04%
Fi
14.29%
57.15%
80.96%
100.00%
X I promedio / N
i=1
i=1
2=
I promedio 2 n ,/ N
i=1
=s=
=0.957
= 0.916
La desviacin tpica es la mejor medida de dispersin y la ms
empleada. Cuando las distribuciones de frecuencias se aproximan a una
distribucin simtrica o normal entonces se verifica una propiedad muy
importante que consiste, en que aproximadamente:
El 68% de los valores de la variable estn comprendidos entre
3
-
media. Rr = X
Recorrido semintercuartlico R:
Xn
X1
C 3C 1
C 3+1
CV =
0.916
=0.620=62
1.476
Medidas de asimetra
( x=x ) N1
g1= i1
m3
S3
XMo
AP=
S
Ap > 0 Asimtrica por la derecha (Mo >
Ap = 0 Simtrica
Ap < 0 Asimtrica por la izquierda (Mo <
X )
X )
EJEMPLO:
Xi
0
1
2
3
X =1.476
AP=
ni
3
9
5
4
Ni
3
12
17
21
Moda(Mo)=1
fi
14.29%
42.86%
23.81%
19.04%
Fi
14.29%
57.15%
80.96%
100.00%
(s)= 0.916
1.4761
=0.5196
0.916
12Me
c 3c1
Ab=
EJEMPLO: nmero de visitas a un museo en un mes encuesta a 20 personas
Xi
0
1
2
3
4
5
ni
4
6
3
4
2
1
Ni
4
10
13
17
19
20
fi %
20
30
15
20
10
5
Fi %
20
50
65
85
95
100
Ab=
3+12(1.5)
=0.5
31
m4
3
s4
10
P90= Percentil 90
P10= Percentil 10
Medidas de concentracin
vi
fi
Fi
Ui
(Nnoc
hes
vendid
as)
(Nde
agenci
as)
(frecuen
cia
acumula
da)
(volumen
de noches
vendidas)
(volumen
acumulad
o de
noches
vendidas
)
PI
(Fi/N)*1
00
Qi
(Ui/Uf)*
100
(PiQi)
Vi =0
Vi=15
2
2
2
4
0
30
0
30
10
20
0.000
3.636
60
90
35
10.909
10
90
180
50
21.818
14
160
340
70
41.212
Vi=50
17
150
490
85
59.394
Vi=60
18
60
550
90
66.667
Vi=75
19
75
625
95
75.758
825
100
100
10
16.36
4
24.09
1
28.18
2
28.78
8
25.60
6
23.33
3
19.24
2
0
Vi=20
Vi=30
Vi=40
fi*vi
Vi=200
1
20
200
N= 20 (agencias)
Nmero total de noches vendidas = 825
k1
( PiQ i)
IG=
k 1
Pi
175.606
=0.386
455
4. DISTRIBUCIONES BIDIMENSIONALES
La mayora de los fenmenos que se estudian en cualquier disciplina
estn determinados por la observacin de distintas variables relativas a
dicho fenmeno. Es decir, si queremos estudiar las caractersticas de un
producto y compararlo con los de la competencia normalmente se
recoger informacin sobre distintos atributos del producto como por
ejemplo tamao, color, precio, unidades vendidas, etc. Es decir, todas
estas caractersticas son variables referentes a nuestro producto y por
tanto tendremos distribuciones que no sern unidimensionales. En
TIPOS
VARIABLES(X,Y)
EJEMPLO
Variables cualitativas
Variables
cuantitativas
Categrica/categric
a
Discreta/discreta
Continua/continua
Discreta/continua
Cualitativa y
cuantitativa
Categrica/discreta
categrica/continua
Peso y altura
Pulsaciones y temperatura
cuerpo
Sexo y N de cigarrillos
Sexo e ingresos
Tabulacin cruzada
x
y
x1
x2
Y1
Y2
YJ
Yk
ni.
n11
n12
n1 j
n1 k
n1.
n22
n2 j
n2 k
n2.
xi
n .j
nh 1
nh 2
n .1
n .2
n .j
nhk
nh
n . k
nij
N
nij =N
i=1 j=1
f ij= Nij =N
i=1 j=1
i=1 j=1
Una tabla de doble entrada tambin se puede expresar como una tabla
simple o marginal, de forma que siempre es posible pasar de una a otra
segn convenga.
Distribuciones Marginales:
Si en una tabla de doble entrada utilizamos solamente los valores
correspondientes a X, sin que para nada intervengan los valores de la
variable y, esta distribucin se denomina distribucin marginal de la
variable X y de igual forma ocurre con la variable y
n i.=N ; n. j=N
i
ni
n
; f .J = .J
N
N
Medias marginales:
h
xi n. i
x = i=1
y j n. i
; y = j=1
Varianzas marginales:
x
x
2
i .
n i.
y 2. j n. j
j=1
i=1
s 2x =
Desviaciones tpicas marginales:
x
x
2
i .
n i.
y . j n. j
j=1
i=1
S x =
Distribuciones condicionadas:
En ocasiones podemos necesitar condicionar los valores de la variable Y
a un determinado valor de X o viceversa. Estas distribuciones as
obtenidas se denominan: distribucin de la variable Y condicionada a
X=xi o distribucin de la variable X condicionada a Y=y j
xi / y = y j
n = { n1 j , n2 j , ..n ij , nhj }
y j / x=x i
n = { ni 1 , ni 2 , ..n ij , nik }
n ( x i / y= y j ) =
( xi / y = y j )
n. j
n ( y j / X=x i )=
( y j / X=x i )
ni .
Representacin grafica
Diagramas de dispersin
Diagramas de frecuencias
S xy =m 11= ( x ix )( y j y )
i=1 j=1
nij
N
Puede pasar que se quiera medir la relacin que existe entre dos
conjuntos de datos, es decir la dependencia o independencia estadstica
entre dos variables de una distribucin bidimensional. Por ejemplo, si se
analiza la estatura y el peso de los alumnos de una clase es muy posible
No obstante, puede que exista una relacin que no sea lineal, sino
exponencial, parablica, etc. En estos casos, el coeficiente de
correlacin lineal medira mal la intensidad de la relacin de las
variables, por lo que convendra utilizar otro tipo de coeficiente ms
apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de
correlacin lineal, lo mejor es representar los pares de valores en un
grfico y ver que forma describen.
El coeficiente de correlacin lineal se calcula aplicando la siguiente
frmula:
i x m
x
( y i y m )
i x m
x
i y m
y
1/ n
( )
1/ n
1/ n
Regresin lineal
( y i y m )
i x m
x
1/ n
b=
Es la covarianza de las dos variables, dividida por la varianza de la
variable "x".
El parmetro "a" viene determinado por:
a = ym - ( b * xm )
Es la media de la variable "y", menos la media de la variable "x"
multiplicada por el parmetro "b" que hemos calculado.