You are on page 1of 24

Introduccin

La gran cantidad de datos que nos presenta


la vida diaria (televisin, peridicos,
publicidad) hace necesario que cada
integrante de una sociedad se pregunte:

PROBABILIDAD
Y ESTADSTICA

Porqu es necesario el anlisis de datos?


Existe alguna estructura en los datos?
Existe algn dato anmalo?
Se puede sintetizar (resumir) los datos de
manera conveniente?
Existen grupos de datos diferentes?
Es posible poder predecir el valor de un
atributo, basado en las mediciones de otros
valores?, etc...

R ENATO A LLENDE O LIVARES


HUMBERTO VILLALOBOS TORRES

UNIVERSIDAD TCNICA FEDERICO SANTA MARA

DEPARTAMENTO

DE

MATEMTICAS

05/03/2010

05/03/2010

Introduccin

Proceso de Medicin

La Estadstica, se ocupa de:


Mtodos y procedimientos para recoger,
clasificar, resumir, hallar regularidades y
analizar los datos, siempre y cuando la
variabilidad e incertidumbre sea una causa
intrnseca de los mismos.
Realizar inferencias a partir de ellos, con
la finalidad de ayudar a la toma de
decisiones y en su caso formular
predicciones.
05/03/2010

La medicin es la asignacin de smbolos


(nmeros) a sucesos, hechos u objetos del
mundo real.
05/03/2010

Proceso de Medicin

Proceso de Medicin

Cuando se habla de mediciones, lo


habitual es pensar en nmeros.
Sistema numrico:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9.

Si esta relacin entre los objetos o


sucesos del mundo real es tergiversada,
se presenta un error de medicin.
N de ventas por
regin
Tiempos de
atraso en
entregas

Entre das

Smbolos o Cdigos
, , , ,
, , , ,

Entre Personas

N de reclamos
05/03/2010

05/03/2010

Escalas de Medicin
Unicidad

Clasifica

Nominal

Orden

+ Orden

Ordinal

Diferencias
Equitativas

+ Distancia

Intervalar

Cmo obtener Datos?

Censar

Poblacin

Muestra

Sub-conjunto
de la Poblacin

Datos
Razones
Equitativas

+ Comparacin

Razn

05/03/2010

05/03/2010

Caractersticas de Muestras

Poblacin y Muestra

El mundo observable (emprico) est


compuesto por conjuntos de elementos,
que son llamados poblacin o poblacin
objetivo.

Un mecanismo, para poder obtener


informacin de una poblacin, es la
extraccin de un subconjunto de unidades
o elementos de la poblacin (anlisis y
diagnstico), llamado Muestra.
05/03/2010

Dos factores afectan la cantidad de


informacin contenida en la muestra y, por
tanto,
afectan
la
precisin
del
procedimiento de hacer inferencias.
El primero es el tamao de la muestra
seleccionada de la poblacin.
El segundo es la cantidad de variacin en los
datos; la variacin frecuentemente puede
ser controlada por el mtodo de seleccin de
la muestra.

05/03/2010

Caractersticas de Muestras

Tipos de Muestreo

Los mtodos o tcnicas de muestreo son un


pilar fundamental dentro de los mtodos de
inferencia estadstica.

Muestreos No Probabilisticos.
Muestreos Probabilisticos.

De la muestra se espera que sea


representativa de la poblacin, es decir, que
los atributos de la poblacin que se estn
analizando estn reflejadas en la muestra
(Comentar).

Encuesta
Est el comercio
regional ?

El concepto fundamental que se utiliza, es la


aleatorizacin de las unidades muestreadas.
05/03/2010

Conceptos Bsicos de muestreo

05/03/2010

Tcnicas Bsicas de Muestreo

Tcnicas Bsicas de Muestreo


Muestreo aleatorio sistemtico.

Muestreo Aleatorio Simple o muestreo


al azar irrestricto.

Es una muestra aleatoria en la cual se eligen los


elementos de la poblacin a intervalos uniformes.

Una muestra aleatoria simple es


aquella en la que los elementos se
escogen en forma individual y al
azar de la totalidad de la
poblacin.
Los elementos de la poblacin no
presentan grandes variaciones
entre grupos naturales que
pudiesen formarse en sta.

05/03/2010

La seleccin al azar es similar a la


que se realiza en la extraccin
aleatoria de nmeros en una lotera

Los elementos a muestrear se presentan ordenados


de forma natural.
Lneas de Produccin.
Llegadas de Clientes.
05/03/2010

Tcnicas Bsicas de Muestreo

Tcnicas Bsicas de Muestreo

Muestreo aleatorio estratificado.

Muestreo aleatorio de conglomerados.

Se clasifican los elementos de la


poblacin
en
subgrupos
separados de acuerdo con una
o
ms
caractersticas
importantes.
Despus,
se
obtiene por separado una
muestra aleatoria simple o
sistemtica de cada estrato.
Puede utilizarse este tipo de
muestreo para asegurar una
representacin proporcional de
diversos subgrupos en la
muestra.
05/03/2010

Los elementos de la poblaciones


se encuentran en pequeos
grupos, difciles de descomponer
para
llegar
al
elemento
informativoEs un tipo de muestreo aleatorio
en el que los elementos de la
poblacin estn en forma natural
en subgrupos. As, se eligen al
azar los subgrupos que forman la
muestra.
05/03/2010

Organizacin de Datos

Resumen de Datos

Una manera de acomodar los datos es


construir un arreglo ordenado; esto es,
organizando los datos con un orden
natural- cuando la escala de medicin lo
permite.

Anlisis exploratorio de datos


con
un
conjunto
de
tcnicas
encaminadas a la visualizacin de los
datos mediante tablas o grficos que
permitan realizar un diagnstico de ellos
y la determinacin de un conjunto de
indicadores descriptivos de diversas
caractersticas de los datos, cuyo fin es
complementar el diagnstico de stos
(Estadstica Descriptiva).
05/03/2010

Datos Agrupados
Datos No Agrupados (Dispersos).

Si el nmero de datos es grande, se utilizan


tablas de frecuencia como una primera
aproximacin general a la organizacin de
datos.
05/03/2010

Tablas de Frecuencia

Tabla de Frecuencia
APLICACIN 1: Suponga el caso que es de
inters determinar la frecuencia de las
facturas que llegan a la empresa producto
de trabajos realizado por los contratistas
de obras menores

Las respuestas observadas en la poblacin


(muestra), se denominaran clases, las cuales
se simbolizan por: C1, C2, ... , Ck, donde k es
la cantidad de categoras (respuestas)
distintas.
Frecuencia Absoluta:

ni.

Frecuencia Relativa:

fi.

Frecuencia Absoluta Acumulada:

Ni.

Frecuencia Relativa Acumulada:

Fi.

05/03/2010

05/03/2010

Tabla de Frecuencia

Tabla de Frecuencia

APLICACIN 2: En un conjunto de clientes, el


inters es determinar la clasificacin de stos
segn su cumplimiento en el pago. Estos son
clasificados como: Malos (M), Regulares (R),
Buenos (B) y excelentes (E). Los datos son:

Datos Continuos Muchas datos distintos

Regla de Sturges: El nmero de clases,


donde: k = 3,3 log(n) + 1 , donde n es la
cantidad de datos que se desea organizar.
05/03/2010

05/03/2010

Tabla de Frecuencia

Tabla de Frecuencia
Amplitud: Para determinar a, la amplitud de las
clases, se debe calcular el rango (RD).

APLICACIN 3: Considere los datos de


tiempos de espera (en segundos) para una
lnea telefnica de atencin al cliente.

Rango de la Tabla: Una vez determinada la


amplitud a, se procede a determinar el rango de la
tabla (RT), que es la multiplicacin entre la
cantidad de clases que se estn utilizando y la
amplitud.
Para la determinacin de los lmites de las clases,
se comienza con el lmite Inferior de la primera
clase, LI1, el cual se calcula como:

LI1 = Mnimo {xi}


05/03/2010

D
2
05/03/2010

Tabla de Frecuencia

Diagrama de Tallo y Hoja

APLICACIN 3: Considere los datos de tiempos


de espera

En el diagrama de tallo y hoja, el tallo -la


primera parte de nmero-, es el que presenta
menor variacin, mientras que la hoja, esta
formado los dgitos restantes.
5

tallo
05/03/2010

54

tallo

hoja

05/03/2010

Diagrama de Tallo y Hoja

Diagrama de Tallo y Hoja


APLICACIN 4: Una compaa fabrica 24
productos bsicos

APLICACIN 4: Una compaa fabrica 24


productos bsicos. La compaa conserva
registros del nmero de productos vendidos
respecto al total fabricado por mes a su
principal cliente, con la finalidad de examinar
los niveles relativos de ventas respecto a la
produccin. Los registros muestran los
respectivos porcentajes del ltimo mes:

05/03/2010

05/03/2010

Diagrama de Tallo y Hoja

Tcnicas Grficas
Sector
1
2
3
4
5
Proporcin 10% 15% 40% 20% 10%

APLICACIN 4: Una compaa fabrica 24


productos bsicos

16

Hoja (Alta)
54
72
50
52

53

40%

5%

20%

10% 15%
3

Sector

40
05/03/2010

6
5%

Sector de Cliente

Sector de Cliente
65
87
05
09
30
24

10%
5

5%
6

S e c to r

12

Hoja (Baja) Tallo


89 12
7
88
8
90 95 91
9
23 02 12 10
11
40 12
13

P o rcen ta je

99

05/03/2010

48

hoja

5
2

10%
10%
15%
20%
40%

3
Porcentaje

Tcnicas Grficas

Tcnicas Grficas

Sector de Cliente
5%

10%

Frecuencia
Absoluta Absoluta
Acumulada
Insatisfecho (I)
19
19
Indiferente (II)
21
40
Normal (N)
33
73
Satisfecho con Reparos (SR)
2
75
Totalmente Satisfecho (STS)
4
77

28%

Grado

3
14%

4
5
6
19%
24%

Sector de Cliente
19%

14%
10%

24%

5%
28%
1

05/03/2010

05/03/2010

Tcnicas Grficas

Tcnicas Grficas
APLICACIN 3: Considere los datos de tiempos
de espera

Grado de Satisfaccin

Histograma de Frecuencia

5%

3%

24%

F r e c ue nc i a

II
N
SR

4 1%

TS
27%

50
40
30
20
10
0
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6

Tiempos [seg.]
05/03/2010

05/03/2010

Tcnicas Grficas

Tcnicas Grficas
APLICACIN 3: Considere los datos de tiempos
de espera

20

Frecuencia

10

Frecuencia Acumulada

10

120

0
7

11

13

15

17

19

21

23

25

27

10

Caracterstica

15

20

25

30

35

F r e c ue nc i a

Frecuencia

20

Caracterstica

30
20

F recuencia

Frecuencia

20

10

10

100
80
60
40
20
0
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6

05/03/2010

Tiempos [seg.]

0
10

20

Caracterstica

30

40

10

20

30

40

50

60

Caracterstica

70

80

90

100

05/03/2010

Ao
1
2
7,12
8,65
7,89 10,05
10,12
10,5
8,88
9,87
10,02
8,54
9,91
9,72
9,95 11,09
9,9 11,52
10,23
12,3
9,12 11,53
9,99
16,4
12,4 13,24

Diagrama de Dispersin
18

P o rc e n t a je d e
R e c la m o s

Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

16
14
12
10
8
6

Tiempo

05/03/2010

Tcnicas Grficas
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

Diagrama de Dispersin
17
15
13
11
9
7
5
6

10

12

14

Ao 1

05/03/2010

Medidas de Desempeo
Indicadores

Indicadores de Localizacin

Resmenes

Tendencia Central
Media (Promedio)

Calidad
Gestin

1 n
X = Xi
ni=1

Tipos Comunes de Indicadores.

Indicadores de Localizacin (Posicin)


Indicadores de Concentracin (Economa)
Indicadores de Variabilidad
Indicadores de Forma
Indicadores de Asociacin

05/03/2010

X=

i =1

ni mi
n

Mediana

Me =
 X n + 1

n
a
Me = Li + Ni 1 i
2

ni

05/03/2010

Indicadores de Localizacin

Indicadores de Localizacin
Moda: Es la medida que est dada por el valor o
clase que se presenta con mayor frecuencia.
Datos Cualitativos

APLICACIN 2: En un conjunto de clientes


son clasificados como: Malos (M), Regulares
(R), Buenos (B)

APLICACIN 1: Suponga el caso que es de


inters determinar la
Frecuencias Frecuencias
Empresa
Absoluta
Relativa
Baker & Jones
10
31,25%
Brown e Hijos
4
12,50%
Emis Ltda.
12
37,50%
Smith y CIA.
6
18,75%
05/03/2010

Ao
1
2
7,12
8,65
7,89 10,05
10,12
10,5
8,88
9,87
10,02
8,54
9,91
9,72
9,95 11,09
9,9 11,52
10,23
12,3
9,12 11,53
9,99
16,4
12,4 13,24

Ao 2

Tcnicas Grficas

05/03/2010

Indicadores de Localizacin
APLICACIN 5: Suponga que en un conjunto
de clientes, el inters es determinar el
nmero de veces que stos se han atrasado en
el pago de su cuenta. Los datos son los
siguientes:

05/03/2010

Indicadores de Localizacin
Datos Cuantitativos Continuos.

d1
Mo = Li +
d1 + d 2

05/03/2010

Indicadores de Localizacin

Indicadores de Localizacin

APLICACIN 4: Una compaa fabrica 24

APLICACIN 6: La Planta Sur de la fbrica de


muebles Hoti S.A., se dedica a exportacin de
muebles. La tabla siguiente, presenta la
distribucin de los sueldos* en esta fbrica:

13

10

11

12

10,0 10+ ... +26,0 4


100
= 15,98

X=

x 7.89 + 10.12 + 8.88 + ... + 12.40


X= i =
= 10.36
n
24
i =1

05/03/2010

1
Me = (X (12) + X (13) ) = 10.02 + 9.99 = 10.01
2
2
73
Mo = 9 +
1 = 9.67
73+ 75

50 30
Me = 14,5 +
3,0
48
= 15,75
05/03/2010

Indicadores de Localizacin

48 20

Mo = 14,5 +
3, 0 = 15, 77
48 20 + 48 10

Indicadores de Localizacin

Los cuantiles se pueden clasificar en:

Percentil 25 = cuartil 1
Percentil 50 = decil 5 = Mediana
= cuartil 2

Cuartiles
Quintiles
Dciles
Percentiles

Pi ( percentil i ) = X i ( n + 1)

100

Los percentiles agrupan Todas las


clasificaciones.
05/03/2010

a i

Existen otras expresiones.


05/03/2010

Indicadores de Localizacin

Indicadores de Localizacin

APLICACIN 4: Una compaa fabrica 24


2
1

15

14

13

10

11

12

En datos agrupados, al igual que la


mediana se asume que existen
homogeneidad en la distribucin de
los datos en la clase correspondientes
n j

P j = L I j + 100

P20 = X 20(24+ 1) = X (5) = 8.88

100

P59 = X 59(24+ 1) = X (14,75) = 10.09

100

05/03/2010

Ni

ni

ai

05/03/2010

Indicadores de Localizacin

Indicadores de Localizacin

APLICACIN 3: Considere los datos de tiempos


de espera

APLICACIN 6: La Planta Sur de la fbrica


Qu % de los obreros
gana ms de 21500 por
da?

P j = 21500 j ?
j
21, 5 = 20, 5 +
100
05/03/2010

3
0,88
0, 08

90,67 %
9,33 %

05/03/2010

Indicadores de Variabilidad

Indicadores de Variabilidad
Variacin Modal

las medidas de variabilidad se ocupan de


describir la dispersin (riesgo, precisin)
de los datos con respecto a una medida
del centro o un valor particular.

VMo = 1 f Mo
donde fMo, representa la frecuencia relativa
asociada a la clase modal

Concentracin Central
D=

05/03/2010

05/03/2010

RC( Q3 ) RC( Q1)

k 1
donde RC(Q j), representa el rango de la clase
del cuartil j-simo.

Indicadores de Variabilidad

Indicadores de Variabilidad

Rango
Max{xi } Min{xi }

R=
LS LI
1
k

Poseen la virtud de no ser afectados por


observaciones extremas.

datos dispersos

30
150

20
100

datos agrupados

10

Rango modificado

50

0
20

05/03/2010

25

30

35

50

100

150

05/03/2010

Indicadores de Variabilidad

Indicadores de Variabilidad
APLICACIN 6: La Planta Sur de la fbrica

APLICACIN 4: Una compaa fabrica 24


2

15

19

13

18

14

17

10

11

12

Rango = 28,5 8,5 = 20

Rango = 16,40 7,12 = 9,28

Rango (50%) = P75 P25

Rango (50%) = P75 P25 = 11,305 9,42


X (18,75)

X (6,25)

P75
11,5 + ( 0,25
0,75 0,10
0,30)
25 = 14,5

1,885

05/03/2010

3
= 17,31
13,75
0, 20
48

3,56

05/03/2010

Indicadores de Variabilidad

Indicadores de Variabilidad
La varianza es similar a la desviacin
media porque se basa en la diferencia
entre cada uno de los valores del
conjunto de datos y la media del grupo,
La diferencia consiste en que, antes de
sumarlas, se eleva al cuadrado cada una
de las diferencias.

Desviaciones Absolutas:
n
xi J

n
i =1
DA(J) =
k

fi mi J

i =1

datos dispersos

datos agrupados

Es el Indicador de variabilidad de
mayor uso, en calidad, finanzas (riesgo),
especificacin de normas, etc.

J es reemplazada por algn indicar de


tendencia central
05/03/2010

05/03/2010

Indicadores de Variabilidad

Indicadores de Variabilidad
Se utiliza con mayor frecuencia la raz cuadrada
de la varianza, representada por S para una
muestra, y se le denominada
desviacin
estndar.

Sus expresiones de clculo, en datos


dispersos y agrupados.

( xi x ) 2
1 n 2
S =
=
xi nx 2

n 1 i = 1
i =1 n 1

1
S =
n
2

Al igual que las desviaciones medias, estos


indicadores utilizan el mximo de informacin
para ser resumidos, razn por la cual ante la
presencia de datos extremos son afectados.

2
ni (mi - x ) = f i mi
i =1
i =1
2

Toda medida de variabilidad se asocia a una


medicin que contemple la nocin de
distancia.

05/03/2010

05/03/2010

Indicadores de Variabilidad

Indicadores de Variabilidad
APLICACIN 6: La Planta Sur de la fbrica

APLICACIN 4: Una compaa fabrica 24

S 2 = fi mi2 x 2
i =1

S2=

1 n 2
xi nx 2
n 1 i = 1

x = fi mi = 15,98
i =1

7,892 + 10,122 + ... + 12, 402 24 10,362


=
= 3,62
23

Desviacin Estndar =

S 2 = 0,1102 + 0,2 132 + ... + 0,04 262 15,982

S 2 = S = s = 1,903

05/03/2010

= 13,18

Desigualdad de Tchevychev

Desigualdad de Tchevychev
APLICACIN 7: Los resultados de una
prueba de ingreso a una academia de
700 postulantes alcanzaron un puntaje
medio de 525 pts., con una desviacin
estndar de 55 pts. Entonces se puede
asegurar que al menos el:

Esta importante desigualdad, revela


que al menos:

1
1
100%
k2

de las observaciones estn dentro de


k desviaciones estndar de la media
(k > 1), es decir, en el intervalo:

05/03/2010

S = 3,63

05/03/2010

X k s ; X + k s

[525 2 55]
[415; 635]
[525 3 55]
05/03/2010

[360; 690]

Al menos el 75,00%
Al menos el 88,89%

Desigualdad de Tchevychev

Desigualdad de Tchevychev

APLICACIN 4: Una compaa fabrica 24


2

15

13

10

11

19

21

20

14

17

12

18

x
x = i = 10,36
n
i=1

S2=

05/03/2010

k=2

APLICACIN 4: Una compaa fabrica 24


16

13

11

23

17

19

18

12

15

10

16

22

xi2 nx 2
= 3, 62

i=1

[10,36
[6, 554; 14,166]
2 1,903]

x = 10.36
S = 1,903

n 1

Al menos el 75,00%
Datos

23
= 96%
24

Transformaciones Lineales
Datos
Transformados

30,55%

yi = a + b xi

Efecto en los
Indicadores

x = 15,98

y =a + bx
= b 2 S x2

05/03/2010

S 2 = 13,18
05/03/2010

Indicadores de Forma

Datos

24

= 83, 33%

y = a + (1 + b) 15,98
S 2 = (1 + b)2 13,18

a = 1 ; b = 5%
yy= 1=+1
1, 7
05,715,
7 98
9
2
S 22= 1,
= 05
1 4 , 13,18
531

Indicadores de Forma
Las medidas de asimetra centran su
atencin en la tendencia de los datos a
concentrarse ms cerca de: los valores
ms pequeos, que se conoce como
asimetra positiva; valores ms
grandes, que se denomina asimetra
negativa; o simplemente en el centro,
que se est en el caso de simetra .

Las medidas de formas se inscriben


en el marco de tendencias de
estructuracin de los datos que se
hacen presente a travs de las
distribuciones
de
frecuencias
asociadas a un conjunto de stos.
Asimetra (Skewness).
Curtosis.
05/03/2010

1,2 1,903
10,36
+ 1,4 1,903
20

Considere un reajuste de los


sueldos de los obreros de un b%
(cambio de escala), adems de
una asignacin por desempeo a
(cambio de origen)

S y2 = b 2 S x2

S y2

20

APLICACIN 6: La Planta Sur de la fbrica

y =bx
yi = b xi

Transformaciones Lineales

Cambios de escala y origen en los datos


Datos
Originales

14

[8, 076; 13,024]

k = 1,2
05/03/2010

05/03/2010

Indicadores de Forma (Asimetra)

Indicadores de Forma
Las medidas de curtosis centran su
atencin en la tendencia de los datos
en el grado de concentracin que
estos poseen alrededor de puntos
centrales.
Mesocrtica
Leptocrtica
Platicrtica

Asimetra Positiva

Asimetra Negativa
S imetra
S imetra
05/03/2010

Curva Ideal
(Variabilidad)

05/03/2010

Indicadores de Asimetra

Indicadores de Forma (Curtosis)

Coeficiente de Yule
y de Bowley

IY =

Q3 + Q1 2 Q2
2 Q2

As =

IS =

Q3 + Q1 2 Q2
Q3 Q1

3 =

m3 =
05/03/2010

i =1

05/03/2010

Indicadores de Asimetra

Coeficiente de
Pearson y de Fisher

( xi x )
n

3( x - M e )
Sx

m3
S3

m3 =

fi (mi x )3

i =1

Indicadores de Asimetra

30

APLICACIN 4: Una compaa fabrica 24

150

20
100

10

50

15

19

13

18

14

17

10

11

12

0
20

25

30

35

50

100

150

P25 = X(6,25) = 9,420

IY = 0,0357

P50 = X(12,5) = 10,005


P75 = X(18,75) = 11,305
05/03/2010

05/03/2010

IS = 0,3793

16

Indicadores de Asimetra

Indicadores de Asimetra
APLICACIN 6: La Planta Sur de la fbrica

APLICACIN 4: Una compaa fabrica 24

Frecuencia (%)

Planta Sur

X = 10,36

s = 1,903

60
50
40
30
20
10
0

48

20
10

10

13

16

10

19

22

26

Sueldo [M$/d]

Me = 10,005

As = 0,5596

m3 =

05/03/2010

(xi x)3
= 8,108
n
=1

3 = 1,180
05/03/2010

Indicadores de Asimetra

Indicadores de Asimetra

APLICACIN 6: La Planta Sur de la fbrica

La Grfica de Box Plot: Su importancia


Informativa, alcanza la comparacin de
muestras y una forma de identificar
valores extremos.

Frecuencia (%)

Planta Sur
60
50
40
30
20
10
0

48

Slo es posible en datos NO AGRUPADOS.


,
Se basa en los indicadores: Q1; Q2; Q3.

20
10

10

13

16

10

19

22

P25 = 13,75
IY = -0,0140
P50 = 15,75
IS = -0,1236
P75 = 17,31
As = 0,1901
X = 15, 98 S = 3,63

26

Sueldo [M$/d]

m3 =

fi (mi

x )3 =

33,7708

i = 1

05/03/2010

3 = 0,7058

S = 3,63

05/03/2010

Indicadores de Asimetra

Indicadores de Asimetra

Pasos para su Construccin:

APLICACIN 4: Una compaa fabrica 24

Paso 1: Determinar Q1; Q2; Q3.


Paso 2: Determinar RIQ = Q3 - Q1.
Paso 3: Determinar Fronteras (F):
FI = Q1 1,5 RIQ.
FS = Q3 + 1,5 RIQ.
Paso 4: Determinar Bigotes (B):
BI = min {xi} [FI; Q1[
BS = max{xi} [Q3; FS[
Paso 5: Valores bajo FI o sobre FS, son
considerados valores extremos
05/03/2010

05/03/2010

Indicadores de Curtosis

Indicadores de Curtosis

Coeficiente K2*

Este indicador es afectado por valores


extremos.

Este indicador se basan en cuantiles extremos,


como lo son: decil 1 y decil 9.
D9 D1
K*2 =
1
1.9 (Q3 Q1 )

30
150

20
100

10

Coeficiente de Fisher
n

4 =

m4

S x4

m4 =

i =1

20

( xi x )
n

25

30

35

50

100

150

m4 =

(mi x )4

i =1

05/03/2010

05/03/2010

Indicadores de Curtosis

Indicadores de Curtosis

Un coeficiente 4 cercano a cero, entrega


evidencia de una posible aproximacin a
la distribucin ideal.
Un coeficiente 4 lejano a cero, puede ser
consecuencia de:

APLICACIN 4: Una compaa fabrica 24

m4 =

Excesiva variabilidad respecto a lo Ideal.


Presencia de datos Extremos.
Poca variabilidad respecto a lo ideal.
Presencia de estratos en la poblacin.

i =1

( xi x )
n

s = 1,903

05/03/2010

= 66,802

4 = 2,094

05/03/2010

Indicadores de Curtosis

Indicadores de Comparativos

APLICACIN 6: La Planta Sur de la fbrica

La exactitud, est relacionada con el


grado de cercana
La precisin, est relacionada con el
grado de dispersin

Frecuencia (%)

Planta Sur
60
50
40
30
20
10
0

48

20
10

10

13

16

10

19

22

26

Sueldo [M$/d]

m4 =

fi (mi

x )4 =

i = 1

05/03/2010

50

S = 3,63

660,25

4 = 0,8026
05/03/2010

Indicadores de Comparativos

Indicadores de Comparativos
La Desviacin Objetivo, Es un indicador,
particularmente til en Control de Calidad

Estos ndices miden la variabilidad relativa, de


un conjuntos de datos y se tiene que a mayor
ndice, mayor variabilidad de los datos

Coeficiente de Variacin
s
CV =
x

St2 =

i =1

( xi t ) 2
n

Coeficiente de Variacin Robusto


CVR1 =

Q3 Q1
Q3 + Q1

CVR 2 =

DAMe
Me

St2 = St = St

05/03/2010

05/03/2010

Indicadores de Comparativos

Indicadores de Comparativos
APLICACIN 8: Se mide el volumen
aproximado al Los resultados
muestrales de las cuatro plantas son:

APLICACIN 8: Se mide
el volumen aproximado
al
instalar
un
calibrador sobre la boca
de la botella y se
compara la altura del
lquido en el cuello de la
botella con el volumen
especificado [en ML].
05/03/2010

05/03/2010

Indicadores de Comparativos
APLICACIN 8: Se mide el volumen
Grfica de Control (2 sigma)
1.5
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5

APLICACIN 8: Se mide el volumen aproximado


al Los resultados muestrales son:

P rin cip al
Segundaria
Sur
Nort e

05/03/2010

Indicadores de Comparativos

10

11

12

05/03/2010

Estratificacin y Medidas

Medidas Globales
La Media Total o Ponderada: La media
ponderada o promedio ponderado es una
media aritmtica, en la cual se considera a
cada uno de los valores de acuerdo con su
importancia en el grupo.
h

pi xi

xT = i=1h
pi

El anlisis por grupo debe


considerar el efecto de los
tamaos muestrales en
cada grupo
05/03/2010

i =1

i =1

05/03/2010

Medidas Globales

Medidas Globales

La Varianza Total o Ponderada: La varianza


ponderada es una varianza descompuesta y
ponderada, la variabilidad debido a la
variabilidad propia del estrato, tambin
llamada variabilidad dentro o Intra, y una
variabilidad propia entre los estratos,
tambin llamada variabilidad entre o Inter.
h

i =1

i =1

APLICACIN 8: Se mide el volumen

4,8 + 6,84 + 0,83 + 0,95 40 ( 0,025)2


= 0,3435
39
2
2
12 (0,017 + 0,025) + ... + 9 (0,011+ 0,025)
Entre =
= 0,0042
40
ST2 =

ST2 = pi si2 + pi ( xi x p ) 2
Dentro

S D2

Entre

S E2

05/03/2010

05/03/2010

Medidas Globales

Medidas Globales
Suponga dos situaciones ficticias:

APLICACIN 9: Rentabilidad de los tipos de


fondos (Multifondos) de las administradoras
de fondos de pensiones (AFP)

05/03/2010

pi = 1

Fondo A

xA = 18, 26% ; sA2 = 9 [%]2

Fondo B

xB = 11, 06% ; sB2 = 3,5 [%]2

Fondo C

xC = 6, 65% ; sC2 = 2,5 [%]2

Fondo D

xD = 4, 25% ; sD2 = 1, 6 [%]2

Fondo E

xE = 1,88% ; sE2 = 0,35 [%]2

Asignar los dineros a cada fondo


equitativamente
Asignar los fondos de manera ponderada
dependiendo de la aversin al riego de cada
individuo

05/03/2010

Estadstica Multivariada

Estadstica Multivariada
Se cuenta con una matriz de Datos

Existen Muchas Mediciones asociadas a


una poblacin.
Carrera.
Satisfaccin con la
Universidad.
Puntaje de Ingreso.
Nmero de hermanos.
Etc.

De la
Poblacin de
Alumnos
USM

05/03/2010

05/03/2010

Organizacin de Datos
La organizacin habitual es a travs
de pares ordenados de datos.

Organizacin de Datos
Anlisis a travs de la tabla

Sencilla y clara
interpretacin
de fij = nij / n
05/03/2010

05/03/2010

Organizacin de Datos

Organizacin de Datos

APLICACIN 10: Se realiza una encuesta a


profesionales que se desempean en cierta
regin, en la cual se miden las siguientes
caractersticas: Cargo que ocupa, Sueldo que
percibe y valor del automvil que posee, en
miles de pesos.

APLICACIN 10: Se realiza una encuesta a


profesionales que se desempean

05/03/2010

05/03/2010

Organizacin de Datos

Organizacin de Datos

Distribuciones Marginales.

05/03/2010

Organizacin de Datos

Organizacin de Datos
APLICACIN 11: Un estudio de los ingresos por
ventas, en cientos de Determine las
distribuciones marginales

APLICACIN 11: Un estudio de los ingresos por


ventas (en cientos de millones (CM) semanales)
de tres importantes cadenas de tiendas en la
Quinta regin fue realizado considerando las
semanas consecutivas de los ltimos aos. La
organizacin de los datos se encuentra resumida
en la siguiente, tabla:

Histograma

Frecuencia

05/03/2010

APLICACIN 10: Se realiza una encuesta


a profesionales que se desempean

150
100
50
0

Frecuencia

Ingresos por Ventas [CM]

05/03/2010

Tienda

Italia

05/03/2010

Organizacin de Datos

Reyes

Organizacin de Datos
Distribuciones condicionales.

Distribuciones Condicionales.

fj

05/03/2010

300
250
200
150
100
50
0

05/03/2010

i=

n 1
n

n 2
n

=

n r
n

j = 1
j = 2
,
j = r

= 1, ... , k

Francia

Organizacin de Datos

Organizacin de Datos
APLICACIN 11: Un estudio de los ingresos por
ventas, Compare las ventas de las tiendas

APLICACIN 11: Un estudio de los ingresos por


ventas, en cientos de Determine las distribucin
condicional de las ventas en la Tienda Reyes

Frecuencia

80

Histograma

60
,

40
20
0
Ingresos por Ventas [CM]

Todos los indicadores son posibles de determinar


para este grupo de datos
05/03/2010

Organizacin de Datos

Organizacin de Datos

APLICACIN 10: Se realiza una encuesta a


profesionales que se desempean

Grfica de Dispersin
Grfica
de Dispersin

6e6

6e6

Promedio Condicional al Cargo

5e6
4e6
3e6

Promedio Condicional al Cargo

05/03/2010

5e6

4e6
3e6
2e6

1e6
0
Otros

Ventas

2e6

Administrativo

Ejecutivo

Sub-Gerente

Gerente

Cargo

Las Distancias en el Eje de los


Cargos son arbitrarias, Slo de
debe tener Presente el orden dado
el tipo de escala.
1e6

Otros

Ventas

Administrativo Ejecutivo

Sub-Gerente

Gerente

Cargo

05/03/2010

05/03/2010

Organizacin de Datos

Bidimensin y Estratificacin

Organizacin de Datos:

APLICACIN 12: Un estudio de una


administradora de fondos de pensiones acerca de
la opcin que toma el afiliado, con respecto al
tipo de fondo donde quiere mantener un mayor
porcentaje de sus ahorros previsiones, y su
respectivo nivel de ingresos (en miles de pesos)

Distribuciones Marginales
Se obtienen Indicadores por variable, segn
sea el tipo de escala de la variable.

Distribuciones Condicionales
Se obtienen Indicadores por variable, segn
sea el tipo de escala de la variable, en
variables de inters.
Mediante el uso adecuado de indicadores se
pueden asociar variables.
05/03/2010

05/03/2010

Bidimensin y Estratificacin

Bidimensin y Estratificacin
APLICACIN 12: Un estudio de una administradora

APLICACIN 4: En este caso cada tipo de fondo


representa un estrato o grupo, de donde a travs
de las distribuciones condicionales y marginales
se obtienen los indicadores necesarios:

de .

Utilizando la Marginal de Ingreso

05/03/2010

05/03/2010

Indicadores de Asociacin

Bidimensin y Estratificacin
APLICACIN 12: Un estudio de una administradora

Tipo de Escala de la Medicin

de .

Discreta
Utilizando la Marginal de Ingreso

Cuantitativa
Continua

Intervalar
Razn

Nominal

Cualitativa
Ordinal
05/03/2010

05/03/2010

Indicadores de Asociacin

Indicadores de Asociacin
Tiene una estrecha relacin con el
coeficiente de asociacin de Pearson,
que se ver ms adelante.

Estadstica de Asociacin de Spearman


Es fundamental que los datos se encuentren en al
menos escala ordinal.
La aplicacin ms utilizada es datos no
agrupados, sin embargo, bajo ciertas restricciones
se puede extender a datos agrupados.
Se basa en la relacin entre los rangos de la
variables, donde No muestra relaciones
funcionales, slo montonas.
Cuidado con los empates de rangos

rs = 1

n( n

d
1)
i =1

Rx = Rango de la variable x.

Se encuentra acotado en el intervalo [-1 ; 1]


05/03/2010

Ry = Rango de la variable y.
05/03/2010

2
i

( Rx R y ) 2

Indicadores de Asociacin

Indicadores de Asociacin

Rangear datos
Ordinales

12
rs = 8(64
0,857
1)

rs = 1

APLICACIN 10: Una Aproximacin con


datos agrupados en Tablas, para la aplicacin
de la realizacin de una encuesta a
profesionales

Continuos

6
4
rrss ==1 0,
952
8(64 1)

05/03/2010

05/03/2010

Indicadores de Asociacin

Indicadores de Asociacin
APLICACIN 11: Un estudio de los ingresos
por ventas, en cientos de millones

Grfica de Dispersin
6e6

Promedio Condicional al Cargo

5e6
4e6

rs = 1

3e6

6
14
6(36 1)

2e6
1e6

rs = 0, 60

0
Otros

Ventas Administrativo
EjecutivoSub-GerenteGerente

Es posible determinar mediante el uso del


coeficiente
de
Spearman,
relaciones
montonas entre las tiendas

Cargo

Cuidado !
05/03/2010

05/03/2010

Indicadores de Asociacin

Indicadores de Asociacin

APLICACIN 11: Un estudio de los ingresos


por ventas, en cientos de millones

rS ( I ; R ) = 1

6 24
= 0, 71
8 63

rS ( I ; F ) = 1

6 12,5
= 0,85
8 63

Estadstica de Asociacin de Pearson


Muestra la relacin lineal que existe entre
dos variables
Es fundamental que los datos sean
cuantitativos continuos.
Este coeficiente al igual que Spearman se
encuentra acotado en el intervalo [-1; 1]
Lineal creciente

Lineal decreciente

6 50,5
rS ( R; F ) = 1
= 0, 40
8 63
05/03/2010

05/03/2010

1
-1

Indicadores de Asociacin

Indicadores de Asociacin
Si la relacin no es lineal, entonces no son
detectadas por este coeficiente.

Es habitual que se utilice la grfica de


dispersin para visualizar el tipo de
relacin

GRFICA DE DISPERSIN

G RFICA DE DISPERSIN
Y 100
80
60
40
20
0

Y 80
60
40
20
0
5

10

15

20

25

10

Y 600

Y 40000

400

30000

200

20000

25

10000

-200

22

27

32

37

12

17

22

27

32

05/03/2010

Indicadores de Asociacin

Indicadores de Asociacin

Asociacin Lineal de Pearson

Asociacin Lineal de Pearson

rp

( yi

i =1

( yi

- y ) ( xi - x )

rp =

- y) 2

i =1

( xi -

yi xi

yi2

Mide la relacin
lineal ente un par
de variables

x) 2

Desviaciones estndar
de cada variable

ny x

i =1

rp =

cov( x, y)
sx sy

i =1

- n y2

i =1

xi2

cov =

- nx2

( yi

i =1

- y ) ( xi - x )
n 1

i =1

05/03/2010

05/03/2010

Indicadores de Asociacin

Indicadores de Asociacin
APLICACIN 14: La Gerencia de Airlines S.A.,

APLICACIN 13: Los datos de una muestra de los


tiempos de transporte y el porcentaje de capacidad no
utilizada por camiones de una empresa de transporte.

considera que existe una relacin directa entre los


gastos publicitarios, en miles de US$ (P [MUS$]), y el
nmero de pasajeros, en miles (Q [M]), que escogen
viajar con Airlines S.A. Los datos son:
26

70
60
50
40
30
20
10
0

Q [M/US$]

Tiempo de Transporte

Tiempo Transporte

22
18
14
10

11

13

15

17

19

21

23

% de Capacidad no Utilizada

rp = 0, 7471
05/03/2010

20

GRFICA DE DISPERSIN

GRFICA DE DISPERSIN

05/03/2010

15

11

13
15
P [M/US$]

17

19

rp = 0,9684
05/03/2010

21

Indicadores de Asociacin

Indicadores de Asociacin
APLICACIN 15: Una investigacin de contaminacin,
midi el porcentaje medio de inversiones totales en
plantas y equipo destinado al control de sta y la
concentracin de cloruro de hidrgeno mxima (HCI)
en la estratsfera (en 1015 molculas por cm2) en 85
ciudades que se encontraban dentro de 200 km de
radio.

Asociacin Lineal de Pearson


q

ij ( m i

- y ) ( x j - x )

i = 1 j =1

rP =

i ( mi

- y)

i =1

j ( m j

- x)

j =1

f ij mi m j -

yx

i = 1 j =1

rP =

f i mi - y

i =1

f j m j - x

j =1

05/03/2010

05/03/2010

Indicadores de Asociacin

Enfoque Matricial

APLICACIN 15: Una investigacin de


contaminacin, midi el porcentaje medio

1

1
=


1 p1

xHCI = 1,31
sHCI = 0,38

x% I = 17,88
s% I = 9, 43


1
2
=
= Xt 1

n

3,5131,85 + 10,5121,55 + ... + 34 40,95


17,881,31
85
rp =
9, 430,38

rp = 0,8966

05/03/2010

p
p1

05/03/2010

Enfoque Matricial

Enfoque Matricial
Aplicacin Matricial

Matriz de Varianza y Covarianza ()

1
(Xt 1n1 Xt )t (Xt 1n1 Xt )
n 1

s12

s
= 12

s1 p

05/03/2010

s21
s22
s2 p

s p1

s p2

s 2p

Es una matriz
Simtrica

S12 = S21
Es una matriz
semidefinida
p p positiva
05/03/2010

x1


x2
1
=
X = Xt 1

n

x p p1

You might also like