Professional Documents
Culture Documents
1
, x
2
, . . . , x
p
os p valores diferentes que foram observados da variavel X,
ordenados do menor para o maior valor, i.e.
x
1
< x
2
< . . . < x
p
.
Estatstica Apresenta cao e resumo dos dados 25/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Uma tabela de frequencias resume a informa cao contida
na amostra.
E uma tabela onde guram os valores de, pelo
menos, um destes tipos de frequencias:
frequencia absoluta n
i
n umero de vezes que o valor x
i
e
observado.
frequencia relativa f
i
propor cao de vezes que o valor x
i
e observado (f
i
=
n
i
n
).
frequencia absoluta acumulada N
i
n umero de vezes
que um valor menor ou igual a x
i
e observado
(N
i
=
i
j=1
n
j
e N
p
= n).
frequencia relativa acumulada F
i
propor cao de vezes
que um valor menor ou igual a x
i
e observado
(F
i
=
i
j=1
f
j
e F
p
= 1).
Estatstica Apresenta cao e resumo dos dados 26/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Tabelas de frequencias
Variavel Frequencias Frequencias Frequencias Frequencias
absolutas absolutas relativas relativas
ordinarias acumuladas ordinarias acumuladas
x n
i
N
i
f
i
F
i
x
1
n
1
N
1
= n
1
f
1
F
1
= f
1
x
2
n
2
N
2
= n
1
+ n
2
f
2
F
2
= f
1
+ f
2
x
i
n
i
N
i
= n
1
+ + n
i
f
i
F
i
= f
1
+ + f
i
x
p
n
p
N
p
= n f
n
F
p
= 1
Soma n 1
Nota Para variaveis qualitativas nominais as frequencias
acumuladas nao tem qualquer sentido (uma vez que as
caractersticas nao tem uma ordem).
Estatstica Apresenta cao e resumo dos dados 27/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
: StatisticsSummariesFrequency distributions. . .
Este comando s o funciona com variaveis qualitativas (para se
poder utilizar numa variavel numerica tem de se converter
previamente a variavel em fatores)
Exemplo A variavel type (estado da doen ca: diabetico ou nao
diabetico) na base de dados Pima.tr
> .Table # counts for type
No Yes
132 68
> round(100*.Table/sum(.Table), 2) #percentages for type
No Yes
66 34
Nota: O apresenta as frequencias relativas em percentagem (e
nao como uma propor cao).
Estatstica Apresenta cao e resumo dos dados 28/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
: StatisticsSummariesFrequency distributions. . .
Exemplo Variavel npreg (n umero de gestacoes) da BD Pima.tr
(depois de converter esta variavel em fatores)
> .Table # counts for npreg factor
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
28 45 30 19 16 11 10 12 9 7 3 1 6 1 2
> round(100*.Table/sum(.Table), 2) # percentages for
npreg factor
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
14.0 22.5 15.0 9.5 8.0 5.5 5.0 6.0 4.5 3.5 1.5 0.5 3.0 0.5 1.0
Estatstica Apresenta cao e resumo dos dados 29/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Construir uma tabela de frequencias quando a
variavel assume um elevado n umero de categorias
Determinar a amplitude da amostra:
R = max{x
i
} min{x
i
}.
Determinar o n umero de classes k a considerar:
k e o menor inteiro tal que 2
k
n (regra de Sturges).
Determinar as classes de forma a terem todas a mesma
amplitude (e a sua uni ao conter todas as observa coes da
amostra). Deste modo, a amplitude de cada classe sera
dada aproximadamente por
R
k
.
: DataManage variables in active data setBin
numerical variable. . .
StatisticsSummariesFrequency distributions. . .
Estatstica Apresenta cao e resumo dos dados 30/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Exemplo Variavel glu (concentra cao de glucose no plasma) na base
de dados Pima.tr, depois de agrupada em 8 classes
(criando, desta forma, a variavel glu bin)
n = 200 entao k = 8 (2
7
= 128 < n e 2
8
= 256 n).
recorrendo ao comando Bin numerical variable com 8
classes:
> .Table # counts for glu bin
(55.9,73.8] (73.8,91.7] (91.7,110] (110,128] . . . (181,199]
5 21 49 44 . . . 13
> round(100*.Table/sum(.Table), 2) # percentages for glu bin
(55.9,73.8] (73.8,91.7] (91.7,110] (110,128] . . . (181,199]
2.5 10.5 24.5 22.0 . . . 6.5
Estatstica Apresenta cao e resumo dos dados 31/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Nota: Tambem pode ser utilizado o comando recode para agrupar
em classes a variavel glu (com resultados an alogos).
n = 200 entao k = 8 (2
7
= 128 < n e 2
8
= 256 n).
min{x
i
} = 56, max{x
i
} = 199, entao R = 143
Amplitude de cada classe dada por
R
k
=
143
8
= 17.875 18.
Ao arredondar por excesso criou-se algum espaco extra
(nao pode ser utilizada a aproximacao por defeito, pois
depois cariam observa coes de fora).
> .Table # counts for glu bin2
(55,73] (73,91] (91,109] (109,127] . . . (181,199]
5 21 49 44 . . . 13
> round(100*.Table/sum(.Table), 2) # percentages for glu bin2
(55,73] (73,91] (91,109] (109,127] . . . (181,199]
2.5 10.5 24.5 22.0 . . . 6.5
Estatstica Apresenta cao e resumo dos dados 32/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Graphs
Color palette. . .
Index plot. . .
Histogram. . .
Stem-and-leaf display. . .
Boxplot. . .
Quantile-comparison plot. . .
Scatterplot. . .
Scatterplot matrix. . .
Line graph. . .
XY conditioning plot. . .
Plot of means. . .
Strip chart. . .
Bar graph. . .
Pie chart. . .
Estatstica Apresenta cao e resumo dos dados 33/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Este gr aco e adequado para variaveis qualitativas e
quantitativas discretas (se assumirem poucos valores
distintos).
No Yes
type
F
r
e
q
u
e
n
c
y
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
npreg2
F
r
e
q
u
e
n
c
y
0
1
0
2
0
3
0
4
0
Estatstica Apresenta cao e resumo dos dados 34/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Este gr aco e adequado para variaveis qualitativas e
quantitativas discretas (se assumirem poucos valores
distintos).
Type Gender
No
Yes
F
M
Estatstica Apresenta cao e resumo dos dados 35/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Este gr aco e adequado para variaveis quantitativas (se
assumirem um n umero elevado de valores distintos).
O histograma e um diagrama de areas, no qual a area de
cada ret angulo e proporcional `a frequencia por unidade de
amplitude da correspondente classe.
bmi glu
Pima.tr$bmi
f
r
e
q
u
e
n
c
y
15 20 25 30 35 40 45 50
0
1
0
2
0
3
0
4
0
5
0
6
0
Pima.tr$glu
f
r
e
q
u
e
n
c
y
50 100 150 200
0
1
0
2
0
3
0
4
0
Estatstica Apresenta cao e resumo dos dados 36/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
ped diabetes (fun cao pedigree)
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0
0
2
0
4
0
6
0
8
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
Hist(Pima.tr$ped, scale=frequency, breaks=Sturges,
col=darkgray); [automatic by Rcommander]
Hist(Pima.tr$ped, scale=frequency,
breaks=c(0,0.1,0.2,0.3,0.4,0.5,0.75,1,1.5,2,3), col=blue)
Estatstica Apresenta cao e resumo dos dados 37/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
O n umero de classes utilizado e fundamental para se obter
um bom histograma!
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
2
4
6
8
1
0
1
2
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
1
2
3
4
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
2
0
4
0
6
0
8
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5
0
2
0
4
0
6
0
8
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
5
0
1
0
0
1
5
0
Estatstica Apresenta cao e resumo dos dados 38/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Medidas de Estatstica Descritiva: resumem a informa cao
da amostra atraves de alguns resultados numericos que
caracterizam os dados.
: Statistics Summaries Active data set
: Statistics Summaries Numerical summaries. . .
Medidas de localizacao
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Medidas de assimetria
Estatstica Apresenta cao e resumo dos dados 39/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Medidas de tendencia central representam uma
estimativa do centro dos dados. Existem tres medidas de
tendencia central: media, moda e mediana.
Media da amostra (mean): x =
1
n
n
i=1
x
i
corresponde ao valor em torno do qual estao localizadas as
observa coes.
Moda (mode): M
o
corresponde ao valor mais frequente.
Nota 1 A moda e a unica medida que pode ser determinada em
variaveis qualitativas.
Nota 2 Um conjunto de dados pode ter mais do que uma moda.
Nota 3 Quando a variavel e agrupada em classe determina-se a
classe modal, que corresponde `a classe com maior
frequencia por unidade de amplitude.
Estatstica Apresenta cao e resumo dos dados 40/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Mediana (median): M
e
valor que divide as observa coes
em duas partes iguais, isto e, M
e
e denido de forma a ter
metade das observa coes menores ou iguais a M
e
e metade
das observa coes maiores ou iguais a M
e
.
Deste modo, dene-se este valor pela sua posicao na
sucess ao ordenada das observa coes
x
(1)
x
(2)
. . . x
(n)
.
Se n e mpar ent ao M
e
= x
(
n+1
2
)
.
Se n e par ent ao M
e
=
x
(
n
2
)
+x
(
n
2
+1
)
2
.
Estatstica Apresenta cao e resumo dos dados 41/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Mnimo (minimum): menor valor observado,
x
(1)
= min{x
i
}.
Maximo (maximum): maior valor observado,
x
(n)
= max{x
i
}.
Quartis (quartiles): q
r
, r = 1, 2, 3 valores que dividem
os dados, depois de ordenados, em quatro partes iguais (em
termos de n umero ou % de observa coes).
Se (rn)/4 N ent ao q
r
=
x
(rn/4)
+x
(rn/4+1)
2
.
Se (rn)/4 / N ent ao q
r
= x
(m)
,
onde m designa o menor inteiro maior que rn/4.
25%
..
25%
..
25%
..
25%
..
min{x
i
}
q
1
q
2
Me
q
3
max{x
i
}
Estatstica Apresenta cao e resumo dos dados 42/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Quantil (quantiles) de ordem q, 0 q 1, e o valor Q
q
que divide os dados em duas partes, tal que `a esquerda de
Q
q
esta no m aximo uma propor cao q dos dados e `a direita
no m aximo uma propor cao 1 q.
Percentis (percentiles), P
p
, com 0 p 100: o mesmo
que um quantil mas em que a propor cao e dada em
percentagem, i.e. Q
q
= P
100q
(o quantil q corresponde ao
percentil p = 100q), e
q
1
= Q
0.25
= P
25
.
M
e
= q
2
= Q
0.50
= P
50
.
q
3
= Q
0.75
= P
75
.
Estatstica Apresenta cao e resumo dos dados 43/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Diagrama de extremos e quartis (Boxplot):
representa cao do mnimo, dos tres quartis e do m aximo de
uma amostra (se nao existirem outliers, caso contrario
consultar sec cao Outliers nestes slides).
2
0
3
0
4
0
5
0
6
0
a
g
e
2
0
2
5
3
0
3
5
4
0
4
5
b
m
i
6
0
8
0
1
0
0
1
2
0
1
4
0
1
6
0
1
8
0
2
0
0
g
lu
Estatstica Apresenta cao e resumo dos dados 44/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
No Yes
2
0
2
5
3
0
3
5
4
0
4
5
type
b
m
i
Estatstica Apresenta cao e resumo dos dados 45/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Como medir a variabilidade dos dados?
Amplitude (range): R diferen ca entre a maior e a
menor das observa coes,
R = max{x
i
} min{x
i
} = x
(n)
x
(1)
.
Amplitude inter-quartis: I
q
diferen ca entre q
3
e q
1
(3.
o
e 1.
o
quartis),
I
q
= q
3
q
1
.
Estatstica Apresenta cao e resumo dos dados 46/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Desvio medio absoluto (Mean absolute deviation):
DMA media do valor absoluto da diferen ca entre cada
valor e a media,
DMA =
1
n
n
i=1
|x
i
x| .
Variancia amostral (variance): s
2
soma dos
quadrados dos desvios das observa coes, relativamente `a sua
media, dividida pelo n umero de observa coes menos um,
s
2
=
1
n 1
n
i=1
(x
i
x)
2
.
Nota A unidade de medida da variancia e o quadrado da unidade
de medida dos dados se forem dados monetarios, em e,
entao a variancia e medida em e
2
! Para resolver este
problema e utilizado o desvio padr ao.
Estatstica Apresenta cao e resumo dos dados 47/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Desvio padrao (standard deviation): s raiz quadrada
da variancia
s =
s
2
=
_
1
n 1
n
i=1
(x
i
x)
2
.
Nota O desvio padr ao tem a mesma unidade de medida que os
dados.
Coeciente de variacao (coecient of variation):
CV e uma medida de dispersao normalizada
(denominada igualmente por desvio padr ao relativo). Esta
medida e util para comparar a dispersao de dois ou mais
conjuntos de dados (com os valores todos positivos),
nomeadamente quando tem medias muito distintas ou
utilizam unidades de medida diferentes,
CV =
s
x
.
Estatstica Apresenta cao e resumo dos dados 48/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Outlier Se alguma observa cao car fora do intervalo
[q
1
1.5I
q
, q
3
+ 1.5I
q
]
e denominada por outlier. Se (ainda) a observa cao pertencer a
[q
1
3I
q
, q
1
1.5I
q
[ ]q
3
+ 1.5I
q
, q
3
+ 3I
q
]
entao sera um outlier moderado. Caso contrario a observa cao
pertencera a
], q
1
3I
q
[ ]q
3
+ 3I
q
, +[
e sera um outlier severo.
outliers
severos
..
outliers
moderados
..
observaes
Normais
..
outliers
moderados
..
outliers
severos
..
q
1
3I
q
q
1
1.5I
q
q
1
q
3
q
3
+ 1.5I
q
q
3
+ 3I
q
Estatstica Apresenta cao e resumo dos dados 49/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Diagrama de extremos e quartis com outliers
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
b
p
11
58
60
111
190
0
2
4
6
8
1
0
1
2
1
4
n
p
r
e
g
187 188
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
p
e
d10
11
48
50
104
Estatstica Apresenta cao e resumo dos dados 50/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
No Yes
2
0
3
0
4
0
5
0
6
0
type
a
g
e
9
80
132
116
36
106
163
151
64 101
Estatstica Apresenta cao e resumo dos dados 51/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Medidas de assimetria (skewness): caracterizam a forma da
distribui cao dos dados em torno da media.
Tipos de assimetria nas distribuic oes unimodais
Distribui cao Distribui cao Distribui cao
assimetrica simetrica assimetrica
positiva negativa
M
o
< M
e
< x M
o
= M
e
= x x < M
e
< M
o
Estatstica Apresenta cao e resumo dos dados 52/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Determinacao do tipo de assimetria pela forma do
histograma
Distribui cao Distribui cao Distribui cao
assimetrica simetrica assimetrica
positiva negativa
Enviesada `a esquerda Enviesada `a direita
Estatstica Apresenta cao e resumo dos dados 53/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Coeciente de assimetria (skewness)
Type 1
g
1
=
m
3
_
(m
3
2
)
, onde m
k
=
n
i=1
(x
i
x)
k
n
.
Type 2
g
2
= g
1
_
n(n 1)
n 2
.
Type 3
g
3
=
m
3
s
3
= g
1
_
n 1
n
_3
2
.
Tipo de assimetria:
Distribui cao assimetrica negativa se g
i
< 0;
Distribui cao simetrica se g
i
= 0 (quase simetrica se g
i
0);
Distribui cao assimetrica positiva se g
i
> 0.
Estatstica Apresenta cao e resumo dos dados 54/54