Análise de Dados-1

Anlise de Dados
Introduo s tcnicas de Amostragem

Introduo Estimao
Introduo aos testes
Mtodos no paramtricos

Maria Eugnia Graa Martins
Faculdade de Cincias da Universidade de Lisboa

Maro 2009

NDICE

Captulo 1 Introduo s tcnicas de Amostragem
1.1 Introduo A Estatstica estuda a variabilidade apresentada pelos dados.......................1
1.2 Probabilidade e Estatstica .................................................................................................2
1.3 Aquisio de Dados .................................................................................................6
1.3.1 Introduo .................................................................................................6
1.3.2 Tcnicas de amostragem aleatria....................................................................9
1.3.2.1 Amostra aleatria simples.....................................................................9
1.3.2.2 Amostra aleatria sistemtica...............................................................12
1.3.2.3 Amostra estratificada ............................................................................13
1.3.2.4 Amostragem por clusters ou grupos.....................................................14
1.3.3 Amostragem no aleatria.................................................................................14
1.3.4 Outros tipos de erros num processo de aquisio de dados.............................14
1.4 Estimador centrado e no centrado. Preciso ......................................................................15
1.5 Qual a dimenso que se deve considerar para a amostra....................................................17
1.6 Estimao do valor mdio utilizando amostras aleatrias simples .......................................18
1.6.1 Distribuio de amostragem da mdia ..............................................................19
1.6.1.1 Distribuio de amostragem exacta......................................................19
1.6.1.2 Distribuio de amostragem aproximada .............................................27
1.6.2 Distribuio aproximada da mdia, como estimador do valor mdio de uma
populao finita, mas de dimenso suficientemente grande.............................27
1.7 Distribuio de amostragem da mdia em amostragem com reposio ..............................28
1.8 Forma da distribuio de amostragem da mdia em populaes infinitas ou
amostragem com reposio .................................................................................................32
1.8.1 Valor mdio e desvio padro da mdia .............................................................35
1.8.2 Distribuio da mdia, para populaes normais..............................................35
1.8.2.1 Desvio padro conhecido ..................................................................35
1.8.2.2 Desvio padro desconhecido ............................................................36
1.8.3 Distribuio da mdia para populaes no normais. Teorema Limite
Central .................................................................................................37
1.9 Distribuio de amostragem da proporo............................................................................38
1.9.1 Distribuio de amostragem da proporo para populaes finitas..................38
1.9.2 Distribuio de amostragem da proporo para populaes infinitas ou com
reposio .................................................................................................40
Captulo 2 Introduo estimao
2.1 Introduo .................................................................................................41
2.2 Estimao da proporo. Intervalo de confiana para a proporo......................................43
2.3 Estimao do valor mdio. Intervalo de confiana para o valor mdio.................................49
2.3.1 Intervalo de confiana para o valor mdio conhecido .................................49
2.3.2 Intervalo de confiana para o valor mdio desconhecido ...........................53
Captulo 3 Introduo aos testes de hipteses
3.1 Introduo .................................................................................................59
3.2 Outros exemplos .................................................................................................62
3.3 Hiptese nula e Hiptese alternativa; erros de tipo 1 e tipo 2; estatstica de teste; regio
de rejeio .................................................................................................63
3.4 Testes de hipteses para a proporo p...............................................................................65
3.4.1 Determinao dos pontos crticos......................................................................68
3.4.2 P-Value .................................................................................................69
3.5 Vamos conversar acerca de testes .......................................................................................70
3.6 Testes de hipteses sobre o valor mdio..............................................................................74
3.6.1 P-value .................................................................................................78
Captulo 4 Testes igualdade de duas populaes
4.1 Inferncia sobre a diferena entre as propores de duas populaes ..............................83
4.1.1 Testes de hipteses sobre a diferena de propores......................................84
4.1.2 Intervalo de confiana para a diferena de propores.....................................85
4.2 Inferncia sobre a diferena entre os valores mdios de duas populaes .........................85
4.2.1 Inferncia sobre a diferena entre valores mdios de populaes
independentes .................................................................................................86
4.2.1.1 As populaes so normais e as varincias conhecidas .....................87
4.2.1.2 As populaes so normais e as varincias so iguais e
desconhecidas teste t para amostras independentes .......................88
4.2.1.3 As populaes so normais e as varincias so diferentes e
desconhecidas ......................................................................................89
4.2.1.4 As populaes no so normais e as amostras so de grande
dimenso...............................................................................................90
4.2.2 Amostras emparelhadas ....................................................................................90
4.2.2.1 Populaes normais, pequenas amostras teste t emparelhado........91
4.2.2.2 Grandes amostras.................................................................................92
4.2.3 Que tipo de planeamento fazer..........................................................................93
4.3 Teste para a igualdade de varincias em populaes normais ............................................94
Captulo 5 Mtodos no paramtricos
5.1 Introduo .................................................................................................97
5.2 Testes de ajustamento .................................................................................................99
5.2.1 Introduo .................................................................................................99
5.2.2 Generalizao do modelo Binomial o modelo Multinomial .............................99
5.2.3 Teste de ajustamento do Qui-quadrado ............................................................103
5.2.3.1 Anlise de dados qualitativos ...............................................................103
5.2.3.2 Anlise de dados discretos ...................................................................107
5.2.3.3 Anlise de dados contnuos..................................................................111
5.2.4 Teste de Kolmogorov-Smirnov...........................................................................117
5.2.5 Comparao entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov....120
5.3 Problema da localizao e da localizao e simetria teste dos sinais e teste de
Wilcoxon .................................................................................................122
5.3.1 Introduo .................................................................................................122
5.3.2 Teste dos Sinais.................................................................................................123
5.3.2.1 Teste dos Sinais para amostras emparelhadas ...................................126
5.3.3 Teste de Wilcoxon..............................................................................................127
5.3.3.1 Distribuio de amostragem de
+
n
T .......................................................130
5.3.3.2 Teste de Wilcoxon para amostras emparelhadas ................................134
5.3.3.3 O teste de Wilcoxon e o teste-t .............................................................135
5.4 Testes de hipteses em modelos no paramtricos para testar a homogeneidade de
vrias populaes independentes.........................................................................................135
5.4.1 Comparao de duas populaes independentes ............................................135
5.4.1.1 Teste de Mann-Whitney-Wilcoxon........................................................135
5.4.1.1.1 Distribuio de amostragem de W
m,n
................................136
5.4.1.1.2 O teste de Mann-Whitney-Wilcoxon e o teste-t para
duas amostras ...................................................................139
5.4.1.1.3 Forma alternativa para a estatstica de Mann-Whitney-
Wilcoxon ............................................................................141
5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras ............................143
5.4.2 Comparao de mais de duas populaes independentes...............................146
5.4.2.1 Teste de Kruskal-Wallis ........................................................................146
5.4.2.1.1 Comparaes mltiplas.....................................................152
5.4.2.2 Teste do Qui-quadrado em tabelas de contingncia para testar a
homogeneidade ....................................................................................153
5.5 Testes de hipteses em modelos no paramtricos para testar a independncia...............156
5.5.1 Teste do Qui-quadrado em tabelas de contingncia para testar a
independncia de duas populaes ..................................................................156
5.5.2 Coeficiente de correlao ordinal de Spearman................................................158
5.5.3 ndice de Friedman ............................................................................................162

Bibliografia
Conover, W.J. (1980) Practical Nonparametric Statistics, John Wiley & Sons
De Veaux, R. Et al. (2004) Intro Stats, Pearson, Addison Wesley
Graa Martins, M. E. (2005) Introduo Probabilidade e Estatstica Com complementos de
Excel, SPE
Graa Martins, M. E. et al. (1999) Probabilidades e Combinatria, Ministrio da Educao,
Departamento do Ensino SEcundrio
Mendenhall, W., et al. (1987) Statistics: a Tool for the Social Sciences, PWSKent
Montgomery, D. et al. (1999) Applied Statistics and Probability for Engineers, John Wiley & Sons,
Inc. New York
Murteira, B. et al. (2002) Introduo Estatstica, McGraw-Hill de Portugal
Sprent, P. (1989) Applied Nonparametric Statistical Methods, Chapman and Hal
Tannenbaum. P. et al. (1998) Excursions in Modern Mathematics, Prentice Hall

Anlise de Dados 1

Introduo s tcnicas de amostragem 1

Introduo s tcnicas de amostragem. Distribuio de amostragem de algumas
estatsticas baseadas em amostras aleatrias simples e em amostragem com
reposio. Estudo dos estimadores Mdia e Proporo amostral.

1.1 Introduo A Estatstica estuda a variabilidade apresentada
pelos dados
Da experincia que temos no dia a dia com os dados j conclumos, com certeza, que
estes apresentam variabilidade. Por exemplo comum que um pacote de acar que
na embalagem tenha escrito um quilograma, no pese exactamente um quilograma.
Por outro lado ao pesar duas vezes o mesmo pacote possivelmente no obteremos o
mesmo valor. Assim, ao dizermos que o peso do pacote um determinado valor, no
podemos ter a certeza que esse valor seja correcto. Esta variabilidade est presente
em todas as situaes do mundo que nos rodeia, pelo que as concluses que tiramos a
partir dos dados que se nos apresentam, tm inerente um certo grau de incerteza.
A Estatstica trata e estuda esta variabilidade apresentada pelos dados. Permite-nos a
partir dos dados retirar concluses, mas tambm exprimir o grau de confiana que
devemos ter nessas concluses. precisamente nesta particularidade que se
manifesta toda a potencialidade da Estatstica.
Podemos ento, e tal como refere David Moore em Perspectives on Contemporary
Statistics, considerar trs grandes reas nesta cincia dos dados:
Aquisio de dados
Anlise dos dados
Inferncia a partir dos dados
Anlise de Dados 2

Vamos, numa das seces seguintes, abordar o primeiro tema considerado, ou seja o
que diz respeito Aquisio de Dados, numa perspectiva de que pretendemos obter
dados, para respondermos a determinadas questes, isto , para posteriormente
retirarmos concluses para as Populaes a partir das quais esses dados so
adquiridos contexto em que tem sentido fazer inferncia estatstica. Vamos assim,
preocupar-nos em obter amostras representativas de Populaes que se pretendem
estudar.
1.2 Probabilidade e Estatstica
A Probabilidade o instrumento que permite ao estatstico utilizar a informao
recolhida da amostra para descrever ou fazer inferncias sobre a Populao de onde a
amostra foi recolhida. Podemos ainda dizer que os objectivos da Probabilidade e da
Estatstica so, de certo modo, inversos. Alguns exemplos ajudar-nos-o a
compreender melhor esta ideia.
EXEMPLO 1.1 (Graa Martins, M.E. et al, 1999) Suponha que tem uma moeda equilibrada e que
lana a moeda uma srie de vezes, registando em cada lanamento a face que fica voltada para cima. O
resultado dos registos uma sucesso de F e de C, onde utilizamos a letra F para designar cara (face) e
a letra C para designar coroa. Como admitimos que a moeda equilibrada, isto , estamos a adoptar um
determinado modelo probabilstico, esperamos que o nmero de Fs seja aproximadamente metade do
nmero de lanamentos efectuados. Se, por outro lado, considerarmos uma amostra de dimenso 1, isto
, fizermos unicamente um lanamento, dizemos que a probabilidade de obter F 1/2, j que existe igual
possibilidade de obter F ou C (ao dizer que a moeda equilibrada estamos a atribuir igual probabilidade
sada de cara ou de coroa num lanamento).
Suponha agora que a sua moeda no era equilibrada. Neste caso quando procedemos a vrios
lanamentos j no sabemos qual a proporo de caras que esperamos obter, uma vez que a Populao
no perfeitamente conhecida conhecemos os resultados possveis em cada lanamento cara ou
coroa, mas o modelo no est completamente especificado, uma vez que as probabilidades associadas a
esses resultados no so conhecidas (estamos a assumir que a moeda no equilibrada). Ento um
modo possvel de obter mais alguma informao sobre o modelo probabilstico proceder a um certo
nmero de lanamentos e calcular a frequncia relativa da sada de cara, nos lanamentos efectuados.
Este valor vai-nos servir para estimar a probabilidade da sada de cara. Por exemplo, se em 1000
lanamentos se obtiveram 324 caras, dizemos que um valor aproximado para a probabilidade de se
Anlise de Dados 3

verificar cara 0.324 (ao fim de 1000 lanamentos verificou-se uma certa estabilidade volta deste valor)
e o valor aproximado para a probabilidade de sair coroa ser 0.676.
Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da
Estatstica:
Enquanto que ao assumirmos um determinado modelo de probabilidade Populao
conhecida, o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a
raciocinar do geral para o particular, isto , da Populao para a Amostra, quando a
Populao no conhecida utilizamos a Estatstica para fazer raciocnios no sentido
inverso, isto , inferir para a Populao resultados observados na Amostra.
Para esclarecer melhor esta ideia, consideremos ainda os seguintes exemplos:
EXEMPLO 1.2 (Adaptado de Murteira, B. et al., 2002) Consideremos um conjunto numeroso de
pessoas, por exemplo os alunos matriculados na FCUL no ano lectivo de 2005/2006. Relativamente a
esta populao, existe uma percentagem p, de alunos que praticam desporto. Escolhem-se (sem
reposio) ao acaso 10 alunos. Se p fosse conhecido, por exemplo 0.3, podamos calcular a
probabilidade de encontrar x praticantes de desporto, com 0x10, nesse grupo de 10 alunos,
probabilidade que se sabe ser determinada pela expresso
x
10
0.3
x
0.7
10-x

Como a populao era numerosa, podemos admitir que o nmero de estudantes que praticam desporto,
em 10 estudantes retirados aleatoriamente da populao, bem modelado pelo modelo Binomial, de
parmetros 10 e 0.3 (a composio da populao praticamente no se altera, quando retiramos alguns
elementos, pelo que podemos admitir que temos provas de Bernoulli). Trata-se de um problema de
probabilidade. Pode, no entanto, suceder, que p seja desconhecido, sendo esta, alis, a situao mais
corrente. Ento, neste caso, vamos utilizar a informao sobre o nmero de praticantes de desporto na
amostra de 10, nomeadamente a proporo x/n, para tirar concluses sobre a proporo de praticantes
de desporto da populao. Trata-se de um problema de inferncia estatstica.
EXEMPLO 1.3 Sabe-se que determinado tipo de componentes electrnicas tem um tempo de vida
que no depende da idade, isto , a falha pode ocorrer em qualquer instante e no depende de h
quanto tempo as componentes j esto em funcionamento. Sabe-se ainda que estas componentes
podem falhar em qualquer altura, no tendo, portanto, um tempo de garantia. Se se souber que o tempo
mdio at falha 100 horas, ento o tempo de vida T, deste tipo de componentes, pode ser bem
Anlise de Dados 4

modelado por uma exponencial, com funo densidade de probabilidade e funo distribuio,
respectivamente
f (t) =
100
1
exp(-
100
t
), t>0 e F(t) = 1 exp(-
100
t
)
Ento, assumindo o modelo anterior, podemos calcular, por exemplo, a probabilidade de uma destas
componentes no falhar antes de 200 horas:
P(T>200) = 1 F(200) = exp(-2) = 0.135
Na realidade, a situao corrente que aquele valor mdio desconhecido e o modelo probabilstico
para o tempo de vida das componentes conhecido a menos de um parmetro, sendo a sua funo
densidade
f(t) =
1
exp(-
t
), >0, t>0
Como estimar ? Um estimador natural considerar uma amostra de n componentes que se colocam em
teste, observar os tempos at falha e tomar a mdia desses tempos, como estimativa do tempo mdio
at falha, j que, no modelo exponencial tal como foi apresentado anteriormente, o parmetro o
valor mdio de T.
EXEMPLO 1.4 Numa Universidade os inquritos pedaggicos so lidos atravs de leitura ptica.
Sabe-se que estes leitores, embora raramente, podem cometer alguns erros. Um processo de controlar a
qualidade da leitura seleccionar aleatoriamente uns tantos inquritos e verificar quantos erros foram
cometidos pela leitura ptica, em cada um dos inquritos.
Admitindo que o nmero de erros, Z, por inqurito, pode ser bem modelado por uma Poisson, temos para
funo massa de probabilidade da v.a. Z
P(Z=k) = exp
-
! k
k
, k=0, 1, 2, ...
Se soubermos que, em mdia, se detectam 0,2 erros por pgina, podemos calcular, por exemplo, a
probabilidade de no encontrarmos nenhum erro num inqurito escolhido aleatoriamente. Efectivamente,
neste caso, =0.2, pelo que a probabilidade pretendida ser P(Z=0) = exp(-0.2) (0.2)
0
/0!= 0,82. No
entanto, numa situao em que, partida, no se conhea o desempenho dos leitores pticos, ter de se
estimar o parmetro . Uma estimativa para este parmetro obtm-se seleccionando alguns inquritos j
lidos, e depois de contar o nmero de erros cometidos em cada um, calcular a mdia dos valores obtidos.
EXEMPLO 1.5 Uma equipa mvel de colheita de sangue, estacionada no Saldanha, interpela as
pessoas que passam, no sentido de as sensibilizar a darem sangue, investigando nomeadamente o seu
Anlise de Dados 5

grupo sanguneo. Qual a probabilidade de, em certo dia, s encontrarem um indivduo de grupo O RH-,
ao 10 indivduo que abordam? Estamos numa situao em que temos uma populao constituda por
indivduos pertencentes a uma de 2 categorias ter sangue O RH-, ou no ter este tipo de sangue.
Pretendemos fazer um raciocnio probabilstico sobre a varivel aleatria X, que representa o nmero de
indivduos inquiridos (insucessos) at se encontrar um com sangue O RH- (sucesso). Para obter um
modelo probabilstico para esta varivel aleatria, vamos comear por admitir que desta experincia
aleatria, que consiste em perguntar a cada indivduo o seu grupo sanguneo, resultam provas de
Bernoulli: efectivamente em cada prova podemos ter sucesso ou insucesso e podemos considerar as
provas independentes, com probabilidade de sucesso constante, uma vez que, embora a populao seja
finita, as provas ainda podem ser consideradas independentes, pois a dimenso da amostra
seleccionada muito pequena, quando comparada com a dimenso da populao.
Ento, se representarmos por p a proporo de indivduos da populao com sangue O RH-, um modelo
para X (modelo geomtrico) ser
P(X=k) = (1-p)
k-1
p, k=1, 2, ...
Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida:
P(X=10) = (1-0.06)
9
0.06 = 0.034
E se a probabilidade p for desconhecida? Neste caso temos de a estimar. Tendo em considerao que o
valor mdio de X 1/p, uma estimativa natural para p pode ser obtida recolhendo uma amostra, em que
cada elemento o nmero de indivduos abordados at se obter sucesso, calcular a mdia dessa
amostra e considerar como estimativa de p, o inverso da mdia obtida.
EXEMPLO 1.6 O sr. Silva, industrial txtil, decidiu comear a fabricar camisas de homem, destinadas
a serem vendidas em Portugal. Precisava de ter alguma informao sobre os moldes que devia utilizar,
nomeadamente sobre o comprimento R, adequado para as mangas. Um estatstico, a quem pediu ajuda,
passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espantado, pois tinha alguns
estudos, embora poucos, de Estatstica e uma das coisas que se lembrava era de que o suporte do
modelo Normal era R. Ora ns sabemos que o comprimento do brao necessariamente positivo! Na
verdade, o que acontece que se tentassemos encontar um modelo com suporte positivo, teramos
grandes dificuldades e na realidade, adoptando um modelo normal, com valores convenientes para os
parmetros valor mdio () e desvio padro (), podemos verificar, que a probabilidade de obtermos
valores para R inferiores a determinado valor praticamente nula. Estes valores convenientes so
estimados a partir de uma amostra de comprimentos de braos de homem, para a qual se calculam a
mdia e o desvio padro, que so utilizados como estimativas dos parmetros desconhecidos.
Anlise de Dados 6

Os exemplos apresentados anteriormente mostram a importncia de encontrarmos
modelos probabilsticos para as situaes reais descritas. Em algumas das situaes
tivmos de propor modelos que no descrevem perfeitamente a situao real, mas que
consideramos teis, pois nos permitem tomar decises. Nesta reflexo sobre qual o
modelo a adoptar para traduzir um fenmeno aleatrio, vem a propsito lembrar o que
diz Box:
Todos os modelos so maus, alguns so teis
Na seco seguinte abordamos o problema da aquisio de dados e a sua importncia
e cuidados necessrios para, numa fase seguinte, procedermos a inferncias sobre as
populaes de onde os dados foram retirados.
1.3 Aquisio de dados
1.3.1 Introduo
Abordaremos de seguida (Graa Martins, M. E., 2005) algumas das tcnicas de
aquisio de dados, em que se distinguem as
Sondagens e Experimentaes (aleatoriezadas)
Gostaramos desde j de realar que o objectivo desta seco o de explorar, de uma
forma simples, algumas das tcnicas de amostragem, com vista realizao de
sondagens, situaes que se encontram de um modo geral nas Cincias Sociais, ao
contrrio das Cincias experimentais, tais como Fsica ou Qumica, em que a recolha
de dados se faz fundamentalmente recorrendo a experincias. Por exemplo, a
populao constituda pelos eleitores, a populao constituda pela contas sedeadas
num banco, etc, s contm um nmero finito de elementos, ao contrrio da Populao
conceptual de respostas geradas por um processo qumico.
No demais realar a importncia desta fase, a que chamamos de Produo ou
Aquisio de Dados. Como referido em Tannenbaum (1998), pgina 426: Behind
every statistical statement there is a story, and like a story it has a beginning, a middle,
an end, and a moral. In this first statistics chapter we begin with the beginning, which in
statistics typically means the process of gathering or collecting data. Data are the raw
Anlise de Dados 7

material of which statistical information is made, and in order to get good statistical
information one needs good data.
Sondagem, Populao, Amostra
Populao, unidade, amostra
Populao o conjunto de objectos, indivduos ou resultados experimentais acerca do
qual se pretende estudar alguma caracterstica comum. As Populaes podem ser
finitas ou infinitas, existentes ou conceptuais. Aos elementos da populao chamamos
unidades estatsticas.
Amostra uma parte da populao que observada com o objectivo de obter
informao para estudar a caracterstica pretendida.
O objectivo de uma sondagem o de recolher informao acerca de uma populao,
seleccionando e observando um conjunto de elementos dessa populao.
Sondagem Estudo estatstico de uma populao, feito atravs de uma amostra,
destinado a estudar uma ou mais caractersticas tais como elas se apresentam nessa
populao.
Se se observarem todos os elementos da populao tem-se um recenseamento
Geralmente, h algumas quantidades numricas acerca da populao que se
pretendem conhecer. A essas quantidades chamamos parmetros. Os parmetros so
estimados por estatsticas, que so nmeros calculados a partir da amostra. Estas
quantidades so conceptualmente distintas, pois enquanto a caracterstica populacional
pode ser considerada um valor exacto, embora desconhecido, a caracterstica amostral
conhecida, embora contendo um certo erro, inerente amostra seleccionada, mas
que todavia pode ser considerada uma estimativa til da caracterstica populacional
respectiva.
Anlise de Dados 8

Populao
Amostra
Parmetro Estatstica

No entanto, para se poder utilizar as estatsticas estimadores, para estimar
parmetros necessrio que as amostras sejam representativas das populaes de
onde foram retiradas.
Amostra enviesada. Amostra aleatria e amostra no aleatria.
Uma amostra que no seja representativa da Populao diz-se enviesada e a sua
utilizao pode dar origem a interpretaes erradas
Um processo de amostragem diz-se enviesado quando tende sistematicamente a
seleccionar elementos de alguns segmentos da Populao, e a no seleccionar
sistematicamente elementos de outros segmentos da Populao.
Surge assim, a necessidade de fazer um planeamento da amostragem, onde se
decide quais e como devem ser seleccionados os elementos da Populao, com o fim
de serem observados, relativamente caracterstica de interesse.
Amostra aleatria e amostra no aleatria Dada uma populao, uma amostra
aleatria uma amostra tal que qualquer elemento da populao tem alguma
probabilidade de ser seleccionado para a amostra. Numa amostra no aleatria, alguns
elementos da populao podem no poder ser seleccionados para a amostra.
Normalmente obtm-se amostras enviesadas quando existe a interveno do factor
humano. Com o objectivo de minimizar o enviesamento, no planeamento da escolha da
amostra deve ter-se presente o princpio da aleatoriedade de forma a obter uma
amostra aleatria.
Anlise de Dados 9

Quando se pretende recolher uma amostra de dimenso n, de uma Populao de
dimenso N, podemos recorrer a vrios processos de amostragem. Como o nosso
objectivo , a partir das propriedades estudadas na amostra, inferir propriedades para a
Populao, gostaramos de obter processos de amostragem que dem origem a bons
estimadores e consequentemente boas estimativas. Acontece que as propriedades
dos estimadores, como veremos a seguir, s podem ser estudadas se conseguirmos
estabelecer um plano de amostragem que atribua a cada amostra seleccionada uma
determinada probabilidade, e esta atribuio s pode ser feita com planos de
amostragem aleatrios. Assim, importante termos sempre presente o princpio da
aleatoriedade, quando vamos proceder a um estudo em que procuramos alargar para a
Populao as propriedades estudadas na amostra.
1.3.2 Tcnicas de amostragem aleatria
Seguidamente apresentaremos algumas dos planeamentos mais utilizados para
seleccionar amostras aleatrias. Dos vrios tipos de planeamento utilizados, destacam-
se os que conduzem a amostras aleatrias simples, amostras sistemticas e amostras
estratificadas.
1.3.2.1 Amostra aleatria simples
O plano de amostragem aleatria mais bsico o que permite obter a amostra aleatria
simples:
Amostra aleatria simples - Dada uma populao, uma amostra aleatria simples de
dimenso n um conjunto de n unidades da populao, tal que qualquer outro conjunto
de n unidades teria igual probabilidade de ser seleccionado.
Se uma populao tem dimenso N e se pretende uma amostra aleatria simples de
dimenso n, esta amostra recolhida aleatoriamente de entre todas as

N
n

amostras
distintas que se podem recolher da populao. Isto implica que cada amostra tenha a
Anlise de Dados 10

mesma probabilidade

N
n

1
de ser seleccionada. Uma amostra destas pode ser
escolhida sequencialmente da populao, escolhendo um elemento de cada vez, sem
reposio, pelo que em cada seleco cada elemento tem a mesma probabilidade de
ser seleccionado. Um esquema de amostragem aleatria simples, conduz a que cada
elemento da Populao tenha a mesma probabilidade de ser seleccionado para a
amostra, podendo-se demonstrar que igual a

n
N
1
. No entanto existem outros
esquemas de amostragem em que cada elemento tem igual probabilidade de ser
seleccionado, sem que cada conjunto de n elementos tenha a mesma probabilidade de
ser seleccionado. o que se passa com a amostragem aleatria sistemtica, em
determinadas situaes particulares.
Como seleccionar uma amostra aleatria simples?
1. Para seleccionar uma amostra aleatria simples, teoricamente o processo mais
simples consiste em colocar objectos identificadores (bolas, bocados de papel de igual
dimenso, etc) de todos os elementos da populao numa caixa, e retirar um a um,
sequencialmente, sem reposio. Os elementos seleccionados sero observados
relativamente caracterstica de interesse.
2. O processo anterior pouco prtico, pelo que normalmente substitudo por uma
seleco feita utilizando uma tabela de dgitos aleatrios:
Dgitos aleatrios (ou nmeros aleatrios) - Uma tabela de dgitos aleatrios uma
listagem dos dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:
- qualquer um dos dgitos considerados tem igual possibilidade de figurar em qualquer
posio da lista;
- a posio em que figura cada dgito independente das posies dos outros dgitos.

1
O n de amostras de n elementos que no contm um dado elemento

n
1 N
. A probabilidade de qualquer elemento no ser
includo portanto igual a

n
1 N
/
n
N
, ou seja (N-n)/N. Assim, a probabilidade de um determinado elemento ser seleccionado
1-(N-n)/N, ou seja n/N.
Anlise de Dados 11

Apresenta-se a seguir um extracto de uma tabela de nmeros aleatrios (Moore, 1997).
O facto de os dgitos se apresentarem agrupados 5 a 5 s para facilidade de leitura.
Linha
101 19223 95034 05756 28713 96409 12531 42544 82853
102 73676 47150 99400 01927 27754 42648 82425 36290
103 45467 71709 77558 00095 32863 29485 82226 90056
104 52711 38889 93074 60227 40011 85848 48767 52573
105 95592 94007 69971 91481 60779 53791 17297 59335
106 68417 35013 15529 72765 85089 57067 50211 47487
107 82739 57890 20807 47511 81676 55300 94383 14893
108 60940 72024 17868 24943 61790 90656 87964 18883
109 36009 19365 15412 39638 85453 46816 83485 41979
A partir da tabela de dgitos aleatrios podem-se obter nmeros aleatrios de 2 dgitos -
qualquer par dos 100 pares possveis 00, 01, 98, 99, tem igual probabilidade de ser
seleccionado, de 3 dgitos - qualquer triplo dos 1000 triplos possveis 000, 001, 998,
999, tem igual probabilidade de ser seleccionado, etc, tomando os dgitos da tabela 2 a
2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da esquerda para a direita.
Para seleccionar uma amostra de uma populao utilizando a tabela procede-se em
duas etapas:
1. atribui-se um nmero a cada elemento da populao. Esta atribuio ter de
ser feita com as devidas precaues, de forma a que cada nmero tenha o
mesmo nmero de dgitos, para ter igual probabilidade de ser seleccionado;
2. a partir da tabela escolhe-se uma linha ao acaso e comea-se a percorr-la da
esquerda para a direita, tomando de cada vez os dgitos necessrios.
EXEMPLO 1.7 Considerando a populao constituda por 18 alunos de uma turma, vamos numer-
los com os nmeros 01, 02, 03, , 17, 18 (podia ser utilizado qualquer outro conjunto de 18 nmeros de
2 dgitos). Para seleccionar uma amostra de dimenso 4 fixamo-nos numa linha qualquer da tabela, por
exemplo a linha 107 e comeamos a seleccionar os nmeros de dois dgitos, tendo-se obtido:
82 73 95 78 90 20 80 74 75 11 81
67 65 53 00 94 38 31 48 93 60 94
07 20 24 17 86 82 49 43 61 79 09
Anlise de Dados 12

Tivemos de ler 33 nmeros, dos quais s aproveitmos 4, pois os outros no correspondiam a elementos
da populao.
Como obter uma tabela de nmeros aleatrios?
Um processo poder consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e
fazer vrias extraces de uma bola, tantas quantas os dgitos que se pretendem para
constituir a tabela. De cada vez que se faz uma extraco, l-se o nmero da bola,
aponta-se e repe-se a bola na caixa - extraco com reposio. Com este processo
qualquer dgito tem igual probabilidade de ser seleccionado. Alm disso a sada de
qualquer um dos dgitos em qualquer momento, independente dos dgitos que j
saram anteriormente.
Alm das tabelas de nmeros aleatrios tambm existe a possibilidade de utilizar o
computador para os gerar ou uma simples mquina de calcular. Este o processo mais
utilizado hoje em dia, mas convm ter presente que os nmeros que se obtm so
pseudo-aleatrios, j que um mecanismo determinista que lhes d origem, embora se
comportem como nmeros aleatrios (passam numa bateria de testes destinados a
confirmar a sua aleatoriedade). Sugere-se a utilizao do Excel para seleccionar
amostras aleatrias simples
2
.
1.3.2.2 Amostra aleatria sistemtica
Na prtica o processo de seleccionar uma amostra aleatria simples de uma populao
com grande dimenso, no to simples como o descrito anteriormente. Se a
dimenso da populao for grande o processo torna-se muito trabalhoso. Ento uma
alternativa considerar uma amostra aleatria sistemtica. Por exemplo, se
pretendermos seleccionar uma amostra de 150 alunos de uma Universidade com 6000
alunos, considera-se um ficheiro com o nome dos 6000 alunos ordenados por ordem
alfabtica. Considera-se o quociente 6000/150=40 e dos primeiros 40 elementos da
lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos
sistematicamente todos os elementos distanciados de 40 unidades. Assim, se o
elemento seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros

2
Consultar, por exemplo, Graa Martins, M. E. Introduo Probabilidade e Estatstica, Com complementos de Excel, 2005
Anlise de Dados 13

elementos a serem seleccionados so 67, 107, 147, etc. Obviamente que o quociente
entre a dimenso da populao e a da amostra no necessariamente inteiro, como
anteriormente, mas no h problema pois considera-se a parte inteira desse quociente.
Amostra aleatria sistemtica Dada uma populao de dimenso N, ordenada por
algum critrio, se se pretende uma amostra de dimenso n, escolhe-se aleatoriamente
um elemento de entre os k primeiros, onde k a parte inteira do quociente N/n. A partir
desse elemento escolhido, escolhem-se todos os k-simos elementos da populao
para pertencerem amostra.
A amostra aleatria sistemtica no uma amostra aleatria simples, j que nem todas
as amostras possveis de dimenso n, tm a mesma probabilidade de serem
seleccionadas. No entanto, se o quociente N/n for inteiro, mostra-se que a
probabilidade de qualquer elemento ser seleccionado igual a n/N
3
.
1.3.2.3 Amostra estratificada
Pode acontecer que a populao possa ser subdividida em vrias subpopulaes, mais
ou menos homogneas relativamente caracterstica a estudar. Por exemplo, se se
pretende estudar o salrio mdio auferido pelas famlias lisboetas, possvel dividir a
regio de Lisboa segundo zonas mais ou menos homogneas, estratos, quanto
caracterstica em estudo salrio mdio, e posteriormente extrair de cada um destes
estratos uma percentagem de elementos que iro constituir a amostra, sendo esta
percentagem, de um modo geral, proporcional dimenso dos estratos.
Amostra estratificada Divide-se a populao em vrias subpopulaes estratos, e
de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de
todas estas amostras constitui a amostra pretendida.
EXEMPLO 1.8 - Suponhamos que se pretendia estudar o volume das vendas de prestao de
servios, das empresas de construo civil. Podemos partida considerar a Populao das empresas

3
Pensemos nos N elementos colocados em circulo e seja N=nk. Comecemos por fixar uma posio inicial j. A probabilidade de um
elemento A ser seleccionado igual a
=
N
1 j
( P A amostra/ posio inicial j) P(posio inicial ser j) =
N
n
N
1
N
n
N
1 j
=
=
.
Anlise de Dados 14

divididas em 3 estratos, quanto ao nmero de trabalhadores que emprega: pequenas - 10 ou menos
trabalhadores, mdias - entre 11 e 40 e grandes - mais de 41 trabalhadores. Uma vez identificados os
estratos, procede-se numa segunda etapa recolha de uma amostra aleatria simples dentro de cada
estrato. Admitindo que a Populao em estudo constituda por 500 empresas, das quais 55% so
pequenas, 35% so mdias e 10% so grandes e que a dimenso da amostra pretendida de 85,
seleccionaramos amostras de dimenso 47 (85x0.55=46.75), 30 (85x0.35=29.75) e 8 (85x0.10=8.5),
respectivamente do conjunto das pequenas, das mdias ou das grandes empresas.
Existe um tipo de amostragem no aleatria, muito semelhante amostragem
estratificada, que a amostragem por quotas. Neste tipo de amostragem,
consideram-se os estratos, mas depois em vez de se recolher uma amostra aleatria de
dentro de cada estrato, extrai-se uma amostra no aleatria, de dimenso proporcional
do estrato na populao.
1.3.2.4 Amostragem por clusters ou grupos
Por exemplo, suponha que se pretende estudar o nvel de satisfao dos trabalhadores
txteis, das empresas do Norte do Pas. No dispondo de uma lista com todos os
trabalhadores, considera-se uma lista de todas as empresas txteis clusters,
admitindo-se que o conjunto de trabalhadores de cada empresa caracteriza
convenientemente a populao que se pretende estudar. A partir dessa lista
seleccionam-se aleatoriamente algumas empresas e considera-se a amostra
constituda por todos os trabalhadores das empresas seleccionadas.
Amostra por clusters A populao dividida em clusters, onde cada cluster
representativo da populao. Selecciona-se aleatoriamente um conjunto de clusters e a
amostra constituda por todos os elementos dos clusters seleccionados.
1.3.3 Amostragem no aleatria
Amostragem por convenincia e amostragem por resposta voluntria so exemplos de
amostragem no aleatria.
Anlise de Dados 15

1.3.4 Outros tipos de erro num processo de aquisio de dados, sem serem
erros de amostragem
1 - A populao inquirida diferente da populao alvo ou populao objectivo
2 Informao recolhida no verdadeira
3 Problema da no resposta
4 Erros de processamento
1.4 Estimador centrado e no centrado. Preciso
Uma vez escolhido um plano de amostragem aleatrio, ao pretendermos estimar um
parmetro, pode ser possvel utilizar vrias estatsticas (estimadores) diferentes. Por
exemplo, quando pretendemos estudar a variabilidade presente numa Populao, que
pode ser medida pela varincia populacional
2
, sabemos que podemos a partir de uma
amostra, obter duas estimativas diferentes para essa varincia, a partir das expresses
s
2

=
(x
i
x )
2
i =1
n
n1
ou s
2

=
(x
i
x )
2
i =1
n
n

Quais as razes que nos podem levar a preferir uma das estatsticas relativamente
outra?
Um critrio que costuma ser aplicado o de escolher um bom estimador como sendo
aquele que centrado e que tem uma boa preciso. Escolhido um plano de
amostragem, define-se:
Estimador centrado Um estimador diz-se centrado quando a mdia das estimativas
obtidas para todas as amostras possveis que se podem extrair da Populao, segundo
o esquema considerado, coincide com o parmetro a estimar. Quando se tem um
estimador centrado, tambm se diz que no enviesado.
No captulo seguinte abordaremos com mais detalhe este assunto do no
enviesamento dos estimadores. Veremos assim, que uma das razes que nos levam a
preferir o estimador S
2
para a varincia, relativamente a S
2
, o facto de praticamente
no apresentar enviesamento (Mostra-se mais frente que E(S
2
)=
1 N
N
2
).
Anlise de Dados 16

Para se evitar o enviesamento, necessrio estarmos atentos, primeiro na escolha do
plano de amostragem e depois na escolha do estimador utilizado para estimar o
parmetro desconhecido. O facto de utilizarmos um estimador centrado, no nos
previne contra a obteno de ms estimativas, se o plano de amostragem utilizado,
sistematicamente favorecer uma parte da Populao (isto , fornecer amostras
enviesadas).
Preciso - Ao utilizar o valor de uma estatstica para estimar um parmetro, vimos que
cada amostra fornece um valor para a estatstica que se utiliza como estimativa desse
parmetro. Estas estimativas no so iguais devido variabilidade presente na
amostra. Se, no entanto, os diferentes valores obtidos para a estatstica forem
prximos, e o estimador for centrado, podemos ter confiana de que o valor calculado a
partir da amostra recolhida (na prtica recolhe-se uma nica amostra) est prximo do
valor do parmetro (desconhecido).
A falta de preciso juntamente com o problema do enviesamento da amostra so
dois tipos de erros com que nos defrontamos num processo de amostragem (mesmo
que tenhamos escolhido um bom estimador). No se devem, contudo, confundir.
Enquanto o enviesamento se manifesta por um desvio nos valores da estatstica,
relativamente ao valor do parmetro a estimar, sempre no mesmo sentido, a falta de
preciso manifesta-se por uma grande variabilidade nos valores da estatstica, uns
relativamente aos outros. Por outro lado, enquanto o enviesamento se reduz com o
recurso a amostras aleatrias, a preciso aumenta-se aumentando a dimenso da
amostra.
Como veremos a seguir o estudo de um estimador feito atravs da sua distribuio de
amostragem, ou seja, da distribuio dos valores obtidos pelo estimador, quando se
consideram todas as amostras possveis.
Distribuio de amostragem Distribuio de amostragem de uma estatstica a
distribuio dos valores que a estatstica assume para todas as possveis amostras, da
mesma dimenso, da populao.
Anlise de Dados 17

A maior parte das vezes no se consegue obter a distribuio de amostragem exacta,
mas tem-se uma distribuio aproximada, considerando um nmero suficientemente
grande de amostras da mesma dimenso e calculando para cada uma delas uma
estimativa do parmetro em estudo (problema a estudar posteriormente).
1.5 Qual a dimenso que se deve considerar para a amostra?
Outro problema que se levanta com a recolha da amostra o de saber qual a
dimenso desejada para a amostra a recolher. Este um problema para o qual, nesta
fase, no possvel avanar nenhuma teoria, mas sobre o qual se podem tecer
algumas consideraes gerais. Pode-se comear por dizer que, para se obter uma
amostra que permita calcular estimativas suficientemente precisas dos parmetros a
estudar, a sua dimenso depende muito da variabilidade da populao subjacente. Por
exemplo, se relativamente populao constituda pelos alunos do 10 ano de uma
escola secundria, estivermos interessados em estudar a sua idade mdia, a dimenso
da amostra a recolher no necessita de ser muito grande j que a varivel idade
apresenta valores muito semelhantes, numa classe etria muito restrita. No entanto se
a caracterstica a estudar for o tempo mdio que os alunos levam a chegar de casa
escola, j a amostra ter de ter uma dimenso maior, uma vez que a variabilidade da
populao muito maior. Cada aluno pode apresentar um valor diferente para esse
tempo. Num caso extremo, se numa populao a varivel a estudar tiver o mesmo valor
para todos os elementos, ento bastaria recolher uma amostra de dimenso 1 para se
ter informao completa sobre a populao; se, no entanto, a varivel assumir valores
diferentes para todos os elementos, para se ter o mesmo tipo de informao seria
necessrio investigar todos os elementos.
Chama-se a ateno para a existncia de tcnicas que permitem obter valores mnimos
para as dimenses das amostras a recolher e que garantem estimativas com uma
determinada preciso exigida partida. Uma vez garantida essa preciso, a opo por
escolher uma amostra de maior dimenso, uma questo a ponderar entre os custos
envolvidos e o ganho com o acrscimo de preciso. Vem a propsito a seguinte frase
(Statistics: a Tool for the Social Sciences, Mendenhall et al., 1987, pag. 226):
Anlise de Dados 18

"Se a dimenso da amostra demasiado grande, desperdia-se tempo e talento; se a
dimenso da amostra demasiado pequena, desperdia-se tempo e talento".
Convm ainda observar que a dimenso da amostra a recolher no directamente
proporcional dimenso da populao a estudar, isto , se por exemplo para uma
populao de dimenso 1000 uma amostra de dimenso 100 for suficiente para o
estudo de determinada caracterstica, no se exige necessariamente uma amostra de
dimenso 200 para estudar a mesma caracterstica de uma populao anloga, mas de
dimenso 2000, quando se pretende obter a mesma preciso. Como explicava George
Gallup, um dos pais da consulta da opinio pblica (Tannenbaum, 1998),: Whether you
poll the United States or New York State or Baton Rouge (Louisiana) you need the
same number of interviews or samples. Its no mystery really if a cook has two pots of
soup on the stove, one far larger than the other, and thoroughly stirs them both, he
doesnt have to take more spoonfuls from one than the other to sample the taste
accurately.
Finalmente chama-se a ateno para o facto de que se o processo de amostragem
originar uma amostra enviesada, aumentar a dimenso no resolve nada, antes pelo
contrrio!
1.6 Estimao do valor mdio utilizando amostras aleatrias
simples
Quando se pretende estimar um parmetro, uma vez definido o esquema de
amostragem, considera-se uma estatstica conveniente, isto , uma funo adequada
das observaes, funo esta que para cada amostra observada dar uma estimativa
do parmetro que se pretende estimar. Quando o parmetro a estimar o valor mdio
ou mdia populacional, ento natural considerar como estimador a funo mdia,
que para cada amostra observada dar uma estimativa do parmetro.
Anlise de Dados 19

Como que podemos saber se a mdia um bom estimador para o valor
mdio?
Ser que para as diferentes amostras que podemos obter da populao, as diferentes
estimativas so prximas umas das outras e do parmetro valor mdio? que se isso
acontecer, temos uma certa garantia que a amostra que seleccionmos, j que na
prtica s se selecciona uma amostra, nos fornece uma estimativa razovel. A resposta
questo anterior dada construindo a distribuio de amostragem da mdia, em
que, como vimos anteriormente, se define distribuio de amostragem de uma
estatstica como sendo a distribuio dos valores que a estatstica assume para todas
as possveis amostras, da mesma dimenso, da populao.
So as distribuies de amostragem das estatsticas que nos vo permitir fazer
inferncias sobre os parmetros populacionais correspondentes. A aleatoriedade
presente no processo de seleco das amostras, faz com que se possa utilizar a
distribuio de amostragem de uma estatstica para descrever o comportamento dessa
estatstica, quando se utiliza para estimar um determinado parmetro. Podemos dizer
que atravs da distribuio de amostragem que introduzimos a probabilidade num
procedimento estatstico, em que a partir das propriedades estudadas na amostra,
procuramos tirar concluses para a populao.
1.6.1 Distribuio de amostragem da mdia, como estimador do valor mdio de
uma Populao finita
1.6.1.1 Distribuio de amostragem exacta
Seguidamente vamos exemplificar o processo de obteno da distribuio de
amostragem da Mdia, e consequente estudo das suas propriedades como estimador
do valor mdio de uma Populao finita. Vamos considerar uma Populao de
dimenso suficientemente pequena, para que o problema possa ser tratado dentro dos
limites do razovel.
Consideremos a seguinte populao constituda pelos 9 alunos de uma classe infantil
Anlise de Dados 20


N Aluno Peso (kg) Altura (cm) N irmos
1 Maria 12.5 65 0
2 Teresa 11.6 68 1
3 Tiago 13.4 61 0
4 David 14.1 64 1
5 Rita 12.0 59 2
6 Ana 10.8 69 1
7 Joana 11.9 58 0
8 Bernardo 12.7 61 1
9 Leonor 9.6 63 1
Algumas caractersticas desta populao so:
Val. mdio Desvio padro Mn. Mx. Mediana
Peso 12.07 1.34 9.6 14.1 12
Altura 63.11 3.57 58 69 63
N irmos 0.78 0.67 0 2 1
Esta populao to pequena, que para a estudar no tivemos necessidade de
recorrer a amostras para estimar alguns parmetros desconhecidos, tais como altura
mdia, peso mdio, etc. Vamos, no entanto utiliz-la para exemplificar como se pode
estimar a altura mdia a partir da mdia de amostras de dimenso 3. Como a nossa
Populao tem dimenso 9, vamos utilizar a poro de tabela de dgitos aleatrios
considerada na pgina 7, seleccionando nmeros de 1 dgito. Considerando ao acaso
uma das linhas, por exemplo a linha 104, os elementos seleccionados so o 5, o 2 e o
7, sobre os quais vamos recolher a informao relevante ou seja a altura:
N Nome Altura
5 Rita 59
2 Teresa 68
7 Joana 58
A mdia das alturas observadas 61.7, que uma estimativa da altura mdia da
Populao.
Como neste caso conhecemos o valor do parmetro, podemos dizer que a estimativa
est razoavelmente prxima do parmetro a estimar. Obviamente que se recolhermos
outras amostras, obteremos outras estimativas. Ento vamos seleccionar mais 9
amostras de dimenso 3, com o auxlio da tabela:
Anlise de Dados 21


Amostra 1 2 3 4 5 6 7 8 9 10
5 59 1 65 8 61 7 58 2 68 1 65 8 61 6 69 3 61 5 59
2 68 3 61 9 63 4 64 7 58 8 61 4 64 7 58 9 63 9 63
7 58 8 61 3 61 6 69 4 64 5 59 7 58 5 59 5 59 2 68
Na obteno das amostras anteriores tivemos o cuidado de fazer a seleco sem
reposio, o que significa que ao obter cada amostra, um elemento seleccionado no
poderia voltar a ser seleccionado. Tambm tivemos o cuidado de verificar se as
amostras eram todas distintas (constitudas por elementos diferentes). Os valores
obtidos para as mdias das 10 amostras foram:
Amostra 1 2 3 4 5 6 7 8 9 10
61.7 62.3 61.7 63.7 63.3 61.7 61.0 62.0 61.0 61.5
Obtivemos vrios valores diferentes como estimativas, sendo esta variabilidade
resultado da variabilidade presente na amostra. Os valores apresentados pelas mdias
das 10 amostras, no diferem muito entre si, nem do valor do parmetro. Mas como
que podemos ter a garantia que se recolhermos outra amostra, no vamos obter como
estimativa do valor mdio da altura, um valor muito diferente do verdadeiro valor do
parmetro? Por outras palavras, gostaramos de poder responder seguinte questo:
Para este processo de amostragem, como que podemos concluir que a mdia
(amostral) um bom estimador do valor mdio (mdia populacional)?
Teremos de estudar a distribuio de amostragem da mdia, que neste caso consiste
em estudar como se comporta a distribuio das mdias obtidas para as

9
3

= 84
amostras diferentes, de dimenso 3, que se podem extrair da Populao.
Considerando ento todas as amostras aleatrias simples, diferentes, de dimenso 3,
obtemos
Am. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65
68 68 68 68 68 68 68 61 61 61 61 61 61 64 64 64 64 64 59 59 59
61 64 59 69 58 61 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61
mdia 64.7 65.7 64.0 67.3 63.7 64.7 65.3 63.3 61.7 65.0 61.3 62.3 63.0 62.7 66.0 62.3 63.3 64.0 64.3 60.7 61.7
Anlise de Dados 22

Am. 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
65 65 65 65 65 65 65 68 68 68 68 68 68 68 68 68 68 68 68 68 68
59 69 69 69 58 58 61 61 61 61 61 61 61 64 64 64 64 64 59 59 59
63 58 61 63 61 63 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61
mdia 62.3 64.0 65.0 65.7 61.3 62.0 63.0 64.3 62.7 66.0 62.3 63.3 64.0 63.7 67.0 63.3 64.3 65.0 65.3 61.7 62.7
Am. 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63
68 68 68 68 68 68 68 61 61 61 61 61 61 61 61 61 61 61 61 61 61
59 69 69 69 58 58 61 64 64 64 64 64 59 59 59 59 69 69 69 58 58
63 58 61 63 61 63 63 59 69 58 61 63 69 58 61 63 58 61 63 61 63
mdia 63.3 65.0 66.0 66.7 62.3 63.0 64.0 61.3 64.7 61.0 62.0 62.7 63.0 59.3 60.3 61.0 62.7 63.7 64.3 60.0 60.7
Am. 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
61 64 64 64 64 64 64 64 64 64 64 59 59 59 59 59 59 69 69 69 58
61 59 59 59 59 69 69 69 58 58 61 69 69 69 58 58 61 58 58 61 61
63 69 58 61 63 58 61 63 61 63 63 58 61 63 61 63 63 61 63 63 63
mdia 61.7 64.0 60.3 61.3 62.0 63.7 64.7 65.3 61.0 61.7 62.7 62.0 63.0 63.7 59.3 60.0 61.0 62.7 63.3 64.3 60.7
Uma vez que o plano de amostragem considerado, foi a amostragem aleatria simples,
cada amostra tem igual probabilidade (=1/84) de ser seleccionada, pelo que podemos
considerar os diferentes valores obtidos para a varivel Mdia, assim como as
respectivas probabilidades ou seja, estamos em condies de considerar a seguinte
funo massa de probabilidade para a varivel Mdia, que vamos designar por Mdia3,
para realar o facto de as amostras a partir das quais se obtiveram os seus valores,
terem dimenso 3:
Mdia3 59.3 60.0 60.3 60.7 61.0 61.3 61.7 62.0 62.3 62.7 63.0 63.3
Prob. 2/84 2/84 2/84 3/84 4/84 4/84 5/84 4/84 5/84 7/84 5/84 6/84
Mdia3 63.7 64.0 64.3 64.7 65.0 65.3 65.7 66.0 66.7 67.0 67.3
Prob. 5/84 6/84 5/84 4/84 4/84 3/84 2/84 3/84 1/84 1/84 1/84

Anlise de Dados 23

Algumas caractersticas da varivel Mdia3 so:
Valor mdio Desvio padro Mnimo Mximo Mediana
Mdia3 63.11 1.79 59.3 67.3 62.83
Repare-se que:
o valor mdio da varivel Mdia3 coincide com o valor mdio da Populao Altura,
de onde se recolheram as amostras;
o desvio padro da varivel Mdia3 bastante menor que o da varivel Altura.
As observaes anteriores permitem-nos concluir que a Mdia3, como estimador do
parmetro - valor mdio da Altura, um estimador centrado, j que o seu valor mdio
coincide com parmetro a estimar.
A partir da distribuio de probabilidade da Mdia3, podemos ainda concluir que a
probabilidade de obtermos estimativas no intervalo [61.3, 65.3] de 0.75, assim como a
probabilidade de obtermos essas estimativas no intervalo [59.5, 66.7] superior a 95%.
Este resultado significa que, ao recolhermos uma amostra de dimenso 3 e ao
calcularmos a partir dela uma estimativa para o valor mdio, estamos confiantes, com
uma confiana superior a 95%, de que essa estimativa no se afasta do parmetro a
estimar de uma distncia superior a 3.6, aproximadamente (63.159.5=3.61; 66.763.1=3.6).
Chamamos a ateno para que a confiana anterior, no nos d a garantia de que a
estimativa que ns calculamos, para a amostra seleccionada, esteja naquele intervalo.
Temos f que sim!
E se as amostras tiverem maior dimenso? O que que ganhamos com isso?
Repetindo o processo anterior, mas agora para amostras de dimenso 5, ser que a
variabilidade apresentada pelo estimador diminui? J que temos mais informao, de
esperar algum ganho na preciso do estimador!
Vamos ento considerar a distribuio de amostragem da mdia para amostras de
dimenso 5. O processo em tudo idntico ao considerado anteriormente, mas agora
ser um pouco mais trabalhoso j que o nmero de amostras distintas, de dimenso 5,
que podemos extrair da Populao de dimenso 9

9
5

= 126.
Anlise de Dados 24

Os resultados obtidos para a distribuio de amostragem da mdia, para amostras de
dimenso 5, foi:
Mdia5 60.4 60.6 60.8 61.0 61.2 61.4 61.6 61.8 62.0 62.2 62.4 62.6 62.8 63.0
Probab 0.008 0.008 0.008 0.016 0.016 0.032 0.024 0.040 0.040 0.056 0.063 0.048 0.063 0.079
Mdia5 63.2 63.4 63.6 63.8 64.0 64.2 64.4 64.6 64.8 65.0 65.2 65.4 65.8
Probab 0.063 0.071 0.056 0.056 0.048 0.048 0.048 0.024 0.024 0.024 0.016 0.016 0.008

Algumas caractersticas da varivel Mdia5 so:
Valor mdio Desvio padro Mnimo Mximo Mediana
Mdia5 63.11 1.13 60.4 65.8 63.1
Repare-se que:
o valor mdio da varivel Mdia5 coincide com o valor mdio da Populao
varivel Altura, de onde se recolheram as amostras;
o desvio padro da varivel Mdia3 bastante menor que o da Populao varivel
Altura e ainda inferior ao da varivel Mdia3.
Na figura seguinte apresentamos as distribuies de amostragem da Mdia3 e da
Mdia5:
Anlise de Dados 25


Concluso: a preciso do estimador aumenta, medida que se aumenta a dimenso da
amostra. Recordamos que quanto menor for a variabilidade apresentada pelo
estimador, maior a preciso.
Resultado terico:
Dada uma Populao de dimenso N, de valor mdio e varincia
2
, quando se
considera um plano de amostragem aleatria simples, e como estimador de a Mdia,
calculada a partir de amostras de dimenso n, ento:
O valor mdio da Mdia , isto , a Mdia como estimador do valor mdio um
estimador centrado;
A varincia da Mdia igual a

2
n
(
N-n
N-1
)

n
S
)
N
n - N
(
2
um estimador no enviesado da varincia da Mdia
Nota: A demonstrao destes resultados apresentada a seguir, depois de algumas consideraes
sobre as expresses apresentadas.
A expresso obtida para a varincia muito interessante pela informao que contm.
Nomeadamente:
Confirma o que j havamos esperado, no sentido de que ao aumentar a dimenso
da amostra, aumentamos a preciso do estimador (na medida em que diminui a
sua variabilidade).
Anlise de Dados 26

Permite-nos ainda concluir que, para obter a mesma preciso, quando estimamos
o valor mdio de Populaes da mesma dimenso, a dimenso da amostra ter de
ser tanto maior, quanto maior for a variabilidade presente na Populao.
Mas mais interessante, embora menos intuitivo, permite-nos concluir que se a
dimenso da Populao for substancialmente maior que a da amostra, ento a
preciso do estimador no depende da dimenso dessa Populao, mas
unicamente da variabilidade a presente (pois (N-n)/(N-1) 1).
Demonstrao:
Seja Y
1
, Y
2
, ...,Y
n
uma amostra aleatria simples de uma populao de valores {u
1
, u
2
, ..., u
N
}.
Considerando um Y
i
, tem-se E(Y
i
)= =
=
N
1

N
1 i
i
u e V(Y
i
)=
2
i
u ( =
=
N
1
) -
2
N
1 i
. Representando a mdia dos
Y
i
por Y , tem-se E( Y )=
=
n
1 i
n
1
) E(Y
i
=. Por outro lado,
Cov(Y
i
, Y
j
) = E[(Y
i
-)(Y
j
-)]= E(Y
i
Y
j
)
2
=
2
N
1 i
i
N
j i
j i
) u (
) 1 N ( N
u u

=
2
N
1
- =
2
N
1 i
i
2
N
j i
j i
) u (
N
1
) 1 N ( N
u u

=

=
2
N
1 i
i
N
j i
j i
) u (
N
1
) 1 N (
u u
N
1
=

=
= = 2
N
1 i
i
N
1 i
2
i
2
N
1 i
i
) u (
N
1
1 N
u ) u (
N
1
= -

= =
N
1 i
2
N
1 i
i
2
i
u
) 1 N ( N
1
u
1 N
1
N
1
= -
2
N
1 i
i
) u (
) 1 N ( N
1

=
= -
1 N
1
2
.
Como Var( Y ) = Var
=
n
1 i
i
Y
n
1
=
+

= <
n
1 i j i
j i
2
2
) Y , Y ( Cov 2
n
1
ento

Var( Y ) =

+

= <
n
1 i j i
2
2
2
1 N
2
n
1
=

2
) 1 n ( n
1 N
2
n
n
1
2
2
2
pois h n(n-1)/2 pares (i,j) seleccionados de
entre os inteiros 1,2, ..., n tais que i<j. Portanto
Var( Y )=
1 - N
n - N

n
2

Pode-se ainda mostrar que
n
S

N
n N
2
, com S
2
= ( )
n
1 i
i
Y
1 N
1 2
Y , um estimador no enviesado de
Var( Y ). Efectivamente E(S
2
) =
1 - N
N
2
, donde E(
n
S

N
n N
2
) = Var( Y ).
Anlise de Dados 27

1.6.1.2 Distribuio de amostragem aproximada
Quando a populao finita, e a amostragem se faz sem reposio, existem algumas
condies necessrias e suficientes para que se possa considerar a distribuio da
mdia aproximada pela distribuio Normal. No vamos apresentar essas condies,
embora admitamos que elas esto satisfeitas e enunciamos o seguinte resultado:
Suponhamos que uma amostra aleatria simples seleccionada de uma Populao de
dimenso N, em que a varivel em estudo tem valor mdio e varincia
2
. Ento, se a
dimenso n da amostra for suficientemente grande (um valor que usual considerar
como suficientemente grande 30), a distribuio de amostragem da mdia pode ser
aproximada pela distribuio Normal com valor mdio e varincia

2
n
(
N-n
N-1
). A
aproximao verifica-se para amostras de dimenso suficientemente grande,
independentemente da forma da distribuio da Populao.

O resultado anterior permite concluir que quanto maior for a dimenso da amostra,
menor a variabilidade apresentada pelo estimador.
1.6.2 Distribuio de amostragem aproximada da mdia, como estimador do
valor mdio de uma Populao finita, mas de dimenso suficientemente
grande
Na maior parte dos casos em que necessrio recolher uma amostra para estudar uma
caracterstica de uma Populao, no se conhece a dimenso desta. Ento costuma-se
assumir que suficientemente grande de modo que se diz que se tem uma Populao
de dimenso infinita. Em termos prticos costuma-se considerar que se tem uma
populao de dimenso infinita quando nN/20. Nestas condies o factor (N-n)/(N-1)
que aparece na expresso da varincia da Mdia toma um valor aproximadamente
igual a 1, pelo que temos o seguinte resultado, conhecido como Teorema Limite
Central (TLC), de que o resultado anterior uma verso para Populaes finitas:

Anlise de Dados 28

dimenso grande, em que a varivel em estudo tem valor mdio e varincia
2
. Ento,
se a dimenso n da amostra for suficientemente grande (um valor que usual
considerar como suficientemente grande 30), a distribuio de amostragem da mdia
pode ser aproximada pela distribuio Normal com valor mdio e varincia

2
n
. A
aproximao verifica-se para amostras de dimenso suficientemente grande,
independentemente da forma da distribuio da Populao subjacente s amostras.
Mais uma vez chamamos a ateno para a seguinte propriedade, j anteriormente
referida: quanto maior for a dimenso da amostra, menor a variabilidade apresentada
pelo estimador. Alm disso, tambm conclumos que, para Populaes de dimenso
suficientemente grande, esta no tem influncia sobre a variabilidade do estimador.
Em concluso, a preciso de um estimador, para Populaes de grande dimenso,
no depende do tamanho da Populao, mas sim da variabilidade a presente. Quando
pretendemos estimar um parmetro da Populao, para obter uma determinada
preciso, a dimenso da amostra ter de ser tanto maior, quanto maior for a
variabilidade existente na Populao. No entanto, se a dimenso da Populao j
no for suficientemente grande, essa dimenso ter interferncia na preciso do
estimador.
1.7 Distribuio de amostragem da mdia, em amostragem com
reposio
Ser interessante estudarmos a distribuio de amostragem da Mdia, quando se faz
amostragem com reposio, de uma Populao com dimenso N e comparar com o
que se obtm em amostragem sem reposio.
Agora, cada elemento da Populao tem uma probabilidade constante e igual a 1/N de
ser seleccionado para pertencer amostra, j que quando um elemento
seleccionado, uma vez a informao recolhida, ele novamente reposto na Populao.
Anlise de Dados 29

Este processo equivalente a seleccionarmos uma amostra aleatria de dimenso n de
uma populao uniforme discreta no conjunto dos valores da caracterstica a estudar da
Populao, que podemos representar por y
1
, y
2
, , y
N
. Ento cada vez que se
selecciona um elemento da Populao como se obtivssemos um valor da varivel Y
que assume os valores y
i
considerados anteriormente, com probabilidade 1/N.
Seleccionar uma amostra de dimenso n significa seleccionar n variveis Y
1
, Y
2
, , Y
n
,
independentes e com distribuio idntica de Y. Ento a Mdia ser uma varivel cujo
valor mdio o valor mdio da Populao (ou da distribuio uniforme) e cuja
varincia
2
/n, onde
2
a varincia da Populao (ou da distribuio uniforme
subjacente).
A amostragem sem reposio mais eficiente do que a amostragem com reposio
Comparando o resultado
n
2
, para a varincia da Mdia, com o resultado apresentado

quando se faz amostragem sem reposio, nomeadamente

2
n
(
N-n
N-1
), conclui-se que
a amostragem sem reposio mais eficiente, quando se pretende estimar o valor
mdio da Populao, uma vez que produz um estimador com uma varincia mais
pequena, isto , que apresenta menor variabilidade.
EXEMPLO 1.9 Considere uma populao constituda pelos elementos 1, 2, 3, 4 e 5. Pretende estimar
o valor mdio desta populao, pelo que decide recolher uma amostra de dimenso 2, com reposio. e
calcular a sua mdia. Obtenha a distribuio de amostragem do estimador utilizado para estimar o valor
mdio da populao.
Resoluo: A Populao anterior constituda pelos elementos 1, 2, 3, 4 e 5, tendo cada um uma
probabilidade constante e igual a 1/5 de ser seleccionado para pertencer a uma amostra:

Populao X 1 2 3 4 5
Probabilidade 1/5 1/5 1/5 1/5 1/5

Propriedades da Populao:
Valor mdio = 3
Desvio padro = 2.
Anlise de Dados 30

A metodologia seguida para obter a distribuio de amostragem consiste em obter todas as amostras de
dimenso 2, com reposio, calcular o valor da estatstica mdia para cada uma delas e depois
representar a distribuio dos valores obtidos:

Amostras (1,1) (1,2) (1,3) (1,4) (1,5) (2,5) (3,5) (4,5) (5,5)
(2,1) (2,2) (2,3) (2,4) (3,4) (4,4) (5,4)
(3,1) (3,2) (3,3) (4,3) (5,3)
(4,1) (4,2) (5,2)
(5,1)
mdia 1 1.5 2 2.5 3 3.5 4 4.5 5
De acordo com a tabela anterior obtemos a seguinte distribuio de amostragem para o estimador
Mdia2 (assim representado por se obter a partir de amostras de dimenso 2)
Mdia2 1 1.5 2 2.5 3 3.5 4 4.5 5
Probabilidade 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25

3 3.5 4 4.5 5 1 1.5 2 2.5

Caractersticas da distribuio de amostragem da Mdia para amostras de dimenso 2:
Valor mdio = 3
Desvio padro = 1
Algumas observaes:
O centro da distribuio de amostragem do estimador Mdia utilizado para estimar o valor mdio da
populao (igual a 3), coincide com o parmetro a estimar .
O desvio padro da populao inicial igual a

2 , enquanto que o desvio padro da mdia,
calculada a partir de amostras de dimenso 2 1 (

2 /

2 =1 resultado considerado anteriormente).
Se repetirmos a metodologia seguida no processo do exemplo anterior, considerando agora amostras de
dimenso 3, o problema torna-se mais trabalhoso, j que o nmero de amostras possveis 5
3
=125.
Assim, abstemo-nos de apresentar todas essas amostras, limitando-nos a apresentar a distribuio de
amostragem da Mdia3:
Anlise de Dados 31


Mdia3 1 1.33 1.67 2 2.33 2.67 3 3.33 3.67 4 4.33 4.67 5
Proba. .008 .024 .048 .080 .120 .144 .152 .144 .120 .080 .048 .024 .008

1 2 3 4 5

Caractersticas da distribuio de amostragem:
Valor mdio = 3
Desvio padro = 0.816
Algumas observaes:
O centro da distribuio de amostragem do estimador Mdia3 utilizado para estimar o valor mdio da
populao (igual a 3), coincide com o parmetro a estimar .
O desvio padro da populao inicial igual a

2 , enquanto que o desvio padro da Mdia3,
calculada a partir de amostras de dimenso 3 0.816 (

2 /

3 =0.816 o que condiz com o resultado
apresentado anteriormente, de que a varincia da Mdia
2
/n).
A variabilidade apresentada pela distribuio de amostragem inferior obtida quando se
consideram amostras de dimenso 2. Este resultado indicia que quanto maior for a dimenso da
amostra, menor a variabilidade apresentada pela distribuio de amostragem.
Se a dimenso da Populao for muito grande, a probabilidade de extrairmos o mesmo elemento duas
vezes extremamente pequena. Assim, os dois processos de amostragem, com reposio e sem
reposio, so praticamente equivalentes, quando estamos a estimar a mdia populacional.
A concluso anterior vai de encontro com a que se pode obter tambm se tomarmos
ateno s varincias das Mdias de amostras de dimenso n, quando se faz extraco
com e sem reposio. Efectivamente o factor

N n
N 1
=
N
N- 1
(1
n
N
)
que aparece na expresso da varincia num processo de amostragem aleatria simples
(sem reposio) assume um valor prximo de 1, quando N razoavelmente grande e n
Anlise de Dados 32

razoavelmente pequeno, quando comparado com N. Ao quociente

n
N
costuma-se
chamar fraco de amostragem. J apontamos anteriormente que se considera uma
Populao grande se a sua dimenso for cerca de 20 vezes superior dimenso da
amostra, ou seja, quando a fraco de amostragem for menor que 0.05.
1.8 A forma da distribuio de amostragem da Mdia em popula-
es infinitas ou amostragem com reposio
Vimos anteriormente que o estimador Mdia um estimador centrado do valor mdio
da populao, quer a populao seja finita ou infinita e a amostragem com reposio ou
sem reposio. Vimos tambm a expresso para a varincia, em qualquer das
situaes consideradas.
Vamos agora admitir que estamos a realizar uma amostragem com reposio, ou que a
populao a estudar, X, infinita, situao em que a seleco de um elemento para a
amostra, pode ser considerada independente da seleco dos outros elementos. Assim,
consideremos a amostra aleatria (X
1
, X
2
, ..., X
n
) onde as variveis aleatrias X
1
, X
2
, ...,
X
n
so indepententes e identicamente distribudas a X, como se apresenta no seguinte
esquema:
Se tivermos k amostras de dimenso n, recolhidas da Populao X:
Populao X
1 amostra 2 amostra k-sima amostra
x
x
x x
x
x x x
x
x x x
x x x
... ...
...

Relativamente s amostras anteriores, podemos considerar o seguinte:
Anlise de Dados 33

x
11
, x
21
, ...,x
k1
so os valores observados de uma v.a. com distribuio idntica
de X, mas que representamos por X
1
, para significar que foi o 1
elemento recolhido nas diferentes amostras;
x
12
, x
22
, ...,x
k2
de X, independente de X
1
(numa amostra aleatria, os valores no
podem depender uns dos outros), mas que representamos por X
2
,
para significar que corresponde ao 2 elemento recolhido;
x
1n
, x
2n
, ...,x
kn
de X, independente de X
1
, X
2
,... que representamos por X
n
, para
significar que foi o ensimo elemento a ser recolhido.
Com esta notao, as amostras (x
11
, x
12
, x
13
,..., x
1n
), ( x
21
, x
22
, x
23
,..., x
2n
) ..., ( x
k1
, x
k2
,
x
k3
,..., x
kn
) so amostras observadas da amostra aleatria
(X
1
, X
2
, , X
n
)
Admitindo que a populao X, que estvamos a estudar, era constituda pelas alturas
(em cm) dos alunos inscritos na FCUL, no ano lectivo de 2005/2006, era tal que
XN(165,10), podemos obter vrias amostras observadas, de dimenso 10:
(158, 163, 171, 150, 149, 167, 158, 172, 149, 150)
(167, 149, 168, 153, 162, 160, 170, 161, 160, 149)

(170, 160, 158, 168, 165, 159, 163, 159, 172, 150)
da amostra aleatria (X
1
, X
2
, , X
10
), em que todas as v.a. X
i
, i=1,,10, so
independentes e tm distribuio Normal de valor mdio 165 e desvio padro 10.
Tendo em considerao o que foi dito anteriormente, podemos afirmar que
x
1
, x
2
, , x
k
, so valores observados da varivel aleatria
X =
X
i
i =1
n
n

onde X
1
, X
2
, , X
n
so variveis aleatrias independentes e com a mesma distribuio
que uma varivel aleatria X ( populao em estudo). Sendo a estatstica uma varivel
aleatria tem uma distribuio de probabilidades, a que damos o nome de distribuio
de amostragem, como j vimos nas seces consideradas anteriormente.
Anlise de Dados 34

So as distribuies de amostragem das estatsticas que nos vo permitir fazer
inferncias sobre os parmetros populacionais correspondentes. Ao aleatoriezarmos o
processo de seleco das amostras, faz com que se possa utilizar a distribuio de
amostragem de uma estatstica para descrever o comportamento dessa estatstica,
quando se utiliza para estimar um determinado parmetro. Por outro lado, para
podermos utilizar os resultados da Teoria das Probabilidades, o processo de
amostragem que se considera o de amostragem com reposio. Esta observao
relevante, sobretudo para populaes de dimenso pequena, em que a composio da
populao, relativamente caracterstica de interesse, se altera quando se retiram
alguns elementos; esta situao no se verifica com populaes de grande dimenso,
que normalmente a situao de interesse em Estatstica.
Assim, se uma populao tiver N elementos, para obter as distribuies de amostragem
de estatsticas, a partir de amostras de dimenso n, teramos de seleccionar N
n

amostras distintas. Ento, para calcular a distribuio de amostragem da mdia, ser
necessrio considerar todas as amostras possveis e calcular as respectivas mdias?
Felizmente no necessrio estar com tanto trabalho, graas a um dos resultados mais
importantes da Teoria das Probabilidades, conhecido como Teorema Limite Central,
que nos fornece um modelo matemtico para a distribuio de amostragem da mdia,
como veremos a seguir.
Algumas questes que se podem levantar acerca da distribuio de amostragem da
estatstica mdia, so as seguintes:
A distribuio da mdia, depende da distribuio da populao X, subjacente s
amostras?
Ser sempre possvel conhecer essa distribuio?
No que se segue procuraremos responder a estas questes, adiantando desde j que,
na verdade, a distribuio de amostragem da mdia depende da distribuio da
populao subjacente s amostras. Veremos tambm, que nem sempre possvel
obter a distribuio exacta da mdia, mas sim uma distribuio aproximada.
Anlise de Dados 35

1.8.1 Valor mdio e desvio padro da mdia
Dada uma populao X de valor mdio e desvio padro , ento, tendo em
considerao as propriedades do valor mdio e da varincia, pode-se mostrar
facilmente que
E( X ) = e Var( X ) =
2
n

Obs: No esquecer que X uma combinao linear de variveis aleatrias
independentes e com a mesma distribuio.
Chamamos a ateno para o facto do valor mdio da v.a estimador X , coincidir com o
parmetro que estamos a estimar, o valor mdio, , da populao. Dizemos que o
estimador centrado ou no enviesado. Alm disso, a varincia do estimador
decresce com a dimenso da amostra, o que permite concluir que, medida que
aumentamos a dimenso da amostra a variabilidade do estimador, em torno do
parmetro, diminui. Diz-se ento que o estimador consistente. Estas propriedades de
no enviesamento e de consistncia fazem com que a mdia seja um bom estimador
do valor mdio.
1.8.2 Distribuio da mdia, para populaes Normais
Para obter a distribuio de X , vamos distinguir o caso de a populao X ser Normal e
no Normal, distinguindo ainda se o desvio padro conhecido ou no.
1.8.2.1 Desvio padro conhecido
J dissemos quando estudamos a distribuio Normal, que qualquer combinao linear
de variveis aleatrias independentes, com distribuio Normal, ainda tem distribuio
Normal. Como a mdia uma combinao linear de variveis aleatrias X
i
,
independentes, com distribuio idntica de X, que por hiptese Normal(,), vem
imediatamente que X tem distribuio Normal, com valor mdio e desvio padro

n
,
pelo que procedendo standardizao, se obtm o seguinte resultado
Anlise de Dados 36


Populaes Normais, conhecido
Z =

X -
/ n
N(0,1)
1.8.2.2 Desvio padro desconhecido
Quando o parmetro desconhecido, situao que ocorre com frequncia, j o
resultado anterior no vlido. Assim, estima-se o desvio padro desconhecido pelo
desvio padro emprico, S, em que
S
2
=
(X
i
X )
2
i =1
n
n1

e tem-se o seguinte resultado
Populaes Normais, desconhecido
T =
X
S
n
t(n-1)
o que significa que se conhece a distribuio exacta da varivel aleatria T, que a
chamada distribuio t-Student (t de Student), com (n-1) graus de liberdade e que se
representa por t(n-1).
Este modelo tem uma funo densidade semelhante da Normal, mas com as caudas
mais altas, isto , no to concentrada. No entanto, medida que o nmero de graus
de liberdade aumenta (isto , medida que n aumenta), a t-Student confunde-se com a
Normal. Do mesmo modo que a Normal, tambm a distribuio t-Student se encontra
tabelada.
Anlise de Dados 37

1.8.3 Distribuio da mdia, para populaes no normais. Teorema Limite
Central
Quando a distribuio da populao X j no Normal, a distribuio de amostragem
da mdia depender da distribuio de X, no sendo em geral conhecida. No entanto,
um dos teoremas fundamentais das probabilidades, d-nos uma indicao do
comportamento da distribuio da mdia de um nmero suficientemente grande de
variveis aleatrias independentes e identicamente distribudas:
Teorema limite central
Se X
1
, X
2
, , X
n
so variveis aleatrias independentes e identicamente distribudas a
uma varivel aleatria X com valor mdio e varincia
2
, finita, ento a distribuio da
soma S
n
= X
1
+ X
2
+ + X
n
, ou da mdia X =
S
n
n
tende a aproximar-se da distribuio
Normal, para n suficientemente grande
P(
S
n
n
n
z ) (z) e P(
X
n
z ) (z)
O teorema limite central d-nos uma justificao terica para a grande utilizao da
distribuio Normal, como modelo de fenmenos aleatrios. Quantidades tais como
alturas e pesos de uma populao relativamente homognea, podem ser consideradas
como somas de um grande nmero de causas genticas e efeitos devido ao meio
ambiente, mais ou menos independentes entre si, cada um contribuindo com uma
pequena quantidade para a soma.
O que que se entende por um valor de n suficientemente grande?
Uma questo que se pode pr a seguinte: quando queremos aplicar o teorema do
limite central: qual o valor de n, para que se possa considerar que temos uma boa
aproximao para a distribuio Normal?
Este valor de n depende da distribuio subjacente amostra e ser tanto maior quanto
mais enviesada for a distribuio da populao (o termo enviesado aplica-se como
contrrio a simtrico).
Anlise de Dados 38

1.9 Distribuio de amostragem da proporo
Anteriormente estudmos a estimao do valor mdio e vamos, neste captulo, ver
como os resultados que se obtiveram podem ser traduzidos para o estudo da estimao
do parmetro proporo de elementos da Populao que satisfazem determinada
propriedade ou verificam determinada caracterstica.
1.9.1 Distribuio de amostragem da proporo para populaes finitas
Consideremos ento uma populao de dimenso N e seja p a proporo
(desconhecida) de elementos de uma populao que verificam determinada
caracterstica. Na metodologia que vamos utilizar, no estudo da estimao da
proporo, comeamos por verificar que uma proporo uma mdia de 0s e 1s em
que atribumos o valor 1 a um elemento da populao que verifique a caracterstica em
estudo e o valor 0 a um elemento que no verifique essa caracterstica. Assim, a
proporo p no mais do que o valor mdio desta populao cujos elementos so
0s e 1s, pelo que o estudo feito para a estimao do valor mdio ser facilmente
adaptado para a estimao da proporo.
Para esta populao to particular, constituda por 0s e 1s, em que a mdia
populacional a proporo populacional, a mdia amostral tambm ser a proporo
amostral, que ser assim, o estimador intuitivo para a proporo populacional.
Como no captulo anterior estudmos a distribuio de amostragem da mdia, tendo
concludo que a mdia um bom estimador para o valor mdio, imediatamente
conclumos que a proporo amostral um bom estimador para a proporo
populacional.
A fim de utilizar os resultados enunciados para a distribuio de amostragem da mdia,
vejamos a que igual a varincia de uma populao constituda por 0s e 1s em que a
percentagem de 1s p.
Anlise de Dados 39

Varincia
2
da populao em estudo:
A partir da expresso da varincia, temos que
2
=

(1- p)
2
Np + (0- p)
2
N(1- p)
N

2
= p (1- p)
A varincia de uma populao constituda por 0s e 1s, em que a percentagem de 1s
p, igual a p(1- p).
As concluses a que chegmos no captulo anterior, permitem-nos agora enunciar os
seguintes resultados:
Dada uma populao de dimenso N, em que p a percentagem de elementos da
populao que verificam determinada caracterstica, quando se considera um esquema
de amostragem aleatria simples, e como estimador de p, a proporo amostral

p , isto
a proporo de elementos com a caracterstica em estudo, existente em amostras de
dimenso n, ento:
O estimador

p de p um estimador centrado, j que o seu valor mdio coincide
com p;
A varincia de

p igual a

p(1-p)
n
(
N-n
N-1
).
O resultado terico conhecido como Teorema Limite Central toma agora a seguinte
expresso:
dimenso grande, em que a caracterstica em estudo est presente numa proporo p
(desconhecida) Ento, se a dimenso n da amostra for suficientemente grande (um
valor que usual considerar como suficientemente grande 30), a distribuio de
amostragem da proporo amostral

p
pode ser aproximada pela distribuio Normal
com valor mdio p e varincia

p(1- p)
n

.
Anlise de Dados 40

1.9.2 Distribuio de amostragem da proporo para populaes infinitas ou
com reposio
Neste caso, em que a populao infinita ou a amostragem se faz com reposio, as n
variveis aleatrias X
1
, X
2
, ..., X
n
(n provas) que consistem em seleccionar outros tantos
elementos da populao e verificar se sim ou no tm a caracterstica em estudo
(sucesso ou insucesso), que existe na populao com uma proporo p, so variveis
de Bernoulli. Assim, a v.a. X que representa o n de sucessos nas n provas tem
distribuio Binomial de parmetros n e p, Bin(n,p). Um estimador da proporo p a
proporo amostral

p =
n
X
, cujas propriedades podem ser deduzidas a partir do facto da
distribuio de X ser conhecida. Efectivamente
E(

p ) = p
n
np
n
) X ( E
= = e Var(

p ) =
n
) p ( p
n
) p ( np
n
) X ( Var
=
=
1 1
2 2

Por outro lado, se a dimenso da amostra for suficientemente grande, a distribuio
Bin(n,p) pode ser aproximada por uma distribuio Normal(np, ) p ( np 1 ), pelo que a
distribuio de

p pode ser aproximada por uma distribuio Normal (p,
n
) p ( p 1
),
como j havamos concludo anteriormente.

Anlise de Dados 41

Introduo estimao 2

Introduo estimao. Estimao pontual e intervalar. Intervalo de confiana com uma
confiana de 100(1-)%. Dimenso da amostra necessria para obter um intervalo de
confiana com uma determinada preciso e uma determinada confiana.
Margem de erro.
2.1 Introduo
Dada uma amostra, vimos que possvel fazer a sua reduo, atravs do clculo de
certas estatsticas. No entanto, a importncia destas caractersticas amostrais no se
fica por aqui, pois o nosso objectivo vai ser utiliz-las para inferir algo sobre a
populao subjacente amostra. Foi nesta perspectiva que falmos em utilizar:
i) a mdia x como estimativa do valor mdio ;
ii) a proporo

p =x/n, onde x representa o n de sucessos obtidos numa certa amostra
de dimenso n, como estimativa da probabilidade p de sucesso, na distribuio
Binomial, etc.
Quer dizer que as estatsticas referidas permitem-nos obter determinados valores que
servem como estimativas dos parmetros (desconhecidos) ou caractersticas das
distribuies populacionais - a estes valores chamamos estimativas pontuais. Por
vezes interessa-nos obter, no um valor que estime o parmetro em causa, mas um
intervalo que contenha, com determinada probabilidade, esse parmetro - neste caso
pretendemos uma estimativa intervalar ou um intervalo de confiana.
Um estimador uma varivel aleatria, funo da amostra aleatria, que para valores
observados da amostra fornece estimativas pontuais ou estimativas intervalares do
parmetro populacional desconhecido. Ento, a v.a. X um estimador do valor mdio,
Anlise de Dados 42

assim como

p =

X
n
um estimador da probabilidade p. De um modo geral quando nos
referimos ao estimador utilizamos letra maiscula, enquanto que a estimativa se
representa com letra minscula. Esta metodologia por vezes no seguida, como por
exemplo, no caso anteriormente considerado da proporo.
O que um "bom" estimador?
O facto de termos escolhido a mdia como estimador do valor mdio, no se deve
unicamente analogia existente, entre parmetros populacionais e parmetros
amostrais. Comom vimos no captulo 1, existem alguns critrios que definem partida,
se um estimador "bom" ou "mau". Assim, o critrio mais utilizado exige que o
estimador seja no enviesado ou centrado, isto , que o seu valor mdio coincida com o
parmetro populacional a estimar, e de entre os que satisfazem esta condio deve ter
varincia mnima. Estas duas propriedades so, de certo modo intuitivas, pois ao
considerar um estimador esperamos que as estimativas que ele fornece coincidam, em
mdia, com o parmetro a estimar, e alm disso a variabilidade dessas estimativas, em
torno do parmetro, deve ser pequena. Por exemplo, no caso concreto de populaes
simtricas, podem existir vrios estimadores centrados para o valor mdio,
nomeadamente a mdia e a mediana. No entanto, escolhe-se o que tem varincia
mnima, que a mdia.
No que diz respeito varincia populacional
2
, alguns estimadores possveis so
S
2
=

(X
i
X )
2
n 1
ou S'
2
=

(X
i
X )
2
n

Ao considerar estas duas estatsticas, costuma-se dizer que por razes que se
prendem com a inferncia estatstica, a estatstica mais utilizada S
2
. Neste momento
j podemos dar a razo que nos leva a escolher

(X
i
X )
2
n 1
- o facto de este estimador,
ao contrrio de

(X
i
X )
2
n
, ser centrado, pois pode-se mostrar que E [S
2
]=
2
com X
i

, i=1,...,n variveis aleatrias independentes e identicamente distribudas a X, enquanto
Anlise de Dados 43

que E [S
2
]=
n
1 n
2
. Assim, quando a dimenso da amostra suficientemente grande,
S
2
assintticamente centrado, pois
n
1 n
1, sendo indiferente utilizar um ou outro
estimador.
2.2 Estimao da proporo. Intervalo de confiana para a
proporo
J vimos no captulo 1 que se tivermos uma populao constituda por indivduos que
pertencem a uma de duas categorias, que representamos por A e A
c
em que p a
proporo (desconhecida) de indivduos que pertencem categoria A, um estimador
desta proporo

p . Vimos que

p um estimador centrado ou no enviesado e tem
uma variabilidade que tende para 0, medida que a dimenso da amostra recolhida
aumenta. Podemos dizer que temos um bom estimador, pelo menos relativamente ao
critrio considerado anteriormente!
Ento, quando pretendemos fazer inferncia sobre p, recolhemos uma amostra de
dimenso n e calculamos

p . O valor obtido uma estimativa pontual de p. Se
recolhermos vrias amostras da mesma dimenso e calcularmos outras tantas
estimativas para p, no temos possibilidade de saber qual o erro associado com cada
uma dessas estimativas. O verdadeiro valor da percentagem p desconhecido, pelo
que no sabemos se as estimativas que obtivemos so boas ou ms, portanto no
sabemos qual a confiana com que devem ser encaradas, e no temos assim
possibilidade de saber qual a que devemos utilizar. Por exemplo, se dois jornais
distintos apresentarem, no mesmo dia, as percentagens de 45% e 52% de pessoas que
votaro Sim Constituio Europeia, no sabemos qual a que nos merece mais
confiana. Perante esta incapacidade de medir o erro cometido ao tomar uma
estimativa pontual, abordamos o problema de outra forma e vamos procurar uma
estimativa intervalar, isto , um intervalo da forma [a,b], que contenha o verdadeiro
valor da percentagem (desconhecida), com uma determinada confiana, que definimos
priori, isto ,
Prob( [a,b] conter p ) = 1-
Anlise de Dados 44

De um modo geral a confiana exprime-se na forma 100(1-)%, com pequeno.
Como determinar os limites a e b do intervalo de confiana?
J que, como vimos na seco anterior, a distribuio de amostragem de

p pode ser
aproximada pela distribuio Normal, quando a dimenso n da amostra utilizada for
suficientemente grande, ento possvel, dada uma probabilidade P, por exemplo .95,
obter o valor de z tal que se tenha
P(
n
p) p(1
| p p |
z ) = .95.
Se P(
n
p) p(1
| p p |
z ) = .95 ento z=1.96, ou seja P(

n
p) p(1
| p p |
1.96 ) = .95.
Trabalhando a expresso anterior obtemos
P( p -1.96
n
p) p(1
p

p +1.96
n
p) p(1
) = .95
Se n suficientemente grande

p est suficientemente prximo de p, pelo que na
expresso anterior vamos substituir p por

p em

p(1p)
n
, obtendo-se
P(

p -1.96
n
) p (1 p
p

p +1.96
n
) p (1 p
) .95
Dizemos que o intervalo [

p -1.96
n
) p (1 p
,

p +1.96
n
) p (1 p
] um intervalo aproximado
de confiana para p, com uma confiana de 95%.
De um modo geral se considerarmos uma confiana de 100(1-)% (representamos por
uma probabilidade pequena, que associamos desconfiana ou ao erro cometido na
obteno do intervalo de confiana), o intervalo de confiana para p assume o
aspecto
[

p -z
1-/2

n
) p (1 p
,

p +z
1-/2
n
) p (1 p
]
onde representamos por z
1-/2
o quantil de probabilidade (1-/2) da N(0,1) e

p a
proporo de elementos da amostra pertencentes categoria em estudo.
Anlise de Dados 45


EXEMPLO 2.1 (Adaptado de De Veaux and al, 2004) Os corais esto em declnio, em todo o
mundo, possvelmente devido poluio ou mudana da temperatura da gua do mar. A morte dos
recifes de corais pode ser um aviso das mudanas climticas e poder ter um impacto econmico ainda
no calculado. Uma espcie muito bonita de coral, conhecida como Leque do Mar, particularmente
afectada pela poluio e pela doena aspergillosis. Em Junho de 2000, uma equipa de investigadores
recolheu uma amostra de corais desta espcie, a uma profundidade de 40 ps, em Las Redes Reef,
Akumal, Mxico. Verificaram que 54 dos 104 corais que recolheram, estavam infectados com aquela
doena. O que que se pode dizer sobre a prevalncia desta doena, sobre aquele tipo de corais? Para
j, temos uma proporo de corais doentes de 51.9%, mas ningum nos garante que os investigadores
obteriam a mesma proporo se recolhessem outra amostra de 104 corais.O que que podemos dizer
efectivamente sobre a proporo p de corais infectados? Apresentamos a seguir uma lista de coisas que
poderamos dizer, ou que por vezes se dizem, e a razo pela qual no so correctas a maior parte delas:
1. 51.9% de todos os corais da espcie Leque do Mar, em Las Redes Ref, esto infectados No
temos informao suficiente para fazer esta afirmao. S poderamos fazer esta afirmao se
tivssemos investigado o que se passava com todos os corais. Assim, se recolhessemos outra
amostra, obteramos outra percentagem.
2. Provavelmente verdade que 51.9% de todos os corais da espcie Leque do Mar, em Las Redes
Ref, estejam infectados No podemos fazer esta afirmao. Podemos ter quase a certeza de que,
qualquer que seja a verdadeira proporo de corais infertados, ela no ser exactamente igual a
51.900%.
3. No sabemos exactamente qual a proporo de corais infectados, da espcie Leque do Mar, em
Las Redes Ref, mas sabemos que essa proporo est no intervalo 51.9% 1.96
104
) 519 . 0 1 ( 519 . 0
, ou seja 51.9%9.6%, ou seja ainda entre 42.3% e 61.5%. Ainda no podemos
fazer esta afirmao, pois no podemos ter a certeza que a verdadeira proporo esteja neste
intervalo, ou noutro qualquer.
Anlise de Dados 46

4. No sabemos exactamente qual a proporo de corais infectados da espcie Leque do Mar, em Las
Redes Ref, mas o intervalo de 42.3% a 61.5% provavelmente contm a verdadeira proporo.
Agora sim, podemos fazer esta afirmao. Comemos por dar o intervalo e em seguida admitir que
pensamos que esse intervalo provavelmente contm o verdadeiro valor da proporo.
Esta ltima afirmao est correcta, mas podemos quantificar o que que entendemos por
provavelmente. Podemos dizer que 95% das vezes que construirmos intervalos do tipo considerado
anteriormente, conseguimos cobrir o valor de p, pelo que podemos estar 95% confiantes de que
aquele intervalo seja um dos que contm p.
5. Temos uma confiana de 95% de que o intervalo entre 42.3% e 61.5% contenha a percentagem de
corais infectados, da espcie Leque do Mar, em Las Redes Reef. A este intervalo chamamos um
intervalo de confiana.
Confiana e preciso
Qual a dimenso da amostra necessria para obter um intervalo de 100(1-)% de
confiana, cuja amplitude no exceda d?
Repare-se que a amplitude do intervalo nos d a preciso quanto menor for a
amplitude, maior ser a preciso. Efectivamente no estamos interessados em obter
um intervalo com uma grande amplitude, pois numa situao extrema dizemos que o
intervalo [0, 1] contm a probabilidade p, que pretendemos estimar, com uma confiana
de 100%!
Da forma do intervalo de confiana para p, verificamos que existem duas maneiras de
diminuir a sua amplitude, que igual a 2 z
1-/2

p (1

p )
n
. Assim:
i) Ou diminumos a confiana (1-), o que implica obter um valor mais pequeno
para o quantil z
1-/2
, ou
ii) aumentamos a dimenso da amostra.
A soluo apresentada em i) no aconselhvel - num caso extremo obteramos um
intervalo de amplitude nula (estimativa pontual!), mas com uma confiana de 0%!
Ento vejamos como proceder adoptando a soluo preconizada em ii). Pretendemos
que
Anlise de Dados 47

2 z
1-/2

p (1

p )
n
d
de onde
n (
2z
1/2
d
)
2
p (1 p )
Se no tivermos uma estimativa de p, ento devemos considerar o valor mximo do 2
membro da desigualdade anterior, que se obtm quando

p =
1
2
, donde um limite
superior para n ser
n (
z
1 / 2
d
)
2

Chamamos a ateno para que este valor de n, de um modo geral, peca por excesso,
j que foi obtido para a pior situao do valor do parmetro a estimar estar prximo de
0.5. Assim, aconselhvel proceder a um estudo prvio, ou recolher informao
eventualmente existente, para ter uma ideia do valor do parmetro, se os custos com a
recolha da amostra forem elevados.
Chama-se margem de erro, a metade da amplitude do intervalo de confiana.
Representando a margem de erro por ME, temos na expresso anterior que d o valor
adequado para a dimenso da amostra:
n (
2ME
2 1
z
/
)
2

Repare que, fixando a dimenso da amostra, quanto maior for a confiana, maior ser a
margem de erro. Podemos aumentar a confiana at 100%. Mas, na verdade, qual a
utilidade de um intervalo, com essa confiana?
EXEMPLO 2.2 Numa cidade com 25000 habitantes considerou-se uma amostra de 1600 pessoas
para estimar a percentagem de eleitores que votavam num certo candidato. Dos 1600 inquiridos, 917
declararam ter a inteno de votar no dito candidato. Determine um intervalo de 95% de confiana para a
proporo de eleitores da cidade que pensam votar no candidato.
Resoluo: Uma estimativa de p p =917/1600=.57. O intervalo de confiana pretendido ser
[.57 - 1.96
1600
43 . 57 .
, .57 + 1.96
1600
43 . 57 .
], ou seja [.55, .59], pelo que o intervalo tem amplitude .04.
Anlise de Dados 48

Qual a dimenso da amostra necessria para reduzir a metade a amplitude anterior? Como
consideramos o mesmo nvel de significncia, vem n
2
2
02
96 1
.
.
9604. Repare-se que neste caso j no
esto satisfeitas as condies para podermos aplicar o modelo Binomial, pois a dimenso da amostra
muito grande, quando comparada com a dimenso da populao.
Interpretao do intervalo de confiana
Ao interpretar o intervalo de confiana deve-se ter em ateno que o que aleatrio o
intervalo e no a percentagem p desconhecida - a variabilidade existe no processo de
amostragem e no no parmetro. Quando se recolhem vrias amostras, o valor de
p

diferente de amostra para amostra, pelo que os limites do intervalo variam.
Ao calcular um intervalo com 95% de confiana (a partir de uma amostra entretanto
recolhida), no significa que a probabilidade do intervalo conter o parmetro .95, j
que o intervalo contm ou no contm o parmetro. Como deve ser interpretado o
intervalo de confiana da seguinte forma: ao recolher 100 amostras da mesma
dimenso e ao calcular os intervalos correspondentes, aproximadamente 95 destes
intervalos contm o parmetro p, enquanto que 5 no o contm,

Anlise de Dados 49

com a
i
=
n
) p 1 ( p
i i
. Na figura anterior representmos 3 intervalos, dos quais 2 contm p,

enquanto um terceiro no contm o valor de p. Chamamos a ateno para que quando
calculamos um intervalo de confiana para a proporo, nunca sabemos se ele contm
ou no o verdadeiro valor da proporo. Estamos confiantes que sim, j que em 95%
das vezes que calculamos esses intervalos, eles contm o valor de p. J seria muito
azar, o nosso intervalo ser um dos 5% de intervalos que no contm o valor de p!
2.3 Estimao do valor mdio. Intervalo de confiana para o valor
mdio
Dada uma populao X, com valor mdio , desconhecido, e desvio padro ,
suponhamos que se pretende estimar o parmetro . J vimos que um bom estimador
para o valor mdio a mdia, pelo que a maneira de proceder a seguinte: recolhe-se
uma amostra de dimenso n da populao a estudar, x
1
, x
2
,, x
n
, e calcula-se a mdia
x =x
i
/n. Este valor considerado como estimativa pontual de .
No entanto, se tivesse sido outra a amostra recolhida, nomeadamente x'
1
,x'
2
,,x'
n
, seria
natural que a estimativa obtida para atravs desta amostra, diferisse da inicialmente
obtida. Qual a confiana que devemos atribuir a uma ou a outra? Surge assim,
intuitivamente, a necessidade de um outro processo, que no s nos fornea o mtodo
de estimar, mas permita simultaneamente saber qual a confiana que devemos atribuir
ao resultado obtido, tal como no caso da proporo.
2.3.1 Intervalo de confiana para o valor mdio - conhecido
Consideremos a populao X com distribuio Normal de parmetros e , em que o
parmetro conhecido. Ento, como vimos no captulo 1, para a distribuio da
mdia, tem-se,
X N(,/ n )
pelo que possvel obter o valor de z tal que
Anlise de Dados 50

P[

|X |
/ n
z] = .95 z=1.96
A probabilidade anterior pode-se escrever
P[ X - 1.96 / n X + 1.96 / n ] = .95
ou seja, [ X -1.96 / n , X + 1.96 / n ] um intervalo aleatrio, que contm o valor
mdio , com uma probabilidade ou confiana igual a .95, ou por outras palavras, se
recolhermos um grande nmero de amostras (de igual dimenso), esperamos que
cerca de 95% dos intervalos [ x -1.96/ n , x + 1.96/ n ] obtidos, contenham ,
enquanto 5% dos intervalos no o contero.
Para considerar um exemplo concreto, admitamos por exemplo, que o peso dos
indivduos do sexo masculino, de 1.65 m de altura, tem distribuio normal com valor
mdio 60 e desvio padro 4. Nas cidades de Lisboa, Porto, Coimbra, Braga e vora
recolheram-se amostras de pesos de 10 indivduos escolhidos ao acaso (com 1.65 m
de altura), tendo-se obtido os seguintes resultados:
Mdia
L 55.9 56.3 56.8 57.2 61.2 61.9 62.5 63.8 64.4 68.2 60.82
P 55.7 55.8 57.0 57.4 59.0 59.5 59.9 60.4 64.2 67.7 59.66
C 53.0 54.6 54.7 54.8 57.6 58.6 62.4 63.5 65.5 66.6 59.13
B 57.3 58.1 58.6 58.7 59.0 61.9 62.6 64.4 64.9 66.7 61.22
E 49.5 50.4 52.8 54.3 55.3 57.0 61.2 62.6 63.2 64.1 57.04
Qualquer uma das mdias obtidas pode ser considerada como estimativa pontual do
valor mdio 60. Pensemos ainda na mediana amostral, como estimador de (nas
distribuies simtricas o valor mdio coincide com a mediana). As estimativas obtidas
para as diferentes amostras seriam:
L 61.55
P 59.25
C 58.10
B 60.45
E 56.15
Anlise de Dados 51

Dispondo os valores obtidos para as mdias e as medianas, num segmento de recta,
verificamos que a mediana apresenta maior variabilidade do que a mdia, em relao
ao valor mdio (embora uma amostra de dimenso 5 no seja significativa!).

Vejamos agora o que se passa com a estimao intervalar. Considerando o intervalo
aleatrio [
10
4
1.96 + X ,
10
4
1.96 - X ], com confiana de 95%, para as amostras
consideradas anteriormente, chegmos aos seguintes resultados:
Cidade x [ x - 2.48 , x + 2.48]
L 60.82 [58.34 , 63.30]
P 59.66 [57.18 , 62.14]
C 59.13 [56.65 , 61.61]
B 61.22 [58.74 , 63.70]
E 57.04 [54.56 , 59.52] ***
Dos intervalos obtidos, conclumos que 4 contm o valor mdio enquanto que um no o
contm (assinalado com ***).
Uma questo que se levanta neste momento a seguinte: o que acontece se exigirmos
um intervalo de confiana com uma probabilidade de 99% em vez de 95%? Facilmente
se conclui, que quanto maior for o nvel de confiana exigido, maior ser a amplitude do
intervalo obtido. Para um nvel de confiana de 99% o intervalo de confiana ser [ X -
2.58 / n , X + 2.58 / n ] e na realidade a amplitude pode ser to grande que deixe de
ter significado o clculo do intervalo. No limite temos um intervalo de amplitude infinita,
mais precisamente R, com uma confiana de 100%!
De um modo geral, dada uma populao N(,), um intervalo de confiana para o
valor mdio, com um nvel de confiana de 100(1-)%, obtm-se considerando
P[ -z
1-/2

X
/ n
z
1-/2
] = 1-
1-/2
o quantil de probabilidade 1-/2, da normal (0,1).
Anlise de Dados 52

A partir da probabilidade anterior conclui-se imediatamente, que o intervalo de
confiana para o valor mdio tem a forma
[ X - z
1-/2
/ n , X + z
1-/2
/ n ]
para uma confiana de 100(1-)%, e qualquer que seja a dimenso da amostra
considerada.
Admitamos agora, que a distribuio da populao de que se pretende estimar o valor
mdio j no normal. Neste caso, as concluses anteriormente obtidas continuam a
ser vlidas, mas exige-se que a dimenso da amostra seja suficientemente grande
(n>30), para ser possvel aplicar o teorema do limite central - os resultados agora no
sero exactos, mas sim aproximados. Resumindo
Dada uma populao N(,) e uma amostra de dimenso qualquer, ou uma amostra de
dimenso suficientemente grande (n>30), no caso de a populao j no ser normal,
conhecido, um intervalo de confiana para o valor mdio, com um nvel de
confiana de 100(1-%, tem a forma
[ X - z
1-/2
/ n , X + z
1-/2
/ n ]
1-/2
o quantil de probabilidade 1-/2, da N(0,1).
Suponhamos ainda que a populao X tem distribuio normal de valor mdio
desconhecido e desvio padro conhecido, ou que a dimenso da amostra
suficientemente grande. Pretende-se determinar para o valor mdio, um intervalo de
confiana com um nvel de confiana de 100(1-)% e cuja amplitude no exceda d.
Qual a dimenso exigida para a amostra? Tendo em conta a forma para o intervalo de
confiana, conclumos ainda, que um processo para diminuir a amplitude do intervalo
de confiana, ser aumentar a dimenso da amostra e essa dimenso ter de ser tal
que:
2 z
1-/2
/ n d ou n ( 2 z
1-/2
/d)
2

Repare-se que da expresso anterior podemos concluir, para j, que a dimenso da
amostra que deve ser recolhida, depende da variabilidade existente na populao.
Anlise de Dados 53

2.3.2 Intervalo de confiana para o valor mdio - desconhecido.
Em todas as concluses obtidas at aqui, no que respeita estimao do valor mdio,
admitimos que o parmetro era conhecido. No entanto na situao mais vulgar, tanto
como so desconhecidos. Para resolver o problema, vamos distinguir dois casos:
a) Se a dimenso da amostra for suficientemente grande (n>30), utiliza-se a estatstica
S como estimador de e o intervalo de confiana, para um nvel de confiana de 100
(1-)% tem a forma
[ X - z
1-/2
S/ n , X + z
1-/2
S/ n ]
1-/2
o quantil de probabilidade 1-/2, da normal (0,1), pois
para n grande, n(X ) /S continua a ter distribuio aproximadamente normal.
b) Se a dimenso da amostra for pequena, mas a populao tem distribuio normal,
ento n(X ) /S j no tem distribuio normal, mas sim a chamada distribuio t de
Student com (n-1) graus de liberdade, como j vimos no captulo 9, no estudo da
distribuio de amostragem da mdia. Nestas condies o intervalo de confiana para a
mdia, para um nvel de confiana de 100(1-)%
[ X - t
1-/
2
(n-1) S/ n , X + t
1-/
2
(n-1) S/ n ]
onde representamos por t
1-/
2
(n-1) o quantil de probabilidade 1-/2, da distribuio t
de Student, com n-1 graus de liberdade. Esta distribuio, assim como a normal,
encontra-se tabelada.
Convm ainda observar que a distribuio t-Student se aproxima da distribuio normal
reduzida, medida que o nmero de graus de liberdade aumenta. Assim, tem toda a
propriedade utilizar a aproximao feita em a), para grandes amostras.
Observao Para usar o modelo de Student, necessrio que a populao seja
Normal. Na prtica, suficiente que os dados sejam provenientes de uma populao
unimodal e simtrica, se a dimenso da amostra for superior a 15 (De Veaux and al,
2004).
Anlise de Dados 54

Qual a dimenso da amostra necessria para que o intervalo de confiana tenha
alguma utilidade?
J anteriormente definimos margem de erro (ME), como sendo metade da amplitude do
intervalo de confiana e dissemos que quanto menor for a margem de erro, maior ser
a preciso, mas menor ser a confiana, para uma mesma dimenso da amostra.
Qualquer intervalo de confiana uma soluo de compromisso entre confiana e
preciso. Ento o que se faz fixar a confiana em determinados valores, tais como
90%, 95% ou 99% e recolher uma amostra de dimenso tal que mantenha a margem
de erro dentro de certo limite. Considerando ento determinados valores para a
margem de erro e para a confiana, vejamos qual a dimenso da amostra necessria:
ME = t
1-/
2
(n-1) s/ n
de onde
n= (t
1-/
2
(n-1) s/ME)
2

Na expresso anterior podemos fixar um determinado valor para a margem de erro ME,
mas estamos perante algumas situaes problemticas. No conhecemos s, antes de
termos recolhido a amostra e precisamente queramos conhecer n para recolher a
amostra! Normalmente o que se faz nestes casos fazer um estudo piloto que nos d
uma ideia do valor de s. Alis esta situao idntica que j nos deparmos quando
do estudo do intervalo de confiana para a proporo ou probabilidade p, em que era
necessrio conhecer umaa estimativa de p. E no que diz respeito ao valor de t
1-/
2
(n-
1)? Novamente precisamos de conhecer n para calcular o valor do quantil de
probabilidade (1-/
2
) de uma t-Student com (n-1) graus de liberdade! Neste caso o que
se pode fazer substituir o quantil da t-Student pelo quantil z
1-/
2
da N(0,1) e ver qual
o valor que vem para n. Se este valor for suficientemente grande, podemos utiliz-lo
como dimenso da amostra a recolher, j que os quantis da t-Student e da Normal(0,1)
so idnticos. Caso contrrio, utilizamo-lo para obter o quantil da t-Student e
posteriormente recalcular o valor (de n) a partir da frmula respectiva.
Anlise de Dados 55

EXEMPLO 2.3 Uma mquina est afinada para produzir peas de um certo comprimento. Todavia,
observa-se uma certa variao de comprimento de uma pea para outra, podendo tal comprimento ser
considerado uma varivel aleatria normal.
a) Suponha que foi extrada uma amostra de 16 peas, tendo sido medido o comprimento de cada uma.
Os resultados obtidos foram os seguintes:
x
i
= 80 cm x
i
2
= 535 cm
2

Determine um intervalo de 95% de confiana para o valor mdio do comprimento das peas.
b) Admita que o verdadeiro valor da varincia igual estimativa obtida naquela amostra. Determine
novo intervalo de confiana, com esta informao adicional. Que concluses tira?
c) Repita a alnea b) admitindo que a amostra recolhida tinha dimenso 25.
Resoluo:
n=16 x =

80
16
= 5 s
2
=

535
15
-

16 25
15
= 9
t
.975
(15) = 2.131
a) Intervalo de confiana [5 - 2.131
4
3
, 5 + 2.131
4
3
] = [3.40, 6.60]
b) Intervalo de confiana [5 - 1.96
4
3
, 5 + 1.96
4
3
] = [3.53,6.47]
O intervalo de confiana agora calculado tem uma amplitude inferior do calculado na alnea a), o que
seria de esperar pois dispomos de mais informao.
c) Intervalo de confiana [5 - 1.96
5
3
, 5 + 1.96
5
3
] = [ 3.82, 6.18]
A amplitude do intervalo inferior do intervalo calculado na alnea b) pois considermos ainda mais
informao ao dispormos de uma amostra de maior dimenso.
EXEMPLO 2.4 Numa rua que passa frente de uma escola, chamada Rua Nova, existe uma
passadeira para os pees e um sinal a limitar a velocidade a 50 km por hora. No entanto, a maior parte
das vezes, os carros nem sequer abrandam! A polcia, frequentemente, coloca um radar para controlar a
velocidade e motivar ao cumprimento daquela regra de trnsito. Os pais das crianas que no
acreditam que esta medida seja suficiente e pretendem que seja colocado um semforo, que passa a
encarnado com velocidade superior aos 50 Km/h. Para poderem ter argumentos perante as instncias
camarrias, resolvem fazer um controlo de velocidades e num certo dia til, pensam recolher as
velocidades mdias de alguns dos carros que passarem. Quantos carros devem observar, para obterem
um intervalo de confiana de 95%, cuja margem de erro no ultrapasse 2 Km?
Anlise de Dados 56

Resoluo: Para determinar a dimenso da amostra a recolher, necessrio ter uma ideia de como
que se distribuem as velocidades, nomeadamente se a distribuio dos dados unimodal e simtrica.
Alm disso necessrio ter um valor aproximado para a variabilidade. Suponhamos ento que se
recolheu uma amostra piloto, para recolher a informao necessria:
50 48 57 57 43 50 48 63 52 42 57 53
52 45 62 48 43 40 57 60 52 57 60 35
O histograma que fizmos dos dados mostra que a distribuio unimodal e aproximadamente simtrica.
No temos razes que nos levem a duvidar da independncia dos dados (estamos a admitir que a
recolha dos dados no se fez em hora de ponta...).

Para a varincia amostral obtivmos o valor de s=7.33. Consideranto o quantil de probabilidade 0.975 da
normal, que igual a 1.96, temos
n=
2
)
2
33 . 7 96 . 1
(
= 51.5
donde necessitamos de uma amostra de dimenso 52. Refazendo os clculos para a determinao da
dimenso da amostra, considerando agora o quantil da t-Student com 51 graus de liberdade, que igual
a 2.008, obtivmos para n o valor de 54.
Facilmente se verifica que a margem de erro do intervalo de 95% de confiana, construdo com os dados
recolhidos para a amostra piloto, de 3 Km.
Exerccios
1. Uma fbrica produz peas, havendo uma certa percentagem de defeituosas. O departamento de
controlo de qualidade recolheu uma amostra de 30 peas, encontrando 4 defeituosas. Determine um
intervalo de 95% de confiana para a percentagem de peas defeituosas produzidas pela dita mquina.
Qual a dimenso da amostra necessria para obter um intervalo com 95% de confiana, cuja amplitude
no exceda .1?
2. Perguntou-se a cada um dos 80 estudantes de um determinado curso, qual o seu grau de satisfao
relativamente ao curso que frequenta. Obtiveram-se os seguintes resultados:

NS MB B S NS NS SP SP
NS B NS NS SP B B MB
SP NS NS MB SP B NS B
Anlise de Dados 57

SP S SP SP NS NS SP S
MB S B MB NS S S S
SP S B NS S S SP B
B B MB NS B S NS NS
B S MB S MB NS MB SP
S S NS B MB NS MB NS
B MB SP MB S SP SP MB
NS-"No Satisfaz"; SP-"Satisfaz Pouco; S-"Satisfaz"; B- "Bom"; MB- "Muito Bom".
a) Faa uma representao grfica adequada para os dados e indique uma caracterstica amostral.
b) Admitindo que as opinies destes estudantes so representativas das opinies dos estudantes dos
outros cursos, construa um intervalo de 95% de confiana para a probabilidade de um estudante,
escolhido ao acaso, ter uma opinio positiva (Satisfaz, Bom ou Muito Bom) sobre o curso em que est
inscrito.
3 . Um inqurito realizado a 100 potenciais compradores de um carro novo para o prximo ano, revelou
que esto dispostos a pagar em mdia 14750 euros, com um desvio padro de 4250 euros.
a) Calcule um intervalo de 95% de confiana para a quantia mdia que os compradores esto dispostos a
pagar.
b) Foi posto venda um novo tipo de carro, ao preo de 22500 euros. Ser que este valor excede
significativamente o que os compradores pretendem gastar em mdia?
4. Ao Instituto para a defesa do consumidor tm sido apresentadas queixas, dizendo que as embalagens
de determinado produto congelado tm menos peso do que o indicado nas embalagens. Uma recolha
preliminar de 40 destas embalagens indicou um peso mdio de 975 gramas, com um desvio padro de
85 gramas. Quantas embalagens devem ser examinadas, de forma a obter uma estimativa do peso
mdio com erro inferior a 25 gramas, com uma confiana de 95%?
5. Os seguintes dados representam o tempo de reaco (em segundos), de 42 indivduos, a um estmulo
luminoso :
13.8 19.1 20.4 21.8 22.3 24.0 24.6 25.2 26.1 26.5 26.6 28.7
28.8 30.2 31.2 31.7 31.7 33.6 34.6 34.8 35.4 36.0 36.3 36.8
37.1 38.1 40.3 40.4 41.8 42.2 42.4 43.7 43.8 44.0 44.4 44.6
46.5 48.1 49.9 50.0 50.2 56.4
a) Determine as seguintes caractersticas amostrais : mdia, varincia, mediana, Q
3/5

e Q
5/14
.

b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente
aos dados.
c) Construa um intervalo de 99% de confiana para o tempo mdio de reaco.
6. Os seguintes dados representam o tempo de CPU (em segundos), gastos por um programa que utiliza
um determinado software de estatstica :
6.2 5.8 4.6 4.9 7.1 5.2 4.4
8.1 3.2 3.4 4.4 8.0 7.9 3.1
6.1 5.6 5.5 3.1 6.8 4.6 7.8
Anlise de Dados 58

3.8 2.6 4.5 4.6 7.7 3.8 2.9
4.1 6.1 4.1 4.4 5.2 1.5 5.6
a) Determine as seguintes caractersticas amostrais : mdia, varincia, mediana , Q
2/5
e Q
3/4
.

b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente
aos dados.
c) Admitindo a normalidade dos dados, construa um intervalo de 95% de confiana para o valor mdio dos
tempos de CPU gastos pelo programa.
7 . Recolheu-se uma amostra de 40 alunos a frequentarem o tronco comum de Matemtica Aplicada no ano
lectivo de 98/99, tendo-se verificado que 10 destes alunos frequentam o curso em 1 opo.
Com base nos resultados determine um intervalo de 95% de confiana para a verdadeira percentagem
de estudantes do 1 ano que efectivamente escolheram o curso em 1 opo.
Se pretendesse reduzir a metade a amplitude do intervalo obtido anteriormente, com uma amostra da
mesma dimenso, qual o maior nvel de confiana com que devia trabalhar?
Se recolhesse 200 amostras de dimenso 40, a partir das quais construsse outros tantos intervalos de
confiana, quantos destes intervalos esperaria que contivessem o verdadeiro valor da percentagem de
estudantes que frequentam o curso em 1 opo?
8. Verifique que o intervalo de 90% de confiana para os dados do exemplo 4 [47.9km; 54.1km]. Explique,
porque que no correcto dizer o seguinte (Adaptado de De Veaux and al, 2004):
a) 90% de todos os veculos que passam na Rua Nova, vo a uma velocidade entre 47.9km e 54.1km.
(Res: O intervalo de confiana diz respeito velocidade mdia dos veculos e no velocidade de cada
um dos veculos).
b) Temos uma confiana de 90% de que um veculo seleccionado aleatoriamente, v a uma velocidade
entre 47.9km e 54.1km. (Res: Como no caso anterior, estamos a referir-nos a um nico veculo, quando,
na verdade, estamos 90% confiantes que o intervalo [47.9km; 54.1km] contenha a velocidade mdia de
todos os veculos que passam na Rua Nova).
c) A velocidade mdia dos veculos, 51km, 90% do tempo. (Res: esta afirmao d a ideia que a
verdadeira velocidade mdia varia, quando o que varia o intervalo, que ser diferente, sempre que
recolhermos uma amostra diferente).
d) 90% de todas as amostras tm velocidades mdias entre 47.9km e 54.1km. (Res: Esta afirmao d a
ideia de que este intervalo goza de algum privilgio, relativamente a outros. De facto, este intervalo to
bom ou to mau, como qualquer dos outos. O que deveremos dizer que 90% de todas as possveis
amostras permitem construir intervalos que contm a velocidade mdia. Nunca saberemos se o nosso
intervalo um dos que contm ou no).

Anlise de Dados 59

Introduo aos testes de hipteses 3

Introduo aos testes de hipteses. Hiptese nula e hiptese alternativa. Estatstica de
teste. Regio de rejeio e de no rejeio. Nvel de significncia de um teste. P-value.
Testes de hipteses sobre a proporo e sobre o valor mdio e sobre.

3.1 Introduo
J vimos um processo de fazer inferncia estatstica - a estimao, em que utilizmos o
modelo Binomial e o modelo Normal. Vamos ainda utilizar o modelo Binomial num outro
tipo de inferncia estatstica a que chamamos testes de hipteses.
O objectivo dos testes de hipteses, determinar se uma dada conjectura ou hiptese
que fazemos acerca de uma populao, plausvel, isto , tem razo de ser.
Precisamente esta plausibilidade calculada com base na informao obtida a partir de
uma amostra da populao.
EXEMPLO 3.1 (Teaching Statistics, vol 15, n1, 1993) Um professor chega um dia aula e
resolve pr a seguinte questo: - H aqui algum aluno que consiga distinguir, pelo sabor, a Coca-Cola da
Pepsi-Cola?
Um estudante diz que sim, que consegue distinguir, embora o professor pense que ele efectivamente no
o consegue, e se acertar, por acaso. Depois de alguma discusso em que o aluno afirma que consegue
distinguir e o professor diz que ele est a fazer "bluf", resolvem fazer uma aposta, em que apostam uma
certa quantia.
Algumas questes que se levantam, relativamente a este problema, so:
1 - Com que probabilidade consegue o estudante distinguir entre a Coca e a Pepsi?
2 - Qual o critrio que se utiliza para ver quem o vencedor?
3 - Usando o critrio, a definir em 2:
a) Qual a probabilidade do estudante perder, mesmo que tenha razo? ( o estudante pode
ter acordado mal disposto, estar nervoso, pouco concentrado, )
Anlise de Dados 60

b) Qual a probabilidade do estudante ganhar a aposta, se de facto adivinhou, mas
efectivamente no consegue distinguir entre a Coca e a Pepsi e responde ao acaso (foi uma
questo de sorte)?
4 - Quo pequenas devem ser as probabilidades em 3, para que cada um dos apostadores no esteja a
correr um risco muito grande?
A perspectiva de levar a cabo a experincia na turma, em frente de toda a gente, deveras intimidante,
pelo que no de esperar que o voluntrio consiga distinguir as duas bebidas 100% das vezes. De modo
geral o estudante estabelecer essa probabilidade entre 0.7 e 0.8 como realstica. Para o
prosseguimento da nossa experincia, vamos admitir que de 0.7.
Temos agora de delinear a experincia e determinar o critrio de sucesso para o estudante.
Depois de algumas discusses na aula, o voluntrio concorda em provar 15 copos de bebida e dizer se
cada uma Coca ou Pepsi. De acordo com a probabilidade estabelecida anteriormente, para cada prova
ele ter uma probabilidade de 70% de dar a resposta correcta.
Qual o critrio justo, que se deve considerar, para admitir que o estudante tem razo? Ou antes, qual o
critrio justo, que se deve considerar, para que as duas pessoas que apostaram no estejam a correr um
risco demasiado grande?
Idealmente, gostaramos que o risco que correm os dois apostadores fosse aproximadamente igual, isto
, as probabilidades consideradas em 3. deveriam ser aproximadamente iguais.
Com o objectivo de estabelecer um critrio, o voluntrio sugere que pelo menos 10 respostas certas
significa que tem razo.
Ento, P(estudante ganhar a aposta, sabendo distinguir as bebidas) =
= P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .7) =
=
15
10 i
i 15 i
.3 ).7
i
15
( = .722
de onde
P(estudante perder a aposta, sabendo distinguir as bebidas) = 1 - .722 = .278
Esta probabilidade de .278 o risco que o estudante corre.
Qual o risco que o professor corre?
O professor est interessado em calcular a probabilidade de perder o seu dinheiro, se o estudante se
limitou a adivinhar e efectivamente no consegue distinguir a Coca da Pepsi. Esta probabilidade :
P(professor perder a aposta, se o estudante no sabe distinguir as bebidas) =
Anlise de Dados 61

P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .5) =
=
15
10 i
i 15 i
.5 ).5
i
15
( = .151
Esta probabilidade de .151 o risco que o professor corre.
Nestas circunstncias estaro eles dispostos a apostar? E se se aumentar o n de respostas correctas
como critrio de ganho ou perca?
1 - Se se aumentar o n de respostas correctas necessrias, a probabilidade do estudante perder,
embora estando convencido que consegue distinguir, aumenta.
Obs: Se o n de respostas correctas necessrias fosse k (>10), ento o risco que o estudante corria seria
P(n de respostas certas < k) > P(n de respostas certas < 10)(= .278)
2 - Por outro lado, aumentando o n de respostas correctas necessrias, a probabilidade do professor
perder, se o estudante se limita a adivinhar, diminui.
Obs: Se o n de respostas correctas necessrias fosse k>10, ento o risco que o professor corria seria
P(n de respostas certas k) < P(n de respostas certas 10)(= .151)
Assim, modificando o critrio, estamos a aumentar a probabilidade de um dos tipos de erro e a diminuir a
probabilidade do outro tipo de erro.
3 - Sob a hiptese de que a capacidade de deciso (gustativa) do estudante continua em forma,
aumentando a dimenso da amostra, talvez se consigam diminuir estas probabilidades dos dois tipos de
erros.
Por exemplo, se o n de provas for 20 e o critrio para ganhar for de 12 respostas correctas pelo menos,
recalculando as probabilidades de cometer os dois tipos de erros, ou sejam, de correr os dois tipos de
risco so 0.113 e 0.252, respectivamente, para o estudante e o professor.
Se o professor for um "bom desportista" este critrio razovel, se a quantidade de dinheiro posta em
jogo no for grande.
Este exemplo servir para introduzir os conceitos formais de testes de hipteses, erros
de tipo 1 e tipo 2 e as notaes associadas com os procedimentos estatsticos. No
entanto vamos antes disso, dar outros exemplos de aplicao de testes de hipteses.
Anlise de Dados 62

3.2 Outros exemplos
EXEMPLO 3.2 Numa fbrica de determinadas peas, um lote destas peas considerado aceitvel se
tem menos de 8% de peas defeituosas. J que os lotes tm um grande nmero de peas, sairia muito
caro inspeccionar todas essas peas. A deciso a favor de no rejeitar o lote ser tomada no caso de
uma amostra a retirar do lote, dar indicao nesse sentido.
EXEMPLO 3.3 Supe-se que os estudantes so a favor da avaliao contnua, isto , mais de 50%
dos estudantes preferem a avaliao contnua. Para verificar se existem indcios de que esta hiptese
no seja verdadeira, recolhe-se uma amostra de estudantes, registando-se o n de respostas a favor.
EXEMPLO 3.4 - Um fabricante afirma na garantia que acompanha as lmpadas que fabrica, que o
tempo mdio de vida superior a 450 horas. Ultimamente alguns clientes tm-se queixado das referidas
lmpadas. Para testar se os clientes tm razo, recolheu-se uma amostra de algumas lmpadas,
registando-se o tempo de vida (utilizando os chamados testes de vida acelerados, que provocam a falha
mais rapidamente).
Todos estes exemplos que acabamos de referir, tm algumas caractersticas comuns:
Consideram-se duas hipteses complementares acerca de uma quantidade
desconhecida da populao.
a informao disponvel dada pela amostra que se recolheu da populao
em estudo.
pretende-se verificar se uma das hipteses a que damos mais importncia,
sustentada ou rejeitada pela informao recolhida da amostra.
No caso 3.2, por exemplo, as hipteses a testar so de que o lote aceitvel - p.08,
ou no - p>.08. O que se pretende verificar que no temos razes para rejeitar a
hiptese de que p.08.
No caso 3.3, temos as hipteses p.5 e p<.5. O que se pretende testar se h alguma
razo para rejeitar p.5.
Anlise de Dados 63

3.3 Hiptese nula e Hiptese alternativa; erros de tipo 1 e tipo 2;
estatstica de teste; regio de rejeio
Num teste estatstico temos duas hipteses em alternativa, a que chamamos hiptese
nula (H
0
) e hiptese alternativa (H
1
), sobre um parmetro desconhecido da
populao. A hiptese nula a hiptese que reflecte a situao em que no h
mudana, sendo pois uma hiptese conservadora e aquela em que temos mais
confiana (resultado de uma experincia passada).
O objectivo de um teste de hipteses o de tomar uma deciso, no sentido de
verificar se existem razes para rejeitar ou no a hiptese nula. Esta deciso baseada
na informao disponvel, obtida a partir de uma amostra, que se recolhe da populao.
No caso em estudo vamos considerar as hipteses
H
0
: O estudante consegue distinguir contra(versus) H
1
: O estudante no
Coca da Pepsi consegue distinguir
Estas hipteses podem-se exprimir em termos da probabilidade de o estudante dar uma
resposta correcta
H
0
: p= .7 contra H
1
: p=.5
A amostra recolhida tem dimenso 15 e vamos utilizar como informao relevante, o n
de respostas correctas, nas 15 provas. Seja X a varivel aleatria que representa esse
nmero. esta v.a. que vai permitir tomar uma deciso, recebendo o nome de
estatstica de teste.
Ao tomar uma deciso podemos cometer dois tipos de erros:
Decidir que o estudante no consegue distinguir, quando efectivamente ele
consegue, isto , Rejeitar H
0
, quando H
0

verdadeiro;
Decidir que o estudante consegue distinguir, quando efectivamente ele no
consegue e responde ao acaso, isto , No rejeitar H
0
, quando H
1

verdadeiro .
Ao primeiro erro chamamos erro de tipo 1 e ao segundo, erro de tipo 2. Estes erros so
contabilizados em termos de probabilidade.
Anlise de Dados 64

O nvel de significncia do teste representa-se por e o valor mximo para a
probabilidade de cometer o erro de tipo 1:
P(Rejeitar H
0
| H
0
verdadeiro)
A probabilidade de cometer o erro de tipo 2 representa-se por
P(No rejeitar H
0
| H
1
verdadeiro) =
O risco que o estudante corre , enquanto que o risco que o professor corre .
O seguinte quadro reflecte a situao verificada quando se realiza um teste de
hipteses:

Na escolha do teste, o nosso objectivo controlar o erro de tipo 1, ou seja .
No caso do exemplo o nosso critrio de deciso baseou-se na seguinte regra de
deciso:
Rejeitar H
0

se X<10
Considerando a regra anterior vimos que = .2784.
Poderamos considerar o problema de outra forma, isto , partir de um determinado
nvel de significncia, e determinar os valores de X que levavam rejeio de H
0
.
Suponhamos que pretendamos realizar o teste para o nvel de significncia de 10%.
Os valores possveis para X v.a. que representa o n de respostas correctas, so
Anlise de Dados 65

todos os inteiros entre 0 e 15. Destes, pretendemos saber quais os que levam a rejeitar
H
0
, de modo que o que pretendemos saber qual o valor de c, tal que
P(X c | X B(15, .7)) 0.10
Obs: Atendendo s hipteses consideradas somos levados a rejeitar a hiptese nula
quando o n de respostas correctas do estudante for pequeno (X c).
Consultando uma tabela da Binomial com parmetros 15 e 0.7, verificamos que
P(X 8) = .1311
P(X 7) = .0500
Ento rejeitamos H
0
quando o n de respostas correctas for 7. Mas para esta regio
de rejeio a probabilidade de cometer o erro de tipo 2
P(X 8 | X B(15, .5)) = .5, o qual muito grande!
3.4 Testes de hipteses para a proporo p
O exemplo apresentado anteriormente um caso particular de testes de hipteses para
a proporo p, que vamos formalizar seguidamente.
Suponhamos que temos uma populao constituda por indivduos que pertencem a
uma de duas categorias, que representamos por A e A
C
. Representemos por p a
proporo (desconhecida) de indivduos que pertencem categoria A. Pretendemos
fazer inferncia sobre o parmetro p, pelo que se recolhe da populao uma amostra
de dimenso n. A estatstica de teste que vamos utilizar, para tomar uma deciso, X -
v.a. que representa o n de indivduos da amostra que pertencem categoria A. Na
formalizao dos testes representamos por p
0
o valor da proporo, que se pretende
testar.
Os testes que vamos realizar so os seguintes:
Anlise de Dados 66


1.
H
0
: p = p
0
contra H
1
: p > p
0

Rejeitamos H
0
quando for elevado o n de indivduos da amostra pertencentes
categoria A, ou seja quando Xx
. (Se H
1
verdadeiro, ou seja, p > p
0
, caso em que
devemos rejeitar H
0
, ento esperamos encontrar na amostra "muitos" indivduos
pertencentes categoria A. Entendemos por "muitos", um nmero de indivduos volta
de np, que superior aos que esperaramos encontrar caso fosse H
0
verdadeiro, ou
seja np
0
).

A determinao do ponto crtico x

deve fazer-se tendo em ateno o nvel de
significncia , ou seja, vamos calcular o menor inteiro x

tal que
P[ X x
| X B(n, p
0
)]
isto , a regio de rejeio R constituda pelos pontos:
R = { x x
| [ (
n
i
)p
0
i
(1 p
0
)
ni
i =x
] e [ (
n
i
)p
0
i
(1 p
0
)
n i
i =x
1
n
]>}
Obs: A hiptese nula pode-se exprimir na forma pp
0
, j que se obtm um teste
equivalente.
2.
H
0
: p = p
0
contra H
1
: p < p
0

Rejeitamos H
0

quando for pequeno o n de indivduos da amostra pertencentes
categoria A, ou seja quando Xx'
.
0
n x
R
'

A determinao do ponto crtico x'

significncia , ou seja, vamos calcular o maior inteiro x'

tal que
Anlise de Dados 67

P[ X x'
| X B(n, p
0
)]
R = { x x'
| [ (
n
i
)p
0
i
(1 p
0
)
n i
i = 0
x'
] e [ (
n
i
)p
0
i
(1 p
0
)
ni
i =0
x'
+1
]>}
Obs: A hiptese nula pode-se exprimir na forma pp
0
, j que se obtm um teste
equivalente.
3.
H
0
: p = p
0
contra H
1
: p p
0

Rejeitamos H
0
quando for pequeno ou elevado o n de indivduos da amostra
pertencentes categoria A, ou seja quando Xx'
ou Xx
.
0
n x
R
' x
R

A determinao dos pontos crticos x'

e x

significncia . Alm disso vamos considerar o chamado teste equilibrado, isto ,
atribuir a cada uma das partes da regio de rejeio, uma probabilidade igual a metade
do nvel de significncia:
P[ X x'
| X B(n, p
0
)] /2
e
P[ X x
| X B(n, p
0
)] /2
R = { x x'

ou x x
| [ (
n
i
)p
0
i
(1 p
0
)
n i
i = 0
x'
] /2 e [ (
n
i
)p
0
i
(1 p
0
)
ni
i =x
]/2}
Dos trs tipos de testes considerados anteriormente, os dois primeiros dizem-se
unilaterais, enquanto que o ltimo se chama bilateral.
EXEMPLO 3.5 Uma fbrica produz determinado tipo de peas, e sabe-se que a percentagem de
defeituosas de 20%. O director da linha de montagem procedeu a algumas alteraes no equipamento,
Anlise de Dados 68

com o objectivo de melhorar a produo, diminuindo nomeadamente a percentagem de peas
defeituosas. Tendo-se recolhido uma amostra de 20 peas, verificou-se que 2 eram defeituosas. Ser
que h evidncia de mudana na percentagem de peas defeituosas?
Resoluo:
H
0
: p .20 contra H
1
:p < .20
Pretende-se determinar o valor de x'

tal que
P[ X x'
| X B(20, .20)]
Consultando uma tabela da Binomial, verificamos que
P(X 0) = .0115
P(X 1) = .0692
P(X 2) = .2061
donde conclumos que:
Se = 5% R={0}
Se = 10% R={0,1}
Deciso: Para os nveis usuais de significncia, no se deve rejeitar H
0
, isto no h evidncia de ter
havido alterao (para melhor) no processo de fabrico.
3.4.1 Determinao dos pontos crticos x'

e x

para grandes amostras
A determinao dos pontos crticos x'

e x
dos testes anteriores, pode fazer-se

consultando as tabelas com a distribuio Binomial. Pode no entanto acontecer que o
valor de n seja demasiado grande, e j no conste nessas tabelas. Ento faz-se uma
aproximao Normal, como se descreve a seguir.
Tendo em considerao o teorema do limite central, sabe-se que a distribuio Binomial
pode ser aproximada pela distribuio Normal, isto , se X B(n,p), ento
P(X x) (
x np
np(1 p)
)
Considera-se a estatstica de teste
Z =
)
0 0
0
p (1 np
np X

Anlise de Dados 69

cuja distribuio pode ser aproximada por uma Normal(0,1) e a determinao dos
pontos crticos, para os trs tipos de testes considerados anteriormente, faz-se da
seguinte forma:
1. P[ X x
| X B(n, p
0
)] sendo x

o menor inteiro tal que
x
1+np
0
+z
1-
)
0 0
p (1 np
2. P[ X x'
| X B(n, p
0
)] sendo x'

o maior inteiro tal que
x'
np
0
+z
)
0 0
p (1 np

ou x'
np
0
- z
1-
)
0 0
p (1 np
3. P[ X x'
| X B(n, p
0
)] /2 e P[ X x
| X B(n, p
0
)] /2
x'
np
0
- z
1-/2
)
0 0
p (1 np e x
1 + np
0
+ z
1-/2
)
0 0
p (1 np
(x'

maior inteiro e x

menor inteiro satisfazendo respectivamente cada uma das
desigualdades anteriores).
Observao Uma alternativa, equivalente, estatstica de teste X, com distribuio
aproximadamente Normal(np
0
, )
0 0
p (1 np
), sob H
0
, a estatstica
n
X
= p
)
, com
distribuio aproximadamente N(p
0
,
n
) p (1 p
0 0
).

3.4.2 P-value (valor-p)
Ao realizar um teste de hipteses, podemos partida no ter especificado um nvel de
significncia. Ento, um processo alternativo para a realizao dos testes anteriores ,
face ao valor observado x
0
da estatstica de teste X, calcular a seguinte probabilidade:
Caso 1 : P = P[X x
0
|X B(n, p
0
)]
Caso 2 : P = P[X x
0
|X B(n, p
0
)]
Caso 3 : P = 2 min {P[X x
0
|X B(n, p
0
)],P[X x
0
|X B(n, p
0
)]}
Esta probabilidade P o menor valor para o nvel de significncia que levaria rejeio
da hiptese nula, para a amostra recolhida. A P chamamos P-value. Assim, para
Anlise de Dados 70

tomarmos uma deciso, calcula-se o P-value e para um dado nvel de significncia ,
rejeita-se a hiptese nula se
P
A metodologia seguida neste caso diferente da seguida anteriormente, em que para
tomarmos uma deciso era necessrio especificar partida o nvel de significncia com
que pretendamos realizar o teste, de forma a calcular a regio de rejeio. Se o valor
observado da estatstica de teste pertencesse a essa regio ento rejeitaramos a
hiptese nula. Agora calculamos o P-value e no necessrio calcular explicitamente a
regio de rejeio, pois se para um determinado nvel de significncia se verifica que
P, isto significa necessariamente que o valor observado da estatstica de teste
pertence regio de rejeio.
3.5 Vamos conversar acerca de testes
Ao longo deste texto j temos referido vrias vezes que objectivo da Estatstica
arranjar modelos probabilsticos que sirvam para modelar situaes do mundo real. Ao
formular uma hiptese (hiptese nula), como as que formulmos anteriormente, no
estamos mais que a propor um modelo para uma situao real. Uma vez o modelo
proposto, vamos recolher informao - os dados, para averiguar da consistncia do
modelo. Ento, defrontamo-nos com duas situaes:
ou os dados so consistentes com o modelo, e nesse caso no vemos razo
para o rejeitar,
ou os dados contradizem fortemente o modelo, e neste caso pensamos que h
evidncia para o rejeitar.
Repare-se que na primeira situao, no dissemos que os dados mostravam que a
hiptese verdadeira! S dissmos que no vamos razo para a rejeitar. Esta situao
anloga que se passa nos tribunais tem que se comear por admitir a presuno
de inocncia e cabe ao juiz, mostrar que os factos contradizem esta presuno, para
admitir a culpabilidade. Na segunda situao, dissmos que pensamos que h
evidncia para rejeitar o modelo. Mas fica-nos sempre a dvida se deveremos tomar
Anlise de Dados 71

essa opo, j que rejeitar o modelo proposto, se ele fosse efectivamente verdadeiro,
pode acarretar grandes prejuzos. Ento precisamos de quantificar essa deciso e essa
quantificao feita probabilisticamente. Assim, calculamos a probabilidade de obter
dados como os recolhidos, baseando-nos em que o modelo verdadeiro. Se esta
probabilidade for muito pequena, pensamos que no foi s o acaso, isto a
aleatoriedade presente na recolha da informao, que nos levou a obter aqueles dados,
mas naturalmente o prprio modelo que no o correcto, pois essa probabilidade
demasiado pequena, para ser verdade, e rejeitamos esse modelo. Esta tal
probabilidade p-value, d-nos uma medida do erro que cometemos ao rejeitar o
modelo proposto, e quanto menor for, maior ser a evidncia contra o modelo.
Assim, quando no rejeitamos a hiptese nula, ficamos sempre na dvida, sobre se ter
sido o teste que no teve capacidade para a rejeitar, mesmo sendo ela falsa. Justifica-
se, assim, que se procure calcular a probabilidade de se rejeitar a hiptese nula,
quando ela falsa, isto , P(RejeitarH
0
H
1
verdadeira). A esta probabilidade chama-se
potncia do teste. Repare-se que para um determinado valor do parmetro
especificado na hiptese alternativa:
Potncia do teste = 1 P(erro de tipo 2)
Ento, de um modo geral, podemos dizer que pretendemos um teste com nvel de
significncia pequeno e potncia grande.
Para visualizar melhor a relao entre estes conceitos, vamos colocar-nos na situao
de estarmos a realizar o seguinte teste:
H
0
: p=p
0
contra H
1
: p>p
0

Rejeitamos H
0
para valores grandes de X ou de forma equivalente, para valores
grandes de
n
X
p =
)
, nomeadamente para valores de p
)
p
)
, onde
p
)
=
n
x
, utilizando
notao j introduzida anteriormente.
Se n for grande, a distribuio da estatstica de teste aproximada pela Normal, pelo
que temos:
Anlise de Dados 72


Na figura anterior apresentamos a distribuio da estatstica de teste, para o caso de H
0

ser verdadeira (Normal superior) e para um valor especfico do parmetro (p), no caso
de ser H
1
verdadeira (Normal inferior). A regio de rejeio dada pelo intervalo [
p
)
,
1]. Algumas concluses so evidentes da figura anterior:
Quanto mais
p
)
estiver para a direita, isto , menor for o nvel de significncia do
teste, ou a probabilidade de cometer o erro de tipo 1, maior ser a probabilidade
de cometer o erro de tipo 2. Assim, no possvel minimizar os dois erros ao
mesmo tempo, a no ser aumentando a dimenso da amostra. Efectivamente, se
se aumentar a dimenso da amostra recolhida, as normais ficam mais magras,
j que a varincia diminui;
Quanto menor for o erro de tipo 2, maior ser a potncia do teste;
No caso de H
0
ser falsa, a potncia do teste ser tanto maior, quanto mais
afastado de p
0
, estiver o verdadeiro valor da proporo p (a Normal de baixo
afasta-se para a direita).
Anlise de Dados 73

Formalizando um pouco o que dissmos anteriormente, para realizar um teste de
hipteses, em que as hiptese so quase sempre sobre parmetros de modelos,
necessrio:
Formular uma hiptese nula H
0
, que aquela que reflecte a situao em que no
h mudana e em que assumimos um valor para o parmetro no modelo
proposto, e uma hiptese alternativa H
1
, que reflecte a situao que pensamos
ser verdadeira, no caso de no o ser a hiptese nula;
Arranjar uma estatstica de teste, que sirva para medir a discrepncia entre o que
se observa nos dados e o que se espera quando se considera a hiptese nula
(isto , uma estatstica cuja distribuio de amostragem seja conhecida no caso
da hiptese nula ser verdadeira, pois a discrepncia medida em termos de
probabilidade);
Face amostra que entretanto se recolheu, calcular o p-value;
Tomar uma deciso, que se exprimir na seguinte forma:
Rejeitar H
0
, para o nvel de significncia ou
No rejeitar H
0
para o nvel de significncia .
Se tivermos possibilidade de escolher entre vrios testes, ento para o mesmo
nvel de significncia, deve-se escolher o de potncia mxima;
Se tivermos possibilidade de recolher amostras de dimenso maior, melhor ser,
pois reduzimos as probabilidades de cometer erros, ao tomar uma deciso,
aumentando tambm a potncia do teste.

Anlise de Dados 74

3.6 Testes de hipteses sobre o valor mdio
Da mesma forma que realizmos testes de hipteses sobre o parmetro p, tambm se
podem realizar sobre o valor mdio , desconhecido, de uma populao. A metodologia
a seguir a mesma, mas agora temos de considerar outra estatstica de teste, sendo
natural considerar a mdia ou uma funo da mdia para fazer inferncia estatstica
sobre o valor mdio.
Consideremos, por exemplo, um industrial de componentes electrnicas, que afirma
que o tempo mdio de vida das componentes que fabrica de 560 horas. Um cliente
acha este tempo exagerado, pois tem tido mau resultado com este tipo de material.
Ento o industrial est interessado em testar que o valor mdio da distribuio do
tempo de vida das componentes igual a 560 horas, ou seja de que tem razo. Temos
assim uma conjectura ou hiptese sobre a populao e que em testes de hipteses se
refere como Hiptese nula e se representa por H
0
. No entanto a hiptese anterior vai
ser testada contra uma Hiptese alternativa que se representa por H
1
, que reflicta a
situao que ser verdadeira, no caso de no o ser a hiptese nula. Concretamente, no
exemplo anteriormente considerado temos as seguintes hipteses a serem testadas
(representando por o valor mdio da populao):
H
0
: =560 horas contra H
1
: <560 horas
Escolhemos a hiptese alternativa anterior, pois ela reflecte a situao real, no caso de
no se provar que H
0
verdadeira (estamos a pensar nas queixas dos clientes).
Vamos exemplificar a realizao de um teste de hipteses sobre o valor mdio atravs
do exemplo dos pesos, referido quando abordmos o problema da estimao.
Suponhamos que estamos interessados em realizar um teste sobre o peso mdio da
populao, constituda pelos indivduos de 1.65 m de altura, tendo sido levantadas
algumas dvidas sobre se o peso seria de 60 kg. Ento
H
0
: = 60 kg contra H
1
: 60 kg
Anlise de Dados 75

Formulamos a hiptese alternativa deste modo j que partida no tnhamos qualquer
informao que nos levasse a considerar quer um valor mdio superior, quer um valor
mdio inferior a 60 kg.
Pensemos na seguinte estatstica de teste
T =
X
/ n

cuja distribuio conhecida se H
0
verdadeira. fundamental conhecer a distribuio
de T, no caso de H
0
ser verdadeira, pois esse facto vai-nos permitir determinar a regio
de rejeio R a partir do nvel de significncia , definido priori,
P[T R | H
0
verdadeira]= ou seja
P[|T
0
|> z
1-
/2
] =
onde T
0
se obtm de T substituindo por
0
, sendo
0
o valor de considerado na
hiptese nula (no caso do exemplo
0
=60).
Ento a zona de rejeio dada pelo seguinte intervalo
R = ]- , -z
1-
/2
[ ] z
1-
/2

, +[
pelo que se rejeita a hiptese H
0
, sempre que t
0
R, sendo t
0
o valor observado da
estatstica de teste. Considerando, no exemplo, a amostra correspondente cidade de
Lisboa, temos:
t
0
= ) . ( 60 82 60 10 /4=.65
pelo que trabalhando com um nvel de significncia de 5%, se tem a seguinte regio de
rejeio:
R = ]- , -1.96[ ] 1.96 , +[
Como 0.65 no pertence regio de rejeio, no vemos razo para rejeitar a hiptese
nula.
Ainda no exemplo que temos vindo a considerar, suponhamos que tnhamos comeado
por recolher a amostra referente cidade de vora. Mediante o resultado obtido, uma
Anlise de Dados 76

pessoa mais cptica teria razes para suspeitar que o peso mdio seria inferior a 60 kg.
Nestas circunstncias deveramos proceder ao seguinte teste:
H
0
: =60 contra H
1
: < 60
Agora a hiptese alternativa especifica que o valor mdio inferior a 60 e se a hiptese
H
1
fosse verdadeira esperaramos obter amostras que levassem a um valor negativo
para t
0
(porqu?). Quer dizer que vamos rejeitar a hiptese nula se t
0
< z
, pois
P [ T < z
| H
0
verdadeira] =
Para o nvel de significncia de 5% o quantil z
.05
= -1.6449, pelo que a regio de
rejeio
R = ]- , -1.6449[
Considerando ento a amostra observada em vora, obtemos
t
0
= 10(57.04 60)/4 = -2.34
valor que pertence regio de rejeio, donde conclumos que devemos rejeitar a
hiptese nula.
Pensemos agora na cidade de Braga, em que temos razes para suspeitar que os
pesos so mais altos (come-se muito bem no Norte..., o que no quer dizer que se
coma mal em vora...), pelo que consideramos o seguinte teste:
H
0
: =60 contra H
1
: >60
Neste momento a hiptese alternativa indica-nos que a zona de rejeio corresponder
a valores de t
0
demasiado grandes, ou seja t
0
>z
1-
. Como
t
0
= 10(61.22 60)/4=.96 e z
.95
=1.6449
no vemos razo para rejeitar a hiptese nula.
Repare-se que dos 3 testes considerados anteriormente, o 1 de ndole diferente dos
outros dois, no que diz respeito hiptese alternativa - no 1 caso estamos perante um
teste bilateral enquanto que os outros 2 se referem a testes unilaterais.
O exemplo anterior pode-se inserir num processo mais geral de testar hipteses sobre
o valor mdio, que podemos resumir do modo seguinte:

Anlise de Dados 77

1 caso
Dados: dada uma amostra (x
1
,x
2
,x
n
), valor observado da amostra aleatria
(X
1
,X
2
,,X
n
) em que n30.
Se a populao tem distribuio aproximadamente normal e varincia conhecida, ento
a dimenso da amostra pode ser inferior a 30.
Hiptese nula: H
0
: =
0

(Esta hiptese nula equivalente a
0
ou
0
conforme se utilizem as hipteses
alternativas b) e c) especificadas a seguir)
Estatstica de teste: T
0
= n(X
0
)/
Obs. Para n30, quando desconhecido, pode ser estimado por s.
Hiptese alternativa Deciso a tomar para um nvel de significncia
a) H
1
:
0
Rejeita-se H
0
se |t
0
| > z
1-/2

b) H
1
: >
0
Rejeita-se H
0
se t
0
> z
1-

c) H
1
: <
0
Rejeita-se H
0
se t
0
< z

2 caso
Dados: dada uma amostra (x
1
,x
2
,x
n
), valor observado da amostra aleatria
(X
1
,X
2
,,X
n
) de uma populao com distribuio Normal e parmetro desconhecido.
Hiptese nula - H
0
: =
0

(Esta hiptese nula equivalente a
0
ou
0
conforme se utilizem as hipteses
alternativas b) e c) especificadas a seguir)
Estatstica de teste : T
1
= n(X
0
)/S
Hiptese alternativa Deciso a tomar para um nvel de significncia
a) H
1
:
0
Rejeita-se H
0
se |t
1
| > t
1-/2
(n-1)
b) H
1
: >
0
Rejeita-se H
0
se t
1
> t
1-
(n-1)
c) H
1
: <
0
Rejeita-se H
0
se t
1
< t
(n-1)
onde representamos por t
(n-1) o quantil de probabilidade da distribuio t de

Student com (n-1) graus de liberdade.
Anlise de Dados 78

Obs. Quando a dimenso da amostra for suficientemente grande, a distribuio da
estatstica T
1
aproximadamente normal, pelo que podemos tratar o segundo caso de
modo anlogo ao 1 caso. Na realidade, medida que a dimenso da amostra aumenta
e consequentemente o nmero de graus de liberdade, a distribuio t de Student
aproxima-se da distribuio Normal.
3.6.1 P-value
Um processo alternativo de realizar os testes de hipteses anteriores calcular o P-
value. Mais concretamente, para cada uma das situaes consideradas anteriormente,
face ao valor observado t
0
ou t
1
das estatsticas de teste T
0
ou T
1
, calcula-se:
1 caso:
a) P = 2 min {P[T
0
t
0
], P[T
0
t
0
]}
b) P = P[T
0
t
0
]
c) P = P[T
0
t
0
]
2 caso:
a) P = 2 min {P[T
1
t
1
], P[T
1
t
1
]}
b) P = P[T
1
t
1
]
c) P = P[T
1
t
1
]
Deciso: Para um determinado nvel de significncia , rejeita-se a hiptese nula
quando P.

Exerccios
1. Admita que a mediana da nota da PE, dos alunos que entraram no ano lectivo 91/92 foi de 35. Com
base na amostra anterior, verifique se existem razes para suspeitar de que os alunos que entraram no
ano lectivo de 92/93, tm tendncia para terem notas mais fracas.
Obs. Considere que a populao a estudar est dividida em duas categorias: a dos alunos com nota
superior a 35 e dos alunos com nota inferior ou igual a 35.
2. Supe-se que numa populao existem trs vezes mais indivduos no fumadores do que fumadores.
a) Tendo-se recolhido uma amostra de 20 indivduos, verificou-se que 7 eram fumadores. Teste, ao nvel de
significncia de 5% se a suposio tem razo de ser.
Anlise de Dados 79

b) Na populao anterior pretende-se estudar a incidncia de doena pulmonar. Sabe-se que a
percentagem de doentes entre os fumadores e no fumadores respectivamente de 60% e 20%.
(i) Determine a probabilidade de um indivduo ter doena pulmonar.
(ii) Determine a probabilidade de um doente pulmonar ser fumador.
(iii) Qual a probabilidade de numa amostra de 10 doentes, pelo menos trs serem fumadores?
(iv) Qual a probabilidade de numa amostra de 225 doentes, mais de metade serem fumadores?
3. O sr. X no consegue chegar a horas ao emprego. Todos os dias marca o ponto depois da hora
estipulada para a sua entrada. No final do ms, juntamente com uma repreenso escrita, recebeu uma
folha com um registo dos seus atrasos (em minutos):
0.01 2.66 3.30 3.77 4.47 5.13 7.56
8.79 10.26 14.36 15.29 19.64 21.45 28.41
a) Investigue a existncia de possveis outliers na amostra.
b) O sr. X acha injusta a repreenso, j que segundo diz, desde que trabalha naquela empresa, mais de
50% das vezes o atraso inferior a 5 minutos. Com base nos dados anteriores verifique se existe
evidncia suficiente para dar razo ao sr. X.
4. Suponha que uma amostra recolhida de rendimentos de famlias de determinada cidade revelou que
55% dos rendimentos da populao se situam entre os 60 e os 120 contos. O presidente da cmara
considera-a "ideal" !
Desconfia-se que o bairro X no segue a distribuio "ideal" da cidade. Recolheu-se uma amostra de
valores de rendimentos familiares nesse bairro, tendo-se obtido os seguintes resultados:
15 24 36 55 58 62 65 67 70 71
73 76 89 90 92 97 105 112 118 160
Verifique se esta suspeita tem razo de ser.
5. Um grupo de 20 indivduos hipertensos, foi submetido durante 30 dias a um regime de dieta sem sal.
Apresentam-se a seguir os valores da presso sistlica para esses indivduos:
sexo Antes da dieta Depois da dieta
M 17.0 15.6
M 17.7 16.6
M 17.9 16.9
F 18.1 15.6
F 18.1 16.0
M 18.2 15.5
F 18.3 16.5
M 18.4 17.2
M 18.4 15.0
F 18.5 17.5
F 18.5 15.9
F 18.6 16.2
M 18.7 17.5
M 18.8 15.8
F 18.9 17.2
M 19.2 17.3
Anlise de Dados 80

M 19.3 17.8
F 19.5 16.0
F 19.8 16.9
F 20.1 17.5
a) Um especialista afirma que aps um ms em regime de dieta sem sal, pelo menos 80% dos
indivduos apresenta uma diminuio da presso sistlica superior a 10%. Averige se existem razes
para duvidar da afirmao do especialista.
6. Recolheu-se a opinio de 20 executivos acerca de mquinas fotocopiadoras, verificando-se que 15
preferiam a marca Kodac relativamente marca Xerox. Pensa-se, no entanto, que na realidade no
existem diferenas significativas entre as mquinas, pelo que a probabilidade de cada uma ser escolhida
de 50%. Poderamos assim considerar as seguintes hipteses a testar:
H
0
: p=.5 contra H
1
: p.5
em que representamos por p a probabilidade de ser escolhida a mquina Kodac. Se para 20 executivos
consultados, representar por X o nmero dos que preferem Kodac, considere a seguinte regra de
deciso:
rejeito H
0
se X<6 ou se X>14
a) Qual o nvel de significncia associado ao teste anterior?
b) Qual a deciso a tomar relativamente amostra considerada?
c) Para as hipteses H
0
e H
1
especificadas, qual a regra de teste se efectivamente o nmero de
executivos que constituem a amostra fosse de 50, considerando o nvel de significncia de 5%?
7. Admite-se que a quantidade de nicotina (medida em mg.) existente numa dada marca de cigarros,
tem distribuio normal. Observaram-se 5 cigarros da referida marca tendo-se obtido:
16 16.5 19 15.4 15.6
O fabricante afirma que a quantidade mdia de nicotina , por cigarro, de 13.5 mg.
a) Teste, ao nvel de significncia = 0.10 a hiptese:
H
0
: = 13.5 contra H
1
: > 13.5
b) Determine um intervalo de 95% de confiana para a quantidade mdia de nicotina existente em cada
cigarro.
8. O departamento de controlo de qualidade de uma fbrica de conservas, est na disposio de mandar
reajustar todo o equipamento, caso se verifique que o peso mdio de cada lata inferior ao especificado
na embalagem. Nomeadamente no caso das latas de sardinha, especifica-se que este peso seja de 150
gramas. Com o objectivo de tomar uma deciso, procedeu-se recolha de algumas latas de sardinha,
que se pesaram, usando-se a mdia X,
-
como estatstica de teste.
a) Formule as hipteses nula e alternativa, em termos do valor especificado para o peso mdio.
Anlise de Dados 81

b) Tendo em considerao as consequncias que advm de cometer um erro de tipo I, dever escolher
um nvel de significncia grande ou pequeno? Justifique convenientemente a sua resposta. Qual ou
quais os valores que escolheria?
c) Admitindo que o peso das latas de sardinha se distribui de acordo com uma Normal e que os valores
observados para os pesos de uma amostra de 10 latas foram ( em gramas):
147 152 145 130 155 148 150 149 146 149
qual a deciso que o gerente da fbrica deve tomar, no que diz respeito ao reajustamento do
equipamento?
9. Um mdico receita aos seus doentes um medicamento para diminuir o nmero de pulsaes por
minuto. Recolheu o n de pulsaes a doentes medicados, que j tomam o medicamento h um ms,
tendo obtido o seguinte output, obtido atravs de um software de Estatstica, em que seleccionou como
opo, utilizar a distribuio t-Student:
Com 95% de confiana: 70.887604 < <74.497011
a) Quais as hipteses que o investigador teve de admitir para tomar a opo de seleccionar a
distribuio t-Student?
b) Explique o que significa o output anterior.
c) Qual a margem de erro do intervalo?
d) Se o intervalo fosse calculado com uma confiana de 99%, a margem de erro aumentaria ou
diminuiria?
10. Durante um cateterismo para detectar a a exteno da doena cardaca, verificando o estado das
artrias, introduzido um pequeno tubo, o catter, atravs de uma artria da perna. importante que
catter tenha um dimetro de 2.00mm, em mdia, com um desvio padro muito pequeno. O processo de
fabrico dos cateteres submetido a um rigoroso controlo de qualidade, de modo que todos os dias so
recolhidas algumas medidas, para testar a hiptese nula H
0
: m = 2.00mm, contra a hiptese alternativa
m2.00mm, com um nvel de significncia de 5%, para parar o processo de fabrico, no caso de haver
alteraes.
a) Estamos perante um teste unilateral ou bilateral? Porque que isto importante, no contexto do
problema?
b) Explicar o que que acontece se o departamento de controlo de qualidade cometer um erro de tipo 1?
c) E se cometer um erro de tipo 2?
11. Uma fbrica de bolachas com pedacinhos de chocolate, ao anunciar as suas bolachas diz que cada
pacote de meio quilo contm, pelo menos, 1000 pedacinhos de chocolate. Os estudantes do
Departamento de Estatstica de determinada Universidade, decidiram comprar alguns destes pacotes e
contar o nmero de pedacinhos de chocolate, tendo obtido os seguintes resultados:
1219 1214 1087 1200 1419 1121 1325 1345 1244 1258 1356 1132
Anlise de Dados 82

1191 1270 1295 1135
a) Verifique se esto cumpridas as condies para poder fazer inferencia.
b) Obtenha um intervalo de 95% de confiana para o nmero mdio de pedacinhos de chocolate, em
cada pacote.
c) O que que pode concluir sobre o que diz a empresa que vende as bolachas? Utilize o intervalo
anterior para testar uma hiptese apropriada para tirar concluses.
Sugesto: Verifique que o intervalo de confiana (1187.9, 1288.4) e de seguida calcule P(X<1000)
tendo em considerao que a v.a.X, que representa o n de pedacinhos de chocolate em cada pacote,
tem distribuio Normal N(1188, 94) ou N(1288, 94).

Anlise de Dados 83

Testes igualdade de duas populaes 4

Teste sobre a diferena de propores de duas populaes independentes.
Testes de hipteses sobre a diferena de valores mdios de duas populaes
independentes Normais varincias conhecidas, varincias desconhecidas e iguais ou
varincias desconhecidas e diferentes. Caso de populaes no Normais, mas grandes
amostras. Caso de amostras emparelhadas.

4.1 Inferncia sobre a diferena entre as propores de duas
populaes
Uma situao que por vezes tem interesse estudar, a diferena entre propores
correspondentes a duas populaes. Suponhamos, por exemplo, a situao de um
candidato a Presidente da Repblica, que est interessado em saber se a percentegem
de potenciais eleitores que votaro nele igual para Lisboa e Porto.
Outro exemplo o de duas mquinas que produzem o mesmo tipo de artigo e estamos
interessados em estudar se a percentagem de defeituosos igual, para as duas
mquinas.
Temos ainda o caso em que se pretende conhecer se o sucesso no exame nacional de
Matemtica, o mesmo para os alunos de duas escolas distintas.
Sejam ento duas populaes W
1
e W
2
e p
1
e p
2
as percentagens ou propores que se
pretendem comparar:
p
1
percentagem de elementos da populao W
1
pertencentes a determinada
categoria;
p
2
percentagem de elementos da populao W
2
pertencentes a determinada
categoria
Anlise de Dados 84

Sejam n
1
e n
2
as dimenses de 2 amostras recolhidas respectivamente das populaes
W
1
e W
2
. Ento uma estimativa pontual de p
1
p
2
ser dada por
2 1
p p
) )
, onde
1
1
1
n
R
p =
)

e
2
2
2
n
R
p =
)
, sendo R
1
e R
2
, respectivamente o nmero de elementos das amostras que
pertencem categoria em estudo. Admitindo que temos populaes infinitas ou que a
amostragem se faz com reposio, j vimos no Captulo 1 que as variveis aleatrias
R
1
e R
2
tm, respectivamente, distribuio Binomial de parmetros (n
1
, p
1
) e (n
2
, p
2
).
No conhecida a distribuio de amostragem exacta de
2 1
p p
) )
, mas admitindo que
as dimenses das amostras so suficientemente grandes, a distribuio de
2
2 2
1
1 1
2 1 2 1
1 1
n
) p ( p
n
) p ( p
) p p ( p p

) )
pode ser aproximada pela N(0,1)
Este resultado vai-nos servir para construir os testes de hipteses sobre a diferena de
propores p
1
-p
2
.
4.1.1. Testes de hipteses sobre a diferena de propores
Consideremos os seguintes testes, realizados para o nvel de significncia :
a) H
0
: p
1
-p
2
p
0
contra H
1
: p
1
-p
2
> p
0

Se H
0
verdadeiro, podemos considerar para estatstica de teste
Z =
2
2 2
1
1 1
0 2 1
1 1
n
) p ( p
n
) p ( p
p p p
) ) ) )
) )

~ N(0,1)
Regio de rejeio: Valores grandes da estatstica de teste ou
Z z
1-
ou
2 1
p p
) )
p
0
+ z
1-

2
2 2
1
1 1
1 1
n
) p ( p
n
) p ( p
) ) ) )

b) H
0
: p
1
-p
2
p
0
contra p
1
-p
2
< p
0

Regio de rejeio: Valores pequenos da estatstica de teste ou
Anlise de Dados 85

Z z
ou
2 1
p p
) )
p
0
+ z
2
2 2
1
1 1
1 1
n
) p ( p
n
) p ( p
) ) ) )

c) H
0
: p
1
-p
2
= p
0
contra p
1
-p
2
p
0

Regio de rejeio: Valores pequenos ou grandes da estatstica de teste ou
|Z| z
1-/2
ou |
2 1
p p
) )
| p
0
+ z
1-/2
2
2 2
1
1 1
1 1
n
) p ( p
n
) p ( p
) ) ) )

Podemos em alternativa calcular o P-value (valor-p), que se obtm, calculando para o
valor observado da estatstica de teste, z
obs
, as seguintes probabilidades:
a) P(Z z
obs
| H
0
)
b) P(Z z
obs
| H
0
)
c) 2P(Z |z
obs
|| H
0
)
4.1.2. Intervalo de confiana para a diferena de propores
Um intervalo de confiana, com uma confiana de 100(1-)% vem imediatamente a
partir da distribuio de amostragem para a diferena de propores amostrais:
2 1
p p
) )
p
0
+ z
1-/2
2
2 2
1
1 1
1 1
n
) p ( p
n
) p ( p
) ) ) )

4.2 Inferncia sobre a diferena entre os valores mdios de duas
populaes
De um modo geral, quando se est a fazer um estudo comparativo, utiliza-se o termo
estatstico tratamento para referir as caractersticas que esto a ser comparadas.
Por exemplo, num estudo para investigar se um novo tipo de semente de trigo produz
maior quantidade de cereal, semearam-se vrias pores de terreno, umas com a
semente normal e as outras com a nova semente. As pores de terreno semeadas
com cada tipo de semente foram escolhidas aleatoriamente. Quando o trigo
amadureceu, pesaram-se as quantidades produzidas por cada poro de terreno. Nesta
Anlise de Dados 86

experincia os dois tipos de semente representam os dois tratamentos. A atribuio de
cada tipo de semente a cada poro de terreno, constitui o que se chama o
planeamento da experincia. Esta fase crucial para o tratamento futuro dos dados, j
que este planeamento pode, de uma maneira geral, produzir:
Amostras independentes ou
Amostras emparelhadas (pares de dados)
O primeiro caso, das amostras independentes, verifica-se quando os indivduos ou
unidades que vo ser expostas a cada tratamento, so escolhidas aleatoriamente em
dois grupos, atribuindo-se a um dos grupos o tratamento 1 e ao outro grupo o
tratamento 2. Os resultados que se obtm de cada tratamento constituem uma amostra
de uma dada populao, pelo que podemos falar em comparao de populaes.
Num planeamento de experincias por pares, os indivduos ou unidades que vo ser
expostas ao tratamento so escolhidas aos pares, de modo que os membros de cada
par so semelhantes, e um elememto de cada par recebe o tratamento 1, enquanto que
o outro recebe o tratamento 2. assim, ao contrrio do que se passa no caso anterior,
esperamos que os resultados de cada par sejam dependentes, j que houve, partida,
condies marcantes para que isso acontecesse, na escolha de elementos
semelhantes.
Vamos comear por abordar o primeiro caso de amostras independentes de duas
populaes.
4.2.1. Inferncia sobre a diferena entre valores mdios de populaes
independentes
Consideremos duas populaes X
1
e X
2,
independentes, de valores mdios e desvios
padres, respectivamente,
1
e
2
e
1
e
2
.
Sejam X
11
, X
12
, ..., X
1n1
e X
21
, X
22
, ..., X
2n2
, duas amostras aleatrias de X
1
e X
2
,
respectivamente.
O nosso objectivo, ao pretender comparar os dois tratamentos ou populaes, vai ser o
de comparar os seus valores mdios. Assim, pretende-se fazer inferncia sobre
1
-
2
.
Anlise de Dados 87

O estimador pontual para a diferena entre os valores mdios , obviamente,
2 1
X X .
No que diz respeito distribuio de amostragem deste estimador, tem-se
E(
2 1
X X ) =
1
-
2

Var(
2 1
X X ) =
2
2
2
1
2
1
n n

e no que diz respeito forma da distribuio, podemos considerar os seguintes casos:
4.2.1.1 As populaes so Normais e as varincias so conhecidas
Neste caso, tendo em considerao que a combinao linear de variveis aleatrias,
independentes, com distribuio Normal, ainda tem distribuio Normal, vem
imediatamente
I
2
2
2
1
2
1
2 1 2 1
n n
) ( X X

N(0,1)
Testes de hipteses sobre
1
-
2

H
0
:
1
-
2
=
0

Estatstica de teste sob H
0
: Z =
2
2
2
1
2
1
0 2 1
n n
X X

Hiptese alternativa H
1
Regio de Rejeio P-value
1
-
2
>
0
z z
1-
P(ZZ
obs
|H
0
)
1
-
2
<
0
z z
P(ZZ
obs
|H
0
)
1
-
2

0
|z| z
1-/2
2P(Z|Z
obs
||H
0
)
Intervalo de confiana, com uma confiana de 100(1-)%, para
1
-
2

2 1
X X z
1-/2

2
2
2
1
2
1
n n

Anlise de Dados 88

4.2.1.2 As populaes so Normais e as varincias so iguais e desconhecidas
teste t, para amostras independentes
Se a varincia comum
2
fosse conhecida, ento estaramos no caso anterior. No
entanto, de um modo geral a varincia desconhecida e ser estimada a partir das
duas amostras. O estimador utilizado o chamado pooled variance, que se obtm da
seguinte forma:
S
2
=
2
1 1
2 1
2
2 2
2
1 1
+
+
n n
S ) n ( S ) n (

e com este estimador I
2 1
2 1 2 1
1 1
n n
S
) ( X X
+

t(n
1
+n
2
-2)
tem como distribuio (exacta) uma t-Student com (n
1
+n
2
-2) graus de liberdade.
1
-
2
, para um nvel de significncia
H
0
:
1
-
2
=
0

0
: T =
2 1
0 2 1
1 1
n n
S
X X
+

1
1
-
2
>
0
t t
1-
(1) P(TT
obs
|H
0
)
1
-
2
<
0
t t
P(TT
obs
|H
0
)
1
-
2

0
|t| t
1-/2
2P(T|T
obs
||H
0
)
(1) Quantil de probabilidade (1-) da t-Student com (n
1
+n
2
-2) graus de liberdade.
1
-
2

2 1
X X t
1-/2
S
2 1
1 1
n n
+
Anlise de Dados 89

4.2.1.3 As populaes so Normais e as varincias so diferentes e
desconhecidas
No caso anterior exigimos que as varincias fossem iguais, para termos uma
distribuio exacta e posteriormente podermos utilizar o teste t. Em termos prticos
verifica-se se
2
2
2
1
S
S
no muito diferente de 1. Como regra emprica, se 4
4
1
2
2
2
1

S
S
,
assume-se a igualdade de varincias e utiliza-se o processo descrito. Se
2
2
2
1
S
S
for muito
diferente de 1, deve-se suspeitar da igualdade de varincias e utiliza-se, por exemplo,
um mtodo no paramtrico. A regra que apresentmos emprica, pelo que em
situaes de maior rigor deve-se utilizar um teste de igualdade de varincias para
populaes normais (por exemplo o teste F).
No entanto, ainda para o caso de populaes normais, pequenas amostras e varincias
diferentes, existe um processo aproximado sugerido por Satterthwaite e da o nome de
aproximao de Satterthwaite, que sugeriu ainda a distribuio aproximada de uma t-
Student para a estatstica de teste
2
2
2
1
2
1
2 1 2 1
n
S
n
S
) ( X X
+

mas com o nmero de graus de liberdade dado pela equao
f =
1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
+
n
)
n
s
(
n
)
n
s
(
)
n
s
n
s
(

Os testes sobre
1
-
2
so idnticos ao caso anterior.
Anlise de Dados 90

4.2.1.4 As populaes no so Normais e as amostras tm dimenso grande
No caso em que as amostras tm dimenso suficientemente grande a distribuio de
amostragem de
2
2
2
1
2
1
2 1 2 1
n
S
n
S
) ( X X
+

pode ser aproximada pela N(0,1)
A inferncia estatstica sobre
1
-
2
idntica realizada no caso 4.2.1.1 com as
varincias substitudas pelos estimadores.
4.2.2 Amostras emparelhadas
Ao comparar dois tratamentos, seria desejvel que os indivduos ou unidades
experimentais sujeitas a esses tratamentos, fossem to semelhantes quanto possvel,
de modo que as diferenas entre os resultados dos dois grupos pudessem ser
atribudas s diferenas de tratamento. Na realidade, se algumas condies variarem
de forma incontrolada nos indivduos sujeitos a tratamento, essas condies podem
introduzir nos resultados uma grande variabilidade.
Por outro lado, a imposio de que todos os indivduos sejam semelhantes
demasiado restritiva, podendo, inclusivamente, impedir a recolha de amostras de
dimenso suficiente para determinadas anlises estatsticas. Por exemplo, para a
comparao de dois analgsicos, seria impraticvel obter um nmero suficiente de
doentes nas mesmas condies da doena, mesmo sexo, mesma idade, etc. Alm
disso seria mais razovel aplicar os analgsicos a indivduos com caractersticas
diferentes.
Estamos numa situao de conflito, em que por um lado exigimos indivduos com
caractersticas semelhantes, mas que tambm tenham caractersticas diferentes! Para
resolver esta questo, entramos com o conceito de matching ou blocking, que
consiste em escolher os indivduos por pares ou blocos, de modo que dentro de cada
bloco tenham caractersticas semelhantes e sejam diferentes, para blocos diferentes.
Anlise de Dados 91

Num planeamento de experincias deste tipo, depois de seleccionados os pares (ou
blocos), deve-se aplicar a cada elemento do par o tratamento 1 ou 2 de forma aleatria.
Representando por X
1
e X
2
, respectivamente, as respostas ou resultados ao tratamento
1 ou 2, os dados apresentam-se com a seguinte estrutura:
Par Tratamento 1 Tratamento 2 Diferena D
1 X
11
X
21
D
1

2 X
12
X
22
D
2

3 X
13
X
23
D
3

N X
1n
X
2n
D
n

As diferenas D
1
, D
2
, D
3
, ..., D
n
, constituem a amostra aleatria. Observe-se que,
embora os pares (X
1i
, X
2i
) sejam independentes uns dos outros, dentro do mesmo par
no existe independncia, tendo em considerao a forma como foi planeada a
experincia.
Algumas das estatsticas de interesse so
=
=
n
i
i
D
n
D
1
1
e
2
1
2
1
1
) D D (
n
S
n
i
i D
=

A inferncia estatstica sobre as diferenas entre os valores mdios dos resultados
devidos aos dois tratamentops, resume-se a fazer inferncia sobre =
1
-
2
, e os
processos resumem-se ao que j foi dito atrs sobre a inferncia sobre o valor mdio
de uma populao.
4.2.2.1 Populaes Normais, pequenas amostras teste t emparelhado
No caso em que temos pequenas amostras, necessrio assumir que a amostra D
i
=
X
1i
X
2i
, proveniente de uma populao Normal (,
D
). Ento, a estatstica de teste
que vamos utilizar tem uma distribuio t-Student, com (n-1) graus de liberdade e a este
tipo de teste chamamos o teste t emparelhado (t-paired test).
1
-
2

Anlise de Dados 92

H
0
:
1
-
2
=
0

0
: T =
n / S
D
D
0

1
1
-
2
>
0
t t
1-
(1) P(TT
obs
|H
0
)
1
-
2
<
0
t t
P(TT
obs
|H
0
)
1
-
2

0
|t| t
1-/2
2P(T|T
obs
||H
0
)
(1) Quantil de probabilidade (1-) da t-Student com (n-1) graus de liberdade
Observao Para testar que os dois tratamentos tiveram o mesmo efeito, faz-se
0
=0.
1
-
2

D t
1-/2

n
S
D

4.2.2.2. Grandes amostras
Neste caso a distribuio da estatstica de teste pode ser aproximada pela distribuio
Normal(0,1), pelo que temos o seguinte:
H
0
:
1
-
2
=
0

0
: Z =
n / S
D
D
0

1
1
-
2
>
0
z z
1-
P(ZZ
obs
|H
0
)
1
-
2
<
0
z z
P(ZZ
obs
|H
0
)
1
-
2

0
|z| z
1-/2
2P(Z|Z
obs
||H
0
)
1
-
2

D z
1-/2

n
S
D

Anlise de Dados 93

4.2.3 Que tipo de planeamento fazer
Ao planear uma experincia para comparar dois tratamentos, muitas vezes temos a
opo de escolher entre considerar amostras independentes ou amostras
emparelhadas. Vejamos algumas consideraes sobre estes dois tipos de
planeamento.
Se considerarmos n pares de observaes, obtemos 2n valores, o que corresponde no
caso de amostras independentes a duas amostras de dimenso igual a n. Para o
clculo da mdia, indiferente se as amostras esto emparelhadas ou no, j que
2 1 2
1
1
1
X X ) X X (
n
D
i
n
i
i
= =
=

Centrando a nossa atena no caso de termos pequenas amostras, no que diz respeito
aos intervalos de confiana para
1
-
2
, temos

2 1
X X t
1-/2
* estimador do erro padro (desvio padro da diferena das mdias)
Amostras independentes
(n
1
=n
2
=n)
Amostras emparelhadas
n pares
Estimativa do erro padro
s
2 1
1 1
n n
+
n
S
D

Graus de liberdade 2(n-1) n-1
Obs: s=
2 1 2
1 1
2
2
2
1
2
2
2
1
s s
) n (
s ) n ( s ) n ( +
=
+

Do quadro apresentado anteriormente verifica-se que, se considerarmos amostras
emparelhadas, o n de graus de liberdade diminui, o que implica que para o mesmo
valor de , o quantil de probabilidade 1-/2 ser maior. Por exemplo com n=10,
t
.95
(9)=1.833, enquanto que t
.95
(18)=1.734.
Assim, se o valor estimado para o erro padro fosse igual nos dois casos, uma
diminuio do nmero de graus de liberdade, verificada para o caso das amostras
emparelhadas, implicaria um intervalo de confiana maior. Analogamente, nos testes de
Anlise de Dados 94

hipteses, este facto resultaria numa perda de potncia para detectar diferenas reais
nos valores mdios de duas populaes.
Na verdade, o grande mrito das amostras emparelhadas, se efectivamentev a escolha
dos pares for feita de modo a cumprir os objectivos deste tipo de planeamento, est em
que os resultados obtidos para os pares so altamente correlacionados, obtendo-se
uma reduo na varincia das diferenas D
i
. Esta reduo na varincia e
consequentemente no valor estimado para o erro padro, compensa a perca de graus
de liberdade (ex pag 345, Bhattacharya)
4.3 Teste para a igualdade de varincias em populaes Normais
So dadas duas amostras aleatrias X
11
, X
12
, ..., X
1n1
e X
21
, X
22
, ..., X
2n2
, de populaces
Normais, X
1
e X
2
, independentes, em que os valores mdio
1
e
2
e as varincias
2
1
e
2
2
, so desconhecidos. Representando as varincias amostrais por
2
1
S e
2
2
S , sabe-se
que F=
2
2
2
2
2
1
2
1
/ S
/ S
tem uma distribuio F com (n
1
-1) graus de liberdade no numerador e
(n
2
-1) graus de liberdade no denominador, que se representa por F(n
1
-1; n
2
-1)
4
. Este
facto vai-nos servir para testar a igualdade de varincias, condiderando F como
estatstica de teste, uma vez que sob H
0
:
2
1
=
2
2
, F
0
=
2
2
2
1
S
S
tem distribuio F(n
1
-1; n
2
-1).
Temos ento os seguintes testes:
H
0
:
2
1
=
2
2

0
: F
0
=
2
2
2
1
S
S

1
2
1

2
2
f
0
F
1-/2
(n
1
-1; n
2
-1) ou 2min{P(FF
obs
|H
0
),
f
0
F
/2
(n
1
-1; n
2
-1) P(FF
obs
|H
0
)}

4
A distribuio F goza da propriedade de F(m;n)=1/F
1-
(n;m)

Anlise de Dados 95

2
1
>
2
2
f
0
F
1-
(n
1
-1; n
2
-1) P(FF
obs
|H
0
)
2
1
<
2
2
f
0
F
(n
1
-1; n
2
-1) P(FF
obs
|H
0
)
2
1
/
2
2
:
2
2
2
1
s
s
F
/2
(n
2
-1; n
1
-1)
2
2
2
1

2
2
2
1
s
s
F
1-/2
(n
2
-1; n
1
-1)
Exemplo 4.1 (Adaptado de Murteira, B. et al, 2002) Para confrontar dois tipos de mquinas de
ceifar, um trigal foi dividido em seces longitudinais, e cada duas seces adjacentes, tratadas por cada
uma das mquinas. As produtividades alcanadas foram as seguintes:
Mquina A: 8.0 8.4 8.0 6.4 8.6 7.7 7.7 5.6 5.6 6.2
Mquina B: 5.6 7.4 7.3 6.4 7.5 6.1 6.6 6.0 5.5 5.5
Pretendendo averiguar se a produtividade das duas mquinas idntica, utilizando o teste t, averige da
igualdade das varincias.
H0:
2
A
=
2
B
contra H
1
:
2
A

2
B

0
: F
0
=
2
2
B
A
S
S
com distribuio F(9;9)

Deciso: No rejeitar a igualdade de varincias.
Observao: O teste F, para a igualdade de varincias pode ser realizado directamente no Excel. Para
isso basta seleccionar
Tools Data Analysis F-Test Two Samples for Variances
Anlise de Dados 96


Anlise de Dados 97

Mtodos no paramtricos 5

Mtodos no paramtricos como alternativa aos mtodos paramtricos. Testes de
ajustamento teste do Qui-quadrado e de Kolmogorov-Smirnov. Problema da
localizao e da localizao e simetria Teste dos Sinais e teste de Wilcoxon. Testes
de hipteses em modelos no paramtricos para testar a homogeneidade de
populaes independentes Teste de Mann-Whitney e de Kruskal-Wallis. Teste do Qui-
quadrado em tabelas de contingncia para testar a homogeneidade e a independncia.
Outros testes para testar a independncia.

5.1. Introduo
Vimos nos captulos anteriores alguns processos de inferncia estatstica,
nomeadamente os que envolvem pequenas amostras, em que necessrio fazer
hipteses sobre a forma da distribuio da populao subjacente amostra.
De um modo geral a inferncia estatstica clssica admite o modelo Normal e temos
assim o teste-t, quando pretendemos fazer testes de hipteses acerca do valor mdio
de uma populao ou pretendemos comparar populaes, ou o teste F quando
comparamos varincias. Felizmente alguns destes processos so razoavelmente
robustos para os desvios da normalidade e basta assumir a simetria, para que ainda se
possam utilizar. exemplo desta situao o teste-t, que bastante robusto, podendo
ainda continuar a aplicar-se quando a populao no Normal, mas simtrica.
No entanto, nem sempre apropriado considerar como hiptese, que a populao
subjacente a determinada amostra, segue uma famlia especfica de distribuies. Pode
ainda acontecer, por exemplo, que os dados nos sejam dados atravs de uma
ordenao e no tenhamos acesso aos verdadeiros valores o que acontece quando
temos as classificaes de um conjunto de candidatos a um lugar, em que esses
Anlise de Dados 98

candidatos foram ordenados, no dispondo de classificaes individuais. Nestes casos
tm de se utilizar os chamados mtodos no paramtricos, que so mtodos com
uma grande generalidade de aplio, j que as hipteses subjacentes a essa aplicao
so pouco restritivas, o que no significa que no tenham de se fazer algumas
hipteses.
Os mtodos no paramtricos baseiam-se essencialmente em contagens, ordens e
sinais de diferenas. Como so mtodos que funcionam bem para vrias distribuies,
dizem-se robustos e as estatsticas utilizadas recebem o nome de estatsticas firmes.
EXEMPLO 5.1 Para testar o efeito de um novo medicamento, considerou-se um grupo de 9 doentes,
tendo-se dado o medicamento a 4 dos doentes escolhidos aleatoriamente. Passadas 3 semanas, os 9
doentes foram examinados por um mdico que, com base num conjunto de observaes clnicas,
ordenou os doentes, numa escala de 1 a 9, sendo o 1 atribudo ao doente que se apresentava em
melhores condies e o 9 o que se apresentava em piores condioes. Pretende-se testar, com base
nesta informao, o seguinte:
H
0
: O novo medicamento contra H
1
: O novo medicamento
no tem efeito tem efeito (bom ou mau)
Uma estatstica de teste possvel ser considerar a soma das ordens dos doentes que tomaram o
medicamento. Se o novo medicamento no tem efeito, as ordens dos doentes que o tomaram podem ser
quaisquer, pelo que o resultado final pode ser qualquer das 126 combinaes possveis das 9 ordens 4 a
4. No entanto, se o medicamento teve efeito benfico deveremos ter, por exemplo, (1,2,3,4), enquanto
que se fr prejudicial teramos (6,7,8,9).
Os valores possveis para a estatstica de teste T, que representa a soma das ordens dos 4 doentes que
tomaram o medicamneto so
T 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
N de
vezes
1 1 2 3 5 6 8 9 11 11 12 11 11 9 8 6 5 3 2 1 1
A regio de rejeio ser constituda pelos valores grandes ou pequenos da estatstica de teste. Se
rejeitarmos para T= 10, 11, 29 e 30, ento o nvel de significncia do teste ser = 4/126 0.0318.
Na seco seguinte vamos abordar os testes de ajustamento, que se podem inserir na
categoria dos mtodos no paramtricos

Anlise de Dados 99

5.2 Testes de ajustamento
5.2.1 Introduo
1

Ser que existe alguma razo para dizer que os nascimentos so influenciados pelas
fases da Lua? Ser que o signo influencia o futuro, mais ou menos brilhante, de cada
indivduo? Ser que verdade o que a empresa das drageias M&M afirma, sobre as
percentagens de cores das drageias em cada embalagem?
A revista Fortune (De Veaux and al, 2004) recolheu os signos de 256 presidentes de
400 das maiores empresas, tendo obtido a seguinte informao:
Carneiro 23 Balana 18
Touro 20 Escorpio 21
Gmeos 18 Sagitrio 19
Caranguejo 23 Capricrnio 22
Leo 20 Aqurio 24
Virgem 19 Peixes 29
Na tabela anterior verifica-se que o signo dos Peixes sobressai com maior nmero de
nascimentos, mas ser esta diferena suficiente para dizer que os indivduos que
nascem sob este signo tm maior probabilidade de sucesso? Se os nascimentos se
distribuissem uniformemente, esperaramos aproximadamente 21.3 (256/12)
nascimentos em cada signo. De que modo que os valores observados se ajustam
hiptese (nula) de que os nascimentos se distribuem uniformemente ao longo do ano?
Neste caso j no temos, como no captulo anterior, um teste sobre uma proporo,
mas sim sobre 12 propores, uma para cada signo, pelo que precisamos de arranjar
um teste que nos d uma ideia global sobre se as propores observadas diferem muito
das conjecturadas (consideradas na hiptese nula).
5.2.2 Generalizao do modelo Binomial o modelo Multinomial
Consideremos uma Populao W dividida em k 2 categorias disjuntas e exaustivas
A
1
, A
2
, , A
k
, pelo que cada indivduo da populao pertence a uma e s a uma das
categorias. Para i=1, , k, seja p
i
a proporo de indivduos da Populao
pertencentes categoria i, tendo-se

1
Nesta seco seguimos integralmente Graa Martins, M. E. (2005)
Anlise de Dados 100

=
k
i
i
p
1
= 1
Fazer inferncia estatstica acerca desta Populao resume-se a estudar os parmetros
p
i
, i=1, , k.
Recolha-se da Populao em estudo uma amostra de dimenso n, (x
1
, x
2
, , x
n
) e
comece-se por construir a tabela de frequncias associadas s categorias
Classes Frequncia
A
1
o
1

A
2
o
2

A
k
o
k

Da tabela de frequncias anterior obtm-se as estimativas (da mxima verosimilhana)
dos parmetros p
i
,
i
p
)
=
o
i
n
, i=1, , k.
Temos agora uma generalizao dum caso tratado anteriormente, pois ao contrrio do
que se passava a, em que podamos considerar que estvamos perante n provas de
Bernoulli (cada indivduo pertencia a uma de 2 categorias, A ou A
C
, sendo constante a
probabilidade de pertencer categoria A, e da termos considerado o modelo Binomial),
temos neste momento n provas multinomiais - uma prova multinomial, com parmetros
p
i
, i=1, , k, uma prova cujo resultado pode ser um de k possveis, chamados
classes ou categorias. A probabilidade da ocorrncia da k-sima classe p
i
, com
0p
i
1 e
=
k
i
i
p
1
= 1.
Mais formalmente, temos que a generalizao do modelo Binomial o chamado
modelo Multinomial que consiste no seguinte:
1 Consideram-se n provas idnticas;
2 O resultado de cada prova pode pertencer a uma de k classes possveis A
1
, A
2
, ,
A
k
;
Anlise de Dados 101

3 - A probabilidade de que o resultado pertena classe A
i
, p
i
e sempre a mesma
de prova para prova, i=1, , k e p
1
+p
2
++p
k
=1;
4 As provas so independentes;
5 As variveis de interesse so O
1
, O
2
, ,O
k
, em que O
i
o nmero de vezes em que
o resultado pertence classe A
i
e O
1
+O
2
++O
k
= n.
Enunciamos a seguir algumas definies e resultados teis para a anlise da
Populao em estudo.
Definio 5.1. Dada uma experincia que consiste em n provas repetidas multinomiais,
independentes, com parmetros p
i
, i=1, , k, seja O
i
a v.a. que representa o n de
provas cujo resultado pertence i-sima classe, i=1, , k. Ento (O
1
, O
2
, , O
k
)
uma varivel aleatria multinomial com parmetros n, p
i
, i=1, , k.
Teorema 5.1 Se (O
1
, O
2
, , O
k
) uma v. a. multinomial com parmetros n, p
i
, i=1, ,
k, ento
P(O
1
=o
1
, O
2
=o
2
, , O
k
=o
k
) =
! o !... o ! o
! n
k 2 1
1
1
o
p
2
2
o
p
k
o
k
p o
i
= 0,, n

=
k
i
i
o
1
= n; i=1, , k
Observao: Repare-se que se k=2, estamos no caso Binomial.
Teorema 5.2 Se (O
1
, O
2
, , O
k
) uma v.a. multinomial, com parmetros n, p
i
, i=1, ,
k, ento a funo distribuio da v.a.
U =
(O
i
np
i
)
2
np
i
i =1
k

aproxima-se da funo distribuio dum
2
com (k-1) graus de liberdade, quando n
.
O resultado anterior serve para testar a hiptese de que (O
1
, O
2
, , O
k
) uma v.a.
multinomial com parmetros n, p
i
, i=1, , k. Basta para isso calcular
Anlise de Dados 102

u =
(o
i
np
i
)
2
np
i
i =1
k

para uma amostra observada (o
1
, o
2
, , o
k
) e rejeitar a hiptese se u ) k ( 1
2
1

,
onde ) k ( 1
2
1

o quantil de probabilidade (1-) de uma distribuio dum
2
com (k-1)
graus de liberdade.
Nota - A distribuio aproximada da estatstica de teste do Qui-quadrado pode ser
obtida de forma intuitiva da forma seguinte:
Numa experincia multinomial em que cada resultado pode ser um de k possveis, o
nmero mdio de resultados, em n, que pertencem classe A
i
np
i
. Ento O
i
tem
distribuio Binomial(n,p
i
), pelo que se n for suficientemente grande e p
i
suficientemente
pequeno, a distribuio de O
i
pode ser aproximada por uma Poisson de valor mdio np
i
,
pelo que a distribuio de
O
i
np
i
np
i
pode ser aproximada por uma Normal(0,1).
Finalmente
O
i
np
i
np
i
|
\

|

|
2
tem uma distribuio de um
2
com (1) grau de liberdade e
(O
i
np
i
)
2
np
i
i =1
k
tem uma distribuio dum

2
com (k-1) graus de liberdade.
Observao - O modelo do
2
tem uma funo densidade com suporte positivo e tem enviesamento para
a direita, dependendo a sua forma do nmero de graus de liberdade. Apresenta-se a seguir a funo
densidade do Qui-quadrado para vrios graus de liberdade:

Anlise de Dados 103

5.2.3 Teste de ajustamento do Qui-quadrado
5.2.3.1 Anlise de dados qualitativos
Considerando ento a Populao em estudo, pretendemos realizar testes de hipteses
sobre os parmetros p
i
, i=1, , k, sendo as hipteses a testar
H
0
: p
1
=
0
1
p , p
2
=
0
2
p , , p
k
=
0
k
p contra H
1
: p
i
0
i
p para algum i=1,,k
Estamos em condies, depois dos resultados apresentados anteriormente, de utilizar a
estatstica
X
2
=
(O
i
e
i
)
2
e
i
i =1
k

onde O
i
a v.a. que representa o n de indivduos observados na amostra, de
dimenso n, que pertencem classe A
i
e e
i
=n
0
i
p , i=1,,k. Esta estatstica, sob a
hiptese de H
0

ser verdadeira, tem uma distribuio de amostragem aproximada de um
2
com (k-1) graus de liberdade.
Regra de deciso: Para o nvel de significncia , rejeita-se a hiptese nula H
0
quando
X
2
) k ( 1
2
1

, ou seja, a regio de rejeio constituda pelo intervalo |
2
1

(k-1), +|,
como se pode ver pela figura seguinte

De forma alternativa, face ao valor observado da estatstica de teste
2
0
x , calcula-se o p-
value P= P(X
2
2
0
x ) e rejeita-se H
0
quando P .
Observao: Para se utilizar este teste deve-se ter em considerao que os valores
esperados para cada classe, e
i
no podem ser muito pequenos. Normalmente exigem-
se que sejam 5.
Anlise de Dados 104

Exemplo 5.2 Utilize os dados apresentados no incio deste captulo, para verificar se existe evidncia
de que existam alguns signos mais propcios a que os seus nativos sejam homens de sucesso.
H
0
: P(Carneiro) = P(Touro) = P(Gmeos) = ... = P(Peixes) = 1/12
contra
H
1
: Alguma das probabilidades anteriores diferente de 1/12
Sabemos que, sob H
0
, a estatstica de teste tem uma distribuio aproximada dum
2
com 11 graus de
liberdade, uma vez que k=12, isto , temos 12 classes.
Para calcular o valor observado da estatstica de teste, vamos considerar a seguinte tabela:

Obtivmos o valor de 5.0938 para a estatstica de teste. Ser que um valor grande? Ser que um
valor na cauda direita da funo densidade? Ser que P(X
2
5.0938) um valor pequeno, quando a
distribuio de X
2
um
2
com 11 graus de liberdade? Estas trs questes, so outras tantas formas de
fazer a mesma pergunta, que : H evidncia para rejeitar a hiptese nula H
0
?
Repare-se que neste caso, no temos dificuldade em dizer que no h evidncia para rejeitar H
0
, pois
basta ver na figura da funo densidade do
2
com 11 graus de liberdade, que o valor 5.0938
relativamente pequeno. De qualquer modo calculmos o P-value associado a este teste, utilizando a
funo CHIDIST(x;deg_freedom) do Excel, que devolve o valor de P(X>x), onde X uma varivel
aleatria com uma distribuio do Qui-quadrado com deg_freedom graus de liberdade. O valor obtido
0.9265, que se apresenta na figura seguinte:
Anlise de Dados 105


Deciso: No h evidncia para rejeitar a hipsese de que os nascimentos se distribuem uniformemente
pelos signos.
No rejeitar a hiptese nula significa que o modelo proposto o correcto?
No! Na verdade o facto de os dados no nos levarem a rejeitar o modelo proposto na
hiptese nula, no significa que ele seja verdadeiro. O teste serviu unicamente para
mostrar que os dados so consistentes com a teoria (o modelo proposto), mas no para
provar que ela verdadeira.
Porque que no podemos provar a hiptese nula? (De Veaux and al, 2004) Um
biologista pretende mostrar que a sua teoria, sobre a mosca da fruta, vlida. Segundo
ele, 10% das moscas so de tipo 1, 70% de tipo 2 e 20% de tipo 3. Fez um teste de
ajustamento a partir dos dados que os seus alunos recolheram, sobre 100 moscas,
tendo obtido um P-value de 7%. Celebrou este facto, pois sustentava a sua hiptese,
at que os seus alunos recolheram informao sobre mais 100 moscas. Com 200
moscas o P-value desceu para 2%. Apesar de j estar a adivinhar que a resposta seria
no, ainda perguntou ao estatstico, na esperana de poder deitar fora metade dos
dados e ficar com os 100 primeiros! Ora bem, se isto fosse possvel, conseguiramos
sempre provar a hiptese nula no recolhendo muitos dados. Efectivamente, quanto
menos informao tivermos, mais os nossos dados sero consistentes com o que quer
que seja, e tambm nunca rejeitaremos o que quer que seja! Ento um teste assim no
serve para nada. Como j vimos na seco 11.5, diz-se que um teste destes tem pouca
potncia, medindo-se a potncia de um teste como a probabilidade de rejeitar H
0
,
quando H
0
falsa. Assim, quantos mais dados, melhor, j que nunca poderemos
provar a hiptese nula.
Anlise de Dados 106

Exemplo 5.3 Suponha que uma marca conhecida de carros pretende averiguar se existe evidncia
para afirmar que os compradores mudaram, nos ltimos tempos, as suas preferncias pelas 4 cores mais
vendidas, nomeadamente o cinza prateado, o preto, o branco e o vermelho, em que estas cores eram
preferidas por, respectivamente 56.25%, 18.75%, 18.75% e 6.25% dos compradores, segundo
informao de alguns anos atrs. Assim, recolheu informao sobre 100 clientes, tendo obtido os
seguintes resultados:
Preto Cinza prateado Vermelho Branco
59 20 11 10
Retire concluses, para o nvel de significncia de 5%.
Hipteses:
H
0
: P(Cinza prateado) = 0.5625; P(Preto) = 0.1875; P(Branco) = 0.1875; P(Vermelho) = 0.0625
contra
H
1
: P(Cinza prateado)0.5625 ou P(Preto)0.1875 ou P(Branco)0.1875 ou P(Vermelho)0.0625
Estatstica de teste: X
2
=

= == =

4
1 i
i
2
i i
e
) e O (
, que sob H
0
, tem distribuio aproximada dum
2
(3).

Valor observado da estatstica de teste: x
2
= 5.671
P-value: P(X
2
5.671)
Para calcular a probabilidade anterior, utilizando o Excel, utiliza-se a funo CHIDIST(x;deg_freedom), tal
como j fizmos no exemplo anterior, agora com x=5.671 e deg_freedom=3, obtendo para o P-value =
0.12855
Deciso: No rejeitar H
0
, para os nveis usuais de significncia, nomeadamente para o nvel de
significncia de 5%. S rejeitaramos H
0
, para 12.855%.
Suponhamos, agora, que tinha sido recolhido uma amostra de dimenso 200, tendo obtido o dobro dos
valores observados, em cada uma das categorias. Qual a concluso que se tiraria?
Refazendo os clculos anteriores, temos:
Anlise de Dados 107


Valor observado da estatstica de teste: x
2
= 11.342
P-value: P(X
2
11.342) = CHIDIST(11.342;3),
= 0.0100
Deciso: Para o nvel de significncia de 5%, rejeitar H
0
, isto , existe evidncia de que os compradores
mudaram de atitude, quanto ao gosto das cores.
Esta concluso no de estranhar, embora seja diferente da retirada anteriormente, pois agora temos
mais dados, isto , mais informao, e podemos dizer que as discrepncias existentes entre os valores
observados e os valores esperados, mostram maior evidncia contra a hiptese nula
5.2.3.2 Anlise de dados discretos
Face amostra observada (x
1
, x
2
, ,x
n
) de dados discretos quantitativos, associada a
uma caracterstica populacional X, pretende-se inferir algo sobre a funo distribuio
de X.
Ento comea por se fazer o agrupamento dos dados, o qual no caso dos dados
discretos, de um modo geral, no apresenta dificuldade, uma vez que consiste em
contar o nmero de vezes que os diferentes elementos surgem na amostra. Constroi-se
assim a tabela de frequncias e o diagrama de barras. Sendo o diagrama de barras a
imagem estatstica da funo massa de probabilidade, esta primeira fase de tratamento
descritivo dos dados vai-nos obter informaes para passar fase seguinte de postular
qual o modelo que melhor se adapta a esses dados. Nesta fase tambm se entram com
algumas consideraes tericas, que eventualmente sejam conhecidas, sobre a
populao de onde se recolheu a amostra.
Uma vez postulado o modelo necessrio test-lo, utilizando normalmente o teste de
ajustamento do Qui-quadrado.
Anlise de Dados 108

Comecemos por admitir que na hiptese nula se especifica um modelo discreto de
forma completa, isto ,
H
0
: XF
onde F est perfeitamente especificada, ou ento, uma vez que o modelo discreto, se
especifica atravs da funo massa de probabilidade
H
0
: P(X=a
i
) = p
i
onde a
i
D, domnio de variao da v.a. X
Considera-se ento uma partio de D, eventualmente constituda pelos pontos a
i
,
alguns dos quais podem ser agrupados. Representando por A
1
, A
2
, , A
k
essa partio,
calculam-se as frequncias observadas, que representamos por o
i
, e estamos no caso
analisado anteriormente, de anlise de observaes qualitativas pertencentes a uma de
k categorias.
Se o modelo no estiver completamente especificado, tero de se estimar alguns
parmetros, atravs de estimativas da mxima verosimilhana e estamos tambm na
situao descrita anteriormente, da anlise de observaes pertencentes a uma de k
categorias, mas em que a distribuio da estatstica de teste no a mesma.
Resumindo, temos:
H
0
: XF vs H
1
: X no tem distribuio F
Classes Freq. observadas Sob a validade de Ho Valores esperados
A
1
o
1
p
1
=P(XA
1
) np
1

A
2
o
2
p
2
=P(XA
2
) np
2

A
k
o
k
p
k
=P(XA
k
) np
k

Estatstica de teste: X
2
=
(O
i
e
i
)
2
e
i
i =1
k

Distribuio da estatstica de teste: Sob a validade de H
0

a) Se o modelo est completamente especificado, X
2
tem uma distribuio assinttica
dum
2
(k-1).
Anlise de Dados 109

b) Se o modelo est especificado a menos de m parmetros desconhecidos, que tero
de ser estimados a partir dos dados, X
2
tem uma distribuio assinttica dum
2
(k-m-1).
Ento, fixando o nvel de significncia temos:
a) Rejeita-se H
0

se X
2
) k ( 1
1
2

ou alternativamente, face ao valor observado x
2
da
estatstica de teste X
2
calcula-se P=P(
2
(k-1) x
2
) e se P, rejeita-se H
0
.
b) Anlogo alnea a), mas a distribuio do Qui-quadrado considerada, em vez de ter
(k-1) graus de liberdade tem, (k-m-1) graus de liberdade. Os m parmetros
desconhecidos so estimados utilizando as estimativas da mxima verosimilhana.
Exemplo 5.4 A procura diria de um determinado produto, foi, em 60 dias escolhidos ao acaso, a
seguinte:
N unidades procuradas 0 1 2 3 4 5 6 7 8 9
N dias 2 4 9 11 14 10 5 3 1 1
Haver evidncia para duvidar que tal procura se faa segundo um modelo de Poisson?
Resoluo: Seja X a v.a. que representa o n de unidades procuradas, por dia. Ento:
H
0
: XP() contra H
1
: X no tem uma distribuio P()
Representando o estimador de por
, temos que
= X (no esquecer que no modelo de Poisson, o

parmetro o valor mdio da varivel aleatria), pelo que uma estimativa para , a mdia dos dados
x =3.8, e as estimativas para as probabilidades p
i
, obter-se-o a partir da expresso P(X=k) = e
-3.8
! k
8 . 3
k
.
Estas probabilidades foram obtidas no Excel atravs da funo Poisson(x; mean; cumulative), em que x
o valor que a v.a. X assume, mean o valor mdio e cumulative um valor lgico: para a funo
distribuio, usar TRUE; para a funo massa de probabilidade usar FALSE. Por exemplo, para obter o
valor 0.085009, colocmos o cursor na clula C3 e inserimos a funo =POISSON(B3;3,8;FALSE).
Anlise de Dados 110


Chamamos a ateno para o facto de as classes A
i
deverem constituir uma partio do domnio da v.a. X.
Assim, como o domnio da Poisson constitudo pelos valores inteiros positivos (incluindo o 0)
introduzimos a classe 10 ou mais, cuja probabilidade foi calculada fazendo (1-P(X9)) (no esquecer que
1 ) A ( P
i
= == =

). Por outro lado, tendo em conta a observao feita sobre o valor dos e
i
, que no devem ser
inferiores a 5, agrupmos as classes 0 e 1, numa classe, e as classes 7, 8, 9 e 10 ou mais, noutra classe,
tendo ficado assim 7 classes.
Se H
0
for verdadeiro, a estatstica de teste X
2
=

= == =

7
1 i
i
(O

i
2
i
e
) e
tem uma distribuio assinttica dum
2
(7-
1-1), ou seja dum Qui-quadrado com 5 graus de liberdade. Segundo a tabela anterior, obtivmos, para a
estatstica de teste, o valor observado de 2.2736. Para tomar uma deciso, vamos calcular o P-
value:P(X
2
2.2736) = 0.81. Este valor foi obtido, inserindo na clula F13, a funo = CHIDIST(E13;5):

Deciso: No h evidncia para dizer que a distribuio do nmero de unidades procuradas por dia, no
segue uma distribuio de Poisson.
Anlise de Dados 111

5.2.3.3 Anlise de dados contnuos
Este caso em tudo idntico ao caso anterior, com a excepo de que agora a escolha
das classes A
i
, que constituem uma partio do domnio da varivel aleatria X, j no
to bvia, como no caso dos dados discretos. Assim, de forma a reduzir a
arbitrariedade na escolha da partio A
i
, 1ik, usual escolher os A
i
, tais que
P(XA
i
H
0
) = 1/k ou seja p
i
= 1/k, 1ik.
Como escolher o k?
A escolha de k feita de modo a garantir que o nmero esperado e
i
=np
i
, de elementos
em cada classe seja 5. Assim, deve ter-se n/k5, o que implica que kn/5. Considera-
se geralmente para k o maior inteiro contido em n/5 (a no ser que este valor seja
demasiado grande, como veremos no exemplo a seguir, em que se escolhe um valor
inferior), e as classes A
i
, so assim construdas:
A
1
= (-, a
1
|, P(XA
1
H
0
) = 1/k P(X a
1
) = F(a
1
) = 1/k a
1
=F
-1
(1/k)
A
2
= |a
1,
a
2
|, P(XA
2
H
0
) = 1/k P(a
1
<X a
2
) = F(a
2
)- F(a
1
)= 1/k a
2
=F
-1
(2/k)
...
A
k
= |a
k-1,
|, P(XA
k
H
0
) = 1/k P(X> a
k-1
) = 1 F(a
k-1
)= 1/k a
k-1
=F
-1
((k-1)/k)
A estatstica de teste obtm-se da mesma maneira, assim como a distribuio de
amostragem.
Exemplo 5.4 O Sr. Silva, industrial txtil, decidiu comear a fabricar camisas de homem, destinadas a
serem vendidas em Portugal. Para ter alguma informao sobre os moldes que deve considerar,
nomeadamente no que diz respeito ao comprimento das mangas, resolveu pedir a uma empresa de
Consultoria de Estatstica que o ajudasse, dando-lhe algumas indicaes sobre a populao a que se
destinam as camisas.
Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva.
1 passo Recolha de uma amostra
A empresa de Consultoria encarregou o Departamento de Sondagens de recolher uma amostra de
dimenso 250, tendo esta fornecido os seguintes dados, relativos ao comprimento do brao direito de
250 homens:
Anlise de Dados 112

51.5 56.0 55.0 58.3 58.4 55.3 56.3 52.2 55.2 57.3
55.4 52.9 54.0 59.7 55.4 53.0 52.6 55.5 53.1 52.4
57.9 57.7 55.3 53.5 55.8 57.9 54.7 55.7 54.0 52.1
57.6 52.9 54.2 52.9 56.2 54.9 58.2 53.2 54.1 53.1
53.9 54.9 56.7 52.1 57.7 55.4 54.9 54.9 55.5 56.6
56.6 54.7 55.6 53.2 54.7 53.0 57.5 55.6 56.9 57.4
49.9 54.7 53.8 58.4 55.7 55.4 54.3 49.1 56.7 55.4
53.0 55.3 55.7 52.1 51.0 53.1 55.3 52.1 54.3 54.9
55.3 56.7 57.1 54.4 53.7 58.9 53.8 54.8 55.7 55.4
56.6 56.8 53.4 53.4 56.0 56.5 56.7 54.0 51.6 52.6
56.4 56.8 57.4 54.7 55.5 53.2 54.7 54.7 58.4 56.3
58.1 53.4 56.7 58.1 54.9 54.2 56.5 53.2 51.3 56.6
56.6 58.8 57.7 52.5 56.2 54.4 56.8 51.8 53.9 58.4
58.7 55.2 53.0 58.0 58.6 52.3 59.2 56.5 57.1 54.2
55.3 55.5 56.1 52.1 53.9 53.2 52.9 58.8 55.0 54.2
54.8 53.4 56.8 51.9 55.0 51.6 58.2 55.5 56.2 53.7
54.6 51.7 55.5 52.8 54.4 55.7 54.0 56.8 53.3 56.8
54.2 50.5 54.3 54.6 53.2 52.2 55.2 55.4 55.8 55.6
60.2 57.0 54.6 55.0 56.6 55.1 58.0 57.3 56.0 51.7
55.1 54.5 53.8 55.1 55.7 57.1 53.2 52.4 55.5 57.2
56.1 55.1 55.2 56.3 57.1 55.5 53.2 54.8 55.6 56.0
60.7 58.3 59.4 52.8 55.8 56.8 56.3 55.7 53.0 53.0
51.9 55.7 53.4 53.8 52.1 57.5 59.8 55.3 55.0 55.0
54.2 57.6 55.1 56.5 58.3 53.1 55.2 53.7 48.4 54.7
55.0 56.5 56.9 57.0 58.2 56.7 54.4 50.2 54.4 56.5
2 passo Estudo descritivo
Procedeu-se ao estudo descritivo dos dados anteriores, calculando algumas caractersticas amostrais e
procedendo reduo dos dados atravs de uma tabela de frequncias e construo do histograma
correspondente. Apresentam-se a seguir os resultados obtidos:

Anlise de Dados 113

Decidimos construir uma tabela de frequncias com 8 classes, valor sugerido pela regra emprica
enunciada quando da construo do histograma, e considerar como amplitude de classe o valor 1.54
(valor aproximado, por excesso, de (max-min)/8).Construmos uma tabela de frequncias e o histograma
associado, utilizando a metodologia das PivotTables.:

O histograma sugere-nos um modelo Normal, pelo que, o passo seguinte ser testar se efectivamente
tem sentido ajustar um modelo Normal aos dados. Uma questo que se levanta neste momento a
seguinte: ter sentido estar a ajustar aos nossos dados um modelo com suporte R, isto , que pode
assumir qualquer valor real, quando ns sabemos que isso no se passa com o comprimento do brao?
Mas se estamos renitentes em ajustar um modelo com suporte em R, talvez pensassemos que seria mais
razovel um cujo suporte fosse R
+
, pois se temos a garantia que o comprimento no pode ser negativo,
no sabemos qual o valor mximo que devemos escolher. Ou poderamos inventar um valor ao acaso
como limite superior, por exemplo 150 cm, mas com que legitimidade que escolhemos este e no outro
valor? Tambm no devemos considerar o valor 60.7 como valor mximo, embora tenha sido o maior
valor da amostra que se recolheu. Ningum nos garante que na populao no haja homens com o
comprimento do brao superior a 60.7! Nesta altura, de reflexo sobre qual o modelo a adoptar,
recordemos o que se disse sobre a escolha de um modelo para traduzir um fenmeno aleatrio todos
os modelos so maus, alguns so teis. No entanto, alm do histograma nos sugerir o modelo Normal,
devido semelhana com a funo densidade da Normal, tambm dispomos de alguma informao
cientfica sobre este modelo; e so esses estudos que nos dizem que ele se aplica em situaes de
fenmenos que possam ser considerados provenientes de uma contribuio aditiva de vrias variveis,
como , por exemplo, o caso da varivel em estudo. Ento, em posse da informao sobre a
provenincia dos dados e dos resultados do estudo descritivo dos mesmos, estamos em condies de
propor o modelo Normal.
3 passo Teste de ajustamento do modelo sugerido no passo anterior
Anlise de Dados 114

Representando por X, a v.a. que representa o comprimento do brao, consideremos as seguintes
hipteses:
H
0
: XN(,) contra H
1
: X N(,)
Para utilizarmos o teste de ajustamento do Qui-qudrado, as classes A
i
tm que constituir uma partio do
suporte da v.a. X. Neste momento podemos seguir dois processos, nomeadamente: utilizar a tabela de
frequncia anterior, procedendo s modificaes adequadas nas classes, de forma a termos uma
partio, ou utilizar o processo enunciado anteriormente, para a formao das classes. Vamos
exemplificar os dois processos:
Processo 1 Modificao da tabela de frequncias, de forma a termos uma partio de R
Para obter uma partio, basta proceder a uma alterao conveniente na primeira e na ltima classe,
como se apresenta a seguir:

Para calcular estimativas das probabiliaddes p
i
, utilizmos o modelo Normal(55.14, 2.087), no Excel. Por
exemplo, para calcular a probabilidade do intervalo |49.94, 51.48|, colocmos o cursor na clula G19 e
escrevemos =NORMDIST(51,48;55,14;2,087;TRUE)-NORMDIST(49,94;55, 14;2,087;TRUE).
Como estimmos dois parmetros a partir dos dados, a estatstica de teste X
2
, tem uma distribuio
assinttica dum
2
(8-2-1), ou seja dum Qui-quadrado com 5 graus de liberdade.
Para tomar uma deciso calculmos o P-value, bastando colocar o cursor na clula J26 e escrever
=CHIDIST(I26;5):

Anlise de Dados 115

Deciso: No existe evidncia para rejeitar a hiptese do modelo Normal.
Processo 2 Admitindo que no tinha havido uma fase anterior, em que tinha sido necessrio proceder a
um agrupamento dos dados, como no caso do exemplo que estamos a tratar, vamos exemplificar o
processo sugerido na seco anterior.
Temos n=250, donde k250/5. Vamos considerar k=10, isto , 10 classes. Ento os limites de classe a
1
,
a
2
, ..., a
9
, com a notao introduzida na seco referida, podem ser obtidos no Excel, da seguinte forma:

Uma vez as classes construdas, teremos de contar quais os valores observados. Utilizmos a seguinte
tabela feita no Excel, para determinar esses valores, assim como o valor observado da estatstica de
teste:

A estatstica de teste a mesma, mas agora tem uma distribuio de amostragem dum Qui-quadrado
com 7=(10-2-1) graus de liberdade, uma vez que considermos 10 classes e estimmos 2 parmetros:
Anlise de Dados 116


Deciso: Uma vez que o P-value igual a 32.56%, no existe evidncia para rejeitar a hiptese de que
os dados sejam provenientes de um modelo Normal.
4 passo Transmisso dos resultados ao industrial txtil
Agora, nesta fase, justificava-se uma conversa com o Sr. Silva, para a apresentao dos resultados.
Pode-se, no entanto, ir adiantando alguma informao, em termos de percentagens dos futuros
compradores das camisas. Assim, temos os seguintes nmeros:
Aproximadamente 68% dos homens tm o comprimento dos braos no intervalo [53, 57]
P(55.14-2.087X55.14+2.087)=(1)-(-1)= 2(1)-10.68
P(55.14-22.087X55.14+22.087)=(2)-(-2)= 2(2)-10.95
P(55.14-32.087X55.14+32.087)=(2)-(-2)= 2(3)-10.997
Utilizando ainda o modelo Normal(55.14, 2.087), podemos ser um pouco mais precisos, informando o Sr.
Silva sobre os valores do 1 e 3 quartis, que so respectivamente 53.7 cm e 56.5 cm:

Assim, o industrial sabe que, por exemplo, s 25% dos homens que tm o comprimento dos braos
inferior a 53.7 cm e que 50% dos homens tm o comprimento dos braos no intervalo [53.7, 56.5]. Esta
informao importante, pois permite fazer uma programao adequada da percentagem de camisas
que devem ser fabricadas, para cada tamanho
Anlise de Dados 117

5.2.4 Teste de Kolmogorov-Smirnov
Dada uma populao X, contnua, pretende-se testar a hiptese
H
0
: XF(x) contra H
1
: XG(x) com F(x)G(x) para algum x
A metodologia seguida na realizao do teste de Kolmogorov-Smirnov a de utilizar a
funo distribuio emprica F
n
(x), que um estimador consistente de F(x),
considerando como estatstica de teste, uma estatstica que seja uma medida da
distncia entre a funo distribuio emprica e a funo distribuio F(x), postuladav
em H
0
.
Face amostra aleatria (X
1
, X
2
, ..., X
n
), consideremos a funo distribuio emprica
F
n
(x) =
<
<
+
n : n
n : i n : i
n :
X x se
X x X se
n
i
X x se
1
0
1
1

para i= 1, 2, ..., n-1. Se considerarmos X
0:n
=- e X
n+1:n
=+, podemos escrever mais
simplesmente
F
n
(x) =
n
i
X
i:n
x<X
i+1:n
, i=0, 1, 2, ..., n

Repare-se que nFn(x) uma varivel aleatria discreta, que assume os valores i, com
i=0, 1, 2, ..., n e P[nF
n
(x)=i]=
|
|
\
|
i
n
F(x)
i
[1-F(x)]
n-i
, para i=0, 1, 2, ..., n.
A v.a. n F
n
(x) tem distribuio Binomial (n, F(x)), donde
E[nF
n
(x)]=nF(x) E[F
n
(x)]=F(x)
Var[
n
F
n
(x)]=nF(x) [1-F(x)] Var[F
n
(x)]=
| |
n
) x ( F ) x ( F 1

Assim se conclui que F
n
(x) um estimador centrado e quando n , um estimador
consistente de F(x).
As estatsticas que se consideram so as seguintes:
Estatstica bilateral D
n
=
R x
sup
|F
n
(x) F(x)|
Estatstica unilateral
+
n
D =
R x
sup
[F
n
(x) F(x)]
Anlise de Dados 118

Estatstica unilateral
n
D =
R x
sup
[F(x) F
n
(x)]
As estatsticas unilaterais podem-se apresentar com outro aspecto, como vamos ver:

+
n
D =
R x
sup
[F
n
(x) F(x)]
= | |
)
`

+
<

) x ( F ) x ( F sup max
n
X x X
n i
n : i n : i 1
0

=
(

+
<
) x ( F inf
n
i
max
n : i n : i
X x X n i
1
0

=
(

) X ( F
n
i
max
n : i
n i 0

= max
)
`

o , ) X ( F
n
i
max
n : i
n i 1

Analogamente

n
D =
R x
sup
[F(x) F
n
(x)]
= | |
)
`

+
<

) x ( F ) x ( F sup max
n
X x X
n i
n : i n : i 1
0

=
(

+
<
n
i
) x ( F inf max
n : i n : i
X x X n i
1
0

=
(

+

n
i
) X ( F max
n : i
n i
1
0

= max
)
`

+

o
n
i
X F
n i
n i
, ) ( max
: 1
1 0

= max
)
`

o
n
i
X F
n i
n i
, ) ( max
:
1
1

Resumindo, podemos escrever para as estatsticas de Kolmogorov-Smirnov (K-S):

+
n
D = max
)
`

o , ) X ( F
n
i
max
n : i
n i 1

Anlise de Dados 119


n
D = max
)
`

o
n
i
X F
n i
n i
, ) ( max
:
1
1

D
n
= Max {
+
n
D ,

n
D }
donde conclumos que a distribuio das estatsticas de teste depende das variveis
aleatrias F(X
i:n
). Como F(X
i:n
) a isima estatstica ordinal de uma amostra cuja
distribuio subjacente a uniforme no intervalo (0, 1), conclumos que a distribuio
das estatsticas de K-S independente da distribuio considerada em H
0
, se esta for
absolutamente contnua.
Teorema 5.3 Se a funo distribuio postulada em H
0
, F(.), for absolutamente
contnua, as estatsticas
+
n
D ,
n
D e D
n
, tm distribuies independentes de F. As
distribuies exactas e assintticas destas estatsticas encontram-se tabeladas.
Vejamos quais as regras de teste associadas s diferentes estatsticas de Kolmogorov-
Smirnov:
1. H
0
: XF(x) contra H
1
: XG(x) com F(x)G(x) para algum x
Utiliza-se a estatstica D
n
e face ao valor observado de D
n
, d
n
, rejeita-se H
0
se d
n
d
n,
, onde
P(D
n
d
n,
) = .
2. H
0
: XF(x) contra H
1
: XG(x) com G(x)F(x) para todo o x e para
algum x, G(x)>F(x)
Utiliza-se a estatstica
+
n
D e face ao valor observado de
+
n
D ,
+
n
d , rejeita-se H
0
se
+
n
d
+
, n
d , onde
P(
+
n
D
+
, n
d ) = .
3. H
0
: XF(x) contra H
1
: XG(x) com G(x)F(x) para todo o x e para
algum x, G(x)<F(x)
n
D e face ao valor observado de
n
D ,
n
d , rejeita-se H
0
se
n
d

, n
d , onde
P(

n
D

, n
d ) = .
Exemplo 5.5 Considere a seguinte amostra de dimenso 10, que se supe proveniente de uma
populao X, com distribuio uniforme no intervalo (0,1): 0.621, 0.503, 0.203, 0.477, 0.710, 0.581, 0.329,
0.480, 0.554, 0.382. Verifique se existem razes para duvidar da nossa suposio.
Vamos considerar o seguinte teste:
Anlise de Dados 120

H
0
: XF
0
(x) contra H
1
: X no tem a distribuio F
0
(x) com
F
0
(x)=
<
<
1 1
1 0
0 0
x se
x se x
x se

Vamos utilizar a estatstica de teste bilateral D
n
. Realizmos os clculos numa folha de Excel

e conclumos que d
n
=0,290. Consultando uma tabela com a distribuio de D
10
, obtemos que o quantil de
probabilidade 95% 0,409, d
10,.05
=0,409, pelo que tomamos a deciso de no rejeitar a hiptese nula,
uma vez que 0,290<0,409.
5.2.5 Comparao entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov
Vamos fazer a comparao entre estes dois testes de ajustamento, em termos das
vantagens e desvantagens de um e outro:
1. O teste do Qui-quadrado pode ser aplicado quando os dados so discretos ou
contnuos, enquanto que o teste de Kolmogorov-Smirnov pressupe a
continuidade dos dados. A tabela com os pontos crticos da distribuio de
amostragem das estatsticas de teste de K-S s exacte se a distribuio
subjacente aos dados for contnua. Caso contrrio, os quantis conduzem a um
teste conservativo. Existe, no entanto, um processo para obter os pontos crticos
exactos quando a distribuio discreta (consultar Conover).
2. O teste do Qui-quadrado pode ser facilmente modificado, de modo a permitir a
estimao de parmetros a partir dos dados, enquanto que o teste de
Kolmogorov-Smirnov no tem essa flexibilidade. No entanto, existem algumas
Anlise de Dados 121


distribuies importantes, como so o caso da Normal e da Exponencial, para os
quais existem tabelas com os valores corrigidos para os pontos crticos das
estatsticas de teste. O caso mais conhecido o da Normal, chamando-se neste
caso teste de Lilliefors.
3. O teste de Kolmogorov-Smirnov trata as observaes individualmente, enquanto
que o teste dfo Qui-quadrado discretiza os dados, procedendo ao seu
agrupamento, dando origem a perca de informao.
4. O teste de Kolmogorov-Smirnov aplicvel para o caso de pequenas amostras,
enquanto que o teste do Qui-quadrado essencialmente para grandes amostras,
uma vez que s dispomos da distribuio assinttica da distribuio de
amostragem, da estatstica de teste.
Anlise de Dados 122


5.3. Problema da localizao e da localizao e simetria teste dos
Sinais e teste de Wilcoxon
5.3.1 Introduo
Seja (X
1
, X
2
, ...,X
n
) uma amostra aleatria de dimenso n, proveniente de uma
populao com funo distribuio F(.) desconhecida. Admitiremos usualmente, no que
se segue, que F(.) absolutamente contnua, com funo densidade f(.).
Seja p um real que assume valores no intervalo (0, 1) e designemos por
p
(F) o quantil
de probabilidade p, de F(.).
Um problema que tem interesse estudar o chamado problema da localizao, em que
se pretende testar:
H
0
:
p
(F)=
0
contra H
1
:
p
(F)>
0
ou
H
1
:
p
(F)<
0
ou
H
1
:
p
(F)
0

Um outro problema o chamado problema da localizao e simetria, em que se
pretende testar:
H
0
:
5 0.
(F)=
0
e F(.) simtrica contra H
1
:
5 0.
(F)
0
ou F(.) no simtrica
O nosso objectivo vai ser o de encontrar estatsticas de teste convenientes, cuja
distribuio de amostragem, sob a validade de H
0
, seja conhecida.
Exemplo 5.6 Os passageiros que utilizam determinada carreira da Carris, na paragem de
Entrecampos, tm-se queixado alegando que o tempo que esperam pelo autocarro demasiado, quando
a empresa afirma que a mediana do tempo de espera inferior a 20 minutos. Haver razo para duvidar
da afirmao da Carris?
Pretende-se testar se existe evidncia para afirmar que a mediana da populao constituda pelos
tempos de espera na referida paragem superior a 20 minutos, ou seja:
Anlise de Dados 123


H
0
:
5 0.
(F)20 contra H
1
:
5 0.
(F)>20
com base numa amostra de tempos de espera (em minutos) de 12 passageiros escolhidos
aleatoriamente e que foram 25, 15, 19, 16, 21, 24, 18, 18, 24, 28, 25, 21.
Vamos considerar para estatstica de teste a varivel aleatria R que representa o nmero de elementos
da amostra superiores a 20, e que sob H
0
tem distribuio Binomial(12, 0.5). Como a hiptese alternativa
que a mediana superior a 20, ento deveremos rejeitar a hiptese nula para valores grandes da
estatstica de teste, pois se H1 fosse verdadeira, situao que nos levaria a rejeitar H, esperaramos
encontrar, na amostra, muitos valores maiores que a mediana. No nosso caso tem-se r
0
=7, pelo que
vamos calcular o P-value, que , neste caso, a probabilidade de encontrar um valor igual ou maior que o
valor observado, ou seja
P-value= P(R7|RB(12, 0.5))=0.387
Deciso: No h evidncia para rejeitar a afirmao da Carris (s rejeitaramos a hiptese nula para
38.7%).
Este exemplo que acabmos de apresentar um exemplo de um teste, chamado teste
dos sinais, que vamos introduzir formalmente a seguir.
5.3.2 Teste dos Sinais
Consideremos uma populao X contnua, com distribuio F(.), da qual se recolheu
uma amostra aleatria (X
1
, X
2
, ...,X
n
), e sobre a qual pretendemos testar
H
0
:
p
(F)=
0
, ou seja P(X
0
)=p.
Sob a validade de H
0
de esperar que nos surjam np valores menores do que
0
e
n(1-p) valores maiores do que
0
, dos n valores da amostra. Vamos ento considerar
uma estatstica que conta o nmero de valores maiores do que
0
:
S
n
=
=

n
i
i
) X ( I
1
0
=n de sinais positivos na amostra {X
i
-
0
},
j que I(X
i
-
0
)=
p ade probabilid com
) p ( ade probabilid com
X se
X se
i
i

> 1
0
1
0
0

Ento, sob H
o
, S
n
B(n, 1-p).
Anlise de Dados 124


Como a regio de rejeio vai depender da hiptese alternativa que se especificar,
consideremos, ento, os seguintes casos:
1 caso:
H
0
:
p
(F)=
0
contra H
1
:
p
(F)<
0

ou seja P(X
0
)=p P(X
0
)=p>p

Se a hiptese alternativa for verdadeira, temos maior probabilidade de obter valores
menores que
0
ou seja, esperamos obter menos valores, na amostra, maiores do que
0
, do que os que esperaramos obter se H
o
fosse verdadeira. Ento, devemos rejeitar
H
o
para valores pequenos da estatstica de teste:
Regio de rejeio: 0, 1, ..., c
, onde P[S
n
c
| S
n
B(n, 1-p)]
2 caso:
H
0
:
p
(F)=
0
contra H
1
:
p
(F)>
0

ou seja P(X
0
)=p P(X
0
)=p<p

Se a hiptese alternativa for verdadeira, temos menor probabilidade de obter valores
menores que
0
ou seja, esperamos obter mais valores, na amostra, maiores do que
0
, do que os que esperaramos obter se H
o
fosse verdadeira. Ento, devemos rejeitar
H
o
para valores grandes da estatstica de teste:
Regio de rejeio:
'
c

'
c
+1, ..., n, onde P[S

n

'
c
| S
n
B(n, 1-p)]
Temos ainda um 3 caso, em que o teste bilateral, o qual ser apresentado no resumo
que se segue, pois uma situao que se deduz das duas anteriores:
Anlise de Dados 125


Formalizando o teste em que aplicamos a estatstica S
n
e a que chamamos teste dos
Sinais, temos, para o nvel de significncia :
H
0
H
1
Regio de rejeio

p
(F)=
0

p
(F)<
0
S
n
c

p
(F)>
0
S
n

'
c

p
(F)
0
S
n

*
c
ou S
n

'*
c

onde c
o maior inteiro tal que

|
|
\
|

=
) i n ( i
c
i
p ) p (
i
n
1
0

'
c
o menor inteiro tal que

|
|
\
|

=
) i n ( i
n
c i
p ) p (
i
n
'
1

*
c
o maior inteiro tal que 2 1

0
/ p ) p (
i
n
) i n ( i
c
i
*

|
|
\
|

=

e
'*
c
o menor inteiro 2 1 / p ) p (
i
n
) i n ( i
n
c i
'*

|
|
\
|

=

Observao: Os valores da amostra que forem iguais a
0
so desprezados,
diminuindo-se a dimenso da amostra em conformidade com o nmero de valores
desprezados.
Exemplo 5.7 Os dados seguintes referem-se ao peso (em Kg) de 12 crianas de 6 anos,
seleccionadas aleatoriamente, entre os alunos de uma escola primria: 22.3, 21.7, 19.6, 18.4, 17.7, 19.3,
18.5, 18.6, 17.8, 16.9, 21.4, 20.6. A tabela de pesos para crianas de 6 anos, indica que o valor do 1
quartil 19 kg. Uma tcnica de sade, que visitou a escola, apresentou um relatrio, reclamando um
suplemento alimentar para as crianas, alegando que elas apresentavem um peso inferior ao tabelado.
Teste a veracidade desta afirmao. Qual o menor nvel de significncia que leva rejeio da hiptese
de que as crianas apresentam um peso, dentro do que est tabelado?
Ho:
25 0.
(F)=19 H
1
:
25 0.
(F)<19
onde F a funo distribuio da v.a. X, que representa o peso das crianas de 6 anos. Vamos
considerar como estatstica de teste a v.a. S
12
, que representa o nmero de crianas, na amostra, com
peso superior a 19, que sob Ho, tem distribuio Binomial(12, 0.75),
S
12
|
Ho
B(12, 0.75)
Anlise de Dados 126


Rejeitamos Ho para valores pequenos da estatstica de teste, cujo valor observado s
12
=6. Ento
P(S
12
6)
Ho
=0.0544
Deciso: O menor nvel de significncia que nos levaria a rejeitar a hiptese nula seria =5.44%. Para
=10% h evidncia para afirmar que as crianas tm peso inferior ao tabelado.
5.3.2.1 Teste dos Sinais para amostras emparelhadas
O teste dos sinais pode ser facilmente modificado para se aplicar a amostras
emparelhadas, quando se pretende comparar dois processos associados amostra
bivariada (U
i
, V
i
), i=1, 2, ..., n e cujos resultados observados so os pares (u
i
, v
i
). Para
utilizar o teste dos Sinais, passamos amostra X
i
= U
i
- V
i
, admitimos que X
i
tem
distribuio absolutamente contnua H(.) e as hipteses que pretendemos testar so
relativamente a esta funo. Uma hiptese que tem interesse testar a de que a
mediana de X assume um determinado valor, que, sem perda de generalidade,
assumimos ser 0. Ento, pretende-se testar
H
0
:
5 0.
(H)=0 contra H
1
:
5 0.
(H)0
Repare-se que a hiptese nula equivalente a considerar que P(X>0)=P(X<0)=1/2, ou
P(U>V)=P(U<V)=1/2 ou P(+)=P(-)=1/2 e como hipteses alternativas temos:
P(U>V)<P(U<V) P(+)>P(-)
5 0.
(H)>0
P(U>V)<P(U<V) P(+)<P(-)
5 0.
(H)<0
P(U>V) P(U<V) P(+)P(-)
5 0.
(H) 0
O teste dos sinais o mtodo no paramtrico, equivalente ao teste-t para amostras
emparelhadas.
Observao: Sempre que se verificarem ligaes, isto , valores u
i
=v
i
, esses valores
so desprezados, diminuindo-se a dimenso da amostra, do nmero de ligaes
existentes.
Exemplo 5.8 Os dados seguintes referem-se ao nmero de batimentos cardacos, por minuto, de 10
ratos quando ss ou quando na presena de outro rato. Pretende-se averiguar, se o facto de os ratos
estarem acompanhados, faz aumentar o ritmo cardaco:
Anlise de Dados 127


Rato
1 2 3 4 5 6 7 8 9 10
S (U)
463 462 462 456 450 426 418 415 409 402
Acomp. (V)
523 499 461 535 476 454 448 408 470 437
Vamos considerar a amostra x
i
=u
i
-v
i
, proveniente de uma v.a. X, com distribuio H, pretendendo-se
testar:
H
0
:
5 0.
(H)=0 contra H
1
:
5 0.
(H)<0
Estatstica de teste: S
10
|
Ho
B(10, 0.5)
Valor observado da estatstica de teste: s
10
=2. Chamamos a ateno para o facto de no ser necessrio
obter o valor dos x
i
, para calcular o valor observado da estatstica de teste, j que o que nos interessam
so os valores positivos. Assim, basta conhecer o sinal da diferena entre os u
i
e os v
i
, como se
exemplifica a seguir, acrescentando mais uma linha tabela anterior:
Rato
1 2 3 4 5 6 7 8 9 10
S (U)
463 462 462 456 450 426 418 415 409 402
Acomp. (V)
523 499 461 535 476 454 448 408 470 437

- - + - - - - + - -
P-value: P=P(S
10
2)
Ho
=0.0547
Deciso: Rejeitar H
0
para 5.47%, isto , para valores do nvel de significncia superiores a 5.45%, h
evidncia para afirmar que os batimentos cardacos aumentam, quando os ratos esto acompanhados.
5.3.3 Teste de Wilcoxon
Ao ignorar a amplitude da diferena entre as observaes e o quantil especificado na
hiptese nula, o teste dos Sinais est a desprezar grande parte da informao
disponvel na amostra.
O teste de Wilcoxon um teste alternativo ao teste dos Sinais, para populaes
contnuas e simtricas, em que se pretende testar o seguinte:
H
0
:
5 0.
(F)=
0
contra H
1
:
5 0.
(F)>
0
ou
H
1
:
5 0.
(F)<
0
ou
H
1
:
5 0.
(F)
0

Anlise de Dados 128


Sem perda de generalidade, vamos considerar
0
=0, pois caso isso no se verifique,
considera-se a amostra {X
i
-
0
}.
Como nas populaes simtricas a mediana e o valor mdio coincidem, neste teste
podemos falar indiferentemente de valor mdio ou mediana.
Para obter as estatsticas de teste, necessrio entrar com o conceito de ordem:
Considera-se a amostra X
1
, X
2
, ..., X
n
;
Considera-se a amostra das estatsticas ordinais X
1:n
<X
2:n
<...<X
n:n
(no
admitimos ligaes);
Chama-se ordem de X
j
ao valor R
j
tal que X
Rj:n
=X
j
, para 1jn.
Uma vez o conceito de ordem definido, vejamos como obter as estatsticas de
Wilcoxon:
1. Ordena-se a amostra Y
j
=|X
j
|, onde (X
1
, X
2
, ..., X
n
) a amostra dada
(estamos a admitir que
0
=0), onde Y
j
0 e no existem ligaes;
2. Associa-se a cada Y
j
a sua ordem R
j
, 1jn, mantendo-se informao
sobre o sinal original de X
j
, 1jn.
As estatsticas de Wilcoxon so:
+
n
T = soma das ordens correspondentes aos Xs positivos
= ) I(X R
i i
=
n
i 1
em que I(t)=
<
>
0 t 0
0 t 1

n
T = soma das ordens correspondentes aos Xs negativos
T
n
= max(
+
n
T ,

n
T )
As estatsticas
+
n
T e
n
T esto linearmente relacionadas, j que
+
n
T +

n
T =
2
1) n(n +
,
fornecendo, portanto, critrios equivalentes. Vamos considerar a estatstica
+
n
T , e
comecemos por fazer as seguintes consideraes.
Sob a validade de H
0
, de esperar que a soma das ordens positivas no difira
grandemente da soma das ordens negativas. Uma soma grande para as ordens
positivas (negativas), relativamente soma das ordens negativas (positivas), implica
Anlise de Dados 129


que a mediana tenha uma pequena probabilidade de ser igual a zero. Ento, se
considerarmos a estatstica de teste
+
n
T , como nos propusemos, vejamos quais as
diferentes regies de rejeio, face s alternativas usuais:
H
0
H
1
Regio de rejeio
5 0.
(F)= 0
5 0.
(F)> 0
+
n
T c

5 0.
(F)< 0
+
n
T
'
c

5 0.
(F) 0
+
n
T
*
c
ou
+
n
T
'*
c

Exemplo 5.9 Considerando a populao constituda pelas percentagens de pessoas com idade maior
ou igual a 60 anos, nos diferentes pases, retirou-se desta populao uma amostra de dimenso 12,
cujos elementos so: 4.9, 6.0, 6.9, 17.6, 4.5, 12.3, 5.7, 5.3, 9.6, 13.5, 15.7, 7.7. Admitindo a simetria da
populao, teste se existe evidncia para duvidar que a mediana da populao seja igual a 12.
Pretende-se ento realizar o seguinte teste:
H
0
:
5 0.
(F)= 12 contra H
1
:
5 0.
(F) 12

O valor da estatstica de teste igual a 14. Por outro lado
+
12
T +

12
T =12*13/2=78, pelo que verificamos
que o valor observado para a estatstica de teste demasiado pequeno para o que estvamos espera
se a hiptese nula fosse verdadeira! Efectivamente, se H
0
fosse verdadeira, esperaramos obter um valor
Anlise de Dados 130


para a estatstica de teste volta de 39. Precisamos ento de calcular a probabilidade de obter um valor
igual ou mais pequeno do que o valor observado para a estatstica de teste, ou seja, P(
+
12
T 14H
0
), mas
para isso necessrio conhecer a distribuio de amostragem de
+
12
T . Admitindo, para j, a existncia de
uma tabela com essa distribuio, verificamos que P(
+
12
T 14H
0
)=0.026. Ento o P-value igual a
0.052, pelo que a deciso a tomar a de rejeitar a hiptese nula para 5.2%.
5.3.3 1 Distribuio de amostragem de
+
n
T
Para obter a distribuio de amostragem de
+
n
T , vamos introduzir as seguintes variveis
aleatrias:
Z
(i)
=
=
contrrio caso
positivo X um a e correspond i ordem com X Y o se
j j j
0
1

Ento, em termos dos Z
(i)
, a estatstica de teste
+
n
T vem
+
n
T =
=
n
1 i
(i)
Z i
Vamos comear por obter a distribuio assinttica de
+
n
T , pelo que temos de calcular
(caso existam!) o seu valor mdio e varincia, sob H
0
:
E(
+
n
T )= ) E(Z i
(i)
n
1 i
=

E(Z
(i)
) = 1.P(Z
(i)
=1) = P(Y
i:n
corresponder a um X
j
positivo) = 1/2 (porque sob H
0
P(X
j
<0)=P(X
j
>0)=1/2)
Var(Z
(i)
) = E(Z
(i)
2
) E
2
(Z
(i)
) = E(Z
(i)
) E
2
(Z
(i)
) = 1/4
Ento
E(
+
n
T )=
4
1) n(n
i
n
1 i
+
=
=
2
1

Var(
+
n
T )=
24
1) 1)(2n n(n
i
n
1 i
2
+ +
=
=
4
1

Anlise de Dados 131


Distribuio assinttica de
+
n
T
Para n grande a condio de Lindeberg satisfeita, pelo que sendo vlida uma
generalizao do teorema limite central, vem que, sob H
0
, a distribuio de
24
1) 1)(2n n(n
4
1) n(n
T
n
+ +
+
+
pode ser aproximada pela distribuio N(0,1)
Distribuio exacta de
+
n
T
Para o caso de n ser pequeno, a distribuio de
+
n
T fica completamente identificada
pelos z
(i)
, i=1, 2, ..., n, pelo que o espao amostral pode ser considerado como o
conjunto dos 2
n
n-nuplos (z
(1)
, z
(2)
, ..., z
(n)
) onde cada z
(i)
=0 ou 1.
Ento, sob H
0
:
1.
+
n
T =0 se todos os X
i
s forem negativos (z
(i)
=0, i=1, 2, ..., n);
2.
+
n
T =
2
1) n(n +
se todos os X
i
s forem positivos (z
(i)
=1, i=1, 2, ..., n);
3.
+
n
T simtrica em torno do seu valor mdio
4
1) n(n +
;
4. P(
+
n
T =k)=
n
2
n e 1 entre distintos inteiros somando k
obter pode se como possveis modos de n
)
`
=
n
2
n(k)

Exemplifiquemos para o caso de n=3:
k T
3
=
+

(z(1), z(2), z(3)) n(k)
P( k T
3
=
+
)
0 (0, 0, 0) 1 1/8
1 (1, 0, 0) 1 1/8
2 (0, 1, 0) 1 1/8
3 (1, 1, 0)
(0, 0, 1)
2 2/8
4 (1, 0, 1) 1 1/8
5 (0, 1, 1) 1 1/8
6 (1, 1, 1) 1 1/8
Anlise de Dados 132


Observao: Como a v.a. simtrica relativamente ao seu valor mdio, bastaria
calcular a tabela anterior para os valores de k=0, 1, 2 e 3, uma vez que E(
+
3
T )=3.
Para valores de n pequenos, a distribuio exacta da estatstica
+
n
T encontra-se
tabelada. Se esta distribuio j no se encontrar tabelada para um determinado valor
de n, significa que podemos utilizar a distribuio assinttica.
No incio da definio da estatstica de teste de Wilcoxon, dissemos que no se
admitiam ligaes, assim como os elementos da amostra eram diferentes da mediana.
Na realidade, tem sentido fazer estas hipteses, j que se a distribuio da populao
em estudo contnua, a probabilidade de obter dois valores iguais, assim como a
probabilidade de obter valores iguais a um valor prefixado, so nulas. Na prtica a
situao diferente, uma vez que ao medirmos uma varivel contnua, necessitamos
de a discretizar, o que faz com que surjam observaes iguais entre si ou iguais
mediana. No caso de existirem ligaes, substitumos as ordens desses elementos,
pela mdia das ordens que teriam se diferissem ligeiramente uns dos outros, mas a
distribuio de amostragem da estatstica de teste j no a mesma. Vejamos o caso
simples de n=4 e de o 1 e 2 elementos y
1:4
e y
2:4
serem iguais, a que atribumos a
mdia das ordens 1 e 2, ou seja 1.5:
k T
4
=
+

0 1.5 3 4 4.5 5.5 6 7 8.5 10
P( k T
4
=
+
)
1/16 2/16 2/16 1/16 2/16 2/16 1/16 2/16 2/16 1/16
O valor mdio o mesmo, que no caso de no haver ligaes, ou seja E(
+
4
T )=5, mas a
varincia vem igual a Var(
+
4
T )=7.375, enquanto que no caso de no haver ligaes viria
igual a 7.5 (=4*5*9/24). Efectivamente, se representarmos as ordens, no caso de haver
ligaes, por r
i
, tem-se que E(
+
n
T )=
2
1
=
n
1 i
i
r =
2
1
=
n
1 i
i , mas Var(
+
n
T )=

=
n
1 i
2
i
r
4
1

=
n
1 i
2
i
4
1
.
Na prtica, como as varincias no diferem muito, utiliza-se a distribuio da estatstica,
como se no houvesse ligaes.
Relativamente aos valores observados que possam surgir iguais mediana, usual
desprez-los, diminuindo do mesmo nmero de unidades, a dimenso da amostra.
Anlise de Dados 133


Exemplo 5.10 (Adaptado de Murteira, B., 2002) Os dados do quadro seguinte constituem uma
amostra de observaes da precipitao anual em Beja. Pensa-se que a mediana da populao igual a
650 mm. Verifique se existem razes para duvidar desta hiptese.
607.4 592.8 513.3 602.3 809.1
809.1 345.4 527.4 672.0 721.8
488.8 620.0 497.6 581.1 533.9
481.1 407.7 728.4 464.0 384.2
Seja X a v.a. que representa a precipitao anual em Beja. Ento, pretende testar-se
H
0
: P(X<650)=P(X>650)=1/2 contra H
1
:P(X<650)P(X>650)
Vamos utilizar este exemplo para o resolver pelo teste dos Sinais e pelo teste de Wilcoxon e comparar os
resultados.
Seja S
20
a v.a. que representa o n de elementos da amostra maiores que 650, ou seja, o n de sinais
positivos nas diferenas (x
i
-mediana). Sob H
0
, S
20
tem uma distribuio Binomial(20,0.5). Na tabela
anterior acrescentmos os sinais das diferenas
607.4(-) 592.8(-) 513.3(-) 602.3(-) 809.1(+)
809.1(+) 345.4(-) 527.4(-) 672.0(+) 721.8(+)
488.8(-) 620.0(-) 497.6(-) 581.1(-) 533.9(-)
481.1(-) 407.7(-) 728.4(+) 464.0(-) 384.2(-)
obtendo o valor observado da estatstica de teste s
20
=5. Como se rejeita para valores grandes ou
pequenos da estatstica de teste, vem que P-value=2 P(S
20
5)=20.0207=0.0414, donde temos a
seguinte deciso:
Rejeitar H
0
para 4.14%.
Se pensarmos em termos da regio crtica, temos que para o nvel de significncia de 5%, ela
constituda pelos valores {0, 1, 2, 3, 4, 5, 15, 16, 17, 18, 19, 20}. Isto significa que nenhuma hiptese que
proponha uma mediana maior que 488.8 (observao de ordem 6, quando se considera a amostra
ordenada) ou menor que 620.0 (observao de ordem 15 quando se considera a amostra ordenada),
ser rejeitada para o nvel de significncia de 5%. Desta concluso podemos concluir que o intervalo
(488.8, 620.0) um intervalo de confiana, com uma confiana de 95% para a mediana.
Admitindo que a distribuio F da precipitao simtrica, vamos utilizar o teste de Wilcoxon na
resoluo deste problema. As hipteses a testar so as mesmas, embora as apresentemos com outro
aspecto:
H
0
:
5 0.
(F)= 650 contra H
1
:
5 0.
(F) 650
Anlise de Dados 134


O valor observado para a estatstica de teste foi 43, pelo que consultando a tabela da distribuio de
Wilcoxon, verificamos que P(
+
20
T 43)=0.01, donde o P-value =0.02, pelo que temos a seguinte deciso:
Rejeitar H
0
para 2%.
Comparando com o resultado obtido pelo teste dos Sinais, verificamos que agora rejeitamos mais vezes,
o que no deve estranhar, pois este teste foi realizado na posse de mais informao: no s admitimos a
simetria da distribuio, como utilizmos mais informao fornecida pelos dados.
5.3.3.2 Teste de Wilcoxon para amostras emparelhadas
O teste de Wilcoxon, como o teste dos Sinais, pode ser modificado para se aplicar a
amostras emparelhadas, quando se pretende comparar dois processos associados
amostra bivariada (U
i
, V
i
), i=1, 2, ..., n e cujos resultados observados so os pares (u
i
,
v
i
). Para utilizar o teste de Wilcoxon, passamos amostra X
i
= U
i
- V
i
, admitimos que X
i

tem distribuio absolutamente contnua H(.) e simtrica e as hipteses que
pretendemos testar so relativamente a esta funo. Uma hiptese que tem interesse
testar a de que a mediana ou valor mdio de X assume um determinado valor, que,
sem perda de generalidade, assumimos ser 0. Ento, pretende-se testar
H
0
:
5 0.
(H)=0 contra H
1
:
5 0.
(H)0
Anlise de Dados 135


5.3.3.3 O teste de Wilcoxon e o teste-t
O teste de Wilcoxon a verso no paramtrica do teste-t para uma nica amostra.
Existem estudos (Montgomery, 1999) que comparam os dois testes e que concluem
que, de um modo geral, o teste de Wilcoxon nunca muito pior do que o teste-t, e que
na maior parte das situaes em que a populao subjacente no Normal, pode ser
superior. Temos assim uma alternativa bastante til ao teste-t.
5.4. Testes de hipteses em modelos no paramtricos para testar a
homogeneidade de vrias populaes independentes
5.4.1 Comparao de duas populaes independentes
5.4.1.1 Teste de Mann-Whitney Wilcoxon
Consideremos duas populaes contnuas X e Y, independentes, em que assumimos
que as suas distribuies tm a mesma forma e variabilidade, s diferindo na
localizao. Face a duas amostras independentes, pretende testar-se a sua
homogeneidade, isto , dadas as amostras independentes (X
1
, X
2
, ..., X
m
) e (Y
1
, Y
2
, ...,
Y
n
), respectivamente de X e Y, pretende testar-se
H
0
:F
X
(x)=G
Y
(x) x contra H
1
: alternativa unilateral ou bilateral
O processo que se vai considerar para arranjar uma estatstica dec teste, vai ser o de
considerar a amostra conjunta dos Xs e dos Ys, considerando-se para estatstica de
teste a v.a. que conta o n total de Ys que so maiores que os X
i
, i=1, 2, ..., m. Assim,
considerando
Z
ij
=
>
i j
i j
X Y
X Y
0
1
para i=1, 2, ..., m; j=1, 2, ..., n
a estatstica de Mann-Whitney-Wilcoxon dada por
W
m,n
=
= =
m
i
n
j
ij
Z
1 1
cujo domnio de variao o intervalo [0, mn]
Vejamos ento qual a regra de teste, de acordo com a alternativa especificada:
Anlise de Dados 136


H
0
H
1
Regio de rejeio
F
X
(x)=G
Y
(x) x F
X
(x)G
Y
(x) x e para W
m,n
c

algum x, F
X
(x)>G
Y
(x)
F
X
(x)=G
Y
(x) x F
X
(x)G
Y
(x) x e para W
m,n
c

algum x, F
X
(x)<G
Y
(x)
F
X
(x)=G
Y
(x) x F
X
(x)G
Y
(x) para W
m,n

*
c
ou W
m,n
'*
c

algum x
Observao: Chamamos a ateno para o facto de que dizer que F>G equivalente a
dizer que X<Y, pois, como se verifica pela figura junta, dado um x qualquer, tem-se
P(Xx)>P(Yx) ou P(X>x)<P(Y>x), isto ,
se F>G, ento X toma valores menores
que x com maior probabilidade do que Y
toma valores menores que x, ou tem
menor probabilidade de tomar valores
maiores que x, do que Y.

Este facto faz com que, por exemplo, na primeira situao de teste considerada
anteriormente, se a hiptese alternativa em que admitimos que F>G, for verdadeira,
esperamos encontrar muitos Ys maiores que Xs, na amostra conjunta (j que X<Y),
ou seja um valor grande para a estatstica de teste. Assim, um valor grande para a
estatstica de teste leva-nos a rejeitar a hiptese nula. Sabemos que um valor grande
deve situar-se prximo de mn, mas para saber qual o ponto crtico que, para um
determinado nvel de significncia define a fronteira entre a regio de rejeio e a de
no rejeio, temos de conhecer a distribuio de amostragem da estatstica de teste.
5.4.1.1 1 Distribuio de amostragem de W
m,n

Vamos comear por obter a distribuio assinttica de W
m,n
, pelo que temos de calcular
o seu valor mdio e varincia, sob H
0
:
E(W
m,n
)=
= =
m
1 i
n
1 j
ij
) E(Z =
= =
>
m
1 i
n
1 j
i j
) X P(Y
Anlise de Dados 137


Var(W
m,n
)=
= = = =
m
1 i
n
1 j
hk ij
m
1 h
n
1 k
) Z , Z Cov(
Se H
0
verdadeiro, P(Y
j
>X
i
)=1/2, pelo que
E(W
m,n
)=
2
mn

No que diz respeito varincia, necessrio calcular E(Z
ij
Z
hk
), pelo que vamos
considerar o produto
Z
ij
Z
hk
=
< <
contrrio caso 0
Y X e Y X se 1
k h j i

Ento, sob H
0
, E(Z
ij
Z
hk
)=P(X
i
<Y
j
e X
h
<Y
k
)=P(X
i
<Y
j
) se i=h e j=k
=P(X
i
<Y
j
)
2
se ih, jk
=P(X
i
<Y
j
, X
h
<Y
j
) se ih, j=k ou i=h, jk
Para calcular as probabilidades anteriores, basta ter em considerao que, dados 3
elementos de uma amostra X
1
, X
2
e X
3
, P(X
1
< X
2
)=1/2 e P(X
1
<X
2
, X
3
<X
2
)=2/6=1/3.
Atendendo a que Cov(Z
ij
, Z
hk
)= E(Z
ij
Z
hk
) E(Z
ij
)E(Z
hk
), vem, sob H
0
:
Cov(Z
ij
, Z
hk
)= 0 se ih, jk
1/4 se i=h e j=k
1/12 se ih, j=k ou i=h, jk
Assim, para obter a varincia de W
m,n
, basta contar o n de termos em que se verificam
cada uma das situaes anteriores, e que :
Se i=h, j=k o n de termos mn
j=k, ih nm(m-1)
i=h, jk mn(n-1)
Finalmente temos que Var(W
m,n
)=
12
1) n mn(m + +

Resumindo, algumas propriedades da estatstica W
m,n
, so:
Anlise de Dados 138


Domnio: {0, 1, 2, ..., mn}
E(W
m,n
)=
2
mn

Var(W
m,n
)=
12
1) n mn(m + +

simtrica relativamente ao seu valor mdio. Assim, P(W
m,n
w)=P(W
m,n
mn-w)
Distribuio assinttica de W
m,n

Para valores elevados de m e n, embora as variveis Z
ij
sejam dependentes, i=1, ..., m;
j=1, ..., n, continua a ser vlido um teorema do tipo do teorema limite central, pelo que a
distribuio de amostragem de
12
1) n mn(m
2
mn
W
n m,
+ +
pode ser aproximada pela distribuio N(0,1)

A aproximao anterior vlida para valores suficientemente grandes de m e n e tais
que m/n, seja aproximadamente constante (os valores de m e n no devem diferir
muito).
Distribuio exacta de W
m,n

Para obter a distribuio exacta de W
m,n
sob a validade de H
0
, vamos representar a
funo massa de probabilidade por p
m,n
(k)=P(W
m,n
=k)=P[n de Z
ij
em que Y
j
>X
i
(na
amostra conjunta) igual a k], com K=0, 1, ..., mn. Considerando a amostra conjunta dos
Xs e dos Ys, vamos calcular a probabilidade anterior condicionando no maior valor
dessa amostra conjunta, fazendo o seguinte raciocnio:
O maior elemento da amostra conjunta pode ser um elemento pertencente amostra
dos Xs, o que ocorre com probabilidade
n m
m
+
(no esquecer que sob H
0
, existe
homogeneidade), ou pode ser um elemento pertencente amostra dos Ys, o que
ocorre com probabilidade
n m
n
+
. Por outro lado, para que W
m,n
venha igual a k:
Anlise de Dados 139


se o maior elemento for um X
i
, necessrio que a amostra constituda pelos
outros (m-1) Xs e n Ys, contribua com k Z
ij
nas condies exigidas;
se o maior elemento for um Y
j
, ele est a contribuir com m Z
ij
para k e
necessrio que os restantes m Xs e (n-1) Ys contribuam com (k-m).
Assim, p
m,n
(k)=P(W
m,n
=k)= P(o maior elemento ser um X)P(W
m-1,n
=k)+P(o maior
elemento ser um Y)P(W
m,n-1
=k-m)
p
m,n
(k)=
n m
m
+
p
m-1,n
(k)+
n m
n
+
p
m,n-1
(k-m)
A equao anterior, juntamente com as condies iniciais seguintes:
1. p
0,n
(0)=1
2. P
m,0
(0)=1
3. P
m,n
(k)=0, se k<0, e m,n0.
permite obter, de forma recursiva, a funo massa de probabilidade de W
m,n
. Para
valores pequenos de m e n, esta distribuio encontra-se tabelada. Se os valores de m
e n pretendidos j no estiverem nas tabelas, significa que podemos utilizar a
distribuio assinttica.
5.4.1.1 2 O teste de Mann-Whitney-Wilcoxon e o teste-t para duas amostras
O teste de Mann-Whitney-Wilcoxon a alternativa no paramtrica ao teste-t para duas
amostras independentes. Os resultados da comparao entre estes dois testes, so
idnticos aos referidos quando comparmos o teste de Wilcoxon e o teste-t para uma
nica amostra. Acresce ainda o facto de que o teste-t, na presena de distribuies com
caudas pesadas, tem um comportamento muito instvel pois depende muito das
mdias amostrais, as quais so medidas pouco resistentes (Montgomery, 1999). Neste
caso o teste de Mann-Whitney-Wilcoxon uma boa alternativa.
Exemplo 5.11 Dezassete estudantes foram escolhidos aleatoriamente para participarem num
projecto de investigao educacional. Assim, enquanto 8 estudantes seguiram um curso tradicional de
aprendizagem de uma lngua, os restantes seguiram um curso de auto aprendizagem com cassetes
vdeo. Ao fim de 4 semanas realizaram um teste, tendo-se obtido os seguintes resultados:
Mtodo tradicional: 75 82 28 82 94 78 76 64
Anlise de Dados 140


Mtodo auto aprendizagem: 78 95 63 37 48 74 65 77 63
Teste se existe evidncia de diferena significativa entre os dois mtodos.
Resoluo: Representando por X e Y, respectivamente, os resultados obtidos pelo mtodo tradicional e
pelo mtodo de auto aprendizagem, com funes de distribuio F e G, respectivamente, pretendemos
testar
H
0
: F
X
(x)=G
Y
(x) x contra H
1
: F
X
(x)G
Y
(x) para algum x
Estatstica de teste: A v.a. W
8,9
, que representa o nmero de vezes que os Ys so superiores aos Xs, na
amostra conjunta. Para obter o valor observado para a estatstica de teste, uma metodologia possvel a
seguinte:
1 passo: o primeiro y que surge na amostra dos ys, ou seja o 78, superior a 4 XS;
2 passo: o segundo y que surge na amostra os ys, ou seja o 95, superior a 8 xs;
....
9 passo: o ltimo y que surge na amostra os ys, ou seja o 63, superior a 1 xs.
Ento, o valor observado da estatstica de teste
w
8,9
=4+8+1+1+1+2+2+4+1=24
os valores que a estatstica de teste pode assumir, variam entre 0 e 72, pelo que se rejeitarmos H
0
, ser
porque 24 um valor demasiado pequeno, pelo que precisamos de calcular P(W
8,9
24)

As tabelas disponveis s apresentam a P(W
m,n
>w),
donde P(W
8,9
24)=P(W
8,9
72-24)=P(W
8,9
>47)
Da consulta das tabelas, verificamos que
P(W
8,9
)>600.01 e que P(W
8,9
)>49) 0.10, pelo
que conclumos que P(W
8,9
>47)>0.10 e temos um
P-value>20%.
Deciso: No temos razo para duvidar que os dois mtodos sejam idnticos.
Exemplo 5.12 Dois plsticos, cada um produzido pelo seu processo foram testados para avaliar a
sua resistncia. As medidas a seguir representam as foras necessrias para danificarem vrios pedaos
idnticos dos dois tipos de plstico. Haver razes para acreditar que o plstico 2 mais forte que o
plstico 1?
Plstico 1: 15.3 18.7 22.3 17.6 19.1 14.8
Plstico 2: 21.1 22.4 18.3 19.3 17.1 37.7
Representando por F
1
e F
2
, respectivamente a distribuio da fora necessria para danificar o plstico 1
e o plstico 2, pretendemos testar:
H
0
: F
1
(x)=F
2
(x) x contra H
1
: F
1
(x) F
2
(x) x e para algum x F
1
(x)> F
2
(x)
Estatstica de teste: A v.a. W
6,6
, que representa o nmero de vezes que os valores da amostra 2 so
superiores aos valores da amostra 1, quando se considera a amostra conjunta. O valor observado da
estatstica de teste w
6,6
=5+6+3+5+2+6=27.
Anlise de Dados 141


Rejeitamos a hiptese nula para valores grandes da estatstica de teste, pelo que pretendemos calcular
P(W
6,6
27), ou seja P(W
6,6
>26). Da consulta das tabelas
P(W
6,6
>26)=.10

Deciso: Para o nvel de significncia de 10%, rejeitamos a hiptese dos dois tipos de rao serem
idnticos. J no rejeitamos para 5% ou 1%.
Exemplo 5.13 Temos dois tipos de alimentao para porcos A e B, tendo-se comeado a desconfiar
que a rao de tipo A melhor que a de tipo B. Com base em amostras de pesos de porcos, com a
mesma idade e da mesma ninhada, mas em que uns foram alimentados com a rao A e os outros com
a rao B, verifique se a desconfiana tem razo de ser:
Rao A: 73 42 90 58 62
Rao B: 50 23 68 40 45
Resoluo: Pretende-se testar
H
0
: F
A
(x)=F
B
(x) x contra H
1
: F
A
(x)F
B
A
(x)<F
B
(x)
Estatstica de teste: W
5,5
que representa o nmero de vezes que os pesos Bs so superiores aos As.
Valor observado da estatstica de teste: w
5,5
=1+3+1=5
Rejeitamos a hiptese nula para valores pequenos da estatstica de teste, pelo que pretendemos calcular
P(W
5,5
5), ou seja P(W
5,5
5)=P(W
5,5
25-5)=P(W
5,5
20)=P(W
5,5
>19). Da consulta das tabelas
P(W
5,5
>19)=.10
P(W
5,5
>20)=.05

Assim P(W
5,5
5)=P(W
5,5
<6)= P(W
5,5
>19)=0.10
Deciso: Para o nvel de significncia de 10%, rejeitamos a hiptese dos dois tipos de rao serem
idnticos. J no rejeitamos para 5% ou 1%.
5.4.1.1 3 Forma alternativa para a estatstica de Mann-Whitney-Wilcoxon
Por vezes, como estatstica de Mann-Whitney-Wilcoxon, utiliza-se uma outra estatstica,
que consiste em considerar a v.a.
T
m.n
=
=
n
1 i
i
) R(Y = soma das ordens dos Ys na amostra conjunta
Como R(Y
i
)=(n de Xs <Y
i
)+ordem de Y
i
nos Ys, vem que
T
m,n
=
=
n
1 i
i
) R(Y =
=
<
n
1 i
i
) Y s X' de n +
2
1) n(n +
, donde
Anlise de Dados 142


T
m,n
=W
m,n
+
2
1) n(n +

Observao: O clculo directo do valor mdio e da varincia de T
m,n
, prende-se com o
seguinte problema: Considerem-se N bolas numa urna, numeradas de 1 a N. Uma a
uma, retiram-se n dessas bolas, com n<N. Seja T a soma dos nmeros das n bolas
retiradas. Assumindo que as tiragens so aleatrias, calcular o valor mdio e a
varincia de T.
Podemos considerar T como a soma de n variveis aleatrias X
1
, X
2
, ..., X
n
, onde cada
X
i
o nmero da i-sima bola extrada:
X
i

= =
=

N
) k X ( P
N ,..., , k k
i
1
2 1

Ento E(X
i
)=
2
1 1
1
+
=
=
N
N
k
N
i
, pelo que E(T)=n
2
1 + N

Quanto Var(T)=

= = =
+
n
i
n
i
n
j
j i i
) X , X ( Cov ) X ( Var
1 1 1
(ij) (1)
Pode-se mostrar (Conover, pag 37 e segs) que
Var(X
i
) =
12
1 1 ) N )( N ( +
e Cov(X
i
, X
j
)=-
12
1 + N

Como na expresso (1) o termo que contm a varincia aparece n vezes e o que
contm a covarincia aparece n(n-1) vezes, vem que
Var(T)=n
12
1 1 ) N )( N ( +
+n(n-1)(-
12
1 + N
)
=
12
1 ) n N )( N ( n +

Exemplo 5.13 Considere duas amostras independentes X
1
, X
2
, X
3
e Y
1
, Y
2
e a estatstica de teste
T
3,2
, anteriormente considerada. Determine a sua distribuio de amostragem.
Resoluo: Vamos considerar uma matriz, onde indicamos as ordens possveis para Y
1
e para Y
2
, na
amostra conjunta, preenchendo a tabela com a soma dessas ordens, como se apresenta a seguir
Anlise de Dados 143


OrdemY1
Ordem Y2

1

2

3

4

5
1 X 3 4 5 6
2 2 X 3 4 5
3 4 5 X 7 8
4 5 6 7 X 9
5 6 7 8 9 x
Ento a funo massa de probabilidade para a estatstica vem
T
3,2
=k 3 4 5 6 7 8 9
P(T
3,2
=k) .1 .1 .2 .2 .2 .1 .1

5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras
Consideremos duas populaes contnuas X e Y, independentes, e duas amostras X
1
,
X
2
, ..., X
m
e Y
1
, Y
2
, ..., Y
n
, respectivamente de X e Y. Com base nestas amostras
pretende-se testar a homogeneidade das populaes subjacentes. No teste de
ajustamento de K-S, considermos uma estatstica de teste baseada na diferena entre
a funo distribuio emprica construda a partir da amostra dada, e a funo
distribuio da populao subjacente amostra. Agora vamos considerar uma
estatstica de teste construda com base na diferena das funes de distribuio
empricas construdas a partir das amostras dadas.
1. Processo para obter a estatstica de teste
Comeam por se considerar as estatsticas ordinais e as funes de distribuio
empricas:
X
1:m
, X
2:m
, ..., X
m:m
e 1 - m 1,..., k
X x se 1
X x X se
m
k
X x se
) x ( F
m : m
m : k m : k
m :
*
m
=
<
<
=
+
1
0

e
Y
1:n
, Y
2:n
, ..., Y
n:n
e 1 - n 1,..., k
Y x se 1
Y x Y se
n
k
Y x se
) x ( G
n : n
n : k n : k
n :
*
n
=
<
<
=
+
1
0

2. Estatsticas de teste
Anlise de Dados 144


D
m,n
= ) x ( G ) x ( F sup
*
n
*
m
x

=
+
n , m
D | | ) x ( G ) x ( F sup
*
n
*
m
x

=
n , m
D | | ) x ( F ) x ( G sup
*
m
*
n
x

3. Regra de teste para o nvel de significncia
Considerando como hiptese nula
H
0
: As duas amostras so provenientes de populaes homogneas, ou seja
F
X
(x)=G
Y
(x), x, temos as seguintes hipteses alternativas e as respectivas regies de
rejeio:
a) H
1
: F
X
(x)G
Y
(x) para algum x
Utiliza-se a estatstica D
m,n
e rejeita-se H
0
quando D
m,n
D
m,n,
onde P(D
m,n
D
m,n,
)
b) H
1
: F
X
(x) G
Y
X
(x) >G
Y
(x)
+
n , m
D e rejeita-se H
0
quando
+
n , m
D
+
, n , m
D onde P(
+
n , m
D
+
, n , m
D )
c) H
1
: F
X
(x) G
Y
X
(x) <G
Y
(x)
n , m
D e rejeita-se H
0
quando
n , m
D

, n , m
D onde P(

n , m
D

, n , m
D )
4. Distribuio das estatsticas de teste
As distribuies das estatsticas de teste encontram-se tabeladas para pequenas
amostras.
Exemplo 5.14 Com o objectivo de estudar o efeito de determinado medicamento, foram recolhidas
amostras de dois grupos de indivduos um grupo de controlo, a quem foi dado um placebo e outro
grupo a quem foi administrado o medicamento. Os dados obtidos referem-se a uma variao de uma
determinada substncia existente na urina, relativamente a um valor padro:
Grupo de controlo: 0.22, -0.87, -2.39, -1.79. 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10,
0.30, 0.15, 2.30, 0.19, -0.50, -0.09
Grupo de tratamento: -5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, -
5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50
Verifique se existe evidncia de que o tratamento tenha efeito, para um nvel de significncia de 5%.
Resoluo: Representando por F
C
e G
T
, respectivamente as funes de distribuio das populaes de
onde foram recolhidas as amostras de controlo e de tratamento, vamos fazer o teste bilateral, pelo que as
hipteses a testar so:
H
0
: F
C
(x)=G
T
(x) x contra H
1
: F
C
(x)G
T
(x) para algum x
Anlise de Dados 145


As funes de distribuio emprica so:
*
F
20
(x)= 0 x<-2.39
*
G
20
(x)=0 x<-5.80
0.05 -2.39x<-1.79 0.05 -5.80x<-5.10
0.10 -1.79x<-1.54 0.10 -5.10x<-3.80
0.15 -1.54x<-1.10 0.15 -3.80x<-3.30
0.20 -1.10x<-0.87 0.20 -3.30x<-3.10
0.25 -0.87x<-0.74 0.25 -3.10x<-2.40
0.30 -0.74x<-0.62 0.30 -2.40x<-2.20
0.35 -0.62x<-0.50 0.35 -2.20x<-0.40
0.40 -0.50x<-0.31 0.40 -0.40x<0.07
0.45 -0.31x<-0.17 0.45 0.07x<0.50
0.50 -0.17x<-0.09 0.50 0.50x<1.63
0.55 -0.09x<0.15 0.55 1.63x<2.58
0.60 0.15x<0.19 0.60 2.58x<3.50
0.65 0.19x<0.22 0.65 3.50x<3.76
0.70 0.22x<0.30 0.70 3.76x<4.32
0.75 0.30x<0.37 0.75 4.32x<4.87
0.80 0.37x<0.38 0.80 4.87x<5.18
0.85 0.38x<1.28 0.85 5.18x<5.76
0.90 1.28x<1.72 0.90 5.76x<6.31
0.95 1.72x<2.3 0.95 6.31x<7.11
1.00 2.3x 1.00 7.11x
Ento
*
F
20
(x) -
*
G
20
(x)= 0 x<-5.80
-0.05 -5.80x<-5.10
-0.10 -5.10x<-3.80
-0.15 -3.80x<-3.30
-0.20 -3.30x<-3.10
-0.25 -3.10x<-2.40
-0.30 -2.40x<-2.39
-0.25 -2.39x<-2.20
-0.30 -2.20x<-1.79
-0.25 -1.79x<-1.54
-0.20 -1.54x<-1.10
-0.15 -1.10x<-0.87
-0.10 -0.87x<-0.74
-0.05 -0.74x<-0.62
0 -0.62x<-0.50
0.05 -0.50x<-0.40
0 -0.40x<-0.31
0.05 -0.31x<-0.17
0.10 -0.17x<-0.09
0.15 -0.09x<0.07
0.10 0.07x<0.15

0.15 0.15x<0.19
0.20 0.19x<0.22
0.25 0.22x<0.30
0.30 0.30x<0.37
0.35 0.37x<0.38
0.40 0.38x<0.50
0.35 0.50x<1.28
0.40 1.28x<1.63
0.35 1.63x<1.72
0.40 1.72x<2.30
0.45 2.30x<2.58
0.40 2.58x<3.50
0.35 3.50x<3.76
0.30 3.76x<4.32
0.25 4.32x<4.87
0.20 4.87x<5.18
0.15 5.18x<5.76
0.10 5.76x<6.31
0.05 6.31x<7.11
0 7.11x

O valor observado da estatstiva de teste d
20,20
=0.45, como se pode verificar da diferena entre as
funes de distribuio empricas, anteriormente considerada, e se pode visualizar na figura seguinte,
onde esto representadas graficamente essas funes:
Anlise de Dados 146


Consultando uma tabela da distribuio D
20,20
, verificamos que P(D
20,20
0.45)=0.02. Ento rejeitamos a
hiptese nula para 2%, pelo que rejeitamos a hittese de que o tratamento no tem efeito, para o nvel
de significncia de 5%.
5.4.2 Comparao de mais de duas populaes independentes
5.4.2.1 Teste de Kruskal-Wallis
Consideremos p (3) populaes contnuas, independentes, X
1
, X
2
, ..., X
p
, com funes
distribuio F
1
, F
2
, ..., F
p
, de onde se recolheram, respectivamente, as amostras
X
11
, X
12
, ...,
1
1n
X
X
21
, X
22
, ...,
2
2n
X
...
X
p1
, X
p2
, ...,
p
pn
X
Com base nas amostras anteriores, pretende-se testar a hiptese nula de que as p
populaes so homogneas, contra a hiptese alternativa, de que pelo menos uma
das populaes fornece observaes maiores ou menores.
Para obter a estatstica de teste, do mesmo modo que para o teste de Mann-Whitney,
vamos considerar a amostra conjunta, constituda pelas p amostras. No entanto, a partir
daqui vamos trabalhar com as ordens das observaes, quando consideradas na
amostra conjunta, pelo que deixaremos de trabalhar com os dados originais. Vamos
delinear, a seguir, a filosofia que est por detrs do teste de Kruskal-Wallis.
Seja N a soma das dimenses das p amostras, N=
=
p
i
i
n
1
, e representemos por R(X
ij
),
i=1,...,p; j=1,...,n
i
, a ordem de X
ij
, na ordenao das N observaes, onde, se existirem
ligaes, se associa a mdia das ordens. Representemos ainda por R
1
, R
2
, ..., R
p
, a
Anlise de Dados 147


soma das ordens das obervaes correspondentes, respectivamente, s amostras 1, 2,
..., p:
R
i
=
=
i
n
j
ij
) X ( R
1
, i=1, 2, ..., p
Se a hiptese nula for verdadeira, esperamos que a distribuio das ordens pelas
diferentes amostras se faa aleatoriamente, pelo que nem as ordens pequenas, nem as
ordens grandes tero tendncia em concentrar-se numa das amostras. Assim, se se
verificar a homogeneidade entre as populaes, esperamos que as p somas das ordens
das observaes das p amostras, que representmos por R
i
, sejam aproximadamente
iguais, depois de devidamente ajustadas para entrar em linha de conta com as
diferentes dimenses das amostras. Intuitivamente, uma possvel estatstica de teste,
poderia ser uma estatstica que determinasse se as somas das ordens no so
substancialmente diferentes das que obteramos se considerssemos populaes
idnticas. Ento, sob a hiptese de homogeneidade, temos que
E(R
i
) = E(
=
i
n
j
ij
) X ( R
1
) = ) ) X ( R ( E
i
n
j
ij
=1
=

= =
N
i
n
j
i
N
i
1 1
1
=
2
1) N ( n
i
+

e vamos considerar uma estatstica que consiste na soma ponderada dos quadrados
dos desvios entre as somas das ordens e o valor mdio anterior, utilizando como
coeficiente de ponderao os inversos das dimenses das amostras:
D=
2
1
2
1 1
=
(
p
i
i
i
i
) N ( n
R
n

Pode-se mostrar que E(D) =
12
1) (N N 1) (p +
, utilizando-se ento como estatstica de
teste de Kruskal-Wallis a estatstica D
) N ( N 1
12
+
, que se representa por
p
n ,..., n , n
K
2 1
e que se
costuma apresentar com o seguinte aspecto:
p
n ,..., n , n
K
2 1
=

=
+
p
i i
i
n
R
) N ( N
1
2
1
12
-3(N+1)
Anlise de Dados 148


com valor mdio (p-1), independente das dimenses das amostras. A frmula anterior
obtm-se no pressuposto de que no existem ligaes. Caso isso acontea,
necessrio introduzir uma correco, pelo que a estatstica de teste a utilizar ser:
p
n ,..., n , n
K
2 1
=
2
1
S
)
`
=
p
i i
i
) N ( N
n
R
1
2 2
4
1

onde S
2
=
)
`

= =
p
i
n
j
ij
i
) N ( N
) X ( R
N
1 1
2
2
4
1
1
1

A distribuio de amostragem exacta (1), da estatstica de teste, para valores pequenos
das dimenses das amostras, encontra-se tabelada. Se n
i
5 para algum i, i=1,..., p,
ento a distribuio da estatstica de teste pode ser aproximada pela distribuio do
Qui-quadrado, com (p-1) graus de liberdade (2).
Como regra de teste, rejeita-se a hiptese nula para valores grandes da estatstica de
teste, ou seja, para o nvel de significncia , rejeita-se H
0
, quando o valor observado
da estatstica de teste for superior a um valor
, n ,..., n , n
p
k
2 1
, onde P(
p
n ,..., n , n
K
2 1

, n ,..., n , n
p
k
2 1
).
Alternativamente, face ao valor observado
0
2 1 p
n ,..., n , n
K da estatstica de teste, calcula-se o
P-value, ou seja, P=P(
p
n ,..., n , n
K
2 1

0
2 1 p
n ,..., n , n
K ) e rejeita-se H
0
para P.
(1) Distribuio de amostragem exacta para a estatstica de Kruskal-Wallis
Para obter a distribuio exacta da estatstica de teste
p
n ,..., n , n
K
2 1
, basta ter presente que,
sob H
0
, todos os arranjos das ordens de 1 at N, em grupos de tamanhos n
1
, n
2
, ..., n
p
,
so igualmente provveis. Calcula-se para cada um o valor da estatstica de teste e
assim se obtm a f.m.p da estatstica. No caso particular de p=3, n
1
=2, n
2
=1 e n
3
=1,
vem :
Arranjo Amostra
1(X
1
,X
2
) Ordens 2 (Y) Ordem 2(Z) Ordem K
2,1,1

1 e 2 (X
1
,X
2
) ou (X
2
,X
1
) (1,2) 3 4 2.7
3 e 4 (X
1
,X
2
) ou (X
2
,X
1
) (1,2) 4 3 2.7
5 e 6 (X
1
,X
2
) ou (X
2
,X
1
) (1,3) 2 4 1.8
7 e 8 (X
1
,X
2
) ou (X
2
,X
1
) (1,3) 4 2 1.8
9 e 10 (X
1
,X
2
) ou (X
2
,X
1
) (1,4) 2 3 0.3
11 e 12 (X
1
,X
2
) ou (X
2
,X
1
) (1,4) 3 2 0.3
13 e 14 (X
1
,X
2
) ou (X
2
,X
1
) (2,3) 1 2 2.7
15 e 16 (X
1
,X
2
) ou (X
2
,X
1
) (2,3) 2 1 2.7
17 e 18 (X
1
,X
2
) ou (X
2
,X
1
) (2,4) 1 3 1.8
Anlise de Dados 149


19 e 20 (X
1
,X
2
) ou (X
2
,X
1
) (2,4) 3 1 1.8
21 e 22 (X
1
,X
2
) ou (X
2
,X
1
) (3,4) 1 2 2.7
23 e 24 (X
1
,X
2
) ou (X
2
,X
1
) (3,4) 2 1 2.7
Da tabela anterior obtm-se para K
2,1,1
a seguinte funo massa de probabilidade:
K
2,1,1
=k 0.3 1.8 2.7
P(K
2,1,1
=k) 4/24 8/24 12/24
Como se disse anteriormente, para obter a distribuio de amostragem da estatstica de
Kruskal-Wallis, no ser necessrio utilizar o processo anterior, pois embora simples,
trabalhoso, mesmo para o caso de valores pequenos das dimenses das amostras, j
que estas distribuies se encontram tabeladas.
(2) Distribuio de amostragem assinttica para a estatstica de Kruskal-Wallis
Na expresso da estatstica de teste temos R
i
, que a soma de n
i
variveis aleatrias,
pelo que para n
i
suficientemente grande, pelo Teorema Limite Central, a distribuio de
) R ( Var
) R ( E R
i
i i

pode ser aproximada pela distribuio N(0,1). Tendo em conta a observao
feita na seco 5.4.1.1.3, E(R
i
)=n
i
2
1 + N
e Var(R
i
)=
12
1 ) n N )( N ( n
i i
+
. Ento, a distribuio
de
2
(
(

) R ( Var
) R ( E R
i
i i
=
| | { }
12 1
2 1
2
/ ) n N )( N ( n
/ ) N ( n R
i i
i i
+
+

pode ser aproximada pela distribuio do Qui-quadrado, com 1 grau de liberdade. Se os
R
i
fossem independentes (Conover, pag 235), a soma das p parcelas, idnticas
expresso anterior, correspondentes s p v.a. R
i
, teria uma distribuio aproximada de
um Qui-quadrado, com (p-1) graus de liberdade. No entanto a soma dos R
i
N(N+1)/2,
pelo que existe dependncia. Kruskal mostrou que se a parcela correspondente
varivel R
i
for multiplicada por (N-n
i
)/N, para cada i=1, 2, ..., p, ento
| | { }
=
+
+
p
i i
i i
/ N ) N ( n
/ ) N ( n R
1
2
12 1
2 1

Anlise de Dados 150


tem uma distribuio assinttica de um Qui-quadrado, com (p-1) graus de liberdade. A
expresso utilizada como estatstica de Kruskal-Wallis no mais que um rearranjo dos
termos da expresso anterior.
Exemplo 5.15 Um produtor de vinhos seleccionou, aleatoriamente, 3 grupos de provadores de
vinhos, em que cada grupo provava o mesmo vinho. No entanto, cada provador tinha uma entrevista
pessoal, onde lhe era criada uma certa expectativa, quanto ao vinho que iria provar. Esta expectativa era
a mesma dentro de cada grupo, sendo maior para o grupo A e menor para o grupo C. Depois da prova,
cada provador tinha de atribuir uma classificao, numa escala de 1 a 10, em que 10 est no topo da
tabela. As classificaes obtidas foram as seguintes:
Grupo A: 6.4, 6.8, 7.2, 8.3, 8.4, 9.1, 9.4, 9.7
Grupo B: 2.5, 3.7, 4.9, 5.4, 5.9, 8.1, 8.2
Grupo C: 1.3, 4.1, 4.9, 5.2, 5.5, 8.2
Verifique se existe evidncia de que o mtodo de sugesto utilizado para criar a expectativa, funcionou.
Resoluo: Vamos utilizar o teste de K-W, para testar as hipteses
H
0
: O mtodo de sugesto no funcionou contra H
1
: O mtodo de sugesto funcionou
No caso de H
0
ser verdadeira, K
8,7,6
tem uma distribuio assinttica de Qui-quadrado, com 2 graus de
liberdade.
A metodologia utilizada para obter o valor da estatstica de teste de K-W, foi de inserir os dados de cada
grupo, em coluna, numa folha de Excel, indicando na coluna adjacente o grupo a que pertencem.
Ordenmos os dados (esta operao no era necessria, mas conveniente para nos apercebermos
mais rapidamente da existncia de observaes iguais, uma vez que, neste caso, as ordens iguais vm
consecutivas), sem perder a indicao do grupo a que pertencem e utilizando a funo RANK do Excel
atribumos ordens aos dados. No caso de haver observaes iguais, substitumos a ordem que o Excel
atribui, pela mdia das ordens.

Anlise de Dados 151


O valor observado para a estatstica de teste foi de 9.84. Para calcular o valor anterior ignormos as duas
ligaes existentes. Para obter o p-value vamos utilizar a funo do Excel CHIDIST(x;deg_freedom)
que, para o valor de x=9.83627 e deg_freedom=2, devolve o valor 0.007313, que a probabilidade de
uma varivel aleatria X, com uma distribuio de um Qui-quadrado, com 2 graus de liberdade, assumir
valores superiores a 9.83627, ou seja, o p-value=0.007313.
Deciso: Rejeitar a hiptese nula para valores de 0.7%.
Para utilizar o teste de Kruskal-Wallis, basta que os dados estejam na escala ordinal,
como se exemplifica a seguir:
Exemplo 5.16 Trs instrutores decidiram comparar as pontuaes dadas no semestre passado, para
averiguar se haveria algum com tendncia para dar notas mais baixas. Estes instrutores fizeram parte de
um jri de avaliao, sendo o resultado da avaliao, sobre alunos do mesmo nvel, o seguinte:
Pontuao Instrutor1 Instrutor2 Instrutor3
A 4 10 6
B 14 6 7
C 17 9 8
D 6 7 6
E 2 6 1
Anlise de Dados 152


H
0
: Os instrutores do pontuaes anlogas contra H
1
: Os instrutores no do pont. anlogas
A tabela anterior apresenta as classificaes dadas, numa escala ordinal, em que, por exemplo, a
classificao A foi atribuda a 20 alunos, metade dos quais pelo instrutor2. Como se depreende, temos
dados com muitas ligaes, nomeadamente 20 iguais a A, 27 iguais a B, etc. Vamos aproveitar a tabela
anterior para associar as ordens mdias a cada uma das pontuaes, de forma a calcular o valor
observado para a estatstica de Kruskal-Wallis:

Pontuao

Instrutor1

Instrutor2

Instrutor3

Total linhas
Ordens
mdias

A

4

10

6

20 (1-20)
2
21
=10.5

B

14

6

7

27 (21-47)
2
47 21+
=34

C

17

9

8

34 (48-81)
2
81 48 +
=64.5

D

6

7

6

19 (82-100)
2
100 82 +
=91

E

2

6

1

9 (101-109)
2
109 101+
=105
N total de
estudantes

43

38

28

R
1
=410.5+1434+1764.5+691+2105=2370.5
R
2
=1010.5+634+964.5+791+6105=2156.5
R
3
=610.5+734+864.5+691+1105=1468
Neste caso temos de utilizar a expresso que d o S
2
para o caso de existirem ligaes, obtendo
S
2
=941.71, donde vem para o valor observado da estatstica de teste k
43,38,28
=0.3209. Sabendo que, se
H
0
verdadeira, a distribuio da estatstica de teste K
43,38,28
assintoticamente um Qui-quadrado com 2
graus de liberdade, obtemos para o p-value
P-value= P(K
43,38,28
0.3209)=0.8518 (calculado no Excel)
Deciso: No existe razo para duvidar que os instrutores do notas anlogas.
5.4.2.1 1. Comparaes mltiplas (Conover, pag 231)
No caso da hiptese nula ser rejeitada, podemos utilizar o seguinte processo para
determinar quais os pares de populaes que tendem a diferir. Podemos dizer que as
populaes i e j tm tendncia para serem diferentes, se a seguinte desigualdade for
satisfeita:
2 1 2 1
2
2 1
1 1
1
2 1
/
j i
/
n ,..., n , n
/
j
j
i
i
n n p N
k N
S ) p N ( t
n
R
n
R
p
|
|
\
|
+
|
|
\
|

>

Anlise de Dados 153


onde t
1-/2
o quantil de probabilidade 1-/2 de uma t-Student com (N-p) graus de
liberdade. O nvel de significncia o mesmo que o utilizado no teste de K-W.
Exemplo 5.15 (cont) Para este exemplo, uma vez que rejeitmos a hiptese nula para os nveis
usuais de significncia, vamos utilizar o critrio definido anteriormente para proceder s comparaes
mltiplas. Vamo-nos fixar no nvel de significncia de 5%.
S
2
=
12
1) N ( N +
=38.5;
|
|
\
|

p N
k N
S
p
n ,..., n , n
2 1
1
2
=21.73

Da tabela anterior conclumos que existe tendncia para que a populao 1 seja distinta das populaes
2 e 3, no havendo razo para dizer o mesmo sobre as populaes 2 e 3.
5.4.2.2 Teste do Qui-quadrado em tabelas de contingncia para testar a
homogeneidade
Consideremos p (2) populaes independentes, X
1
, X
2
, ..., X
p
, com funes
distribuio F
1
, F
2
, ..., F
p
, de onde se recolheram, respectivamente, as amostras
X
11
, X
12
, ...,
1
1n
X
X
21
, X
22
, ...,
2
2n
X
...
X
p1
, X
p2
, ...,
p
pn
X
Com base nas amostras anteriores, pretende-se testar a hiptese nula de que as p
populaes so homogneas, contra a hiptese alternativa, de que pelo menos uma
das populaes fornece observaes maiores ou menores.
Consideremos uma partio da recta real em c classes A
1
, A
2
, ..., A
c
e representemos
por n
ij
=#{X
ik
, 1kn
i
; X
ik
A
j
}, 1ip; 1jc
Com a notao introduzida anteriormente, podemos construir a seguinte tabela de
contingncia
Anlise de Dados 154


A1 A2 Aj Ac
X1 n11 n12 n1j n1c n1
X2 n21 n22 n2j n2c n2

Xi ni1 ni2 nij nic ni

Xp np1 np2 npj npc np
n.1 n.2 n.j n.c
em que a margem vertical fixa, isto , conhecida antes do preenchimento da tabela,
pois constituda pelas dimenses das amostras recolhidas das p populaes, que
representmos por X
1
, X
2
, , X
p
.
Representemos por p
j|i
, a probabilidade de um elemento da amostra X
i
, pertencer
classe A
j
. A hiptese de homogeneidade que se pe
H
0
: p
j|1
= p
j|2
== p
j|p
para 1jc
a qual vai ser testada contra a alternativa
H
1
: Existe um par (i,k) com ik, tal que p
j|i
p
j|k

Para obter a estatstica de teste e a respectiva distribuio de amostragem (assinttica),
vamos utilizar a seguinte metodologia, recordando o que fizmos quando estudmos o
teste de ajustamento do Qui-quadrado:
1. Se p
jIi
for conhecido , para todo o i, tal que 1ip
c
j
jIi i
jIi i ij
p n
) p n n (
1
2
tem uma distribuio assinttica de um
2
1
c

2. Como as amostras so independentes, temos p situaes multinomiais
independentes, pelo que
= =
p
i
c
j
jIi i
jIi i ij
p n
) p n n (
1 1
2
2
1) c ( p

3. Normalmente tero de se estimar os p
jIi
, pelo que se H
0
verdadeira, teremos
como estimadores
n
n
p
j .
jIi
= , com 1jc, dos quais s (c-1) so independentes,
j que
=
c
j
jIi
p
1
=1
4. Ento teremos como estatstica de teste
Anlise de Dados 155


X
2
=
= =
p
i
c
j
jIi
i
j .
i ij
n
p
n
)
n
n
n n (
1 1
2
com uma distribuio assinttica de um
2
1 1 ) c )( p (

j que p(c-1)-(c-1)=(p-1)(c-1).
Regra de deciso para o nvel de significncia :
Rejeitar H
0
para x
2
2
1 1
1
) c )( p (
) (

(Quantil de probabilidade (1-) de um
2
1 1 ) c )( p (
).
Alternativamente, calcula-se para o valor observado
2
0
x , a probabilidade P=P(X
2
2
0
x ,) e
rejeita-se H
0
para P.
Exemplo 5.17 O Senhor Afonso, director da Academia de Manequins Continental, tem muito orgulho
na sua escola e argumenta que os seus manequins so melhores profissionais do que os da sua
concorrente, a Senhora D. Brbara, dos Modelos Jovens. Numa avaliao destas duas escolas de
manequins, as classificaes obtidas pelos manequins foram:
Muito Bom Suficiente Medocre Total
Afonso 10 45 5 60
Brbara 4 35 11 50
Total 14 80 16 110
Com base nas classificaes, haver evidncia para duvidar de que as duas escolas fornecem
profissionais do mesmo nvel?
Resoluo: H
0
: P(Muito Bom|Afonso)= P(Muito Bom|Brbara);
P(Suficiente|Afonso)= P(Suficiente|Brbara);
P(Medocre|Afonso)= P(Medocre |Brbara);
H
1
: Alguma das igualdades anteriores no se verifica
Estatistica de Teste: X
2
que, sob H
0
, tem distribuio assinttica de um
2
1 3 1 2 ) )( (
.
Sob H
0
, o valor observado da estatstica de teste, obtm-se da seguinte forma:
2
0
x =
110
14
60
110
14
60 10
2
) (
+
110
80
60
110
80
60 45
2
) (
+
110
16
60
110
16
60 5
2
) (
+
110
14
50
110
14
50 4
2
) (
+
110
80
50
110
80
50 35
2
) (
+
110
16
50
110
16
50 11
2
) (
= 5.20
Consultando uma tabela do Qui-quadrado com 2 graus de liberdade, ou o Excel, vem que
P(X
2
5.20)=0.074274.
Deciso: Rejeitar a hiptese de que os manequins das duas escolas tm o mesmo nvel, para 7.43%.
Anlise de Dados 156


5.5. Testes de hipteses em modelos no paramtricos para testar a
independncia de vrias populaes
5.5.1 Teste do Qui-quadrado em tabelas de contingncia para testar a
independncia de duas populaes
Consideremos uma amostra de dados bivariados (X
i
, Y
i
), i=1, ...,n, tendo (X, Y) funo
de distribuio conjunta F(x,y) com marginais F
1
(x) = F(x,+) e F
2
(y)=F(+,y).
Pretendemos testar
H
0
: F(x,y)=F
1
(x) F
2
(y) (x,y)R
2
contra H
1
: F(x,y)F
1
(x) F
2
(y) para algum (x,y)R
2
,
isto , face a uma amostra aleatria (X
i
, Y
i
), i=1,...,n, pretendemos testar a
independncia do par (X,Y).
Para obter a estatstica de teste comeamos por dividir o suporte da varivel aleatria X
em p classes A
1
, A
2
, ..., A
p
, disjuntas e o suporte da varivel aleatria Y em c classes
B
1
, B
2
, ..., B
c
, disjuntas. Representemos por
n
ij
= #{(x
k
, y
k
): x
k
A
i
, y
k
B
j
}, n
i.
=
=
c
j
ij
n
1
n
.j
=
=
p
i
ij
n
1

B
1
B
2
Bj B
c

A
1
n
11
n
12
n
1j
n
1c
n
1.

A
2
n
21
n
22
n
2j
n
2c
n
2.

A
i
n
i1
n
i2
n
ij
n
ic
n
3.

A
p
n
p1
n
p2
n
pj
n
pc
n
p.

n
.1
n
.2
n
.j
n
.c

p
ij
= P(XA
i
e YB
j
) e p
i.
= P(XA
i
), p
.j
= P(YB
j
), i=1,...,p; j=1,...,c
Com a notao introduzida anteriormente, as hipteses a testar tm a forma
H
0
: p
ij
= p
i.
p
.j
, (i,j) contra H
1
: p
ij
p
i.
p
.j
, para algum (i,j)
Estatstica de teste:
Se as probabilidades p
ij
forem conhecidas, a estatstica de teste que se utiliza
X
2
=
= =
p
i
c
j
ij
ij ij
np
) np n (
1 1
2
que, sob H
0
, tem uma distribuio assinttica de um
2
1) pc (

Anlise de Dados 157


Se as probabilidades p
ij
no forem conhecidas, vamos substitu-las pelas suas
estimativas, as quais sero, se H
0
verdadeira
=
ij
p
)
. i
p
)
j .
p
)
onde
n
n
p
. i
. i
=
)
e
n
n
p
j .
j .
=
)
.
Ento a estatstica de teste tem a forma
X
2
=
= =
p
i
c
j
j . . i
j . . i ij
n / n n
) n / n n n (
1 1
2

que, sob H
0
, tem uma distribuio assinttica de um
2
1 1 ) c )( p (
.
Observao: Como estimmos (p-1) + (c-1) parmetros, o nmero de graus de
liberdade vem igual a pc-1-(p-1) (c-1)=(p-1)(c-1).
Chama-se a ateno para o facto de, embora a expresso seja anloga utilizada no
teste de homogeneidade, o significado da estatstica de teste, aqui, substancialmente
diferente. Assim, num teste de homogeneidade, uma das margens da tabela de
contingncia fixa, pois constituda pelas dimenses das amostras que estamos a
testar. Num teste de independncia, nenhuma das margens fixa.
Regra de deciso para o nvel de significncia :
Rejeitar H
0
para x
2
2
1 1
1
) c )( p (
) (

(Quantil de probabilidade (1-) de um
2
1 1 ) c )( p (
).
Alternativamente, calcula-se para o valor observado
2
0
x , a probabilidade P=P(x
2
2
0
x ,) e
rejeita-se H
0
para P.
Regra prtica: Como a distribuio da estatstica de teste assinttica, convm que as
clulas no tenham valores esperados muito pequenos. Como regra prtica, utiliza-se a
seguinte: No mximo, 20% das clulas podem ter frequncia esperada <5 e nenhuma
clula deve ter frequncia esperada <1.
Exemplo 5.18 Para estudar se haveria alguma relao entre a sensibilidade da pele ao Sol e a cor
dos olhos, considerou-se uma amostra de 100 pessoas que foram sujeitas a uma dose de raios ultra-
violetas, tendo-se obtido os seguintes resultados:
Reaco
++ + -
Azul 19 27 4
Cor dos olhos Cinzenta ou verde 7 8 5
Castanha 1 13 16
Tire concluses.
Anlise de Dados 158


Resoluo: Vamos testar as seguintes hipteses
H
0
: Existe independncia entre a sensibilidade da pele e a cor dos olhos
Contra
H
1
: No existe independncia
A estatstica de teste X
2
2
4) (
. O valor observado da estatstica de
teste x
2
=25.13, donde P(X
2
25.13)<.0001, pelo que rejeitamos a hiptese nula. Assim, conclumos que
h evidncia para dizer que a cor dos olhos no independente da sensibilidade da pele.

5.5.2 Coeficiente de correlao ordinal de Spearman
Consideremos uma amostra de dados bivariados (X
i
, Y
i
), i=1, ...,n, de uma populao
contnua (X, Y).
Pretende-se arranjar um ndice que sirva para medir a dependncia ou inter-relao
entre a varivel X e a varivel Y.
Considera-se como hiptese nula
H
0
: No existe relao entre as variveis X e Y, isto , elas so independentes.
Observao: Num modelo paramtrico e Normal, X e Y so independentes sse o
coeficiente de correlao igual a 0, isto , testar H
0
equivalente a testar H
0
: =0,
pelo que natural usar o coeficiente de correlao amostral.
Processo para construir a estatstica de teste:
O coeficiente de correlao ordinal de Spearman, R
S
, que o ndice que procuramos,
essencialmente o coeficiente de correlao amostral, em que os X
i
s e os Y
i
s so
substitudos pelas suas ordens:
R=

= =
=

n
i
n
i
i i
n
i
i i
) Y Y ( ) X X (
) Y Y )( X X (
1 1
2 2
1
R
S
=

= =
=

n
i
n
i
i i
n
i
i i
) S S ( ) R R (
) S S )( R R (
1 1
2 2
1

Para obter as ordens R
i
= ordem de X
i
e S
i
= ordem de Y
i
, ordenam-se as amostras dos
X
i
s e os Y
i
s separadamente. Como se admite que tm distribuio contnua,
Anlise de Dados 159


obteremos um nico conjunto de ordens, isto , no existem (teoricamente) ligaes
entre os X
i
s, nem entre os Y
i
s.
O facto de os dados com que estamos a trabalhar serem ordens, permite simplificar a
frmula de R
S
. Para j, podemos escrever
(1) R
S
=

= =
=

n
i
n
i
i i
n
i
i i
) S n S )( R n R (
S R n S R
1 1
2 2 2 2
1

Representando por D
i
=R
i
S
i

=
2
i
D
2
i
R +
2
i
S -2R
i
S
i

=
n
i
i
R
1
=
=
n
i
i
S
1
=
=
n
i
i
1
=
2
1) n ( n +

=
n
i
i
R
1
2
=
=
n
i
i
S
1
2
=
=
n
i
i
1
2
=
6
1 2 1 ) n )( n ( n + +

Ento
(2)
=
n
i
i i
S R
1
=
6
1 2 1 ) n )( n ( n + +
-
2
1
2
=
n
i
i
D
e
(3) R =S =
2
1) ( + n

Introduzindo em (1) as simplificaes obtidas, vem
R
S
=
) n ( n
S R
n
i
i i
1
12
2
1
=
- 3
1
1
+
n
) n (

ou
R
S
= 1 - 6
) n ( n
D
n
i
i
1
2
1
2
=

Anlise de Dados 160


Observemos que as ordens de X e Y esto completamente de acordo sse R
i
=S
i
, i, e
em completo desacordo sse R
i
= n+1 S
i
.
A diferena D
i
entre R
i
e S
i
mede o grau de no associao entre R
i
e S
i
, no sentido de
que D
i
=0 quando R
i
=S
i
, o que implica R
S
=1 e
=
n
i
i
D
1
2
=
3
1
2
) n ( n
quando R
i
+S
i
=n+1, o que
implica R
S
=-1.
Assim, o grau mximo de associao verifica-se para |R
S
|=1:
Quando R
S
=1, existe uma associao directa;
Quando R
S
=-1, existe uma associao indirecta
Pequenos valores de R
S
, tendem a suportar a hiptese H
0
de no associao entre X e
Y.
Regra de deciso, utilizando a estatstica R
S
:
H
0
H
1
Rej H
0
P-value, sob H
0

No existe Existe associao R
S
c
1
P(R
S
r
0
)
associao directa
Existe associao indirecta R
S
c
2
P(R
S
r
0
)
Existe associao |R
S
|c 2min[P(R
S
r
0
), P(R
S
r
0
)]
onde r
0
o valor observado da estatstica de teste.
A partir da expresso de R
S

R
S
=
) n ( n
S R
n
i
i i
1
12
2
1
=
- 3
1
1
+
n
) n (

vem que E(R
S
)= ) S R E(
) n(n
12
n
1 i
i i
2

=
1
-3
1 - n
1 n +

Sob H
0
, ) S E(R
i i
= E(R
i
)E(S
i
)
=
2
2
)
1 n
(
+

(Observao: Cada um dos R
i
(ou S
i
) uma v.a. que, sob H
0
, assume o valor i, i=1,...,n, com
probabilidade 1/n).
pelo que, E(R
S
) = 0. Pode-se demonstrar que, sob H
0
, Var(R
S
)=
1 - n
1
, donde, para n
grande a distribuio de
1 - n R
S
pode ser aproximada pela N(0,1).
Anlise de Dados 161


Clculo da distribuio exacta da estatstica R
S

Para calcular os pontos crticos necessrios para obter a regio de rejeio,
necessitamos da distribuio de R
S
, sob a validade de H
0
.
Sem perda de generalidade, admitamos que R
i
=i, para i=1,...,n. Ento D
i
=i-S
i
, para
i=1,...,n. Sendo H
0
verdadeiro, isto , X e Y independentes, temos n! possibilidades para
os pares (i, S
i
), i=1,...,n, todas elas igualmente provveis. Assim, sob H
0
,
P(R
S
=r)=
n!
r R quais as para idades depossibil n
S
=

R
S
pode assumir valores pertencentes ao intervalo [-1, 1], e a distribuio de R
S

simtrica relativamente ao ponto 0.
Exemplo: Clculo da distribuio exacta para n=3

(s
1
, s
2
, s
3
)

i
s i

r =
1) 3(3
is 12
2
n
1 i
i
=
- 3
1 3
1) (3
+

(1, 2, 3) 14 1.0
(1, 3, 2) 13 .5
(2, 1, 3) 13 .5
(2, 3, 1) 11 -.5
(3, 1, 2) 11 -.5
(3, 2, 1) 10 -1.0
Ento
R
S
=r -1 -.5 .5 1
) r R ( P
S H
0
= 1/6 2/6 2/6 1/6
Para n=4, obter-se-ia, de forma idntica,
R
S
=r -1 -.8 -.6 -.4 -.2 0 .2 .4 .6 .8 1
) r R ( P
S H
0
=
1/24 3/24 1/24 4/24 2/24 2/24 2/24 4/24 1/24 3/24 1/24

Anlise de Dados 162


Exemplo 5.19 Dois juzes ordenaram 4 provas do seguinte modo:
Juiz 1: 1 2 3 4
Juiz 2: 2 4 3 1
Verifique se haver evidncia da existncia de associao entre as ordens.
Vamos testar as seguintes hipteses:
H
0
: No existe associao contra H
1
: Existe associao
i s
i
= 2+8+9+4=23
O valor observado da estatstica de teste r
0
=-.4, donde P(|R
S
|.4)=18/24=.75, pelo que decidimos no
rejeitar H
0
.
Observao: No caso de existir um nmero pequeno de ligaes, atribui-se a mdia das
ordens e usa-se a mesma distribuio para calcular o P-value.

5.5.3 ndice de Friedman
Do mesmo modo que a estatstica de Kruskal-Wallis generaliza a estatstica de Mann-
Whitney, tambm o ndice de Friedman generaliza a ideia do coeficiente de correlao
ordinal de Spearman.
Suponhamos ento que temos uma amostra aleatria (X
i1
, X
i2
, ..., X
iI
). i=1, ..., m, de
uma populao de tipo contnuo, multivariada de ordem I.
Observao: No caso do coeficiente de correlao ordinal tnhamos
(X
11
, X
12
, ..., X
1I
)
(X
21
, X
22
, ..., X
2I
).
ou seja, m=2 ordenaes.
As observaes podem ser arranjadas em m linhas e I colunas, chamando-se blocos s
linhas e tratamentos s colunas.
Friedman sugeriu que se substitusse cada observao, pela sua ordem no bloco
respectivo. Admitamos que no existem ligaes. Ento, inicialmente tnhamos um
conjunto de observaes, em que cada observao foi substituda pela sua ordem (no
bloco correspondente):
Anlise de Dados 163


X11 X12 ... X1I R11 R12 ... R1I
X21 X22 ... X2I R21 R22 ... R2I
... ... ... ...
Xm1 Xm2 ... XmI Rm1 Rm2 ... RmI
Muito possivelmente o conjunto dos dados para anlise j nos so fornecidos na forma
de ordenaes.
Outra forma de apresentar os dados dizer que temos I objectos (tratamentos),
classificados por m juzes (blocos):
Obj
Juiz
1 2 ... j ... I
1 R11 R12 ... R1I
2 R21 R22 ... R2I
... ... ... ... ... ... ...
i Ri1 Ri2 ... RiI
...
m Rm1 Rm2 ... RmI
Em geral, quando vrios juzes ordenam vrios itens, ou quando obtemos vrias
ordenaes, esperamos que haja correlao entre as ordenaes e precisamente
isso que pretendemos testar. Assim, as hipteses que nos interessam considerar so:
H
0
: Existe independncia entre as ordenaes (os tratamentos tm todos o mesmo
efeito)
contra
H
1
: No existe independncia entre as ordenaes
Vamos utilizar uma estatstica de teste muito semelhante estatstica de Kruskal-Wallis,
(K-W), na forma e na distribuio.
Para calcular a estatstica de K-W, substitumos cada observao pela sua ordem, na
amostra conjunta, com o objectivo de comparar cada observao com outra qualquer.
Aqui no faz muito sentido comparar observaes correspondentes a linhas diferentes,
pelo que a cada linha corresponde uma observao.
Anlise de Dados 164


Seja R
j
a soma das ordens correspondentes ao j-simo objecto, ou seja,
correspondente j-sima coluna, j=1, ..., I. Se existir independncia entre as
ordenaes, esperamos que sob H
0

E(R
j
) =
=
m
1 i
ij
) E(R =

= =
(
(
m
1 i
I
1 i
i
I
1
=
2
1) m(I +

A soma dos quadrados dos desvios de R
j
, relativamente a E(R
j
) , por conseguinte,
uma medida das diferenas nas classificaes dos diferentes objectos. Seja
S =
2
=
)
`
I
1 i
j
2
1) m(I
R
Pode-se mostrar que S ser igual a 0 se todos os R
j
forem iguais (R
1
=R
2
=...=R
I
=
2
1) m(I +
), pelo que um valor grande desta estatstica denotar um afastamento da
hipteses dos R
j
serem iguais ou sensivelmente iguais.
Pode-se mostrar que (ver mais frente), sob H
0
:
Var(R
j
) =
12
1) m(I
2

Ento, a distribuio de
12
1) m(I
2
1) m(I
R
2
j
assintoticamente N(0,1), pelo que

2
=
(
(
(
(
(
+
I
1 j
2
j
12
1) m(I
2
1) m(I
R
2
) 1 I (
, ou seja,
F
*
=

=
(
I
j
j
) I ( m
R
) I ( m
1
2
2
2
1
1
12
2
) 1 I (
. Mostraremos
mais frente que E(S)=
12
1
2
) I Im(
, pelo que a estatstica
F=

=
(
+
I
j
j
) I ( m
R
) I ( mI
1
2
2
1
1
12

Anlise de Dados 165


tem valor mdio (I-1), dependendo, portanto, unicamnete do nmero de objectos que se
pretendem ordenar. esta estatstica F, que se utiliza como estatstica de Friedman.
Outra forma de apresentar a estatstica F, a seguinte
F=

=
+
I
j
j
R
) I ( mI
1
2
1
12
-3m(I+1)
A distribuio exacta de F est tabelada, e a distribuio assinttica , como vimos
anteriormente, um
2
) 1 I (
.
Regra de teste: Rejeitar H
0
, para valores grandes da estatstica de teste.
Complementos:
1) Mostrar que, sob H
0
, Var(R
j
) =
12
1) m(I
2

Var(R
j
)=E(
2
j
R ) E
2
(R
j
)
E(
2
j
R ) =E(
=
m
1 i
ij
R )
2

=
=
m
i
ij
) R ( E
1
2
+
= =
m
i
m
k
kj ij
) R ( E ) R ( E
1 1
, com ik
=m

=
I
i
i
I
1
2
1
+m(m-1)
4
1
2
) I ( +

=
12
1) I ( m +
[(I-1)+3m(I+1)]
Tendo em conta que E(R
j
)=
2
1) m(I +
, vem o resultado pretendido.
2) Mostrar que E(S)=
12
1
2
) I Im(

E(S) =
=
+
+
I
j
j
) I ( Im
) R ( E
1
2 2
2
4
1
- 2

=
+
I
j
j
) R ( E
) I ( m
1
2
1

=
12
1) I Im( +
[(I-1)+3m(I+1)]+
4
1
2 2
) I ( Im +
-2
2
1
2
1 ) I Im( ) I ( m + +

=
12
1
2
) I Im(

Anlise de Dados 166


Exemplo 5.20 Num festival da cano, em que concorreram 7 pases, o jri, constitudo por 3
elementos, ordenou as canes pela seguinte ordem:
Portugal Espanha Frana Suia Itlia Blgica Reino Unido
Juiz 1 1 5 2 4 7 6 3
Juiz 2 5 2 1 4 6 3 7
Juiz 3 3 4 5 6 7 1 2
Soma ordens 9 11 8 14 20 10 12
Pretende-se saber se existe evidncia de alguma das canes ser preferida, relativamente s restantes.
Resoluo: Pretende-se testar as hipteses
H
0
: Existe independncia entre os juzes contra H
1
: No existe independncia
ou as canes so equivalentes ou algumas canes so melhores
A estatstica de teste F tem, sob H
0
, uma distribuio assinttica de um
2
6) (
e o valor observado de F,
f =

=
+
I
j
j
R
) (
1
2
1 7 7 3
12
-98
=
14
1
(81+121+64+196+400+100+144)-72
= 7
Para I=7 e m=3, no temos a distribuio exacta da estatstica de teste, pelo que utilizamos a distribuio
assinttica, obtendo-se.30<P(F7)<.40, pelo que decidimos no rejeitar H
0
, para os nveis usuais de
significncia, ou seja, no h evidncia para dizer que os juzes combinaram a classificao.
Exemplo 5.21 Decidiu-se testar 3 tipos de raes para animais. Escolheram-se 3 grupos de 5 porcos
cada um, em que cada grupo de porcos foi escolhido dentro da mesma ninhada. Apresentamos na
seguinte tabela, os aumentos de pesos (em Kg):
Rao 1 2 3 4 5
A 3.0 7.3 6.1 4.9 6.4
B 6.0 6.7 9.2 4.5 8.9
C 3.8 7.4 6.3 7.2 6.5
Pretende-se testar a hiptese
H
0
: No existe diferena entre as raes, isto , os tratamentos so equivalentes, ou ainda, existe
independncia entre as ordenaes
Para aplicar o teste de Friedman, vamos considerar as ordens
A B C
1 3 2
2 1 3
1 3 2
2 1 3
1 3 2
7 11 12
Anlise de Dados 167


A estatstica F tem, sob H
0
, uma distribuio assinttica de um
2
2) (
, e o valor observado de F f=2.8.
Consultando a tabela para m=5 e I=3, verificamos que P(F2.8)>0.10, pelo que no rehjeitamos H
0
, ou
seja, no temos evidncia para dizer que as raes no aso equivalentes.

Análise de Dados-1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análise de Dados-1

Uploaded by

Copyright:

Available Formats

Anlise de Dados

Introduo s tcnicas de Amostragem

, para a varincia da Mdia, com o resultado apresentado

z ) = .95 ento z=1.96, ou seja P(

. Na figura anterior representmos 3 intervalos, dos quais 2 contm p,

dos testes anteriores, pode fazer-se

(n-1) o quantil de probabilidade da distribuio t de

tem uma distribuio dum

= X (no esquecer que no modelo de Poisson, o

+1, ..., n, onde P[S

o maior inteiro tal que

o menor inteiro tal que

o maior inteiro tal que 2 1

pode ser aproximada pela distribuio N(0,1)

assintoticamente N(0,1), pelo que

You might also like