Professional Documents
Culture Documents
=
>
0
1
: 2000
: 2000
H
H
=
<
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Implementao do teste de
hipteses
Suponhamos que se seleccionou uma
amostra de 30 dias, em meses diferentes
(tendo cuidado de representar os dias da
semana, bem como os finais de semana) e,
que a mdia amostral obtida foi de 2052
veculos, com um desvio padro de 200.
11
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
1. Com base no tipo de deciso que ser
necessrio tomar escolhe-se a formulao
para a hiptese nula (H
0
) e alternativa (H
1
).
0
1
: 2000
: 2000
H
H
=
>
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
2. Escolher o teste a utilizar, a qual vai
depender do parmetro que est a ser
testado (ex: no caso da mdia populacional,
ser a mdia amostral).
A forma da distribuio do teste ser a
encontrada, pelo mtodo da var. fulcral.
( )
0
~ 0;1
=
s
n
X
Z N
12
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hipteses mdia
populacional
~ X Normal
( )
~ 0;1
n
X
N
o
1
~
n
s
n
X
t
( )
~ 0;1
s
n
X
N
30 n >
2
conhecida
o
30
. . .
n
T L C
>
30
. . .
n
T L C
>
( )
~ 0;1
n
X
N
o
( )
~ 0;1
s
n
X
N
2
conhecida
o
no
no
no
no
sim
sim
sim
sim
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
3. Fixao do nvel de confiana ( =5%).
1 o
o
RA
RR
13
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
4. Determinao das regies de rejeio e
de aceitao.
( )
0
~ 0;1
=
s
n
X
Z N
95%
5%
RA
RR
5% o = Assumindo:
| |
| |
; 1, 645
1, 645;
=
= +
RA
RR
1, 645
RR
Z =
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
5. Determinao do valor da amostra (Z
Amostra
).
95%
5%
RA
RR
1, 645
RR
Z =
200
30
2052 2000
1, 42
Amostra
Z
= =
0
1, 42
Amostra
Z =
Como , ento aceita-se
H
0
, ou seja, no devemos investir
na construo da bomba de
combustvel.
e
Amostra
Z RA
14
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
1. Uma estao de rdio quer estimar o tempo
mdio que uma famlia dedica, por dia, a ouvir
essa rdio.
Foi escolhida uma amostra aleatria de 81
famlias, tendo sido calculados uma mdia de
audio de 2,4 h e um desvio-padro de 0,7 h.
Suponha que o grupo empresarial responsvel
por essa rdio tinha decidido o fecho dessa
estao se a mdia de audincia diria fosse
inferior a 2,5 h.
Para um nvel de significncia de 0,05, diga se o
grupo empresarial deve fechar a estao.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
2. Um fabricante produz dois tipos de baterias, A
e B cuja durao mdia de 25 e 30 meses,
respectivamente. O responsvel pelo inventrio
viu-se confrontado com um lote de 100
baterias cujo tipo se desconhece.
Embora seja sua convico que o lote do tipo
A, o responsvel decidiu proceder a um ensaio
com base numa amostra de 4 baterias cuja
durao mdia foi de 26,5 meses.
Supondo que a durao dos tipos de baterias
segue distribuio normal com varincia de 9
meses o que que se pode concluir ao nvel de
significncia de 1% ?
15
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
3. O Ministrio da Sade afirma que, com
os meios agora postos disposio dos
Hospitais Civis, o nmero mdio de dias
de internamento no mximo de 15.
Estas declaraes foram postas em
causa por alguns gestores hospitalares
que decidiram proceder recolha de uma
amostra de 225 doentes onde se
observou que o nmero mdio de dias de
internamento foi de 18.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Com base nestes dados e supondo que a
varivel em estudo segue uma
distribuio normal com desvio-padro de
15 dias:
a) Tero os gestores hospitalares razo?
Justifique a sua resposta, utilizando um teste
adequado a 1% de significncia.
b) Na deciso que tomou, qual a probabilidade de
estar a cometer um erro?
16
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
4. Uma empresa produz e comercializa um
conjunto de produtos de grande consumo.
Face aos dados previsionais sobre a
conjuntura do sector, um tcnico de
planeamento prev que a mdia diria de
vendas, para o presente ano, seja pelo menos
de 2000 u.m., e que a sua variabilidade no
se altere, continuando a registar-se uma
varincia de 1225 u.m.
2
Se esta previso
falhar, tal implicar um novo contrato com a
empresa transportadora, que coloca os
produtos nos locais de venda, decorrente da
diminuio da procura.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Ficou decidido que aps os primeiros 60 dias
se procederia recolha e anlise do volume
de vendas 2 meses, com vista a accionar ou
no os mecanismos necessrios negociao
de um novo contrato com a empresa
transportadora.
a) Sabendo que o volume total de vendas no
perodo de tempo referido foi de 119400 u.m.,
indique, justificando, se necessrio
renegociar o contrato com a empresa
transportadora.
17
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
5. Dos resultados de um exame de MECS I foi
retirada uma amostra de 31 alunos.
Considerando esta amostra como
representativa dos alunos avaliados nesta
cadeira e tendo em conta que, para esta
amostra, se obtiveram os seguintes
resultados:
Comente a seguinte afirmao:
A mdia dos resultados no difere
significativamente de 10.
( )
31 31
2
1 1
299 120
i i
i i
X X X
= =
= =
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Usando o SPSS
Este procedimento bastante trabalhoso,
e implica a utilizao das tabelas da
distribuio da estatstica (normal, t-
student, etc.).
A mesma anlise pode ser efectuada de
forma muito mais simples, recorrendo ao
SPSS.
Vamos agora ver como se efectua um
teste de hiptese recorrendo ao SPSS.
18
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Retomemos o exemplo da bomba de
combustvel.
Os primeiros passos so idnticos aos
apresentados anteriormente:
1. Formulao das hiptese nula e alternativa;
2. Fixao do nvel de significncia;
Como alternativa ao clculo da regio de
rejeio e do valor crtico, o SPPS
fornece um p-valor, que basta comparar
com o valor de significncia assumido.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
p valor
o
menor
maior
0
Aceita H
o
0
1
Rejeita H
Aceita H
19
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Como calcular o p-valor
Se a zona de rejeio for a cauda
superior, temos:
0
1
: 2000
: 2000
H
H
=
>
( )
Amostra
p valor P Z Z = >
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Como calcular o p-valor
Se a zona de rejeio for a cauda
inferior, temos:
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
0
1
: 2000
: 2000
H
H
=
<
( )
Amostra
p valor P Z Z = <
20
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Como calcular o p-valor
Se a zona de rejeio for a cauda
superior e inferior, temos:
0
1
: 2000
: 2000
H
H
=
=
( )
( )
2
2
= >
= <
Amostra Amostra
Amostra Amostra
p valor P Z Z se Z for positivo
p valor P Z Z se Z for negativo
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Determinao do p-valor.
No caso do nosso exemplo temos, que o
p-valor :
( )
Amostra
p valor P Z Z = >
O p-valor corresponde ao valor que seria
necessrio a significncia assumir, para
que a hiptese H
0
fosse aceite.
21
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de hiptese de uma
mdia em SPSS, necessrio efectuar
os seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no submenu: Compare Means
3. Seleccionar: One-Sample T-Test ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Metodologia com o SPSS
Como o SPSS faz sempre os clculos
considerando uma regio de rejeio
bicaudal, temos:
1, 42 1, 42
O p-valor dado pelo SPSS (2-tail Sig)
corresponde ao somatrio das duas reas
a vermelho.
22
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como ns pretendemos a hiptese que
apenas considera a regio crtica da
cauda superior (H
1
: > 2000), ento
teremos que dividir o valor de 2-tail Sig
por 2 para obtermos o nosso p-valor.
2
2
0,167
2
0, 0835 8, 4%
tail Sig
p valor
=
=
= ~
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Quando se divide o 2-tail Sig por 2 para
obtermos o valor p-valor para apenas
uma cauda, no entanto preciso saber
se a cauda superior ou inferior. Isso
pode ser visto pelo valor do Z
Amostra
, que
fornecido pelo SPSS (designado por
t).
0
Amostra
Z Cauda Superior >
0
Amostra
Z Cauda Inferior <
NOTA: Este critrio s vlido para as distribuies
Normal Padro e t-Student.
23
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Metodologia com o SPSS
Como Z
Amostra
> 0, ento o Z
Amostra
estar na
metade direita do grfico. Logo, p-valor o
calculado corresponde cauda superior.
4. Tomada de deciso.
Z
Amostra
est algures aqui
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor maior do que
significncia escolhida (8,4% > 5%), ento
aceita-se H
0
, ou seja, no devemos
investir na construo da bomba de
combustvel.
4. Tomada de deciso (continuao).
24
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
1. O departamento de controlo de custos
de uma empresa tem vindo a admitir que
o preo mdio da principal matria prima
utilizada no fabrico do produto A de
16.
H razes para crer que o preo
ultimamente praticado no mercado
superior a este valor.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Com vista anlise da situao,
observaram-se os preos praticados
durante 16 semanas, tendo-se registado
os seguintes valores:
16, 18, 16, 20, 22, 18, 23, 21, 23, 24, 20,
21, 19 e 17
a) Se fosse responsvel por aquele
departamento, que deciso tomaria?
25
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
2. Considere que os 16 valores apresentados
so uma amostra representativa dos
ordenados pagos numa determinada
empresa A.
1066, 977, 975, 1037, 936, 1039, 1088,
1003, 932, 968, 1076, 1092, 1029, 1050,
1027, 914
Comente a seguinte afirmao:
Os trabalhadores da empresa A recebem
em mdia 1000 mensais
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hipteses para a
proporo populacional
O exemplo que abordamos anteriormente era um
teste de hipteses para a mdia populacional ().
Outro tipo de teste de hipteses muito utilizado
:
Quando a populao tem uma distribuio de
Bernoulli, possvel efectuar testes de hipteses
probabilidade de ocorrer um sucesso numa prova de
Bernoulli, isto , proporo populacional ()
De seguida vamos dar um exemplo tpico deste
tipo de teste.
26
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hipteses para a
proporo populacional
Suponha que um assessor de um grupo
financeiro forte e que est a ponderar se
deve ou no apoiar um dado candidato
numas eleies.
A atitude mais correcta, ser seleccionar
uma amostra e decidir com base nos
dados recolhidos dela. Desta forma ter
algo a sustentar a sua deciso.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Postura cautelosa
Hiptese nula
H
0
: > 0,5
Deciso
Hiptese H
0
verdadeira
Hiptese H
0
falsa
Aceitar H
0
(apoiar o
candidato)
Apoia o
candidato e este
eleito
Deciso correcta
(1-)
Apoia o candidato e
este no eleito
Erro tipo II
Rejeitar H
0
(no apoiar o
candidato)
No apoia o
candidato e este
eleito
Erro tipo I
No apoia o
candidato e este no
eleito
Deciso correcta
(1-)
27
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Postura destemida
Hiptese nula
H
0
: < 0,5
Deciso
Hiptese H
0
verdadeira
Hiptese H
0
falsa
Aceitar H
0
(mo apoiar o
candidato)
No apoia o
candidato e este
no eleito
Deciso correcta
(1-)
No apoia o
candidato e este
eleito
Erro tipo II
Rejeitar H
0
(apoiar o
candidato)
Apoia o
candidato e este
no eleito
Erro tipo I
Apoia o candidato e
este eleito
Deciso correcta
(1-)
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Recolha de dados
Seleccionou-se uma amostra de 400
indivduos e obteve-se um total de 204
votos favorveis.
204
0, 51
400
p = =
28
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
Considerando que o pior erro o de
investir num candidato que no seja
eleito, adopta-se a postura pessimista.
1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):
0
1
: 0, 5
: 0, 5
H
H
t
t
=
>
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
2. Escolher o teste a utilizar (neste caso da
proporo populacional, ser a proporo
amostral).
A forma da distribuio do teste ser:
( )
( )
0
0 0
~ 0;1
1
p
Z N
n
t
t t
Deve ter-se o cuidado de trabalhar com amostras
grande (n>30), para que a forma da distribuio siga
esta frmula.
29
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de Hiptese proporo
populacional
~ X Bernoulli
no
sim
no possvel
( )
( )
0
0 0
~ 0;1
1
p
N
n
t
t t
30
. . .
n
T L C
>
p
Z N
n
t
t t
95%
5%
RA
RR
0, 05 o = Assumindo:
( )
( )
( )
0, 05
1 0, 05
0, 95
RR
RR
RR
P Z Z
P Z Z
P Z Z
> =
s =
s =
1, 645
RR
Z
=
1, 645
RR
Z =
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia
5. Determinao do valor da amostra (Z
Amostra
).
95%
5%
RA
RR
1, 645
RR
Z =
( )
0, 51 0, 5
0, 4
0, 5 1 0, 5
400
Amostra
Z
= =
0
0, 4
Amostra
Z =
Como Z
Amostra
menor do que Z
RR
,
ento aceita-se H
0
, ou seja, no
devemos investir na campanha do
candidato.
31
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Os primeiros passos so idnticos aos
apresentados anteriormente:
1. Formulao das hiptese nula e alternativa;
2. Fixao do nvel de significncia;
Como alternativa ao clculo da regio de
rejeio e do valor crtico, o SPPS
fornece um p-valor, que basta comparar
com o valor de significncia assumido.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Determinao do p-valor.
No caso do nosso exemplo temos, que o
p-valor :
( )
Amostra
p valor P Z Z = >
O p-valor corresponde ao valor que seria
necessrio a significncia assumir, para
que a hiptese H
0
fosse aceite.
32
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de hiptese de uma
proporo em SPSS, necessrio
efectuar os seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no submenu: Nonparametric Tests
3. Seleccionar: Binomial ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Os teste de hipteses para a proporo
populacional, a nica excepo regra
de o SPSS fazer sempre os clculos
considerando uma regio de rejeio
bicaudal.
Neste caso o SPSS escolhe sozinho a
localizao da regio de rejeio, em
funo do valor que se testar para a
mdia populacional, ou seja, o valor que
aparece em H
0
e H
1
.
33
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
0 0
: H t t =
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
0
0, 5 t =
0
0, 5 t =
-4 -3 -2 -1 1 2 3 4
0.1
0.2
0.3
0.4
Quando o SPSS efectua um
teste considerando H
1
: <
0
,
aparece escrito por baixo da
tabela.
1 0
: H t t =
1 0
: H t t <
1 0
: H t t >
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para que o SPSS faa o teste de hipteses
sem considerando a zona de rejeio na
unicaudal, temos que usar para o
0
no o
valor de 0,5, mas sim um valor ligeiramente
diferente (0,499 ou 0,501).
O SPSS fornece no um valor 2-tail Sig
como no caso anterior, mas sim uma valor
1-tail Sig indicando que o teste foi feito
considerando apenas uma das caudas.
34
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como na tabela de output nada dito
em relao hiptese alternativa,
ento porque esta H
1
: >
0
.
O valor de 1-tail Sig corresponder
assim ao nosso p-valor.
1
0, 378 37,8%
p valor tail Sig =
= ~
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor maior do que
significncia escolhida (37,8% > 5%),
ento aceita-se H
0
, ou seja, no devemos
apoiar o candidato.
4. Tomada de deciso.
35
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
3. Certo agricultor sabe que se em
determinado ano, no seu pomar, a
percentagem de laranjeiras com uma
produo superior a 50 kg for inferior a
70%, deve proceder a um tratamento das
rvores.
Tendo de tomar rapidamente uma deciso e
sendo-lhe impossvel, devido extenso do
pomar, proceder pesagem da produo de
cada rvore, seleccionou ao acaso 40
laranjeiras cuja produo foi avaliada,
tendo-se obtido a seguinte amostra:
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
20, 60, 46, 44, 70, 62, 45, 80, 45, 25,
60, 51, 65, 55, 50, 59, 62, 28, 80, 47,
52, 63, 60, 70, 41, 32, 81, 90, 49, 52,
44, 60, 64, 55, 40, 42, 52, 70, 49 e 60
Que deciso deve tomar o agricultor ?
(Considere um nvel de significncia de
1%)
36
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
4. Considere que os 31 valores apresentados
no ficheiro Exerccio 4 - Testes de
hipteses.sav, so uma amostra
representativa dos anos de trabalho, de
cada empregado, na empresa A.
Comente a seguinte afirmao:
20% dos empregados da empresa A,
trabalham na empresa no mximo 5 anos
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos
At agora temos falado sempre de testes
paramtricos, isto , testes que envolvem
parmetros de uma distribuio
conhecida.
Acontece que:
nem sempre a forma da distribuio conhecida;
Por vezes necessrio efectuar testes com vista
descoberta da distribuio terica mais
correcta para descrever os dados recolhidos.
37
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos
Como o prprio nome indica os testes no
paramtricos, so testes de hipteses
que no envolvem parmetros da
distribuio, mas sim a prpria
distribuio.
No se pretende testar se um parmetro em
particular.
Pretende-se testar uma dada distribuio
terica, adequada para descrever um dado
conjunto de dados.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste no paramtrico
Um teste no paramtrico consiste, em
testar as seguintes hipteses:
0
1
:
:
H X tem uma dada distribuio
H X no tem essa distribuio
38
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de ajustamento de
Kolmogorov-Smirnov
No teste de ajustamento de Kolmogorov-
Smirnov avaliam-se as discrepncias entre
a funo distribuio da amostra e a a
funo distribuio terica admitida no
teste.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Aplicabilidade e limitaes
O teste de ajustamento de Kolmogorov-
Smirnov, apresenta 3 limitaes que
importante ter em conta:
1. S se aplica a distribuies contnuas.
2. Este teste tem tendncia para ser menos
sensvel nas caudas das distribuies, isto , nos
valores extremos.
3. A maior limitao a de que a distribuio
testada, tem que ser totalmente conhecida (
necessrio conhecer os parmetros da
distribuio)
39
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Limitaes do SPSS
No caso de os parmetros serem
desconhecidos o mtodo admite a
utilizao de estimativas, mas estas no
devem ser obtidas usando a amostra
utilizada para aplicar o teste.
No caso de ser utilizada a mesma
amostra, as regies crticas do mtodo
ficam afectadas, aumentando
consideravelmente o risco de erro tipo .
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Lilliefors
O teste de Lilliefors uma adaptao do
teste de Kolmogorof-Smirnoff, usado
para verificao de normalidade de um
conjunto de dados.
A diferena bsica entre os testes que
o primeiro testa a normalidade a partir de
mdia e desvio fornecidos, enquanto o
segundo usa a mdia e o desvio-padro,
calculados no prprio conjunto de dados.
40
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Lilliefors
O teste de Lilliefors apresenta a
limitao de s ser aplicvel no caso de
estarmos a testar a distribuio normal.
Esta limitao atenuada pelo facto de a
distribuio normal ser a mais utilizada na
prtica.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Suponha que se testaram 480 amostras
de 2 tipos de ligas cermicas (Premium e
Standard), de forma a determinar qual a
temperatura mxima que suportavam
sem se alterarem.
Pretende-se saber se temperatura mxima que
as amostras das ligas Premium e Standard
suportavam sem se alterarem pode ser
descrita por uma distribuio de Normal.
41
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Considerando que X a v.a. que descreve
temperatura mxima que a amostras
suportou sem se alterar, temos:
0
1
:
:
H X tem distribuio Normal
H X no tem essa distribuio
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Para iniciar o teste de normalidade de
Lilliefors em SPSS, necessrio efectuar
os seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no submenu: Descriptive Statistics
3. Seleccionar: Explore ...
42
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Escolhendo nas opes dos grficos o
teste de normalidade, temos os seguinte
resultados:
Sig.
Premium 0,000
Standard 0,200
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Tomada de deciso:
Premium
Como Sig. menor do que
significncia escolhida (0 < 5%), ento
rejeita-se H
0
, ou seja a v.a. X no pode
ser descrita por uma distribuio
Normal.
Standard
Como Sig. maior do que significncia
escolhida (20 % > 5%), ento aceita-se
H
0
, ou seja a v.a. X pode ser descrita
por uma distribuio Normal.
43
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Limitaes do teste de K-S
Outra das limitaes do teste de
Kolmogorov-Smirnov o facto de ter
tendncia para ser menos sensvel nas
caudas das distribuies, isto , nos
valores extremos.
Como consequncia o teste de K-S torna-
se menos preciso para amostras de
pequena e mdia dimenso.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Shapiro-Wilk
O teste de Shapiro-Wilk ao contrrio do
teste de K-S particularmente sensvel
s caudas da distribuio, o que o torna
mais indicado para amostras de pequena e
mdia dimenso.
O teste de Shapiro-Wilk apresenta
contudo a grande limitao de apenas ser
vlido para a distribuio normal.
44
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Teste de Shapiro-Wilk vs K-S
No caso de um teste de normalidade, o
teste de Kolmogorov Smirnov deve ser
preterido em favor do teste de Shapiro-
Wilk sempre que a dimenso da amostra
estiver entre 3 e 50.
Dimenso da
Amostra
Teste de normalidade
recomendado
3 e 50 Teste de Shapiro-Wilk
> 50 Teste de Kolmogorov Smirnov
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Suponha que foi efectuada uma auditoria a
uma empresa de taxis, durante a qual
foram registados os tempos de resposta a
20 chamadas de clientes escolhidas
aleatoriamente.
Pretende-se saber se o tempo de resposta
chamada de um cliente segue uma distribuio
Normal.
45
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exemplo
Considerando que X a v.a. que descreve o
tempo de resposta chamada de um cliente,
temos:
0
1
:
:
H X tem distribuio Normal
H X no tem essa distribuio
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Para iniciar o teste de normalidade
Shapiro-Wilk em SPSS, necessrio
efectuar os seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no submenu: Descriptive Statistics
3. Seleccionar: Explore ...
46
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Escolhendo nas opes dos grficos o
teste de normalidade, temos os seguinte
resultados:
Statistic Sig.
Tempo de
resposta
0,957 0,478
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Metodologia com o SPSS
Como o Sig maior do que significncia
escolhida (47,8 % > 5%), ento aceita-se
H
0
, ou seja a v.a. X descrita por uma
distribuio Normal.
O tempo de resposta chamada de um
cliente segue uma distribuio Normal.
Tomada de deciso.
47
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exerccio
1. Para uma determinada mquina de
produo de fio txtil era suposto que o
intervalo entre 2 defeitos consecutivos
seguisse uma distribuio normal.
Os dados para 100 medies aleatrias
encontram-se no ficheiro Exerccio 1 -
Testes de hipteses.sav
Pretende-se saber se estes dados so
consentneos com a distribuio esperada.
Anlise de Dados Univariados
Instituto Superior de Cincias Sociais e Polticas
Exerccio
2. O ficheiro Exerccio 2 - Testes de
hipteses.sav, contem uma amostra do
rendimento bruto de 121 empregados,
escolhidos aleatoriamente.
Pretende-se saber se estes dados so
consentneos com uma distribuio
Normal.
48
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de hipteses de
comparao de duas mdias
Ser que:
um dado novo mtodo de ensino mais eficaz
que o mtodo tradicional ?
os homens tem desempenho e atitudes mais
favorveis frente a Matemtica do que as
mulheres ?
Estes so alguns exemplos de situaes
em que necessrio saber se a diferena
entre as mdias de dois grupos de dados
estatisticamente significativa.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste de hipteses de
comparao de duas mdias
Temos dois tipos possveis teste de
hipteses:
Teste para duas amostras independentes
(sempre que as amostras provm de populaes
independentes);
Teste para duas amostras emparelhadas
(sempre que tenhamos apenas uma amostra, que
avaliada antes e depois de uma dada
experincia).
49
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Para que se possa testar a hiptese das
mdias de dois grupos de dados serem
iguais, necessrio o seguinte:
Ambos os grupos de dados tm que provir de
populaes com distribuio normal
Saber se as varincias dos dois grupos de dados
so iguais ou no.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Como resultado condies de
aplicabilidade, o teste de comparao de
duas mdias tem sempre que ser
precedido de outros dois:
Teste de Normalidade
Teste de Homocedasticidade ou igualdade das
varincias
NOTA: A verificao da normalidade e da homocedasticidade so essenciais
a uma correcta aplicao do teste de hipteses de comparao de
duas mdias.
50
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que uma determinada marca de
roupa pretende comparar a qualidade do
servio em duas das suas lojas.
Para isso decide analisar as avaliaes
efectuadas pelos clientes qualidade do
atendimento.
Seleccionaram-se, aleatoriamente, 40
clientes em cada loja e pediu-se-lhes que
classificassem qualidade do servio
prestado numa escala de 1 a 10.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Verifica-se que a mdia das notas da loja
2 ligeiramente superior.
Para determinar se essa aparente
superioridade da loja 2
estatisticamente significativa, decide
comparar a diferena das mdias.
51
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):
0 1 2
1 1 2
:
:
=
=
loja loja
loja loja
H
H
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
2. Fixao do nvel de confiana ( =5%).
1 o
RA
RR
2
o
RR
2
o
52
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.
Teste de Normalidade
1
2
0,109
0,110
=
=
loja
loja
p valor
p valor
Como, em ambos os casos, o p-valor maior do
que significncia escolhida (0,05), ento
aceita-se H
0
, ou seja, ambas as amostras provm
de populaes com distribuio normal.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.
Teste de Homocedasticidade
(O SPSS aplica o teste de Levene)
0, 745 = p valor
Como o p-valor maior do que significncia
escolhida (0,05), ento aceita-se H
0
, ou seja,
pode-se assumir que ambas as amostras provm
de populaes com igual varincia.
53
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de hiptese entre
duas mdias de amostras independentes
em SPSS, necessrio efectuar os
seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no sub-menu: Compare Means
3. Selecionar: I ndependent-Samples T Test ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao das mdias.
Como o facto de se poder ou no assumir a
igualdade das varincias influencia a forma
de realizao dos teste s mdias, o SPSS
apresenta na tabela de output os
resultados para as duas situaes,
cabendo ao utilizador a escolha do
resultado correcto.
54
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao das mdias.
Neste caso como se pode assumir a
igualdade das varincias, p-valor correcto
ser o da primeira linha.
0,117 = p valor
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor maior do que
significncia escolhida (11,7 % > 5%),
ento aceita-se H
0
, ou seja, a diferena
entre a nota mdia das loja 1 e 2, no
estatisticamente significativa.
Considera-se que a classificao mdia
igual em ambas as lojas.
5. Tomada de deciso.
55
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
9. O Pedro e o Joo discutem sobre a rapidez
de atendimento de um mesmo servio em
duas Lojas do Cidado distintas. O Pedro
afirma que na loja 1 as pessoas se
despacham, em mdia, mais depressa do que
na loja 2, mas o Joo duvida.
Para esclarecerem a esta situao,
resolveram acompanhar o atendimento
daquele servio num dia e numa mesma
janela horria, tendo seleccionado
aleatoriamente 10 clientes na loja 1 e 15 na
loja 2.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Os tempos de espera (em minutos) das
vrias pessoa seleccionadas foram:
Ser que o Pedro tem razo ?
Loja 1 15 20 15 10 5 20 30 10 15 40
Loja 2 10 15 15 15 20 20 25 20 30 20 25 35 30 35 30
56
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
10. Um nutricionista est convencido que a
nova dieta que prescreve aos seus
doentes eficaz no tratamento da
obesidade provocando perda de peso ao
fim de 4 semana e, contrariamente a
doutras dietas, reduz o estado de
ansiedade dos doentes.
Para uma amostra de 10 doentes
seleccionados ao acaso obtiveram-se os
seguintes resultados:
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Identificao do
Doente Obeso
Peso antes da
dieta
(kg)
Peso aps 4
semana de dieta
(kg)
1 90 86
2 85 85
3 95 92
4 95 90
5 105 100
6 102 95
7 83 80
8 85 81
9 93 90
10 94 88
57
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
Com base na amostra recolhida e
constante do quadro anterior, considera
que o nutricionista tem razo ?
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Comparao de vrias mdias
So tambm frequentes os exemplos em
que se pretende comparar no apenas
duas, mas trs ou mais mdias.
Ser que:
os alunos do concelho de Lisboa tm um
desempenho e atitudes mais favorveis frente a
Matemtica do que os alunos dos restantes
concelhos da zona Metropolitana de Lisboa ?
A criminalidade na cidade de Lisboa maior do
que nas cidades do Porto, Aveiro e Coimbra ?
58
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Anlise de Varincia Simples
A Anlise de Varincia Simples, permite
testar a hiptese das mdias de vrios
grupos de dados serem iguais.
A Anlise de Varincia Simples tambm
vulgarmente conhecida por ANOVA, que
consiste na sigla resultante do nome em
ingls ANalysis Of VAriance).
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Para que se possa testar a hiptese das
mdias de vrios grupos de dados serem
iguais, assegurar o seguinte:
Todos os grupos de dados provm de populaes
com distribuio normal
As varincias dos vrios grupos de dados so
iguais, ou seja, ter que se verificar a
homocedasticidade.
59
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Condies de aplicao do teste
Como resultado das exigncias de
normalidade e de homocedasticidade
(igualdade das varincias), o teste de
comparao de duas mdias tem sempre
que ser precedido de outros dois:
Teste de Normalidade
Teste de Homocedasticidade ou igualdade das
varincias
NOTA: A verificao da normalidade e da homocedasticidade so condies
essenciais aplicao Anlise de Varincia Simples.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que a marca de roupa referida
anteriormente pretende agora comparar a
qualidade do servio nas 5 lojas que tem em
Lisboa
Para isso seleccionaram-se, aleatoriamente,
40 clientes em cada loja e pediu-se-lhes
que classificassem a qualidade do servio
prestado numa escala de 1 a 10.
60
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):
0 1 2 3 4 5
1
:
:
= = = =
loja loja loja loja loja
H
H As mdias no so todas iguais
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
2. Fixao do nvel de confiana ( =5%).
1 o
RA
RR
2
o
RR
2
o
61
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.
Teste de Normalidade
1
2
3
4
5
0,109
0,110
0,104
0, 067
0,137
=
=
=
=
=
loja
loja
loja
loja
loja
p valor
p valor
p valor
p valor
p valor
Para um nvel de significncia de 0,05, pode-se
assumir que todas as amostras provm de
populaes com distribuio normal.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade.
Teste de Homocedasticidade ou
Homogeneidade das varincias
0,339 = p valor
Para um nvel de significncia de 0,05, pode-se
assumir que todas as amostras provm de
populaes com igual varincia.
62
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar a Anlise de Varincia
Simples em SPSS, necessrio efectuar
os seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no sub-menu: Compare Means
3. Selecionar: One-Way ANOVA ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao das mdias.
0, 000 = p valor
63
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor menor do que
significncia escolhida (0 % < 5%), ento
rejeita-se H
0
e aceita-se H
1
, ou seja, as
mdias no so todas iguais.
Considera-se que a classificao mdia
no igual em todas as lojas.
5. Tomada de deciso.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Anlise de Varincia Simples
Quando se conclu que as mdias das 5
lojas no so todas iguais, levanta-se
automaticamente as seguintes questes:
Quais as mdias que so iguais?
Quais as mdias que so diferentes?
Para se obter a resposta a estas questes,
necessrio testar cada um dos pares
possveis.
64
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
O SPSS permite fazer, muito facilmente, a
comparao de todos os pares possveis,
bastando para isso seleccionar a opo.
1. Entrar no menu: Analyze
2. Entrar no sub-menu: Compare Means
3. Selecionar: One-Way ANOVA ...
4. Selecionar: Post - Hoc ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
6. Comparao dos vrios pares possveis.
O SPSS tem vrios tipos de testes de
hipteses igualdade dos pares de
mdias, neste caso optou-se pelo Scheffe.
Para uma significncia de 0,05, os pares
que apresentam mdias diferentes so:
1 4 2 3
2 4 2 5
loja e loja loja e loja
loja e loja loja e loja
65
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccios
11. Pretende-se saber se as notas na disciplina
de Histria do 11 ano em 6 escolas
secundrias do concelho do Porto, so iguais
ou no.
Para esclarecer esta situao,
seleccionaram-se, aleatoriamente, as notas
na disciplina de Histria de 60 alunos em
cada uma das 6 escolas secundrias.
Os dados encontram-se no ficheiro
Exerccio 11 Testes de hipteses.sav
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos de
comparao de grupos de dados
Sempre que no se verificarem as
condies de aplicabilidade dos testes
paramtricos referidos anteriormente
(normalidade e homocedasticidade),
possvel aplicar testes no paramticos,
que embora no comparem directamente
as mdias, permitem saber se os grupos de
dados analisados provm todos da mesma
populao.
66
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes no paramtricos de
comparao de grupos de dados
Existem vrios testes no paramticos, de
comparao de grupos de dados, contudo
sero abordados apenas os seguintes:
Teste de Mann-Whitney
(Comparao de dois grupos de dados independentes)
Teste de Kruskal-Wallis
(Comparao de trs ou mais grupos de dados
independentes)
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que a marca de roupa referida
anteriormente pretende agora comparar as
a qualidade do servio nas 3 lojas que tem
no Porto.
Para isso seleccionaram-se, aleatoriamente,
40 clientes em cada loja e pediu-se-lhes
que classificassem a qualidade do servio
prestado numa escala de 1 a 10.
67
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
1. Formulao das hipteses nula (H
0
) e
alternativa (H
1
):
0
1
:
:
H Os grupos dedados provmtodos damesma populao
H Os grupos dedados no provmtodos damesma populao
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
2. Fixao do nvel de confiana ( =5%).
1 o
RA
RR
2
o
RR
2
o
68
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
3. Verificao das condies de aplicabilidade
da Anlise de Varincia Simples.
Teste de Normalidade
1
2
3
0,110
0,104
0, 023
=
=
=
loja
loja
loja
p valor
p valor
p valor
Para um nvel de significncia de 0,05, a
classificao da loja 3, no segue uma distribuio
normal.
No se pode aplicar a Anlise de Varincia Simples
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para iniciar o teste de Kurskal Wallis em
SPSS, necessrio efectuar os
seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no sub-menu: Nonparametric Tests
3. Selecionar: k I ndependent Samples ...
69
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Determinao do p-valor do teste de
comparao dos grupos de dados.
0, 000 = p valor
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como p-valor menor do que
significncia escolhida (0% < 5%), ento
rejeita-se H
0
e aceita-se H
1
, ou seja, os
grupos de dados no provm todos da
mesma populao.
Considera-se que as 3 lojas no tm
todas a mesma classificao.
5. Tomada de deciso.
70
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para se fazer a comparao de todos os
pares possveis, ser necessrio:
1. Entrar no menu: Analyze
2. Entrar no sub-menu: Nonparametric Tests
3. Selecionar: 2 I ndependent Samples ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
6. Comparao dos vrios pares de grupos de
dados possveis.
Para uma significncia de 0,05, o nico par
que provem da mesma populao :
2 3 loja e loja
71
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exerccio
12. Pretende-se saber se o tempo de espera na
fila da cantina de 3 escolas secundrias do
concelho do Aveiro, ou no igual.
Para esclarecer esta situao, registaram-se
os tempos de espera na fila para almoar, as
de 52 alunos, escolhidos aleatoriamente, em
cada uma das 3 escolas secundrias.
Os dados encontram-se no ficheiro
Exerccio 12 Testes de hipteses.sav
Anlise de Dados Univariados e
Multivariados
Anlise de dados
Categorizados
72
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Muitas vezes torna-se necessrio saber
se as variaes que se verificam numa
dada varivel (qualitativa) com a variao
de uma outra so estatisticamente
significativas, isto , saber se as variveis
so independentes ou no.
Os testes de hipteses tambm podem
ser utilizados para saber se duas
variveis so independentes ou no
recorrendo-se s tabelas de contingncia.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
As tabelas de contingncia, so portanto,
utilizadas para estudar a relao entre
duas variveis qualitativas (ou
categricas), descrevendo a frequncia
das categorias de uma das variveis
relativamente s categorias de outra.
As tabelas de contingncia apresentam
genericamente o seguinte formato:
73
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Varivel 1
Varivel 2
Total da
linha
B
1
B
2
... B
m
A
1
f
11
f
12
... f
1m
f
l1
A
2
f
21
f
22
... f
2m
f
l2
... ...
... ... ... ...
A
n
f
n1
f
n2
... f
nm
f
ln
Total da
coluna
f
c1
f
c2
.... f
cm
Total de
resultados
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Suponha que se entrevistaram 489 mes,
sobre a sua idade e se haviam fumado no
incio da sua gravidez.
Pretende-se saber se existe alguma relao
entre o fumar no incio da gravidez e a idade
da mulher.
74
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Consideremos as seguintes v.a.:
X - grupo etrio da mulher;
Y se a mulher fumou ou no no incio da
gravidez.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Grupo
etrio
Fumou no incio da
sua gravidez ?
Total da
linha
No Sim
13 - 20 13 7
20
21 - 30
252
45
297
31 35 91
6 97
36 - 55
59 3 62
Total da
coluna
415
61
476
75
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Testes de independncia
Quando a anlise da tabela de
contingncia sugere a existncia de uma
relao entre as variveis, torna-se
necessrio verificar se isso se deve ao
acaso ou dependncia destas.
Os testes mais utilizados para testar a
independncia de duas variveis, so:
Teste do Qui-Quadrado;
Teste exacto de Fisher
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
O teste Qui-Quadrado (_
2
) pode ser
usado para avaliar se a relao
aparentemente observada entre duas
variveis qualitativas, se deve ao acaso ou
dependncia das variveis.
um teste no paramtrico, que muito
til, pois no precisa da suposio de
normalidade das variveis para analisar o
grau de associao entre as duas
variveis.
76
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
O teste Qui-Quadrado mede a diferena
entre as frequncias obtidas e as
esperadas assumindo que no existe
qualquer interferncia da segunda
varivel na primeira.
O clculo dos valores esperados
assumindo que as variveis so
independentes, efectuado, supondo que
a estrutura percentual global se mantm
em cada coluna.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
Assumindo como hiptese que as variveis
so independentes, temos:
0
1
:
:
H X e Y so independentes
H X e Y so dependentes
77
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
Dos dados do exemplo anterior podemos
concluir que:
61
% 12, 8%
476
de sim = =
415
% 87, 2%
476
de no = =
Se as variveis forem independentes
espectvel que estas percentagens se
verifiquem para todos os grupos etrios.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
Para o grupo etrio 13 20, temos:
13 20
% %
12, 8% 20
2, 6
esperada de sim de sim f
=
=
=
13 20
% %
87, 2% 20
17, 4
esperada de no de no f
=
=
=
Fazendo o mesmo tipo de clculo para os
restantes grupos etrios, temos:
78
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Tabelas de contingncia
Grupo
etrio
Fumou no incio da sua
gravidez ?
Total da
linha
No Sim
13 - 20 13 (17,4
*
) 7 (2,6
*
) 20
21 - 30
252 (259
*
) 45 (38
*
) 297
31 35 91 (85
*
) 6 (12
*
) 97
36 - 55
59 (54
*
) 3 (8
*
) 62
Total da
coluna
415
61
476
* - valores que se obtm assumindo que a segunda varivel no influencia a primeira
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste do Qui-Quadrado
O valor do teste do Qui-Quadrado,
traduz a diferena existente entre os
valores observados e os esperados.
( )
2
2
. .
.
Freq observada Freq esperada
Freq esperada
_
=
79
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para se obter uma tabela de contingncia
em SPSS, necessrio efectuar os
seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no submenu: Descriptive Statistics
3. Seleccionar: Crosstabs ...
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
4. Escolher a varivel para as linhas e para
as colunas;
5. Escolher de entre as vrias opes, qual
o tipo de informao que se pretende que
conste da tabela de contingncia;
80
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Para efectuar o teste do Qui-Quadrado
em SPSS, necessrio efectuar os
mesmos passos que para obter a tabela
de contingncia e depois:
1. Escolher nas opes o teste do Qui-
Quadrado.
2. Para obter tambm o coeficiente de
contingncia, basta seleccionar tambm
esta opo.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
SPSS fornece os seguintes valores:
17, 607
. . 0, 001
Chi Square
Asymp Sig
=
=
Em que:
Chi-Square corresponde ao valor do teste
do Qui-Quadrado
Asymp. Sig. a significncia mnima
necessria, para que se rejeite H
0
.
81
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Metodologia com o SPSS
Como Asymp. Sig menor do que
significncia escolhida (0,1 % < 5%),
ento rejeita-se H
0
, ou seja as variveis
so dependentes.
O idade da mulher e o ela ter fumado no
incio da gravidez esto relacionados.
Tomada de deciso.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Aplicabilidade e limitaes
O teste do Qui-Quadrado testa apenas a
hiptese geral de que as duas variveis
so independentes, no permitindo
concluir nada cerca do tipo de relao,
apenas se existe ou no.
semelhana do que foi referido
anteriormente para o teste de
ajustamento do Qui-Quadrado, este
teste, assume que todas as frequncias
esperadas considerando H
0
, verdadeiro
so superiores a 5.
82
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Aplicabilidade e limitaes
Sempre que existam frequncias
esperadas inferiores a 5, o resultado do
teste tem um certo grau de erro
associado.
Considera-se que o erro est minimamente
controlado se:
Nenhuma dos valores esperados for menor ou
igual a 1;
O total de valores esperados com valor inferior
ou igual a 5, represente menos de 20% do total.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Teste Exacto de Fisher
Sempre que pretendemos testar se
existe uma relao entre duas variveis
qualitativas que s podem tomar 2 valores
cada, recomendvel o uso do Teste
Exacto de Fisher.
Este teste deve assim ser utilizado
sempre que temos uma tabela de
contingncia 2x2, uma vez que, no tem as
mesmas limitaes que o Qui-Quadrado,
no que diz respeito ao valor das
frequncias esperadas.
83
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Coeficiente de contingncia
Muitas vezes ao se estudar a relao
entre duas variveis, no se pretende
apenas saber se existe ou no (Teste do
Qui-Quadrado ou Exacto de Fisher), mas
tambm obter informao sobre a sua
intensidade.
O grau de intensidade da relao entre
duas variveis pode ser avaliado pelo
coeficiente de contingncia, o qual se
baseia na estatstica do Qui-Quadrado.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Coeficiente de contingncia
O coeficiente de contingncia uma
medida do alcance da associao ou
relao entre dois conjuntos de atributos.
Ele calculado em funo do valor
calculado na tabela de contingncia e
independente de ordenao das
categorias das variveis:
2
2
C
N
_
_
=
+
N a dimenso
da amostra
84
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Coeficiente de contingncia
Como o coeficiente de contingncia se
baseia na estatstica do Qui-Quadrado, as
condies de aplicabilidade sero as
mesma do teste do Qui-Quadrado.
A um valor de 0 para o coeficiente de
contingncia corresponde a inexistncia
de qualquer relao entre as variveis.
Quanto maior o valor do coeficiente de
contingncia, maior a dependncia entre
as variveis.
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
Suponha que quando se entrevistaram as
489 mes, para alm da sua idade e se
haviam fumado no incio da sua gravidez,
tambm se recolheu informao sobre o
nmero de cigarros que fumavam antes de
engravidarem.
Pretende-se saber o que influencia mais o fumar
no incio da gravidez, se a idade da mulher se o
nmero de cigarros que esta fumava antes de
engravidar.
85
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
As variveis em causa so:
X - grupo etrio da mulher;
Y se a mulher fumou ou no no incio da
gravidez.
Z - nmero de cigarros que a mulher fumava
antes de engravidar.
Os pares de variveis em causa so:
X e Y Y e Z
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Exemplo
O primeiro passo a tomar verificar se o
fumar no incio da gravidez
influenciado pela idade da mulher e pelo
nmero de cigarros que esta fumava
antes de engravidar.
Ser assim necessrio efectuar testes
de independncia aos 2 pares de
variveis em causa.
86
Instituto Superior de Cincias Sociais e Polticas
Universidade Tcnica de Lisboa
Y e Z
p-valor= 0,02
As variveis
so
dependentes
( = 0,05)
Resultados do teste de
independncia
Efectuando o teste de independncia com o
SPSS, obtm-se os seguintes resultados:
X e Y
p-valor= 0,01
As variveis
so
dependentes
( = 0,05)
n
c
i
a
E
x
p
l
i
c
a
d
a
Escolha nmero de dimenses
adequado
Da anlise do output resultante da aplicao da CATPCA
com o mximo de dimenses possvel, retira-se a
informao necessria escolha do seu nmero adequado.
O nmero adequado de dimenses deve assegurar uma boa
explicao da variao dos dados e que no existem
eigenvalues inferiores a 1 ou Cronbachs Alpha negativos.
No caso deste exemplo o nmero de dimenses adequado
2.
123
Escolha nmero de dimenses
adequado
Depois de escolhido o nmero de dimenses
adequado necessrio correr novamente o
procedimento CATPCA.
Do output resultante da aplicao do CATPCA
utilizando o nmero adequado de dimenses
possvel extrair informao sobre a afinidade entre
as vrias variveis.
Varincia explicada
NOTA: A contribuio da de cada uma das variveis nas duas dimenses (vermelho) tem
que ser superior s respectivas % de varincia (verde).
Caso contrrio a varivel deve ser excluda da anlise (ex: varivel regio).
124
Excluso das variveis no
relevantes
A varivel regio deve ser excluda da anlise, uma
vez que, a sua contribuio em cada uma das
dimenses inferior respectiva % de varincia.
A varivel regio uma varivel no relevante.
necessrio correr novamente o procedimento
CATPCA, mas agora apenas com as 5 variveis
relevantes.
Varincia explicada
NOTA: A contribuio da de cada uma das variveis nas duas dimenses (vermelho) tem
que ser superior s respectivas % de varincia (verde).
Caso contrrio a varivel deve ser excluda da anlise (ex: varivel regio).
125
Component Loadings
NOTA: Em cada dimenso s se consideram relevantes as variveis que apresentarem
component loading superiores a 0,5 em valor absoluto.
A anlise dos component loadings permite confirmar as concluses obtidas a
partir da variance accounted for.
Concluses
Da anlise das varincias explicadas conclu-se o
seguinte:
Existe uma forte associao das variveis N de horas de
Estudo/semana, Estudo em Grupo e Nota final do curso com
a Dimenso 1;
Existe uma forte associao da varivel Estrato Social e
Sexo com a Dimenso 2;
A varivel Regio no est associada com nenhuma das
outras.
126
Component Loadings
Componente 1
Componente 2
Identificao das componentes
principais
Da anlise dos resultados obtm-se duas
componentes e duas variveis desagrupadas:
Componente Variveis
1
N de horas de Estudo/semana
Estudo em Grupo
Nota final do curso
2
Estrato Social
Sexo
127
Identificao das componentes
principais
Verifica-se uma redundncia de informao nas variveis:
N de horas de Estudo/semana, Estudo em Grupo e Nota
final do curso; Estrato Social e Sexo.
possvel resumir a informao contida nas 6 variveis
iniciais a apenas a 2 componentes e 1 varivel.
Componente 1
Componente 2
Regio
Anlise da afinidade entre
categorias
possvel refinar o estudo e tentar perceber como se
relacionam as categorias das variveis que pertencem
mesma componente.
Este refinamento conseguido atravs da anlise dos
resultados das quantificaes das categorias das variveis
relevantes em cada dimenso.
Ter que se analisar o sinal das coordenadas de cada uma
das categorias em cada uma das dimenses.
128
Na janela Categorical Principal Components
necessrio efectuar os seguintes passos:
Na sub-janela Output seleccionar todas as variveis em
anlise para o Category Quantification.
Na sub-janela Category seleccionar todas as variveis em
anlise para o Joint Category Plots.
Opes a seleccionar no SPSS
Dimenso 1
Quantificao das categorias da varivel
N de horas de estudo/semana.
129
Dimenso 1
Quantificao das categorias da varivel
Estudo em grupo.
Quantificao das categorias da varivel
Nota final do curso.
Dimenso 1
130
Quantificao das categorias da varivel
Estrato Social.
Dimenso 2
Quantificao das categorias da varivel
Sexo.
Dimenso 2
131
Agrupamento das categorias
As categorias devem assim ser agrupadas tendo
em conta o sinal do seu valor de vector coordinate.
Dimenso
Coordenada
Positiva Negativa
1
> 30
s vezes
Bastante
Bom
Muito Bom
20 a 30 (+ fraco)
< 10
10 a 20
Nunca
Suficiente
2
Alto
Mulher
Baixo
Mdio
Homem
Afinidade entre categorias
132
Concluses finais
A varivel Regio no est associada com nenhuma das
outras.
Existe uma forte associao das variveis N de horas de
Estudo/semana, Estudo em Grupo e Nota final do curso.
+Os alunos que estudam mais tempo, tendem a estudar em grupo e a ter
melhores notas.
+Os alunos que estudam menos tempo, tendem a estudar pouco em grupo e
a ter piores notas.
Existe uma forte associao da varivel Estrato Social e
Sexo.
+Os alunos do sexo masculino tendem a pertencer a um estrato social
mdio ou baixo.
Exerccio
3. O ficheiro Exerccio CATPCA.sav contem
informao sobre clientes de uma determinada
cadeia de lojas.
a) Existe redundncia de informao na base de dados?
b) Quais as variveis que tm informao redundante?
c) Como que se relacionam as variveis que apresentam
informao redundante?
133
Anlise de Dados Univariados e
Multivariados
Anlise de Dados
Multivariados Anlise
de Regresso
Uma das formas de se tentar prever o resultado
de uma determinada varivel, atravs da sua
relao com o resultado de outras variveis.
A varivel cujo resultado se pretende prever
designada por varivel dependente, sendo as
restantes variveis designadas por variveis
independentes.
Introduo
134
Para que seja possvel efectuar a estimao do
resultado da varivel dependente, necessrio
estabelecer um modelo matemtico que
quantifique a dependncia ou influncia de cada
uma das variveis independentes no resultado da
varivel dependente.
O modelo ter assim que ser capaz de explicar a
variabilidade da varivel dependente.
Introduo
A natureza das variveis envolvidas e o seu tipo de
relao so determinantes para a natureza e
forma de obteno do modelo matemtico.
Abordaremos os seguintes modelos de regresso:
Regresso linear (Todas as variveis so quantitativas)
Regresso logstica (VD Qualitativa,
VI Preferencialmente Quantitativa)
Anlise Discriminante (VD Qualitativa,
VI Preferencialmente Quantitativa)
Regresso Categrica (VD Qualitativa ou Quantitativa,
VI Preferencialmente Qualitativa)
Introduo
135
Regresso linear
A regresso linear um modelo estatstico usado para
relacionar, quantitativamente, o comportamento de uma
varivel dependente quantitativa com uma ou mais variveis
independentes quantitativas .
A regresso permite estimar os parmetros envolvidos na
relao.
No caso da regresso linear assume-se que a relao entre
as duas variveis em causa linear, mas outro tipo de
relaes podem ser assumidas.
Regresso linear
Assumindo que se pretende estimar Y, a partir das variveis
X
1
, X
2
, ., X
n
, temos:
Em que: i = 1,2, ..., n
Y - varivel dependente
X
n
- variveis independentes
e parmetros populacionais (constante e
coeficientes)
i
- erro da previso do valor de Y
i
(resduo)
1 1, 2 2, ,
... = + + + + +
i i i n n i i
Y X X X o | | | c
136
Avaliao da Qualidade
Uma regresso, consiste num modelo estatstico
que a partir do valor um conjunto de valores (X
1
,
, X
n
), fornece uma estimativa para o valor de Y.
A qualidade do modelo ajustado estar assim
intrinsecamente ligada ao erro de estimao de Y,
o qual depende da semelhana entre a verdadeira
relao entre as variveis independentes (X
n
) e a
varivel dependente (Y ) e a relao expressa pelo
modelo escolhido.
Avaliao da Qualidade
No caso da regresso linear, o modelo escolhido
uma recta, que traduz uma relao linear. A
qualidade do ajuste depender assim, da
linearidade da relao entre X
1
, , X
n
e Y.
O que est aqui em causa a qualidade da
estimativa de Y, quanto menor for a diferena
entre o valor estimado ( ) e o valor real de Y
(anteriormente designado por
i
).
Y
137
Coeficiente de Determinao
O critrio normalmente utilizado para aferir a
qualidade do ajuste de um determinado modelo, o
coeficiente de determinao (R
2
).
O coeficiente de determinao traduz a fraco
da variao total de Y, que explicada pelo modelo
escolhido (neste caso a recta).
Quanto maior for o R
2
, melhor ser a qualidade da
regresso.
Coeficiente de Determinao
A partir do valor do coeficiente de determinao,
possvel concluir o seguinte:
2
0 R =
2
0 1 R < <
2
1 R =
Pssimo ajuste
a variao de X no contribui em nada para
explicar a variao de Y, pssimo ajuste.
Ajuste intermdio
apenas uma fraco da variao total de Y,
explicada pelo modelo escolhido.
Ajuste Perfeito
a variao total de Y explicada totalmente
pela variao de X.
138
Coeficiente de Determinao
importante ter conscincia que um valor de zero
do coeficiente de determinao (R
2
), implica,
normalmente, um pssimo ajuste, contudo pode
tambm significar o seguinte:
O valor da varivel Y constante com o valor de X
As variveis X e Y tm uma relao de um tipo diferente
ao que se est a testar.
Coeficiente de Determinao
Ajustado
O coeficiente de determinao (R
2
), tende a ser
influenciado pela dimenso da amostra e pela
disperso existente nos dados, tornando-se uma
medida optimista da qualidade do ajuste
efectuado.
Como alternativa possvel utilizar o coeficiente
de determinao ajustado, onde o efeito destas
influncias descontado. As sua utilizao torna-
se crucial para avaliar modelos de regresso
mltipla (com mais do que uma varivel
independente).
139
Coeficientes de correlao
parcial
Na Regresso Linear Mltipla alm do Coeficiente de
Correlao, existem ainda o Coeficiente de Correlao
Parcial e o Coeficiente de Correlao Part:
Coeficiente de Correlao Parcial indica a intensidade da
relao entre uma varivel dependente e uma varivel
independente quando os efeitos das restantes variveis
independentes no modelo so mantidos constantes.
Coeficiente de Correlao Part indica a intensidade da
relao entre uma varivel dependente e uma varivel
independente quando os efeitos das restantes variveis do
modelo so eliminados.
A construo de um modelo de Regresso Linear
Mltipla (RLM) divide-se em 5 etapas:
1. Anlise inicial dos Dados
2. Escolha do mtodo de seleco das variveis independentes
a utilizar no modelo
3. Anlise do modelo
4. Validao dos pressupostos do modelo de regresso linear
mltipla
5. Utilizao do modelo para previso
Regresso Linear Mltipla
140
Exemplo
O ficheiro Exemplo RLM.sav, contem informao
sobre caractersticas e hbitos de um conjunto
de 158 pessoas representativas dos habitantes
de Cidadel.
Pretende-se saber se possvel prever a tenso arterial
de um habitante de Cidadel, com as seguintes
caractersticas/hbitos:
47 anos;
179 cm;
70 Kg
Pratica 5h de exerccio por semana
Fuma 145 cigarros por semana
Bebe 5 cervejas por semana
Anlise inicial dos Dados
Qualquer anlise de regresso deve ser precedida, de duas
etapas fundamentais:
Uma etapa de validao dos dados (outliers e no-
respostas)
Uma etapa de eliminao das redundncias de informao
Assumindo que estas duas etapas foram cumpridas, est-se
perante uma base de dados devidamente validada e composta
apenas pelas variveis essenciais. Assim, resta apenas
representar os grficos de disperso da varivel dependente
com cada uma das variveis independentes. Estes grficos
permitem ter uma primeira ideia das relaes em causa e
simultaneamente fazer uma nova verificao dos outliers.
141
Anlise inicial dos Dados
No se observam potenciais outliers
A recta parece ser o melhor tipo de ajustamento
Anlise inicial dos Dados
No se observam potenciais outliers
A recta parece ser o melhor tipo de ajustamento
142
Anlise inicial dos Dados
No se observam potenciais outliers
A recta parece ser o melhor tipo de ajustamento
Escolha do mtodo de seleco das variveis
independentes
Existem vrios mtodos de seleco das variveis
independentes a utilizar no modelo, que, a partir de
diferentes abordagens procuram chegar ao modelo
que melhor explique a variabilidade da varivel
dependente.
Todos os mtodos de seleco so falveis, sendo
recomendvel fazer-se, sempre que possvel, uma
de duas coisas:
Utilizar mais do que um mtodo de seleco
Testar o modelo com um conjunto de dados distinto do que
foi usado para efectuar o ajuste.
143
Escolha do mtodo de seleco das
variveis independentes
O SPSS apresenta 5 mtodo distintos de seleco das variveis
independentes:
ENTER - consiste em introduzir no modelo todas as variveis
seleccionadas
REMOVE - consiste em retirar do modelo todas as variveis
seleccionadas.
FORWARD comea-se por introduzir apenas a constante e depois as
variveis independentes so introduzidas por ordem decrescente do seu
poder explicativo, sendo estabelecido um patamar mnimo. O poder
explicativo avaliado atravs do valor parcial da estatstica F do teste
ANOVA, que calculada descontando o efeito das variveis que j esto
includas no modelo. O processo pra quando j no sobram mais variveis
ou quando as variveis que no esto no modelo tiverem valores parciais
de F abaixo do patamar mnimo.
Escolha do mtodo de seleco das
variveis independentes
BACKWARD corresponde ao processo inverso do mtodo FORWARD. Comea-se
por introduzir todas as variveis independentes no modelo, depois so
determinados, para cada varivel, os valores parciais da estatstica F da ANOVA,
calculados como se esta fosse a ltima a entrar no modelo. O menor valor de F
comparado com o patamar mnimo estabelecido e se for inferior a varivel
retirada do modelo. Cada vez que uma varivel retirada do modelo, so
recalculados todos os valores parciais de F. O processo pra quando j no
existirem mais variveis no modelo ou quando as variveis que esto no modelo
valores parciais de F acima do patamar mnimo.
144
Escolha do mtodo de seleco das
variveis independentes
STEPWISE a uma combinao dos mtodos FORWARD e BACKWARD.
As variveis independentes so introduzidas no modelo segundo o critrio do
mtodo FORWARD, mas depois de introduzidas todas as variveis do modelo so
testadas segundo o critrio do mtodo BACKWARD. A combinao dos dois
mtodo permite introduzir as variveis com maior poder explicativo, mas tambm
remover as variveis que pela adio de outras tenham perdido o seu poder
explicativo. Em situaes em que exista uma significativa correlao entre
algumas das variveis independentes, este mtodo d mais garantia de que no
final s esto no modelo as variveis com real poder explicativo. O processo pra
quando todas as variveis do modelo tiverem um F superior ao mnimo de sada e
todas as variveis que no esto no modelo tiverem um F inferior ao mnimo de
entrada.
Anlise do modelo
Anlise da qualidade do ajuste
Interpretao do valor do coeficiente de determinao ajustado.
Quanto mais prximo de 1 melhor a qualidade do ajuste.
Validao global do modelo atravs da ANOVA.
H
0
assume que todos os parmetros do modelo so iguais a 0 na
populao.
O modelo vlido se H
0
for rejeitado.
Validao dos parmetros do modelo atravs do teste t.
H
0
assume que o parmetro em causa igual a 0 na populao.
S tero significado os parmetros cujo H
0
seja rejeitado.
145
Iniciar a RLM em SPSS
Para se iniciar o procedimento RLM em SPSS,
necessrio efectuar os seguintes passos:
1. Entrar no menu: Analyze
2. Entrar no submenu: Regression
3. Seleccionar: Linear ...
Na janela Linear Regression necessrio efectuar
os seguintes passos:
Seleccionar a varivel dependente;
Seleccionar as variveis independentes que se pretende
considerar;
Seleccionar o mtodo de seleco da variveis para o
modelo.
+O mtodo Stepwise o mais verstil e foi o escolhido para este exemplo.
Opes a seleccionar no SPSS
146
Na sub-janela Satistics necessrio seleccionar as
seguintes opes:
Estimates;
Confidence intervals;
Model fit;
R squared change;
Part and parcial correlations;
Collinerity diagnostics
Durbin-Watson
Casewise diagnostics
Opes a seleccionar no SPSS
Na sub-janela Plots necessrio seleccionar as
seguintes opes:
Y: *ZRESID;
X: *ZPRED.
Na sub-janela Save necessrio seleccionar as
seguintes opes:
Predicted values: Unstandardized e Standardized;
Residuals: Standardized e Studentized
Prediction intervals: Mean, Individual e 95%.
Opes a seleccionar no SPSS
147
Anlise do modelo
Como o mtodo de seleco das
variveis foi o STEPWISE, so
apresentados os diferentes
modelos testados.
O ltimo modelo apresentado
(neste caso o quarto)
corresponde sempre ao melhor
ajuste, mas no
obrigatoriamente o melhor
modelo, porque pode no
respeitar algum dos
pressupostos da RLM.
Anlise do modelo
Todos os modelos apresentam valores elevados de
R
2
ajustado, indicando um excelente ajuste.
Como seria de esperar o modelo 4 corresponde ao
melhor ajuste, porque apresenta o maior valor R
2
ajustado (0,959).
148
Anlise do modelo
Todos os modelos
apresentam pelo
menos um
parmetro com
valor diferente de
0, logo tm
significado na
populao.
Anlise do modelo
Todos os
parmetros, em
todos os modelos,
apresentam um
valor diferente de
0 , logo todos tm
significado na
populao.
149
Anlise do modelo
Validao dos pressupostos do modelo
RLM
Inexistncia de multicolinearidade
VIF (Variance Inflation Factor). O valor deve ser inferior a 10.
Condition Index. O valor dever ser inferior a 30.
Variance proportion.
Normalidade dos resduos
Testes de Kolmogorov-Smirnov e de Shapiro-Wilk
Homocedasticidade dos resduos
Verificao grfica se a variao dos resduos no est relacionada
com os valores estimados da varivel dependente
Inexistncia de autocorrelao dos resduos
Teste de Durbin-Watson. O valor dever ser prximo de 2. Consultar
tabela.
150
Multicolinearidade
Para que exista multicolinearidade preocupante
necessrio que ocorra uma de duas coisas:
Existir pelo menos uma varivel com valor de VIF superior a
10.
Existir pelo menos uma dimenso que, simultaneamente,
apresente um valor de Condition Index superior a 30 e tenha
um Variance proportion superior a 90% em pelo menos duas
variveis.
Multicolinearidade
Todos os valores de VIF so claramente inferiores a 10, por isso
pode-se aceitar a inexistncia de multicolinearidade.
151
Multicolinearidade
Confirma-se a inexistncia de multicolinearidade.
Normalidade dos resduos
A normalidade dos resduos verificada
atravs da realizao de um teste de
normalidade aos resduos padronizados
(ZRE_1).
Os resduos tm claramente uma
distribuio normal.
152
Homocedasticidade dos resduos
A avaliao a homogeneidade da varincia das
variveis residuais, efectuada atravs da
anlise do grfico de disperso dos resduos
estudantizados (SRE_1) em funo dos valores
previstos padronizados (ZPR_1).
Os resduos mantm uma amplitude
aproximadamente constante em
torno do eixo 0, ou seja, no
mostram tendncias crescentes ou
decrescentes.
Aceita-se a existncia de
homocedasticidade.
Inexistncia de autocorrelao dos
resduos
A independncia das variveis residuais avaliada atravs do
teste de Durbin-Watson. O teste assume como H
0
a
inexistncia de autocorrelao dos resduos.
Para se interpretar o resultado do teste necessrio
recorrer s tabelas de valores crticos.
Os valores crticos dependem de trs factores: da dimenso
da amostra; do nvel de significncia e do nmero de
variveis independentes do modelo.
153
Interpretao do teste de
Durbin-Watson
0 d
L
d
U
4 d
U
4 d
L
4 2
Existe
Autocorrelao
positiva
Existe
Autocorrelao
positiva
No Existe
Autocorrelao
Sempre que a estatstica do teste
de Durbin-Watson se situa nas
zonas intermdias, o teste no
conclusivo.
Inexistncia de autocorrelao dos
resduos
No caso do exemplo em anlise a amostra tem dimenso 158
e o modelo tem 4 variveis independentes.
Assumindo uma significncia de 5% e consultando as
tabelas de valores crticos, obtem-se:
d
L
= 1,571
d
U
= 1,679
Na tabela Model Summary do output do SPSS, verifica-se
que a estatstica do teste de Durbin-Watson toma o valor
2,059.
154
Interpretao do teste de Durbin-Watson
para o exemplo em anlise
0
1,571
1,679
2,321
2,429
4 2
Existe
Autocorrelao
positiva
Existe
Autocorrelao
positiva
No Existe
Autocorrelao
2,059
Os resduos no esto autocorrelacionados
Utilizao do modelo para
previso
Quando se obtm um modelo de regresso
devidamente validado e com boa capacidade de
explicao, est-se em condies de efectuar
previses com um elevado nvel de confiana.
No exemplo em anlise pretendia-se prever a
tenso arterial de um habitante de Cidadel com 47
anos, 179 cm, 70 Kg, que pratica 5h de exerccio
por semana, que fuma 145 cigarros por semana e
que bebe 5 cervejas por semana.
155
Utilizao do modelo para
previso
Para se efectuar a previso da tenso arterial
necessrio introduzir os dados conhecidos na base
de dados, criando uma nova linha (neste caso a
linha 159)
Utilizao do modelo para
previso
Se os dados tiverem sido introduzidos logo no inicio, basta
ir ler o resultado s variveis PRE_1, LICI_1 e UICI_1.
Caso contrrio ter que se correr o procedimento
novamente e ler os resultados PRE_2, LICI_2 e UICI_2.
Para o exemplo em anlise obtm-se os seguinte valores:
PRE_1 = 145
LICI_1 = 130
UICI_1 = 160
156
Concluses
A tenso arterial de um habitante de Cidadel
explicada em 95,9% pela sua idade, altura, peso,
n de horas que pratica exerccio por semana e o
n de cigarros que fuma por semana.
O n de cervejas que bebe por semana no
relevante para explicar a sua tenso arterial.
70,291 0,402 _ 1,02
0,319 0,101
Tenso N Cigarros Exerccio
Idade Peso
= +
+ +
Concluses
Quando o Preo aumenta as Vendas tendem a diminuir.
Quando as outras 2 variveis aumentam, as vendas tendem
a aumentar.
O peso de cada um dos factores na variao da tenso
arterial est expresso nos coeficientes do modelo (ex: 1
hora de exerccio consegue anular o efeito de 2,5 cigarros).
70,291 0,402 _ 1,02
0,319 0,101
Tenso N Cigarros Exerccio
Idade Peso
= +
+ +
157
Concluses
Um habitante com 47 anos, 179 cm, 70 Kg, que pratique 5h
de exerccio por semana e que fume 145 cigarros por
semana, ser expectvel que tenha uma tenso arterial
entre 130 e 160, ou seja 145 15.
Os habitantes com estas caractersticas tero um tenso
arterial mdia entre 146,9 e 143,5, ou seja 145 1,7.
70,291 0,402 _ 1,02
0,319 0,101
Tenso N Cigarros Exerccio
Idade Peso
= +
+ +
Exerccio
1. O ficheiro Exerccio RLM.sav contem informao
sobre as notas de 158 alunos de uma escola
secundria em 7 disciplinas.
a) Existe redundncia de informao na base de dados?
b) Pretende-se saber se possvel prever a nota de Geometria
que um determinado aluno desta escola secundria ter,
sabendo que teve as seguintes notas noutras disciplinas:
Nota de Ingls = 12
Nota de Aritmtica = 10,3
Nota de Histria = 16,3
Nota de lgebra = 9,5
Nota de Portugus = 16