Estimativa de Parâmetros e Intervalos de Confiança

ANÁLISE ESTATÍSTICA
Unidade 4
Conceitos Elementares e Metodologia dos Testes de Hipóteses
Estimação de Parâmetros
Objetivos
Ao final deste módulo o aluno será capaz de entender o significado do termo
“estimação”, diferenciar estimativas intervalares das pontuais, construir in-
tervalos de confiança utilizando dados amostrais, explicar como o tamanho da
amostra, a dispersão amostral e o nível de confiança afetam o a construção do
intervalo de confiança, calcular o tamanho de uma amostra para ser utilizada
no processo de estimação.
1. Estimação de parâmetros
A estimação é o estudo de métodos de obtenção de medidas representativas da

população calculadas a partir de dados obtidos de uma amostra aleatória, ou seja,
é o processo que consiste em utilizar valores amostrais para estimar parâmetros
populacionais desconhecidos.
Esquematicamente:
Essencialmente, qualquer característica de uma população pode ser estimada

a partir de uma amostra aleatória. Entre as mais comuns, estão à média e o desvio
padrão de uma população e a proporção populacional.
A seguir apresentamos uma ilustração do processo de estimação de parâmetros

para a média (a) e a proporção (b) populacionais:
a) Processo utilizado para a estimação da média de uma população;
94 b) Processo utilizado para a estimação da proporção de uma população;

Unidade 4
Vocês devem estar lembrados que no módulo I estudamos que a inferência es-
tatística tem por objetivo fazer generalizações sobre uma população, com base em
valores obtidos de amostras representativas dessa população. A inferência pode ser
feita estimando os parâmetros por ponto ou por intervalo.
A estimação por ponto é um valor (ou ponto) único usado para avaliar um pa-
râmetro populacional. Assim, uma média amostral é usada como estimativa de uma
média populacional; um desvio padrão amostral serve de estimativa do desvio padrão
da população; e a proporção de itens numa amostra, com determinada característica,
serve para estimar a proporção da população que apresenta aquela característica.
Em todas essas situações se obtém um único valor para a estimativa do parâmetro
e por isso são chamadas de estimativas pontuais.
A estimação por intervalo estabelece um intervalo de valores que tem uma dada
probabilidade de conter o verdadeiro valor do parâmetro populacional desconhecido.
A esse intervalo, de confiança, está associado um grau de confiança, que é uma
medida da certeza de que o intervalo estabelecido contém o parâmetro populacional.
Apresentaremos a seguir um exemplo e algumas considerações para compreen-

dermos melhor o processo de estimação de parâmetros.
Exemplo: A altura média de uma amostra de 500 universitários, cujo valor foi igual
a i = 1,68m, é uma estimativa pontual da verdadeira média da altura da população
de universitários considerada. Para cada amostra retirada da população, podemos
obter diferentes estimativas para a média µ da população. Seria mais interessante
obtermos, a partir, de uma determinada amostra, um intervalo que apresente uma
probabilidade conhecida de conter o verdadeiro parâmetro populacional, ou seja,
obter uma estimativa por intervalo para o parâmetro em questão, como por exemplo,
P(1,60 < µ < 1,76) = 0,95.
O grau de confiança associado ao intervalo de confiança é a probabilidade 1-

(comumente expressa como o valor percentual equivalente) de o intervalo de con-
fiança conter o verdadeiro valor do parâmetro populacional. O grau de confiança é
também chamado de nível de confiança, sendo a a probabilidade do erro, isto é, a
probabilidade do intervalo não conter o verdadeiro parâmetro populacional.
O nível de confiança (1- ) é a probabilidade de o intervalo conter o parâmetro

estimado. Em termos da variável normal padrão z, isto representa a área central sob
a curva normal entre os pontos .
95
Unidade 4
Pelo Teorema do Limite Central sabemos que as médias amostrais apresentam

uma chance relativamente pequena de estar em uma das caudas extremas (região não
sombreada). Os valores ,é chamado valor crítico porque está na fronteira
que separa as médias amostrais passíveis de ocorrerem, das médias amostrais que
provavelmente não ocorrerão.
Os valores críticos mais comumente usados, associados ao grau de confiança

são apresentados a seguir:
Portanto, um valor crítico é o número na fronteira que separa os valores das

estatísticas amostrais prováveis de ocorrerem, dos valores que têm pouca chance
de ocorrer. O número são valores críticos que separaram uma área de
/2 na cauda direita e esquerda da distribuição normal padronizada. (Há uma área
de 1 - a entre as fronteiras verticais em .
Assim, 1 - = 95%, corresponde ao nível de confiança do intervalo. O nível de

confiança 0,95 define o valor de que equivale a uma área igual a 0,95/2= 0,475.
O valor correspondente de na tabela normal para uma área de 0,475 é =
1,96. Esquematicamente temos:
É possível perceber que na estimação por ponto não temos como obter uma
idéia do erro cometido ao se fazer à estimativa do parâmetro. Para que se possa
associar uma confiança (probabilidade) a uma estimativa é necessário construir
um intervalo em torno da estimativa pontual conforme vimos no exemplo P(-1,96<
<1,96)=0,95. De uma maneira geral:
96
Unidade 4
Este intervalo é construído baseado na distribuição amostral do estimador.
Conforme vimos anteriormente, para estimar a média populacional µ podemos

retirar várias amostras diferentes que podem gerar várias estimativas pontuais dife-
rentes. Se a amostra for representativa da população, ela tende a gerar valor próximo
do parâmetro populacional, mas não igual. Como a estimativa é baseada em uma
única amostra, o quão próximo o valor encontrado nessa amostra está do verdadeiro
parâmetro populacional? Não há como saber se a amostra coletada foi extraída da
cauda superior ou inferior da distribuição.
Esquematicamente:
Logo, para se estimar o verdadeiro parâmetro populacional, gera-se um intervalo

de possíveis valores para o parâmetro populacional, a partir do valor encontrado na
amostra. Quanto maior a amplitude do intervalo, maior a confiança na estimativa.
Para o caso de estimação da média populacional teríamos:
Um intervalo de confiança de 100(1- )% é estabelecido a partir de dois limites,

tais que a probabilidade do verdadeiro valor do parâmetro estar incluído dentro do
intervalo é 100(1- )%.
Por exemplo, para construirmos um intervalo de confiança de 95% (1- =0,95)

para a média, nós precisamos achar os limites I (inferior) e S (superior) tais que:
P(I < µ <S) = 95%
A interpretação do intervalo de confiança conforme vimos anteriormente é a

seguinte:
Se um grande número desses intervalos fosse construído, a partir de diversas

amostras aleatórias, então 95% desses intervalos iria incluir o verdadeiro valor da
média populacional µ , ou seja, 5% dos intervalos de confiança estimados, baseados
nas médias amostrais, não conteria o verdadeiro parâmetro populacional µ. 97
Unidade 4
Formalizando um pouco, denotando-se o parâmetro de interesse por , desejamos

obter um intervalo com limite inferior I e limite superior S tal que:
P(I < < S) = 1 -
onde, é um valor pequeno, isto é, 1- é próximo de 1.
Para esclarecer o conceito de intervalo de confiança, suponha que retiremos um

grande número de amostras de tamanho n (fixo) da população em estudo e para cada
amostra, construamos um intervalo. Os limites dos intervalos resultantes variarão
de amostra para amostra.
Por exemplo, ao desejar um intervalo de confiança de 90% para estimar a mé-

dia de uma população, uma pessoa pode retirar uma amostra que dê um intervalo
entre 48,5 e 51,5. Por outro lado, uma segunda pessoa, baseada em outra amostra
retirada da mesma população, calculou o intervalo entre 47,9 e 52,9, aparentemente
gerando uma dúvida sobre qual dos intervalos contém o verdadeiro valor da média.
Ocorre que se 100 desses intervalos fossem calculados a partir de 100 amostras
diferentes, deve-se esperar que em torno de 90 desses intervalos contenham o valor
da verdadeira média, embora não se saiba quais são estes intervalos, uma vez que a
média é desconhecida. Na prática, trabalhamos em geral com apenas uma amostra
e obtemos, portanto, um único intervalo.
A figura abaixo ilustra bem o conceito de intervalo de confiança.
O verdadeiro valor do parâmetro estará contido em 1- (x100)% desses inter-

valos.
Observamos que algumas estimativas intervalares incluem, e outras não incluem,

o verdadeiro valor do parâmetro da população. Quando retiramos uma amostra e
calculamos um intervalo de confiança não sabemos, na verdade, se esse intervalo
calculado contém, ou não, o parâmetro da população. O importante é saber que es-
tamos utilizando um método com 1- (x100)% de probabilidade de sucesso.
1.1. Intervalo de Confiança para a Média
Como vimos anteriormente um intervalo de confiança é formulado do seguinte

modo:
98
Unidade 4
P(I < <S) = 1 -
Onde
I: limite inferior do intervalo;
S: limite superior do intervalo;
: parâmetro que queremos estimar;
1 – : nível de confiança.
Da mesma maneira que podem existir muitas estimativas pontuais para um

parâmetro, também podemos construir muitos intervalos de confiança. Como saber
qual o melhor?
Se dois intervalos de confiança com o mesmo nível de confiança (1- )
estiverem sendo comparados iremos preferir aquele que tenha o menor comprimen-
to esperado , ou o menor erro de estimativa e. O comprimento do intervalo é dado
por L = I - S e o erro = - = L / 2. Lembrando que,
Esquematicamente teríamos:
O intervalo de confiança para a média (µ)7 de uma população é construído em

torno da estimativa pontual . Para construir este intervalo fixa-se uma probabilida-
de “1 - “ de que o intervalo construído contenha o parâmetro populacional. Desta
forma, “a” será a probabilidade de que o intervalo obtido não contenha o valor do
parâmetro, isto é, “ “ será a probabilidade de erro.
Como já vimos anteriormente, (média amostral) tem distribuição normal de
média µ e desvio padrão , ou seja, ~ N (µ /n). Portanto,

2
tem distribuição N (0,1).
Lembrando que, o que queremos é construir um intervalo que contenha o parâme-

tro populacional ? com probabilidade “1 – “. Em termos da variável normal padrão,
isso representa a área central sob a curva normal entre os pontos
99
Unidade 4
Observe que a área total sob a curva normal é unitária. Se a área central é 1- ,
a notação representa o valor de Z, que deixa a sua esquerda a área /2, e a
notação representa o valor de Z, que deixa a sua direita a área /2.
Desta forma,
Substituindo-se nesta expressão o valor de Z por: obtém-se:
Que é a expressão do intervalo de confiança para uma estimativa da média

populacional.
:estimativa por ponto da média da população;

: desvio padrão da população;
: valor crítico (representa o valor de Z, que deixa a sua direita a área /2,
e- representa o valor de Z, que deixa a sua esquerda a área /2);
n: tamanho da amostra;
: erro padrão da média (desvio padrão da distribuição amostral).
Esta expressão pressupõe o conhecimento do desvio-padrão populacional ,

e que a amostragem foi obtida com reposição. Além disso, é interessante salientar
que a diferença máxima possível (com probabilidade 1- ) entre a média amostral
observada e a verdadeira média populacional µ que representa o erro máximo
provável esquematicamente mostrado anteriormente é igual a,
100
Unidade 4
(também chamado, erro máximo de estimativa),

e que, os valores ± e são denominados limites do intervalo de confiança.Isso
é, limite inferior I = - , e limite superior S = + e deste modo, os limites do
intervalo são estabelecidos pelos valores:
+ <µ> - , ou formalizando por,
P(I < <S) = 1 - ?
a) Desvio padrão populacional conhecido
• Quando a população é infinita o intervalo de confiança com probabilidade

“1- ” é dado por:
• Quando a população é finita de maneira análoga ao anterior, obtemos o

intervalo dado por:
Observação
Os níveis de confiança mais usados são:
1- = 90% (a/ = 0,05) ± 1,64

1- = 95% (a/ = 0,025) ± 1,96
1- = 99% (a/ = 0,005) ± 2,58
Exemplo:
1) Suponha que as alturas dos alunos de nossa faculdade tenham distribui-

ção normal com desvio padrão = 10 cm, foi retirada uma amostra de 81 alunos
obtendo-se = 1,65 metros. Determine um intervalo de 95% de confiança para a
média desta população?
Solução:
Como o desvio padrão da população é conhecido e a variável de interesse (
: a altura dos alunos desta faculdade) se distribui normalmente, e levando-se em
consideração que o tamanho da amostra n = 81 é pequeno em relação à população
de alunos de nossa faculdade poderemos tranquilamente supor que a população é
infinita isto é n/N 0,05, portanto, vamos ignorar o uso do fator de correção para
população finita. A expressão para o cálculo do intervalo é dada por:
101
Unidade 4
Assim temos que,
Enquanto o erro máximo de estimativa é: cm

Conclusão:
Portanto, estimamos que a altura média dos alunos da nossa faculdade encontra-
se entre 162,82 e 167,18 centímetros, e que o erro de estimativa é de 2,18 cm. Lem-
brando que, (erro de estimativa) é a máxima diferença entre o valor da estimativa
e do verdadeiro valor do parâmetro que admitimos errar. A expressão acima pode ser
interpretada do seguinte modo: construídos todos os intervalos da forma ±1,96
, 95% deles conterão o parâmetro µ.
2) A duração da vida de uma peça de um equipamento industrial é tal que =

5 horas. Foram amostradas aleatoriamente 100 dessas peças, obtendo-se média de
500 horas. Desejamos construir um intervalo de confiança para a verdadeira duração
média da peça com um nível de 95% de confiança considerando como população a
produção de 1.000 peças.
Solução:
n = 100 =5 = 500 1- = 0,95 = 95% N = 1.000
1- = 95% ( /2 = 0,025) =± 1,96
Sempre que conhecemos o tamanho da população “N” verificamos se a popu-

lação é considerada finita para sabermos se usamos ou não o fator de correção de
população finita. Como, n/N 0,05 100/1000 = 0,1 ou seja, como o tamanho
da amostra representa mais que 5% do tamanho da população é necessário aplicar o
fator de correção ao intervalo. A expressão para o intervalo é dada por,
102
Unidade 4
Conclusão: Logo, o intervalo [499,07 ; 500,93] = 95% contém a duração média

das 1.000 peças com 95% de confiança.
b) Desvio padrão populacional s desconhecido
Em geral, não conhecemos o desvio padrão da população, de modo que, para

obtermos os limites de confiança, utilizamos o estimador S, ou seja o desvio padrão
da amostra. Desta forma, o desvio padrão das médias (ou erro padrão) será dado por:
Para grandes amostras, podemos admitir que a variação dos valores observados
na amostra, seja semelhante a variação da população. Porém, para pequenas amostras
isso pode não ser verdadeiro. Neste caso, a distribuição adequada é a distribuição
t-Student.
Assim, utilizamos a estatística t-Student onde, , com (n-1) graus de
liberdade, em lugar da estatística .
A distribuição t-Student é muito parecida com a distribuição normal, sendo simé-

trica em torno da média zero, porem tem maior dispersão comparado com a normal.
A forma da distribuição t-Student depende do tamanho da amostra. Quanto

menor o tamanho da amostra “n”, menor serão os graus de liberdade g.l ( = n-1)
e mais dispersa (achatada) será a curva.
Gráfico da Distribuição t-Student
Observamos que para cada valor dos graus de liberdade temos uma curva dife-
rente, ou seja uma família de curvas distintas.
Quando o tamanho da amostra “n” tende para infinito, a distribuição t tende para
a distribuição normal. Na prática, a aproximação é considerada boa quando n>30.
Deste modo, podemos utilizar à estatística “z” no lugar da “t”.
Prezado aluno, vamos agora para a planilha do Excel comparar as duas estáticas
“z” e “t”. No local reservado para os graus de liberdade g.l. vamos colocar os valo-
res 3, e apertamos a tecla enter, observe o comportamento das duas curvas, depois
coloque o 6, 18, 25, 30 e 35. 103
Unidade 4
Após ter observado o comportamento das duas curvas o que você concluiu?
A seguir apresentaremos as condições necessárias para utilizarmos a distribuição

t-student.
a) desvio padrão da população s desconhecido;

b) o tamanho da amostra é pequeno (n < 30);
c) é essencial em todas as situações que a variável de interesse se distribua
normalmente na população. Sempre que n < 30 e quando for desconhecida iremos
em nosso curso considerar a população normalmente distribuida.
d) se n>30 podemos usar a estatística z.
Para obter o valor da distribuição t de Student, na tabela, basta calcular os graus

de liberdade: gl = n-1, fixar o nível de confiança desejado e usar a tabela corres-
pondente. O quadro a seguir mostra um exemplo de procura na tabela, para gl = 9
e nível de confiança de 95%.
O intervalo de confiança para uma média ? com s desconhecido tem a seguinte

expressão:
a) Quando a população é infinita
b) Quando a população é finita.
Exemplo:
1) Em uma fábrica, foram colhidas uma amostra de tamanho 20 de certa peça,

onde foi observado as quantidades de falhas em cada peça:
2 3 3 2 1 4 5 8 8 7 3 2 2 1 1 4 6 6 7 8
a) Estimar a média e a variância para o número de falhas.

b) Encontrar um intervalo de confiança para o número médio de falhas com nível
de significância igual a 10%.
Solução:
X: representa o número de falhas em cada peça.
104 O nível de significância de 10% corresponde a probabilidade de erro “ ”, isto é, a
Unidade 4
probabilidade do intervalo não conter o verdadeiro parâmetro populacional a =10.

1- = 90%
/2 = 5% = 0,05
n = 20 grau de liberdade: = n – 1 = 19
Na tabela t-Student para um g.l. = 19 e área na cauda superior igual a 0,05 (5%)
temos:
Use a tabela eletrônica para encontar o valor de t :
Para calcular a média e a variância iremos determinar,
Logo,
a)
Concluímos que o número médio de falhas em cada peça é de 4,15 e a variância

é de 6,38 e o desvio padrão é de 2,52.
b) Então,
105
Unidade 4
Conclusão: Portanto, estimamos que o número médio de falhas em cada peça

está entre 3,17 e 5,12 unidades a um nível de confiança de 90%.
2) Para verificar a eficácia de um programa de prevenção de acidentes de trabalho

realizou-se um estudo experimental, implementando este programa em dez empresas
da construção civil, escolhidas ao acaso numa certa região. Os dados abaixo referem-
se aos percentuais de redução de acidentes de trabalho nas 10 empresas observadas.
Adotar 1 – = 0,95 ( = 0,05 e /2 = 0,025).
Solução:
Como se vê, a amostra é pequena (n=10) e o indicado é usar a distribuição de
t de Student. O objetivo é estimar o parâmetro µ = média da redução percentual
de acidentes de trabalho, devido ao programa preventivo, em todas as empresas da
construção civil da região. O intervalo de confiança é dado por:
Adotando nível de confiança de 95%, graus de liberdade gl = 9 (n=10 e gl = n–1),

da tabela extrai-se o valor t = 2,262; com isso, calcula-se o erro máximo provável,
a diferença máxima
Assim, tem-se o seguinte intervalo de 95% de confiança para o parâmetro µ ?:
18,0 ± 4,8 pontos percentuais.
3) Um pequeno produtor de queijo recebe de um cliente uma encomenda de 200

peças de padronizadas em 1 kg. Após a produção, para verificar se o lote produzido
atende ao padrão desejado, selecionou ao acaso uma amostra de 15 peças que apre-
sentou peso médio de 1,03 kg, com desvio-padrão de 0,06 kg. Construa um intervalo
de confiança de 95% para o peso médio das peças produzidas neste lote.
Solução:
N= 200 (tamanho da População)
n = 15 (tamanho da amostra)
= 1,03 (média amostral)
S = 0,06 (desvio-padrão amostral)
1 - = 95%
Como desconhecemos s, utilizamos a distribuição t.Com 14 graus de liberdade
e a/2 = 0,025 o valor de t obtido na tabela é = 2,15.

Como o tamanho da amostra é superior a 5% do tamanho da população, devemos
usar o fator de correção para população finita. Deste modo, o intervalo de confiança
será dado por,
106
Unidade 4
Substituindo os valores, obtém-se:
Nesse nível de exigência (95% de confiança), o lote está fora do padrão.
1.2. Intervalo de Confiança para a Proporção.
Seja P = proporção amostral. Sabe-se que, para n > 30 a distribuição amostral

de P é aproximadamente normal com média e desvio padrão (erro padrão)
. Pode-se então utilizar a curva normal para estabelecer os limites

para o intervalo de confiança.
a) Para população infinitas
Os limites do intervalo de confiança para a proporção foi desenvolvido do mesmo

modo que para a média e é dado por:
Observando-se a expressão acima pode-se perceber que o intervalo de confiança

para a proporção populacional , depende dele mesmo, isto é, é necessário calcular
o erro amostral que está expresso em função de . Como o objetivo é estimar este
valor, evidentemente ele não é conhecido. Assim é necessário utilizar, sua estimativa
, isto é, é necessário substituir por P na expressão . Desta forma

o intervalo acima ficará:
Onde:
P é a estimativa por ponto da proporção populacional .
= é uma estimativa do erro padrão, isto é, do desvio padrão

amostral.
valor crítico (representa o valor de Z, que deixa a sua direita a área /2,
e- representa o valor de Z, que deixa a sua esquerda a área /2);
b) Para população finitas
Este é o caso em que o tamanho da amostra representa mais do que 5% do ta-

manho da população, portanto haverá necessidade do uso do fator de correção. Os
limites do intervalo de confiança nesse caso é dado por: 107
Unidade 4
Exemplo:
1) Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre sua
preferência por determinado produto. Destas 400 pessoas, 240 disseram preferir
o produto. Determinar um intervalo de confiança de 95% de probabilidade para o
percentual de preferência dos consumidores em geral para este produto.
Solução:
n = 400
x = 240 (elementos que apresentam a característica de interesse, isso é, pre-
ferem o produto)
(estimativa por ponto para a proporção populacional), ou seja, 60% dos entre-
vistados disseram preferir o produto.
n = 400
1- = 95%=0,95
1- = 95% ( /2 = 0,025)
Então o intervalo de confiança de 95% para a proporção populacional será:
Conclusão:
Podemos afirmar com uma certeza de 95% de que este intervalo [55,20%;64,80%]
conterá a proporção populacional, isto é, a verdadeira percentagem dos consumidores
que preferem o produto pesquisado.
2) Uma pesquisa efetuada com 130 funcionários selecionados ao acaso entre

os 600 funcionários de uma empresa, revelou que 52 deles não mantinham convênio
com nenhuma empresa particular de assistência médica. Construa um intervalo de
confiança de 90% para a proporção de funcionários desta empresa que mantém con-
vênio com alguma empresa particular de assistência médica.
Solução:
108
Unidade 4
40% é a proporção dos funcionários que não mantêm convênio com nenhuma
empresa particular de assistência médica.
Isso significa que 0,60 é a proporção, na amostra, dos funcionários que mantém
convênio com alguma empresa particular de assistência médica (característica de
interesse). Então, P = 0,60.
Como o tamanho da população é N = 600, o tamanho da amostra n = 130 repre-

senta mais que 5% de N (n/N 0,05). Isso significa que devemos incluir no intervalo
o fator de correção.
Conclusão:
Podemos afirmar, com 90% de confiança, que a proporção dos funcionários desta
empresa que mantêm convênio com empresas particulares de assistência médica
está entre 53,765% e 66,24%.
1.3. Intervalo de Confiança para a Variância
Seja uma população normal de média µ e variância 2. Considerando-se as

amostras de tamanho n, com variância S2, desta população, prova-se que a estatística
tem distribuição de qui-quadrado ( ) com n-1 graus de liberdade.
As principais características da distribuição de qui-quadrado são:

a) a curva não é simétrica e seu comportamento geral depende do número de
graus de liberdade ( );
b) como é uma distribuição de variância, ela tem origem sempre no valor zero.
c) à medida que n (ou ) cresce, a distribuição X2 tende a se normalizar.
Gráfico da Distribuição Qui-quadrado
Um intervalo de confiança para 2, com base em uma amostra de tamanho n e

variância S2, ao nível de confiança 1- , é dado por:
109
Unidade 4
Substituindo o valor de e resolvendo as duas inequações para 2

, obteremos
o intervalo:
onde, e definem os limites da distribuição de qui-quadrado correspon-

dente à probabilidade 1- .
Ao extrairmos a raiz quadrada do intervalo de confiança para a variância ( 2) ob-

temos uma aproximação para o intervalo de confiança do desvio-padrão populacional.
Assim:
que é a expressão para determinarmos o intervalo de confiança do desvio padrão.
Uso da tabela
A distribuição está tabelada em função do grau de liberdade n - 1 = (linha

da tabela) e área à sua direita( ) . Na realidade o que está tabelado é a função in-
versa da , isto é, entrando com o valor do parâmetro (graus de liberdade) e uma
determinada probabilidade (área), a tabela fornece um valor da variável (abscissa
) tal que a probabilidade à direita (área) deste valor seja igual à área especificada.
(Prezado aluno, observe atentamente como na tabela encontramos o valor da abcissa
você irá utilizar esse valor na construção dos intervalos de confiança para 2 e ).
Na tabela tem-se;
Exemplo:
1) A cronometragem de certa operação forneceu os seguintes valores para n =

6 determinações: 4; 5; 5; 6; 8 e 8 (em minutos). Determine um intervalo de 95% de
confiança para variância populacional da variável cronometragem.
110 Solução:
Unidade 4
Para calcular a média e a variância iremos determinar,
Logo,
a)
Temos que:
média = 6 , variância S2 = 2,8, (1- ) = 0,95

/2 = 0,025
n=6
= n-1= g.l. 5
=?
=?
Esquematicamente:
Consultando a tabela de qui-quadrado para 5 graus de liberdade( ) o valor de

qui-quadrado tabelado é dado por:
Área a direita do = /2 = 0,025 = 12,83

Área a direita do = 1 - /2 = 1 - 0,025 = 0,975 = 0,83
Na tabela tem-se:
Uso da tabela eletrônica
111
Unidade 4
O intervalo de confiança para 2 é dado por:
Tomando a raiz quadrada dos elementos dessa desigualdade determina-se um

intervalo de confiança aproximado para o desvio padrão .
Conclusão:
Podemos afirmar que o intervalo [1,091; 16,867] contém a variância populacio-
nal com 95% de confiança, e que, o intervalo [1,044; 4,107] contém o desvio padrão
populacional com 90% de confiança.
2) Uma amostra de tamanho n = 11 extraída de uma população normal forne-

ceu uma variância de S2 = 8,38. Determinar um intervalo de confiança de 90% para
a variância da população e um intervalo de mesma con¬fiabilidade para o desvio
padrão da população.
Solução:
n = 11
= n-1= g.l. 10
1 – = 0,90
/2 = 0,05
S2 = 8,38
=?
=?
É necessário determinar na tabela os valores da distribuição de modo, que

tenha uma área (probabilidade) à direita igual a 95% (0,95) e tenha uma área (pro-
babilidade) à direita igual a 5% ()0,05) para g.l. ( =11 – 1 = 10). Esses valores são:
112 Área a direita do = /2 = 0,05 = 18,307
Unidade 4
Área a direita do = 1 - /2 = 1 - 0,05 = 0,95 = 3,940
Na tabela temos:
O intervalo de confiança, para a variância, será:
O intervalo de confiança para o desvio padrão, será:
Conclusão:
Prezado aluno, com base no exemplo anterior como você concluiria ou interpretaria
esses intervalos? Faça isso em uma folha de rascunho.
3.4. Intervalo de Confiança para a Diferença e Soma entre

duas Médias de Populações Normais.
Sejam X1 e X2 duas populações com parâmetros respecti-

vamente. Retirando-se todas as amostras possíveis (independentes) das populações
e considerando todas as combinações dessas amostras, temos:
Desde que as amostras sejam: - independentes ou de populações infinitas ou de

populações finitas, mas com reposição ou de populações finitas sem reposição mas
com n1 e n2 >100.
113
Unidade 4
Assim 1
e 2
possui uma distribuição normal ,
e a variável padronizada é
a)Variâncias conhecidas
Se forem conhecidas, o intervalo de confiança para a variável z é:
Substituindo-se nesta expressão o valor de Z por:

obtém-se:
Que é o intervalo de confiança para a soma e diferença entre as médias de duas

populações normais independentes com variâncias conhecidas.
b) Variâncias desconhecidas
Se não são conhecidas devemos aproximá-los por S1 e S2, substituindo

z por t. Assim o intervalo de confiança fica:
• Populações Homocedásticas
Sendo as populações homocedásticas , assim , são duas
estimativas para um mesmo parâmetro ( 2) então o intervalo de confiança para a
diferença e soma entre duas médias é dado por:
Com t /2
, tendo; = n1 + n2 – 2 graus de liberdade. Em que,
• Populações Heterocedásticas
Sendo as populações homocedásticas , assim , são estimativas
de diferentes parâmetros, não podendo, pois serem combinadas em um único valor.
Então o intervalo de confiança para a diferença e soma entre duas médias é dado por:
114
Unidade 4
Com t /2
, tendo, graus de liberdade dado por,
Exemplo:
1) As empresas A e B produzem tubos para esgoto com as variâncias em seus
diâmetros iguais a 8mm2 e 10mm2, respectivamente. Uma amostra de 48 tubos da
empresa A apresentou diâmetro médio igual a 40mm, e uma amostra de 36 tubos da
empresa B apresentou diâmetro médio de 42mm. Verifique, por meio de um intervalo
de confiança com 0,95 de probabilidade, se existe diferença entre os diâmetros médios
dos tubos das marcas A e B.
Solução:
Variâncias populacionais são conhecidas.
Conclusão:
Pode-se afirmar com 95% de confiança que a verdadeira diferença entre os
diâmetros médios dos tubos produzidos pelas empresas A e B está entre -3,2973
e -0,7027 mm. Como esse intervalo não compreende o valor 0 (zero) tem-se 95%
de confiança em afirmar que os diâmetros médios dos tubos produzidos por estas
empresas não são iguais.
2) Um eixo deve ser montado no interior de um rolamento. Uma amostra de doze

unidades indicou para o diâmetro interno do rolamento e ; e para o diâmetro do eixo
e . Calcule o intervalo de confiança de 99% para a folga de montagem. Iremos supor
que as variâncias das populações são iguais e que as distribuições dos diâmetros do
rolamento e do eixo é normal.
115
Unidade 4
Solução:
Variâncias populacionais são desconhecidas mas supostamente iguais.
Conclusão:
A folga de montagem provavelmente encontra-se entre 0,00986 e 0,026 a um
nível de confiança de 99%.
1.5. Dimensionamento de Amostra
No módulo I, estudamos as técnicas de amostragem, onde aprendemos a sele-

cionar os elementos da população para obtermos amostras representativas dessa
população. Entretanto, além de serem estabelecidos os critérios para a seleção dos
elementos é importante, também, estabelecer os critérios para a quantidade de ele-
mentos que vão fazer parte da amostra.
A determinação do tamanho de uma amostra é um problema de grande importân-

cia, porque amostras desnecessariamente grandes acarretam desperdício de tempo
e de dinheiro, e amostras demasiadamente pequenas podem levar a resultados não
confiáveis. Então, como saberemos quantos elementos da população devem ser
escolhidos?
As expressões para o cálculo do tamanho n da amostra são obtidas das expres-

sões dos intervalos de confiança fixando, a priori, o nível de confiança (1- ) e o erro
amostral tolerado ( ).
A precisão de uma estimativa é constituída pelo nível de confiança e pelo erro-

padrão de estimativa. Para uma amostra de tamanho fixo, à medida que aumentamos
o valor do nível de confiança do intervalo (1- ), o erro-padrão de estimativa ( )
também aumenta. Pela figura abaixo é possível verificarmos isso.
116
Unidade 4
Obviamente, o erro amostral ( ) e o tamanho da amostra (n) seguem sentidos

contrários. Quanto maior o tamanho da amostra, menor o erro cometido e vice-
versa. Vocês devem estar lembrados que, a medida que aumentamos “n” os valores
amostrais tendem a aproximar-se do parâmetro populacional, consequentemente
diminuindo o erro.
a) Determinação do tamanho de uma amostra para estimativa da média

populacional
Nós vimos que, a diferença máxima possível (com probabilidade 1- ) entre a

média amostral observada e a verdadeira média populacional µ que representa o
erro máximo provável ( ) é dado por:
Partindo dessa expressão da margem de erro ( ) e resolvendo em relação ao

tamanho n da amostra, elevando-se ao quadrado ambos os membros da equação,
obtêm-se:
A fórmula para o cálculo do tamanho de uma amostra para estimar a média

populacional µ.
Logo, o tamanho da amostra dependerá:

• do grau de confiança desejado (1- );
• da dispersão na população ( );
• de certo valor especificado para o erro tolerável ( ).
Para o caso de população finita, o fator de correção deve ser incorporado ao

erro padrão de estimativa, assim, desse modo temos,
Entretanto, quando não conhecemos o valor do desvio-padrão populacional ,

utilizamos o desvio padrão amostral S e a distribuição de t de Student em lugar da
Z. Deste modo, o tamanho da amostra é dado por: 117
Unidade 4
ou, para o caso de população finita, no qual utilizamos o fator de correção,
Devemos lembrar que, se o tamanho da amostra calculado não é um número

inteiro, devemos arredondá-lo para o próximo inteiro mais elevado. E que os valores
do desvio padrão devem ser obtidos ou de dados históricos (já conhecidos) ou de uma
amostra piloto. Isso é válido também na determinação do tamanho de uma amostra
para a proporção.
b) Determinação do tamanho de uma amostra para estimativa da proporção

populacional
O cálculo do tamanho de uma amostra para estimar a proporção da população

é obtido do erro máximo tolerável ( ), do mesmo modo que para a média populacional
µ. Assim para o caso da proporção teríamos,
Como vimos anteriormente, a equação acima exige que se substitua o valor da

proporção populacional pelo valor amostral P.
Elevando-se ao quadrado ambos os membros da equação, obtêm-se, a fórmula

para o cálculo do tamanho de uma amostra para estimar a proporção populacional .
onde,
P: proporção de indivíduos que apresentam a característica de interesse na

amostra. Lembrando que, o valor de P é determinado através de uma amostra piloto.
Quando não conhecemos a estimativa P podemos calcular o tamanho da amostra

da seguinte forma:
Se a população for finita, o fator de correção deve ser incorporado ao erro-

padrão de estimativa, tendo-se que,
118
Unidade 4
Se o tamanho da amostra calculado não é um número inteiro, devemos arredondá-

lo para o próximo inteiro mais elevado.
Exemplo:
1) Que tamanho de amostra será necessário para produzir um intervalo de con-
fiança de 90% para a verdadeira média populacional com e = 1,0 se o desvio padrão
da população é 10,0?
Solução:
2) Um despachante que cuida da documentação de automóveis está interessado

em estimar a proporção de clientes que trocaram de carro no último ano para oferecer
seus serviços. Para isto, amostrou 80 do seu cadastro de 40 clientes e consultou-os
por telefone verificando que 30 deles haviam trocado de carro no último ano. De-
termine o tamanho da amostra necessário para estimar com 90% de confiança esta
proporção com erro máximo de 4%.
Solução:
N = 400
n = 80
x = 30
P = x/n = 30/80 = 0,375
Resumo:
Nesse módulo apresentamos os métodos de estimação para construção de inter-
valos de confiança para a média, proporção, variância e desvio-padrão da população
de interesse, além da diferença e soma de duas populações independentes. O pro-
pósito de desenvolver um intervalo de confiança é fornecer um melhor entendimento
da margem de erro que pode estar presente no processo de estimação. Um intervalo
de confiança amplo indica pouca precisão; em tais casos o tamanho da amostra
pode ser aumentado para reduzir a amplitude do intervalo de confiança e melhorar
a precisão da estimativa.
As expressões usadas para calcular a estimativa por intervalo da média e propor-

ção dependem do tamanho da amostra, se é grande (n 30) ou pequeno (n < 30), se
o desvio-padrão da população é conhecido e, em alguns casos, se a população tem
uma distribuição normal de probabilidade ou aproximadamente normal. No entanto, 119
Unidade 4
se o tamanho da amostra é grande, nenhuma hipótese é exigida sobre a distribuição

da população e é usado no cálculo da estimativa por intervalo. Se o tamanho da
amostra é pequeno, a população precisa ter uma distribuição normal de probabilidade
ou aproximadamente normal de modo a desenvolver uma estimativa por intervalo da
média da população µ. Para esse caso, é usado no cálculo da estimativa por
intervalo quando é conhecido, enquanto t /2 é usado quando é estimado pelo
desvio-padrão da amostra S. Finalmente, se o tamanho da amostra é pequeno e a
hipótese de uma população distribuída normalmente é inapropriada, recomendamos
aumentar o tamanho da amostra para n 30 para desenvolvermos uma estimativa por
intervalo de grande amostra da média da população. Quando o tamanho da amostra
é superior a 5% da população, as fórmulas para as estimativas intervalares tanto para
médias como para proporções devem ser modificadas com fatores de correção finita.
Além disso, mostramos como determinar o tamanho da amostra de modo que as

estimativas por intervalo da µ e da P tivessem certo valor especificado para o erro
tolerável ( ). Na prática, os tamanhos de amostra exigidos para as estimativas por
intervalo da proporção da população são geralmente grandes. Por isso, fornecemos
as fórmulas de avaliação de intervalos de grande amostra para uma proporção da
população em que n. 5 e n(1- ) 5, lembrando que, usamos P em lugar de
, a sua melhor estimativa.
EXERCÍCIOS DE FIXAÇÃO
Obs: As fórmulas colocadas abaixo servem para auxiliá-los na resolução das
questões propostas.
1 - Uma amostra aleatória de 500 eleitores de um município mostrou que 120 deles
apoiavam determinado candidato a prefeito. Estimar, no nível de 90%, o percentual
de eleitores que apóiam esse candidato.
Intervalo de confiança para proporção P ( : parâmetro populacional)
Para população infinitas
Os limites de confiança é dado por:
onde:
P: razão da proporção favorável pelo tamanho da amostra (n).
2 - Uma máquina enche pacotes de café com um desvio padrão de 10g. Ela
estava regulada para enchê-los com 500 g, em média. Agora ela se desregulou, e
queremos saber qual a nova média µ. Uma amostra de 25 pacotes apresentou uma
média igual a 485 g. Construir um intervalo de 95% de confiança para µ. Considerar
que a população é normalmente distribuída.
Quando a variância ( 2
) é conhecida e a população é infinita:
120
Unidade 4
3 - Uma máquina produz uma grande quantidade de peças e o número de peças

defeituosas na produção se distribui normalmente com variância 2 = 16. Com o
objetivo de diminuir a variabilidade do processo, foi providenciada uma reforma na
máquina. Uma amostra aleatória de 51 peças produzidas após a reforma forneceu
variância 14. Construa um intervalo de confiança de 98% para a nova variância po-
pulacional.
4 - Um mesmo tipo de material pode ser adquirido a dois fabricantes. As variáveis

de interesse são a resistência mecânica do material (em unidades convenientes) para
cada fabricante. Para comparar os seus valores médios obteve-se (por amostragem
aleatória) uma amostra de cada. Com o objetivo de ajudar a decidir qual dos dois é
melhor pretende-se calcular um intervalo de confiança a 95% para a diferença dos
valores médios. Como as variâncias são da mesma ordem de grandeza supor variân-
cias populacionais iguais.
Com t /2
, tendo; υ = n1 + n2 – 2 graus de liberdade. Em que,
5 - Um Cia adquiriu 500 cabos. Uma amostra de 30 deles selecionados ao acaso

apresentou tensão de ruptura media igual a 2400 kg com desvio padrão de 150 kg.
Obter o intervalo com 95% de confiança para a verdadeira tensão média de ruptura
destes cabos.
Quando o desvio padrão é desconhecido é preciso substituí-lo por S (desvio

padrão amostral).
Substituímos Z por , que tem distribuição “t”de Student com (n - 1)

graus de liberdade.
Considerando um nível de confiança (1- ) e v = n – 1 graus de liberdade. 121

Unidade 4
 s s 
a) Quando a população é infinita P x − t α , v ≤ µ ≤ x + tα , v = 1−α
 n n
 2 2 

 s s 
b) Quando a população é finita P x − t α , v ≤ µ ≤ x + t α , v = 1−α
 n n
 2 2 
6 - Uma amostra que contém 20 unidades de um produto cujo peso é normalmente
distribuído, apresentou peso médio de 1 kg com desvio padrão de 5g. O produto é
embalado em caixas de papelão, cujo peso é normalmente distribuído, e uma mesma
amostra contendo 20 destas caixas apresentou peso médio de 120g com desvio de
3g. Determine um intervalo de 95% de confiança para o peso médio da caixa cheia.
Supor variâncias populacionais diferentes .

 s s 
P x − tα , v ≤ µ ≤ x + tα , v = 1−α
 n n
 2 2 
Com t /2
, tendo, υ graus de liberdade dado por,
2
 S12 S 22 
 + 
n n 
υ=
 1 2 
2 2
 S12   S 22 
   
n  n 
 1  + 1 
n1 − 1 n2 − 1
7 - A renda per-capita domiciliar numa certa região tem distribuição normal com
desvio padrão = 250 reais e média µ desconhecida. Se desejamos estimar a ren-
da média µ com erro = 50 reais e com uma confiança = 95%, quantos
2
domicílios devemos consultar?  S12 S 22 
 + 
n n 
υ=
 1 2 
2 2
 S12   S 22 
   
n  n 
 1  + 1 
n1 − 1 n2 − 1
8 - A variabilidade do tempo de atendimento em um caixa bancário é conheci-

da = 0,10 minutos. Uma amostragem com 20 pessoas indicou tempo médio de
atendimento igual a 1,5 minutos. Construa um intervalo de confíança de 95% para o
tempo médio de atendimento.
122 9 - Qual o tamanho da amostra necessário para estimar a média populacional de

Unidade 4
uma característica dimensional de um processo cujo desvio-padrão s = 3 cm, com

95% de confiança e precisão de 0,5 cm?
10 - Uma pesquisa recente efetuada com 300 habitantes de uma grande cidade
revelou que 128 consideravam a segurança o principal problema da cidade. Determine
um intervalo de confiança de 95% para a proporção dos habitantes desta cidade que
consideram a segurança o principal problema.
11 - Um instituto de pesquisa pretende avaliar a proporção de eleitores que vo-

tarão em determinado candidato, com 95% de confiança de que não errará por mais
de 3%. Para isto, levantou uma pré-amostra de 100 eleitores selecionados ao acaso
na população. A proporção de eleitores deste candidato foi de 20%. Determine o
tamanho da amostra necessária para atingir a precisão desejada.
123
Unidade 4
Conceitos Elementares e Metodologia

dos Testes de Hipóteses
OBJETIVOS
Este módulo possui o objetivo de explicar os conceitos básicos relacionados aos
testes de hipóteses. Neste módulo são abordados e explicados os conceitos
básicos, etapas e erros associados aos testes de hipóteses. Busca-se explicar
sistematicamente as etapas e a metodologia aplicada aos testes de hipóteses.
Para facilitar a leitura e a fixação do aprendizado, são apresentados diversos
exemplos e propostos diversos exercícios, todos com suas respectivas soluções.
1. Introdução
O teste de hipóteses e a estimação são dois ramos principais da inferência esta-

tística. Enquanto que o objetivo da estimação é estimar algum parâmetro populacio-
nal, o objetivo dos testes de hipóteses é decidir se determinada afirmação sobre um
parâmetro populacional é verdadeira, ou seja, verificar a veracidade de determinada
suposição dentro do âmbito amostral para ser aceita dentro âmbito populacional.
Exemplos:
• A droga Y aumenta ou não a proporção de cura de uma doença.

• Pesquisadores médicos afirmam que a temperatura média do corpo hu-
mano não é igual a 98,6° F.
• Três por cento da população é defeituosa.
Ocasionalmente, poderemos ter de avaliar uma afirmação uma afirmação que

não envolva o valor específico do valor em questão:
• A percentagem de mendigos em duas cidades vizinhas é igual.

• A resistência física dos atletas do Brasil é igual à dos atletas da Etiópia.
2. Conceitos Básicos
2.1. Hipótese Nula e Hipótese Alternativa
Hipótese Nula – Supõe-se que a alegação de igualdade seja aceita como ver-
dadeira para a população apresentando-se bastante específica a respeito do valor
do parâmetro. Configura-se como a hipótese da igualdade e é representada por Ho
(lê-se h zero).
Hipótese Alternativa – é a definição operacional que se deseja comprovar. A

natureza do estudo vai definir como deve ser formulada a Hipótese Alternativa. è
Representada por H1 e apresenta-se como uma alternativa para a hipótese nula onde
124 se procura negar a mesma.
Unidade 4
Exemplos:
1) Um pesquisador gostaria de testar a alegação da média populacional das

alturas de um grupo de alunos ser igual a 1,70 m, contra a alternativa de a média ser
diferente.
Ho: Média populacional das alturas é igual a 1,70 ou Ho: = 1,70

H1: Média populacional das alturas é diferente a 1,70 ou H1: 1,70.
2) Um fabricante de lâmpadas alega que seus produtos duram, em média e no

mínimo, 400 horas.
Ho: Média populacional da duração é igual a 400 h ou Ho: = 400

H1: Média populacional da duração é menor do que 400 h ou H1: < 400.
3) Uma indústria química alega que a quantidade de impurezas presentes em

um determinado produto é igual ou menor que 16 gramas.
Ho: Média populacional das impurezas é igual a 16 gramas ou Ho: = 16 g

H1: Média populacional da duração é maior do que 16 gramas ou H1: >16g.
2.2. Estatística de Teste
Decididas as hipóteses de teste a serem testadas, passa-se a construir um cri-

tério baseado no qual a hipótese nula será julgada. O critério de decisão é baseado
na estatística de teste (é uma estatística amostral, ou um valor baseado nos dados
amostrais).
2.3. Região Crítica
È conjunto de todos os valores da estatística de teste que levam à rejeição da

hipótese nula.
2.4. Valor Crítico
Configura-se como o valor que separa a região de não rejeição da região de rejeição.
A determinação desse valor crítico depende do tamanho da região de rejeição que está
diretamente relacionado com os riscos envolvidos em se utilizarem somente evidencias
da amostra para tomar decisões sobre um parâmetro da população.
2.5. Testes Bilaterais
Neste tipo de teste as caudas em uma distribuição são as regiões extremas de-
limitadas por valores críticos. A região crítica (Região de Rejeição) está situada nas
duas regiões extremas (caudas) sob a curva.
O nível de significância (alfa) é dividido igualmente entre as duas caudas que
constituem a região crítica. Exemplo, um teste bilateral, com nível de significância de
5% há uma área de 0,025 em cada uma das duas caudas.
125
Unidade 4
Exemplo:
- Fabricação de roupas camisas muito pequenas ou muito grandes
fogem ao padrão.
- Peças que devem se ajustar uma à outra porca e parafuso.
2.6 Testes Unilaterais
Avaliam situações do tipo “este item é melhor ou pior que aquele outro”. A região
de rejeição se localiza em uma única extremidade da curva de distribuição.
2.6.1. Unilaterais à Esquerda
Região crítica localizada na região extrema esquerda sob a curva.
São empregados em situação que se deseja verificar se determinada estimativa

amostral pode corroborar com a alegação de o parâmetro populacional ser igual ou
maior que o limite alegado.
Exemplos:
- Vida útil mínima de determinados veículos garantidos pelo seu fabricante.
- Mínimo de pontos mínimos necessários para ser aprovado em um exame
qualquer.
- Quantidade mínima de combustível necessária para que haja o bom fun-
cionamento do veículo.
2.6.2. Unilaterais à Direita
Região crítica localizada na região extrema direita sob a curva. Possuem o propó-
sito de analisar se os dados amostrais sustentam a hipótese da estimativa ser igual
ser igual ou menior que um parâmetro alegado.
126
Unidade 4
Exemplos:
- Validade e produtos perecíveis – o produto não deve ser utilizado após o
prazo limite estipulado pelo fabricante.
- Quantidade máxima de CO2 expelida por um veículo.
- Quantidade máxima de agrotóxica encontrada em determinados produtos
agrícolas.
Exemplos de Testes Bilaterais e Unilaterais:
- Um novo protocolo de atendimento foi implementado numa agência ban-

cária, visando reduzir o tempo que as pessoas passam na fila do caixa.
O protocolo será considerado satisfatório se a média do tempo de fila
for menor do que 15 minutos. Um teste unilateral à esquerda seria o
adequado.
- Cerca de 3000 formulários de compra estão sendo analisados. Os clientes

podem ficar insatisfeitos se houver erros nos formulários. Neste caso
admite-se que a proporção máxima de formulários com erro seja de 5%,
ou seja, um valor maior que 5% causaria problemas. UM teste unilateral
à direita seria o adequado.
- Uma peça automotiva precisa ter 100 mm de diâmetro, exatamente. Neste

caso, a dimensão não pode ser maior ou menor do que 100 mm ( em
outras palavras não pode ser diferente de 100 m) pois isso indicará que a
peça não está de acordo com as especificações. Um teste bilateral seria
o adequado.
3. Etapas dos Testes de Hipóteses
Qualquer Teste de Hipóteses segue os seguintes passos:
3.1 Formulação de Hipóteses
O pesquisador levanta dados para responder uma pergunta. O estatístico trans-

forma a pergunta do pesquisador em hipóteses.
O pesquisador pergunta:
“ Será que a droga A cura tanto quanto a droga B”?
O estatístico vê a pergunta do pesquisador como duas hipóteses:

127
Unidade 4
Ho : A proporção de pacientes curados com a droga A é igual à proporção

de pacientes curados com a droga B.
H1: A proporção de pacientes curados com a droga A é diferente da
proporção de pacientes curados com a droga B.
É importante destacar que, a hipótese nula sempre conterá uma alegação de

igualdade e a hipótese alternativa sempre conterá uma alegação de desigualdade.
3.2 Escolha da distribuição amostral e a tabela adequada.
De um modo geral, nesta etapa, observam-se as seguintes regras:
- Se o tamanho da amostra for maior ou igual que 30, deve-se usar a tabela
da Distribuição Normal, ou tabela “Z”. Se o desvio populacional ( ) for
conhecido, este será empregado nos cálculos de estatísticas-teste;
- Se a população for aproximadamente normal e o desvio padrão populacional

for conhecido, deve-se também empregar a Distribuição Normal;
- Apenas quando a população for aproximadamente normal e o desvio-

padrão populacional for desconhecido e o tamanho da amostra for menor
que 30, é que deve ser utilizada da tabela da Distribuição de Student,
ou Tabela “t”.
3.3. Fixar o Nível de Significância do teste
Nesta etapa deve-se estabelecer o nível de significância e o nível de confiança,

marca-los no gráfico da distribuição determinada no passo anterior e calcular os va-
lores críticos. Através do nível de confiança é possível expressar a área de aceitação
da hipótese nula. O nível de significância expressa a área associada à aceitação da
hipótese alternativa.
3.4. Calcular a estatística de teste (a estimativa)
Através de a amostra obtida calcular a estimativa que servirá para aceitar ou

rejeitar a hipótese nula. Dependendo do tipo de hipótese alternativa este valor
servirá para aceitar ou rejeitar o procedimento é :
Teste Estatístico = (Estatística – Parâmetro) / Erro Padrão da Estimativa
3.5 Tomar a decisão
Se o valor da estatística estiver na região crítica Rejeitar Ho, caso contrário a

aceitar Ho. A decisão de aceitar ou rejeitar Ho dependerá das regiões de aceitação
e rejeição de Ho que por sua vez depende dos seguintes fatores:
- Do parâmetro sob teste (e da estatística ou variável de teste usada para

testa-lo).
128 - Do tipo de teste, se Unilateral ou Bilateral.

Unidade 4
- Do valor de teste (valor do parâmetro considerado verdadeiro até prova

em contrário).
- Nível de Significância ( ) ou do Nível de Confiança (1- ) adotado.
- De um valor crítico da estatística ou variável de teste a partir do qual a

hipótese será rejeitada, e este valor dependerá por sua vez do valor do
nível de significância, do tipo de teste e da Distribuição Amostral do pa-
râmetro.
3.6. Formular a conclusão
Com base na aceitação ou rejeição da hipótese nula, enunciar qual a decisão a

ser tomada na situação do problema.
4. Erros associados a Teste de Hipóteses
Há dois tipos de erro inerentes ao processo de teste de hipótese. Há um risco de

considerar Ho falsa quando ela é verdadeira. A probabilidade de cometer esse erro
é igual ao nível de significância de um teste, . È conhecido como erro Tipo I. Um
segundo tipo de erro que pode ocorrer é aceitar Ho quando ela é falsa. È um erro tipo
II,e se designa pela letra grega ß (beta).
Espera-se, naturalmente, que Ho seja aceita quando verdadeira e rejeitada quan-

do falsa. Logo, há quatro resultados possíveis num teste, conforme a tabela abaixo.
O que é importante entender é que, tomada uma decisão, ou ela será correta, ou
ocorrerá um tipo de erro, e a decisão (aceitar ou rejeitar) indicará que tipo de erro é
possível . Então, quando Ho é verdadeira, não pode haver erro tipo II, e quando Ho
é falsa não pode haver erro Tipo I.
A probabilidade de rejeitar erroneamente Ho pode ser reduzida escolhendo-se

valores críticos extremos (isto é que deixam pequena a área na(s) cauda(s) de uma
distribuição). Há uma relação inversa entre os erros Tipo I e Tipo II: a redução da pro-
babilidade de um erro tipo I conforme acima aumentará a probabilidade um erro Tipo II.
Exemplo 1:
Hoje à noite você vai a uma festa. A previsão do tempo diz que há 80% de pos-
sibilidade de chuva. Você leva um guarda-chuva?
H0 : Vai chover hoje à noite.

H1 : Não vai chover hoje à noite.
Erro Tipo I: Você rejeita H0 e, portanto, acredita que não vai chover.
Sai sem o guarda-chuva e se molha!
Erro Tipo II: Você não rejeita H0 e, portanto, aceita que vai chover.
Passa a noite carregando um guarda-chuva sem usá-lo. 129
Unidade 4
Exemplo 2:
Floresta Plantada ou Floresta Nativa ?
A situação:
No final do século passado, Manuel Gomes Acher foi incumbido por D. Pedro II
de reflorestar as encostas dos morros na região na Tijuca (Rio de Janeiro). As repe-
tidas secas que a cidade do Rio de Janeiro vinha sofrendo com a conseqüente falta
de água era atribuída ao desmatamento dos morros. Acher cumpriu sua missão com
bastante eficiência e um visitante passeando hoje pelo Parque Nacional da Tijuca
terá dificuldade em saber se a floresta que observa é nativa ou foi plantada pelo
“major” Acher.
Hipóteses
Um pesquisador deseja iniciar um projeto sobre o impacto urbano da cidade do

Rio de Janeiro sobre a Floresta da Tijuca. O projeto, entretanto, deve ser instalado
em área de floresta nativa. O pesquisador possue como informação inicial os gráficos
abaixo que apresentam a freqüência de árvores observadas em diferentes classes de
tamanhos, em áreas plantadas e áreas nativas. Na escolha da área apropriada para
o projeto, o pesquisador trabalha com as seguintes hipóteses:
H0: A área escolhida é de floresta nativa.

H1: A área escolhida é de floresta plantada.
A partir de mapas o pesquisador selecionou certa área. Quais os erros que po-
dem ocorrer:
Erro tipo I = Rejeita H0 quando H0 é verdadeira = Conclui que a área é

plantada, quando de fato a área é nativa.
Procura uma nova área, embora a área selecionada seja nativa.
Erro tipo II = Aceita H0 quando Ha é verdadeira (Não rejeita H0 quando

H0 é falsa).
Conclui que a área é nativa, quando de fato a área é plantada = Estabelece o

projeto na área errada.
EXERCICIOS
1) A matéria-prima para fabricação das fitas para vídeo-cassete Sony, vem com
garantia de não mais que 5% de defeitos. Seja qual for à alegação do fornecedor, a
qualidade dos itens em estoque é constantemente avaliado pelo Controle Estatístico
de Processo (CEP). Quais as hipóteses (nula e alternativa) a analisar, tendo em conta
o índice de defeitos alegados pelo produtor?
2) As máquinas da Fábrica Dedo de Ouro estão ajustadas para produzir cordas

de violão com x mm de diâmetro. Estabeleça a regra que assegura os itens estarem
sendo produzidos dentro das especificações e defina como o processo deve ser
acompanhado.
130
Unidade 4
3) Segundo a Roda Bem, seus pneus duram menos de 45.700 km. Estabeleça
Ho e H1.
4) A corrente pedagógica CP diz que o aproveitamento dos alunos da Matemá-

tica Moderna é melhor que os da tradicional. Defina as hipóteses que avaliam essa
hipótese.
5) Trace a normal característica, aponte as regiões de aceitação e rejeição e

indique se os testes são bilaterais ou unilaterais à esquerda ou à direita:
a) H1 : x < 6 b) H1 : x > 9 c) H1 : x 3.5 d) H1 : x > 4 e) H1 < 13
f) H1: x 72 g) H1 : x < 0 h) x > i) H1: x > 18 j) x < 4,7
131
Unidade 4
Teste de Hipóteses para Médias e Proporções e Análise da Variância
TESTE DE HIPÓTESES PARA MÉDIAS E

PROPORÇÕES E ANÁLISE DA VARIÂNCIA
OBJETIVO
Ao terminar este módulo o aluno estará em condições de explicar a finalidade
geral do teste de hipótese para médias e proporções; esboçar o processo para
aplicação de um teste de hipóteses; usar dados amostrais para testar afirma-
ções; definir o objetivo da análise de variância; descrever tanto a analogia como
as diferenças entre a análise da variância e outros testes de médias; descrever as
características importantes da distribuição F e construir uma tabela de ANOVA.
1. Introdução
Em termos gerais, uma hipótese é uma conjectura sobre algum fenômeno ou con-
junto de fatos. Em estatística inferencial o termo hipótese tem um significado bastante
específico. É uma conjectura sobre uma ou mais parâmetros populacionais. O teste
de hipóteses paramétrico envolve fazer inferências sobre a natureza da população
com base nas observações de uma amostra extraída desta população.
A Lógica do Testes de Hipóteses
Em outras palavras, testar hipóteses, envolve determinar a magnitude da dife-

rença entre um valor observado de uma estatística, por exemplo a proporção p, e o
suposto valor do parâmetro ( ) e então decidir se a magnitude da diferença justifica
a rejeição da hipótese. O processo segue o esquema da figura acima.
1.1. Método do Valor P para o Teste de Hipóteses
Atualmente muitos peesquisadores dão, juntamente com o valor calculado da

estatísitca de teste, a correspondente probabilidade da cauda, ou valor p, isto é, a
probabilidade de obter uma diferença entre e numericamente igual ou superior
à diferença efetivamente observada. Esta prática vem sendo cada vez mais defen-
dida atualmente em razão disponibilidade de computadores e softwares estatísitcos.
132 Enquanto a abordagem tradicional resulta em uma conclusão do tipo “rejeitar/

Unidade 4
não rejeitar”, os valores de p dão o grau de confiança ao rejeitarmos uma hipótese

nula. Por exemplo um valor p 0,0002 leva-nos a rejeitar a hipótese nula, mas pode
também sugerir que os dados amostrais sejam extremamente incomuns, se o valor
de , é de fato correto. Em contrapartida, para um valor de p de 0,40, não rejeitamos
a hipótese nula podem facilmente ocorrer se o valor de é correto.
Critério de decisão:
• Rejeitar a hipótese nula se o valor p é no máximo igual ao nível de signi-

ficância ? (alfa).
• Não Rejeitar a hipótese nula se o valor p é maior do que o nível de signi-

ficância ? (alfa).
Então:
2. Testes de Hipóteses de uma Amostra
2.1. Teste de uma Amostra para Médias
O teste de uma amostra para médias é característico de situações onde se

procura testar alguma afirmação que será extraída de determinada população. A
partir do teste é possível saber se a informação colhida através da amostra pode ser
generalizada para a população ou não.
Em cima desta amostra calcula-se a média amostral e o desvio padrão da mesma.

Com estes dados podemos comparar a média amostral com a média alegada para
saber se esta é aceitável ou não.Se ocorrerem grandes desvios a probabilidade de
ser falsa é maior e vice-versa.
Inicialmente devemos mencionar as duas hipóteses que se aplicam aos métodos

deste teste, que são:
1. A amostra é grande (n>30); pode-se aplicar o Teorema Central do Limite

e utilizar a distribuição normal.
2. Ao aplicar o teorema central do limite, podemos utilizar o desvio padrão

s em substituição ao desvio padrão populacional quando este não for
conhecido e o tamanho da amostra for grande (n>30).
3. Quando conhecemos o valor do desvio padrão da população s indepen-

dentemente do tamnho da amostra utilizamos a distriuição normal (Z).
133
Unidade 4
4. Quando não conhecemos o valor do desvio padrão da população e a

amostra é pequena, n< 30 utlizaremos a distribuição t.
Este processo procura identificar um resultado amostral que é significativamente

diferente do valor alegado. Uma estatística amostral importante (como x) se converte
em uma estatística de teste , que é comparada com um valor crítico. Para o teste
em questão a estatística de teste é um escore z usado para padronizar a média x.
Estatística de Teste para afirmações sobre µ

Quando n > 30
Utilizamos então o seguinte critério de decisão:
Rejeita-se Ho (hipótese nula) se o valor de z calculado na expressão acima for:
• Maior que (no teste unilateral à direita);

• Menor que (no teste unilateral à esquerda); e
• Maior que ou menor que (no teste bilateral).
Exemplo:
1) Um construtor supõe que a qualidade dos tijolos que utiliza em suas obras
está apresentando variações. Em face da experiência anterior sabe-se que a resis-
tência ao rompimento de tais tijolos é de 200 kg com um desvio padrão de 20 kg .
numa amostra de 100 tijolos apurou-se que a resistência ao rompimento alcançou um
total de 19.600 kg . fixado o nível de significância de 0,05, verifique se a qualidade
dos tijolos está apresentando variações.
Passo A: Através da interpretação do enunciado deve-se formular Ho e H1.
Neste caso o teste é Bilateral.

Ho : µ = 200
H1 : µ 200
Passo B: Definição da tabela a utilizar.
Neste caso : n > 30 - Utilizar-se-á a tabela Z.
Passo C: Definição da região de aceitação e rejeição usando a curva normal.
134
Unidade 4
Passo D: Calcula-se a estatística teste Z.
Neste caso utilizaremos a seguinte formula:
Então : x = 20 / =2
n = 100
x = 100;
= 20 – população
Z = (196 – 200) / 2 = -2
Passo E : Finalizando, deve-se então comparar o resultado da estatística teste

com os valores de aceitação/rejeição do gráfico realizado no Passo c. Neste caso o
valor de Z teste está na área de rejeição do teste, então é possível supor que os tijolos
estão apresentando variações.
Exemplo 2:
Uma grande revista de negócios brasileira afirmou que o faturamento médio das
indústrias da região sul do país seria igual a R$ 820.000,00. Sabe-se que o desvio-
padrão do faturamento de todas as empresas da região é igual a R$ 120.000,00.
Um pesquisador independente analisou os dados de uma amostra formada por 19
empresas, encontrando um faturamento médio igual a 780.000,00. Assumindo nível
de significância (alfa) igual a 8%, seria possível concordar com a alegação?
Passo A: Ho : µ = 820.00
H1: µ 820.00
Passo B: Tabela : Z
Razão: desvio padrão populacional conhecido
Passo C: Partição : Teste bilateral
135
Unidade 4
Passo D: Cálculo da estatística teste

Fórmula:
Passo E: Aceitação ou Rejeição de Ho
O valor de Zteste está na área de aceitação do gráfico, então é possível supor que
a alegação feita pela revista seja verdadeira.
Exemplo 3:
Um gerente de operações desconfia que o tempo médio de conclusão de produ-
ção de um tipo de peça está acima da meta de 3 minutos. Uma amostra de 28 peças
indicou o tempo de conclusão médio de 3,3 com desvio padrão de 1 (um) minuto.
Conclua a respeito com = 0,05.
Passo A: Ho : µ = 3 min.
H1 : µ > 3 min.
Passo B: Tabela : t
Razão : desvio padrão populacional desconhecido
n < 30
Passo C: Partição: Teste Unilateral à direita.
Passo D: Cálculo da estatística teste

Fórmula:
136
Unidade 4
Passo E: Aceitação ou Rejeição de Ho
O valor de t teste está na área de aceitação do gráfico. Não há evidencias que o

tempo médio de conclusão das peças esteja cima de 3 minutos.
2.2. Teste de uma Amostra para Proporção
No teste precedente ele se referia apenas a afirmações sobre médias popula-

cionais. Agora testaremos uma afirmação sobre uma proporção, uma percentagem
ou uma probabilidade.
Exemplos:
- Com base em uma pesquisa amostral, menos de ¼ de todos os alunos da Fa-
nese fuma.
- A percentagem de espectadores de horários noturnos de TV que assistem

reality shows é 46%.
- Se ocorre um acidente fatal com um automóvel há uma probabilidade de 0,44

de envolver um motorista que ingeriu bebida alcoólica.
Então o teste de uma amostra para proporção difere do teste de amostra para
media apenas no que diz respeito aos dados amostrais. Estes são expressos em
termos de contagem, ao invés de medidas.
2.2.1. Propriedades
1ª Propriedade: E(p)= : a expectativa ou media da distribuição amostral de

proporção corresponde ao parâmetro populacional da proporção.
2ª Propriedade: O desvio padrão da distribuição amostral de proporções para

populações infinitas é dado por:
3ª Propriedade O desvio padrão da distribuição amostral de proporções para

populações finitas.
137
Unidade 4
4ª Propriedade: A estatística da proporção amostral p pode ser associada a variá-

vel padronizada Z. Então, no teste para proporção, pelo fato de sempre ser utilizadas
grandes amostras, a distribuição é aproximada pela CURVA NORMAL.
Exemplo 1:
A analise de uma amostra de 600 leitoras da revista Magazine revelou que 62%
não lêem a seção de cartas. Poderia esta amostra ter sido retirada de uma população
que tivesse 60% de não leitores desta seção? Use = 5%.
1º Passo: Através da interpretação do enunciado deve-se formular Ho e H1.

Ho : = 60%
H1 : 60%
2º Passo: Identificar a Tabela: Em proporções as amostras são sempre grandes,

então vamos trabalhar com a tabela Z.
3º Passo: Deve-se então definir a região de aceitação e rejeição usando a curva

normal. Nesse caso tem - se = 5%, logo há uma área de aceitação de 95% distri-
buída nas duas caudas, ou seja, o teste é bilateral.
4º Passo: Calcular a estatística teste Z. Neste caso a fórmula a ser utilizada é

a seguinte:
5º Passo: Comparando o resultado da estatística teste com os valores de acei-

tação/rejeição do gráfico realizada no 3º passo verifica-se se a alegação pode ser
aceita ou não. Neste caso o valor de Zteste está na área de aceitação, então é pos-
sível supor que a proporção de não leitores da secção de cartas da revista Magazine
seja igual a 60%.
Exemplo 2:
138 Cerca de 2000 formulários de pedidos de compra estão sendo analisados. Os
Unidade 4
clientes podem ficar insatisfeitos se houver erro nos formulários. Neste caso admite-se
que a proporção máxima de formulários com erros seja de 5%. Suponha que dentre
os 2000 formulários 7% apresentavam erros. A proporção máxima foi ultrapassada
a 1% de significância?
1ª Passo:
Ho : = 5 % onde 0
= 5% (valor de teste)
H1 : > 5 %
2º Passo: Identificar a Tabela : Em proporções as amostras são sempre grandes,

3º Passo: Definir a região de aceitação e rejeição
4º Passo: Calcular a estatística teste Z
5º Passo: Decidir pela aceitação ou rejeição de Ho
Como Z = 4,104 > Z crítico = 2,326
Rejeita-se Ho. Neste caso o valor de Zteste está na área de rejeição, então há
provas estatísticas suficientes de que a proporção está acima do máximo admitido.
3. Testes de Hipoteses com duas Amostras
Quando queremos tomar decisões acerca de características de populações com

base em duas amostras desejamos decidir se um processo é diferente de outro. Se
quisermos analisar as diferenças entre um processo educacional, por exemplo, e um
outro devemos formular hipóteses ou conjecturas acerca das populações interessa-
das. Esses testes normalmente são realizados para efeito de comparação. Seja com
dois produtos, dois países, ou até mesmo duas lojas que queiram saber se as suas
diferenças são, de fato, significativas.
3.1 Teste de Igualdade de Médias Populacionais

139
Unidade 4
O teste de hipóteses da igualdade de médias de duas amostras é similar ao teste

de igualdade para uma amostra.
As principais alterações são as seguintes:
a) Tamanho da amostra (n) : Será igual à soma dos tamanhos das duas amostras
( n = n1 + n2 ).
b) Definição de Ho e H1
• Ho sempre apresentará igualdade das médias ou Ho: µ1 = µ2
• H1 sempre oferecerá uma alternativa ou: H1 : µ1 µ2 ou µ1 < µ2 ou
µ1 > µ2
c) O valor da estatística teste dependerá dos tamanhos das amostras e do

conhecimento do desvio-padrão populacional.
• Se n1+ n2 30 ou se o desvio populacional for conhecido:
• Se n1+ n2 < 30 e se o desvio-padrão populacional for desconhecido e n1=n2:
• Se n1+ n2 < 30 e se o desvio-padrão populacional for desconhecido e n1 n2:
Observação:
Para usar a tabela t em testes com duas amostras, o número de graus de liber-
dade sera sempre igual a (n1 + n2) -2
Exemplo 1:
A indústria de Chocolates Delícia afirmava que seus chocolates são os mais ven-
didos no canal de distribuição Supermercados, quando comparados com as vendas
do rival, Chocolates Saborosos. Uma amostra formada por 14 lojas revelou os dados
apresentados na tabela seguinte. É possível aceitar a hipótese que ambas vendem a
mesma quantidade de chocolate? O nível de confiança é igual a 95%.
Passo A: Definição das hipóteses

Ho : µD = µS
140
Unidade 4
H1 : µD > µS
Passo B: Definição do teste que deverá ser usado

Como os desvios fornecidos foram amostrais e n1 + n2 < 30, deve-se empregar
o “t teste”, com uso da tabela de Student.
Passo C: Definição da partição na curva, determinando a área de aceitação e a

área de rejeição.
O valor crítico para t unicaudal é igual a 1,7056 (considerando = 5%, unicaudal,

e 26 graus de liberdade, já que n1+n2 -2 = 26).
Passo D: Calcula-se a estatística de teste t.

Como n1 + n2 < 30 e se o desvio-padrão populacional for desconhecido e n1=n2.
Passo E: Definição da Hipótese aceita.

Como o valor de t teste foi inferior ao valor crítico, deve-se aceitar a hipótese
nula. Ou seja, não é possível concordar com a alegação de que as vendas da Delícia
são superiores.
3.2. Teste de Diferença de Médias Populacionais
De um modo geral, os passos A e C sofrerão alterações significativas.
No passo A, as hipóteses devem ser definidas com base na diferença alegada.

Ho : Sempre estabelece uma igualdade. No caso, a de que a di-
ferença entre médias (d) deve ser igual a um determinado valor agregado (do)
H1 : Oferece uma alternativa para a hipó-

tese alegada em Ho.
Estatística teste:
141
Unidade 4
• Se n1+ n2 30 ou se o desvio populacional for conhecido:
• Se n1+ n2 < 30 e se o desvio-padrão populacional for desconhecido e

n1=n2:
• Se n1+ n2 < 30 e se o desvio-padrão populacional for desconhecido e n1

n2:
3.3. Teste de Igualdade de Proporções Populacionais
Consiste na aplicação de procedimentos similares aos empregados no teste de

hipóteses de igualdade de médias.
Alguns passos diferenciadores serão:

a) Tamanho da amostra n: neste caso, será igual à soma das duas amostras
(n=n1+n2). Normalmente, para poder realizar inferência com proporções é necessário
trabalhar com grandes amostras.
b) Definição de Ho e H1:
• Ho sempre apresentará a igualdade das proporções populacionais (P) ou

Ho : P1=P2.
• H1 sempre oferecerá uma alternativa ou Ho : P1 P2 ou Ho : P1 < P2
ou Ho:P1>P2.
c) O valor da estatística teste pode ser definido como:
Exemplo:
A fábrica de televisores Tela Grande constatou que a proporção de televisores
fabricados com defeito era de 35 em cada amostra de 10.000 televisores fabricados
com defeito era 35 em cada amostra de 10000 televisores fabricados. Sua concor-
142 rente a fábrica Tela Pequena, constatou 50 unidades com defeito em uma amostra
Unidade 4
de 12.000 televisores produzidos. È possível supor que a qualidade de produção da

Tela Grande seja inferior a da Tela Pequena? Deve-se assumir = 5%.

Ho : PG = PP sempre expressa sob a forma de igualdade.
Ho : PG < PP oferece uma alternativa. Cnforme o enunciado, deseja-se verificar
se a proporção de televisores com defeito da Tela Grande é inferior à da Tela Pequena.
Passo B: Definição do teste a ser usado.

Nesse caso , como n1+n2>30 deve-se empregar o “Zteste”, com uso da tabela
normal.
Passo C: Define-se a partição da curva, determinando a área de aceitação e

rejeição.
Passo D: Calcula-se a estatística teste
Passo E: Como o valor de Zteste (-0,8333) foi superior ao valor de Zcrítico (-1,65),
aceita-se a hipótese nula de igualdade das proporções. Não é possível concordar com
a alegação de que a proporção de defeitos da Tela Grande seja inferior.
3.4. Teste de Diferença de Proporções Populacionais
Neste tipo de teste, pode-se testar a veracidade de uma alegação acerca de

diferença entre proporções. De forma similar ao teste de hipóteses para diferença
de médias populacionais , apenas os passos A e C, basicamente, sofrerão alterações
significativas.
No passo A, as hipóteses devem ser definidas com base na diferença alegada.

- Sempre estabelece uma igualdade. No caso, a de que a
diferença entre médias (d) deve ser igual a um determinado valor agregado (do)
- Oferece uma alter-
nativa para a hipótese alegada em Ho.
Mais uma vez no passo C, o cálculo da estatística de teste deve ser alterado.
Deve-se aplicar a fórmula seguinte:
143
Unidade 4
Exemplo:
Uma lei extremamente polêmica está em tramitação na Assembléia Legislativa
de Santa Catarina. Parece que homens e mulheres apresentam opiniões divergen-
tes. Para avaliar se os dois grupos apresentam proporções de favoráveis diferentes,
realizou-se uma pesquisa , em que foi entrevistada uma amostra de 200 homens
e uma amostra de 300 mulheres em todo o estado. Na amostra de homens 50%
declararam-se favoráveis à lei, enquanto que na amostra de mulheres houve 47% de
favoráveis. Usando 5% de significância, há diferença entre as proporções populacio-
nais de favoráveis nos dois grupos?

Rearranjando as hipóteses

Passo B: Identificar a Tabela : Em proporções as amostras são sempre grandes,
Passo C: Definir a região de aceitação e rejeição
4º Passo: Calcular a estatística teste Z
5º Passo: Decidir pela aceitação ou rejeição de Ho
Como|Z| = 0,657 < |Z crítico| = 1,96
Aceitar Ho. Não há provas estatísticas suficientes que indiquem diferenças nas
proporções de favoráveis nas proporções de homens e mulheres.
144
Unidade 4
Análise de Regressão e Correlação
ANÁLISE DE REGRESSÃO E CORRELAÇÃO

OBJETIVO
Este módulo possui o objetivo de indicar a finalidade de uma análise de regressão

e de uma análise de correlação; relacionar as hipóteses fundamentais das técnicas
de correlação e as hipóteses fundamentais para o uso da análise de regressão; de-
terminar retas de regressão e coeficientes de correlação para problemas análogos
aos apresentados neste módulo.
1. Introdução
A regressão e a correlação são duas técnicas estreitamente relacionadas que

envolvem uma forma de estimação. A diferença entre essas técnicas e o tipo de
estimação discutido anteriormente é que aquelas técnicas anteriormente foram
utilizadas para estimar um único parâmetro populacional , enquanto que as técnicas
apresentadas neste capítulo se referem à estimação de uma relação que possa existir
na população.
Mais especificamente, a análise da correlação e regressão compreende a análise

de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas
uma com a outra numa população.
1.1. Origem do Termo Regressão
O uso do termo regressão deve-se a Francis Galton,, por volta de 1885, quando
investigava relações entre características antropométricas de sucessivas gerações.
Uma de suas constatações era de “cada peculiaridade de um homem é transmitida
aos seus descendentes, mas, em média, numa imensidade menor”. Por exemplo:
embora pais com baixa estatura tendam a ter filhos também com baixa estatura,
estes têm altura média maior que a altura de seus pais .Em seus estudos Galton
chega a conclusão que se as características permanecessem as mesmas de geração
para geração , esperar-se-ia que a reta de regressão tivesse seu coeficiente angular
próximo de 1. A este fenômeno da altura de os filhos moverem-se em direção da
altura média de todos os homens, ele chamou de regressão, e às vezes de reversão,
tendo aparecido num artigo de 1885, no Journal of the Anthropological Institute, com
o título “Regression Towards Mediocryty in Hereditary Stature” Regressão para a
Mediocridade das Estaturas Hereditárias, mediocridade aqui referindo-se a médio.
1.2. Análise de Correlação
Fornece um número que resume o grau de relacionamento entre duas variáveis.

Muito utilizada em trabalho exploratório quando um pesquisador ou analista procura
determinar quais variáveis são potencialmente importantes e o interesse está ba-
sicamente no grau ou força do relacionamento e é muito aplicada em Educação e
Psicologia.
145
Unidade 4
Os dados para a análise de regressão provêm de observações emparelhadas.

Para um problema de duas variáveis, isto significa que cada observação origina dois
valores, um para cada variável. Por exemplo, um estudo que envolva características
físicas pode focalizar a idade e a altura de cada indivíduo. As duas variáveis de inte-
resse – idade e altura de cada pessoa – são então emparelhadas.
1.3. Análise de Regressão
Tem como resultado uma equação matemática que descreve o relacionamento.

A equação pode ser usada para estimar, ou predizer, valores futuros de uma variável
quando se conhecem ou se supõem conhecidos valores da outra variável . Utilizada
em áreas como Administração, Economia, Pesquisa Médica, Agricultura, pois focaliza
mais a natureza do relacionamento, isto é, a equação da predição.
2. Regressão Linear
A regressão linear simples constitui uma tentativa de estabelecer uma equação

matemática linear (linha reta) que descreva o relacionamento entre duas variáveis e
que representa o melhor relacionamento numérico linear entre elas.
A equação da reta obtida pode ser apresentada como:
y = a + b.x
De um modo geral, as variáveis x e y, por convenção, são definidas do seguinte

modo:
Y = variável dependente, explicada.

X = variável independente, explicativa.
O modelo linear pode ser utilizado para estimar valores de uma variável com base
em em valores estipulados para a outra variável, dentro dos limites da amplitude dos
valores da amostra , como também para predizer valores de uma variável, com base
no conhecimento de quais serão os valores da outra variável, fora dos limites dos
valores da amostra. O modelo linear obtido consiste em uma estimativa da reta de
ajuste para as duas populações.
No processo de determinação da equação de regressão linear simples objetiva-

se elaborar a equação, com modelo: y = a + bx. Assim devem ser determinadas as
duas constantes:
A = valor de yi, quando xi, ou intercepto da reta no eixo y;

B = valor do coeficiente angular, que indica a inclinação da reta.
2.1. Método dos Mínimos Quadrados
No processo de determinação dos valores das constantes a e b, costuma-se

aplicar o método dos mínimos quadrados, desenvolvido originalmente por Legendre
146 e aperfeiçoado pelas idéias e trabalhos de Galton e Pearson. O método permite
Unidade 4
obter o valor das duas constantes a e b, determinando a reta estimada, ou equação

de regressão.
A aplicação do Método dos Mínimos Quadrados gera três características impor-

tantes relacionadas com a reta de regressão obtida:
a) É mínima a soma dos quadrados dos desvios para a reta de regressão,

menor que a de qualquer outra reta de ajuste;
b) É igual a zero a soma dos desvios verticais entre o valor da ordenada de
cada ponto da amostra analisada e a correspondente ordenada da reta
estimada;
c) A reta estimada passa pelo ponto de coordenadas , que correspon-
dem a média dos pares de pontos da amostra.
O método dos mínimos quadrados determina que a e b devem ser obtidos de

modo que:
Hipóteses consideradas na aplicação do Método dos Mínimos Quadrados:

a) Para cada valor de x haverá possíveis valores de y.
b) A variável y é aleatória;
c) Para cada valor de x há uma distribuição condicional de y que é normal;
d) Os desvios padrões de todas as distribuições condicionais são iguais.
Exemplo
1) Ajuste uma reta de mínimos quadrados aos dados da tabela abaixo que repre-
sentam um número de anos que certos candidatos ao serviço diplomático estudaram
alemão no curso secundário ou faculdade, e as notas por eles obtidas em um teste
de profeciência naquele idioma.
147
Unidade 4
Solução
Com base nos valores obtidos para a e b , é possível determinar que a reta que
melhor se ajusta aos pontos é do tipo : y = 31,55 + 10,90 x. A reta de ajuste pode
ser vista no diagrama de dispersão apresentado a seguir.
3. Análise de Correlação
Denomina-se simples a análise de correlação ou de regressão linear que envolve

duas variáveis. Neste caso, a amostra é formada por um conjunto de pares de valores.
O resultado da análise de correlação linear é expresso na forma de um coeficiente
de correlação - número que quantifica o grau de relação linear obtido para os pares
de valores que formam a amostra realizada.
148
Unidade 4
O grau de relação numérica entre duas variáveis contínuas é feito por um coefi-
ciente correlação linear simples denominado “r de Pearson”.
Hipóteses fundamentais para a obtenção do coeficiente:

- As duas variáveis envolvidas são aleatórias e contínuas;
- A distribuição de freqüência conjunta para os pares de valores é uma distribui-
ção normal.
O procedimento envolve os seguintes passos:
1º Passo: Colocar em ordem decrescente os valores de uma das variáveis na

amostra e coloca-los ao longo de um dos eixos. Como os valores de x e y, são es-
tabelecidos, a ordenação de y será determinada pela ordenação de x e vice-versa.
2º Passo: Colocar os valores de y no eixo das ordenadas.
3º Passo: Construir o diagrama de dispersão ( que é a representação dos pares

dos valores da amostra no plano dos eixos ortogonais. O diagrama permite concluir
antecipadamente se á adequado prosseguir para o cálculo de “r”.
4º Passo: Calcular “r” , pela expressão:
Onde n = número de pares de valores na amostra analisada.

Dentre as propriedades do coeficiente de correlação “r” pode-se destacar o fato
de seu valor é considerado um número adimensional. È um estmador do correspen-
dente parâmentro “ ” para a população.
Então:
r = coeficiente de correlação linear simples para a amostra ;
= coeficiente de correlação linear simples para a população.
Faixa de variação de “r” :
• Quanto mais próximo r estiver de +1, mais próximos estarão os pontos

de ajuste integral a uma reta crescente;
• Quanto mais próximo r estiver de -1, mais próximos estarão os pontos de
ajuste integral a uma reta decrescente;
• Se r = 0, não foi identificada relação numérica linear para os pares de
alores de amostra analisada.
149
Unidade 4
Observemos a escala da tabela abaixo:
Então, a depender do valor do coeficiente de correlação, diferente será a classi-

ficação da correlação. Vejamos os exemplos seguintes:
Correlação Linear Positiva
A correlação é positiva se os valores crescentes ou decrescentes x e

y estiverem ligados, ou seja, quando y cresce x cresce também. Quan-
do y decresce, x decresce também e vice-versa. Nos modelos de
correlação positiva, o valor do coeficiente de correlação de Pearson,
r, é positivo: 0 < r < 1.
Correlação Linear Perfeita Positiva
A correlação linear perfeita positiva apenas ocorre quando os valores

de x e y estão perfeitamente alinhados. Nestas situações, o valor
do coeficiente de correlação de Pearson, r, é igual à unidade: r = 1.
Correlação Negativa
A correlação negativa é percebida quando os valores crescentes de

x ou y estão associados a valores decrescentes de y ou x, respecti-
vamente, ou seja, quando y cresce, x decresce e vice-versa. O valor
do coeficiente de correlação de Pearson, r, é igual a menos um:. -1
< r < 0.
Correlação Perfeita Negativa
A correlação é considerada perfeita negativa quando os valores de

x e y estiverem perfeitamente alinhados, mas em sentido contrário.
Nesta situação, o valor do coeficiente de correlação de Pearson, r,
é igual a menos um: r = -1
150
Unidade 4
Correlação Nula
A correlação nula é percebida quando não há relação entre x e y.

As variáveis ocorrem independentemente. Nestas situações , o
valor do coeficiente de correlação de Pearson, r, é nulo: r = 0.
4. Coeficiente de Determinação r2
O coeficiente de determinação, ou simplesmente r2 , além de expressar o qua-

drado do coeficiente da correlação Pearson, representa, também, a relação entre a
variação explicada pelo modelo e variação total. Algebricamente, o valor de r2 pode
ser apresentado como:
Substituindo os valores da variação explicada – variação explicada pelo modelo,

resultado da soma das diferenças dos valores reais e preditos de y – e da variação
total – calculada em relação à média, pode-se apresentar a equação:
151
Unidade 4
A interpretação do valor de r pode ser feita com o auxílio do gráfico seguinte.

Quanto maior o valor de r, maior o percentual da variação explicada em relação à
variação total.
O coeficiente de determinação expressa o quanto da variação em relação à media

é explicada pelo mo delo linear construído. Os valores de r2 podem variar de 0 a 1.
Quando a média de r2 é exatamente igual a 1, tal fato significa que a qualidade do
ajuste é excelente – toda a variação em relação à média é explicada pelo modelo,
todos os pontos analisados da amostra estão exatamente sobre a reta de regressão
(ajuste integral). Quando o valor r2 é igual a 0 (zero), tal fato indica que a qualidade
do ajuste linear é péssima, não havendo relação numérica linear para os pontos da
amostra analisada. Quando r2 é igual a 0,8 este fato indica que 80% das variações
totais são explicadas pela reta de regressão.
Substituindo-se as fórmulas para r2, tem-se que:
De um modo geral, para valores de r2 iguais ou superiores a 0,60, diz-se que o

ajuste linear apresenta uma boa qualidade.
152
Unidade 4
5. Modelos Não Lineares
A maior parte dos modelos construídos para a análise de correlação e regressão

são modelos estritamente lineares. Porém em muitas situações existe a necessidade
de construção de modelos não lineares. Veja o exemplo dos dados fornecidos a seguir.
Vendas através da Internet no Brasil
Caso se desejasse ajustar um modelo linear, a equação de ajuste e o diagrama

de dispersão dos pontos e da equação podem ser vistos na figura seguinte. Nota-se
que os pontos não se situam próximo de uma reta e, a medida que os valores dos
anos aumentam, maior o afastamento em relação à reta. Possivelmente, o melhor
ajuste linear aos pontos não ocorre sob a forma de uma reta, mas sim, através de
um modelo de potência ou polinômio.
Um modelo de potência tem a forma Y = a.X b. Para poder aplicar o método

dos mínimos quadrados e ajustar os pontos à equação , determinando os valores dos
coeficientes a e b, uma solução alternativa consistiria, no emprego de logaritmos, com
base decimal ou neperianos. Através da aplicação de logaritmos é possível converter
a equação anterior para a forma de reta.
Algebricamente:
Se Y = a.X b LN(Y) = LN (a.Xb)

LN(Y) = LN (a) + LN(X b) = LN (a) + b LN(X)
O modelo obtido pode ser representado através de uma equação linear simples,
do tipo:
Y* = a* + bX*
Onde:
Y* = LN (Y)
a* = LN (a)
X* = LN(X)
153
Unidade 4
Calculando os logaritmos neperianos para os anos e vendas da tabela anterior,

é possível compor a seguinte tabela:
Após elaborar o diagrama de dispersão para os logaritmos neperianos e ajustar

o modelo linear pelo método dos mínimos quadrados, é possível obter os resultados
apresentados no gráfico seguinte. Os pontos dos logaritmos neperianos situam-se
muito próximos da reta de ajuste: o valor de r2 foi igual a 0,9652, o que é aproxima-
damente igual a 1.
6. Regressão Linear para Séries de Tempo
A anotação da variação de um fenômeno através do tempo, estabelece uma

série de dados, os quais são referidos como série de tempo. Nestas séries estamos
interessados em entender a variabilidade de fenômeno como função do tempo. Uma
maneira simples de analisar a série é através da técnica de análise de regressão,
usando a variável tempo como a variável auxiliar.
Exemplo: Queremos analisar a evolução do número de empregados de um

escritório de contabilidade, cujo comportamento através dos anos está indicado no
quadro abaixo.
Se fosse trabalhar com a variável x do modo que está, teríamos um trabalho

exagerado de cálculo; assim uma escolha adequada do ano zero pode facilitar os
cálculos. Para séries desse tipo é sempre possível escolher um início de tempo, de
modo que = 0. Isto é feito, escolhendo-se o período central da série como ponto de
referência; neste caso 1975, irá corresponder a x = 0. Para o caso de número par
de períodos, veremos a transformação no exercício seguinte. Com a recodificação
proposta, a série passará a ser:
154
Unidade 4
e finalmente :
= 62,71 + 3,86 x
O resto da análise continua do mesmo modo. Convém lembrar a interpretação

dos coeficientes: o escritório está aumentando em média 3,86 empregados por ano,
enquanto que a estimativa do número médio de empregados, no ano de 1975, é de
62,71.
Exemplo: Vejamos agora uma situação onde existe um número par de períodos.
Vamos usar o mesmo exemplo anterior, porém com mais uma ano de observação,
ou seja
O período central agora seria algo entre 1975 e 1976; este seria o valor para
x=0. Uma codificação adequada é aquela indicada no quadro abaixo.
155
Unidade 4
Observe que a variação de duas unidades em x é que corresponde à variação

de um ano. Dos dados acima se obtém:
O valor 2,05 agora está indicando o quanto cresce em média o escritório em meio
ano, ou seja, cresce 4,1 empregados por ano. Já o escritório teve 65 empregados em
média no período médio entre 1975 e 1976. Por exemplo, se estes dados referem-se
a dezembro do ano em questão, o valor de 65 irá corresponder ao mês hipotético que
vai de 15.06.76 a 14.07.76.
Do exposto até aqui, para estes casos os estimadores serão dados por.
E todas as demais fórmulas também ficarão simplificadas.

Esta transformação pode ser generalizada através da transformação da variável
auxiliar x para d, onde,
e as expressões acima poderão ser usadas sempre com a variável d ocupando

o lugar de x.
EXERCICIOS RESOLVIDOS
1) Os dados abaixo correspondem às variáveis número de comerciais e volume
de vendas, representadas em R$ mil.
a) Obtenha a equação de regressão e o coeficiente de correlação.
156
Unidade 4
Equação de Regressão
Então :
y = 36,15 + 4,95 x
Coeficiente de Correlação
157
Unidade 4
2) Na empresa Serjão Indústria e Comercio Ltda. está havendo um grande

crescimento no número das vendas, devido a uma diminuição no preço dos produ-
tos gerado pela redução gradual dos custos, conseqüência da queda das taxas de
importação de matérias primas. Com base nos dados da tabela abaixo, determine
a equação linear que melhor descreve o relacionamento entre as duas variáveis e o
coeficiente de correlação.
158
Unidade 4
Correlação
EXERCICIOS PROPOSTOS
1) Use os dados abaixo para estimar as equações de regressão:
159
Unidade 4
2) Determine uma equação preditora do montante de seguro em função da renda

anual, com base nos seguintes dados:
3) Uma empresa pretende renovar a frota de caminhões paulatinamente, de

modo que irá vender um de seus veículos e adquirirá outro somente. Qual a equação
da reta de ajuste entre o consumo dos veículos e da distância percorrida?
4) Os dados da tabela abaixo representam o consumo e a renda disponível. Com

base nos dados apresentados, responda às questões apresentadas a seguir.
a) Determinar as estimativas a e b dos parâmetros da reta estimada?
b) Qual o consumo esperado por uma renda de 400 milhões de reais?
5) A seguir estão apresentadas as vendas e os custos da indúsria Água Fria

Ltda. Com base nos valores apresentados estime:
a) a equação da reta que ajusta os pontos;
b) os coeficientes de correlação e de determinação;
c) o percentual da variância dos custos explicados pelas vendas;
d) o erro padrão associado ao processo de estimação dos custos;
e) para vendas de $300 e $650, qual o volume de custos fixos projetados;
f) para custos iguais a $220, qual o volume de vendas previsto.
160
Unidade 4
RESPOSTAS
1)
a) y = -5 + 2x; b) y = 0,028 + 5x; c) y = -30,5 + 0,95 x; d) y = 4,77 + 0,49x
2)
y = -12,0 + 1,32 x
3)
y =-60,462 + 3,3077 x ; r2=0,9059
4)
a) a = 142,5 e b = 0,043
c) y = 179.700
5)
a) Y = 20,5716 + 0,4582 X;
b) r = 0,982649303, r2 = 0,965599652; c) o percentual igual a r2;
d) Erro Padrão = 2,2765;
e) para vendas iguais a $300, custos iguais a $158,0175. Para vendas iguais a
$650,00 custos iguais a $318,3710;
f) para custos iguais a $220,00 vendas iguais a $246,0242.
161

Estimativa de Parâmetros e Intervalos de Confiança

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estimativa de Parâmetros e Intervalos de Confiança

Uploaded by

Copyright:

Available Formats

ANÁLISE ESTATÍSTICA

A estimação é o estudo de métodos de obtenção de medidas representativas da

Essencialmente, qualquer característica de uma população pode ser estimada

A seguir apresentamos uma ilustração do processo de estimação de parâmetros

a) Processo utilizado para a estimação da média de uma população;

94 b) Processo utilizado para a estimação da proporção de uma população;

Apresentaremos a seguir um exemplo e algumas considerações para compreen-

O grau de confiança associado ao intervalo de confiança é a probabilidade 1-

O nível de confiança (1- ) é a probabilidade de o intervalo conter o parâmetro

Pelo Teorema do Limite Central sabemos que as médias amostrais apresentam

Os valores críticos mais comumente usados, associados ao grau de confiança

Portanto, um valor crítico é o número na fronteira que separa os valores das

Assim, 1 - = 95%, corresponde ao nível de confiança do intervalo. O nível de

Este intervalo é construído baseado na distribuição amostral do estimador.

Conforme vimos anteriormente, para estimar a média populacional µ podemos

Logo, para se estimar o verdadeiro parâmetro populacional, gera-se um intervalo

Um intervalo de confiança de 100(1- )% é estabelecido a partir de dois limites,

Por exemplo, para construirmos um intervalo de confiança de 95% (1- =0,95)

P(I < µ <S) = 95%

A interpretação do intervalo de confiança conforme vimos anteriormente é a

Se um grande número desses intervalos fosse construído, a partir de diversas

Formalizando um pouco, denotando-se o parâmetro de interesse por , desejamos

onde, é um valor pequeno, isto é, 1- é próximo de 1.

Para esclarecer o conceito de intervalo de confiança, suponha que retiremos um

Por exemplo, ao desejar um intervalo de confiança de 90% para estimar a mé-

A figura abaixo ilustra bem o conceito de intervalo de confiança.

O verdadeiro valor do parâmetro estará contido em 1- (x100)% desses inter-

Observamos que algumas estimativas intervalares incluem, e outras não incluem,

1.1. Intervalo de Confiança para a Média

Como vimos anteriormente um intervalo de confiança é formulado do seguinte

P(I < <S) = 1 -

Da mesma maneira que podem existir muitas estimativas pontuais para um

Se dois intervalos de confiança com o mesmo nível de confiança (1- )

O intervalo de confiança para a média (µ)7 de uma população é construído em

Como já vimos anteriormente, (média amostral) tem distribuição normal de

média µ e desvio padrão , ou seja, ~ N (µ /n). Portanto,

tem distribuição N (0,1).

Lembrando que, o que queremos é construir um intervalo que contenha o parâme-

Substituindo-se nesta expressão o valor de Z por: obtém-se:

Que é a expressão do intervalo de confiança para uma estimativa da média

:estimativa por ponto da média da população;

Esta expressão pressupõe o conhecimento do desvio-padrão populacional ,

(também chamado, erro máximo de estimativa),

+ <µ> - , ou formalizando por,

P(I < <S) = 1 - ?

a) Desvio padrão populacional conhecido

• Quando a população é infinita o intervalo de confiança com probabilidade

• Quando a população é finita de maneira análoga ao anterior, obtemos o

1- = 90% (a/ = 0,05) ± 1,64

1) Suponha que as alturas dos alunos de nossa faculdade tenham distribui-

Assim temos que,

Enquanto o erro máximo de estimativa é: cm

2) A duração da vida de uma peça de um equipamento industrial é tal que =

1- = 95% ( /2 = 0,025) =± 1,96

Sempre que conhecemos o tamanho da população “N” verificamos se a popu-

Conclusão: Logo, o intervalo [499,07 ; 500,93] = 95% contém a duração média

b) Desvio padrão populacional s desconhecido

Em geral, não conhecemos o desvio padrão da população, de modo que, para

Assim, utilizamos a estatística t-Student onde, , com (n-1) graus de

liberdade, em lugar da estatística .

A distribuição t-Student é muito parecida com a distribuição normal, sendo simé-

A forma da distribuição t-Student depende do tamanho da amostra. Quanto

Gráfico da Distribuição t-Student