APOSTILAESTATISTICA

Estatística
Agosto
2009
Campus do Pontal
Prof. MSc. Quintiliano Siqueira Schroden Nomelini
1 - ESTATÍSTICA DESCRITIVA
1.1 - A NATUREZA DA ESTATÍSTICA
• COMO SURGIU A ESTATÍSTICA?????

A Matemática surge do convívio social, da contagem, das trocas. Como a Estatística
é um ramo da Matemática Aplicada, ela também surge da experiência com o homem.
Na Antigüidade: registros do nº de habitantes, nascimentos, óbitos, impostos, etc.
Idade Média: registros bélicos e tributários as principais manipulações quantitativas.
Sec. XVI: começa a surgir análises de casamentos, batizados, gerando as primeiras
tábuas e tabelas.
No sec. XVIII: o estudo desses registros numéricos assume um caráter mais
científico.
A Estatística foi batizada por Godofredo Archenwall nessa época.
Antonio A. Crespo define Estatística como:
Estatística é uma parte da matemática aplicada que fornece métodos para a
coleta, a organização, a descrição, a análise e a interpretação de dados
quantitativos e qualitativos, e a utilização desses dados para a tomada de
decisão.
• Conceitos de Estatística e porque estudar Estatística

A Estatística estuda então os fenômenos com um conjunto muito numeroso de
indivíduos, com pelo menos uma característica comum.
A partir da análise quantitativa de uma determinada experiência ou de um determinado
grupo de indivíduos, se for observado certa regularidade nessa característica,
provavelmente existirá a mesma regularidade numa classe maior de experiências ou
indivíduos. Esse é um processo de generalização.
• Por que estudar Estatística:
9 O raciocínio estatístico é muito utilizado no governo e na administração: emprego.
9 O conhecimento estatístico serve para bem tomar decisões e não ser iludido.
9 Os próximos cursos usam a Estatística.
9 As revistas profissionais e artigos científicos se referem a estudos estatísticos.
9 Usar a interpretação estatística nos artigos da imprensa e no cotidiano.
2
• Os ramos da Estatística
A Estatística pode ser dividida em duas partes:
9 Estatística Descritiva: tem como objetivo a observação de fenômenos de mesma
natureza, a coleta de dados numéricos relativos a esses fenômenos, a organização e a
classificação desses dados observados e a sua apresentação através de gráficos e tabelas,
além da descrição desses dados através do cálculo de coeficientes.
Exemplos: taxa de desemprego, custo de vida, índice pluviométrico, quilometragem
média por litro de combustível, volume de vendas mensais de um produto, etc.
9 Estatística Inferencial ou Dedutiva: tem como objetivo a análise e interpretação
dos dados amostrais. Refere-se a um processo de generalização a partir de resultados
particulares. Esse processo de generalização está associado a uma margem de incerteza,
pois a conclusão a respeito da característica comum de uma população é obtida
analisando-se uma parcela dessa população. Para medir essa incerteza, usa-se técnicas e
métodos da Teoria da Probabilidade.
Exemplos: Para calcular a voltagem necessária para que um dispositivo elétrico chegue
a falhar, submete-se uma amostra de tais dispositivos a voltagens cada vez mais
elevadas, até falhar cada dispositivo da amostra. Com base nos resultados, pode-se
estimar a probabilidade de falha nos dispositivos, a cada voltagem.
• O método Estatístico e suas fases
Na Antigüidade, os conhecimentos eram adquiridos ao acaso ou por necessidades
práticas. Atualmente, pode-se adquiri-los através de processos científicos de observação
e estudo.
O método estatístico, diante da impossibilidade de manter as causas constantes,

admite todas as causas presentes variando-as, registrando essas variações e
procurando determinar, no resultado final, que influências cabem a cada uma
delas.
Dados são números que exprimem a observação de elementos com uma
característica comum. Exemplo: os homens de uma comunidade.
Para se fazer um estudo estatístico, deve-se dividi-lo em fases:

As fases são:
Coletas de dados: é a obtenção, reunião e registro sistemático de dados, com um
objetivo determinado.
3
• Direta: quando é obtida diretamente da fonte e pode ser:
Contínua : Obtida ininterruptamente: Registro de nascimentos, etc.
Periódica : em períodos curtos: Censos
Ocasional : esporadicamente : Surto epidêmico
• Indireta: Quando é inferida ( deduzida ) a partir dos elementos conseguidos pela
coleta direta
- Mortalidade infantil
• Crítica dos dados: devem ser criticados à procura de erros grosseiros ou de certos
vultos, que possam influir sensivelmente nos resultados como:
- Externa: Informante
- Interna: dados da coleta
Apuração dos dados: é a soma e o processamento dos dados obtidos e a disposição
mediante critérios de classificação.
Exposição dos dados: devem ser apresentados sob forma de tabelas ou gráficos
tornando mais fácil e compreensão do objeto de tratamento estatístico
Análise dos resultados: É o estudo dos resultados com o objetivo de tirar conclusões sobre o
todo (população), a partir de informações fornecidas por parte representativa do todo (amostra).
a) A FIGURA A SEGUIR ILUSTRA O PRINCIPIO FUNDAMENTAL

DA ESTATÍSTICA
Onde: População: é o conjunto de entes portadores de, pelo menos, uma característica comum;
Amostra :é um subconjunto finito de uma população.
4
1.2 – FERRAMENTAS NECESSÁRIAS AO CÁLCULO ESTATÍSTICO
Talvez alguns assuntos tratados neste capítulo sejam apenas uma revisão para a
grande maioria de vocês. Todavia seu conhecimento será de extrema validade, não
só para o acompanhamento do curso como também para o aprendizado de vários
tópicos.
1 – Frações – par de números naturais em que o segundo representa um certo número de
partes em que p inteiro está dividido, e o primeiro representa uma ou mais dessas partes
iguais.Assim, 2/5 é uma fração onde 2 é o numerador e 5 o denominador.
Simplificação – Para simplificar frações devemos dividir o numerador e o denominador
pelo mesmo número, obtendo uma fração equivalente à fração dada. Assim: 6 = 2 ,
15 5
que é conhecida como fração irredutível.
2 – Somatório.
REVISÃO:
1 Desenvolva cada uma das seguintes expressões, colocando-as na sua forma mais
simples possível:
5 4
a) ∑x ;i =1
i d) ∑ x −x
i =1
i ;
5 6 2
b) ∑ zi x2i ;
i =1
e) ∑ ( xi − x ) .
i =1
6
c) ∑x y ;
i =1
i i
2. Escreva em notação sigma (somatório):

a) x1 + x2 + ... + xn ; c) x1 + x2 + ... + x7 ;
( x1 + x2 + ... + xn ) x 21 + x 2 2 + ... + x 2 n .
2
b) ; d)
3. Calcule para os dados abraixo:
i 1 2 3 4 5 6
Zi 7 3 8 9 4 3
Xi 9 13 15 21 25 29
5
3 6
a) ∑ Xi ;
i =1
e) ∑Z
i =1
i ;
6 6
b) ∑ Xi ;
i =3
f) ∑Z X
i =1
i i ;
6 6
c) ∑X
i =1
i ; g) ∑Z X
i =1
i
2
i .
6
d) ∑X
i =1
2
i ;
4. Sejam os conjuntos de dados: X = {4,3, 0,1} , Y = {3, 0,1,3} . Obtenha os
seguintes somatórios:
4
a) ∑X i =1
i ;
4
b) ∑X i =1
2
i ;
4
c) ∑Y Xi =1
i i ;
2
⎛ 4 ⎞
d) ⎜∑ X i ⎟ .
⎝ i =1 ⎠
6
1.3 – SÉRIES ESTATÍSTICAS
• Definição: Uma vez coletados os dados, o conjunto de valores é extenso e desorganizado e, no
seu exame, há o perigo de se perder a visão global do fenômeno analisado. Por isso, reunimos os
valores em tabelas compactas, que permitem uma visão mais sintética do fenômeno, sem tirar-lhe a
precisão primitiva. Essa condensação dos valores permite ainda a representação gráfica, uma forma
mais sutil e elegante de apresentação da característica estudada.
Uma tabela é um quadro que resume as observações de alguma variável.
Título
Cabeçalho
Cabeçalho
Coluna
Numérica
Corpo Coluna
Indicadora Casa ou
Célula
Linhas
Rodapé
Uma série estatística é toda tabela que apresenta a distribuição de um conjunto de dados
estatísticos em função da época, do local ou da espécie.
• Classificação das Séries Estatísticas

Podemos classificar uma série estatística de acordo com os seus três fatores: tempo, espaço e
espécie.
1.Séries históricas (ou temporais, cronológicas, marchas): descrevem os valores da variável em

determinado local segundo intervalos de tempo variáveis.
Exemplo: O diretor de marketing de uma empresa, fabricante de componentes eletrônicos, deseja
examinar a evolução de suas vendas em 2000, mês a mês.
7
GLT S.A. – Indústria de Componentes Eletrônicos, Vendas – Mercado Interno – 2000
Meses Vendas ($1.000)
Janeiro 2.300
Fevereiro 1.800
Março 2.200
Abril 2.210
Maio 2.360
Junho 2.600
Julho 2.690
Agosto 3.050
Setembro 3.500
Outubro 3.440
Novembro 3.100
Dezembro 2.760
TOTAL ANUAL 31.510
Fonte: Departamento de Análise de Mercado.
2. Séries geográficas (ou espaciais, territoriais, de localização): descrevem os valores da variável
em determinado instante segundo regiões.
Exemplo: Se agora o diretor deseja saber o comportamento das vendas dessa empresa nos estados
do Brasil, no ano 2000.
GLT S.A. – Indústria de Componentes Eletrônicos, Vendas por Unidade de Federação – 2000
Unidades de Federação Vendas ($1.000)
Minas Gerais 4.000
Paraná 2.230
Rio Grande do Sul 6.470
Rio de Janeiro 8.300
São Paulo 10.090
Outros 420
TOTAL – BRASIL 31.510
3. Séries específicas (ou categóricas): descrevem os valores da variável, em determinado tempo e
local, segundo especificações ou categorias.
Exemplo: Suponha que o diretor esteja interessado em conhecer o comportamento das vendas de
cada um dos produtos, que foram agrupados em três categorias ou linhas. A tabela revela que
aproximadamente 50% do faturamento da empresa são representados pelos produtos da linha C.
8
GLT S.A. – Indústria de Componentes Eletrônicos, Vendas por Linha de Produto – 2000
Linha do Produto Vendas ($1.000)
Linha A 6.450
Linha B 9.310
Linha C 15.750
TODOS OS PRODUTOS 31.510
4. Distribuição de freqüências: neste caso, todos os elementos estão fixos, estando os dados
agrupados de acordo com a intensidade ou variação quantitativa do fenômeno. O processo de
construção das tabelas de distribuição de freqüência será feito mais adiante.
Exemplo: Agrupar as vendas da empresa em classes de faturamento e analisar o número de meses
em que se verificaram os vários faturamentos.
GLT S.A. – Indústria de Componentes Eletrônicos, Nº de Meses Segundo o Faturamento
Vendas ($1.000) Meses
De 1.800 a 2.199 1
2.200 a 2.599 4
2.600 a 2.999 3
3.000 a 3.399 3
3.400 a 3.799 1
TOTAL DE MESES 12
Nº de Empregados das Várias Classes de Salários no Estado de São Paulo – 2000
Classes de Salários (R$) Nº de Empregados
Até 80 41.326
De 80 a 119 123.236
De 120 a 159 428.904
De 160 a 199 324.437
De 200 a 399 787.304
De 400 a 599 266.002
De 600 a 799 102.375
De 800 a 999 56.170
1.000 ou mais 103.788
TOTAL 2.233.542
Fonte: Serviço de Estatística da Previdência e Trabalho.
9
• Séries conjugadas – tabelas de dupla entrada
Muitas vezes há necessidade de apresentar, em uma única tabela, a variação de valores de mais de
uma variável, obtendo assim uma tabela de dupla entrada. Nesse tipo de tabela ficam criadas duas
ordens de classificação: horizontal e vertical.
Exemplos:
Série específico-temporal:
População Economicamente Ativa por Setor de Atividade – Brasil
Setor População (1000 habitantes)
1940 1950 1960
Primário 8.968 10.255 12.163
Secundário 1.414 2.347 2.962
Terciário 3.620 4.516 7.525
Fonte: IPEA.
Série geográfico-temporal:
Produção Brasileira de Borracha
Unidade de Produção
Produção 1937 1938 1939
Acre 5.007 4.765 4.727
Amazonas 6.858 5.998 5.631
Pará 4.945 4.223 4.500
Mato Grosso 1.327 1.285 1.235
Outros Estados 333 539 337
Fonte: Anuário Estatístico do Brasil - IBGE.
É importante ressaltar que nem toda tabela representa uma série estatística. Algumas vezes, os
dados não são uniformes, sendo meramente um aglomerado de informações gerais sobre
determinado assunto.
Exemplo:
Situação dos Espetáculos Cinematográficos no Brasil – 1970
Especificação Dados Numéricos
Número de cinemas 2.488
Lotação dos cinemas 1.722.348
Sessões por dia 3.933
Filmes de longa metragem 131.330.488
Meia entrada 89.581.234
Fonte: Anuário Estatístico do Brasil - IBGE.
10
• Dados absolutos e dados relativos
Dados absolutos são os dados estatísticos resultantes da coleta direta da fonte, sem manipulação a
não ser contagem ou medida. Sua leitura é inexpressiva.
Dados relativos é o resultado de comparações por razões que se estabelecem entre dados absolutos
e têm por finalidade facilitar as comparações entre quantidades. São as porcentagens, índices,
coeficientes e taxas.
1. Porcentagens
Destaca a participação da parte no todo. São razões que consistem em considerar um total qualquer
igual a 100% e através de uma regra de três simples, estabelecermos qualquer relação com as
parcelas que compõe o total. Assim: Total ----- 100%
Parcela ---- x%
Exemplo 1:
b) MATRÍCULAS NAS ESCOLAS DA CIDADE A - 1995
Categorias Nº de alunos %
1º grau 19.286
2º grau 1.681
3ºgrau 234
Total 21.201
Exemplo 2: Quando quisermos analisar a estrutura de um fato, deveremos ratear as porcentagens

entre os itens que compõem este fato.
Custo mensal dos ventiladores A e B (10 unidades)
Despesas Ventilador A Ventilador B
Valores (R$) % Valores (R$) %
Mão-de-obra 1120,00 44,8 2280,00
Matérias – primas 720,00 28,8 2600,00
Despesas gerais 320,00 12,8 1360,00
Propaganda 340,00 13,6 1760,00
TOTAL 2500,00 100 8000,00 100
2. Índices
população
Densidade demográfica =
superfície
São razões entre duas grandezas tais que uma não inclui a outra. Exemplo:
valor total da produção
Índices econômicos: Produção per capita =
população
11
renda
Renda per capita =
população
consumo
Consumo per capita =
população
idade mental
QI =
idade cronológica
3. Coeficientes
São razões entre o nº de ocorrências e o nº total. Exemplos:
nº de óbitos
Coeficiente de mortalidade =
população total
nº de nascimentos
Coeficiente de natalidade =
população total
nº de alunos evadidos
Coeficiente de evasão escolar =
nº inicial de matrículas
nº de alunos aprovados
Coeficiente de aproveitamento escolar =
nº final de matrículas
4. Taxas
São os coeficientes multiplicados por uma potência de 10n (10, 100, 1000) para tornar o resultado
mais inteligível. Exemplos: Taxa de mortalidade = coeficiente de mortalidade . 10n
Taxa de evasão escolar = coeficiente de evasão escolar . 10n
Ex.: número de óbitos=80080; população total = 520000
Coeficiente mortalidade = 80080 = 0,154 . Então o coef. de mortalidade é de 0,154 óbito por
520000
habitante. Porém se multiplicarmos por 1000 teremos:
taxa de mortalidade=0,154*1000=154, ou seja, 154 óbitos por mil habitantes.
12
Lista de exercícios sobre Séries e Dados Estatísticos
1) Considere a série estatística. Complete-a, determinando as porcentagens com uma casa decimal
e fazendo o arredondamento.
Séries Alunos %
Matriculados
1ª 546
2ª 328
3ª 280
4ª 120
Total 1.274
2)Analisar a estrutura do fato abaixo, utilizando porcentagens.
Especificação Despesa família X Despesa família Y
Alimentação 5600 1140
Vestuário 1600 680
Habilitação 3600 1300
Outras despesas 1700 880
TOTAL 12500 4000
3)Em um magazine, as vendas de certos produtos se processam da seguinte maneira:

Dias Unidades
Segunda 47
Terça 32
quarta-feira 58
quinta-feira 66
sexta-feira 30
Sábado 47
Pode-se indicar por meio de porcentagem:
a)Como se distribuem as vendas diárias com relação ao total da semana?
b) Qual o desenvolvimento das vendas com relação a 50 unidades (venda considerada base para a
empresa).
c) Qual o desenvolvimento das vendas de um dia para o outro?
4) Considerando que Minas Gerais, em 1992, apresentou (dados fornecidos pelo IBGE):
• População: 15.957,6 mil habitantes Superfície: 586.624 km2
• Nascimentos: 292.036 Óbitos: 99.281
13
Calcule:
a) o índice da densidade demográfica b) a taxa de natalidade c) a taxa de mortalidade
5) Um professor preencheu um quadro, enviado pela secretaria da escola, com os seguintes dados:
Série Nº de Nº de Promovidos Retidos Em Recupe Não- Total Geral
E Aluno Aluno sem sem Recupe rados Recupe Promo Retido
Turm s s Recuperaçã Recupe ração rados -vidos s
a 30.03 30.11 o ração
1º B 49 44 35 03 06 05 01 40 04
1º C 49 42 42 00 00 00 00 42 00
1º E 47 35 27 00 08 03 05 30 05
1º F 47 40 33 06 01 00 01 33 07
Total 192 161 137 09 15 08 07 145 16
Calcule:
a) a taxa de evasão, por turma b) a taxa de evasão total
c) a taxa de aprovação, por turma d) a taxa de aprovação geral
e) a taxa de recuperação, por turma f) a taxa de recuperação geral
g) a taxa de reprovação na recuperação geral h) a taxa de aprovação, sem a recuperação
h) a taxa de retidos, sem a recuperação.
6)Classifique as séries abaixo:

a)Produção de fertilizantes Fosfatados – Brasil – 1985 – 1989
Anos Quantidade (toneladas)
1985 3570115
1986 4504201
1987 5448835
1988 4373226
1989 4024813
b) Despesas com viagens dos departamentos das 3 filiais da Empresa

SETOR FILIAIS
RJ MG SP
Logística R$3000 R$3500 R$4000
Marketing R$2000 R$2300 R$2800
RH R$3200 R$1700 R$2200
14
7- Uma pessoa comprou dois automóveis por R$52500,00. Vendeu o primeiro com 8% de lucro e o
segundo com 3% de prejuízo. O lucro líquido total foi de R$2000,00. Calcular o preço de compra
de cada automóvel.
8 – Em uma inspeção de qualidade verificou-se que tinham 12 peças estragadas, representando 15%
do total de peças examinadas. Queremos saber quantas peças foram examinadas.
9 – Um objeto é oferecido por R$600; este preço sofre um desconto de 20% e depois de 15%. O
novo preço corresponde a que porcentagem de R$600?
1.4 - ORGANIZAÇÃO E APRESENTAÇÃO DOS DADOS
As observações é o material básico com que o pesquisador trabalha. Estas observações

podem ser, por exemplo, a produtividade de uma planta, a velocidade de processamento de um
computador, a resistência à ruptura de determinado cabo, suscetibilidade ou não de indivíduo a
determinada doença, cor de uma flor, sexo do primeiro filho de um casal, opinião dos alunos quanto
a didática de um professor, etc. Estas observações apresentam uma característica em comum que é a
variação ou variabilidade, ou seja assumem diferentes valores de indivíduo para indivíduo.
Uma característica que pode assumir diferentes valores de indivíduo para indivíduo é
denominada variável. Caso contrário é denominado constante. As variáveis são classificadas em:
VARIÁVEIS
QUALITATIVAS QUANTITATIVAS
(atributos) (numéricas)
Exemplos: DISCRETAS CONTÍNUAS

• Sexo;
• Religião;
• Naturalidade; Exemplos: Exemplos:
• Cor dos olhos;
• Altura de uma planta (baixa, média, alta); • Quantidades • Tempo de vôo
• Cor de flor; de estudantes entre cidades;
• Sabor;
em uma • Duração da
disciplina; bateria do
• Quantidades celular;
de cômodos • Peso corporal;
NOMINAL ORDINAL em uma
Ex: região; Ex: classe social; residência;
• Número de
filhos;
15
Exercício: Classifique as variáveis apresentadas na tabela abaixo:
Os dados coletados no campo e trazidos para o laboratório (escritório), na forma em que se

encontram, como apresentados na Tabela 1.1, são denominados dados brutos. Normalmente este
tipo de dados trás pouca ou nenhuma informação ao leitor, sendo necessário uma elaboração
(organização) destes dados, a fim de aumentar sua capacidade de informação.
Tabela 1.1: Dados dos alunos da disciplina MLI54 do curso de Matemática (UFU) em 01/2002.
Indivíduo Altura Sexo Número de Irmãos
1 1,87 M 5
2 1,67 F 2
3 1,75 F 0
4 1,80 M 2
5 1,72 M 4
6 1,64 F 2
7 1,73 F 2
8 1,78 M 1
9 1,83 M 0
10 1,78 M 1
11 1,67 F 3
12 1,70 F 1
13 1,65 F 1
14 1,53 F 1
15 1,62 M 1
16 1,56 F 0
17 1,51 F 1
18 1,68 F 1
19 1,72 F 1
20 1,73 F 1
21 1,75 F 5
16
22 1,67 F 2
23 1,88 M 1
24 1,87 M 1
25 1,75 M 3
26 1,63 F 6
27 1,70 M 6
28 1,88 M 6
29 1,76 F 3
30 1,78 M 2
A mais simples organização numérica é a ordenação dos dados em ordem crescente ou

decrescente, chamada de ROL. Como pode-se observar na Tabela 1.2, a simples organização dos
dados em um Rol, aumenta muito a capacidade de informação destes. Pois enquanto a Tabela 1.1
nos informava apenas que tínhamos 30 alunos, e algumas alturas, sexo e número de irmãos, na
Tabela 1.2, verificamos que a menor altura observada foi 1,51 m e a maior 1,88 m, o que nos
fornece uma amplitude total de variação da ordem de 0,37 m.
A = maior valor observado - menor valor observado
A = 1,88m − 1,51m = 0,37 m

Pode-se observar ainda que algumas alturas como 1,67m, 1,75m e 1,78m são mais comuns.
Tabela 1.2: Rol das alturas dos alunos da disciplina MLI54 do curso de Matemática (UFU) em
01/2002.
1,51 1,53 1,56 1,62 1,63 1,64 1,65
1,67 1,67 1,67 1,68 1,70 1,70 1,72
1,72 1,73 1,73 1,75 1,75 1,75 1,76
1,78 1,78 1,78 1,80 1,83 1,87 1,87
1,88 1,88
Tabela 1.3: Rol do nº de irmãos dos alunos da disciplina MLI54 do curso de Matemática (UFU) em
01/2002.
0 0 0 1 1 1 1
1 1 1 1 1 1 1
1 2 2 2 2 2 2
3 3 3 4 5 5 6
6 6
17
1.4.1– APRESENTAÇÃO TABULAR
1.4.1.3 VARIÁVEIS QUANTITATIVAS CONTÍNUAS
• DISTRIBUIÇÃO DE FREQÜÊNCIAS
Após esta primeira organização dos dados, podemos ainda agrupá-los em classes de menor
tamanho, a fim de aumentar sua capacidade de informação.
Distribuindo-se os dados observados em classes e contando-se o número de indivíduos
contidos em cada classe, obtém-se a freqüência de classe. A disposição tabular dos dados agrupados
em classes, juntamente com as freqüências correspondentes denomina-se distribuição de freqüência.
Para identificar uma classe, deve-se conhecer os valores dos limites inferior e superior da
classe, que delimitam o intervalo de classe. Por exemplo, para o caso das alturas dos alunos, pode-
se desejar incluir em uma única classe todos os indivíduos que possuam altura entre 1,70 e 1,75 m
assim, o intervalo de classe seria de 1,70 m a 1,75 m.
Neste ponto surge uma dúvida fundamental. Indivíduos que apresentem alturas exatamente
iguais a 1,70 m ou a 1,75 m pertencem ou não a esta classe? Deste modo surge a necessidade de
definir a natureza do intervalo de classe, se é aberto ou fechado. Quando o intervalo de classe é
aberto, os limites da classe não pertencem a ela, e quando o intervalo é fechado, os limites de classe
pertencem a classe em questão. Notação:
• Intervalos abertos: ]1,70 – 1,75[ ou somente, 1,70 – 1,75;
• Intervalos fechados: [1,70 – 1,75] ou 1,70├┤1,75;
• Intervalos mistos: [1,70 – 1,75[ ou 1,70├1,75;
CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA:

Para montar uma distribuição de freqüência é necessário que primeiramente se determine o
número de classes (k) em que os dados serão agrupados. Por questões de ordem prática e estética
sugere-se utilizar de 5 a 20 classes. Na bibliografia pode-se encontrar vários critérios para indicação
do número de classes a ser utilizado, em função do número de dados (n), os mais utilizados são:
⎪⎧ k = n , n ≤ 100
i) Critério de Oliveira (1994): ⎨ (iremos adotar este critério);
⎪⎩ k = 5.log( n), n > 100
A3 n
ii) Critério de Scott(1979): k = S,
3, 49
em que A é amplitude e S o desvio padrão. As estatísticas A e S são definidas nas equações abaixo
da seguinte forma:
18
⎡ ⎛ n ⎞ ⎤
2
⎢ ∑ i ⎥
1 ⎢ n 2 ⎜⎝ i =1 ⎟⎠ ⎥
X
A = X ( n ) − X (1) e S= ∑ Xi − n ⎥ ;
n − 1 ⎢ i =1
⎢ ⎥
⎢⎣ ⎥⎦
iii) Critério de Sturges: k = 1 + 3, 3.log( n) .

Após determinar o número de classes (k) em que os dados serão agrupados, deve-se então
determinar o intervalo de classe (c), que é dado pela seguinte expressão:
A
c= ;
k −1
em que: c é amplitude de classe;
A é a amplitude total;
k é o número de classes.
Conhecida a amplitude de classe, determina-se então os intervalos de classe. Os limites
inferior e superior das classes devem ser escolhidos de modo que o menor valor observado esteja
localizado no ponto médio da primeira classe, que é dado por:
Linf + Lsup
PM = ,
2
em que: Linf é o limite inferior da classe;
Lsup é o limite superior da classe.
Assim, o limite inferior da primeira classe será:

c
LI inf 1ª = menor valor observado − .
2
E os demais limites são obtidos somando-se c ao limite anterior. A título de ilustração
agruparemos dos dados referentes às alturas dos alunos em classes.
Temos que a amplitude total observado na Tabela 1.2 é:
A = maior valor observado - menor valor observado = 1,88 − 1,51 = 0,37
1º Passo) Determinar o número de classe (k):
n = 30 < 100 k = 30 ≅ 5,5 , como o número de classe é inteiro usaremos k = 6 ;
2º Passo) Determinar a amplitude de classe (c):
A 0,37
c= = = 0, 074 ;
k −1 6 −1
3º Passo) Determinar o limite inferior da primeira classe:
c 0, 074
LI inf 1ª = menor valor observado − = 1,51 − = 1, 473
2 2
4º Passo) Determinar o limite superior da primeira classe:
19
Lsup1ª = Linf 1ª + c = 1, 473 + 0, 074 = 1,547 ;
5º Passo) Montar a distribuição de freqüência:

Tabela 1.4: Distribuição de freqüência das alturas de30 alunos da disciplina MLI54 do curso de
Matemática (UFU) em 01/2002.
Alturas (m) fa fr fr % PM
1,473├1,547 2 0,066 6,6 1,51

1,547├1,621 2 0,066 6,6 1,584
1,621├1,695 7 0,234 23,4 1,658
1,695├1,769 10 0,334 33,4 1,732
1,769├1,843 5 0,166 16,6 1,806
1,843├1,917 4 0,134 13,4 1,88
TOTAL 30 1,00 100
em que: f a é a freqüência absoluta e indica o número de observações pertencentes a cada classe;
fa
f r é a freqüência relativa que é dada por: f r = ;
n
n é o número de observações e PM é o ponto médio da classe.
Interpretação: Apresentando os dados na forma de distribuição de freqüência, sintetiza-se a
informação contida nos mesmos, além de facilitar sua visualização. Pois pode-se verificar
claramente na Tabela 1.4 que as alturas dos 30 alunos apresentam uma amplitude total de 0,37 m.
Não foi observada nenhuma altura inferior a 1,473 m e nem superior a 1,917 m. Alturas localizadas
no extremo inferior da distribuição (1,473 a 1,547 m) são menos freqüentes do que as do extremo
superior (maiores que 1,843 m). Observa-se uma tendência de concentração das alturas na região
central a superior da distribuição. A apresentação dos dados em forma de distribuição de freqüência
facilita ainda o cálculo de várias medidas estatísticas de interesse, além de permitir a apresentação
gráfica dos mesmos.
APRESENTAÇÃO GRÁFICA
As mesmas informações fornecidas pelas distribuições de freqüências podem ser obtidas, e
mais facilmente visualizada através de gráficos, tais como histograma, polígono de freqüência e
outros.
HISTOGRAMAS: são constituídos por um conjunto de retângulos, com as bases assentadas sobre
um eixo horizontal, tendo o centro da mesma no ponto médio da classe que representa, e cuja altura
é proporcional à freqüência da classe. Se as amplitudes de classes forem todas iguais, as alturas
20
serão numericamente iguais as freqüências das classes. Porem, se os intervalos de classe não
tiverem todos a mesma amplitude de classe, as alturas dos retângulos deverão ser convenientemente
ajustadas, afim de que as áreas dos mesmos sejam proporcionais às freqüências das classes e assim
suas áreas permaneçam fieis à sua freqüência. Esse ajuste pode ser feito através da densidade de
fr
freqüência, dada por: df r = .
c
12
10
0
1.473
1.547
1.621
1.695
1.769
1.843
1.917
1.954
Figura 1: Histograma da distribuição de freqüência das alturas de 30 alunos da disciplina MLI54 do
curso de Matemática (UFU) em 01/2002.
POLÍGONO DE FREQÜÊNCIA: é um gráfico de análise no quais as freqüências das classes são

localizadas sobre perpendiculares levantadas nos pontos médios das classes. E pode ser obtido pela
simples união dos pontos médios dos topos dos retângulos de um histograma. Completa-se o
polígono unindo-se as extremidades da linha que une os pontos representativos das freqüências de
classe aos pontos médios das classes imediatamente anterior e posterior as classes extremas, que
têm freqüência nula.
12
10
0
1.473
1.547
1.621
1.695
1.769
1.843
1.917
1.954
Figura 2: Polígono de freqüência das alturas de 30 alunos da disciplina MLI54 do curso de

Além das aplicações já comentadas, os histogramas e polígonos de freqüências podem
indicar ainda qual é o tipo de distribuição que os dados seguem como pode ser visto a seguir:
21
Figura 10: Distribuição jota.
Figura 7: Distribuição simétrica.
Figura 11: Distribuição jota invertido.
Figura 8: Distribuição assimétrica à

esquerda.
Figura 12: Distribuição bimodal.
Figura 9: Distribuição assimétrica à direita.
Figura 13: Distribuição multimodal.
22
• DISTRIBUIÇÕES DE FREQÜÊNCIAS ACUMULADAS
Muitas vezes pode-se estar interessado não em saber a quantidade de observações que existe
numa determinada classe, mas sim a quantidade de observações acima ou abaixo de um
determinado ponto na distribuição.
Deste modo, a soma das freqüências de todos os valores abaixo do limite superior de uma
determinada classe é definida como freqüência acumulada para baixo deste ponto, assim como a
soma das freqüências de todos os valores acima do limite inferior de uma classe é denominada
freqüência acumulada para cima.
A título de ilustração, estão apresentadas nas Tabelas 1.5 e 1.6, respectivamente, as
freqüências acumuladas para cima e para baixo das alturas dos 30 alunos da disciplina MLI54 do
curso de Matemática (UFU) em 01/2002.
Tabela 1.5: Distribuição de freqüência acumulada para baixo das alturas de 30 alunos da disciplina
MLI54 do curso de Matemática (UFU) em 01/2002.
Freqüência Acumulada
Alturas (m) Absoluta ( f a ) Relativa % ( f r %)
Abaixo de 1,473 0 0,0
Abaixo de 1,547 2 6,6
Abaixo de 1,621 4 13,3
Abaixo de 1,695 11 36,6
Abaixo de 1,769 21 70,0
Abaixo de 1,843 26 86,6
Abaixo de 1,917 30 100,0
Tabela 1.6: Distribuição de freqüência acumulada para cima das alturas de 30 alunos da disciplina
Freqüência Acumulada
Alturas (m) Absoluta ( f a ) Relativa % ( f r %)
acima de 1,473 30 100,0
acima de 1,547 28 93,3
acima de 1,621 26 86,6
acima de 1,695 19 63,3
acima de 1,769 9 30,0
acima de 1,843 4 13,3
acima de 1,917 0 0,0
Para verificar qual a porcentagem de alunos que possuem altura inferior a 1,621 m basta
consultar diretamente a Tabela 1.5 e verificar a freqüência acumulada abaixo deste valor (13,3%),
pois o valor 1,621 m é um dos limites de classe apresentados nesta tabela. Mas como proceder para
23
obter as freqüências acumuladas para valores intermediários aos apresentados na tabela? Como por
exemplo a freqüência acumulada acima de 1,70 m?
Para este tipo de cálculo, pressupõe-se que as alturas estejam uniformemente distribuídos
dentro das classes, e procede-se do seguinte modo:
Freqüência acumulada acima, da classe imediatamente inferior a 1,70 (acima de 1,695) é de
19 alunos. Freqüência acumulada acima, da classe imediatamente superior a 1,70 (acima de 1,769) é
de 9 alunos.
Assim, temos que: Freq. entre 1,695 e 1,769 = 19 − 9 = 10 alunos; temos ainda que de 1,695
m a 1,769 m são 0,074 m; e de 1,695 m a 1,70 m são 0,005 m; então,
0, 074m → 10alunos
0, 005m → x
0, 005 ⋅10
x= = 0, 67alunos
0, 074
Como acima de 1,695 m existe 19 alunos, e entre 1,695 e 1,70 m existem 0,67, conclui-se
que acima de 1,70 m existem 19 − 0, 67 = 18, 33 alunos com alturas acima de 1,70 m.
APRESENTAÇÃO GRÁFICA
OGIVAS: é o nome dado a um polígono de freqüências acumuladas, nas quais as freqüências
acumuladas são localizadas sobre perpendiculares levantadas nos limites inferiores ou superiores
das classes, dependendo se a ogiva representar as freqüências acumuladas abaixo ou acima,
respectivamente.
35
30
25
Freqüências
20 Abaixo de
15 Acima de
10
0
1.399
1.473
1.547
1.621
1.695
1.769
1.843
1.917
1.991
Alturas
Figura 3: Ogivas, acima e abaixo de, da distribuição de freqüências acumuladas das alturas de 30
alunos da disciplina MLI54 do curso de Matemática (UFU) em 01/2002.
24
1.4.1.3 VARIÁVEIS QUANTITATIVAS DISCRETAS
Para variáveis quantitativas discretas não se faz necessário a distribuição dos dados em
classes intervalares, pois cada “valor” da variável já apresenta uma classe distinta como pode ser
observado na Tabela 1.7. A título de ilustração, iremos construir a distribuição de freqüência do
número de irmãos dos alunos da Tabela 1.1, para isso, devemos primeiro dispor os dados em uma
tabela de Rol, como segue a Tabela 1.3 abaixo. Logo depois construímos a distribuição de
freqüência com as classes sendo os próprios valores observados e completar a tabela com as
freqüências observadas.
Tabela 1.3: Rol do nº de irmãos dos alunos da disciplina MLI54 do curso de Matemática (UFU) em
01/2002.
0 0 0 1 1 1 1
1 1 1 1 1 1 1
1 2 2 2 2 2 2
3 3 3 4 5 5 6
6 6
Tabela 1.7: Distribuição de freqüência do nº de irmãos dos alunos da disciplina MLI54 do curso de
Nº de Irmãos fa f r (%) Fa Fr (%)
0 3 10 3 10
1 12 40 15 50
2 6 20 21 70
3 3 10 24 80
4 1 3,33 25 83,33
5 2 6,67 27 90
6 3 10 30 100
TOTAL 30 100
APRESNTAÇÃO GRÁFICA
GRÁFICO DE BARRAS: é um gráfico formado por barras verticais, cujas alturas são
proporcionais às freqüências das classes.
25
14
12
10
Freqüências
8
0
0 1 2 3 4 5 6
Número de irmãos
Figura 4: Gráfico de Barras da distribuição de freqüência do nº de irmãos dos alunos da disciplina

GRÁFICO DE BARRAS PARA DISTRIBUIÇÕES DE FREQÜÊNCIAS ACUMULADAS: é

um gráfico formado por barras horizontais, cujas alturas são proporcionais às freqüências
acumuladas das classes.
5
Número de irmãos
0 5 10 15 20 25 30 35
Freqüências
Figura 5: Gráfico de Barras da distribuição de freqüência acumulada do nº de irmãos dos alunos da

disciplina MLI54 do curso de Matemática (UFU) em 01/2002.
1.4.1.3 VARIÁVEIS QUALITATIVAS
Do mesmo modo que as variáveis quantitativas discretas as qualitativas também não

se faz necessário a distribuição dos dados em classes intervalares. A título de ilustração, iremos
construir a tabela de distribuição de freqüência para a variável sexo dos alunos observados na
Tabela 1.1. Então, da mesma forma que fizemos para a variável discreta faremos aqui também.
Tabela 1.8: Distribuição de freqüência da variável sexo dos alunos da disciplina MLI54 do curso de
Sexo fa fr f r (%)
Feminino 17 0,5667 56,67
Masculino 13 0,4333 43,33
TOTAL 30 1,0 100
26
APRESNTAÇÃO GRÁFICA
GRÁFICO DE SETORES (PIZZA): é um gráfico em formato de circulo dividido em setores
cujas áreas são proporcionais à freqüências da classe. O processo de construção é simples, pois
sabe-se que setor de circunferência é formado por um ângulo de 360º e equivale a 100% da área da
circunferência, assim para obter-se o setor cuja área representa uma determinada freqüência, basta
resolver uma regra de três simples, como a apresentada a seguir:
α %
360º → 100
xº → fr
Para o exemplo da Tabela 1.8 para o sexo feminino e masculino, respectivamente, temos:
α % α %
360º → 100 360º → 100
xF º → 56, 67 xM º → 43,33
;
360 ⋅ 56, 67 360 ⋅ 43, 33
xF = = 204, 01º xM = = 155, 99º
100 100
ou poderíamos achar o ângulo do sexo masculino pela diferença: xM = 360º −204, 01º = 155,99º .
Daí temos os ângulos que formarão as áreas do gráfico de setor, como pode ser visto na
Figura 6.
Feminino
Masculino
43.33%
56.67%
Figura 6: Gráfico de Setor da distribuição de freqüência da variável sexo dos alunos da disciplina
1.5 - MEDIDAS DE POSIÇÃO E DISPERSÃO
1.5.1 - MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL
As medidas de posição ou de tendência central constituem uma forma mais sintética de

apresentar os resultados contidos nos dados observados, pois representam um valor central, em
27
torno dos quais os dados se concentram. As medidas de posição mais empregadas são a média, a
mediana e a moda.
1.5.1.1 – MÉDIA ARITMÉTICA
È a mais usada das três medidas de posição mencionadas, por ser a mais comum e
compreensível delas, bem como pela relativa simplicidade do seu cálculo, além de prestar-se bem
ao tratamento algébrico.
A média aritmética ou simplesmente média de um conjunto de n observações, x1 , x2 ,..., xn é
definida como:
n
∑x i
x= i =1
,
n
n
onde n é número de valores observados e ∑x
i =1
i = x1 + x2 + ... + xn (soma dos valores observados).
Notação: x para amostras e µ para populações.

Exemplo1: Dados os pesos de cinco recém-nascidos (kg) de certo hospital: 2,750; 3,100;
2,850; 3,330; 2,240. Temos que o peso médio dos recém-nascidos é:
n 5
∑ xi ∑x i
2, 750 + 3,100 + 2,850 + 3,330 + 2, 240 14, 270
x= i =1
= i =1
= = = 2,854 kg.
n 5 5 5
Interpretação: o peso médio dos cinco recém-nascidos foi de 2,854kg, isto quer dizer que
alguns recém-nascidos pesaram menos de 2,854kg, outros pesaram mais, mas em média, o peso dos
recém-nascidos foi de 2,854kg. Ou seja, 2,854kg é um valor em torno do qual os pesos dos cinco
recém-nascidos se concentra.
Para os dados da Tabela 1.1 podemos calcular a média das variáveis alturas e número de
irmãos, respectivamente:
n 30 n 30
∑ xi ∑ xi 1,87 + ... + 1, 78 ∑ xi ∑x i
5 + ... + 2
x= i =1
= =
i =1
= 1, 72m ; x = i =1
= i =1
= ≅ 2 irmãos
n 30 30 n 30 30
Propriedades da Média:
Seja o seguinte conjunto de observações: 2,0,5,3. A média desses valores é dada por
x = 2, 5 . O desvio (d) deles em relação à média é dado por:
28
d1 = x1 − x = 2 − 2,5 = −0,5
d 2 = x2 − x = 0 − 2,5 = −2,5
d3 = x3 − x = 5 − 2,5 = 2,5
d 4 = x4 − x = 3 − 2,5 = 0,5
n
i. Soma dos desvios de um conjunto de dados em relação a média é nula, ou seja, ∑d
i =1
i =0;
4
Exemplo 2: ∑d
i =1
i = d1 + d 2 + d3 + d 4 = −0,5 − 2,5 + 2,5 + 0,5 = 0 ;
Prova:
( )
n n n n
∑ di = ∑ xi − x = ∑ xi −∑ x =
i =1 i =1 i =1 i =1
n
n n ∑x i
∑ xi −nx = ∑ xi −n/
i =1 i =1
i =1
n/
=
n n
= ∑ xi −∑ xi = 0
i =1 i =1
n
Logo, ∑d
i =1
i −0
ii. Somando-se ou subtraindo-se uma constante (k) a todas as observações, a média também fica
*
somada ou subtraída deste valor, ou seja, xi* = xi ± k então x = x ± k .
Exemplo 3: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 0,5,3] de x = 2, 5 . Se
somarmos uma constante ( k = 3 ) tem-se a nova variável x* = [5,3,8, 6] com média

*
x = 5,5 = 2,5 + 3 = x + k .
Prova:
n
∑x i
x= i =1
fazendo xi* = ( xi ± k ) tem-se:
n
n n
∑ x*i ∑(x ± k) i
1⎛ n n
⎞
= ⎜ ∑ xi ± ∑ k ⎟ =
*
x = i =1
= i =1
n n n ⎝ i =1 i =1 ⎠
n
1⎛ n ⎞ ∑x i
/
nk
= ⎜ ∑ xi ± nk ⎟ = i =1
± = x±k
n ⎝ i =1 ⎠ n n/
*
Logo, x = x ± k
29
iii.Multiplicando ou dividindo todas as observações por uma constante (k) a média também fica
xi
multiplicada ou dividida por essa constante, ou seja, xi * = xi ⋅ k ou xi * = então
k
* * x
x = x ⋅ k ou x = .
k
Exemplo 4: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 0,5,3] de x = 2, 5 . Se
multiplicarmos por constante ( k = 3 ) tem-se a nova variável x* = [ 6, 0,15,9] com média

*
x = 7,5 = 2,5 ⋅ 3 = x ⋅ k .
Prova:
n
∑x i
x= i =1
fazendo xi* = ( xi ⋅ k ) tem-se:
n
n n n n
*
∑x *
i ∑(x ⋅k )
i k ∑ xi ∑x i
x = i =1
= i =1
= i =1
=k i =1
= kx
n n n n
*
Logo, x = k x
Para o caso de dividir por k, idem ao caso acima.

Características e importância da Média:
i. É muito influenciada pelos valores extremos da distribuição;
ii. Localiza-se, em geral, na classe de maior freqüência;
iii. Na sua determinação são considerados todos os dados da distribuição;
iv. A sua precisão está na razão direta do número de observações com que é calculada;
v. É única para um conjunto de dados;
vi. Não pode ser calculada para dados agrupados que apresentem limites indeterminados.
¾ Cálculo de Médias para Dados Agrupados:
1) Variável Discreta:
k
∑x f i ai
x= i =1
k
, onde f ai é a freqüência absoluta da classe i, xi é a classe i e
∑f
i =1
ai
∑f
i =1
ai = n.
Exemplo 5: Sejam os dados agrupados abaixo, calcule a média.
30
Tabela 1.7: Distribuição de freqüência do nº de irmãos dos alunos da disciplina MLI54 do curso de
Nº de Irmãos fa
0 3
1 12
2 6
3 3
4 1
5 2
6 3
TOTAL 30
k
∑x f i ai
0 ⋅ 3 + 1⋅12 + 2 ⋅ 6 + 3 ⋅ 3 + 4 ⋅1 + 5 ⋅ 2 + 6 ⋅ 3 65
x= i =1
= = ≅ 2irmãos
n 30 30
2) Variável Contínua:
∑ PM i ai f
x≅ i =1
k
, onde PM i é o ponto médio da i-ésima classe.
∑fi =1
ai
Exemplo 6: Sejam os dados agrupados abaixo, calcule a média.

Tabela 1.4: Distribuição de freqüência das alturas de 30 alunos da disciplina MLI54 do curso de
Alturas (m) fa PM
1,473├1,547 2 1,51
1,547├1,621 2 1,584
1,621├1,695 7 1,658
1,695├1,769 10 1,732
1,769├1,843 5 1,806
1,843├1,917 4 1,88
TOTAL 30
k
∑ PM i f ai
1,51⋅ 2 + 1,584 ⋅ 2 + 1, 658 ⋅ 7 + 1, 732 ⋅10 + 1,806 ⋅ 5 + 1,88 ⋅ 4
x≅ i =1
≅ ≅ 1, 722m
n 30
31
1.5.1.2 – MEDIANA
Para um conjunto de dados ordenados (Rol) a mediana é o valor que é precedido e seguido
pelo mesmo número de dados (observações). Isto é, 50% dos dados são superiores à mediana e 50%
são inferiores.
Cálculo da mediana:
i. Quando o número de dados (n) for ímpar, a mediana é dada por:
⎛ n +1⎞
Md = x⎛ n +1 ⎞ , onde ⎜ ⎟ é o índice da variável (x).
⎜
⎝ 2 ⎠
⎟ ⎝ 2 ⎠
Exemplo 1: Seja a variável X = [ 0,1, 2,3, 4] , calcule a mediana.
Sabe-se que n = 5 , ou seja, n é ímpar logo a mediana é dada por: Md = x⎛ n +1 ⎞ = x⎛ 5+1 ⎞ = x3 = 2 .

⎜ ⎟ ⎜ ⎟
⎝ 2 ⎠ ⎝ 2 ⎠
ii. Quando o número de dados (n) for par, a mediana é dada por:
x⎛ n ⎞ + x⎛ n + 2 ⎞
⎜ ⎟ ⎜ ⎟ ⎛n⎞ ⎛n+2⎞
Md = ⎝2⎠ ⎝ 2 ⎠
, onde ⎜ ⎟ e ⎜ ⎟ são índices da variável (x).
2 ⎝2⎠ ⎝ 2 ⎠
Exemplo 2: Seja a variável X = [ 0,1, 2,3] , calcule a mediana.
Sabe-se que n = 4 , ou seja, n é par logo a mediana é dada por:

x⎛ n ⎞ + x⎛ n + 2 ⎞ x⎛ 4 ⎞ + x⎛ 4+ 2 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ x( 2) + x(3) 1+ 2
Md = ⎝2⎠ ⎝ 2 ⎠
= ⎝ 2⎠ ⎝ 2 ⎠
= = = 1,5
2 2 2 2
¾ Cálculo da Mediana para Dados Agrupados:
1) Variável Discreta: usa-se o mesmo procedimento feito anteriormente para cálculos de mediana.
Exemplo 3: Seja a Tabela 1.7, dos dados agrupados dos nº de irmãos, calcule a mediana.
Sabe-se que n = 30 , ou seja, n é par logo a mediana é dada por:
x⎛ n ⎞ + x⎛ n + 2 ⎞ x⎛ 30 ⎞ + x⎛ 30+ 2 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ x(15) + x(16) 1+ 2
Md = ⎝2⎠ ⎝ 2 ⎠
= ⎝ 2 ⎠ ⎝ 2 ⎠
= = = 1,5 ,
2 2 2 2
ou seja, 50% do número de irmãos estão abaixo 1,5 e 50% estão acima.
⎡n ⎤
⎢ 2 − FaantMd ⎥
Md ≅ Linf Md +⎢ ⎥ ⋅ cMd
⎢ f aMd ⎥ ,
⎣ ⎦
onde: Linf Md é o limite inferior da classe mediana;
FaantMd é a freqüência acumulada da classe anterior à classe mediana;
32
f aMd é a freqüência absoluta da classe mediana;
cMd é a amplitude da classe mediana;
n é o número de observações ou dados.

Exemplo 4: Seja a Tabela 1.4, dos dados agrupados das alturas, calcule a mediana.
Temos que a classe mediana é aquela classe que contém o 15º valor, ou seja, a quarta classe é a
mediana. Logo a mediana é dada por:
Alturas (m) fa Fa
1,473├1,547 2 2
1,547├1,621 2 4
1,621├1,695 7 11
Classe Mediana
1,695├1,769 10 21
1,769├1,843 5 26
1,843├1,917 4 30
TOTAL 30
⎡n ⎤ ⎡ 30 ⎤
⎢ − FaantMd ⎥ ⎢ 2 − 11 ⎥
Md ≅ Linf Md +⎢2 ⎥ ⋅ cMd ≅ 1, 695 + ⎢ ⎥ ⋅ 0, 074 ≅ 1, 725m
⎢ f aMd ⎥ ⎢ 10 ⎥
⎣ ⎦ ⎣ ⎦
Interpretação: A mediana igual a 1,725m indica que 50% das alturas estão abaixo de 1,725m
e 50% estão acima de 1,725m.
Propriedades da Mediana:
i. Somando-se ou subtraindo-se uma constante (k) a todos as observações, a mediana também fica
somada ou subtraída deste valor, ou seja, xi* = xi ± k então Md * = Md ± k .
Exemplo 5: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 0,5,3] de Md = 2,5 . Se
somarmos uma constante ( k = 3 ) tem-se a nova variável x* = [5,3,8, 6] com mediana
Md * = 5,5 = 2,5 + 3 = Md + k .
ii. Multiplicando ou dividindo todas as observações por uma constante (k) a mediana também fica
xi
k
Md
Md * = Md ⋅ k ou Md * = .
k
33
Exemplo 6: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 0,5,3] de Md = 2,5 . Se
multiplicarmos por constante ( k = 3 ) tem-se a nova variável x* = [ 6, 0,15,9] com mediana
Md * = 7,5 = 2,5 ⋅ 3 = Md ⋅ k .
Características e Importância da Mediana:
i. Pode ser obtida em distribuições de freqüências que apresentem classes com limites indefinidos;
ii. É muito empregada em pesquisas nas quais os valores extremos têm pouca importância;
iii. Não é influenciada por valores extremos e sim pelo número de observações;
iv. É mais realista do que a média para representar certas variáveis com distribuições assimétricas,
como a renda dos brasileiros (existem valores discrepantes).
v. Não considera todas as observações no seu cálculo.
1.5.1.3 – MODA
A moda de um conjunto de dados é o valor que ocorre com maior freqüência, isto é, o valor
mais comum. Para um conjunto de dados a moda pode não ser única, bem como pode não existir.
Exemplo 1: 2, 3, 4, 5, 7, 7, 7,8, 9 a moda é Mo = 7 ;
1, 2, 3, 4, 7, 9,10,13, 20 não possui moda;
1, 2, 3, 4, 4,8,10,10,13 as modas são Mo = 4 e Mo = 10 , dizemos que esta série e bi
modal.
¾ Cálculo da Moda para Dados Agrupados:
1) Variável Discreta: usa-se o mesmo procedimento feito anteriormente para cálculos da moda, ou
seja, a classe que aparece com a maior freqüência absoluta.
Exemplo 2: Seja a Tabela 1.7, dos dados agrupados dos nº de irmãos, calcule a moda.
Observando a coluna da freqüência absoluta, vemos que a de maior freqüência é a segunda classe
com f a = 12 , logo a moda é dada por: Mo = 1 .
2) Variável Contínua: quando os dados estão agrupados, na forma de uma distribuição de
freqüências de uma variável contínua, a moda é o ponto do eixo das abscissas, correspondente à
ordenada máxima da distribuição. O processo para cálculo da moda em dados agrupados é o
geométrico, a partir do histograma de freqüências, conhecido como Método de Czuber. Este método
é baseado na influencia que as classes adjacentes exercem sobre a moda, deslocando-se no sentido
da classe de maior freqüência. Algebricamente obtém-se a moda da seguinte forma:
∆1
Mo ≅ Linf Mo + ⋅ cMo ,
∆1 + ∆ 2
onde ∆1 = f aMo − f aantesMo ;
34
∆ 2 = f aMo − f adepoisMo ;
LinfMo é o limite inferior da classe modal;
cMo é a amplitude da classe modal.

Exemplo 3: Seja a Tabela 1.4, dos dados agrupados das alturas, calcule a moda.
Temos que a classe modal é aquela classe que contém a maior freqüência, ou seja, a quarta classe é
a modal. Logo a moda é dada por:
Alturas (m) fa
1,473├1,547 2
1,547├1,621 2
1,621├1,695 7 Classe Modal
1,695├1,769 10
1,769├1,843 5
1,843├1,917 4
TOTAL 30
∆1 = f aMo − f aantesMo = 10 − 7 = 3 ∆ 2 = f aMo − f adepoisMo = 10 − 5 = 5

∆1 3
Mo ≅ Linf Mo + ⋅ cMo ≅ 1, 695 + ⋅ 0, 074 ≅ 1, 723m
∆1 + ∆ 2 3+5
Propriedades da Moda:
i. Somando-se ou subtraindo-se uma constante (k) a todos as observações, a moda também fica
somada ou subtraída deste valor, ou seja, xi* = xi ± k então Mo* = Mo ± k .
Exemplo 4: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 2, 0,5,3] de Mo = 2 . Se
somarmos uma constante ( k = 3 ) tem-se a nova variável x* = [5,5,3,8, 6] com moda
Mo* = 5 = 2 + 3 = Mo + k .
ii. Multiplicando ou dividindo todas as observações por uma constante (k) a moda também fica
xi
k
Mo
Mo* = Mo ⋅ k ou Mo* = .
k
35
Exemplo 5: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 2, 0,5,3] de Mo = 2 . Se
multiplicarmos por constante ( k = 3 ) tem-se a nova variável x* = [ 6, 6, 0,15,9] com moda
Mo* = 6 = 2 ⋅ 3 = Mo ⋅ k .
Características e Importância da Moda:
i. Não é afetada por valores extremos, a não ser que estes constituam a classe modal;
ii. É uma medida bastante utilizada em Estatística Econômica;
Posição relativa da média, mediana e moda:
Crespo (1999) cita que quando uma distribuição é simétrica, as três medidas coincidem.
Porém, a assimetria as torna diferentes de modo que quanto maior a assimetria maior será essa
diferença entre as três medidas. Assim, em uma distribuição em forma de sino, temos:
a) X = Md = Mo , no caso de curva simétrica;
b) X > Md > Mo , no caso de curva assimétrica positiva (assimétrica à direita);

c) X < Md < Mo , no caso de curva assimétrica negativa (assimétrica à esquerda);
(a) (b) (c)
Figura 7: Formas de distribuições em situações reais: (a) distribuição em forma de sino simétrica; (b) distribuição
assimétrica à direita; e (c) distribuição assimétrica à esquerda.
1.5.2 - MEDIDAS DE DISPERSÃO
A utilização de uma medida de posição para substituir um conjunto de dados é insuficiente

para sintetizar a informação nele contida, como pode ser observado a seguir:
A = {10,10,10,10,10,10,10}
B = {1,8,10,10,11,12,18}
C = {1, 2,10,10,10,13, 24}
Calculando a média, mediana e moda desses três conjuntos tem-se:
x Md Mo
A 10 10 10
B 10 10 10
C 10 10 10
36
Assim, verifica-se que os três conjuntos (A,B,C) apresentam médias, medianas e modas
iguais a 10 unidades, porém observando-os, percebe-se que eles são bem diferentes entre si, pois
enquanto no conjunto A os dados são todos iguais, os demais apresentam uma certa variação, sendo
que esta variação é maior no conjunto C. Deste modo, para sintetizarmos eficientemente a
informação de um conjunto de dados temos que associar à medida de posição utilizada, uma medida
de dispersão, que vai informar como estes dados se comportam em torno da medida de posição em
questão.
1.5.2.1 – AMPLITUDE TOTAL (A)
A amplitude total é a diferença entre o maior e o menor valor observado,
A = MVO − mvo
em que:
MVO é o maior valor observado, e mvo é o menor valor observado.
Para os conjuntos A, B e C tem-se:
AA = 10 − 10 = 0 unidades
AB = 18 − 1 = 17 unidades
AC = 24 − 1 = 23 unidades
Nota-se, então, que a amplitude do conjunto C é bem maior que nos demais. A amplitude é
uma medida fácil de ser calculada e é certamente a maneira mais natural e comumente utilizada
para descrever a variabilidade de um conjunto de dados. Porém sua interpretação depende do
número de observações, mas, no seu calculo não são consideradas todas as observações, pois só
utiliza os valores extremos.
1.5.2.2 – VARIÂNCIA E DESVIO PADRÃO

1.5.2.2.1 – VARIÂNCIA
Uma boa medida de dispersão deve basear-se em todos os dados, ser facilmente calculável e
compreensível, além de prestar-se bem ao tratamento algébrico. Uma medida com todas estas
características é obtida considerando-se os desvios de cada observação em relação a média,
chamados erros: eï = xi − x .
Para obter um único número que represente a dispersão dos dados, pensou-se inicialmente
em obter-se a média destes desvios, mas deve-se lembrar que a soma dos desvios de um conjunto de
dados em relação a sua média é nula. Então, optou-se por utilizar a soma dos quadrados dos
desvios, pois elevando-se cada desvio ao quadrado elimina-se o sinal negativo, que estava trazendo
complicações, e dividindo-se a soma dos quadrados dos desvios pelo número de observações
obtém-se a variância populacional que é uma medida quantitativa da dispersão de um conjunto de
dados entorno da sua média, além do fato, de esta soma de quadrados de desvios ser mínima.
37
∑ ( x − x)
N 2
i
SQD
V ( x) = σ 2 = = i =1
N N
Para os exemplos anteriores tem-se:
∑ ( x − x)
N 2
(10 − 10 ) + (10 − 10 ) + ... + (10 − 10 )

i 2 2 2
σ 2
A = i =1
= = 0 unidades 2
N 7
(1 − 10 ) + ( 8 − 10 ) + ... + (18 − 10 )
2 2 2
σ B=2
= 22 unidades 2
7
(1 − 10 ) + ( 2 − 10 ) + ... + ( 24 − 10 )
2 2 2
σ C=2
= 50 unidades 2
7
Observação: Quando estiver trabalhando com amostras, a variância é dada pela soma dos
quadrados dos desvios dividida por n − 1 (número de observações menos um) que é denominado
graus de liberdade. Assim, a variância amostral é dada por:
∑ ( x − x)
n 2
i
SQD
s2 = = i =1
n −1 n −1
Fórmulas computacionais (método prático) para o cálculo da variância são dadas por:
⎡ ⎛ N ⎞ ⎤
2
⎡ ⎛ n ⎞ ⎤
2
⎢ ∑ i ⎥
1 ⎢ N 2 ⎜⎝ i =1 ⎠⎟ ⎥
x ⎢ ∑ i ⎥
1 ⎢ n 2 ⎜⎝ i =1 ⎟⎠ ⎥
x
σ =
2
∑x i − N ⎥
N ⎢ i =1
e s =
2
∑x i − n ⎥
n − 1 ⎢ i =1
⎢ ⎥ ⎢ ⎥
⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥
Prova:
∑ (x )
n 2
−x
1
( )
i n
∑
2
s2 = i =1
= x 2 i − 2 xi x + x =
n −1 n − 1 i =1
1 ⎡ n 2 n
2⎤
= ⎢ ∑
n − 1 ⎣ i =1
xi − 2 x ∑ xi + n x ⎥ =
i =1 ⎦
⎡ n
⎛ n ⎞
2
⎤
⎢
1 ⎢ n 2 ∑ xi ⎜ ∑ xi ⎟ ⎥
x i + n ⎝ i =1 2 ⎠
n
⎥=
= ∑ xi − 2
n − 1 ⎢ i =1
i =1
n
∑
i =1 n ⎥
⎢ ⎥
⎣⎢ ⎦⎥
⎡ ⎛ n ⎞
2
⎛ n ⎞
2
⎤
⎢
1 ⎢ n 2 ⎜∑ i ⎟ x ⎜∑ i ⎟
x ⎥
⎝ i =1 ⎠ + ⎝ i =1 ⎠ ⎥=
= ∑ i
n − 1 ⎢ i =1
x − 2
n n ⎥
⎢ ⎥
⎢⎣ ⎦⎥
⎡ ⎛ n ⎞
2
⎤
1 ⎢
⎢ n ⎜ ∑ x i ⎟ ⎥
= ∑ x i 2 − ⎝ i =1 ⎠ ⎥.
n − 1 ⎢ i =1 n ⎥
⎢ ⎥
⎣⎢ ⎦⎥
38
¾ Cálculo da variância para dados agrupados:
1) Variável Discreta:
⎡ ⎛ k ⎞ ⎤
2
⎢
1 ⎢ k 2 ⎜ ∑ X i f ai ⎟ ⎥
s =
2
∑ X i f ai − ⎝ i =1 ⎠ ⎥,
⎢
n − 1 i =1 n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
onde X i é a classe i e f ai é a freqüência absoluta na classe i.

Exemplo 1 (FERREIRA, 2005): Na Tabela 1, abaixo, estão apresentados os dados referentes ao
número de ovos danificados da inspeção feita em uma amostra de 30 embalagens de uma dúzia
cada, de um carregamento para o mercado municipal de Lavras. Determine a variância.
Tabela 1: Número de ovos danificados em uma inspeção feita em 30 embalagens, de uma dúzia
cada, em um carregamento para o mercado municipal de Lavras proveniente de uma cidade
distante.
Número de ovos quebrados ( X i ) fai
0 13
1 9
2 3
3 3
4 1
5 1
Σ 30
Para calcular a variância temos:

⎡ ⎛ k ⎞ ⎤
2
⎢ k ⎜∑ i i ⎟ ⎥
X f
( 0 *13 + 1* 9 + + 5 * 1) ⎤
⎠ ⎥ = 1 ⎡⎢ 02 * 13 + 12 * 9 +
2
⎥ 30 − 1 ⎢(
⎝ i =1 + 5 * 1)
1 ⎢
s =
2
∑ i i
n − 1 ⎢ i =1
X 2
f − 2
− ⎥
n ⎣ 30 ⎥⎦
⎢ ⎥
⎣⎢ ⎦⎥
1 ⎡ ( 33 ) ⎤ 1
2
[89 − 36, 3] = 1, 8172 ( ovos danificados ) .

2
s =
2
⎢89 − ⎥=
29 ⎣⎢ 30 ⎦⎥ 29
39
⎡ ⎛ k ⎞ ⎤
2
⎢
1 ⎢ k ⎜∑ PM i ai ⎟ ⎥
f
⎝ i =1 ⎠ ⎥,
s2 =
⎢ ∑
n − 1 i =1
PM 2
f
i ai −
n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
onde PM i é o ponto médio da classe i e f ai é a freqüência absoluta na classe i.

Exemplo 2: Em uma fábrica de pneus automotivos a matéria prima para a fabricação consiste em
materiais derivados do petróleo, materiais sintéticos e borracha. As características dos diversos tipos
de pneus fabricados são determinadas pela qualidade do material empregado em sua fabricação, e,
neste sentido diversos testes são aplicados a estes produtos para a medição e verificação de sua
qualidade. Em uma sessão de testes foram realizadas 40 medições e o coeficiente de atrito medido
foi dividido em quatro classes cujos resultados estão mostrados na Tabela 2, abaixo. Determine a
variância.
Tabela 2: Distribuição de freqüências do coeficiente de atrito medido.

Classes de Coeficiente de Atrito Cinético fi Xi
0,15 ├ 0,35 5 0,25

0,35 ├ 0,55 10 0,45
0,55 ├ 0,75 8 0,65
0,75 ├ 0,95 17 0,85
TOTAL 40 -
⎡ ⎛ k ⎞ ⎤
2
⎢ ⎜ ∑ PM i f i ⎟ ⎥
∑ PM i fi − ⎝ i =1 n ⎠ ⎥⎥
1 ⎢ k
s =
2 2
n − 1 ⎢ i =1
⎢ ⎥
⎣⎢ ⎦⎥
1 ⎡ ( 0, 25 * 5 + + 0, 85 * 17 ) ⎤
2
s2 = ⎢( 0, 252 * 5 + + 0, 852 * 17 ) − ⎥
40 − 1 ⎢⎣ 40 ⎥⎦
1 ⎡ ( 25, 4 ) ⎤
2
s =
2
⎢18 − ⎥
39 ⎢⎣ 40 ⎥⎦
1
s2 = [18 − 16,129]
40
s 2 = 0, 0480
Propriedades da variância:
40
i. A variância de uma constante é nula.
V ( k ) = 0, k=constante
ii. A variância de uma soma ou diferença entre variáveis é a soma das variâncias das variáveis se
estas forem independentes.
V ( X ± Y ) = V ( X ) + V (Y ) se X e Y forem independentes
iii. Somando-se ou subtraindo-se uma constante (k) a todos dos dados a variância não se altera.
x* = x ± k ⇒ V ( x* ) = V ( x )
iv. Multiplicando-se todos os dados por uma constante (k), a variância fica multiplicada por k2.
x* = x ⋅ k ⇒ V ( x* ) = k 2 ⋅ V ( x )
1.5.2.2.2 – DESVIO PADRÃO

Um inconveniente da variância é que ela é expressa em unidades ao quadrado, ou seja, caso
esteja-se trabalhando com o peso corporal de indivíduos, tomados em kg, a variância destes pesos é
expresso em kg2, o que causa algumas dificuldades de interpretação. No intuito de resolver este
problema trabalha-se com o desvio padrão que é definido como a raiz quadrada positiva da
variância, o qual é expresso na mesma unidade em que os dados foram coletados.
⎡ ⎛ N ⎞ ⎤
2
⎢ ∑ Xi ⎥
1 ⎢ N 2 ⎜⎝ i =1 ⎟⎠ ⎥
Desvio Padrão Populacional: σ = σ 2 = ∑ i
N ⎢ i =1
X −
N ⎥
.
⎢ ⎥
⎢⎣ ⎥⎦
⎡ ⎛ n ⎞ ⎤
2
⎢ ∑ Xi ⎥
1 ⎢ n 2 ⎜⎝ i =1 ⎟⎠ ⎥
Desvio Padrão Amostral: s = s 2 = ∑ i
n − 1 ⎢ i =1
X −
n ⎥
.
⎢ ⎥
⎢⎣ ⎥⎦
Para dados agrupados em classe o estimador do desvio padrão é:
⎡ ⎛ k ⎞ ⎤
2
⎢
1 ⎢ k ⎜ ∑ f ai PM i ⎟ ⎥
s= ∑ f ai PM i − ⎝ i =1
2 ⎠ ⎥.
⎢
n − 1 i =1 n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
O estimador acima pode ser usado substituindo PM i , ponto médio da classe i, por Xi, valor
da categoria ou atributo da classe i, quando os dados são quantitativos discretos, isto é:
⎡ ⎛ k ⎞ ⎤
2
⎢
1 ⎢ k 2 ⎜ ∑ i ai ⎟ ⎥
X f
⎝ i =1 ⎠ ⎥.
s=
⎢ ∑
n − 1 i =1
X f
i ai −
n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
41
A variância e o desvio padrão são medidas que só podem assumir valores não negativos
(positivo e igual a zero) e quanto maior for, maior será a dispersão dos dados, ou seja, maior será a
variabilidade dos dados. Em outras palavras o desvio padrão e a variância medem a dispersão dos
dados em torno da média.
Exemplo 3: Para ilustrar cálculos de desvio padrão utilizou-se os dados dos exemplos 1 e 2 feitos
anteriormente. Tem-se que o desvio padrão dos coeficientes de atrito cinético do pneu automotivo e
o desvio padrão de ovos danificados são respectivamente:
s = s 2 = 0, 0480 = 0, 2190 e s = s 2 = 1, 8172 = 1, 3480 ovos danificados.
Propriedades do desvio padrão:

i. Somando-se ou subtraindo-se uma constante (k) a todos dos dados o desvio padrão não se altera.
x* = x ± k ⇒ s ( x* ) = s ( x )
ii. Multiplicando-se todos os dados por uma constante (k), o desvio padrão fica multiplicado por k.
x* = x ⋅ k ⇒ s ( x* ) = k ⋅ s ( x )
1.5.2.2.3 - COEFICIENTE DE VARIAÇÃO
O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas
medidas são dependentes da grandeza, escala ou unidade de medida empregada para mensurar os
dados. Conjuntos de dados com diferentes unidades de medidas não podem ter suas dispersões
comparadas pela variância ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos
possuem médias de diferentes magnitudes, suas variabilidades não podem ser comparadas por essas
medidas de dispersão apresentadas anteriormente. Para esta situação utiliza-se o coeficiente de
variação (CV), pois ele não depende da grandeza, da escala ou unidade de medida empregada para
mensurar os dados, ou seja, não possui unidade de medida (medida adimensional). Portanto, fica
evidente que se deve usar o CV quando se tem diferentes unidades de medida e/ou médias de
diferentes magnitudes.
σ
O coeficiente de variação populacional é: CV = 100% .
µ
S
O coeficiente de variação amostral é: CV = 100% .
X
Exemplo 4: A média e o desvio padrão do tempo de vida das lâmpadas de marca A e B são
respectivamente: X A = 4, 0 meses , S A = 0,8 meses , X B = 8,0 meses e S B = 1,2 meses . Qual das
lâmpadas possui maior uniformidade de tempo de vida?
Se, ao inspecionar as estatísticas, apresentadas você fosse induzido a responder que a
lâmpada (A) seria a que possui maior uniformidade e que a razão seria o menor desvio padrão
apresentado por ela (0,8 meses), você teria cometido um erro. O fundamento usado aqui para
comparar a variabilidade das lâmpadas não foi correto, uma vez que o desvio padrão é uma medida
42
de variabilidade absoluta. Embora as unidades não sejam diferentes, as médias das amostras o são.
O procedimento adequado seria o de estimar o CV para ambas as lâmpadas e compará-los. Logo o
coeficientes de variação são :
SA 0, 8 S 1, 2
CVA = x100 = x100 = 20% e CVB = B x100 = x100 = 15% .
XA 4, 0 XB 8, 0
É fácil verificar que a lâmpada (B) é a mais uniforme, pois possui um menor CV que a
lâmpada (A).
1.5.2.2.4 - ERRO PADRÃO DA MÉDIA

É uma medida da dispersão das médias amostrais em torno da media da população, ou seja,
é uma medida que fornece uma idéia da precisão com que a média foi estimada.
s
O erro padrão da média é: s X = , em que s é o desvio padrão amostral e n é o tamanho da
n
amostra.
2 - PROBABILIDADES
2.1 – INTRODUÇÃO
As origens da probabilidade remontam ao século XVI e suas aplicações se limitavam a jogos
de azar. Hoje, a utilização das probabilidades ultrapassou o âmbito dos jogos. O governo e as
empresas incorporaram a teoria das probabilidades em seus processos diários de deliberações.
O estudo das probabilidades indica que existe um elemento de acaso, ou de incerteza, quanto
à ocorrência ou não de um evento futuro. Assim, em muitos casos é impossível afirmar por
antecipação o que irá ocorrer, mas através de dados históricos e da experiência, é possível dizer o
quão provável é a ocorrência de um determinado evento. Exemplos dessa situação nos negócios e
no governo: a previsão da procura de um novo produto, o cálculo dos custos de produção, a compra
de apólices de seguro, o preparo de um orçamento, a avaliação do impacto da redução de impostos
sobre a inflação. Tudo isso contém algum elemento de acaso.
As probabilidades são úteis no desenvolvimento de estratégias. Por exemplo: se as chances
de lucro são boas, os investidores sentem-se mais inclinados a aplicar seu dinheiro; uma empresa
pode negociar seriamente com um sindicato, quando há forte ameaça de greve; ou pode investir em
novo equipamento, se há boa chance de recuperar o dinheiro.
As probabilidades são utilizadas para exprimir a chance de ocorrência de determinado
evento.
43
2.2 - PROBABILIDADES E ESPAÇO AMOSTRAL
Antes de entrarmos no contexto de probabilidade é necessário entendermos alguns conceitos
como: experimento, espaço amostral e eventos.
Denominamos de experimento aleatório a todo fenômeno ou ação que geralmente pode ser
repetido indefinidamente sob mesmas condições e cujo resultado é aleatório.
Exemplo: Quando lançamos uma moeda, uma única vez, estamos fazendo um experimento cujo
resultado será cara ou coroa.
Denominamos de espaço amostral (Ω) ao conjunto de todos os possíveis resultados de um
determinado experimento.
Exemplos: No lançamento de um dado, o espaço amostral é: Ω = {1, 2, 3, 4, 5, 6}. No lançamento
de uma moeda, o espaço amostral é: Ω = {cara, coroa}. Na inspeção de uma fábrica, contando o
número de acidentes: Ω = {0, 1, 2, 3, ...}.
Denominamos de evento a todo subconjunto do espaço amostral.
Exemplos: Obter um número par na face superior do dado: A = {2, 4, 6}. Obter um número menor
que 7 no dado: B = {1, 2, 3, 4, 5, 6} = Ω (evento certo). Obter um número negativo no dado:
C = { }= Φ (evento impossível)
Outras definições importantes:
i) Evento certo → Ω (caracterizado pelo espaço amostral)
ii) Evento impossível→ Φ.
iii) Processo aleatório: Qualquer fenômeno que gere um resultado incerto ou casual.
Exemplo: lançamento de moeda, lançamento de dado, sexo do primeiro filho de um casal, peso de
pessoas, etc.
Características
1) Pode ser repetido indefinidamente sob as mesmas condições.
2) Não se conhece a priori (inicialmente) o resultado, mas todos os resultados possíveis podem
ser descritos.
Dentro deste contexto, Probabilidade pode ser definida como o número de eventos (pontos ou
elementos) favoráveis divididos pelo número de elementos do espaço amostral:
X
P= .
n
Em que X é o número de eventos favoráveis, e n número de eventos do espaço amostral.
44
OPERAÇÕES
A seguir apresentaremos o Diagrama de Venn para ilustrarmos algumas propriedades:
Figura1: Diagrama de Venn.

1) União ( ∪ ): A ∪ B = B ∪ A
2) Intersecção ( ∩ ): A ∩ B = B ∩ A
3) Complementar: AC = Ω − A (lê-se: complementar de A ou não A).
Observação Importante: Se A e B são conjuntos mutuamente exclusivos (disjuntos) então,

A∩ B = Φ .
45
Exercícios
1) Um casal pretende ter 3 filhos.
a) Determine o espaço amostral referente ao sexo dos filhos.
Ω = {(M,M,M); (M,M,F); (M,F,M); (F,M,M); (F,F,M); (F,M,F); (M,F,F); (F,F,F)}
b) Qual o número de elementos (eventos) do espaço amostral?
O espaço amostral possui oito elementos (eventos).
c) Qual a probabilidade do casal ter exatamente 3 filhas?
Evento: X = número de filhas.
1
P ( X = 3) = = 0,125
8
d) Qual a probabilidade do casal ter exatamente dois filhos?
Evento: Y = número de filhos.
3
P (Y = 2 ) = = 0,375
8
e) Qual a probabilidade do casal ter apenas um filho?
Evento: Y = número de filhos.
3
P (Y = 1) = = 0,375
8
2) Jogando-se dois dados, calcular a probabilidade da soma dos pontos ser superior a nove.
Evento: X = soma dos pontos
⎛ 11 21 31 41 51 61 ⎞
⎜ ⎟
⎜12 22 32 42 52 62 ⎟
⎜ 13 23 33 43 53 63 ⎟ 6 1
Ω=⎜ ⎟ ⇒ P ( X > 9) = = = 0,1667
⎜14 24 34 44 54 64 ⎟ 36 6
⎜ 15 25 35 45 55 65 ⎟
⎜⎜ ⎟
⎝16 26 36 46 56 66 ⎟⎠
Dessa forma podemos sintetizar a definição de Probabilidade de ocorrer um evento A

( P( A) ) como a razão entre o número de possíveis resultados favoráveis ao evento A (n(A)) e todos
os possíveis resultados do experimento (n(Ω)), ou seja, número de elementos do espaço amostral.
n( A)
P( A) = .
n(Ω)
46
2.3 - AXIOMAS DE PROBABILIDADE
Axioma 1: A probabilidade de um certo evento ocorrer corresponde a um número não negativo.
P ( A) ≥ 0 .
Axioma 2: A probabilidade de ocorrer todo o espaço amostral é igual a um.

P ( Ω ) = 1.
2.4 - TEOREMAS
Teorema 1: A probabilidade de um evento impossível ocorrer é P ( Φ ) = 0 .
Demonstração:
Seja Ω o espaço amostral. Sabe-se que Ω = Ω + Φ , então aplicando a função probabilidade de
ambos os lados têm-se:
Ω =Ω+Φ
P (Ω) = P (Ω) + P (Φ )
1 = 1+ P (Φ )
P (Φ) = 0
Teorema 2 (Probabilidade do complemento): Seja Ω o espaço amostral. Então, a probabilidade de

um evento A não ocorrer é:
P ( AC ) = 1 − P ( A ) .
Demonstração:
Sabe-se que AC = Ω − A , então aplicando a função probabilidade de ambos os lados têm-se:
AC = Ω − A
P ( AC ) = P ( Ω ) − P ( A )
P ( AC ) = 1 − P ( A )
Teorema 3 (Teorema da soma): Se A e B são dois eventos do espaço amostral Ω a probabilidade

que ocorra A ou B é:
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .
Corolário: Se dois eventos A e B são mutuamente exclusivos (disjuntos), isto é, A ∩ B = Φ , então:

P ( A ∪ B ) = P ( A) + P ( B )
Baseado no Axioma 1 e no Corolário acima segue-se que 0 ≤ P ( A) ≤ 1 .
47
Exercícios
1) Um lote é formado por 11 peças boas, 3 com defeitos leves, e 2 com defeitos graves. Considere
como evento A defeito leve, evento B defeito grave, e evento C nenhum defeito.
Uma peça é retirada ao acaso desse lote. Qual a probabilidade que essa peça:
a) seja boa?
b) tenha defeito leve?
c) tenha defeito grave?
d) seja defeituosa?
Duas peças são retiradas ao acaso com reposição desse lote. Qual a probabilidade de:
e) ambas serem boas?
f) pelo menos uma boa?
Duas peças são retiradas ao acaso sem reposição desse lote. Qual a probabilidade de:
g) ambas serem boas?
2) Se um dado é lançado duas vezes. Determine qual a probabilidade de ocorrer maior do que 3 no
primeiro lance e menor do que 5 no segundo lance.
3) Em uma bolsa tem-se duas moedas de 1 centavo, três de 10 centavos e quatro de 1 real. Duas
moedas são retiradas aleatoriamente da bolsa, determine as seguintes possibilidades (sem
reposição).
a) ambas moedas serem de 1 centavo.
b) uma moeda de 1 centavo e a outra moeda de 1 real.
c) ambas do mesmo valor.
d) pelo menos uma de 10 centavos.
e) Nenhuma moeda de 10 centavos.
2.5 - PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA

2.5.1 - PROBABILIDADE CONDICIONAL
A probabilidade condicional do evento A em relação ao evento B é denotada por:
P ( A ∩ B)
P ( A | B) = , P ( B) > 0 .
P ( B)
A probabilidade condicional do evento B em relação ao evento A é denotada por:

P ( A ∩ B)
P ( B | A) = , P ( A) > 0 .
P ( A)
48
Exemplo 1: Qual a probabilidade no lançamento de um dado, a face superior do dado ser maior ou
igual a 4 sabendo que ela é par?
No lançamento de um dado, o espaço amostral é Ω = {1, 2,3, 4,5, 6} . Vamos definir o evento A como
sendo face superior par, e o evento B face superior maior ou igual a 4. Então,
A = {2, 4, 6} e B = {4,5, 6} .
P ( B | A) = ?
P ( A ∩ B)
P ( B | A) = , P ( A) > 0
P ( A)
Agora, vamos determinar P( A), P ( B ) e P ( A ∩ B ) :
P( A) =
n( A) 3 1
= = ⎫
n(Ω) 6 2 ⎪
⎪
n( B) 3 1 ⎪ P ( A ∩ B) 1 3 1 . 2 2
P(B) = = = ⎬ ⇒ P ( B | A) = = = = .
n(Ω) 6 2
⎪ P ( A) 12 3 1 3
n( A ∩ B) 2 1 ⎪
P ( A ∩ B) = = = ⎪
n(Ω) 6 3⎭
Portanto, a probabilidade de que a face superior do dado seja maior ou igual a 4 sabendo que ela é
par é de 2/3.
Exemplo 2: Em uma urna tem-se 40 bolas, sendo10 pretas e 30 vermelhas (20 com manchas
brancas e 10 sem manchas). Qual a probabilidade de se ter uma bola vermelha com mancha branca,
sabendo que o evento bola vermelha já ocorreu.
Vamos definir o evento VB como sendo bola vermelha com mancha branca, e o evento V bola
vermelha.
49
P (VB | V ) = ?
P (VB ∩ V )
P (VB | V ) = , P (V ) > 0
P (V )
Agora, vamos determinar P(VB ), P (V ) e P (VB ∩ V ) :
n (V ) 30 3 ⎫
P (V ) = = = ⎪⎪
n(Ω) 40 4 P (VB ∩ V ) 1 2 1 . 4 2
⎬ ⇒ P (VB | V ) = P V = = = .
n (VB ∩ V ) 20 1 ⎪ ( ) 34 2 3 3
P (VB ∩ V ) = = =
n(Ω) 40 2 ⎪⎭
Portanto, a probabilidade de se ter uma bola vermelha com mancha branca, dado que o evento bola
vermelha já ocorreu é de 2/3.
2.5.2 - INDEPENDÊNCIA DE EVENTOS

Dois eventos A e B são independentes se P ( A ∩ B ) = P ( A) P ( B ) .
Exemplo 1: Considere o lançamento de uma moeda (não viciada) três vezes. Cujo evento A
corresponde ao primeiro lançamento da moeda sair cara e o evento B corresponde ao segundo
lançamento da moeda sair cara. Esses dois eventos são independentes?
O espaço amostral é: Ω = {ccc, ccr , crc, rcc, crr , rcr , rrc, rrr} . Os eventos favoráveis aos eventos A e
B são A = {ccc, ccr , crc, crr} e B = {ccc, ccr , rcc, rcr} . Conseqüente, A ∩ B = {ccc, ccr} .
Agora, vamos verificar se este dois eventos são independentes.

n( A) 4 1 ⎫
P( A) = = =
n(Ω) 8 2 ⎪⎪ 1 1 1 n( A ∩ B) 2 1
⎬ ⇒ P ( A ) P ( B ) = 2 . 2 = 4 e P( A ∩ B) = n(Ω) = 8 = 4
n(B) 4 1 ⎪
P( B) = = =
n(Ω) 8 2 ⎪⎭
∴ P ( A ∩ B) = P ( A ) P ( B ) = 1
4
Portanto, os eventos A e B são independentes.
Exemplo 2: Distribuição de alunos matriculados em um determinado instituto de Matemática. Com
base na Tabela abaixo, determine:
Sexo
Curso Total
Masculino Feminino
Mat. Pura 70 40 110
Mat. Aplicada 15 15 30
Estatística 10 20 30
Computação 20 10 30
Total 115 85 200
50
a) Probabilidade do sexo masculino.
b) Probabilidade do sexo feminino.
c) Probabilidade matemática pura.
d) Probabilidade matemática aplicada.
e) Probabilidade computação
f) Probabilidade matemática pura e sexo feminino.
g) Probabilidade matemática pura e sexo masculino.
h) Probabilidade matemática pura dado que ele é do sexo feminino.
i) Probabilidade matemática pura dado que ele é do sexo masculino.
j) Verifique se sexo feminino e matemática pura são eventos independentes.
k) Verifique se sexo feminino e matemática aplicada são eventos independentes.
l) Verifique se sexo feminino e estatística são eventos independentes.
m) Verifique se sexo feminino e computação são eventos independentes.
n) Verifique se sexo masculino e matemática pura são eventos independentes.
o) Verifique se sexo masculino e matemática aplicada são eventos independentes.
p) Verifique se sexo masculino e estatística são eventos independentes.
q) Verifique se sexo masculino e computação são eventos independentes.
2.5.3 - TEOREMA DA PROBABILIDADE TOTAL

Suponha que um espaço amostral Ω de um experimento seja dividido em três eventos R1, R2 e
R3, mutuamente exclusivos e considere um evento B qualquer, como mostra a figura abaixo:
R1 Ω
B R3
R2
Então P ( B) = P( B R1 ) ⋅ P ( R1 ) + P( B R 2 ) ⋅ P( R 2 ) + P( B R3 ) ⋅ P ( R3 )
O Teorema da Probabilidade Total pode ser generalizado para n eventos:
P ( B) = P( B R1 ) ⋅ P( R1 ) + P( B R2 ) ⋅ P( R2 ) + + P( B Rn ) ⋅ P( Rn )
51
Exemplos:
1) Um piloto de fórmula 1 tem 50% de probabilidade de vencer determinada corrida, quando esta
se realiza sob chuva. Caso não chova durante a corrida, sua probabilidade de vitória é de 25%. Se o
serviço de meteorologia estimar em 30% a probabilidade de que chova durante a corrida, qual é a
probabilidade deste piloto vencer esta corrida?
CH NCH
Ω
30% V 70%
50%
25%
P(V ) = P(V CH ) ⋅ P(CH ) + P(V NCH ) ⋅ P( NCH ) = 0,5 ⋅ 0,3 + 0, 25 ⋅ 0, 7 = 0,325 = 32,5%
2.6 - TEOREMA DE BAYES

É um importante teorema que expressa o conceito de uma probabilidade condicional em função de
outras probabilidades condicionais e marginais.
Teorema de Bayes: Se B1, B2,..., Bk são conjuntos mutuamente exclusivos cuja união resulta em Ω ,
então:
P ( Bi ) P ( A | Bi )
P ( Bi | A ) = k
.
∑ P(B )P( A| B )
i =1
i i
Exemplo: Considere cinco urnas cada uma com seis bolas. Duas dessas urnas (tipo C1), tem três
bolas brancas, duas outras urnas (tipo C2), tem duas bolas brancas e a última (tipo C3) tem seis bolas
brancas. Escolhe-se uma urna ao acaso e retira-se uma bola desta. Qual a probabilidade de que a
urna escolhida seja do tipo C3, sabendo-se que a bola retirada á branca?
Resolução:
O evento bola branca será denotado por B, e o que se quer determinar é: P ( C3 | B ) = ?
Sabe-se que existe 5 urnas (2 do tipo C1, 2 do tipo C2 e 1 do tipo C3).
Pelo teorema de bayes temos:
52
P ( Ci ) .P ( B | Ci )
P ( Ci | B ) = k
∑ P ( C ) .P ( B | C )
i =1
i i
P ( C3 ) .P ( B | C3 )
P ( C3 | B ) = 3
∑ P ( C ) .P ( B | C )
i =1
i i
P ( C3 ) .P ( B | C3 )
P ( C3 | B ) = =?
P ( C1 ) .P ( B | C1 ) + P ( C2 ) .P ( B | C2 ) + P ( C3 ) .P ( B | C3 )
A probabilidade de selecionar aleatoriamente a urna do tipo C1 é:

n ( C1 ) n º de urnas C1 2
P ( C1 ) = = = .
n ( Ωu ) n º total deurnas 5
Analogamente, a probabilidade de selecionar aleatoriamente a urna do tipo C2 e a urna do tipo C3 é:

n ( C2 ) n º de urnas C2 2 n ( C3 ) n º de urnas C3 1
P ( C2 ) = = = e P ( C3 ) = = = .
n ( Ωu ) n º total deurnas 5 n ( Ωu ) n º total deurnas 5
Agora, determinaremos as seguintes probabilidades condicionais:

6 1
P ( B | C1 ) = Prob. de sair bola branca dado que a urna é do tipo C1 = =
12 2
4 1
P ( B | C2 ) = Prob. de sair bola branca dado que a urna é do tipo C2 = =
12 3
6
P ( B | C3 ) = Prob. de sair bola branca dado que a urna é do tipo C3 = =1.
6
Então:
P ( C3 ) .P ( B | C3 )
P ( C3 | B ) =
P ( C1 ) .P ( B | C1 ) + P ( C2 ) .P ( B | C2 ) + P ( C3 ) .P ( B | C3 )
1 1 1 1
.1 3
5 1 15 3
P ( C3 | B ) = = 5 = 5 = 5 = . = = 0,375.
2 1 2 1 1 2 2 6 2 8 5 8 8
. + . + .1 + +
5 2 5 3 5 5 15 15 15 15
Exercício
Uma empresa produz circuitos integrados em três fábricas. A fábrica 1 produz 40% dos circuitos
enquanto que as fábricas 2 e 3, produzem 30% cada. A probabilidade de que um circuito produzido
por estas fábricas não funcione é de 0,01; 0,04 e 0,03 respectivamente. Qual a probabilidade de se
pegar um circuito ao acaso da produção total da companhia, sendo ele da fábrica 1 e sabendo que
ele não funciona.?
Solução:
53
P ( F1 ) .P ( def | F1 )
P ( F1 | def ) =
P ( F1 ) .P ( def | F1 ) + P ( F2 ) .P ( def | F2 ) + P ( F3 ) .P ( def | F3 )
0, 40 * 0,01
P ( F1 | def ) = = 0,16
0, 40 * 0,01 + 0,30 * 0,04 + 0,30 * 0,03
3 - VARIÁVEL ALEATÓRIA UNIDIMENSIONAL

Para entendermos este conceito de variável aleatória (v.a.), imagine um lançamento de um
dado. Tente dizer qual será o número resultante. É claro que, antes do lançamento, não podemos
dizer com exatidão qual é o número que ocorrerá, pois o resultado depende do fator sorte e, por
isso, é uma variável aleatória.
Variável Aleatória (v.a.) é uma variável cujos valores são determinados pelos resultados de
experiências aleatórias, isto é, uma função que associa valores reais aos eventos de um espaço
amostral.
Uma v.a. pode ser entendida como uma variável quantitativa, ou seja, uma v.a. pode ser
classificada como discreta ou contínua. As variáveis aleatórias dizem-se discretas, quando
assumem um número determinado de valores contáveis (valores oriundos de um processo de
contagem), ou contínuas, quando assumem qualquer valor num dado intervalo (valores oriundos de
um processo de mensuração).
3.1 - VARIÁVEL ALEATÓRIA DISCRETA

O conceito de v.a. discreta será introduzido por meio de exemplos.
Exemplo 1: Se um experimento consiste no lançamento de dois dados, a função: X = “soma das
faces dos dois dados”, define uma variável aleatória discreta, que pode assumir onze valores
possíveis: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ou 12.
Exemplo 2: Se um experimento consiste em verificar o número de circuitos defeituosos num
sistema formado por quatro circuitos, a função: Y = “número de circuitos defeituosos”, define uma
variável aleatória discreta, que pode assumir onze valores possíveis: 0, 1, 2, 3 ou 4.
Com base nos exemplos acima fica claro que a variável aleatória discreta está vinculada a
valores de uma contagem que resultam a números inteiros.
3.2 - VARIÁVEL ALEATÓRIA CONTÍNUA

A variável aleatória é dita contínua se corresponder a dados de medida, pertencentes aos .
O conceito de v.a. contínua será mais bem entendido por meio do exemplo a seguir.
54
Exemplo 3: Se um experimento consiste em verificar as alturas de 30 universitários, a função: X =
“Altura de um universitário”, define uma variável aleatória contínua, que pode assumir quaisquer
valores entre 130 e 220 cm.
Exemplo 4: Se um experimento consiste em verificar (mensurar) os pesos dos 30 universitários, a
função: Y = “Peso de um universitário”, define uma variável aleatória contínua, que pode assumir
quaisquer valores entre 60 e 130 kg.
Exemplo 5: Se um experimento consiste em verificar a durabilidade de um lote de 50 pneus, a
função: Z: “tempo de vida útil de um pneu”, define uma v.a. contínua, que pode assumir quaisquer
valores entre 50.000 e 70.000 km.
Com base nos exemplos apresentados, a v.a. contínua está vinculada a dados oriundos de
uma mensuração que resultam a um intervalo de números reais.
4 - DISTRIBUIÇÃO DE PROBABILIDADES
Se uma variável aleatória Y pode assumir os valores y1 , y2 ,… , yn com probabilidades
n
respectivamente P [Y = y1 ] , P [Y = y2 ] ,…, P [Y = yn ] , tais que ∑ P [Y = y ] = 1 ,
i tem-se definida uma
i =1
distribuição de probabilidade.
No tocante a variáveis aleatórias discretas, a cada realização y corresponde uma
probabilidade P[Y = y]. Isso define uma função, chamada função de probabilidade, a qual deve
obedecer a algumas condições, quais sejam:
i) P [Y = yi ] ≥ 0, para todo i ;
∞
ii) ∑ P [Y = y ] = 1
i =1
i
em que o índice i é empregado para identificar os diferentes valores que a variável pode assumir.
Essa função é denominada por inúmeros autores como função distribuição de probabilidade da
variável aleatória discreta Y.
∑ P [Y = y ] = P [a < y ≤ b]
b
Nota: i
yi > a
Exemplo 1: Y: número de circuitos defeituosos num sistema formado por quatro circuitos tem-se:
Y 0 1 2 3 4
5
P[Y = y] 1/8 2/8 2/8 2/8 1/8 ∑ P [Y = y ] = 1

i =1
i
Observa-se que a distribuição de probabilidade acima é uma função de probabilidade pois, as

condições (i) e (ii) foram satisfeitas, isto é, todas as probabilidades são maiores que zero e, a soma
das probabilidades é igual a um.
55
Se, a variável Y for contínua, somente haverá interesse na probabilidade de que a variável
assuma valores dentro de determinados intervalos, sendo sua distribuição de probabilidades
caracterizada por uma função densidade de probabilidade (f.d.p.), f(y), a qual deverá possuir as
seguintes propriedades:
i) f ( y ) ≥ 0, ∀y ∈ ;
∞
ii) ∫ f ( y ) dy = 1 .
−∞
Nota: P [ a ≤ y ≤ b ] = P [ a < y ≤ b] = P [ a ≤ y < b ] = P [ a < y < b ] = ∫ f ( y ) dy, ∀a e b .

b
Exemplo 2: Para o caso das alturas dos universitários têm-se:
1 ⎡ ( x − µ )2 ⎤
f ( x) = exp ⎢ − ⎥,
σ 2π ⎢⎣ 2σ 2 ⎥⎦
que é a distribuição normal.

4.1 - FUNÇÃO REPARTIÇÃO OU FUNÇÃO DISTRIBUIÇÃO ACUMULADA
A função de distribuição acumulada nos fornece a probabilidade de que a variável em
questão esteja abaixo de um determinado valor. Em geral, ela é representada por F ( y ) ou φ ( y ) .
Assim,
F ( y ) = P [Y ≤ y ] .
i) Para uma variável aleatória discreta a função distribuição acumulada será definida como:
k
F ( yk ) = P [Y ≤ yk ] = P [Y = y1 ] + P [Y = y2 ] + + P [Y = yk ] = ∑ P [Y = yi ] .
i =1
ii) Para uma variável aleatória contínua a função distribuição acumulada será definida como:
∫
yk
F ( yk ) = P [Y ≤ yk ] = f ( y ) dy .
−∞
Exemplo 3: Numa plantação de café, cujas folhas possuem um número Y variado de lesões
provocadas pela praga bicho mineiro (Perileucoptera coffeella), obedecendo as seguintes
proporções:
Nº lesões 0 1 2 3 4 5
proporção 0,32 0,28 0,20 0,12 0,06 0,02
Essas proporções podem ser interpretadas como probabilidades no sentido de que, se uma folha for
tomada à plantação ao acaso, existe uma probabilidade, por exemplo, de 28% de que ela contenha
apenas uma lesão. A probabilidade de que ela tenha 3 lesões, ou menos, é dada por:
56
F (Y = 3) = F ( 3) = P [Y ≤ 3] = P [Y = 0 ou Y = 1 ou Y = 2 ou Y = 3]
F (Y = 3) = F ( 3) = P [Y ≤ 3] = P [Y = 0] + P [Y = 1] + P [Y = 2] + P [Y = 3]
F (Y = 3) = F ( 3) = P [Y ≤ 3] = 0,32 + 0, 28 + 0, 20 + 0,12 = 0,92.
Exemplo 4: Seja a função densidade de probabilidade:

⎧0, x < 0
⎪
f ( x ) = ⎨kx, 0 ≤ x ≤ 2 .
⎪0, x > 2
⎩
Encontre F(1).
Antes de encontrar F(1) é necessário determinar o valor de k. Sabe-se que:
∞ 0 0 2 ∞ 0
f ( x ) dx = 1 ⇔ ∫ f ( x ) dx + ∫ f ( x ) f ( x ) dx = 1
kx
∫ −∞ −∞ 0
dx + ∫
2
2 2 2
x = 1 ⇔ ( 22 − 02 ) = 1
2 2 x k 2 k
∫ 0
kx dx = 1 ⇔ k ∫ x dx = 1 ⇔ k
0 2
=1⇔
2 0 2
0
k
4 = 1 ⇔ 2k = 1 ⇔ k = 1 2
2
Dessa forma, a função densidade de probabilidade fica:
⎧0, x < 0
⎪1
⎪
f ( x ) = ⎨ x, 0 ≤ x ≤ 2 .
⎪2
⎪⎩0, x > 2
Agora, temos condição de determinar F(1). Por definição, tem-se que:
∫ ∫ ∫ ∫ 2 dx = 4 x
1 0 1 1
1 1
F (1) = P [ X ≤ 1] =
x
f ( x ) dx = f ( x ) dx + f ( x)
0 x/2
2 1
dx = = = 0,25 .
−∞ −∞ 0 0 0 4
Propriedades da Função Distribuição Acumulada ou Função Repartição
i) 0 ≤ F ( y ) ≤ 1 ;
ii) se y1 < y2 , então, F ( y1 ) ≤ F ( y2 ) ;
iii) F ( −∞ ) = lim F ( y ) = 0 ;
y →−∞
iv) F ( +∞ ) = lim F ( y ) = 1 , corresponde ao evento certo;

y →+∞
v) P [ y1 < Y ≤ y2 ] = F ( y2 ) − F ( y1 ) ;
vi) P [ y1 ≤ Y ≤ y2 ] = F ( y2 ) − F ( y1 ) + P [Y = y1 ] ;
vii) P [ y1 < Y < y2 ] = F ( y2 ) − F ( y1 ) − P [Y = y2 ] .
Gráfico da Função Distribuição Acumulada ou Função Repartição

Seja X a variável aleatória discreta com a seguinte função de probabilidade:
57
X 0 1 2 3 4
P[X = x] 0,1 0,3 0,4 0,1 0,1 1,0
Então, sua função distribuição acumulada é:
X 0 1 2 3 4
F(x) 0,1 0,4 0,8 0,9 1,0
Portanto, o gráfico da função distribuição acumulada da variável aleatória X é:
Figura 1 – Gráfico da função distribuição acumulada da variável aleatória X.
Seja X a variável aleatória contínua, então o gráfico genérico da função distribuição acumulada
terá o seguinte comportamento:
Figura 2 – Gráfico genérico da função distribuição acumulada de uma v.a. contínua X.
Exemplo 5: Plote o gráfico da seguinte função distribuição acumulada:

⎧0, x ≤ 0
⎪
F ( x ) = ⎨ x2 , 0 < x < 1
⎪0, x ≥ 1
⎩
58
Figura 3 – Gráfico da função distribuição acumulada de uma v.a. contínua X.
Observação: Pode-se encontrar a função densidade de probabilidade, se existir, a partir de F(x),

pois:
d
F ( x) = f ( x) ,
dx
nos pontos onde F(x) é derivável.
4.2 - PARÂMETROS CARACTERÍSTICOS DE UMA DISTRIBUIÇÃO DE

PROBABILIDADE
4.2.1 - ESPERANÇA MATEMÁTICA
Muitas vezes estamos interessados em estimar parâmetros característicos de uma
distribuição de probabilidade de uma variável aleatória qualquer. Um primeiro parâmetro é a
Esperança Matemática. A esperança matemática é uma média aritmética ponderada ou um valor
esperado de uma variável aleatória. Na prática, a esperança pode ser entendida como um “centro de
distribuição de probabilidade”, isto é, a média de uma distribuição de probabilidade.
A Esperança Matemática é definida da seguinte forma:
i) Se X é uma variável aleatória discreta, então a esperança matemática é:
n
E ( X ) = µ = ∑ X i P [ X = xi ]
i =1
ii) Se X é uma variável aleatória contínua, então a esperança matemática é:

∞
E ( X ) = µ = ∫ x f ( x ) dx .
−∞
Exemplo 6: Uma seguradora paga R$ 30.000,00 em caso de acidente de carro e cobra uma taxa de
R$ 1.000,00. Sabe-se que a probabilidade de que um carro sofra acidente é de 3%. Quanto espera a
seguradora ganhar por carro segurado?
Suponhamos que entre 100 carros segurados, 97 dão lucro de R$ 1.000,00 e 3 dão prejuízo de R$
29.000,00 (R$30.000,00 – R$1.000,00)
Lucro total = 97 x 1.000,00 – 3 x 29.000,00 = R$ 10.000,00
Lucro médio por carro = 10.000,00/100 = R$ 1.00,00
Se chamarmos de X: lucro por carro e o lucro médio por carro de E(X), teremos:
97 x1.000,00 − 3x 29.000,00
E(X ) =
100
97 x1.000,00 3x 29.000,00
E(X ) = −
100 100
E ( X ) = 0,97 x1.000,00 − 0,3x 29.000,00
E ( X ) = R$100,00
59
Outra forma de calcular o lucro médio da seguradora seria:
Define-se a variável aleatória X como “Lucro” por carro. Os dois resultados possíveis da variável
aleatória X são: 1.000,00 e -29.000,00 (R$1.000,00 – R$30.000,00). Dado que a probabilidade de
que um carro sofrer acidente é de 3% (0,03), então, a probabilidade de um carro não sofrer acidente
seria 97% (0,97). Dessa forma, a distribuição de probabilidade é:
X 1.000,00 -29.000,00 ∑
P[X = xi] 0,97 0,03 1,0
Portanto, o lucro médio por carro é:
n
E ( X ) = ∑ X i P [ X = xi ] = 1.000 x 0,97 + ( −29.000,00 ) x 0,3 = R$100,00 .
i =1
Propriedades da Esperança Matemática

As propriedades da esperança são:
1) E ( k ) = k , sendo k uma constante.
Demonstração:
1
n n
E ( k ) = ∑ kP [ X = xi ] = k ∑ P [ X = xi ] = k x1 = k .
i =1 i =1
2) E ( kX ) = kE ( X ) , sendo k uma constante.
Demonstração:
n n
E ( kX ) = ∑ kxi P [ X = xi ] = k ∑ xi P [ X = xi ] = kE ( X ) .
i =1 i =1
3) E ( aX ± b ) = aE ( X ) ± b , sendo a e b constantes.
Demonstração:
E ( aX ± b ) = E ( aX ) ± E ( b ) = aE ( X ) ± b .
4) E ( X − µ x ) = 0
Demonstração:
E ( X − µx ) = E ( X ) − E ( µx ) = µ − µ = 0 .
5) E ( X ± Y ) = E ( X ) ± E (Y )
Essa propriedade será demonstrada posteriormente, quando abordarmos o assunto de variáveis

aleatórias bidimensionais.
⎛ n
⎞ n
6) E ⎜ ∑ X i ⎟ = ∑ E ( X i )
⎝ i =1 ⎠ i =1
Nota: Para demonstração das propriedades acima foi utilizada a definição de esperança matemática
de uma variável aleatória discreta. Analogamente, é possível demonstrar as propriedades da
esperança por meio da definição de esperança de uma variável aleatória contínua.
60
4.2.3 - VARIÂNCIA
Já comentamos anteriormente que a esperança matemática nos fornece a média de uma
distribuição de probabilidade. Porém, não temos informação a respeito do grau de dispersão das
probabilidades em torno da média. Portanto, a medida que usaremos para estimar o grau de
dispersão (ou de concentração) de probabilidade em torno da média será a variância, que é dada
por:
V ( X ) = σ 2 = E ⎡⎣ X − E ( X ) ⎤⎦ = E [ X − µ ] ;
2 2
Aplicando a definição de esperança matemática temos que a variância pode ser dada por:
V ( X ) = ∑ ( xi − µ ) P ( X = x ) , se a variável aleatória for discreta e
2
+∞
V (X )= ∫ (x − µ ) f ( x ) dx , se a variável aleatória for contínua.
2
i
−∞
Pela dificuldade dos cálculos acima podemos calcular a variância de uma forma mais
prática:
V ( X ) = E ⎡⎣ X − E ( X ) ⎤⎦ = E ⎡ X 2 − 2 XE ( X ) + ( E ( X ) ) ⎤ =
2 2
⎣ ⎦
= E ( X 2 ) − 2E ( X ) E ( X ) + ⎡ E ( X ) ⎤ =
2
⎣ ⎦
= E ( X 2 ) − ( E ( X ))
2
Onde, E ( X 2 ) = ∑ X 2i P [ X = xi ] para discreta e E ( X 2 ) = ∫−∞ x 2 f ( x ) dx para contínua.

n ∞
i =1
5 - DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE
5.1 – DISTRIBUIÇÃO DE BERNOULLI

Seja um experimento onde só podem ocorrer dois possíveis resultados, “sucesso” e “fracasso”,
como por exemplo:
• Um jogador de basquete converter ou não um arremesso;
• Um indivíduo portador de certa doença morrer ou não;
• Uma peça produzida por uma Cia. ser perfeita ou defeituosa;
• O sexo do primeiro filho de um casal ser masculino ou feminino;
• Um consumidor que entra numa loja comprar ou não um produto.
Associando-se uma variável aleatória X aos possíveis resultados do experimento, de forma que:
X = 1 se o resultado for "sucesso" e
X = 0 se o resultado for "fracasso".
61
Então, a variável aleatória X, assim definida tem distribuição Bernoulli, com p sendo a
probabilidade do ocorrer “sucesso”, e q = (1 - p) a probabilidade de ocorrer “fracasso”.
A função de probabilidade da Distribuição de Bernoulli é dada por:
⎧ p para x = 1;
⎪
P ( X = x) = ⎨q = 1 − p para x = 0;
⎪0 para outros valores de x.
⎩
Parâmetros característicos:
E ( X ) = µ = p;
V ( X ) = σ 2 = pq.
5.2 - DISTRIBUIÇÃO BINOMIAL

Quando iniciamos o estudo de probabilidade, resolvemos problemas do tipo:
Dois times de futebol, A e B, jogam entre si 4 vezes. Se a probabilidade do time A ganhar um
jogo é de 1/3 qual a probabilidade de o time A ganhar 2 jogos.
Solução: Então a probabilidade do time A não ganhar um jogo é 2/3. Se os times jogam 4 vezes
e o time A ganha 2 delas, colocando as possibilidades de ordem nesses resultados, temos:
A, A, não-A, não-A ou A, não-A, não-A, A ou A, não-A, A, não-A ou não-A, não-A, A, A
Logo, calculando as probabilidades usando as regras do “e” e do “ou”, a probabilidade de A
ganhar 2 jogos é:
1 1 2 2 1 2 2 1 1 2 1 2 2 2 1 1 2 1 2 1 2 1 1 2
p= ⋅ ⋅ ⋅ + ⋅ ⋅ ⋅ + ⋅ ⋅ ⋅ + ⋅ ⋅ ⋅ + . . . .+ . . .
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
1 1 2 2
p = 6⋅ ⋅ ⋅ ⋅
3 3 3 3
2 2
⎛1⎞ ⎛2⎞
p = 6 ⋅ ⎜ ⎟ ⋅ ⎜ ⎟ = C 4,2 ( p ) 2 .( q ) 4 − 2
⎝3⎠ ⎝ 3⎠
p = 29, 62%
Uma grande quantidade de problemas que envolvem cálculo de probabilidades apresenta

exatamente as mesmas características do problema descrito, o que leva à construção de um modelo
estatístico teórico, para resolvê-los, que é a distribuição binomial.
A utilização da distribuição binomial se dará quando os experimentos apresentarem as
seguintes condições:
a) A variável aleatória deve ser discreta.
b) O experimento deve ser repetido, nas mesmas condições, um número finito de vezes (n).
c) As provas repetidas devem ser independentes, isto é, o resultado de uma não deve afetar os
resultados das sucessivas.
d) Em cada prova deve aparecer um dos dois resultados possíveis: sucesso e fracasso.
62
e) No decorrer do experimento, a probabilidade p do sucesso e a probabilidade q (q = 1 - p) de
fracasso devem se manter constantes.
Resolveremos problemas do tipo: determinar a probabilidade de se obterem k sucessos em n
tentativas. Para isso, temos a função de probabilidade da Distribuição de Binomial que é dada por:
P ( X = k ) = Cn , k p k q n − k
onde:
P(X = k) é a probabilidade de que o evento se realize k vezes em n provas;
p é a probabilidade de um sucesso;
n!
q é a probabilidade de fracasso (q = 1 - p) e Cn ,k = ;
k !(n − k )!
E ( X ) = µ = np;
V ( X ) = σ 2 = npq.
Há muitos exemplos de variáveis aleatórias que podem ser classificadas como distribuições
binomiais: respostas a um teste do tipo V ou F, respostas do tipo sim ou não a um questionário,
produtos manufaturados classificados como perfeitos ou defeituosos, alunos de uma escola
vacinados ou não vacinados, exames do tipo passa ou não passa, candidatos contratados ou não a
um emprego, chamadas telefônicas locais ou interurbanas.
Observe ainda que a distribuição Binomial nada mais é que a distribuição de Bernoulli
repetida n vezes ou em uma quantidade finita de vezes.
Exemplo 1: Uma empresa produz 10% de peças defeituosas. As peças são embaladas em caixas que
contêm 12 peças. Calcule a probabilidade de um cliente comprar uma caixa contendo:
a) nenhuma peça defeituosa
b) uma peça defeituosa.
Solução:
⎛12 ⎞ 12!
a) 0 sucessos: P( X = 0) = ⎜⎜ ⎟⎟(0,1) (0,9 ) =
0 12
0,2824 = 0,2824 = 28,24%
⎝0⎠ 0!⋅12!
⎛12 ⎞ 12! 12 ⋅11!

b) 1 sucesso: P( X = 1) = ⎜⎜ ⎟⎟(0,1) (0,9) =
1 11
(0,1)(0,3138) = (0,03138) = 0,3766 = 37,66%
⎝1⎠ 1!⋅11! 11!
63
Exemplo 2: A probabilidade de que um presumível cliente aleatoriamente escolhido faça uma
compra é 0,20. Se um vendedor visita seis presumíveis clientes, a probabilidade de que ele fará
exatamente quatro vendas é:
⎛ 6⎞
P( X = 4) = ⎜⎜ ⎟⎟(0,20) (0,80) =
4 2 6!
(0,20)4 (0,80)2 = 6 ⋅ 5 ⋅ 4 ⋅ 3 ⋅ 2 (0,0016)(0,64) = 0,01536 = 1,53%
⎝ 4⎠ 4!⋅2! 4 ⋅3⋅ 2 ⋅ 2
Como a fórmula binomial envolve um número considerável de cálculos, são freqüentemente
utilizadas tabelas de probabilidades da binomial.
Exemplo 3: Se a probabilidade de que um possível cliente realize uma compra é 0,20, então a
probabilidade de que um vendedor que visita 15 clientes presumíveis realizar menos do que 3
vendas é:
P ( X < 3) = P ( X ≤ 2) = P( X = 0) + P ( X = 1) + P ( X = 2)
P ( X < 3) = 0,0352 + 0,1319 + 0,2309
P ( X < 3) = 0,3980 ≅ 40%
Exemplo 4: Uma firma de pedidos pelo correio envia uma carta circular que terá uma taxa de
respostas de 10%. Suponha que 20 cartas circulares são endereçadas a uma nova área geográfica
como um teste de mercado. Supondo que na nova área é aplicável uma taxa de respostas de 10%,
determinar as probabilidades de:
a) ninguém responder
b) exatamente duas pessoas responderem
c) a maioria das pessoas responder
d) menos do que 20% das pessoas responder.
Solução:
a) P ( X = 0) = 0,1216 = 12,16%
b) P ( X = 2) = 0,2852 = 28,52%
c) P ( X ≥ 11) = P ( X = 11) + P ( X = 12) + = 0,0000 ≅ 0%
P ( X < 20% de20cartas) = P ( X < 4) = P( X = 0) + P ( X = 1) + P ( X = 2) + P ( X = 3)
d)
P ( X < 20% de20cartas ) = 0,1216 + 0, 2702 + 0, 2852 + 0,1901 = 0,8671 = 86, 71%
5.3 - DISTRIBUIÇÃO DE POISSON

A distribuição de Poisson é empregada em experimentos nos quais não se esta interessado
no número de sucessos obtidos em n tentativas, como ocorre no caso da distribuição Binomial, mas
sim no número de sucessos ocorridos durante um intervalo contínuo, que pode ser um intervalo de
64
tempo, espaço, etc. Como por exemplo: chegada de chamadas em uma central telefônica, número de
suicídios em uma cidade durante um ano, número de acidentes automobilísticos ocorridos numa
rodovia em um mês, número de defeitos encontrados em um rolo de arame ovalado de 500m.
Note que nos exemplos acima, não há como determinar a probabilidade de ocorrência de um
sucesso, mas sim a freqüência média de sua ocorrência, como por exemplo dois suicídios por ano, a
qual será denominada λ. Em um experimento com estas características, e assumindo que os
sucessos sejam independentes, a variável aleatória X = número de sucessos em um intervalo , terá
uma distribuição Poisson, com parâmetro λ.
Para determinar a probabilidade de um dado número de sucessos em um processo de
Poisson, basta conhecer o número médio de sucessos para uma específica dimensão de tempo ou
espaço de interesse. Este número médio geralmente é representado por λ (letra grega ‘lambda’). A
função de probabilidade da Distribuição de Poisson é:
λk ⋅ e − λ
P( X = k | λ ) =
k!
Aqui e é a constante 2,7183, base dos logaritmos neperianos.
A distribuição de Poisson tem muitas aplicações em problemas de filas de espera; controle
de estoques; controle de qualidade; programação de equipamentos, etc.
E ( X ) = V ( X ) = λ.
Exemplo 1: Um departamento de conserto de máquinas recebe uma média de 5 chamadas por hora.
a) A probabilidade de que, em uma hora selecionada aleatoriamente, sejam recebidas exatamente
três chamadas é:
Obs.: Poderíamos também utilizar a tabela de probabilidades de Poisson.
53 ⋅ e −5 125 ⋅ 0,00674
P( X = 3 | λ = 5) =
= = 0,1404
3! 6
b) A probabilidade de que menos de três chamadas sejam recebidas durante uma hora
P( X < 3 | λ = 5) = P( X ≤ 2) = P( X = 0) + P( X = 1) + P( X = 2)
P( X < 3 | λ = 5) = 0,0067 + 0,0337 + 0,0842 = 0,1246
aleatoriamente escolhida é:
Como estamos supondo que o processo de Poisson é constante, a média do processo será
sempre proporcional à extensão do tempo ou espaço. Assim, o valor de λ deve ser correspondente
ao intervalo considerado.
65
Exemplo 2: Na média, 12 pessoas por hora consultam um especialista em decoração de uma
fábrica. A probabilidade de que três ou mais pessoas consultarão o especialista durante um período
de dez minutos é determinada como se segue:
λ → tempo
12 → 60 min
x → 10 min
12 ⋅10
x= =2=λ
60
P( X ≥ 3 | λ = 2) = P( X = 3 | λ = 2) + P( X = 4 | λ = 2) + P( X = 5 | λ = 2) +
P( X ≥ 3 | λ = 2) = 0,1804 + 0,0902 + 0,0361 + 0,0120 + 0,0034 + 0,0009 + 0,0002 = 0,3232
Exemplo 3: Cada rolo de lâminas de aço de 500 metros contém, em média, duas imperfeições. Tal
imperfeição prejudica o uso, no produto final, daquele segmento da lâmina. Qual a probabilidade de
que um segmento específico de 100 metros não contenha nenhuma imperfeição?
Solução: Média por rolo de 500 metros = 2
λ = média por rolo de 100 metros = 2/5 = 0,4
Da tabela de Poisson, temos P ( X = 0 | λ = 0,4) = 0,6703
Quando o número n de observações numa distribuição binomial for muito grande, os

cálculos se tornam extremamente cansativos. Além disso, não estão disponíveis geralmente
probabilidades tabeladas para valores muito pequenos de p. Por isso, a distribuição de Poisson será
apropriada como uma aproximação da binomial, desde que n seja muito grande ( n ≥ 50 ) e p seja
muito pequena ( p ≤ 0,10 ). Substituindo a média da Poisson pela média da Binomial, como segue,
λ = E ( X ) = np .
MODELOS TEÓRICOS DE PROBABILIDADE – VARIÁVEIS CONTÍNUAS –

DISTRIBUIÇÃO NORMAL
• Distribuições de Probabilidades: sua natureza

Considere os seguintes problemas:
Problema 1: Um vendedor recebe 20 endereços para visitar a cada dia. Um morador de cada
endereço manifestou, por correspondência, interesse de receber o vendedor e discutir o produto. A
experiência do vendedor é que é feita uma venda em um de cada 10 domicílios. Qual é a
probabilidade de que sejam feitas cinco vendas em determinado dia?
66
Problema 2: Determinado tipo de copiadora pára em média uma vez a cada 2000 cópias. Qual é
a probabilidade de que ocorram mais de duas paradas quando se fazem 2000 cópias?
Problema 3: A vida média de uma marca e de um tipo de bateria de um toca-fitas é 20 horas,
com um desvio-padrão de 0,5 hora. Qual a probabilidade de que essa bateria não dure mais do que
21 horas?
No problema 1, a variável aleatória de interesse é o nº de vendas por dia, que é uma variável
discreta, pois assume valores finitos, que se pode contar. O experimento é visitar, a cada dia, 20
domicílios tentando vender o produto. Existe uma probabilidade associada a cada valor possível da
variável aleatória e o interesse é calcular a probabilidade de que a variável aleatória X assuma o
valor 5, isto é, P(X = 5). Uma distribuição de probabilidades mostra como as probabilidades são
distribuídas sobre todos os valores possíveis de uma variável aleatória. Nesse problema 1, a
distribuição adequada será a distribuição binomial, que já foi estudada. No problema 2, o nº de
paradas a cada 2000 cópias também é uma variável aleatória discreta e, nesse caso, a distribuição
adequada será a de Poisson, também já estudada. No caso do problema 3, a vida de uma bateria será
uma variável aleatória contínua, pois pode assumir qualquer valor dentro de um dado intervalo. As
distribuições de probabilidades que envolvem variáveis aleatórias contínuas não podem ser
desenhadas como são as discretas, porque as probabilidades são sempre infinitesimais. Nesse caso,
as probabilidades são representadas pela área sob a curva no intervalo de valores da variável
aleatória.
Cada distribuição de probabilidades aplica-se a determinadas situações. Primeiro, precisamos
saber que o problema exige a aplicação de uma distribuição de probabilidades. Segundo,
precisamos determinar qual das distribuições de probabilidades aplica-se ao problema em estudo (já
vimos Binomial e de Poisson, veremos agora a distribuição normal). Finalmente, precisamos saber
como calcular probabilidades usando os parâmetros de cada distribuição.
• Distribuição Normal
Podemos então definir: Para uma variável aleatória contínua X, a função f(X) é chamada de
função densidade de probabilidade (f.d.p.), ou distribuição de probabilidades, se:
1. f (X ) ≥ 0
2. A área da região compreendida sob o gráfico da função e o eixo x é igual a 1.
Observamos que P (a ≤ X ≤ b) , que corresponde à área delimitada pela função f(x), pelo eixo x
e pelas retas X = a e X = b.
67
1. Definição
Uma variável aleatória contínua X tem distribuição normal de probabilidade se a sua f.d.p. é dada
( X − µ )2
1 −
f (X ) = ⋅e 2σ 2
2πσ
por:
onde π é a constante 3,1416; e é a constante 2,7183; µ é a média da distribuição e σ é o desvio

padrão da distribuição.
O gráfico de f(x) é:
Distribution Normal
Normal; Mean=12; StDev=2
0,20
0,15
Density
0,10
0,05
0,00
5,0 7,5 10,0 12,5 15,0 17,5
X
As principais características dessa função são:

a) o ponto de máximo de f(x) é o ponto X=µ
b) a curva é simétrica com relação a µ
c) valores da variável aleatória X mais próximos da média µ ocorrem com maior freqüência.
d) valores da variável aleatória X simétricos em relação à média µ ocorrem com a mesma
freqüência.
e) A região definida pelo gráfico da função e pelo eixo x tem área unitária.
Uma curva que apresenta essas características é chamada de curva de Gauss, e ela está
associada à f.d.p. definida acima.
A distribuição de probabilidade normal é importante na inferência estatística por três motivos:
1. As medidas produzidas em diversos processos aleatórios seguem essa distribuição.
2. Probabilidades normais podem ser usadas como aproximações de outras distribuições de
probabilidades, como a binomial e a de Poisson.
3. As distribuições de estatísticas da amostra tais como a média e a proporção freqüentemente
seguem a distribuição normal independentemente da distribuição da população.
68
Se quisermos calcular a probabilidade indicada na figura abaixo, região rachurada?
Distribution Plot
Normal; Mean=12; StDev=2
0,20
0,15
Density
0,10
0,05
0,00
12 16
X
Para Solucionar esse problema, uma particular distribuição normal z com média µ = 0 e
desvio padrão σ = 1 foi utilizada. Uma tabela contendo os valores positivos de z e a área
compreendida sob a curva entre 0 e z foi construída.
Esta distribuição foi escolhida pelo fato de apresentar os parâmetros mais simples. Qualquer
outra distribuição normal X com média µ e desvio padrão σ (representada por N ( µ , σ ) ) pode ser
x − µ
z =
σ
transformada, para efeito do cálculo de áreas (ou seja, de probabilidades), na distribuição normal
padrão z ( N (0,1) ), através da mudança de variável:
Conhecendo-se a área especificada na tabela, qualquer outro tipo de área poderá ser
calculado usando-se a simetria da curva.
2. Uso da tabela
Exemplo 1: Calcule a probabilidade da variável normal padrão z assumir:
a) valores entre 0 e 1
b) valores maiores que 1
c) o valor 1
d) valores entre –1,34 e 2,16
e) valores entre –2,25 e –1,27
f) valores entre 1,55 e 3,67
Neste primeiro exemplo, fornecemos os valores de z para que fossem calculadas as probabilidades
através das áreas correspondentes. Porém, existem aplicações em que devemos determinar valores
de z a partir de conhecimento das probabilidades assumidas por estes valores.
69
EXEMPLOS DE APLICAÇÃO
Voltemos então ao problema 3 do começo deste módulo:
Problema 3: A vida média de uma marca e de um tipo de bateria de um toca-fitas é 20 horas,
com um desvio-padrão de 0,5 hora. Qual a probabilidade de que essa bateria não dure mais do que
21 horas?
Exemplo 1: Sabe-se que a altura dos alunos de uma determinada escola segue uma distribuição
normal com média 1,75 m e desvio padrão 0,15 m. Calcular a probabilidade de que um aluno
aleatoriamente escolhido tenha altura:
a) maior que 1,85 m.
b) entre 1,50m e 1,85m.
Exemplo 2: A duração de um certo tipo de pneu, em quilômetros rodados, é uma variável normal
com duração média de 60000 km e desvio padrão de 10000 km.
a) Qual a probabilidade de um pneu aleatoriamente escolhido durar mais de 75000 Km?
b) Qual a probabilidade de um pneu aleatoriamente escolhido durar entre 50000 e 70000 Km?
c) Qual a probabilidade de um pneu aleatoriamente escolhido durar entre 63000 e 70000 Km?
d) Qual a probabilidade de um pneu aleatoriamente escolhido durar exatamente 70000 Km?
e) O fabricante deseja fixar prazo de garantia, em quilômetros, de tal modo que, se a duração do
pneu for inferior à garantia, o pneu será trocado. De quantos quilômetros deve ser este prazo, para
que somente 1% dos pneus sejam trocados?
Exemplo 3: Um fabricante de baterias sabe, por experiência passada, que as baterias de sua
fabricação têm vida média de 600 dias e desvio padrão de 100 dias, sendo que a duração tem
aproximadamente distribuição normal. Oferece uma garantia de 312 dias, isto é, troca as baterias
que apresentarem falhas nesse período. Fabrica 10.000 baterias mensalmente. Quantas deverá trocar
pelo uso da garantia, mensalmente?
Exemplo 4: Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com
média de 150.000 km e desvio padrão de 5.000 km. Qual a probabilidade de que um carro,
escolhido ao acaso, dos fabricados por essa firma, tenha um motor que dure:
a) menos de 170.000 km?
b) Entre 140.000 km e 165.000 km?
c) Se a fábrica substitui o motor que apresenta duração inferior à garantia, qual deve ser esta
garantia para que a porcentagem de motores substituídos seja inferior a 0,2%?
70

APOSTILAESTATISTICA

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

APOSTILAESTATISTICA

Uploaded by

Copyright:

Available Formats

Estatística

1.1 - A NATUREZA DA ESTATÍSTICA

• COMO SURGIU A ESTATÍSTICA?????

• Conceitos de Estatística e porque estudar Estatística

O método estatístico, diante da impossibilidade de manter as causas constantes,

Para se fazer um estudo estatístico, deve-se dividi-lo em fases:

a) A FIGURA A SEGUIR ILUSTRA O PRINCIPIO FUNDAMENTAL

2. Escreva em notação sigma (somatório):

3. Calcule para os dados abraixo:

4. Sejam os conjuntos de dados: X = {4,3, 0,1} , Y = {3, 0,1,3} . Obtenha os

• Classificação das Séries Estatísticas

1.Séries históricas (ou temporais, cronológicas, marchas): descrevem os valores da variável em

Exemplo 2: Quando quisermos analisar a estrutura de um fato, deveremos ratear as porcentagens

3)Em um magazine, as vendas de certos produtos se processam da seguinte maneira:

6)Classifique as séries abaixo:

b) Despesas com viagens dos departamentos das 3 filiais da Empresa

1.4 - ORGANIZAÇÃO E APRESENTAÇÃO DOS DADOS

As observações é o material básico com que o pesquisador trabalha. Estas observações

Exemplos: DISCRETAS CONTÍNUAS

Os dados coletados no campo e trazidos para o laboratório (escritório), na forma em que se

A mais simples organização numérica é a ordenação dos dados em ordem crescente ou

A = 1,88m − 1,51m = 0,37 m

1.4.1.3 VARIÁVEIS QUANTITATIVAS CONTÍNUAS

CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA:

iii) Critério de Sturges: k = 1 + 3, 3.log( n) .

Lsup é o limite superior da classe.

Assim, o limite inferior da primeira classe será:

5º Passo) Montar a distribuição de freqüência:

1,473├1,547 2 0,066 6,6 1,51

em que: f a é a freqüência absoluta e indica o número de observações pertencentes a cada classe;

POLÍGONO DE FREQÜÊNCIA: é um gráfico de análise no quais as freqüências das classes são

Figura 2: Polígono de freqüência das alturas de 30 alunos da disciplina MLI54 do curso de

Figura 7: Distribuição simétrica.

Figura 11: Distribuição jota invertido.

Figura 8: Distribuição assimétrica à

Figura 12: Distribuição bimodal.

Figura 9: Distribuição assimétrica à direita.

Figura 13: Distribuição multimodal.

Figura 4: Gráfico de Barras da distribuição de freqüência do nº de irmãos dos alunos da disciplina

GRÁFICO DE BARRAS PARA DISTRIBUIÇÕES DE FREQÜÊNCIAS ACUMULADAS: é

Figura 5: Gráfico de Barras da distribuição de freqüência acumulada do nº de irmãos dos alunos da

1.4.1.3 VARIÁVEIS QUALITATIVAS

Do mesmo modo que as variáveis quantitativas discretas as qualitativas também não

1.5 - MEDIDAS DE POSIÇÃO E DISPERSÃO

1.5.1 - MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL

As medidas de posição ou de tendência central constituem uma forma mais sintética de

1.5.1.1 – MÉDIA ARITMÉTICA

Notação: x para amostras e µ para populações.

Exemplo 3: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 0,5,3] de x = 2, 5 . Se

somarmos uma constante ( k = 3 ) tem-se a nova variável x* = [5,3,8, 6] com média

multiplicarmos por constante ( k = 3 ) tem-se a nova variável x* = [ 6, 0,15,9] com média

Para o caso de dividir por k, idem ao caso acima.

Exemplo 5: Sejam os dados agrupados abaixo, calcule a média.

Exemplo 6: Sejam os dados agrupados abaixo, calcule a média.

Exemplo 1: Seja a variável X = [ 0,1, 2,3, 4] , calcule a mediana.

Sabe-se que n = 5 , ou seja, n é ímpar logo a mediana é dada por: Md = x⎛ n +1 ⎞ = x⎛ 5+1 ⎞ = x3 = 2 .

Sabe-se que n = 4 , ou seja, n é par logo a mediana é dada por:

FaantMd é a freqüência acumulada da classe anterior à classe mediana;

cMd é a amplitude da classe mediana;

n é o número de observações ou dados.

Exemplo 5: Dados os valores observados igual a x = [ x1 , x2 , x3 , x4 ] = [ 2, 0,5,3] de Md = 2,5 . Se

somarmos uma constante ( k = 3 ) tem-se a nova variável x* = [5,3,8, 6] com mediana

multiplicarmos por constante ( k = 3 ) tem-se a nova variável x* = [ 6, 0,15,9] com mediana

onde ∆1 = f aMo − f aantesMo ;