You are on page 1of 67

Anlise Exploratria de Dados utilizando o Microsoft Excel

1
INE 7001 - Procedimentos de Anlise Exploratria de Dados utilizando o Excel 2007
Professor Marcelo Menezes Reis


ndice Analtico
1. Filtragem................................................................................................................................................................. 4
1.1 Filtragem para identificao de clulas vazias .................................................................................................. 4
1.2 Filtragem para correo de erros em variveis qualitativas ............................................................................... 7
1.3 - Filtragem para variveis quantitativas .............................................................................................................. 8
2. Classificao dos Dados .........................................................................................................................................10
3. Recodificao dos dados .........................................................................................................................................12
3.1 Recodificao de Variveis Qualitativas .........................................................................................................12
3.2 Recodificao de Variveis Quantitativas .......................................................................................................14
4. Anlise de dados de variveis qualitativas com tabelas dinmicas .........................................................................19
4.1 Uma varivel qualitativa ................................................................................................................................19
4.2 Duas variveis qualitativas .............................................................................................................................23
4.3 Trs Variveis Qualitativas ............................................................................................................................28
4.4 Grficos para variveis qualitativas ................................................................................................................31
4.4.1 Grficos para uma varivel qualitativa .....................................................................................................31
4.4.2 Grficos para duas variveis qualitativas ..................................................................................................38
5. Anlise de dados de variveis quantitativas .............................................................................................................41
5.1 - Procedimentos para variveis quantitativas discretas tabelas dinmicas .........................................................41
5.1.1 Distribuio de freqncia acumulada ......................................................................................................44
5.1.2 Histograma para variveis quantitativas discretas .....................................................................................45
5.2 - Procedimentos para variveis quantitativas contnuas ......................................................................................49
5.2.1 Histograma para variveis quantitativas contnuas ....................................................................................54
5.3 Medidas de sntese .........................................................................................................................................55
5.3.1 Medidas de sntese para uma varivel quantitativa ...................................................................................55
5.3.2 Medidas de sntese para uma varivel quantitativa em funo de uma qualitativa por classificao .........60
5.3.3 Medidas de sntese para uma varivel quantitativa em funo de uma qualitativa por tabela dinmica ....62


ndice de Figuras
Figura 1 - Arquivo Celular01.xlsx ............................................................................................................................... 4
Figura 2 - Seleo de varivel para filtragem ............................................................................................................... 5
Figura 3 - Varivel escolhida para filtragem pelo menu Dados ..................................................................................... 5
Figura 4 - Varivel escolhida para filtragem pelo menu Incio ...................................................................................... 5
Figura 5 - Valores da varivel Tipo - obtidos por Filtragem .......................................................................................... 6
Figura 6 -Valores desmarcados Figura 7 - Opo "Vazias" selecionada Figura 8 - Varivel Tipo - Vazias ........... 6
Figura 9 - Filtro de texto: personalizao ..................................................................................................................... 7
Figura 10 Erros de Ps-pago Figura 11 - Clulas com erros em Ps-pago Figura 12 - Clulas corrigidas .......... 7
Figura 13 - Valores da varivel Tipo - sem erros .......................................................................................................... 8
Figura 14 - Filtragem da varivel Anos ........................................................................................................................ 8
Figura 15 - Filtro de Renda - Menores Valores Figura 16 - Filtro de Renda - Maiores valores ............................. 9
Figura 17 - Dados sobre o cliente com a maior renda ................................................................................................... 9
Figura 18 - Filtragem de Renda - dados para 1,005 salrios mnimos ............................................................................ 9
Figura 19 - Classificao pelo menu Dados .................................................................................................................10
Figura 20 - Classificao pelo menu Incio..................................................................................................................10
Figura 21 - Opes de classificao ............................................................................................................................10
Figura 22 - Opo de classificao apenas por Tipo ....................................................................................................11
Figura 23 - Arquivo de dados classificado em funo da varivel Tipo (parcial) ..........................................................11
Figura 24 - Opo de classificao por Tipo e Opinio ................................................................................................11
Figura 25 - Arquivo de dados classificado em funo das variveis Tipo e Opinio (parcial)........................................12
Figura 26 - Criao da varivel OpinioC ...................................................................................................................12
Figura 27 - Funo SE para recodificao de Opinio .................................................................................................13
Figura 28 - Funo SE para recodificar varivel Opinio - considerando clulas vazias................................................14
Figura 29 - Recodificao da varivel Opinio - correspondncia das clulas vazias ....................................................14
Figura 30 - Funo SE para transformar varivel Renda - considerando clulas vazias .................................................15
Figura 31 - Transformao da varivel Renda .............................................................................................................15
Figura 32 - Estrutura de recodificao da varivel Renda ............................................................................................16
Figura 33 - Funo de recodificao da varivel Renda em RendaC ............................................................................17
Anlise Exploratria de Dados utilizando o Microsoft Excel
2
Figura 34 - Filtro da varivel recodificada RendaC .....................................................................................................17
Figura 35 - Varivel ClienteAlvo: resultado da recodificao de OpinioC e RendaC ..................................................18
Figura 36 - Filtro da varivel ClienteAlvo ...................................................................................................................18
Figura 37 Menu de insero Figura 38 - Seleo de dados de tabela dinmica .....................................................19
Figura 39 - Tela de seleo de intervalo de dados - minimizada ...................................................................................19
Figura 40 - Layout da Tabela Dinmica ......................................................................................................................20
Figura 41 - Tabela dinmica de Tipo - apenas freqncia ............................................................................................20
Figura 42 - Tabela dinmica de Tipo...........................................................................................................................21
Figura 43 - Opes do campo Valor ............................................................................................................................21
Figura 44 - Configurao do Campo Valor: Resumir por... ..........................................................................................21
Figura 45 - Configurao do Campo Valor: Mostrar valores como... ...........................................................................22
Figura 46 - Configurao do Campo Valor: Mostrar valores como % do total ..............................................................22
Figura 47 - Tabela dinmica de Tipo: freqncias absolutas e relativas 1 verso ......................................................22
Figura 48 - Tabela dinmica de Tipo: freqncias absolutas e relativas 2 verso ......................................................23
Figura 49 - Opes de exibio da tabela de Tipo: com remoo das clulas vazias .....................................................23
Figura 50 - Clula de destino de uma tabela dinmica .................................................................................................23
Figura 51 - Tabela dinmica de Tipo x Opinio Layout inicial ..................................................................................24
Figura 52 - Tabela dinmica de Tipo x Opinio Layout com freqncias absolutas e todos os %. ..............................24
Figura 53 - Tabela dinmica de Tipo x Opinio Layout com freqncias absolutas e todos os %, modificado ............25
Figura 54 - % por linha, coluna e total ........................................................................................................................25
Figura 55 - Tabela dinmica de Tipo x Opinio (sem clulas vazias) ...........................................................................25
Figura 56 - Tabela dinmica Tipo x Opinio - opes de formatao ...........................................................................26
Figura 57 - Tabela dinmica Tipo x Opinio - mudana de ordem de valores ...............................................................26
Figura 58 - Tabela dinmica de Tipo x Opinio...........................................................................................................26
Figura 59 - Percentuais de Opinio por Tipo de servio ...............................................................................................27
Figura 60 - Clula de destino de uma tabela dinmica .................................................................................................28
Figura 61 - Lista de campos de uma tabela dinmica de 3 variveis qualitativas ..........................................................28
Figura 62 - Tabela dinmica de Tipo por Opinio em funo do Sexo dos clientes .......................................................29
Figura 63 - Opes de exibio da varivel Sexo ........................................................................................................29
Figura 64 - Tipo x Opinio para o sexo Feminino........................................................................................................29
Figura 65 - Tipo x Opinio para o sexo Masculino ......................................................................................................29
Figura 66 - Percentuais de Opinio x Sexo Figura 67 - Percentuais de Opinio x Sexo Ps-pago ...............30
Figura 68 - Percentuais de Opinio x Sexo Pr-pago Figura 69 - Percentuais de Opinio x Tipo Feminino ......30
Figura 70 - Percentuais de Opinio x Tipo Masculino ...............................................................................................31
Figura 71 - Opes de grficos ...................................................................................................................................31
Figura 72 - Subtipos de grficos de colunas ................................................................................................................32
Figura 73 - Grfico de colunas de Tipo - 1a verso......................................................................................................32
Figura 74 - Campos do grfico dinmico Figura 75 - Opes do campo % ........................................................33
Figura 76 - Grfico de colunas de Tipo - 2a verso......................................................................................................33
Figura 77 - Opes de design de grfico dinmico de colunas .....................................................................................33
Figura 78 - Opes de layout de grfico dinmico de colunas ......................................................................................33
Figura 79 - Opes de legenda do grfico dinmico ....................................................................................................34
Figura 80 - Opes de Ttulo do Eixo Vertical Principal em Grfico Dinmico ............................................................34
Figura 81 - Grfico de colunas de Tipo de servio - Final ............................................................................................35
Figura 82 - Opes de formatao de grfico e eixo ....................................................................................................35
Figura 83 - Opes de Eixo Figura 84 - Mudana de escala no eixo vertical ....................................................36
Figura 85 - Grfico de colunas de Tipo de servio escala vertical modificada ...........................................................36
Figura 86 - Subtipos de grficos em Pizza ...................................................................................................................37
Figura 87 - Grfico em pizza de Tipo de servio - 1a verso ........................................................................................37
Figura 88 - Opes de design de grfico dinmico em Pizza ........................................................................................37
Figura 89 - Opes de layout de grfico dinmico em Pizza ........................................................................................37
Figura 90 - Opes de Rtulo de Dados para Grfico em Pizza ...................................................................................38
Figura 91 - Mais opes de Rtulo de Dados Figura 92 - Grfico em pizza de Tipo de Servio - Final .................38
Figura 93 - Tabela dinmica deTipo por Opinio - apenas freqncias absolutas .........................................................38
Figura 94 - Grfico de colunas 2D agrupadas de Tipo por Opinio ..............................................................................39
Figura 95 - Grfico de colunas 2D agrupadas de Tipo por Opinio Pouco relacionamento.........................................39
Figura 96 - Alterao do tipo de grfico ......................................................................................................................40
Figura 97 - Opes de alterao de tipo de grfico ......................................................................................................40
Figura 98 - Grfico de colunas 2D 100% empilhadas de Tipo por Opinio ..................................................................40
Figura 99 - Grfico de colunas 2D 100% empilhadas de Tipo por Opinio Pouco relacionamento .............................41
Figura 100 - Layout da tabela dinmica de Anos Figura 101 - Tabela dinmica de Anos ...........42
Figura 102 - Cpia das clulas da Tabela dinmica de Anos ........................................................................................42
Figura 103 - Insero de clulas no Excel 2007 ...........................................................................................................43
Anlise Exploratria de Dados utilizando o Microsoft Excel
3
Figura 104 - Insero de clulas: deslocamento para baixo ..........................................................................................43
Figura 105 - Clulas inseridas na Tabela de Anos Figura 106 - Tabela de freqncias de Anos ................................43
Figura 107 - Tabela de Anos: freqncias e percentuais ..............................................................................................44
Figura 108 - CONT.SE: primeira freqncia acumulada da varivel Ano.....................................................................44
Figura 109 - Tabela de Anos: freqncias absolutas, acumuladas e % ..........................................................................45
Figura 110 - Histograma de Anos - 1a verso ..............................................................................................................45
Figura 111 - Opes de grfico - histograma de Anos .................................................................................................46
Figura 112 - Seleo de fontes de dados - histograma de Anos ....................................................................................46
Figura 113 - Histograma de Anos - 2a verso ..............................................................................................................46
Figura 114 - Seleo de fontes de dados - histograma de Anos - modificaes .............................................................47
Figura 115 - Histograma de Anos - 3a verso ..............................................................................................................47
Figura 116 - Opes de formatao de sries de dados - histograma Anos ...................................................................47
Figura 117 - Opes de formatar sries de dados .........................................................................................................48
Figura 118 - Histograma de Anos completos como cliente ..........................................................................................48
Figura 119 - Mnimo e mximo para a varivel Renda ................................................................................................49
Figura 120 - Intervalo para Renda ...............................................................................................................................49
Figura 121 - Amplitude de classes de Renda ...............................................................................................................49
Figura 122 Clculo dos limites inferior e do limite superior da primeira classe de Renda ..........................................50
Figura 123 Clculo dos limites inferior e superior da segunda classe de Renda .........................................................50
Figura 124 - Classes de Renda ....................................................................................................................................50
Figura 125 - Ponto mdio da primeira classe de Renda ................................................................................................51
Figura 126 - Obteno da freqncia da primeira classe de Renda ...............................................................................51
Figura 127 - Obteno da freqncia da ltima classe de Renda ..................................................................................52
Figura 128 - Obteno da freqncia acumulada da primeira classe de Renda ..............................................................52
Figura 129 - Obteno da freqncia acumulada da primeira classe de Renda ..............................................................53
Figura 130 - Renda agrupada em classes: freqncias absolutas, percentuais, freqncias acumuladas e percentuais
acumulados ........................................................................................................................................................53
Figura 131 - Seleo de dados para Histograma de Renda ...........................................................................................54
Figura 132 Histograma da Renda dos clientes em salrios mnimos com limites das classes ...................................54
Figura 133 - Frmulas no Excel 2007 .........................................................................................................................55
Figura 134 - Frmulas no Excel 2007 Mais funes .................................................................................................55
Figura 135 - Medidas de sntese de Renda - 1a parte ...................................................................................................56
Figura 136 - Funes disponveis no Excel .................................................................................................................56
Figura 137 - Funes estatsticas no Excel - 1a abordagem ..........................................................................................56
Figura 138 - Argumentos da funo Mdia (para Renda) - 1a verso ...........................................................................57
Figura 139 - Argumentos das funes Mediana e Moda (Renda) - 1a verso ................................................................57
Figura 140 - Argumentos da funo desvio padro (Renda) - 1a verso .......................................................................57
Figura 141 - Argumentos das funes Quartil Inferior e Superior (Renda) - 1a verso .................................................58
Figura 142 - Argumentos das funes Mnimo e Mximo (Renda) - 1a verso .............................................................58
Figura 143 - Medidas de sntese de Renda ..................................................................................................................58
Figura 144 - Clculo do CV%.....................................................................................................................................58
Figura 145 - Clculo das diferenas entre os quartis e a mediana .................................................................................59
Figura 146 - Clculo dos limites para valores discrepantes ..........................................................................................59
Figura 147 - Medidas de sntese para Renda (completas) .............................................................................................59
Figura 148 - Breakdown de Renda por Tipo - a partir do arquivo classificado ..............................................................61
Figura 149 - Diagrama em caixas de Renda por Tipo ..................................................................................................62
Figura 150 Seleo de dados da tabela dinmica Renda por Tipo ...........................................................................63
Figura 151 - Layout da tabela dinmica Renda x Tipo 1a parte ....................................................................................63
Figura 152 - Layout da tabela dinmica Renda x Tipo 2a parte ....................................................................................63
Figura 153 Formas de resumir os dados de Renda ....................................................................................................64
Figura 154 - Layout da tabela dinmica Renda x Tipo 3a parte ....................................................................................64
Figura 155 - Tabela dinmica de Renda por Tipo ........................................................................................................65
Figura 156 - Layout da tabela dinmica Renda x Tipo x Sexo .....................................................................................65
Figura 157 - Tabela dinmica de Renda x Tipo x Sexo (geral) .....................................................................................66
Figura 158 - Tabelas dinmicas de Renda x Tipo x Sexo (Feminino e Masculino) .......................................................66


Anlise Exploratria de Dados utilizando o Microsoft Excel
4
INE 7001 - Procedimentos de Anlise Exploratria de Dados utilizando o Excel 2007
Professor Marcelo Menezes Reis

O objetivo deste texto apresentar os principais procedimentos de Anlise Exploratria de Dados,
tal como apresentados em sala, mas utilizando a planilha eletrnica Excel. Os dados esto no
arquivo Celular01.xlsx
1
, disponvel na pginas das disciplina: contm as informaes sobre 5000
clientes da operadora de celular ATCHIM, totalizando 10 variveis:
1) Tipo de servio: se o cliente usurio de celular pr-pago ou ps-pago.
2) Sexo do cliente: masculino ou feminino.
3) Opinio do cliente sobre a operadora ATCHIM: terrvel, sofrvel, mediana, confivel, excelente.
4) Outra operadora do cliente antes de ser cliente da ATCHIM: Cumbuca, Escurido, Ferrocom,
Mortinho ou Nenhuma (o cliente nunca foi cliente de outra operadora alm da ATCHIM).
5) Razo declarada para ser cliente da ATCHIM (manter-se cliente ou ter mudado de operadora):
maior cobertura, qualidade do sinal, tarifa mais baixa.
6) Modelo (marca) do aparelho celular: Ericsson, Gradiente, Motorola, Samsung ou Siemens.
7) Renda mensal declarada pelo cliente em nmero de salrios mnimos.
8) Nmero de Anos completos em que cliente da ATCHIM.
9) Gasto mdio mensal do cliente em reais nos ltimos 12 meses, ou no perodo em que cliente se
inferior a um ano (obtido da base de dados da prpria ATCHIM).
10) Minutos locais mdios do cliente nos ltimos 12 meses, ou no perodo em que cliente se
inferior a um ano (obtido da base de dados da prpria ATCHIM).

1. Filtragem

1.1 Filtragem para identificao de clulas vazias
A filtragem uma ferramenta extremamente til para a anlise de dados. Permite realizar a
pr-anlise dos dados, realizar buscas especficas por uma informao e corrigir eventuais erros.
Vamos apresentar os procedimentos no Microsoft Excel para executar filtragem de variveis
qualitativas e quantitativas, permitindo a identificao de valores perdidos e erros de registro (e sua
correo), valores discrepantes, entre outras informaes.

Acesse o arquivo Celular01.xlsx, que contm os dados dos clientes de uma fictcia
operadora de telefonia celular, a ATCHIM. possvel ver parte do arquivo na figura 1 a seguir:

Figura 1 - Arquivo Celular01.xlsx

1
H tambm o Celular01.xls, para os procedimentos usando o Excel 2003.
Anlise Exploratria de Dados utilizando o Microsoft Excel
5

Observe as variveis nas colunas e os dados nas linhas.

Imagine que queremos estudar a varivel qualitativa Tipo, usando filtragem. O primeiro
passo consiste em selecionar a varivel, pondo o cursor sobre a coluna e pressionando o boto
esquerdo do mouse, resultando na Figura 2.

Figura 2 - Seleo de varivel para filtragem

Para realizar a filtragem no Excel 2007 temos dois caminhos:
- tal como no Excel 2003 e anteriores, atravs do menu Dados, escolher Filtro (Figura 3)
resultando em um boto com uma seta na coluna de Tipo;
- ou no menu Incio, opo Classificar e Filtrar, linha Filtro (Figura 4)
2
, com o mesmo resultado.


Figura 3 - Varivel escolhida para filtragem pelo menu Dados


Figura 4 - Varivel escolhida para filtragem pelo menu Incio


2
Alis, se o cursor for posicionado em qualquer clula das colunas A a J todas as variveis tero o boto de filtro
adicionado.
Anlise Exploratria de Dados utilizando o Microsoft Excel
6
Independente do caminho a varivel estar com Auto-Filtro implementado. No Auto-Filtro
o Excel automaticamente seleciona todos os valores possveis para a varivel, incluindo clulas
vazias e erros. Se pressionarmos o boto com a seta ao lado do nome da varivel vamos obter a
Figura 5:


Figura 5 - Valores da varivel Tipo - obtidos por Filtragem


Figura 6 -Valores desmarcados Figura 7 - Opo "Vazias" selecionada Figura 8 - Varivel Tipo - Vazias

Os dados perdidos encontram-se nas clulas A52, A605, A1250, A2414, A2638, A4051 e A4192,
totalizando 7 observaes. Como so apenas 7 em 5000 registros, representando 0,14%, bem abaixo
de 5%, podemos considerar uma quantidade aceitvel. Porm, se possvel, devemos investigar as
causas deste sumio de dados, e se possvel, descobrir seu contedo (deve haver algum registro
Os valores corretos para a
varivel Tipo so Pr-pago e Ps-pago.
Mas, h vrios registros incorretos para
ambos, em que houve truncamento de
letras. possvel ver tambm as opes:
Vazias, se selecionada permitir avaliar
a quantidade de dados perdidos.
Se quisermos exibir apenas as
clulas Vazias primeiramente devemos
desmarcar a opo Selecionar Tudo,
vista na Figura 5, resultando na Figura 6.
Para mostrar apenas as clulas
vazias, basta marcar Vazias, na Figura
7, obtendo o resultado na Figura 8.

Anlise Exploratria de Dados utilizando o Microsoft Excel
7
do cliente 52 em algum lugar, que diga qual o seu tipo de servio). Este procedimento precisa ser
feito para todas as variveis (qualitativas e quantitativas).

Uma outra opo de filtragem possvel usar um Filtro de texto personalizado:
fornecemos ao Excel as caractersticas procuradas para selecionar as clulas a exibir, selecionando
Filtro de Texto na Figura 5 obtemos a Figura 9:


Figura 9 - Filtro de texto: personalizao


Outro uso da Filtragem a identificao de erros de registro (ver Figura 5), e a sua correo.

1.2 Filtragem para correo de erros em variveis qualitativas

Para corrigir os valores incorretamente registrados de Ps-pago devemos desmarcar a opo
Selecionar tudo (ver Figura 6) e ento selecionar todas as incorretas, como na Figura 10. O Excel
apresentar apenas as clulas que contm os valores incorretos (Figura 11). So 17 clulas apenas.
No obstante, precisamos corrigi-las. Basta digitar o valor correto na primeira clula do intervalo
(A19 na Figura 11). Em seguida, arrasta-se o valor correto at a ltima clula com o valor
incorreto, e todos sero corrigidos, como mostrado na Figura 12.

Figura 10 Erros de Ps-pago Figura 11 - Clulas com erros em Ps-pago Figura 12 - Clulas corrigidas
H vrias possibilidades de personalizao,
permitindo escolher exibir as clulas que atendem a
vrios critrios: igual a, diferente de, comea com,
termina com, contm, no contm, e ainda uma opo
de Personalizar Filtro quer permite usar como
referncia clulas de qualquer planilha do Excel.
Anlise Exploratria de Dados utilizando o Microsoft Excel
8

Embora parea maante, o procedimento descrito acima precisa ser realizado para todos os
valores incorretos, e para todas as variveis. Para o caso da varivel Tipo, uma vez corrigidos todos
os erros de registro, ao pressionar a seta do Filtro, surgir a tela da Figura 13:


Figura 13 - Valores da varivel Tipo - sem erros

1.3 - Filtragem para variveis quantitativas

Para variveis quantitativas a filtragem extremamente til para identificar os valores
extremos do conjunto (eventuais valores discrepantes), alm dos dados perdidos.

Se selecionarmos a varivel Anos, quantitativa discreta, e acionarmos Filtro (como para a
varivel Tipo, seja pelo menu Dados Figura 3, ou Incio Figura 4), chegamos tela mostrada na
Figura 14.

Figura 14 - Filtragem da varivel Anos





Restam apenas os valores (corretos) Ps-pago e Pr-pago, e as
opes de filtragem: Selecionar Tudo, e Vazias.

Observe que com um procedimento simples possvel corrigir
todos os erros de registro, avaliar a quantidade de dados perdidos e
eventualmente (atravs da opo Filtro de Texto) realizar outras
filtragens.

Os valores da varivel Anos variam de 0 a 14 anos (h
clulas vazias tambm). O valor 0 corresponde a pessoas que
ainda no completaram um ano inteiro como clientes, e o valor
14 s pessoas que so clientes desde o incio dos negcios da
operadora. Apenas os valores que ocorrem nos dados so
apresentados: o valor 13 um dos valores possveis para a
varivel Anos, mas como no h nenhum cliente registrado na
amostra com este valor, ele no apresentado.
A filtragem especialmente importante no caso de
variveis quantitativas contnuas. Se realizarmos o
procedimento de filtragem com a varivel Renda, quantitativa
contnua, vamos observar a grande quantidade de valores
possveis entre o mnimo (1,003 salrios mnimos), mostrado na
Figura 15, e o mximo (43,878 salrios mnimos), mostrado na
Figura 16.

Anlise Exploratria de Dados utilizando o Microsoft Excel
9

Figura 15 - Filtro de Renda - Menores Valores Figura 16 - Filtro de Renda - Maiores valores
Se quisermos saber mais sobre o cliente com a maior renda basta desmarcar Selecionar
Tudo e selecionar o valor 43,878 e teremos a tela da Figura 17, com todas as informaes
disponveis sobre este cliente.


Figura 17 - Dados sobre o cliente com a maior renda

As informaes esto armazenadas na linha 2242 da planilha. Trata-se de um cliente de
servio ps-pago, do sexo masculino, que optou por um modelo Samsung, no foi cliente de
nenhuma operadora anteriormente. Ele declarou que a razo para estar na ATCHIM a tarifa
menor, cliente h 6 anos, gasta em mdia R$ 68,4 mensais, falando 109 minutos em mdia por
ms. Mas, no h resultado para a varivel Opinio. Poderamos repetir o procedimento para
qualquer outro valor de Renda e conhecer melhor o perfil dos respectivos clientes. Por exemplo,
poderamos escolher o valor 1,005 salrios mnimos, resultando na Figura 18.


Figura 18 - Filtragem de Renda - dados para 1,005 salrios mnimos

As informaes sobre os clientes que percebem 1,005 salrios mnimos esto armazenadas
nas linhas 793, 2359, 2418, 2836, 2924, 4137 e 4773. Eles preferem servio pr-pago, e esto na
ATCHIM pela maior cobertura. Todos so clientes com pelo menos 45 anos, e as demais variveis
tm diferentes valores.

A filtragem para variveis quantitativas muito til para identificar os extremos do
conjunto, o que permitir a construo de distribuies de freqncias, o que ser visto
posteriormente.
Anlise Exploratria de Dados utilizando o Microsoft Excel
10
2. Classificao dos Dados

Em muitos casos h interesse em reordenar o conjunto de dados de maneira a facilitar a
visualizao dos valores especficos de uma ou mais variveis. Isso ser extremamente til nas
prximas aulas quando construirmos tabelas para os dados. preciso que o cursor esteja em alguma
das clulas dos dados.

Para realizar a filtragem no Excel 2007 temos dois caminhos:
- tal como no Excel 2003 e anteriores, atravs do menu Dados, escolher Classificar (Figura 19)
resultando na Figura 21;
- ou no menu Incio, opo Classificar e Filtrar, linha Personalizar Classificao (Figura 20), com
o mesmo resultado.


Figura 19 - Classificao pelo menu Dados


Figura 20 - Classificao pelo menu Incio


Figura 21 - Opes de classificao

O padro do Excel 2007 a classificao por apenas uma varivel. Mas, permitido
adicionar mais variveis atravs do boto Adicionar Nvel, o que torna possvel ordenar os dados
em funo dos valores de vrias variveis (no Excel 2003 h a possibilidade de usar apenas 3
variveis). Se desejssemos fazer a classificao apenas em funo de Tipo bastaria escolh-la na
primeira opo da tela da Figura 22.


Anlise Exploratria de Dados utilizando o Microsoft Excel
11

Figura 22 - Opo de classificao apenas por Tipo
possvel fazer a classificao pelos valores de Tipo (ou outro aspecto, como a cor da
clula, por exemplo), e em ordem de A a Z ascendente (ou de Z-A descendente, ou de forma
personalizada). Vamos manter a classificao pelos valores, de A a Z, o que resulta na Figura 23.

Figura 23 - Arquivo de dados classificado em funo da varivel Tipo (parcial)

Todo o arquivo foi reordenado em funo dos valores da varivel Tipo, comeando pelas
clulas vazias, depois por Ps-pago e finalmente por Pr-pago (o Excel classifica as variveis
qualitativas por ordem alfabtica). O uso da classificao mantm a consistncia do banco de dados,
pois todos os dados (todas as linhas) so reorganizados mantendo a coerncia. Por exemplo, a
primeira informao de Ps-pago estava (ver Figura 20) na linha 2, com os valores Masculino para
Sexo, Mediana para Opinio, Gradiente para Modelo, etc. Aps a classificao as informaes so
deslocadas para a linha 9 (ver Figura 23), primeira linha do valor Ps-pago de Tipo, logo aps a
ltima linha com clula vazia para a varivel, mas mantendo a consistncia das informaes.

Se houvesse interesse em fazer a classificao em funo de Tipo, e depois por Opinio,
deveramos repetir os procedimentos das Figuras 19 ou 20 e depois a 21, com a adio de um nvel,
mas agora escolhendo Opinio na segunda opo de classificao, tal como mostrado na Figura 24.

Figura 24 - Opo de classificao por Tipo e Opinio
Anlise Exploratria de Dados utilizando o Microsoft Excel
12
O arquivo classificado mostrado na Figura 25.

Figura 25 - Arquivo de dados classificado em funo das variveis Tipo e Opinio (parcial)

Observe que para as clulas vazias (primeiros valores de Tipo), os valores de Opinio so
ordenados (tambm alfabeticamente): h um valor Confivel, um Excelente, dois valores Mediana,
dois Sofrvel e um Terrvel. Em seguida, o prximo valor de Tipo, Ps-pago, e a varivel Opinio
ordenada de acordo, comeando pelas clulas vazias e depois pelas clulas com Confivel. Todas
as outras variveis so reordenadas em funo destas duas.


3. Recodificao dos dados

Em muitas situaes de anlise de dados pode haver interesse em criar novas variveis a
partir das existentes: com a finalidade de agrupar valores de uma varivel qualitativa ou
quantitativa, ou transformar uma varivel quantitativa em qualitativa. Com isso torna-se possvel
realizar novas anlises dos dados, sem modificar os dados originais.

3.1 Recodificao de Variveis Qualitativas
Vamos recodificar a varivel Opinio, agrupando as opinies positivas (confivel e
excelente) e as negativas (Mediana, Sofrvel e Terrvel), para nas prximas aulas conseguirmos
construir tabelas desta varivel.

O primeiro passo selecionar a clula K1, onde ser colocado o nome da nova varivel,
OpinioC (opinio codificada), como mostrado na Figura 26.

Figura 26 - Criao da varivel OpinioC
Anlise Exploratria de Dados utilizando o Microsoft Excel
13
Para fazer a recodificao da varivel ns devemos construir uma frmula que relaciona os
valores da varivel Opinio com os novos valores previstos para OpinioC. Para construir uma
frmula no Excel posicionamos o cursor na clula desejada, digitamos =, seguida da frmula. Para
o caso da recodificao ns queremos implementar a seguinte frmula:

SE Opinio = Confivel OU Excelente ENTO OpinioC = Positiva
SENO OpinioC = Negativa.

Geralmente a recodificao envolve alguma expresso lgica, como a descrita acima: SE os
valores de Opinio forem Confivel, ou Excelente, ENTO OpinioC ser Positiva; SENO (se os
valores de Opinio forem Mediana, Sofrvel ou Terrvel), ento OpinioC ser Negativa. A
colocao da frmula correspondente na clula K2 possibilitaria recodificar a varivel.

A Figura 27 a seguir ilustra o procedimento que queremos fazer.

Figura 27 - Funo SE para recodificao de Opinio
Observe que os valores de opinio esto entre aspas. No Excel, toda vez que realizamos
operaes com variveis qualitativas precisamos pr seus valores entre aspas, ou causar erro.

Neste momento importante uma pequena introduo sobre as funes lgicas do Microsoft
Excel. H vrias disponveis, sendo as principais, com a sua sintaxe:
- SE(teste lgico; ao caso o teste lgico resulte verdadeiro; ao caso o teste lgico resulte falso).
possvel aninhar at sete funes SE como argumentos valor_se_verdadeiro e valor_se_falso para
construir testes mais elaborados.
- E(teste lgico1; teste lgico2; ...). Retornar VERDADEIRO se todos os testes lgicos resultarem
verdadeiros; retornar FALSO se um ou mais testes lgicos resultarem falsos. Teste lgico1; teste
lgico2;... so de 1 a 30 condies para testar e que podem ser VERDADEIRO ou FALSO.
- OU(teste lgico1; teste lgico2; ...). Retorna VERDADEIRO se pelo menos um dos testes lgicos
resultar verdadeiro; retorna FALSO se todos os testes lgicos resultarem FALSOS. Teste lgico1;
teste lgico2,... so de uma a 30 condies que voc deseja testar e que podem resultar em
VERDADEIRO ou FALSO.

No caso da recodificao da varivel Opinio vamos usar uma funo SE e dentro dela, no
teste lgico uma funo OU: SE Opinio for Confivel OU Excelente, OpinioC ser Positiva,
SENO ser Negativa. Mas, como h clulas vazias na varivel Opinio, se realizarmos a
recodificao tal como mostrada aqui criaremos informao: como as clulas vazias no contm
as opinies Confivel ou Excelente sero registradas em OpinioC como Negativas, o que no
admissvel. Precisamos refinar a funo SE para que ela leve em conta a existncia das clulas
vazias, o que ser possvel introduzindo mais uma funo SE, da seguinte maneira.
SE Opinio = ENTO OpinioC =
SENO SE Opinio = Confivel OU Excelente ENTO OpinioC = Positiva
SENO OpinioC = Negativa.
Anlise Exploratria de Dados utilizando o Microsoft Excel
14

Ou, em termos da sintaxe do Excel:
= SE(C2= ;C2;SE(OU(C2=Excelente;C2=Confivel);Positiva;Negativa)).

Observe cuidadosamente o posicionamento dos parnteses: o teste que vimos originalmente ficou
embutido na ao a ser feita se o primeiro teste (se a clula de Opinio vazia) resultar falso.
Veja a implementao na Figura 28.


Figura 28 - Funo SE para recodificar varivel Opinio - considerando clulas vazias

Arrastando a frmula at a clula K5001 a varivel estar corretamente recodificada. Se
repetirmos a filtragem na varivel Opinio, escolhendo a exibio das clulas vazias, o resultado
ser a Figura 29.


Figura 29 - Recodificao da varivel Opinio - correspondncia das clulas vazias

Agora podemos passar para a recodificao de variveis quantitativas.

3.2 Recodificao de Variveis Quantitativas
A recodificao de variveis quantitativas pode ter duas finalidades:
- transform-la em outra varivel quantitativa (quando se chama transformao, mediante alguma
operao matemtica);
- transform-la em uma varivel qualitativa (quando se chama realmente recodificao, mediante a
aplicao de operaes lgicas, tal como as vistas para variveis qualitativas).

Em ambos os casos o objetivo obter uma nova varivel que facilite a anlise dos dados,
tornando-a mais resumida ou significativa. Por exemplo, vamos realizar duas recodificaes da
varivel Renda, no arquivo Celular01.xls:
Anlise Exploratria de Dados utilizando o Microsoft Excel
15
- transform-la de Renda em salrios mnimos para Renda em reais, simplesmente multiplicando
seus valores pelo salrio mnimo vigente (julho de 2010), 510 reais;
- recodific-la em uma varivel qualitativa, criando faixas de valores que definiro clientes de renda
baixa, mdia e alta.
Tais aes facilitaro o estudo da Renda, posto que algumas pessoas tm dificuldade de raciocinar
em termos de salrios mnimos, e outras preferem uma viso categorizada das quantidades.

Tal como nas variveis qualitativas, preciso tomar cuidado com as clulas vazias, pois
vamos criar informaes ao codific-la em qualitativa, ou causar erro ao transform-la.
Precisamos modificar a transformao, incluindo uma funo SE, para que a multiplicao por 510
seja feita apenas quando as clulas de Renda NO forem vazias, para que no haja erros e
tampouco criao de informao. De forma anloga utilizada no caso da varivel Opinio:

SE Renda = ENTO RendaR$ = SENO RendaR$ = Renda * 510

Ou, em termos da sintaxe do Excel: = SE(G2= ;G2;G2*510)

A implementao no Excel pode ser vista na Figura 30.

Figura 30 - Funo SE para transformar varivel Renda - considerando clulas vazias
Arrastando a frmula at a clula L5001 a varivel estar corretamente transformada. Se
repetirmos a filtragem na varivel RendaR$, escolhendo a exibio das clulas vazias, o resultado
ser a Figura 31.


Figura 31 - Transformao da varivel Renda

Podemos agora pensar na recodificao de Renda em uma varivel qualitativa, que
chamaremos RendaC, que ocupar a coluna M. Vamos criar trs classes arbitrrias de renda: os
clientes com Renda de at 4 salrios mnimos sero chamados RendaC Baixa, os com Renda entre 4
e 12 sero chamados RendaC Mdia, e os com Renda acima de 12 salrios mnimos sero RendaC
Anlise Exploratria de Dados utilizando o Microsoft Excel
16
Alta. Trata-se de um caso que exige a utilizao de funes SE: precisaremos de duas para a
classificao da Renda, e mais uma para lidar com as clulas vazias. Veja a estrutura na Figura 32.


Figura 32 - Estrutura de recodificao da varivel Renda

Vamos ver os passos:
1) Se a clula de Renda for vazia a clula de RendaC tambm ser, para evitar a criao de
informao.
2) Se a clula de Renda NO for vazia pode-se proceder fazer a recodificao propriamente dita.
3) Se a clula de Renda for menor ou igual a 4, a clula de RendaC ser igual Baixa (cliente com
renda baixa).
4) Se a clula de Renda NO for menor ou igual a 4, faz-se novo teste.
5) Se a clula de Renda for menor ou igual a 12 (j se sabe pelo teste anterior que maior do que 4
salrios mnimos), a clula de RendaC ser igual Mdia (cliente com renda mdia).
6) Se a clula de Renda NO for menor ou igual a 12, j que o teste anterior verificou que maior
do 4 salrios mnimos, s resta a possibilidade de ser maior do que 12. Ento a clula de RendaC
ser igual Alta (cliente com renda alta).

Observe a implementao da recodificao da varivel Renda no Excel (Figura 33).

Anlise Exploratria de Dados utilizando o Microsoft Excel
17

Figura 33 - Funo de recodificao da varivel Renda em RendaC
Ao arrastar a frmula at a clula M5001 completamos a recodificao da varivel. Se aplicarmos filtragem
RendaC observaremos apenas os valores esperados: clulas vazias, Baixa, Mdia e Alta, como na Figura 34.


Figura 34 - Filtro da varivel recodificada RendaC

Podemos fazer a recodificao envolvendo mais de uma varivel. Por exemplo, imagine que
a operadora ATCHIM resolveu focar seus esforos promocionais nos clientes de baixa renda (tal
como definidos em RendaC, at 4 salrios mnimos) e que tm opinies positivas sobre a empresa
(Confivel e Excelente, definidas como Positiva em OpinioC). Tal cliente considerado como
Cliente alvo das ofertas de planos especiais, novos aparelhos e servios. Podemos criar uma nova
varivel, ClienteAlvo, recodificando RendaC e OpinioC.

Trata-se de mais um caso para uso da funo SE, lembrando que devemos levar em conta as
clulas vazias, mas com mais cuidado ainda: RendaC pode ter clulas vazias para alguns clientes,
OpinioC tambm, ou, eventualmente ambas podem estar vazias para o mesmo cliente. Isso causar
um impasse, pois no podemos criar recodific-las em ClienteAlvo para as linhas em que pelo
menos uma das variveis apresentar clulas vazias. A soluo usar uma funo OU: se OpinioC
ou RendaC apresentarem clulas vazias, o valor correspondente de ClienteAlvo ficar vazia
tambm. Se OpinioC for Positiva e RendaC for Baixa, ClienteAlvo ser Sim, seno ser
No. De forma anloga utilizada no caso das variveis OpinioC e RendaC:

Anlise Exploratria de Dados utilizando o Microsoft Excel
18
SE OpinioC = OU RendaC = ENTO ClienteAlvo =
SENO SE OpinioC = Positiva E RendaC = Baixa ENTO ClienteAlvo = Sim
SENO ClienteAlvo = No

Ou, em termos da sintaxe do Excel:
= SE(OU(K2= ;M2= ); ;SE(E(K2=Positiva;M2=Baixa);Sim;No))

A implementao no Excel pode ser vista na Figura 35.


Figura 35 - Varivel ClienteAlvo: resultado da recodificao de OpinioC e RendaC

Arrastando a frmula at a clula N5001 completa-se a criao da varivel ClienteAlvo. Se
aplicarmos filtragem ClienteAlvo observaremos apenas os valores esperados: clulas vazias,
No e Sim , como na Figura 36.


Figura 36 - Filtro da varivel ClienteAlvo
Com as operaes de filtragem, classificao recodificao e transformao podemos
identificar vrias caractersticas interessantes dos dados, bem como agrupar valores das variveis, o
que facilitar a anlise posterior das variveis.


Anlise Exploratria de Dados utilizando o Microsoft Excel
19
4. Anlise de dados de variveis qualitativas com tabelas
dinmicas

Uma soluo interessante para a anlise de dados o uso de tabelas dinmicas, ferramenta
incorporada ao Microsoft Excel que pode ser muito til para extrair informaes de um arquivo de
dados.

O uso da tabela dinmica exige que os dados estejam com a formatao usual de um banco
de dados: variveis nas colunas e dados nas linhas, sendo que a primeira linha do arquivo deve
conter os nomes das variveis.

4.1 Uma varivel qualitativa

Independente se as variveis de interesse so qualitativas ou quantitativas o procedimento
para construo da tabela dinmica o mesmo. Posicione o cursor em algum ponto do conjunto de
dados, e procure no menu Inserir por Tabela Dinmica, como na Figura 37.


Figura 37 Menu de insero Figura 38 - Seleo de dados de tabela dinmica

Ao pr o cursor em alguma parte do banco de dados o Excel 2007 selecione
automaticamente todas as variveis adjacentes: no presente caso todas as clulas compreendidas
entre A1 e N5001: da varivel Tipo at a ClienteAlvo. Pode-se escolher, eventualmente, uma fonte
externa ou dados de outra planilha ou outro intervalo de dados na mesma planilha. Para fazer isso
basta pressionar o boto com seta vermelha na linha Tabela/Intervalo da Figura 38, resultando na
Figura 39:

Figura 39 - Tela de seleo de intervalo de dados - minimizada
Com a seleo neste formato voc pode procurar o intervalo desejado e selecion-lo utilizando o
mouse. Para retornar situao da Figura 38 basta pressionar a pequena seta vermelha novamente.
Por convenincia, vamos pr a tabela dinmica em uma nova planilha. Ento, pressionando OK,
chega-se Figura 40.

Pressionando Tabela Dinmica o Excel 2007 apresenta o
resultado da Figura 38.


Anlise Exploratria de Dados utilizando o Microsoft Excel
20

Figura 40 - Layout da Tabela Dinmica

A verso 2007 do Excel automaticamente cria a tabela, vazia, com os campos disponveis
para adio direita. Observe direita os nomes das variveis existentes no arquivo de dados, e que
foram selecionadas na etapa anterior. Vamos imaginar que h interesse apenas na varivel Tipo,
devemos selecion-la e arrast-la at o campo "Rtulos de Linha", ou "Rtulos de Coluna". As
outras variveis no faro parte da tabela. Devemos tambm arrastar a varivel Tipo para o campo
"Valores". O resultado pode ser visto na Figura 41.


Figura 41 - Tabela dinmica de Tipo - apenas freqncia


Observe que a tabela contm apenas
as freqncias absolutas de cada valor, alm
das clulas vazias. Mas, usualmente
imprescindvel apresentar as freqncias
relativas tambm, para que seja possvel
fazer comparaes com outros conjuntos de
dados. Para tanto devemos arrastar
novamente Tipo para o campo Valores, o que
nos levar Figura 42: as freqncias
absolutas dos valores sero apresentadas
mais uma vez, e precisamos modific-las
para que a tabela contenha as freqncias
absolutas E as relativas. Para fazer isso,
devemos pressionar a setado segundo
boto do campo Valores, o que leva s
opes da Figura 43.
Anlise Exploratria de Dados utilizando o Microsoft Excel
21

Figura 42 - Tabela dinmica de Tipo


Figura 43 - Opes do campo Valor

Selecionando Configuraes do Campo de Valor... possvel mudar o formato de
apresentao dos dados, com as vrias opes mostradas na Figura 44.


Figura 44 - Configurao do Campo Valor: Resumir por...


Pode-se mudar o tipo de clculo que se deseja usar para
resumir os dados do campo selecionado. Quando a
varivel qualitativa a opo padro ContNm,
contagem. Mas, se a varivel for quantitativa, pode-se
escolher soma, mdia, Mx (mximo), Mnimo, Produto e
outras funes no visveis na Figura 44 (desvio padro
amostral e populacional, varincia amostral e
populacional). possvel ver tambm a aba Mostrar
valores como, que uma vez selecionada resulta na Figura
45.
Anlise Exploratria de Dados utilizando o Microsoft Excel
22


Figura 45 - Configurao do Campo Valor: Mostrar valores como...


Figura 46 - Configurao do Campo Valor: Mostrar valores como % do total


Figura 47 - Tabela dinmica de Tipo: freqncias absolutas e relativas 1 verso

As clulas vazias representam 0,14% do total, perfazendo apenas 7 clientes: um percentual
pequeno (aceita-se at 5%), mas que merece uma reflexo, pois um dado imprescindvel, a
empresa precisa descobrir o Tipo de servio destes clientes, at para fins de tarifao. Percebe-se a
preponderncia dos clientes do Tipo pr-pago, que representam 57,82% do total (2891 clientes).
Observa-se tambm que a tabela apresenta algumas poluies, o que pode confundir sua
interpretao por leigos: h uma linha para clulas vazias, Rtulos de Linha, Valores, Contar
de Tipo, Contar de Tipo2. Todos estes podem ser modificados, os ltimos simplesmente por
digitao dos nomes de nosso interesse, resultando na Figura 48.



A opo padro apresentar os valores como Normal,
ou seja, no caso de contagem para variveis qualitativas,
as freqncias absolutas. Mas, pressionando a seta
podemos observar as vrias opes disponveis na Figura
46: % de diferena de, soma acumulada, % da linha, % da
coluna, % do total entre outras. Como se deseja apresentar
as freqncias relativas dos valores da varivel Tipo,
podemos escolher % do total e pressionar OK, a tabela
resultante pode ser analisada na Figura 47.
Anlise Exploratria de Dados utilizando o Microsoft Excel
23

Figura 48 - Tabela dinmica de Tipo: freqncias absolutas e relativas 2 verso

A remoo da linha com as clulas vazias, porque sua influncia muito reduzida, pode ser
feita pressionando a seta ao lado de Tipo, levando s opes da Figura 49.

Figura 49 - Opes de exibio da tabela de Tipo: com remoo das clulas vazias

Basta desmarcar a opo de exibio das clulas vazias, pressionar OK, e obtm-se a tabela
final, com os valores percentuais j recalculados em relao ao novo total (4993).

4.2 Duas variveis qualitativas

muito comum o estudo de duas variveis qualitativas. Pode-se representar essa
distribuio conjunta de freqncias atravs de uma tabela de contingncias, para estudar a sua
associao. Atravs de uma tabela dinmica podemos rapidamente constru-la.

O incio do processo semelhante ao visto na seo anterior: posicione o cursor em algum
ponto do conjunto de dados, e procure no menu Inserir por Tabela Dinmica, como na Figura 37.
Mas, ao invs de pr a tabela em uma nova planilha vamos escolher uma clula da mesma planilha
onde est a tabela de Tipo, como mostrado na Figura 50.

Figura 50 - Clula de destino de uma tabela dinmica
Anlise Exploratria de Dados utilizando o Microsoft Excel
24
Pressionando OK, chega-se uma situao parecida a da Figura 40. Mas, agora vamos
colocar duas variveis na Tabela, Tipo na Linha, e Opinio na Coluna, e apenas uma delas
(qualquer uma) em Valores. Como na Figura 51.


Figura 51 - Tabela dinmica de Tipo x Opinio Layout inicial


Figura 52 - Tabela dinmica de Tipo x Opinio Layout com freqncias absolutas e todos os %.

Da forma como est o layout da Figura 52 a tabela no ficar com um bom aspecto,
dificultando a sua interpretao. Precisamos mover o boto Valores do campo Rtulos de Coluna
(ver Figura 52) para o campo Rtulos de Linha, resultando na Figura 53.
Ao construir uma tabela de contingncias usualmente no
temos interesse apenas nas freqncias de cada cruzamento. Foi
visto na seo 4.1 que a tabela dinmica pode incluir percentuais
tambm. Vamos aproveitar a oportunidade e incluir trs tipos de
percentuais: em relao aos totais das linhas, em relao aos totais
das colunas, e em relao ao total geral dos dados. Basta arrastar a
varivel Opinio mais trs vezes ao campo Valores, Figura 52.
Posteriormente, podemos modificar as configuraes do campo
Valor, com as devidas adaptaes, tal como nas Figuras 43 a 46.
Ver Figura 54. A tabela final resultante est na Figura 55, j com
as modificaes apropriadas (incluindo a remoo das clulas
vazias das duas variveis).
Anlise Exploratria de Dados utilizando o Microsoft Excel
25

Figura 53 - Tabela dinmica de Tipo x Opinio Layout com freqncias absolutas e todos os %, modificado


Figura 54 - % por linha, coluna e total


Figura 55 - Tabela dinmica de Tipo x Opinio (sem clulas vazias)
Antes de analisar os resultados vamos fazer uma pequena modificao na tabela. Observe
que o Excel ordena os valores das variveis de maneira alfabtica: Confivel, Excelente, Mediana,
Sofrvel, Terrvel. Repare tambm que o ideal seria comear da melhor para a pior opinio (ou
vice-versa). Para conseguir isso basta mudar a ordem dos valores. Vamos fazer isso para a varivel
Opinio, mudando a posio de Confivel para a direita: basta selecionar Confivel, e pressionar o
boto direito do mouse, resultando na Figura 56.
Anlise Exploratria de Dados utilizando o Microsoft Excel
26

Figura 56 - Tabela dinmica Tipo x Opinio - opes de formatao

Observe a opo Mover na Figura 56, selecionando-a vamos Figura 57.

Figura 57 - Tabela dinmica Tipo x Opinio - mudana de ordem de valores
H trs opes possveis: mover Opinio para Linhas (o que no queremos), mover Confivel para a direita
ou mover para o fim. Como precisamos mudar apenas Confivel escolhemos mover para a direita, veja a Figura 58.

Figura 58 - Tabela dinmica de Tipo x Opinio
Anlise Exploratria de Dados utilizando o Microsoft Excel
27
Podemos comparar as opinies em funo do tipo de servio. Sempre devemos comparar os
percentuais dos cruzamentos (por LINHA ou por COLUNA) com percentuais em relao aos totais
de Tipo ou Opinio.

No presente caso, imagine que quisssemos avaliar se h diferena entre as opinies dos
clientes da operadora em funo do tipo de servio. Devemos, ento, usar os percentuais por linha,
comparando os resultados de ps-pago e pr-pago com o Total % por linha. Observe que: do total
de clientes, 10,13% tem opinio Excelente, 15,39% Confivel, 29,28% Mediana, 20,09% Sofrvel e
25,11% Terrvel. Se houver diferena de opinio dependendo do tipo de servio os percentuais por
linha de cada tipo devem ser substancialmente diferentes (pelo menos 5%) desses valores. Na
Figura 58 possvel constatar:
- 6,53% dos clientes de Ps-pago consideram a qualidade do servio Excelente, contra 12,76% do
Pr-pago e 10,13% no total geral (observe que o percentual do Pr-pago quase o dobro do Ps-
pago);
- 4,91% dos clientes de Ps-pago tm opinio Confivel, contra 23,02% do Pr-pago e 15,39% do
Total (percentual do Pr-pago mais de 4 vezes maior do que o Ps-pago, e ambos esto a mais de
5% do Total
3
);
- 23,69% dos clientes de Ps-pago tm opinio Mediana, contra 33,34% do Pr-pago e 29,28% do
Total (percentuais do Pr-pago e Ps-pago esto a mais de 5% do Total);
- 24,74% dos clientes de Ps-pago tm opinio Sofrvel, contra 16,71% do Pr-pago e 20,09% do
Total (houve uma inverso em relao s opinies anteriores, os clientes do Ps-pago parecem mais
insatisfeitos);
- 40,13% dos clientes de Ps-pago tm opinio Terrvel, contra apenas 14,18% do Pr-pago e
25,11% do Total (percentual do Ps-pago mais de duas vezes maior do que o Pr-pago, e mais de
1,5 vezes maior do que o Total).
Conclui-se, portanto, que os clientes do Ps-pago esto mais insatisfeitos do que os do Pr-pago.

Alm disso, temos os percentuais por coluna. Verifica-se que, do total de opinies Excelente
nada menos do que 72,87% so de clientes de Pr-pago, e 67,31% das opinies Terrvel so de Ps-
pago (sendo que os de Pr-pago representam 57,90% do total de clientes e os de Ps-pago
42,10%
4
), mostrando claramente que estes ltimos esto mais insatisfeitos do que aqueles,
corroborando as concluses da anlise dos percentuais por linhas. A Figura 59 resume o
comportamento dos percentuais e mostra como eles mudam em relao ao total geral dependendo
do Tipo de servio: as linhas de Ps-pago e Pr-pago cruzam a do Total geral, indicando mudana
de opinio dependendo do Tipo.
0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
45,00%
Excelente Confivel Mediana Sofrvel Terrvel
Total geral
Total ps-pago
Total pr-pago

Figura 59
5
- Percentuais de Opinio por Tipo de servio

3
Se no houvesse relao entre Tipo e Opinio os percentuais de Ps-pago e Pr-pago deveriam ser prximos de
15,39%.
4
Novamente, se no houvesse relao entre Tipo e Opinio os percentuais de Excelente de Ps-pago deveriam ser
prximos de 42,10% e de Pr-pago 57,90%; a mesma coisa para os percentuais de Terrvel.
5
Esta figura um grfico de linhas, que estudaremos posteriormente.
Anlise Exploratria de Dados utilizando o Microsoft Excel
28

4.3 Trs Variveis Qualitativas

Em tese poderamos construir tabelas para cruzar qualquer nmero de variveis qualitativas.
Contudo, a interpretao dos resultados seria bastante difcil
6
. Mas, para os casos em que h no
mximo 3 variveis plenamente possvel construir e interpretar uma tabela dinmica no Excel
2007. Vamos supor que queremos avaliar se homens ou mulheres, dependendo do tipo de servio,
esto mais satisfeitos (apresentam mais opinies Excelente e Confivel). So trs variveis
qualitativas: Sexo, Tipo e Opinio. J construmos uma tabela dinmica relacionando Tipo (nas
linhas) e Opinio (nas colunas). O ideal seria obter uma tabela semelhante para o sexo feminino e
outra para o feminino, de maneira a poder comparar os percentuais por linha, por exemplo. Isso
pode ser feito com facilidade no Excel 2007 seguindo os passos usuais de montagem de tabela
dinmica, conforme visto na seo 4.2, para duas variveis qualitativas:
- posicione o cursor em algum ponto do conjunto de dados; procure no menu Inserir por Tabela
Dinmica, como na Figura 37; ponha a tabela em uma clula da mesma planilha onde est a tabela
de Tipo, e a tabela de Tipo por Opinio, como mostrado na Figura 60.

Figura 60 - Clula de destino de uma tabela dinmica
Pressionando OK, chega-se uma situao parecida a da Figura 40. Mas, agora vamos
colocar trs variveis na Tabela, Tipo na Linha, Opinio na Coluna, tal como na seo 4.3, e Sexo
no campo Filtro de Relatrio: com isso a tabulao cruzada de Tipo e Opinio ser construda em
funo dos valores de Sexo. No podemos esquecer tambm do campo Valores: vamos pr as
freqncias absolutas e os percentuais por linha
7
(veja a seo 4.3), resultando na Figura 61.

Figura 61 - Lista de campos de uma tabela dinmica de 3 variveis qualitativas

6
Nestes casos recomendvel usar anlise estatstica multivariada.
7
Vamos manter apenas estes para no sobrecarregar demais a tabela, mas nada impede de manter os percentuais por
coluna e em relao ao total geral.
Anlise Exploratria de Dados utilizando o Microsoft Excel
29
Note-se que o boto Valores j foi movido do campo Rtulos de Coluna (ver Figura 52)
para o campo Rtulos de Linha. Aps fazer as modificaes necessrias (mudana de Contar de
Tipo para Freqncias, Contar de Tipo2 para % por linha, mudana de ordem de Confivel,
remoo das clulas vazias de Tipo e de Opinio) o resultado a Figura 62.

Figura 62 - Tabela dinmica de Tipo por Opinio em funo do Sexo dos clientes
Trata-se de parte da tabela mostrada na Figura 58, porque na varivel Sexo est selecionada
a opo Tudo. Clicando sobre ao lado de Sexo, vemos as opes de exibio da Figura 63.

Figura 63 - Opes de exibio da varivel Sexo
As possibilidades so: clulas vazias (-), Feminino e Masculino. Se selecionarmos
Feminino, o resultado ser a Figura 64. Ao escolhermos Masculino obtemos a Figura 65.

Figura 64 - Tipo x Opinio para o sexo Feminino


Figura 65 - Tipo x Opinio para o sexo Masculino
Anlise Exploratria de Dados utilizando o Microsoft Excel
30
Repare que na Figura 64 o total geral vale 2241 (e no mais 4983 da Figura 62), pois so
consideradas apenas as clientes. Na Figura 65, apenas os 2735 homens. A soma resulta 4976 (ao
invs de 4983) porque as clulas vazias no foram selecionadas em Tipo, Opinio e Sexo. Podemos
chegar a algumas concluses:
- lembre-se que os clientes do Ps-pago esto mais insatisfeitos;
- mas os percentuais de insatisfao so maiores entre os homens, do que em relao ao geral na
Figura 61 pode-se ver que Sofrvel e Terrvel so 20,09% e 25,11% do total, e os respectivos
percentuais dos homens so maiores (21,76% e 28,67%) e os das mulheres menores (18,07% e
20,84%);
- quando segmentamos em funo do Tipo percebe-se o mesmo padro anterior (Ps-pago mais
insatisfeito), mas com menor variao entre homens e mulheres;
# No total, em Ps-pago, h 24,74% de Sofrvel e 40,13% de Terrvel;
# No Feminino, Ps-pago, h 23,98% de Sofrvel e 37,52% de Terrvel (ligeiramente abaixo
do total de Ps-pago), j no Masculino h 25,14% de Sofrvel e 41,62% de Terrvel
(ligeiramente acima do total de Ps-pago).
# No total, em Pr-pago, h 16,71% de Sofrvel e 14,78% de Terrvel;
# No Feminino, Pr-pago, h 15,34% de Sofrvel e 13,12% de Terrvel (ligeiramente abaixo
do total de Pr-pago), j no Masculino h 18,28% de Sofrvel e 15,40% de Terrvel
(ligeiramente acima do total de Ps-pago).
Conclui-se, ento que homens so em geral mais insatisfeitos com a operadora do que as mulheres,
e homens que so clientes de ps-pago so os mais descontentes. Mas, a diferena entre homens e
mulheres no to grande: no chega a 5% em nenhuma das comparaes (veja as Figura 66 a 70)
indicando que a relao entre Tipo e Opinio parece ser mais forte, com pouca influncia do Sexo
do cliente.

0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
ExcelenteConfivel Mediana Sofrvel Terrvel
Total geral
Total feminino
Total masculino

0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
45,00%
Total ps-pago
feminino ps-pago
masculino ps-pago

Figura 66 - Percentuais de Opinio x Sexo Figura 67 - Percentuais de Opinio x Sexo Ps-pago
0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
Total pr-pago
feminino pr-pago
masculino pr-pago

0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
Total feminino
feminino ps-pago
feminino pr-pago

Figura 68 - Percentuais de Opinio x Sexo Pr-pago Figura 69 - Percentuais de Opinio x Tipo Feminino

Quando segmentamos a opinio apenas por sexo (analisando o geral, apenas os clientes do
ps-pago ou do pr-pago), as linhas (que representam os % para cada opinio) esto bem prximas
(quase coincidentes em alguns casos), indicando comportamento similar: parece que o Sexo no
Anlise Exploratria de Dados utilizando o Microsoft Excel
31
uma varivel que influencie muito a opinio dos clientes, embora os homens estejam ligeiramente
mais insatisfeitos a linha dos percentuais dos homens est abaixo da do total para opinies
positivas e acima para as opinies negativas (ver Figuras 66, 67 e 68). Mas, ao segmentar a opinio
por tipo (analisando os resultados para o sexo feminino e masculino), observa-se um
comportamento semelhante ao obtido na Figura 59, com a linha do ps-pago substancialmente
abaixo do total para mulheres e homens para as opinies positivas e acima para as opinies
negativas (17% acima na opinio Terrvel Feminino, e 13% acima na opinio Terrvel Masculino),
embora eles estejam ligeiramente mais insatisfeitos do que elas (ver Figuras 69 e 70).

0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
45,00%
Total masculino
masculino ps-pago
masculino pr-pago

Figura 70 - Percentuais de Opinio x Tipo Masculino

Conclui-se ento que o Tipo de servio parece ter relao mais forte com a Opinio do que o
Sexo dos clientes.


4.4 Grficos para variveis qualitativas

bastante comum construir grficos para representar distribuies de freqncias de
variveis qualitativas (uma ou mais). Os grficos mais apropriados so os grficos de barras (ou de
colunas) e os grficos em setores (circular ou em pizza).

4.4.1 Grficos para uma varivel qualitativa
Suponha que h interesse em construir um grfico para a tabela da varivel qualitativa Tipo,
vista na seo 4.1, Figura 48. As opes possveis so grfico de barras (colunas no Excel) e em
setores.

Grfico de barras (colunas)

Ponha o cursor em algum ponto da tabela dinmica de Tipo, e procure no menu Inserir por grficos,
como na Figura 71.

Figura 71 - Opes de grficos
Clique no tipo de grfico e, em seguida, clique no subtipo de grfico que deseja usar. No nosso
caso, queremos Colunas (barras verticais). Se pressionarmos a seta imediatamente abaixo de
Colunas possvel ver todos os subtipos disponveis (Figura 72).
Anlise Exploratria de Dados utilizando o Microsoft Excel
32


Figura 72 - Subtipos de grficos de colunas


Figura 73 - Grfico de colunas de Tipo - 1a verso

Na parte superior de Painel Filtro da Tabela Dinmica h Campos Ativos na Tabela
Dinmica: precisamos pression-lo para remover os % do grfico, com a finalidade de torn-lo
mais claro. Mas, ao fazer isso vamos remov-los da tabela dinmica original tambm. Assim, se
no quiser perd-la, copie a tabela e cole-a como valores em algum outro ponto da planilha, e
construa o grfico a partir da cpia. Pressionando Campos Ativos na Tabela Dinmica, chegamos
Figura 74:
- selecionando % no campo Valores, vamos obter a figura 75;
- escolhendo Remover campo, desaparecer % do grfico e da tabela dinmica original de Tipo,
resultando na Figura 76.

H opo de colunas 2D, 3D, cilindro, cone e pirmide. Embora os
grficos 3D sejam mais atraentes, eles podem levar a interpretaes
equivocadas devido aos diferentes ngulos das colunas e eventuais
sombras geradas. Assim, recomenda-se o uso de colunas 2D. O
primeiro subtipo o de colunas agrupadas, que utilizam as
freqncias absolutas como alturas das colunas, para permitir a
comparao dos valores. O segundo subtipo o de colunas
empilhadas, e o terceiro colunas empilhadas 100%: estes dois ltimos
so mais apropriados para o cruzamento de duas variveis
qualitativas, usando freqncias absolutas ou percentuais por linha ou
coluna, diretamente.
Para a tabela dinmica de Tipo vamos escolher Colunas 2D, colunas
agrupadas, resultando na Figura 73.
A ao padro do Excel
2007 pr o grfico como
objeto na planilha onde
esto os dados. Observe
que aparece no grfico a
legenda Absolutas e
%, mas que estas
ltimas esto invisveis,
pois os percentuais so
muito pequenos em
relao s freqncias
absolutas. H tambm a
caixa Painel Filtro da
Tabela Dinmica.
Anlise Exploratria de Dados utilizando o Microsoft Excel
33

Figura 74 - Campos do grfico dinmico Figura 75 - Opes do campo %


Figura 76 - Grfico de colunas de Tipo - 2a verso

As opes mais interessantes neste momento so Design (Figura 77) e Layout (Figura 78).


Figura 77 - Opes de design de grfico dinmico de colunas

Podemos alterar o tipo de grfico, selecionar dados, mudar o estilo do grfico e mesmo
mov-lo para outro local, uma planilha especfica, por exemplo, para permitir melhor visualizao.


Figura 78 - Opes de layout de grfico dinmico de colunas
Nas opes de layout podemos modificar formato e posio dos ttulos (do grfico e dos
eixos), a rea de plotagem, adicionar Linha de Tendncia e modificar a Legenda. No nosso caso,
no queremos exibi-la, ento, ao selecionar Legenda obtemos a Figura79.
Observe que o grfico est com o
ttulo genrico Total, e
apresenta uma legenda
desnecessria. Tambm no h
ttulo no eixo vertical, para
indicar que se trata de freqncias
absolutas da varivel Tipo.
Para modificar ttulo geral basta
clicar sobre ele e reescrev-lo:
Tipo de servio. Alm disso, ao
selecionar o grfico com o mouse
surge o conjunto de opes
Ferramentas de Grfico
Dinmico.
Anlise Exploratria de Dados utilizando o Microsoft Excel
34



Figura 79 - Opes de legenda do grfico dinmico

Escolhendo Nenhum na Figura 79 a legenda desaparecer. Mas, precisamos acrescentar
um ttulo ao eixo vertical, selecionando Ttulo dos Eixos na Figura 78, e a opo Ttulo do Eixo
Vertical Principal chegamos Figura 80.


Figura 80 - Opes de Ttulo do Eixo Vertical Principal em Grfico Dinmico

Ttulo Girado permitir que o nome acompanhe o eixo, e com esta seleo o Excel 2007 cria
automaticamente uma caixa de texto chamada Ttulo o eixo, que pode ser modificada exatamente
como o ttulo do grfico. O resultado final, aps a remoo da legenda e acrscimo dos ttulos
estna Figura 81

Anlise Exploratria de Dados utilizando o Microsoft Excel
35

Figura 81 - Grfico de colunas de Tipo de servio - Final

A interpretao do grfico a mesma da tabela, feita na seo 4.1. A principal vantagem do
grfico a rapidez na apreenso da informao: em uma simples olhada o leitor pode
compreender o bsico da distribuio de freqncias, o que muito til em apresentaes ou
conferncias, onde geralmente h pouco tempo disponvel. Mas, a mesma rapidez de apreenso
pode nos levar a erros de interpretao se o grfico for modificado (com ou sem segundas
intenes) para causar um determinado efeito. No grfico da Figura 81 percebe-se uma diferena
entre os dois tipos de servio, com preponderncia do Pr-pago (57%) sobre o Ps-pago (43%): no
se trata de uma grande discrepncia e o grfico mostra isso porque a escala do eixo vertical comea
no zero. Se no comeasse no zero, as posies relativas das alturas das colunas seriam mudadas, o
que poderia levar a interpretaes equivocadas. No obstante, pode ser necessrio mudar a escala do
grfico. O primeiro passo selecionar o eixo a mudar e pressionar o boto direito do mouse,
levando Figura 82.


Figura 82 - Opes de formatao de grfico e eixo

Pressionando Formatar Eixo nos leva Figura 83. Automaticamente o Excel 2007 escolhe a
escala mais apropriada de acordo com os dados de origem (Opes de Eixo: Automtico). Mas,
podemos trocar os limites e as unidades da escala. Na Figura 84 trocamos o mnimo para Fixo,
indicando que o eixo vertical comear em 1000. O grfico resultante mostrado na Figura 85.
Anlise Exploratria de Dados utilizando o Microsoft Excel
36

Figura 83 - Opes de Eixo Figura 84 - Mudana de escala no eixo vertical


Figura 85 - Grfico de colunas de Tipo de servio escala vertical modificada
Observe que a diferena entre os dois tipos de servio parece um pouco mais acentuada
agora. O leitor desatento pode ach-la maior do que na realidade, pois seu olhar atrado para
as colunas, muito poucos prestaro ateno no valor inicial da escala vertical.

Grfico de setores

O grfico de setores pode ser construdo da mesma forma que o grfico em colunas, a partir
da tabela dinmica de uma varivel qualitativa. A diferena que ele apresentar automaticamente
os percentuais de cada valor que ela pode assumir em relao ao total geral.

Ponha o cursor em algum ponto da tabela dinmica de Tipo, e procure no menu Inserir por
grficos, como na Figura 71, mostrada anteriormente. Clique no tipo de grfico e, em seguida,
clique no subtipo de grfico que deseja usar. Agora, queremos Pizza. Se pressionarmos a seta
imediatamente abaixo de Pizza possvel ver todos os subtipos disponveis (Figura 86).

Anlise Exploratria de Dados utilizando o Microsoft Excel
37

Figura 86 - Subtipos de grficos em Pizza


Figura 87 - Grfico em pizza de Tipo de servio - 1a verso

Para acrescentar os percentuais preciso selecionar o grfico e observar novamente as
Ferramentas do Grfico Dinmico. As opes de Design na Figura 88 (veja que so adaptadas ao
grfico de Pizza), e as opes de Layout na Figura 89, incluindo Rtulos de Dados.


Figura 88 - Opes de design de grfico dinmico em Pizza


Figura 89 - Opes de layout de grfico dinmico em Pizza

Pressionando na seta ao lado de Rtulo de Dados chegamos Figura 90.


H opo de Pizza 2D e 3D. A mesma recomendao sobre os grficos
3D feitas nos grficos de colunas permanecem vlidas, alm de puderem
ser estendidas para os casos de grficos em pizza com fatias explodidas
(destacada, no Excel 2007). Assim, recomenda-se o uso de Pizza 2D
simples. Um inconveniente do grfico em pizza no Excel a
impossibilidade de us-lo quando houver cruzamento de variveis
qualitativas.
Para a tabela dinmica de Tipo vamos escolher Pizza 2D resultando na
Figura 87.
Como a tabela dinmica j
no tinha mais o campo %,
o grfico apresenta apenas
as freqncias absolutas,
convertidas em arcos do
crculo (o total corresponde
a 360 e as freqncias
absolutas de Ps-pago e Pr-
pago aos respectivos arcos.
Precisamos mudar o Ttulo
do grfico (basta clicar
sobre Total e reescrever, e
acrescentar os %, que no
esto visveis.
Anlise Exploratria de Dados utilizando o Microsoft Excel
38

Figura 90 - Opes de Rtulo de Dados para Grfico em Pizza


Figura 91 - Mais opes de Rtulo de Dados Figura 92 - Grfico em pizza de Tipo de Servio - Final

4.4.2 Grficos para duas variveis qualitativas
Suponha que h interesse em construir um grfico para a tabela conjunta das variveis
qualitativas Tipo e Opinio, vista na seo 4.2, Figura 58. A opo grfico de barras (colunas no
Excel), mas podendo usar vrios subtipos. Antes, porm, vamos copiar a tabela dinmica inteira
para uma rea livre na planilha e remover todos os percentuais, o que resultar na Figura 93.

Figura 93 - Tabela dinmica deTipo por Opinio - apenas freqncias absolutas

Ponha o cursor em algum ponto da tabela dinmica de Tipo por Opinio, e procure no menu
Inserir por grficos, como na Figura 71. Clique no tipo de grfico e, em seguida, clique no
subtipo de grfico que deseja usar. No nosso caso, queremos Colunas (barras verticais). Se
pressionarmos a seta imediatamente abaixo de Colunas possvel ver todos os subtipos
disponveis (Figura 72). Neste momento vamos escolher Colunas 2D agrupadas, o que resulta no
grfico da Figura 94.


As opes se referem inicialmente
posio onde sero colocados os rtulos,
destacando-se Centro e Melhor Ajuste.
Mas, precisamos de mais opes de
Rtulos de Dados para acrescentar os percentuais
de interesse. Pressionando Mais Opes de
Rtulos de Dados, o resultado a Figura 91. Em
Opes de Rtulo possvel marcar
Porcentagem e escolher sua posio como Melhor
Ajuste, finalmente obtendo o grfico da Figura 92.
Anlise Exploratria de Dados utilizando o Microsoft Excel
39

Figura 94 - Grfico de colunas 2D agrupadas de Tipo por Opinio

Observe que no h problemas com os percentuais, nem com a escala que comea em zero.
Percebe-se que as freqncias de Excelente e Confivel so maiores em Pr-pago do que em
Ps-pago, e, as de Sofrvel e Terrvel so maiores neste ltimo. Para interpretar este grfico
preciso olhar para a altura e disposio das barras: quando elas so diferentes, como no caso
acima, indicam relacionamento entre as variveis (dependendo do Tipo de servio a satisfao
maior). Mas, quando elas so semelhantes, isso significa que as variveis apresentam pouco ou
nenhum relacionamento. Imagine que a tabela dinmica de Tipo por Opinio levasse ao grfico da
Figura 95:
0
100
200
300
400
500
600
700
800
900
Ps-pago Pr-pago
Excelente
Confivel
Mediana
Sofrvel
Terrvel

Figura 95 - Grfico de colunas 2D agrupadas de Tipo por Opinio Pouco relacionamento

Os dois grupos de barras so muito semelhantes, embora a quantidade de clientes do Pr-
pago seja maior, possvel perceber que o comportamento bastante semelhante.

O grfico de colunas 2D agrupadas, no entanto, exige uma certa prtica para sua correta
interpretao, o que pode causar alguns problemas nos casos em que as diferenas entre as variveis
no forem grandes. Uma soluo usar outro subtipo de grfico de colunas 2D: colunas 2D 100%
empilhadas, onde sero apresentados os percentuais em relao s linhas ou colunas, o que
permitir uma anlise mais acurada. Para o grfico da Figura 94, basta selecionar o grfico e
pressionar o boto direito do mouse, o que faz surgir as opes da Figura 96.
Anlise Exploratria de Dados utilizando o Microsoft Excel
40

Figura 96 - Alterao do tipo de grfico


Figura 97 - Opes de alterao de tipo de grfico

Como o grfico de origem era de coluna seus subtipos aparecem em destaque, mas
poderamos escolher qualquer um. Mas, desejamos os percentuais, ento escolhemos Colunas 2D
100% empilhadas, resultando na Figura 98.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Ps-pago Pr-pago
Terrvel
Sofrvel
Mediana
Confivel
Excelente

Figura 98 - Grfico de colunas 2D 100% empilhadas de Tipo por Opinio
Anlise Exploratria de Dados utilizando o Microsoft Excel
41
possvel perceber claramente que os clientes do Ps-pago apresentam percentuais de Terrvel e
Sofrvel bem maiores do que os do Pr-pago, como havamos concludo anteriormente ao analisar
os percentuais por linha na Figura 58.

Ao modificar o grfico da Figura 95 chegamos Figura 99:
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Ps-pago Pr-pago
Terrvel
Sofrvel
Mediana
Confivel
Excelente

Figura 99 - Grfico de colunas 2D 100% empilhadas de Tipo por Opinio Pouco relacionamento

Ao contrrio do caso da Figura 98 as duas colunas so muito parecidas, com os percentuais para
bastante prximos, o que indica pouco relacionamento entre as variveis Tipo e Opinio.

Para fazer um grfico com trs variveis qualitativas, basta seguir os passos desta seo
usando a tabela com 3 variveis qualitativas mostrada na seo 4.3. possvel construir um grfico
para cada valor da varivel Sexo: um para Feminino (Figura 64) e outro para Masculino (Figura
65), e compar-los
8
.


5. Anlise de dados de variveis quantitativas


Para variveis quantitativas h uma maior variedade de procedimentos disponveis.
preciso distinguir os procedimentos relativos variveis discretas e contnuas, bem como os casos
em que queremos fazer uma anlise de uma varivel quantitativa em funo de uma qualitativa (por
exemplo, Renda por Tipo de Servio). Vamos ver os procedimentos nos prximos itens.

5.1 - Procedimentos para variveis quantitativas discretas tabelas
dinmicas

Se a varivel for discreta, por exemplo, a varivel Anos, no arquivo Celular01.xls, que
representa o nmero de anos completos em que cada pessoa daquele arquivo cliente da operadora
de celular. Vamos construir uma tabela dinmica para esta varivel, repetindo os procedimentos
vistos para uma varivel qualitativa, Figuras 37 a 40, pondo os resultados em uma planilha existente
ou no. Chegamos ento ao layout da tabela dinmica de Anos, mostrado na Figura 100: a varivel

8
O ideal copiar a tabela dinmica com trs variveis, e construir os grficos separadamente, para poder compar-los.
Anlise Exploratria de Dados utilizando o Microsoft Excel
42
Anos vai para Rtulos de Linha e Valores (no incluiremos nenhum percentual ainda). Aps a
insero dos dados, e com pequenas modificaes (incluindo a remoo das clulas vazias), surge a
tabela da Figura 101.


Figura 100 - Layout da tabela dinmica de Anos Figura 101 - Tabela dinmica de Anos

A tabela da Figura 101 no est correta do ponto de vista estatstico. Quando lidamos com
uma varivel quantitativa discreta, todos os valores entre os extremos precisam fazer parte da
tabela, mesmo que no ele no ocorra no conjunto de dados (tenha freqncia zero). Precisamos
ento fazer mais modificaes para obter a tabela correta. Para tornar a tabela correta podemos
copi-la
9
para clulas apropriadas em outra parte da planilha, incluindo as freqncias. Isso
mostrado na Figura 102.

Figura 102 - Cpia das clulas da Tabela dinmica de Anos

O prximo passo corrigir novamente a tabela, para incluir o valor 13, que exigir a
insero de clulas entre as clulas referentes aos valores 12 e 14: selecionam-se as clulas onde
queremos inserir as novas, no menu Incio procuramos pela opo Inserir, e dentro desta
escolhemos Inserir clulas como na Figura 103.

9
Ao fazer a colagem opte por Colar valores.
Anlise Exploratria de Dados utilizando o Microsoft Excel
43



Figura 103 - Insero de clulas no Excel 2007



Figura 104 - Insero de clulas: deslocamento para baixo


Figura 105 - Clulas inseridas na Tabela de Anos Figura 106 - Tabela de freqncias de Anos

Podemos acrescentar percentuais tabela, atravs de regra de trs simples, tendo 4996 como
100%, trocando o formato das clulas para %, o que resulta na Figura 107.
Pressionando Inserir clulas o Excel apresentar a Figura 104.
Basta escolher Deslocar clulas para baixo, resultando na Figura
105. Agora precisamos completar a tabela com o valor 13 e sua
freqncia, que vale zero. Ao fazermos isso completamos a tabela de
freqncias de Anos (Figura 106).
Anlise Exploratria de Dados utilizando o Microsoft Excel
44

Figura 107 - Tabela de Anos: freqncias e percentuais

5.1.1 Distribuio de freqncia acumulada

Quando lidamos com variveis quantitativas (discretas ou contnuas) torna-se interessante
acrescentar tabela as freqncias e percentuais acumulados, o que pode enriquecer a anlise. Para
tanto podemos acrescentar tabela da Figura 107 uma coluna, e usar a funo CONT.SE, que pr-
programada no Excel, e pode ser usada para qualquer tipo de varivel. Esta funo conta quantos
valores em um determinado intervalo de dados atendem a um critrio estabelecido. O
estabelecimento do critrio no permite, porm, que sejam includos dois limites, por exemplo,
contar todos os valores que so maiores do que 15000 e menores do que 27000. Mas, possvel
utilizar outras clulas da planilha ao definir o critrio (por exemplo, contar todos os valores menores
do que o contedo da clula L12). Esta funo tem a seguinte sintaxe:
CONT.SE(intervalo de clulas; critrios de contagem)
Sabe-se que os dados da varivel Anos encontram-se nas clulas H2 a H5001 da planilha de
dados
10
, este dever ser o intervalo inserido na funo CONT.SE. O critrio dever ser igual ao
contedo da clula P2, que contm o primeiro valor da varivel (Ps-pago). Vejam na Figura 108:

Figura 108 - CONT.SE: primeira freqncia acumulada da varivel Ano

10
No arquivo Celular01.xlsx a Plan1.
Anlise Exploratria de Dados utilizando o Microsoft Excel
45
O critrio precisa ser colocado entre aspas (<=), significando que todos os valores
menores ou iguais referncia sero contabilizados naquela clula. A referncia clula AK2 (de
Plan2) precisa ser precedida pelo caracter especial &, ou a funo retornar uma mensagem de erro.
Observe que o intervalo H2:H5001 tem alguns caracteres $. Isso feito para que este intervalo
torne-se uma referncia absoluta, para quando arrastarmos a frmula at o fim da tabela, a
contagem seja feita sempre no mesmo intervalo. O resultado final est na Figura 109.

Figura 109 - Tabela de Anos: freqncias absolutas, acumuladas e %

Observe-se que 95,98% das pessoas so clientes a no mximo 8 anos da operadora. E que
apenas 21,74% tornaram-se clientes nos ltimos 3 anos, corroborando a anlise feita acima.

A avaliao cuidadosa das freqncias e percentuais acumulados permite obter muitas
informaes preciosas sobre os dados. A freqncia e o percentual acumulados tambm podem ser
apresentados na direo oposta, dos maiores para os menores valores, se for do interesse do analista.

5.1.2 Histograma para variveis quantitativas discretas

O grfico de colunas para uma varivel quantitativa recebe o nome especial de histograma.
Trata-se de um grfico de colunas justapostas (com espaamento nulo entre elas) em que as reas
das colunas so proporcionais s freqncias dos valores. Se pusermos o cursor em qualquer ponto
da tabela da Figura 109 e selecionarmos Inserir, grfico, colunas 2D, o resultado ser a Figura 110.
0
1000
2000
3000
4000
5000
6000
0123456789
1
0
1
1
1
2
1
3
1
4
T
o
t
a
l

g
e
r
a
l
Freqncias
%
Freq. Acumulada

Figura 110 - Histograma de Anos - 1a verso
Observe que o grfico tem vrias sries que no nos interessam (%, freqncia acumulada, alm do
total geral). Todas estas precisam ser removidas: seleciona-se o grfico e pressiona-se o boto
direito do mouse, resultando na Figura 111.
Pode-se perceber uma concentrao dos
clientes nos valores centrais, em torno de 5
anos. Podemos constatar:
- o valor 5 o mais freqente, 1011 pessoas
so clientes h 5 anos completos;
- a esmagadora maioria das pessoas cliente
da operadora entre 3 a 7 anos (78,72%);
- clientes de longo prazo so relativamente
poucos, pouco mais de 1% das pessoas est a
10 anos ou mais na operadora;
- a empresa parece no estar conseguindo
aumentar sua base de clientes nos ltimos
tempos, apenas 10,90% das pessoas
tornaram-se clientes nos ltimos 3 anos.
Anlise Exploratria de Dados utilizando o Microsoft Excel
46

Figura 111 - Opes de grfico - histograma de Anos


Figura 112 - Seleo de fontes de dados - histograma de Anos

0
200
400
600
800
1000
1200
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Anos
Freqncias

Figura 113 - Histograma de Anos - 2a verso

H um problema com o histograma da Figura 113: os dados dos Anos, que eram rtulos do
eixo X moveram-se para o eixo Y, o que no est correto. Novamente, precisamos selecionar os
dados, como na Figura 111, levando Figura 114.

Para remover os dados
desnecessrios pressiona-se
Selecionar Dados, o que nos
leva Figura 112. Marca-se %
e pressiona-se Remover,
marca-se Freq. Acumulada e
tambm se pressiona
Remover. Alm disso, os
dados incluem at a linha 17,
o total geral. Portanto, em
Intervalo de dados do
grfico devemos trocar o 17
por 16:
=Plan2!$AK$1:$AN$17 por
=Plan2!$AK$1:$AN$16
Resultado na Figura 113.
Anlise Exploratria de Dados utilizando o Microsoft Excel
47

Figura 114 - Seleo de fontes de dados - histograma de Anos - modificaes

0
200
400
600
800
1000
1200
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Freqncias
Freqncias

Figura 115 - Histograma de Anos - 3a verso

Podemos mudar o ttulo, remover a legenda (j que h apenas uma srie de dados), entre outras
alteraes cosmticas. Mas, foi mencionado que as colunas do histograma precisam ser justapostas.
Portanto, precisamos reduzir o espaamento entre elas a zero. Basta selecionar as colunas e
pressionar o boto direito do mouse (Figura 116).


Figura 116 - Opes de formatao de sries de dados - histograma Anos

Escolhendo Formatar Srie de Dados surge a Figura 117.


A srie Anos foi removida das Entradas
de Legenda e no campo Rtulos do Eixo
Horizontal, pressionamos Editar e
selecionamos o intervalo Plan2!AK2:AK16
que contm os valores dos Anos descritos na
tabela da Figura 109.
Pressionando OK na Figura 114 chegamos ao
histograma da Figura 115.
Anlise Exploratria de Dados utilizando o Microsoft Excel
48

Figura 117 - Opes de formatar sries de dados

Reduzindo o campo Largura do espaamento a Sem intervalo, alm das mudanas nos
ttulos e legenda, o histograma correto mostrado na Figura 118.

0
200
400
600
800
1000
1200
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
F
r
e
q

n
c
i
a
s
Anos como clientes

Figura 118 - Histograma de Anos completos como cliente

Percebe-se claramente que os anos esto concentrados em torno de 5 anos, diminuindo as
freqncias progressivamente, medida que se afastam de 5.







Anlise Exploratria de Dados utilizando o Microsoft Excel
49
5.2 - Procedimentos para variveis quantitativas contnuas

Se a varivel de interesse for quantitativa contnua, como Renda no arquivo Celular01.xlsx,
ser necessrio construir uma tabela de freqncias agrupada em classes, ou seja agrupar os dados.
Como os valores de uma varivel contnua repetem-se pouco (ou no se repetem), teramos uma
tabela dinmica imensa (com talvez centenas de linha no caso da varivel Renda), se isso no fosse
feito.

Vamos observar os passos necessrios:
1) Determinar o intervalo do conjunto
Para tanto, temos que identificar os extremos do conjunto, seus valores mximo e mnimo.
Vamos colocar o mnimo na clula AQ2 e o mximo na clula AQ3, todas na Plan2. Selecione esta
clula com o cursor. Podemos inserir as funes ou escrev-las diretamente nas clulas:
= MNIMO(Plan1!G2:G5001) = MXIMO(Plan1!G2:G5001) Veja a Figura 119.

Figura 119 - Mnimo e mximo para a varivel Renda
Para calcular o intervalo basta colocar a frmula respectiva em uma clula, AR4 por
exemplo. Veja a Figura 120.


Figura 120 - Intervalo para Renda

2) Dividir o intervalo em um nmero conveniente de classes.
Usualmente definimos o nmero de classes calculando a raiz quadrada do tamanho do
conjunto. Na varivel Renda h 4996 observaes, extraindo a raiz quadrada (a funo RAIZ, na
categoria "Matemtica e trigonomtrica" do Excel), obtemos 70,68. Poderamos utilizar 71 classes,
mas este valor seria elevado (criaramos muitas categorias, o que talvez prejudicasse nosso objetivo
de resumir o conjunto de dados). Por outro lado, usar poucas classes pode resumir demais o
conjunto, forando o agrupamento. Arbitrariamente usaremos 10 classes. Com isso a amplitude das
classes seria igual a 42,875 (intervalo) dividido por 10, resultando que cada classe teria uma
amplitude de 4,2875. Veja a Figura 121.


Figura 121 - Amplitude de classes de Renda

Observa-se, conforme anteriormente usando o Auto-filtro, que a Renda
varia de 1,003 a 43,878 salrios mnimos, resultando em um intervalo de
42,875 salrios mnimos, que precisa ser dividido em um nmero
conveniente de classes.
3) Estabelecer os limites das classes.
Podemos arbitrar valores diferentes para a amplitude
das classes e o valor inicial, desde que este seja menor do que
1,003 (1, por exemplo), e a amplitude garanta que o valor
mximo ser includo no conjunto. Escolhendo uma
amplitude de 4,2875, e um valor inicial igual ao mnimo do
conjunto, com 10 classes, o resultado poder ser calculado em
clulas apropriadas, como mostrado a partir da Figura 122.

Anlise Exploratria de Dados utilizando o Microsoft Excel
50

Figura 122 Clculo dos limites inferior e do limite superior da primeira classe de Renda

O limite inferior da primeira classe ser o contedo da clula AR2 (mnimo de Renda), e o
limite superior ser o limite inferior (clula A|R10) mais o contedo da clula AR6 (amplitude das
classes). A amplitude das classes referncia absoluta, para possibilitar arrastar a frmula at o
final da tabela. Precisamos tambm definir os limites da segunda classe da tabela, na Figura 123.

Figura 123 Clculo dos limites inferior e superior da segunda classe de Renda
O limite inferior da segunda classe o limite superior da primeira classe. E o limite superior
igual ao limite inferior mais amplitude das classes. Agora sim, podemos arrastar as clulas AQ11
e AR11 at o fim da tabela e completar as 10 classes. Veja a Figura 124.


Figura 124 - Classes de Renda

4) Determinar as freqncias de cada classe o passo mais
difcil. Podemos resolver o problema se utilizarmos a funo
"CONT.SE". Esta funo conta quantos valores em um
determinado intervalo de dados atendem a um critrio
estabelecido.
Podemos montar uma frmula para obter a
quantidade de observaes entre o limite inferior e superior
de uma classe. Apenas por convenincia, costuma-se supor
que o limite superior apenas limita a classe: se, por
exemplo, houver uma renda de 9,578 salrios mnimos, ela
ser registrada na terceira classe e no na segunda. Apenas o
limite superior da ltima classe, caso ele coincidir com o
valor mximo da varivel, ser considerado como dentro da
classe.
Precisamos tambm definir os pontos mdios das
classes, que passaro a represent-las, como se as
freqncias obtidas fossem deles. Esses procedimentos so
mostrados nas Figuras 125 a 127.
Anlise Exploratria de Dados utilizando o Microsoft Excel
51

Figura 125 - Ponto mdio da primeira classe de Renda
Basta arrastar a frmula da clula AS10 at a AS19 para obter os pontos mdios das classes.


Figura 126 - Obteno da freqncia da primeira classe de Renda
Observe que se contam as ocorrncias menores do que o limite superior da classe, subtradas
da contagem das ocorrncias menores do que o limite inferior, mantendo o intervalo G2 a G5001
(da Plan1- valores de Renda) como referncia absoluta, para permitir arrastar a frmula at a clula
AT19.
Anlise Exploratria de Dados utilizando o Microsoft Excel
52

Figura 127 - Obteno da freqncia da ltima classe de Renda

Observe que na obteno da freqncia da ltima classe de Renda devemos usar o critrio
<= quando lidando com o limite superior da classe, pois ele coincide com o valor mximo do
conjunto. Se no fizermos isso, a contagem desconsiderar este valor mximo, e a tabela ficar
incorreta.

Podemos tambm obter freqncias e percentuais acumulados para a tabela de Renda. Basta
remover o segundo membro das frmulas mostradas nas Figuras 126 e 127, tomando os mesmos
cuidados com o limite superior da ltima classe, como mostrado nas Figuras 128 e 129.


Figura 128 - Obteno da freqncia acumulada da primeira classe de Renda

Anlise Exploratria de Dados utilizando o Microsoft Excel
53

Figura 129 - Obteno da freqncia acumulada da primeira classe de Renda

Aps todas as operaes, incluindo a obteno dos percentuais a tabela agrupada em classes
da Renda resulta na Figura 130.


Figura 130 - Renda agrupada em classes: freqncias absolutas, percentuais, freqncias acumuladas e
percentuais acumulados
Anlise Exploratria de Dados utilizando o Microsoft Excel
54
A maioria absoluta (na realidade, mais, pois so 59,23%) dos clientes tem renda de at 5,29
salrios mnimos. Apenas 7% dos clientes tm renda acima de 13,86 salrios mnimos, o que pode
ser importante para a empresa direcionar seu marketing. O importante, tambm, que a varivel foi
resumida em uma tabela que facilita sua anlise.

5.2.1 Histograma para variveis quantitativas contnuas

De forma anloga ao caso das variveis quantitativas discretas podemos construir um
histograma para uma varivel quantitativa contnua, desde que ela j esteja resumida em uma tabela
agrupada em classes. Agora iremos usar um procedimento diferente de insero de grfico, para
evitar a necessidade de tantas correes como no caso do histograma de Anos. Devemos pr o
cursor em uma clula vazia da planilha e no menu Inserir escolher Grfico, Colunas 2D, colunas
agrupadas. Surgir um grfico totalmente em branco. Selecionando este grfico e pressionando o
boto direito do mouse vamos obter as opes de grfico vistas na Figura 111. Escolhendo
Selecionar dados poderemos selecionar para Entradas de legenda as freqncias da tabela
mostrada na Figura 130 (clulas AT10 a AT19 da Plan2), e para Rtulos do eixo horizontal as
clulas que contm os limites inferiores e superiores das classes, como mostrado na Figura 131.

Figura 131 - Seleo de dados para Histograma de Renda

Pressionando OK o histograma resultante pode ser visto na Figura 132. Novamente, preciso
acrescentar ttulo geral, ttulos nos eixos, e reduzir o espaamento entre as barras. Aps todas essas
operaes o histograma correto est na Figura 132.

0
500
1000
1500
2000
2500
3000
3500
5,2905 9,578 13,8655 18,153 22,4405 26,728 31,0155 35,303 39,5905 43,878
1,003 5,2905 9,578 13,8655 18,153 22,4405 26,728 31,0155 35,303 39,5905
F
r
e
q

n
c
i
a
s
Salrios mnimos
Renda em salrios mnimos

Figura 132 Histograma da Renda dos clientes em salrios mnimos com limites das classes
Anlise Exploratria de Dados utilizando o Microsoft Excel
55
Percebe-se que a maioria esmagadora dos clientes tem renda at 5,2905 salrios mnimos, e
que h muito poucos clientes com renda acima de 22,4405 salrios mnimos. So as mesmas
concluses da tabela da Figura 130, mas a apreenso da informao mais rpida atravs do
grfico.


5.3 Medidas de sntese

Uma das maiores vantagens do Excel (seja qual verso for) a facilidade de clculo das
medidas de sntese. Basta inserir a funo, fornecer os argumentos apropriados e obter os
resultados. possvel calcular as medidas de sntese para uma varivel quantitativa
individualmente, ou em funo de uma ou mais variveis qualitativas (atravs de uma tabela
dinmica ou no). Vamos comear com o clculo individual. Para tanto, no arquivo Celular01.xlsx,
devemos selecionar a planilha Plan1, onde esto os dados. Repare que estes dados j esto
classificados em funo da varivel Tipo (ver seo 2), o que nos ser til em breve.

5.3.1 Medidas de sntese para uma varivel quantitativa

Imagine que queremos fazer uma descrio da varivel Renda, calculando as seguintes
medidas: mdia, mediana, moda, desvio padro, quartil inferior, quartil superior, mnimo e mximo.
Todas estas medidas tm funes pr-programadas no Excel, e podem ser inseridas de vrias
formas. Por exemplo, quando conhecemos a sintaxe da funo podemos digit-la diretamente, como
fizemos com mximo e mnimo de Renda (Figura 119). Ou, podemos usar os menus do Excel 2007:
basta selecionar Frmulas e surge a Figura 133.

Figura 133 - Frmulas no Excel 2007

Na extrema esquerda da Figura 133 est a opo Inserir Funo
11
. Observe tambm as
opes: Usadas Recentemente, Financeira, etc. E, ao final, Mais Funes. Se pressionarmos
esta ltima chegamos Figura 134.

Figura 134 - Frmulas no Excel 2007 Mais funes
Dentre as opes vemos Estatstica, que inclui as medidas de sntese que procuramos. Podemos
inserir as medidas usando Inserir Funo (Figura 133) ou pelo caminho da Figura 134. Mas, antes
de tudo, devemos definir as clulas da Plan1 que armazenaro os resultados. Por convenincia os

11
Exatamente como nas verses anteriores do Excel.
Anlise Exploratria de Dados utilizando o Microsoft Excel
56
resultados das medidas sero postos nas clulas P2 a P8, com os nomes das medidas nas clulas O2
a O8, tal como mostrado na Figura 135.

Figura 135 - Medidas de sntese de Renda - 1a parte
Medidas de sntese pelo boto Inserir Funo

Vamos comear com a mdia. Posicione o cursor na clula P2. Ao pressionar o boto
Inserir Funo surge a tela da Figura 136.


Figura 136 - Funes disponveis no Excel


Figura 137 - Funes estatsticas no Excel - 1a abordagem

Para cada funo o Excel apresenta a sua sintaxe (os argumentos necessrios) e uma
explicao sobre o que ela faz. Se pressionarmos OK passamos tela da Figura 138.
Se soubermos algo da funo podemos digitar parte do
seu nome no campo Procure por uma funo e o
Excel apresentar uma lista de candidatas. Ou
podemos selecionar uma categoria: a padro Mais
recentemente usada. Se clicarmos sobre a seta ao
lado, vamos ver vrias categorias (Figura 137), entre
elas a Estatstica. Ao escolhermos esta todas as
funes existentes desta categoria sero apresentadas,
bastando percorrer a barra de rolagem para encontrar
as que procuramos, como, por exemplo, a mdia.
Anlise Exploratria de Dados utilizando o Microsoft Excel
57

Figura 138 - Argumentos da funo Mdia (para Renda) - 1a verso

Os dados de Renda esto nas clulas G2 a G5001
12
. Ento, ou selecionamos os dados
diretamente (pressionando seta vermelha ao lado dos campos Nm1 ou Nm2 e escolhendo
as clulas com o mouse) ou escrevemos o intervalo G2:G5001. Os dois pontos indicam para o Excel
que todas as clulas do intervalo precisam ser consideradas no clculo, mas a funo desconsidera
clulas vazias. Antes mesmo de pressionar OK o Excel j apresenta o resultado: 5,796 salrios
mnimos (cerca de R$ 2956, em agosto de 2010). Se repetirmos o processo para as outras medidas,
vamos completar os clculos, os procedimentos esto nas Figuras 139 a 142.


Figura 139 - Argumentos das funes Mediana e Moda (Renda) - 1a verso


Figura 140 - Argumentos da funo desvio padro (Renda) - 1a verso



12
A clula G1 excluda por conter o nome da varivel.
importante ressaltar que o arquivo
Celular01.xlsx refere-se a uma AMOSTRA,
ento devemos calcular o desvio padro
amostral com n-1 no denominador da
expresso. No Excel isso feito atravs da
funo DESVPAD(). Se houver interesse no
desvio padro populacional, com n no
denominador, deve-se usar a funo
DESVPADP.
Anlise Exploratria de Dados utilizando o Microsoft Excel
58

Figura 141 - Argumentos das funes Quartil Inferior e Superior (Renda) - 1a verso
Quando se trata do quartil inferior o Excel exige que se escreva 1 no campo Quarto, e 3
para o quartil superior, como explicado na prpria funo.


Figura 142 - Argumentos das funes Mnimo e Mximo (Renda) - 1a verso

E os resultados completos podem ser vistos na Figura 143.


Figura 143 - Medidas de sntese de Renda

A descrio de uma varivel quantitativa consiste em analisar basicamente quatro aspectos:
tendncia central, disperso, assimetria e presena de valores discrepantes. Para a descrio ser
completa precisamos calcular outras medidas de sntese, derivadas das obtidas na Figura 143:
coeficiente de variao percentual, diferenas entre os quartis e a mediana, e os valores que definem
os valores discrepantes. Nas Figuras 144 a 146 apresentamos as operaes:


Figura 144 - Clculo do CV%
O coeficiente de variao percentual o resultado da
diviso do desvio padro pela mdia do conjunto de
dados. Permite comparar a disperso entre grupos com
mdias diferentes.
Anlise Exploratria de Dados utilizando o Microsoft Excel
59

Figura 145 - Clculo das diferenas entre os quartis e a mediana
Se a diferena entre o Quartil superior (Qs) e a Mediana (Md) for bastante prxima da diferena
entre a Mediana e o Quartil Inferior (Qi) o conjunto de dados referente a varivel pode ser
considerado simtrico em relao tendncia central (alm disso, mdia e mediana devem ser
prximas tambm).


Figura 146 - Clculo dos limites para valores discrepantes
Valores discrepantes inferiores so todos aqueles abaixo do limite Qi 1,5(Qs-Qi). E discrepantes
superiores todos acima de Qs + 1,5(Qs-Qi). Os resultados completos esto na Figura 147.


Figura 147 - Medidas de sntese para Renda (completas)

E a descrio da varivel Renda ser mostrada a seguir.

Tendncia Central:
- o valor tpico de Renda oscila entre 4,248 (mediana - 50% dos clientes abaixo e 50% acima deste
valor) e 5,796 salrios mnimos (mdia);
- ou seja, entre R$2166,48 e R$2955,96 (valores de agosto de 2010);
- usando dados do Brasil (IBGE PNAD 2008) que constatou uma renda mdia do brasileiro de R$
1036,00 pode-se dizer que os clientes da operadora de celular tem um bom perfil econmico, pois
sua tendncia central pelo menos duas vezes maior do que a mdia do Brasil
13
.
- a moda vale 6,108 salrios mnimos, mas para variveis quantitativas contnuas esta medida no
tem muito significado, pois os valores se repetem pouco
14
.
Disperso:
- a variao total da renda de 1,003 (mnimo) a 43,878 (mximo) salrios mnimos (R$511,53 a
R$22377,78 valores de agosto de 2010), a maior renda 43 vezes maior do que a menor,
indicando grande disperso;

13
FUNDAMENTAL ter algum padro para comparao, o que foi possvel neste caso.
14
Usando a funo CONT.SE descobre-se que a moda ocorreu apenas 31 vezes em um total de 5000 observaes.
Anlise Exploratria de Dados utilizando o Microsoft Excel
60
- a grande disperso confirmada pelo alto valor do coeficiente de variao percentual, indicando
que o desvio padro representa 86,13% da mdia;
- 25% dos clientes tm renda de at 2,046 (quartil inferior) salrios mnimos (R$1043,56), e 25%
tm renda acima de 7,758 (quartil superior) salrios mnimos (R$3956,58) valores de agosto de
2010;
- como conseqncia da afirmao anterior, 50% dos clientes tm renda entre 2,046 e 7,758 salrios
mnimos.
Assimetria
- mdia e mediana so diferentes, e como a mdia maior do que a mediana a assimetria direita;
- a concluso acima confirmada pela diferena entre quartil superior e mediana (3,51) que maior
do que a entre a mediana e o quartil inferior (2,202).
Valores discrepantes
- no h discrepantes inferiores, pois precisaria haver renda inferior -6,522 salrios mnimos, o que
impossvel;
- h discrepantes superiores, pois h valores acima
15
de 16,326 salrios mnimos (R$8326,26 em
agosto de 2010).

5.3.2 Medidas de sntese para uma varivel quantitativa em funo de uma
qualitativa por classificao

Uma das ferramentas mais teis de anlise exploratria de dados de variveis quantitativas
o breakdown: consiste em calcular medidas de sntese de uma varivel quantitativa em funo dos
valores de uma ou mais variveis qualitativas (que podem ser chamadas de variveis de
agrupamento ou independentes). Com base nos resultados encontrados possvel avaliar se as
variveis apresentam algum relacionamento:
- da mesma forma que para as variveis qualitativas devem-se comparar os valores totais com os
obtidos para cada valor das variveis e agrupamento;
- se houver diferenas significativas entre as medidas totais (com todos os dados) e as para cada
grupo formado em funo dos valores das variveis de agrupamento h evidncia de
relacionamento entre as variveis.

Imagine que h interesse em avaliar se os clientes de Ps-pago e Pr-pago tm perfil de
renda diferente. Neste caso h duas variveis: Tipo, que ser a independente (ou de agrupamento) e
Renda, que ser a dependente. Na seo 5.3.1 calculamos as medidas de sntese de Renda, sem
segmentao (as medidas totais). Agora precisamos calcular as mesmas medidas de sntese para os
clientes de Ps-pago e Pr-pago. Isso exigir a classificao dos dados em funo da varivel Tipo,
o que j foi feito na seo 2 (ver Figuras 19 a 23). Se inspecionarmos o conjunto classificado vamos
observar:
- as clulas vazias de Tipo vo da clula A2 at a A8;
- as clulas de clientes de Ps-pago vo da clula A9 at a A2110;
- as clulas de clientes de Pr-pago vo da clula A2111 at a A5001.
No vamos calcular medidas para as clulas vazias de Tipo. Temos que repetir o procedimento da
seo 5.3.1 para as clulas G9 a G2110 (medidas de sntese de Renda para os clientes de Ps-pago)
e das clulas G2111 a G5001 (medidas de sntese de Renda para os clientes de Pr-pago). Basta
repetir os passos das Figuras 138 a 142 trocando o intervalo de clulas l utilizado pelos
mencionados acima, resultando na Figura 148:


15
Usando a funo CONT.SE verifica-se que h 224 clientes com renda acima deste valor, sendo portanto valores
discrepantes.
Anlise Exploratria de Dados utilizando o Microsoft Excel
61


Figura 148 - Breakdown de Renda por Tipo - a partir do arquivo classificado

Precisamos repetir a descrio da seo 5.3.1, mas comparando as medidas por Tipo e em relao s
totais. Vamos analisar apenas por salrios mnimos, deixando ao leitor a tarefa de converso dos
valores para reais.

Tendncia Central:
- o valor tpico geral de Renda oscila entre 4,248 (mediana) e 5,796 salrios mnimos (mdia);
- tanto a mdia quanto a mediana dos clientes do Ps-pago so maiores do que o geral, e tambm
maiores do que as do Pr-pago 8,3839 e 6,9 contra 3,918 e 2,811 respectivamente;
- conclui-se que os clientes de Ps-pago tm maior tendncia central de Renda, com diferena de
4,46 salrios mnimos na mdia e 4,089 na mediana, respectivamente, em relao ao Pr-pago;
Disperso:
- a variao total da renda de 1,003 (mnimo) a 43,878 (mximo), sendo que mais acentuada no
Ps-pago (1,032 a 43,878- diferena de 43 vezes) do que no Pr-pago (1,003 a 35,796 diferena
de apenas 35 vezes), mas em ambos a disperso grande;
- a grande disperso confirmada pelo alto valor do coeficiente de variao percentual, indicando
que o desvio padro representa 86,13% da mdia no total, mas menor no Ps-pago (68,60%) do
que no Pr-pago (83,16%);
- no total, 25% dos clientes tm renda de at 2,046 (quartil inferior) salrios mnimos, e 25% tm
renda acima de 7,758 (quartil superior) salrios mnimos;
- como conseqncia da afirmao anterior, 50% do total de clientes tm renda entre 2,046 e 7,758
salrios mnimos;
- os quartis do Ps-pago so ambos maiores do os do Pr-pago (e do total de clientes), 4,332 e
11,097 salrios mnimos contra 1,684 e 5,142 respectivamente apenas 25% dos clientes de Pr-
pago tm renda acima de 5,142 salrios mnimos (o quartil superior do Pr-pago nem sequer atinge
a mediana do Ps-pago que vale 6,9);
- 50% dos clientes do Ps-pago tem renda entre 4,332 e 11,097 salrios mnimos, enquanto que no
Pr-pago, 50% tm renda entre 1,684 e 5,142 salrios mnimos;
Assimetria
- mdia e mediana so diferentes no total de clientes, e como a mdia maior do que a mediana a
assimetria direita;
- a concluso acima confirmada pela diferena entre quartil superior e mediana (3,51) que maior
do que a entre a mediana e o quartil inferior (2,202).
Anlise Exploratria de Dados utilizando o Microsoft Excel
62
- mdia e mediana tambm so diferentes nos dois Tipos, constatando-se tambm pelas diferenas
entre quartis e mediana;
Valores discrepantes
- no h discrepantes inferiores, pois precisaria haver renda inferior -6,522 salrios mnimos no total
de clientes, inferior a -5,815 no Pr-pago e -3,503 no Ps-pago;
- h discrepantes superiores, pois h valores acima de 16,326 salrios mnimos no total de clientes,
21,4445 no Ps-pago e 10,329 no Pr-pago
16
.

As diferenas entre as Rendas dos clientes de Ps-pago e Pr-pago podem ser detectadas em um
diagrama em caixas mltiplo (Figura 149):
Di agrama em cai xas: Renda por Ti po
Medi ana
25%-75%
Ampl i tude sem di screpantes
Di screpantes
Di screpantes
Ps-pago Pr-pago
Ti po
-5
0
5
10
15
20
25
30
35
40
45
50
R
e
n
d
a

(
s
a
l

r
i
o
s

m

n
i
m
o
s
)

Figura 149 - Diagrama em caixas de Renda por Tipo

O procedimento poderia ser estendido para os casos em que mais de uma varivel de
agrupamento, por exemplo, poderamos fazer um breakdown de Renda por Tipo e por Opinio.

5.3.3 Medidas de sntese para uma varivel quantitativa em funo de uma
qualitativa por tabela dinmica

possvel realizar o breakdown descrito na seo 5.3.2 usando tabelas dinmicas, o que
evita a necessidade de classificao prvia dos dados. Mas, nas tabelas dinmicas no h todas as
medidas disponveis no repertrio de funes estatsticas do Excel: h apenas contagem (e a
possibilidade de apresentar os resultados como percentuais), mnimo, mximo, mdia, varincia
(amostral e populacional) e desvio padro (amostral e populacional). O procedimento semelhante
ao caso de duas variveis qualitativas, mas preciso tomar alguns cuidados.

O incio do processo semelhante ao visto na seo 4.1: posicionar o cursor em alguma
clula do banco de dados, menu Inserir, opo Tabela Dinmica. O Excel 2007 automaticamente
selecionar todas as colunas adjacentes posio do cursor: no nosso caso, na Plan1, clulas A1 a
N5001 do arquivo Celular01.xlsx, como mostrado na Figura 38. Mas agora queremos pr os
resultados na mesma planilha onde esto os dados, como pode ser visto na Figura 150.

16
Usando a funo CONT.SE verifica-se que h 224 clientes com renda acima de 16,326 salrios mnimos no total, 78
com renda acima de 21,4445 no Ps-pago e 133 com renda acima de10,329 no Pr-pago.

O valor tpico (mediana) de
Ps-pago maior do que o do
Pr-pago, e o quartil superior do
Pr-pago pouco maior do que
o do Ps-pago: ou seja, cerca de
75% dos clientes de Ps-pago
tm renda correspondente aos
25% mais abastados clientes de
Pr-pago.
H assimetria em ambos, e a
disperso aparenta ser maior em
Ps-pago (Qs-Qi) maior do que
no Pr-pago.
H valores discrepantes
superiores nos dois grupos.
Anlise Exploratria de Dados utilizando o Microsoft Excel
63

Figura 150 Seleo de dados da tabela dinmica Renda por Tipo
Se pressionarmos OK na Figura 150 o Excel 2007 apresenta a Figura 151, com as vrias
opes de Layout:

Figura 151 - Layout da tabela dinmica Renda x Tipo 1a parte
Vamos arrastar a varivel Tipo para o campo Rtulos de Linha, e Renda para o campo
Valores, NO arraste nenhuma outra varivel para o campo Rtulos de Coluna, resultando na
Figura 152

Figura 152 - Layout da tabela dinmica Renda x Tipo 2a parte
Anlise Exploratria de Dados utilizando o Microsoft Excel
64
No caso da Figura 152 a tabela apenas contaria quantos clientes h em cada Tipo de servio.
Precisamos arrastar a varivel Renda mais vezes at o campo Valores e modificar a forma de
resumir os resultados: basta selecionar o boto da varivel, e escolher Configuraes do campo de
Valor, ver Figura 153.

Figura 153 Formas de resumir os dados de Renda
Usamos DesvPad porque os dados do arquivo Celular01.xls referem-se a uma amostra. O layout
resultante mostrado na Figura 154 Tela esquerda. E tal como mostrado na Figura 52,
precisamos mover o boto Valores do campo Rtulos de Coluna para o campo Rtulos de Linha,
resultando na tela direita da Figura 154.

Figura 154 - Layout da tabela dinmica Renda x Tipo 3a parte

Clicando sobre o X no canto superior direito da tela direita da Figura 154 chegamos Figura 155,
j sem as clulas vazias e com modificaes para tornar a tabela mais apresentvel.










Anlise Exploratria de Dados utilizando o Microsoft Excel
65

Figura 155 - Tabela dinmica de Renda por Tipo
- a grande disperso confirmada pelo alto valor do coeficiente de variao percentual, indicando
que o desvio padro representa 86,13% da mdia no total, mas menor no Ps-pago (68,60%) do
que no Pr-pago (83,16%) os coeficientes so os mesmos mostrados na Figura 155;
Assimetria: no h como avaliar a assimetria.
Valores discrepantes: devido grande diferena entre as mdias e os mximos presume-se a
existncia de valores discrepantes superiores.

Se quisssemos acrescentar mais uma varivel de agrupamento, Opinio, por exemplo,
bastaria arrast-la para o campo Filtro de Relatrio na Figura 154, de forma semelhante ao caso
da tabela dinmica de trs variveis qualitativas (seo 4.3). As medidas seriam apresentadas em
funo de cada valor de Opinio e do total geral. Isso pode ser muito til em estudos mais
sofisticados. Nada impede a colocao de mais de uma varivel no campo Filtro de Relatrio, a
no ser a crescente dificuldade em interpretar os resultados encontrados. Vamos ver um exemplo,
usando a varivel Sexo no campo Filtro de Relatrio, o layout da tabela seria:

Figura 156 - Layout da tabela dinmica Renda x Tipo x Sexo
possvel calcular o coeficiente de variao
percentual a partir dos dados da tabela, mas a
descrio ser mais pobre do que a feita na seo
5.3.2, devido falta de medidas como mediana e
quartis (e as derivadas dela).
Tendncia central:
- a mdia de Renda dos clientes de Ps-pago
superior a dos de Pr-pago (mais de 2 vezes) e maior
do que a mdia geral.
Disperso:
- a variao total da renda de 1,003 (mnimo) a
43,878 (mximo), sendo que mais acentuada no
Ps-pago (1,032 a 43,878- diferena de 43 vezes) do
que no Pr-pago (1,003 a 35,796 diferena de
apenas 35 vezes), mas em ambos a disperso
grande;
Anlise Exploratria de Dados utilizando o Microsoft Excel
66
O resultado pode ser visto na Figura 157:


Figura 157 - Tabela dinmica de Renda x Tipo x Sexo (geral)

Na Figura 157 a tabela exatamente igual a da Figura 155, pois no acionamos o filtro da varivel
Sexo. Na Figura 158 so apresentadas as duas tabelas de Renda por Tipo para o sexo Feminino e
Masculino.

Figura 158 - Tabelas dinmicas de Renda x Tipo x Sexo (Feminino e Masculino)
Podemos calcular os coeficientes de variao percentual e resumi-los em uma tabela:
Geral 86,13%
Ps-pago 68,60% Feminino geral 83,54% Masculino geral 76%
Pr-pago 83,16%
Feminino Ps-pago 68,85% Masculino Ps-pago 63%
Feminino Pr-pago 72,62% Masculino Pr-pago 77%

Tendncia central:
- os homens apresentam maior tendncia central de Renda, pois sua mdia vale 7,358 salrios
mnimos contra 3,8877 das mulheres;
- quando se segmenta por Tipo e Sexo percebe-se que para os dois sexos os clientes de Ps-pago
tm maiores mdias (6,017 salrios mnimos versus 2,906 no feminino, 9,59 versus 3,89 no
masculino;
Anlise Exploratria de Dados utilizando o Microsoft Excel
67
- a subdiviso com maior tendncia central de Renda so os homens de Ps-pago, com 9,59 salrios
mnimos, maior do que a mdia geral de Ps-pago (8,383 salrios mnimos) e do que a mdia geral
de homens (7,358 salrios mnimos);
- a subdiviso com menor tendncia central de Renda so as mulheres de Pr-pago, com 2,906
salrios mnimos, menor do que a mdia geral de Pr-pago (3,918 salrios mnimos) e do que a
mdia geral das mulheres (3,8877 salrios mnimos).
Disperso (atravs dos coeficientes de variao de Renda, pois as mdias so substancialmente
diferentes):
- a disperso do Pr-pago (83,16%) maior do que a do Ps-pago (68,60%);
- as mulheres tm maior disperso (83,54%) do que os homens (76%);
- em ambos os sexos a disperso no Ps-pago menor do que no Pr-pago, mas nas mulheres de
Ps-pago (68,85%) a disperso maior do que entre os homens no mesmo tipo (63%), e no Pr-
pago a situao se inverte (72,62% contra 77%);
Assimetria: no h como avaliar a assimetria.
Valores discrepantes: novamente, devido grande diferena entre as mdias e os mximos
17
em
todas as subdivises, presume-se a existncia de valores discrepantes superiores.



17
A diferena entre as mdias e mximos de Renda considerando a subdiviso por Sexo e Tipo vai de 4,35 vezes (Ps-
pago Feminino) a 7,06 vezes (Pr-pago Masculino)

You might also like