You are on page 1of 96

Anlise estatstica de dados geolgicos

multivariados

PAULO M. BARBOSA LANDIM


Professor Voluntrio do Depto. Geologia Aplicada
UNESP/Rio Claro

UNESP/campus de Rio Claro


Departamento de Geologia Aplicada - IGCE
Laboratrio de Geomatemtica
Texto Didtico 03
2000

Reproduo autorizada desde que citada a fonte


Norma 6023-2000/ABNT ( http://www.abnt.org.br):
LANDIM, P.M.B. Anlise estatstica de dados geolgicos multivariados. .
DGA,IGCE,UNESP/Rio Claro, Lab. Geomatemtica,Texto Didtico 03, 96 pp. 2000.
Disponvel em <http://www.rc.unesp.br/igce/aplicada/textodi.html >. Acesso em:....

NDICE
1. INTRODUO

01

2. EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS


2.1. Teste T de Hotteling
2.2.. Anlise generalizada de varincia

06
06
12

3. REGRESSO MLTIPLA

16

4. ANLISE DE AGRUPAMENTOS (CLUSTER ANALYSIS)


4.1. Introduo
4.2. Mtodos de classificao

23
23
23

5. ANLISE DAS COMPONENTES PRINCIPAIS


5.1. Anlise das Coordenadas Principais
5.2. Mtodos robustos para Anlise das Componentes Principais

40
42
43

6. ANLISE FATORIAL
6.1. Anlise Fatorial pelo modo R
6.2. Anlise Fatorial pelo modo Q
6.3. Exemplo numrico
6.4. Anlise das Correspondncias (Anlise das Associaes)
6.5. Anlise Fatorial R-Q simultnea
6.6. Exemplo

48
49
50
51
54
56
56

7. ANLISE DISCRIMINANTE
7.1. Funes Discriminantes multigrupos
7.2.. Distncia Generalizada D2 de Mahalanobis
7.3. Exemplo

60
63
64
65

8. EXEMPLO DE ANLISE ESTATSTICA MULTIVARIADA INTEGRADA

73

9. ANLISE ESTATSTICA DE DADOS GEOLGICOS MULTIVARIADOS


COM DISTRIBUIO ESPACIAL
9.1. Adaptao de mtodos estatsticos multivariados
9.2. Metodologia especfica para anlise estatstica multivariada espacial

80

80
83

INTRODUO

1. INTRODUO
As primeiras aplicaes de mtodos quantitativos em Geologia coincidem com o seu
estabelecimento como cincia moderna, pois a subdiviso do Tercirio, por Charles Lyell em 1830, foi
baseada na classificao quantitativa de espcies recentes de moluscos presentes nos diversos estratos
da Bacia de Paris. A partir desse incio, porm, a Geologia permanece qualitativa e puramente descritiva e
apenas nos anos 20 que o enfoque quantitativo se estabelece. Assim, por exemplo, William C. Krumbein,
pioneiro no uso de computao em Geologia mais tarde em 1958, prope a amostragem geolgica em
bases probabilsticas e introduz os modelos processo-resposta. O entendimento das relaes de causae-efeito para a explicao dos processos geolgicos leva Andrei Vistelius, no incio dos anos 40, a iniciar a
formulao da chamada Geologia Matemtica. Nas ltimas dcadas, graas a avanos tecnolgicos tanto
em termos computacionais como em equipamentos de laboratrio e de campo mais refinados, tem sido
intensa a obteno de dados geolgicos quantitativos. A sua anlise, porem, esta muito aqum dessa
imensa quantidade de informaes coletadas. Basta ver os relatrios de pesquisa e mesmo os bancos de
dados com um grande nmero de matrizes de informaes no trabalhadas. H verbas e tempo gastos
com essa coleta que precisam ser acompanhados do devido manuseio. Para essa anlise dos dados

emprego de tcnicas estatsticas multidimensionais torna-se, ento, uma ferramenta fundamental. Constitui
uma fase intermediaria, as vezes at introdutria, porem necessria, para o entendimento dos fenmenos
geolgicos. A pura utilizao de tcnicas estatsticas, e hoje em dia bastante facilitada graas vasta
disposio de programas computacionais, no condio suficiente se o estudo no for embasado num
slido conhecimento geolgico. A sua aplicao, porem, de extrema valia metodolgica para auxiliar a
interpretao geolgica, segundo o enfoque da Geologia Quantitativa ou Numrica.
No caso de uma nica varivel ter sido medida em espcimes de uma amostra, no sentido
estatstico, a anlise de tais dados feita por intermdio da estatstica univariada. Se porm valores de
diversas variveis forem obtidos em cada um dos espcimes dessa mesma amostra, as tcnicas para a
anlise desses dados so fornecidas pela estatstica multivariada ou multidimensional. Tal anlise
estatstica de mensuraes mltiplas efetuadas sobre uma amostra fornece um melhor entendimento na
razo direta do nmero de variveis utilizadas e permite considerar simultaneamente a variabilidade
existente nas diversas propriedades medidas.
Pode-se afirmar que a anlise multivariada a rea da anlise estatstica que se preocupa com as
relaes entre variveis e como tal apresenta duas caractersticas principais: os valores das diferentes
variveis devem ser obtidos sobre os mesmos indivduos e as mesmas devem ser interdependentes e
consideradas simultaneamente (Kendal, 1963). Entre os mtodos mais utilizados em Geocincias
destacam-se a anlise de agrupamentos , a anlise fatorial e a anlise discriminante.
A anlise de agrupamentos utilizada quando se deseja explorar as similaridades entre indivduos
(modo Q) ou entre variveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro
caso, todas as variveis observadas em cada indivduo e, no segundo, todos os indivduos nos quais foram
feitas as mesmas medidas. Segundo esse mtodo, procura-se por agrupamentos homogneos de itens

INTRODUO

representados por pontos num espao n-dimensional em um nmero conveniente de grupos relacionandoos atravs de coeficientes de similaridade ou de distncia.
A anlise fatorial procura interpretar a estrutura de um conjunto de dados multivariados, tanto em
modo Q como em modo R, a partir da respectiva matriz de varincias-covarincias ou de

correlaes, com a obteno de autovalores e autovetores. Utiliza-se de dois procedimentos bsicos: a


"anlise das componentes principais" e a "anlise dos fatores". O primeiro caso consiste numa
transformao linear das "m" variveis originais em "m" novas variveis. No segundo, supe-se que as
relaes existentes dentro de um conjunto de "m" variveis seja o reflexo das correlaes de cada uma
dessas variveis com "p" fatores, mutuamente no correlacionveis entre si, sendo "p" menor que "m".
A anlise discriminante aplicada quando em relao a um indivduo, sobre o qual tenham sido
feitas diversas medidas, necessrio decidir qual de dois ou mais possveis grupos, o mesmo pertence.
A idia bsica substituir o conjunto original das diversas mensuraes por um nico valor Di, definido
como uma combinao linear delas. Para fornecer um nico valor os termos so adicionados nessa funo
linear e esta transformao realizada de tal modo a fornecer a razo mnima entre a diferena entre pares
de mdias multivariadas e a varincia multivariada dentro dos dois grupos. Conhecido os Di's, estes sero
comparados com um certo Do , ou seja, o valor situado, ao longo da

linha expressa pela funo

discriminante, a meio caminho entre os centros dos grupos, com a finalidade de verificar a qual deles os
indivduos pertencem.
Como salientado por Davis (1986), os mtodos multivariados so poderosos, permitindo o
pesquisador manipular diversas variveis simultaneamente. So, porm, bastante complexos, tanto na sua
estrutura terica como na metodologia operacional. Em alguns casos os testes estatsticos a serem
utilizados exigem requisitos muito rgidos e em outros, muitas vezes quando quer relacion-los com
problemas reais, no apresentam base estatstica terica e desse modo impossibilidade de testes de
significncia. De qualquer modo, so mtodos extremamente promissores para a anlise de dados
geolgicos tendo em vista que normalmente a maioria das situaes geolgica envolve um conjunto
complexo de fatores atuando no sistema, sendo impossvel isol-los e estud-los isoladamente.
Exemplos de situaes que apresentam dados multivariados so comuns em Geologia, como:
anlises geoqumicas de elementos maiores e/ou elementos traos; caracteres morfolgicos medidos em
fsseis; caractersticas fsicas de rochas sedimentares, como distribuio granulomtrica, porosidade,
permeabilidade; contedo mineralgico em rochas; variveis fluviais, como descarga, material em
suspenso, profundidade, slidos dissolvidos, pH e contedo em oxignio, etc.. Em alguns casos trata-se
de simples extenso de problemas ligados estatstica univariada e outros pertencem, todavia, a uma nova
classe de problemas. As principais questes a serem enfrentadas por esse tipo de anlise so as
seguintes, segundo Pisani (1969):
1. dependncia: quando so utilizados, por exemplo, anlise de regresso mltipla e correlao cannica;
2. inferncia: quando so utilizados extenses multivariadas de mtodos estatsticos univariados, como o
teste T de Hotelling ou a anlise generalizada de varincia;

INTRODUO

3. reduo e escala: quando so utilizadas anlise das componentes principais, anlise dos fatores,
distncia generalizada D de Mahalanobis, etc.;
4. discriminao e classificao: quando so utilizadas funes discriminantes e as diversas tcnicas de
anlise de agrupamentos.

A utilidade dos mtodos multivariados pode ser apresentada em termos geomtricos. Assim,
observaes univariadas podem ser assinaladas sobre uma linha reta e se essa linha for dividida em
intervalos de classes e contando o nmero de observaes em cada intervalo, um histograma poder ser
construdo. Esse histograma ir requerer duas dimenses para a sua representao. Observaes
bivariadas podem ser assinaladas em um sistema de disperso a duas dimenses. Se o diagrama for
dividido em celas, o nmero de observaes em cada cela pode ser contado e o respectivo histograma
construdo. Esse histograma requer trs dimenses e pode ser representado por um mapa de isovalores.
Observaes trivariadas podem ser assinaladas em um grfico de disperso a trs dimenses e a
configurao nos pontos no espao definir uma elipside. Se o espao tri-dimensional for dividido em
cubos os nmeros de observaes dentro de cada figura geomtrica podero ser contados e obtida a
distribuio de freqncias. Para a construo do respectivo histograma quatro dimenses sero
necessrias. Em observaes com quatro ou mais variveis no possvel a representao grfica segundo
os mtodos comuns, embora Mertie (1949) tenha proposto para tanto complicados hipertetraedros.
Utilizando, assim, a interpretao geomtrica em trs dimenses para observaes trivariadas, os
seguintes exemplos de procedimentos em estatstica multidimensional podem ser apresentados:
a) na regresso mltipla calcula-se um plano para uma regresso linear, ou superfcies curvas para
regresses de ordem maior, que so ajustados s observaes a fim de minimizar a soma das
distncias ao quadrado dos pontos no espao medidos perpendicularmente em relao a essas
superfcies;
b) na anlise de varincia generalizada verificado se dois ou mais elipsides tem o mesmo centro;
c)

na anlise discriminante localizam-se os centros dos elipsides e calcula-se a distncia entre pares de
centros de elipsides;

d) na anlise fatorial verificado se as observaes multivariadas ocupam um nmero de dimenses igual


ao nmero de variveis medidas inicialmente ou se podem estar contidas em um nmero menor de
dimenses; para tanto os eixos do elipside podem ser rotacionados de tal modo a colocar o centro do
elipside coincidente com o centro do sistema de coordenadas.

A pretenso deste texto, escrito por um Professor de Geologia, apresentar uma introduo aos
mtodos estatsticos multidimensionais que podem ser aplicados na anlise de dados geolgicos, sem
uma abordagem matemtica complexa. Existe disposio uma variedade muito grande de livros e
pacotes computacionais que tratam deste assunto e torna-se necessrio um texto simples que permita ao
usurio iniciar-se na Geologia Quantitativa. Entre os principais livros textos que tratam de mtodos
3

INTRODUO

quantitativos em Geologia podem ser citados: Miller & Kahn (1962), Sokal & Sneath (1963) Krumbein &
Graybill (1965), Koch & Link (1971), Davis (1973 e 1986), Joreskog, Klovan & Reyment (1976) , Le
Maitre (1982), Howarth & Siding-Larsen (1985), Griffith & Amrhein (1997) e Reyment & Savazzi
(1999).
Existem tambem diversos pacotes estatsticos de aplicao geral, bem elaborados e completos
como SAS, S-Plus, Statistica, Systat, todos em constante atualizao. Dois outros, no to conhecidos,
mas bastante fceis de serem utilizados e com boa saida grfica, so o MVSP e o Xlstat, este baseado
no aplicativo Excel. Um pacote dedicado anlise de dados geolgicos, desenvolvido no Brasil, o
Geoquant e um outro nacional voltado a aplicaes em Cincias Biolgicas e Mdicas o Bioestat.
Alem disso na revista Computers & Geosciences, editada pela International Association for
Mathematical Geology, freqentemente so apresentados programas listados e/ou executveis obtidos por
ftp (www.iamg.org/CGEditor/index.htm).

INTRODUO

BIBLIOGRAFIA
AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) BioEstat 2.0: aplicaes estatsticas nas reas
das cincias biolgicas e mdicas: Sociedade Civil Mamirau, MCT-CNPq, mizayres@zaz.com.br
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons.
GEOQUANT (1990) Companhia de Pesquisa de Recursos Minerais, verso 3.0.
GRIFFITH, D.A. & AMRHEIN, C.G. (1997) Multivariate Statistical Analysis for Geographers Prentice Hall.
HARBAUGH, J.W. & MERRIAM, D.F. (1968) - Computer applications in Stratigraphic Analysis: John Wiley & Sons.
HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett, ed.) Statistics and Data
Analysis in Geochemical Prospecting, vol. 2:207-289, Elsevier.
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
KENDALL, M.G. (1963) - Discrimination and Classification: C.E.I.R. Ltda.
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley & Sons.
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology: McGraw Hill Book.
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data: Elsevier.
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper tetrahedral: Am.
Mineralogist, 34:706-716.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley and Sons.
MVSP Multi-Variate Statistical Package: Kovach Computing Services, http://www.kovcomp.co.uk
PISANI, J.F. (1969) - Anlise estatstica multidimensional em Biologia: Cincia e Cultura, 21(3):619-631.
REYMENT, R.A. & SAVAZZI, E. (1999) Aspects of Multivariate Statistical Analysis in Geology - Elsevier.
SAS SAS Institute, http://www.sas.com
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman.
S-PLUS Mathsoft, http://www.mathsoft.com
STATISTICA StatSoft Inc., http://www.statsoft.com
SYSTAT SPSS Inc., http://www.spss.com
XLSTAT AddinSoft SARL, http://www.xlstat.com

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

2. EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS


Entre os mtodos da estatstica descritiva univariada dois testes se destacam: o teste t e a
anlise de varincia. O primeiro procura verificar hipteses referentes mdia populacional e o segundo, de
aplicao bem mais ampla, procura dividir a variao total existente num conjunto de dados de acordo com
as diversas fontes de variao presentes. Tais mtodos so casos particulares daqueles pertencentes
estatstica multidimensional. Entre eles podem ser exemplificados o teste T 2 de Hotteling e a anlise
generalizada de varincias. Tem aplicao restrita em problemas geolgicos, existindo outros mtodos
mais eficientes, mas so aqui apresentados apenas com o intuto de demonstrar as relaes entre testes
univariados, comumente usados, e testes multivariados.

2.1. Teste T de Hotteling


2.1.1.Para verificar se uma amostra multidimensional pertence a uma determinada populao
multidimensional.
Seja, por exemplo, um conjunto de observaes nas quais foram obtidas independentemente as
medidas X e Y e se deseja saber se

x e y so significativamente diferentes de um par de valores

populacionais hipotticos x e y. Se apenas a varivel X for enfocada o teste recomendado o "t" de


Student, que verifica a probabilidade de uma amostra casual com n observaes ser retirada de uma
populao normal com mdia especificada x e varincia desconhecida 2 , porem estimada (s 2x):

t=

(x x ) n
sx2

a amostra tem tamanho n de onde x foi obtida; se t t (n - 1,), x ser considerado diferente de x ao nvel
de significncia .
Escolhido, por exemplo, = 0,05 isso significa que se a verdadeira mdia da populao de X's for
igual a x a chance de ocorrer t t (n - 1,), uma em 20. Aplicando o mesmo teste para a varivel Y, com o
mesmo risco de estar recusando a hiptese nula quando ela verdadeira, a probabilidade de ambas X e Y
no serem significantemente diferentes de x e y (0,95) = 0,9025. A probabilidade de ambas as mdias
serem significantemente diferentes de x e y (0,05) = 0,0025. A probabilidade de apenas uma das
mdias ser significantemente diferente (2).(0,95).(0,05) = 0,0950. Assim a probabilidade de que pelo
menos uma mdia ser considerada como significativamente diferente, quando na realidade no existe
diferena, de 0,0975. No caso de um problema a trs variveis, esta ltima probabilidade passa a ser 1(0,95) = 0,1426.
Esta situao, apresentada por Jackson (1959), mostra que o uso de testes univariados para
situaes multivariadas pode fornecer pelo menos uma diferena significante, apenas por chance, em 50%
ou mais de casos. H necessidade, portanto, de um teste generalizado que verifique simultaneamente se
dadas diversas amostras, qual a possibilidade delas serem significantemente

diferentes de mdias

hipotticas correspondentes fornecidas.

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

Para a generalizao multivariada do teste "t", na situao apresentada, substitui-se X por um


menor vetor de mdias amostrais, x por um vetor de mdias populacionais e s por uma matriz de
varincias-covarincias.

[ x] [ x ] n

[x x ]

[s ]

[s ]

A soluo desta equao no fornece uma nica resposta e para tanto haver necessidade de

transformar inicialmente a coluna vetor x x

[ ] em valores singulares.

e a matriz s 2

Isso pode ser conseguido se definido um vetor coluna arbitrrio

[ A] . Multiplicando o vetor coluna de diferenas pelo vetor linha [ A]


l

multiplicao de

[ s ] por
2

[ A]

e em seguida o resultado por

[ A] l

[ A] cujo transposto o vetor linha

o resultado ser um valor singular. A

tambm fornece um nico resultado.

Desse modo o teste torna-se

[ A]' [ x x ] n
[ A] [s2 ] [ A]'

([ A]' [x ] ) n
2

t2

[ A] [s 2 ] [ A]'

Todavia, com essa transformao, o que estava sendo testado foi modificado. A hiptese nula que
era

Ho = [ x ] = [ o ] , passa a ser H o' = [ A ] [ x ] = [ A ] [ o ],


'

A hiptese original H o ser verdadeira somente se a nova hiptese H o se mantiver para todos os
possveis valores de

[ A] . suficiente, porm, testar apenas o valor mximo possvel do

'

H o for rejeitado para qualquer valor de

[ A] , a hiptese

teste, porque se

H o ser tambm rejeitada.

Para determinar esse valor mximo deve-se essencialmente notar que t no tem dimenso e no
afetado por mudanas de escala dos elementos de

[ A] . Segundo Morrison (1967), essa

determinao

pode ser removida pela imposio de restrio:

[ A]i [s 2 ] [ A] = 1
A introduo da restrio pelo multiplicador de Lagrange e subseqente diferenciao com

[ ]

respeito A fornece o sistema de equaes:

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

][

[ ] [ A] = 0

x x l n s2
x
x

multiplicando por A ':

[ A]' [x x ][ x x ]' [ A]n


=
[ A]' [ s2 ] [ A]

([ A]' [x ])

[ A]' [ s2 ] [ A]

o que resulta: = t 2
Para a determinao de t, ou seja o mximo valor possvel, deve-se encontrar o determinante

[ ]

s2

[ x ][ x ]' n [ I ] = 0

[ ] [ x ][x ]' n

= tr s2

onde tr = trao de matriz que igual a soma das razes caractersticas

[ ]

T 2 = n [ x x ]' s 2

[x x ]

Essa expresso conhecida como teste T de Hotteling, em homenagem ao estatstico que a


formulou.
Quando a hiptese nula verdadeira, a quantidade

F* =

nm 2
T , apresenta uma distribuio F com graus de liberdade m e n - m, onde n o
m(n 1)
nmero de amostras e m o nmero de variveis.

Aceita-se H o : o , , quando

F *<.F( , m , n m )

Exemplo:

Os dados foram retirados do trabalho de Gomes et al. (1975) sobre a geoqumica de corpos
granticos da regio do Ribeira, utilizando-se apenas 40 anlises qumicas obtidas do macio de Itaca,
Vale do Ribeira (SP). Cada uma dessas anlises exibe valores percentuais de de SiO2, TiO2, Al2O3, Fe2O3,
FeO, MnO, MgO, CaO, Na2O, K2O e P205 (Tabela 2.1.) O macio de Itaoca, aflorando ao sul da cidade de
Apia, possui forma irregular, levemente ovalada, e contatos tanto concordantes como discordantes com a
estrutura regional, achando-se inteiramente encaixado em metassedimentos do Grupo Aungui. Do ponto
de vista textural, as amostras estudadas so

porfirides, com desenvolvimento de cristais centimtricos

de feldspato alcalino em meio uma matriz fanertica granular de dimenses submilimtrica milimtrica.
Sua mineralogia marcada

pela

dominncia total dos componentes alcalinos, quartzo e feldspato,

aparecendo a biotita como principal composto ferromagnsiano

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

SiO2

TiO2

Al2O3

Fe 2O3

FeO

MnO

MgO

CaO

Na2O

K2O

P205

67.58

0.58

12.65

0.15

3.62

0.07

1.28

2.14

5.34

4.9 9

0.26

72.77

0.20

12.96

0.01

2.30

0.02

0.30

0.77

5.34

4.55

0.07

68.64

0.40

13.33

0.65

2.98

0.19

0.77

1.11

5.72

4.70

0.13

69.87

0.45

13.36

0.90

2.03

0.08

0.81

0.80

5.72

4.96

0.16

71.42

0.39

12.23

0.01

3.06

0.05

0.82

1.53

5.01

3.48

0.16

66.02

0.60

13.62

0.97

3.35

0.07

1.10

2.89

5.01

5.00

0.32

66.20

0.67

12.99

1.21

3.08

0.10

1.10

2.76

5.34

4.97

0.30

72.75

0.22

12.72

0.17

2.53

0.03

0.37

1.13

5.01

4.34

0.05

65.80

0.65

13.95

0.33

3.76

0.05

1.08

2.67

5.34

4.96

0.27

10

70.03

0.38

12.83

0.43

3.81

0.08

0.73

1.59

4.04

5.04

0.14

11

69.71

0.50

13.00

0.06

3.18

0.11

0.90

2.14

4.85

4.54

0.16

12

67.45

0.53

13.67

0.37

3.59

0.05

0.95

2.62

4.85

4.63

0.22

13

66.31

0.69

14.23

0.13

3.39

0.07

1.29

3.02

4.85

4.48

0.33

14

65.78

0.67

14.21

0.19

3.49

0.06

1.36

2.87

4.85

5.06

0.28

15

65.84

0.67

12.89

0.75

3.53

0.06

1.43

3.11

4.85

4.81

0.30

16

64.43

0.73

13.97

0.18

4.22

0.07

1.32

3.02

4.85

4.88

0.29

17

69.57

0.40

13.18

0.30

2.67

0.07

1.09

1.71

5.12

4.91

0.17

18

72.33

0.49

14.06

0.62

0.99

0.01

0.18

0.22

4.72

5.22

0.03

19

70.73

0.50

12.77

0.33

2.49

0.09

0.90

1.80

4.45

4.74

0.24

20

64.17

0.87

13.81

0.98

4.11

0.07

1.48

3.26

4.58

4.85

0.32

21

64.57

0.77

13.92

1.33

3.35

0.09

1.46

3.04

4.85

4.51

0.29

22

69.75

0.37

12.83

1.69

2.98

0.04

0.66

1.39

4.58

4.68

0.12

23

65.10

0.67

14.30

0.88

3.71

0.08

1.35

2.83

4.31

4.85

0.31

25

65.29

0.66

14.18

1.09

3.61

0.07

1.11

3.07

4.31

4.85

0.36

26

66.84

0.66

13.40

0.62

3.36

0.07

1.33

2.67

4.58

4.64

0.37

27

66.93

0.78

13.51

0.47

5.45

0.09

1.47

2.71

1.35

5.13

0.31

28

67.33

0.61

13.14

1.15

2.88

0.07

1.39

2.47

4.58

4.87

0.30

29

64.93

0.85

14.20

1.91

3.72

0.06

0.85

2.47

4.31

4.85

0.37

30

66.23

0.62

13.57

1.08

3.49

0.05

1.17

2.86

4.31

4.84

0.29

32

68.33

0.44

12.98

0.77

2.78

0.06

0.95

2.34

4.31

4.77

0.21

33

72.15

0.24

11.96

0.96

1.81

0.08

0.52

5.20

3.24

2.71

0.15

34

66.79

0.60

13.73

1.14

2.63

0.06

1.32

2.72

4.31

5.22

0.29

35

65.78

0.57

14.45

1.91

2.82

0.06

0.91

2.58

4.30

5.10

0.26

36

66.08

0.59

14.15

1.61

3.14

0.06

1.12

2.92

4.31

4.46

0.31

37

64.50

0.79

13.80

1.08

4.03

0.07

1.39

3.17

4.58

4.96

0.32

38

65.87

0.71

13.50

2.01

2.73

0.09

1.49

3.26

4.36

4.39

0.38

39

63.72

0.74

13.91

1.97

3.48

0.08

1.50

3.22

4.30

4.89

0.39

40

75.37

0.09

12.13

0.18

2.16

0.01

0.09

0.54

4.04

4.62

0.02

41

67.66

0.63

13.07

0.68

3.62

0.05

1.27

2.56

4.58

4.41

0.29

42

65.72

0.63

13.71

1.23

3.35

0.05

1.01

3.09

4.85

4.64

0.36

52

67.43

0.54

13.54

1.44

2.11

0.06

1.15

2.68

5.12

4.48

0.24

Tabela 2.1. - Composio qumica do macio grantico de Itaca.

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

A anlise dos dados normativos indica uma composio grantica para o macio, conquanto a
totalidade das amostras esteja colocada prxima ao campo de transio granito-granodiorito. Comparando
qualitativamente os valores mdios dessas anlises com valores mdios obtidos por Nockolds (1954) para
rochas granticas adamelticas

e granodiorticas mundiais, os autores citados concluram por uma

composio prxima rochas adamelticas, com diferena em relao Na2O, ligeiramente superior
quela referida pelo citado Autor.
De um estudo feito por Landim et al. (1974), aplicando anlise de agrupamentos a essas 40
anlises qumicas, constatou-se a existncia de dois conjuntos diferenciados: um composto por 13
anlises

provenientes preferencialmente do interior do macio (amostras de nmeros 1, 4, 9, 10, 11, 12,

13, 14, 15, 16, 17, 19, e 32) e outro, com um total de 19 anlises distribudas pelo restante do corpo
(amostras de nmeros 6, 7, 20, 21, 23, 25, 26, 28, 29, 30, 34, 35, 36, 37, 38, 39, 41, 42 e 52). Quanto s
amostras de nmeros 2, 3, 5, 8, 18, 22, 27, 33 e 40 no se encaixam em nenhum desses dois grupos.
Tendo como hiptese que a populao multidimensional seria os valores mdios obtidos por
Nockolds (1954) para rochas adamelticas (Tabela 2.2.), procurou-se aplicar o teste T' para verificar se a
amostra multidimensional, constituda pelo conjunto de 13 anlises, pertenceria a essa populao. De
modo idntico testou-se a amostra composta pelas 19 anlises.

SiO2

TiO2

Al 2O3

Fe 2O3

FeO

MnO

MgO

CaO

Na 2O

K2O

P205

69,15

0,56

14,63

1,22

2,27

0,06

0,99

2,45

3,35

4,58

0,20

Tabela 2.2. - Composio qumica mdia de adamellitos (Nockolds,1954).

a ) F1 =

n m 2 13 12
T =
2772,5=19,254
m( n 1)
12(12)

para m = 12 g.l. e ( n - m = 1 )g.l., o valor de F tabelado

F(0.05;12,1) = 243,91

Desse modo, como o valor de F1 calculado menor que o tabelado deve-se aceitar Ho ao nvel de
95%. Isso significa que essa amostra pode ser considerada como proveniente de uma populao com
composio adameltica.

b) Fo =93,065
F( 0 .05; 12.7 ) =3,5747
Como o valor de F2 calculado maior que o F tabelado, para graus de liberdade 12 e 17 e nvel de
significncia de 0.05, deve-se rejeitar Ho, o que significa que essa amostra no pode ser considerada como
proveniente de uma populao com composio adameltica.

2.1.2. Para comparar dois vetores de mdias amostrais.

10

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

Tendo sido visto o caso de uma nica amostra multidimensional comparada com um

especfico

vetor de mdias populacionais, uma outra situao seria a comparao entre duas mdias populacionais
multidimensionais. Presume-se que as duas amostras tenham sido retiradas de populaes multi-normais,
possuindo ambas a mesma matriz desconhecida de varincias-covarincias [2].
Deseja-se, portanto, testar a hiptese nula

Ho : [ 1 ] = [ 2 ]
Contra a alternativa

H1 : [ 1 ] [ 2 ]
Para o caso unidimensional usa-se o teste "t" para duas amostras:

t=

x1 x2
sp 1 / n1 ) + (1 / n 2 )

onde sp a estimativa dos desvios padres combinados de duas populaes, baseada em ambas as
amostras

Sp 2 =

( n1 1 )s12 + ( n 2 1 )s22
n1 + n2 2

[ ]

No caso multidimensional, inicialmente computa-se para o clculo da estimativa combinada S p2 ,


a matriz de varincias e covarincias de duas amostras multidimensionais, utilizando a soma de quadrados
e produtos cruzados das m variveis de ambas as amostras.

[ Sp ] = n + n1 2 ( [S ] + [S ] )
2

SQX 1
SPX X
1
2
S1 =

SPX 1 X m

SPX 1 X 1
SQX 22
SPX 2 X m

L SPX 1 X m
L SPX 1 X m

2
L SQX m

onde

SQX 12

na

i 1 1i
na 2
x1i
i

=1
n1

=
n 1

11

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

SPX 1 X 2

na

na

x1i x2 i
n

i 1

a ( x . x ) i 1
i =1 1i 2 i

n1

=
n1

Em seguida encontra-se a diferena entre os dois vetores de mdias [ x1 ] [ x2 ] = [ x1 x2 ] .


O teste T para o presente caso ter a forma

T 2=

[ ] [x

n1 .n 2
[x1 x 2 ]'. Sp 2
n1 + n 2

x2 ]

A significncia de T ser determinada por

F=

n1 + n 2 m 1 2
T , com m e (n1 + n2 m 1) graus de liberdade.
( n1 + n2 2 )m

Aceita-se H o : 1 = 2 se

T 2 F( ; m; n 1 +n 2 m 1)

Exemplo:

O teste T2 tambm pode ser aplicado quando se dispe de duas amostras casuais independentes,
retiradas, por suposio, de populaes normais multivariadas e tendo ambas a

mesma matriz

desconhecida de varincias e covarincias e se deseja testar a igualdade entre seus vetores de mdia.

H o : [1 ]=[2 ]
contra

H1 :[1 ][2 ]
Para este exemplo foram utilizadas as mesmas duas amostras provenientes do estudo
geoqumico do macio de Itaoca: a primeira, constituda por 13 anlises qumicas e a segunda, por 19
anlises qumicas. Em ambas as variveis so as mesmas, ou seja porcentagens de 11 xidos.

n1 + n2 m 1 2
T
( n1 + n2 2) m

13 + 19 12 1
1117389
.
= 58973
.
(13 + 10 2)12

F tabelado, para um nvel de significncia de 0.05%

(n n

1 2

e graus de liberdade 12(m) e 19

m 1) , igual a 2.27. Desse modo como F calculado maior que F tabelado rejeita-se a hiptese

nula de que os dois vetores de mdias das duas amostras consideradas sejam iguais. Isso j era esperado
tendo em vista os resultados do exemplo 3.1.1. onde a primeira amostra revelou ter caractersticas de uma
rocha adamellitica e a segunda no.

2.2. Anlise generalizada de varincias


12

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

utilizada

para a comparao entre matrizes de varincias-covarincias. A igualdade entre

matrizes de covarincias, pode ser verificada pelo teste generalizado de varincias, que o equivalente
multivariado do teste F. Tendo "k" grupos de observaes e sendo medidas "m" variveis em cada

[ ] podem ser obtidas.

espcime, matrizes de varincias-covarincias si2

Sendo as respectivas matrizes de varincias-covarincias populacional 2i deseja-se testar a


hiptese nula

[ ] [ ]

[ ]

Ho : i2 = 22 = L = 2k

Contra a hiptese alternativa

[ ] [ ]

H1 : 2i 2k

A hiptese nula estabelece que as "k" matrizes de covarincias populacionais so as mesmas,

[ ]

contra a alternativa de que pelo menos duas so diferentes. Cada matriz amostral si2 uma estimativa da
matriz populacional 2i . Se as populaes a que pertencem os "k" grupos so idnticas, as estimativas
amostrais

podem ser combinadas para formar uma estimativa combinada da matriz de covarincia

populacional.

[ sp ] =

[ ]

( ni 1 ) si2

i =1

ni k

( i =1 )

onde ni o nmero de espcimes no i'simo grupo e n i o nmero total geral de todos os espcimes
em todos os grupos.
Para a estimao combinada da matriz populacional de covarincias, o teste estatstico M o
computado

] [ ]

[ ]]

= ( n i ) - k l n sp2 (ni 1)l n si2

Este teste baseia-se na diferena entre o logaritmo do determinante da matriz combinada de


covarincias e a mdia dos logaritmos dos determinantes das matrizes amostrais de covarincias. Se
todas as matrizes amostrais forem a mesma, essa diferena ser bem pequena. Caso as varincias e
covarincias dos grupos forem muito diferentes entre si o valor de M aumentar. Como tabelas de valores
crticos de M no so facilmente encontradas, utiliza-se a transformao:

2
m
+
3
m

1
1
1
C 1 = 1
k

6( m + 1)( k 1) i = 1 ni 1
ni k
i =1

que converte M numa distribuio prxima a do

13

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

MC

Este valor aproximado de tem graus de liberdade = ( 1 / 2 )( k - 1 )m( m + 1 ).

Se todos os grupos possuem o mesmo nmero de observaes n, a transformao simplificada


para

= 1

( 2 m2 + 3m 1) ( k + 1)
6( m + 1) k ( n 1)

O valor deve ser usado apenas quando k e m no excedem 5 e cada matriz estimada de
covarincias baseada em pelo menos 20 observaes.

Exemplo:

Para a aplicao do teste anterior, uma das suposies era a de que as amostras tivessem sido
retiradas de populaes com a mesma matriz de varincias e covarincias. Tal igualdade de matrizes de
varincias e covarincias pode ser verificadas pela aplicao do teste das varincias generalizadas, que o
teste multivariado equivalente ao teste F.
Usando as mesmas amostras do teste anterior o resultado passa a ser:
Teste M = 180,874847 ; Transformao C-1 = 0,437108
Critrio de Anderson corrigido: 101,812957%
Como esta estatstica tem distribuio prxima a do chi-quadrado (2), com 78 graus de liberdade,
comparou-se o valor calculado com valores crticos de uma tabela de .
Para altos valores de graus de liberdade a seguinte frmula aproximada para o clculo de pode
ser usada

= n(1 92n + z

2( 0 , 01 ) = 78 1

2
9 * 78

2 3
9n

+ 2 .326( 2 / 9 * 78 ) = 109,92
3

(20. 01; 78 ) =109,97


Como o valor crtico, para um nvel de significncia 0,01, maior que o calculado, aceita-se a
hiptese nula, ou seja, ambas as amostras provm de populaes com a mesma matriz de varincias e
covarincias.

14

EXTENSES MULTIVARIADAS DE TESTES UNIVARIADOS

BIBLIOGRAFIA
GOMES, C.B; BERENHOLC, M.; HYPLITO, R. & ARRUDA, J.R. (1975) - Geoqumica de macios granticos da
Regio do Ribeira, Parte 1: elementos principais: An. Acad. Bra.s Cinc., 47:113-130.
JACKSON, J.E. (1959) - Some multivariate statistical tecniques used in color matching data: Jour. Opt. Soc.
America, 49:485-592.
LANDIM, P.M.B.; GOMES, C.B.; ARRUDA, J.R. & FULFARO, V.J. (1979) - Anlise de agrupamentos (cluster analysis)
aplicada ao estudo geoqumico do granito Itaca, regio da Ribeira: An. XXVIII Congr. Bras. Geologia, 7:161168.
MORRISON, D.F. (1967) - Multivariate statistical methods: McGraw-Hill.
NOCKOLDS, S.R. (1954) - Average chemical compositon of some igneous rocks: Geol. Soc. Am. Bull., 65:10071032.

15

REGRESSO MLTIPLA

3. REGRESSO MLTIPLA

As relaes entre duas variveis "X", considerada independente, e "Y", considerada


dependente, pode ser representada num diagrama de disperso (scatter plot), com os valores yi em
ordenada e os xi em abcissa. Cada par de valores xi e yi fornecer um ponto e utilizando-se, por
exemplo, o mtodo dos desvios mnimos ao quadrado, pode-se calcular a equao de uma curva de
tendncia que melhor se ajuste nuvem de distribuio. O mtodo mais simples que pode ser
adotado o da anlise de regresso linear simples que fornece a equao de uma reta:
y

= + xi + i ,

onde e so coeficientes desconhecidos a serem determinadas e i representa toda a fonte de


variabilidade em Y no explicada por X. Quando menor i, ou seja o resduo ou o erro, melhor ser a
modelgem de Y a partir de X. Em termos operacionais encontra-se a equao da reta para a
previso dos valores yi :
y

= a + bx

onde a e b so os coeficientes que determinam a interseco e a inclinao da linha de tendncia.


No raro, porm, que o termo i seja numericamente mais importante que a explicao
motivada pela varivel X, significando que outras variveis devem ser incorporadas ao modelo a fim de
explicar o comportamento de Y. O modelo exige ento uma "anlise de regresso mltipla linear.
A regresso mltipla usada, portanto, para testar dependncias cumulativas de uma nica
varivel dependente em relao diversas variveis independentes. Cada varivel isolada e mantida
constante enquanto as variveis restantes variam sistematicamente, sendo observados os seus
efeitos sobre a varivel dependente. A varivel a ser inicialmente mantida constante aquela que
ocasiona a maior influncia na variabilidade da varivel dependente.
O modelo geral representado por
yi

= o + 1 x 1i + L + m x mi + i

A condio inicial, como na regresso linear simples, descrita por

y = a o + a1 x 1 + e1 ,
onde xi a varivel independente, responsvel pela maior variabilidade, a o e a1 so os coeficientes e
e1 o erro, isto , a variabilidade em Y no explicada pela relao linear. A varivel que, em seguida,

mais reduz a variabilidade do erro em seqncia adicionada de tal modo que


y

= bo + b1 x 1 + b 2 x 2 + e 2 , sendo

b o , b1 e b2 calculados e e 2

< e1 . O processo segue por

etapas at que o comportamento de todas as variveis independentes em relao dependente seja


verificado. Os coeficiente bi so conhecidos como parciais de regresso porque cada um deles
fornece a taxa de mudana na varivel dependente correspondente respectiva varivel
independente, mantendo constantes as demais variveis independentes.

16

REGRESSO MLTIPLA

A equao que representa a relao linear entre uma varivel dependente (y i) e uma nica
varivel independente (x i) :

Yi = a o + a 1 xi
As equaes normais que fornecem os valores de a o e a1 so:

Y1 = a o n + a1 x12

(1)

X i Yi = a o X i + a1 x 12 (2)
As equaes ( 1 ) e ( 2 ) constituem um par de equaes normais a duas incgnitas, as
quais podem ser resolvidas para a obteno dos coeficientes, por clculo matricial, segundo:

[ X ][ A]= [Y ]
XA = Y
1

Multiplicando ambos os termos da equao pelo inverso de [X], isto , [ X ] :


[X ]

.[ X ] .[ A]

Como [ X ]

=[

.[ X ]

X ]

= [ I ] (matriz de identidade)

e [ I ] .[ A ] = [ A]
[ A ].[ X ]

=[Y ]

Por extenso, a anlise de regresso mltipla linear de quaisquer m variveis independentes


sobre uma varivel dependente, sendo expressa por:

Yi = a o + a 1 X 1i + a 2 X 2 i +L+ a m X mi ,
pode ser resolvida segundo:

n
x
1i
x2

M
xmi

x1i
x12i
x 2 x1
xmi x1
[X]

L xmi
L x1i xmi

L x2 xm

L xmi

ao
a
1
a2


a m
[ A]

yi
x y
1i i
x 2 i y i

xmi yi
[Y ]

e, portanto,

[ A ] = [ X ] 1 [ Y ] ,
onde [A] o vetor-coluna de incgnitas a ser determinado.

Uma das mais importantes aplicaes da anlise de regresso mltipla a escolha, entre
diversas variveis independentes, daquelas mais teis na previso de Y e, para tanto, o mtodo
passo a passo (stepwise multiple regression) o mais recomendado.
A varincia total de Y em parte "explicada" pelas diversas variveis X's e o restante pela
variabilidade devido ao erro (1 ). claro que o termo "explicada" tem apenas um significado numrico

17

REGRESSO MLTIPLA

no implicando necessariamente em um conhecimento causa-efeito sobre o porqu da relao


existente.
Os tamanhos relativos dessas duas componentes de varincia so obviamente de grande
interesse quando da aplicao da anlise de regresso mltipla. A proporo da varincia dos Y
observados "explicada" por uma equao de regresso ajustada representada pelo coeficiente de
determinao R.

s2
~
&
( varincia de Y explicada pela analise
de regressao)
y*
2
R =
=
$
(variancia total)
s2y
Valores de R2 iro dispor-se no intervalo [0-1], fornecendo uma medida dimensional de
quantidade do ajuste do modelo de regresso mltipla aos dados. Se o valor de R for prximo de 1
isso significa que as diversas variveis X's medidas so responsveis quase que totalmente pela
variabilidade de Y. Caso contrrio, R apresentar um valor prximo a zero. Como os coeficientes de
regresso so parciais devem ser obtidas as porcentagens explicadas da soma de quadrados de Y
segundo 2 1 combinaes, onde k o nmero de variveis independentes. Finalmente verifica-se
k

a contribuio pura de cada varivel independente por comparaes sucessivas entre os diversos
resultados.
Outra maneira para a ordenao das variveis pela sua importncia na previso da varivel
dependente a padronizao dos coeficientes de regresso parciais, convertendo-os em unidades
de desvio padro, ( B k ) (Li, 1964, p. 136):

Bk = bk

Sk
, onde bk = coeficiente de regresso parcial;
SY
Sk= desvio padro de Xk ; Sy= desvio padro de Y.

Pela comparao direta dos B k determinam-se as variveis mais eficientes.


Embora a regresso mltipla seja multivariada no sentido de que mais de uma varivel
medida simultaneamente em cada observao, trata-se na realidade de uma tcnica univariada, pois
o estudo apenas em relao variao da varivel dependente Y, sem que o comportamento das
variveis independentes, Xs, seja objeto de anlise.
Finalmente, alguns cuidados que se deve tomar quando da utilizao da anlise de
regresso:
a) as relaes entre as variveis devem ser lineares;
b) evitar um nmero inferior de casos em relao ao nmero de variveis consideradas, sendo
recomendado que tal relao seja da ordem de 10 a 20 vezes superior;
c) evitar variveis independentes redundantes, isto , que tenham um alto coeficiente de correlao
entre si;
d) verificar, utilizando resduos, a presena de valores anmalos

Exemplo:

18

REGRESSO MLTIPLA

Bacci (2000) procurou avaliar os impactos ambientais gerados pela explorao mineral em
uma pedreira de diabsio na regio de Campinas/SP. Os principais objetivos foram quantificar as
vibraes no terreno, considerando os parmetros fsicos da rea; avaliar os efeitos das vibraes
nas construes civis prximas cava e a sua possibilidade de danos; determinar o zoneamento
dinmico da rea e os limites de segurana para ocupao pela populao local; formular equaes
matemticas que representassem o fenmeno vibratrio na rea de estudo; conhecer a propagao
das ondas no terreno e sua atenuao, considerando os parmetros que interferem no seu
comportamento.
Foram coletados dados em diversos pontos nos arredores da cava e distribudos em relao
s vrias frentes de lavra, com o auxlio de ssmgrafos especficos, relacionando os registros das
velocidades de vibrao da partcula no terreno com sua freqncia de oscilao.
O monitoramento foi realizado numa rea de 1 km de raio ao redor da cava, com distribuio
dos pontos nas direes principais de propagao das ondas, medidos na parte posterior das
bancadas e consideradas quatro direes preferenciais de propagao das vibraes: N24, N84
N111, N20, respectivamente de acordo com as bancadas A, B, CD e E, e os pontos de registro
foram distribudos segundo uma malha homognea. No total foram monitoradas 28 detonaes, com
146 registros.
O levantamento dos dados consistiu na obteno dos valores de velocidade de vibrao da
partcula e sua freqncia de oscilao durante detonaes em rochas, com uso de explosivos.
Utilizando-se da anlise de regresso linear mltipla procurou determinar a importncia das
variveis relacionadas aos registros sismogrficos e ao plano de fogo (distncia linear do ponto de
registro frente de detonao (D), distncia reduzida (SD), freqncia de oscilao na componente
vertical (f) e carga explosiva mxima por espera (Q)) em conjunto com as variveis relacionadas ao
meio fsico (direo e densidade do fraturamento, profundidade do topo rochoso e espessura da
camada de solo residual) na variao da velocidade de vibrao da partcula, nas diferentes direes
preferenciais de propagao da onda ssmica.
As variveis definidas foram consideradas independentes, enquanto a velocidade de vibrao
da partcula (Vp) foi considerada dependente. Procurou, desse modo, determinar a influncia das
variveis independentes no comportamento da varivel dependente.
Admitiu para a rea que, quanto maior a espessura da camada de solo, menor seria o valor
de Vp e menor a freqncia de oscilao, sendo maior a atenuao da onda ssmica, pois a
velocidade de propagao das ondas no solo menor que na rocha, ocorrendo o mesmo com
relao freqncia de oscilao.
Para direes de propagao das vibraes paralelas famlia principal de fraturas, a
atenuao da onda seria menor e, consequentemente, os valores de Vp esperados seriam maiores,
pois a onda ssmica, encontrando um menor nmero de fraturas em sua trajetria, no sofre
reflexes ou refraes, diminuindo a disperso de energia e aumentando os efeitos de sua
propagao no terreno.

19

REGRESSO MLTIPLA

J para as direes de propagao perpendiculares ao fraturamento principal, o esperado


seria uma maior atenuao das ondas e valores menores de Vp. Nesse caso, a disperso de energia
seria maior devido presena das fraturas.
No s a direo, mas tambm a densidade de fraturamento, representada pelo maior ou
menor espaamento entre as fraturas, interferiria na atenuao das vibraes e foi tambm
considerado no estudo. Um maior espaamento entre as fraturas significa um menor nmero de
descontinuidades na trajetria da onda e consequentemente um valor de Vp esperado maior,
mostrando uma relao direta entre essas duas variveis consideradas.
Definiu o ngulo entre a direo principal de fraturamento e a direo de registro de Vp,
variando de 0 a 90 e refletindo a mnima e a mxima interferncia das descontinuidades. Foram
consideradas as duas principais famlias de fraturas, com direes leste-oeste e noroeste-sudeste,
respectivamente. A funo matemtica que melhor representaria essa relao seria o seno, tendo
sido, assim, adotado como uma das variveis analisadas.
Na Tabela 3.1. esto os dados referentes apenas frente B:
______________________________________________________ ______________
VP

SEN1 SEN2 CARGA DISTNCIA

SOLO

FREQNCIA

------------------------------------------------------------------------------------------------------------6.59

-0.9613

0.9995

160

568

27

85

24.80

-0.5440

0.7738

180

300

27

43

16.90

-1.0000

0.9510

180

395

24

51

15.10

0.9129 -0.9938

80

364

22

37

14.90

0.1411

0.1673

80

444

27

51

9.79

0.9092 -0.7391

80

485

28

85

8.41

0.9906 -0.9851

80

574

31

43

9.78

-0.5440

0.7738

92

294

27

43

0.4121 -0.1147

92

500

28

39

4.25

-1.0000

0.9510

80

584

24

57

3.74

-0.7568

0.9200

80

616

21

73

8.99

0.4121 -0.1147

74

384

29

43

8.83

-0.5365

0.2538

74

480

27

64

2.16

0.4121 -0.1147

74

668

15

47

2.13

0.9893 -0.8979

74

718

10

64

10.10

_____________________________________________________________________
Tabela 3.1. Dados referentes frente B. Vp(velocidade resultante de vibrao da partcula, em
mm/s) a varivel dependente e as demais independentes

O seguinte resultado foi obtido

tendo como procedimento de estimao

a anlise de

regresso passo-a-passo com remoo das variveis por ordem crescente de importncia (stepwise
backward).

20

REGRESSO MLTIPLA

Passo inicial, com todas as variveis independentes

R2 =0,842

Passo 1

varivel removida: SEN1


permanecem: SOLO, FREQNCIA, SEN2, CARGA, DISTNCIA
R2 = 0,842

Passo 2

varivel removida: SOLO


permanecem: FREQNCIA, SEN2, CARGA, DISTNCIA
R2 = 0,841

Passo 3

varivel removida: FREQUNCIA


permanecem: SEN2, CARGA E DISTNCIA
R2 = 0,836

Passo 4

varivel removida: SEN2


permanecem: CARGA, DISTNCIA
R2 = 0,776

Passo 5

varivel removida: CARGA


permanece: DISTNCIA
R2 = 0,666

Com estes resultados estabeleceu a seguinte ordem de importncia das 6 variveis


independentes para explicar a variabilidade de Vp:
DISTNCIA: 66,6%
CARGA: 11,0% (0,776 0,666)
SEN2: 6% (0,836 0,776)
FREQUNCIA: 0,5% (0,841 0,836)
SOLO: 0,1% (0,842 0,841)
SEN1: 0% (0,842 0,842)

A anlise de regresso mltipla foi, tambm, aplicada s quatro frentes de detonao,


obtendo a importncia relativa de cada varivel independente na previso da varivel dependente.

Variveis independentes

% explicada de Vp

21

REGRESSO MLTIPLA

CD

Distncia

51,0

66,6

47,3

50,4

Carga mxima por espera

11,7

11,0

19,3

0,1

Espessura da camada de solo

3,6

0,1

3,3

Freqncia de oscilao

1,2

6,0

5,3

9,2

Seno 1

0,2

0,2

Seno 2

0,1

6,0

0,1

8,6

Total explicado pelas variveis (%)

68,7

84,5

72,0

71,8

Tabela 3.2.: Valores obtidos atravs da anlise de regresso mltipla para os dados de detonao

Por meio dessa anlise a Autora pode avaliar a interferncia das diversas variveis nas
vibraes geradas no terreno. Analisando o peso de cada varivel independente, observou que a
distncia linear entre o ponto de registro e a frente de detonao a que melhor explica a variao
de Vp, uma vez que a atenuao das vibraes no terreno proporcional ao aumento da distncia da
fonte de emisso de energia ssmica. Na figura 3.1. tal relao linear pode ser observada e tambm a
presena de alguns valores anmalos presentes, situados fora dos intervalos de confiana de 95%. A
segunda varivel que mais explicou a variao de Vp foi a carga mxima por espera, que a prpria
fonte geradora de energia e, est, portanto, diretamente relacionada s vibraes produzidas no
terreno. As demais variveis, segundo essa anlise, apresentaram pequena interferncia nos valores
de Vp, o que no era esperado. Os resultados obtidos mostraram que as variveis escolhidas
representaram bem a variao de Vp na rea estudada, explicando de 70 a 85 % o seu
comportamento.

DISTANC vs. VP
VP = 28.811 - .0387 * DISTANC
Correlation: r = -.8164
28
24
20

VP

16
12
8
4
0
250

350

450

550

650

750

Regression
95% confid.

DISTANC

Figura 3.1.: Anlise de regresso linear entre Vp e Distncia

22

REGRESSO MLTIPLA

BIBLIOGRAFIA
BACCI, D. L. C. (2000) Vibraes geradas pelo uso de explosivos no desmonte de rochas: avaliao dos
parmetros fsicos do terreno e dos efeitos ambientais: Tese de Doutorado, Programa em Geocincias e
Meio Ambiente, I.G.C.E., UNESP, Rio Claro
LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc.

23

ANLISE DE AGRUPAMENTOS

4. ANLISE DE AGRUPAMENTOS
4.1. Introduo
Anlise de agrupamentos (cluster analysis) um termo usado para descrever diversas
tcnicas numricas cujo propsito fundamental classificar os valores de uma matriz de dados sob
estudo em grupos discretos. A tcnica classificatria multivariada da anlise de agrupamentos pode
ser

utilizada quando se

deseja explorar as similaridades entre indivduos (modo Q) ou entre

variveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas


as variveis medidas em cada indivduo e, no segundo, todos os indivduos nos quais foram feitas as
mesmas mensuraes. Segundo esse mtodo, desenvolvido, inicialmente em Zoologia por
taxonomistas numricos, procura-se por agrupamentos homogneos de itens representados por
pontos num espao n-dimensional em um nmero conveniente de grupos relacionando-os atravs de
coeficientes de similaridades ou de correspondncias.
A aplicao desta anlise controversa entre os pesquisadores, pois pouco se sabe a
respeito dos pressupostos estatsticos dos seu vrios mtodos e apenas testes limitados so
conhecidos para verificar a significncia dos resultados. Na anlise introdutria de matrizes de dados
tornam-se, porem, bastante eficientes para auxiliar na formulao de hipteses a respeito da
homogeneidade ou no desses dados.

4.2. Mtodos de classificao

Segundo Davis (1986) os diversos mtodos para a anlise de agrupamentos podem ser
enquadrados em quatro tipos gerais:
a) Mtodos de partio: procuram classificar regies no espao, definido em funo de variveis, que
sejam densamente ocupados em termos de observaes daqueles com ocupao mais esparsa.
b) Mtodos com origem arbitrria: procuram classificar as observaes segundo k conjuntos
previamente definidos; neste caso k pontos arbitrrios serviro como centrides iniciais e as
observaes iro se agrupando, por similaridade, em torno desses centrides para formar
agrupamentos.
c) Mtodos por similaridade mtua: procuram agrupar observaes que tenham uma similaridade
comum com outras observaes; inicialmente uma matriz n x n de similaridades entre todos os
pares da observao calculada; em seguida, as similaridades entre colunas so repetidamente
recalculadas; colunas representando membros de um nico agrupamento tendero apresentar
intercorrelaes prximas a 1 e valores menores com no membros.
d) Mtodos por agrupamentos hierrquicos: so as tcnicas mais comumente usadas em Geologia;
a partir da matriz inicial de dados obtm-se uma matriz simtrica de similaridades e incia-se a
deteco de pares de casos com a mais alta similaridade, ou a mais baixa distncia; para essa
combinao, segundo nveis hierrquicos de similaridade, escolhe-se entre os diversos
23

ANLISE DE AGRUPAMENTOS

procedimentos aglomerativo de tal modo que cada ciclo de agrupamento obedea a uma ordem
sucessiva no sentido do decrscimo de similaridade.

4.2.1. Metodologia para agrupamentos hierrquicos


Partindo de uma matriz inicial de dados [n*p], onde "n"

linhas representam casos ou

espcimes ou amostras, no sentido geolgico, e as "p" colunas as variveis, feitas as comparaes,


usando um coeficiente de similaridade
coeficiente de similaridade de tamanho

qualquer

entre linhas, obtm-se uma matriz inicial de

[ n * n] , que ser utilizada no modo Q. Se a comparao for


[

entre colunas, obter-se- uma matriz inicial de coeficientes de similaridade inicial p * p , que ser
utilizada no modo R. Embora diversas medidas de similaridade tenham sido propostas, somente
duas so geralmente usadas: o coeficiente de correlao de Pearson e a medida de distncia
euclideana. Se as variveis forem padronizadas a partir da matriz inicial de dados, dando o mesmo
peso a cada uma delas, qualquer um desses coeficientes poder ser diretamente transformado no
outro.
Na matriz inicial de coeficientes de similaridade estes representam o grau de semelhana
entre pares de objetos e os mesmos devero ser arranjados de acordo com os respectivos graus de
similaridade de modo a ficarem agrupados segundo uma disposio hierrquica. Os resultados
quando organizados em grfico, do tipo dendrograma, mostraro as relaes das amostras
agrupadas.
Vrias tcnicas de agrupamentos tem sido propostas, e os mtodos mais comumente
usados so:

ligao simples (single linkage method ou nearest neighbor); ligao completa

(complete linkage method ou farthest neighbor); agrupamento pareado proporcionalmente


ponderado" (weighted pair-group method, WPGM); agrupamento pareado igualmente ponderado
(unweighted pair-group method, UPGM); varincia mnima

(minimum variance clustering

ou

Wards method of sum-of-squares method).


No mtodo de ligao simples os grupos iniciais so determinados pelos mais altos
coeficientes de associao mtua. Para admisso de novos membros aos grupos suficiente
encontrar quais os que representam os maiores coeficientes de associao com um dos elementos
de determinado grupo. A ligao ser estabelecida a esse nvel de associao com todo o grupo.
No mtodo de ligao completa os gupos so determinados pelos mais baixos coeficientes de
associao mtua. Ambos so os mtodos mais simples, mas tambem os que apresentam os
resultados mais distorcidos. Com o uso dos mtodos de ligaes completas espera-se obter
resultados mais rigorosos.
No mtodo de agrupamento pareado procura-se

tambm inicialmente pelos mais altos

coeficientes de associao mtua. Em seguida esses pares de casos fornecero valores mdios
originando um novo elemento singular. No "mtodo de agrupamento pareado igualmente ponderado"
para o clculo dos valores mdios atribui-se sempre o mesmo peso aos dois elementos que esto
sendo integrados. No mtodo de agrupamento pareado proporcionalmente ponderado para cada
24

ANLISE DE AGRUPAMENTOS

agrupamento dado um peso proporcional ao nmero de objetos que o constitui, de tal modo que a
incorporao e um novo elemento a um grupo baseia-se no nvel mdio de similaridade desse
elemento com todos os que fazem parte do grupo. Tanto num caso como no outro, alternativamente,
em vez de obter valores medios entre os casos podem ser utilizados centroides e verificados as
distncias entre os mesmos.
No mtodo de agrupamento pela varincia mnima o enfoque sobre a variabilidade que
existe dentro de cada caso e os agrupamentos so efetuados ao se determinar que pares de casos,
quando tomados em conjunto, apresentam o menor acrescimo de variabilidade.
No mtodo de ligaes singulares as ligaes tendem a ocorrer a nveis mais altos do que
nos mtodos de agrupamento pareado. No mtodo de agrupamento pareado igualmente ponderado
como cada membro adicionado ao agrupamento tem sempre o mesmo peso, isso traz como efeito
que os ltimos elementos a se integrarem tem maior influncia que os primeiros. No caso do mtodo
de agrupamento pareado proporcionalmente ponderado, tal no acontece.
Existindo disposio diversas tcnicas para a anlise de agrupamentos e no havendo
testes estatsticos vlidos para os resultados obtidos, o pesquisador geralmente fica em dvida
sobre qual mtodo aplicar. Entendendo que esta anlise sempre deve ser aplicada com carter
introdutrio, e nesse sentido tem o seu mrito, a considerao de ordem pragmtica a ser adotada
que o melhor mtodo aquele que fornece os resultados mais coerentes com a realidade geolgica
em estudo. Eventualmente, testes, como o de Hotteling ou a anlise generalizada de varincias,
podem ser aplicados aos agrupamentos encontrados para a verificao da sua validade estatstica.
Aplicaes desta metodologia tem mostrado que os mtodos pareados igualmente
ponderado so superiores aos demais e que o coeficiente distncia usualmente agrupa melhor
espcimes ou amostras, no sentido geolgico, enquanto o coeficiente de correlao recomentado
para o agrupamento entre variveis. Essas afirmaes so baseadas na correlao cofentica que ao
apresenrar valores abaixo de 0,8 indicam distores significativas no dendrograma obtido.
O mtodo hierrquico tem sido preferido em relao ao que utilisa centrides. Este porm
mostra-se, em termos computacionais, mais til quando se tem que manipular grandes matrizes de
dados, por exemplo com mais de 1.000 casos. Como k geralmente pequeno, da ordem de 5 por
exemplo, mais rpido o manuseio de uma matriz de similaridade k x n do que uma com
dimenses n x n.

4.2.2. Dendrograma
A forma grfica mais usada para representar o resultado final dos diversos agrupamentos
o dendrograma (Figura 4.1.) Nele esto dispostos linhas ligadas segundo os nveis de similaridade
que agruparam pares de espcimes ou de variveis. Como este grfico uma simplificao em duas
dimenses de uma relao n-dimensional inevitvel que algumas distores quanto similaridade
apaream. A medida de tal distoro pode ser obtida por um coeficiente de correlao, dito
"cofentico", entre os valores da matriz inicial de similaridade e aqueles derivados do dendrograma.

25

ANLISE DE AGRUPAMENTOS

Visualmente isso pode ser tambm verificado por meio da construo de um sistema de
eixos ortogonais. Nele os valores dos coeficientes de similaridade originais estaro na abcissa e
os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas as matrizes forem
idnticas os pontos cairo sobre uma linha reta que passa pela origem do sistema. Desvios dos
pontos em relao a essa reta indicaro as distores. Se situadas acima da reta indicaro
coeficientes de similaridade apontados pelo dendrograma mais altos que os originais e vice-versa.

Dendrograma
Mtodo: UPGM
Distncia euclidiana
250

Valores para agrupamento

200

150

100

50

C_9

C_6
C_13

C_8
C_5

C_4
C_12

C_2
C_3

C_14
C_15

C_10
C_11

C_1
C_7

Dendrograma
Mtodo: UPGM
Distncia euclidiana
250

Valores para agrupamento

200

150

100

50

C_9

C_6
C_13

C_8
C_5

C_4
C_12

C_2
C_3

C_14
C_15

C_10
C_11

C_1
C_7

Figura 4.1. Formatos de dendrogramas

26

ANLISE DE AGRUPAMENTOS

A construo de um dendrograma pode ser esquematizada, de acordo com o exposto na


Figura 4.2. Nessa Figura, inicialmente, os mais altos ndices de correlao ocorrem entre as
amostras D e E (0,66) e entre as amostras A e B (0,57) que iro constituir novos casos na matriz de
correlaes j pareadas. Nessa matriz os mais altos coeficientes de correlao ocorrem entre DE e
F (0,41) e AB e C(0,29). Finalmente a correlao final ocorre ao nvel de 0,59 entre ABC e DEF.

Figura 4.2. Esquema de construo de um dendrograma pelo mtodo de agrupamentos


pareados igualmente ponderados (adapta do de Davis, 1986)

4.2.3. Coeficientes de Similaridade


Os coeficientes de similaridade mais usuais, obtidos num espao multidimensional, podem
ser subdivididos em trs categorias:
a) os que medem a distncia, ou a separao angular, entre pares de pontos;
b) os que medem a correlao entre pares de valores;
c) os que medem a associao entre pares de caracteres qualitativos.
Existem diversas publicaes que discutem esses diversos tipos de medidas como, por
exemplo, Sneath & Sokal (1973), Everitt (1980), Prentice (1980), Gordon (1981), Greig-Smith
(1983), Pielou (1984), alem do resumo, sobre 23 coeficientes de similaridades, constante no pacote
MVSP, verso 3.1.

4.2.3.1. Medidas de distncia


Expressam o grau de similaridade como distncia em um espao multi-dimensional. Quanto
maior a distncia, maior o grau de similaridade e vice-versa. A distncia D entre dois pontos, cuja

27

ANLISE DE AGRUPAMENTOS

localizao especificada num sistema de coordenadas cartesianas, fornecida, segundo o


teorema de Pitgoras, por:

D1 .2

( x1 x2 )2 + ( y1 y2 )2

onde x1 , x 2 , y 1 e y 2 so valores das coordenadas dos dois pontos.


Para a distncia entre k pontos, num espao n-dimensional, a frmula generalizada :

Dij

( xik x jk )2 / n

k =1

Tendo todas as variveis o mesmo peso, consequentemente a funo distncia ser limitada
a valores entre 0 (maior similaridade) e 1.0 ( menor similaridade).
Pode, tambm, ser ulizado o coeficiente cosseno-teta, que uma medida de
proporcionalidade expressando o grau de similaridade em termos de separao angular:

Cos pq

xip xiq

2
2
xip xiq

1/ 2

p e q = valores comparados

Quando a similaridade completa, a separao angular 0 e cos = 1.0; quando no


ocorre similaridade nenhuma, a separao angular 90 e o cos = 0.0

4.2.3.2. Coeficientes de Correlao


Medem o grau de associao entre valores pela representao de pontos num sistema de
coordenadas e suas respectivas posies em relao a uma linha reta. Podem tanto ser considerado
o coeficiente de correlao paramtrico (Pearson) como o no paramtrico (Spearman).

coeficiente de correlao paramtrico (Pearson)


O coeficiente de correlao da amostra r (ou *) o qual uma estimativa do coeficiente de

correlao populacional , dado por:


( xi x ) ( yi y)
n 1
r=
=
2
( xi x ) ( yi y ) 2 1/ 2
[var( x ) var( y )]1/2 [
.
]
n 1
n 1
cov( x , y )

Onde n o nmero de pares de valores para x e y , variveis com distribuio normal, e x


i
i
e y so os valores mdios para xi e yi .
Utilizando o mtodo dos mnimos quadrados para o clculo do coeficiente de correlao, a
seguinte frmula simplificada usada:
r=

SPXY
SQX . SQY

SPXY = xy -(x. y) / n
SQX

= x2 - (x)2 / n

28

ANLISE DE AGRUPAMENTOS

SQY

= y2 - (y)2 / n

Valores de r , os quais so medidas adimensionais, podem variar entre -1 +1, expressando


desde comportamento totalmente inverso at comportamento totalmente direto entre as duas
variveis. Quando r=0 significa que no h relao linear entre x e y.

Coeficiente de correlao no-paramtrico de Spearman


um coeficiente de correlao no paramtrico entre duas variveis, xi e yi , em que para o

seu clculo inicialmente xi e yi so ordenados segundo os seus valores de posto (x,i e y,i ) e em
seguida encontrados os valores d i = x , i y ,i .
Para que os valores negativos de di no cancelem os valores positivos de di determinado
para cada caso d i2 . Finalmente encontra-se a somatria dos d i2 .
O coeficiente de correlao ser fornecido pela frmula:
6 d i2
r = 1
s
n 3 n

, ,
n = nmero de pares de valores x , y
i i

Caso ocorram muitos casos com valores de posto empatados usa-se a frmula:
rs =

x ,e + y ,e d i2
,
2 xe

,
ye

onde
3
n 3 n
, n n
,
xe =
T x ; y =
T
e
y
12
12
T=

t3 t
; T = nmero de observaes repetidas em um determinado posto.
12

Como um exemplo numrico, seja uma matriz de dados composta por 7 amostras, no
sentido geolgico, e 6 variveis:

V01

V02

V03

V04

V05

V06

Am01 1.0

2.0

3.0

4.0

5.0

6.0

Am02 5.0

4.0

1.0

8.0

7.0

9.0

Am03 6.0

5.0

4.0

2.0

7.0

9.0

Am04 6.0

4.0

2.0

1.0

3.0

7.0

Am05 9.0

2.0

1.0

4.0

7.0

8.0

Am06 9.0

6.0

3.0

4.0

5.0

6.0

Am07 1.0

5.0

9.0

7.0

5.0

3.0

29

ANLISE DE AGRUPAMENTOS

Utilizando a medida distncia euclidiana, obtm-se a seguinte matriz inicial de


similaridades:

Am01

Am02

Am03

Am04

Am05

Am06

Am07

7.3

7.2

6.6

8.7

8.9

7.9

Am01

.00

Am02

7.28

.0

6.9

8.4

6.1

7.3

11.0

Am03

7.21

6.9

.0

5.1

5.7

5.3

10.7

Am04

6.63

8.4

5.1

.0

6.3

5.3

11.4

Am05

8.72

6.1

5.7

6.3

.0

5.3

13.2

Am06

8.94

7.3

5.3

5.3

5.3

.0

10.9

Am07

7.94

11.0

10.7

11.4

13.2

10.9

.0

Na Figura 4.3. esto os dendrogramas resultantes da aplicao de dois mtodos: ligao


simples (single linkage)

e agrupamento pareado igualmente ponderado (unwighted pair-group

average).
Verificar que os dendrogramas resultantes mostram praticamente os mesmos resultados,
em que pese as diferenas mostradas em ambos os grficos com relao aos nveis para
agrupamentos.

Dendrograma
"Single Linkage"
Distncia euclidiana

AM01
AM02
AM03
AM04
AM06
AM05
AM07

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Nveis para agrupamento

30

ANLISE DE AGRUPAMENTOS

Dendrograma
"Unweighted pair-group average"
Distncia euclidiana

AM01
AM02
AM03
AM04
AM06
AM05
AM07

10

11

Nveis para agrupamento

Figura 4.3. Dendrogramas resultantes dos mtodos single linkage e UPGM

4.2.3.3. Coeficientes binrios


Expressam similaridades em termos de equiparaes (matches) quando so utilizados
dados qualitativos. Neste caso comparaes so feitas entre observaes reduzidas a duas
categorias do

tipo sim-no, presente-ausente etc. Se verificado em 4 perfs estratigrficos a

presena ou ausencia de 4 tipos de fsseis a seguinte matriz de dados binrios pode ser construida:

31

ANLISE DE AGRUPAMENTOS

Se tomadas dois objetos (A e B) e um mesmo carter estiver presente em ambos, tal


situao ser representada por "a"; se presente em A, porm ausente em B, por "c"; se presente em
B, porm ausente em A , por "b" ; se ausentes em ambos, por d.

presente

Ausente

Presente

Ausente

Os coeficientes binrios, podem ser agrupados em:


a) coeficientes de similaridade: expressam a proporo de caracteres que dois objetos possuem
mutuamente quando comparados com o nmero total de caracteres possudos por um dos objetos
ou pelo outro, ou por ambos;

+ b + c)

Jaccard:

a / (a

Otsuka :

a/

( a + b) ( a + c)

Fager :

a/

( a + b ) ( a + c ) 1 / 2 { min( a + b ),( a + c ) }

b) coeficientes de associao: expressam a probabilidade de acontecimento, por acaso, de um certo


nmero de caracteres comuns a dois objetos;

bc )

Yule

( ad

Phi

( ad bc ) /

/ ( ad

+ bc )

( a + b )( a + c ) ( b + d ) ( c + d )

c) coeficientes de equiparao: expressam a similaridade entre dois objetos em termos de


equiparaes positivas, isto , presena de um mesmo carter em ambos os objetos, em relao a
equiparaes negativas, isto , ausncia de um mesmo

carter em ambos os objetos, mais

equiparaes desencontradas;

+d)

Simples :

(a

Hamann :

(a + d b c ) / n

Sackin :

a /n

/n

d) coeficientes de distncias: expressam o distanciamento entre dois objetos em um espao multidimensional;


Sokal

(b + c ) / n

Novamente, como exemplo numrico, seja uma matriz com dados binrios em que o valor
1 significa presente e o valor 0 ausente:

32

ANLISE DE AGRUPAMENTOS

V01

V02

V03

V04

V05

V06

Am01

Am02

Am03

Am04

Am05

Am06

Am07

Nessa matriz as amostras 01 e 06 so idnticas, o mesmo acontecendo com as amostras


05 e 07.
A matriz inicial de similaridades, aps calculados os coeficientes de Jaccard, a seguinte:
Am01 Am02 Am03 Am04 Am05 Am06 Am07
Am01 1.000
Am02 0.000

1.000

Am03 0.250

0.333

1.000

Am04 0.333

0.400

0.400

1.000

Am05 0.167

0.500

0.200

0.500

1.000

Am06 1.000

0.000

0.250

0.333

0.167

1.000

Am07 0.167

0.500

0.200

0.500

1.000

0.167

1.000

E o dendrograma resultante esta exposto na Figura 4.4.

Figura 4.4. Dendrograma resultante da aplicao do coeficiente binrio de Jaccard pelo mtodo de ligao
simples. Notar as relaes entre amostras 01 e 06 e entre amostras 05 e 07, todas ao nvel 1.0

33

ANLISE DE AGRUPAMENTOS

Exemplo

A indstria cermica existente na regio de Rio Claro (SP), incluindo o plo cermico de
Santa Gertrudes-Cordeirpolis, uma das maiores do mundo e necessita, portanto, de um
acompanhamento tecnolgico que a torne cada vez mais competitiva. A caracterizao da matriaprima para a indstria de necessidade premente para o controle da qualidade do produto final. Com
o conhecimento dessa matria-prima, de suas propriedades e comportamento fsico-qumico
possvel otimizar a blendagem do material e calibrar todo o processo de beneficiamento,
principalmente fornos, buscando uma maior homogeneidade nos produtos.
Com essa preocupao Monteiro et alii (2000) aplicaram a anlise de agrupamentos
material cermico, constituido principalmente de lamitos e folhelhos da Formao Itarar, de uma
cava da Cermica Montreal na Fazenda So Caetano, em Jundia/SP. Foram identificados 7 nveis
estratigrficos, dos quais foram selecionados 6 horizontes para amostragem. O perfil de
amostragem, da base para o topo, constitudo pelas seguintes litofcies (Figura 4.5.):
Nvel 6 - Folhelho cinza originados pela decantao de finos trazidos por correntes de
turbidez de baixa densidade, com montmorilonita, mica-ilita, interestratificados e caulinita entre os
minerais presentes na frao fina (< 2 micra);
Nvel 4 - Ritmitos resultantes de intercalaes mais freqentes de siltito e arenito (turbiditos
arenosos) nos folhelhos, e apresentam montmorilonita, mica-ilita e interestratificados na frao fina;
Nvel 5 - Lamitos castanhos que correspondem turbiditos proximais, formando estratos
mais espessos com gradao normal de silte a argila onde esto presentes interestratificados
(provavelmente ilita-montmorilonita), mica-ilita e caulinita;
Nvel 3 - Lamito vermelho macio resultante de processos de fluxo de lama contendo micailita e caulinita. A maturidade dos sedimentos sofre uma mudana brusca a partir desse nvel;
Nvel 2 - Lamito vermelho de fluxo de lama com estruturao, com mica-ilita e caulinita;
Nvel 1 - Lamito vermelho macio macio com clastos de argila indicando retrabalhamento e
fluxos de detritos, com mica-ilita e caulinita.
Originalmente esses 3 nveis de lamitos vermelhos foram tratados como um nico horizonte
cermico, interdigitado por uma lente de arenito. Os nveis 3 a 1 apresentam quantidades crescentes
de caulinita para o topo. A montmorilonita est restrita aos dois nveis estratigraficamente inferiores
(nveis 6 e 4).

34

ANLISE DE AGRUPAMENTOS

Figura 4.5.: Perfil estratigrfico da Cermica Montreal (Fazenda So Caetano/Jundiai,SP)

A amostragem foi executada nos 6 nveis descritos e identificadas como 6J, 4J, 5J, 3J, 2J e
1J, da base para o topo), sendo que no nvel 5 foi replicada a amostragem (5aJ e 5bJ). Foram
analisadas diversas propriedades desse material como: umidade de prensagem, absoro de gua,
porosidade aparente, densidade aparente, perda ao fogo, retrao linear na secagem, na queima
parcial e na queima total e tenso ruptura por flexo. Para as variveis absoro de gua (AA - em
%), porosidade aparente (PA - em %), massa especfica aparente (MEA - em g/cm3) e massa
especfica aparente da parte slida (MEAS - g/cm3), perda ao fogo (%PF), retrao linear na queima
35

ANLISE DE AGRUPAMENTOS

parcial (%Rq), retrao linear na queima total (%Rt) e tenso ruptura por flexo (TRF - em MPa)
foram feitas anlises para cinco partes de cada amostra nas temperaturas de queima de 1.020C,
1.070C e 1.120C.
O dendrograma resultante da aplicao da anlise de agrupamentos no modo Q, ou seja,
entre amostras, apresenta uma ntida distino entre o grupo de amostras 1J e 2J com o grupo 3J,
5aJ e 5bJ, 4J e 6J (Figura 4.6.). Essa distino pode estar condicionada pela presena de caulinita
nos materiais superiores, ou por fatores relacionados distribuio granulomtrica. De qualquer
modo essa diferena nas caractersticas tambm notvel nas propriedades cermicas daqueles
materiais.

Figura 4.6.: Anlise de Agrupamentos entre as amostras (modo Q)

O primeiro grupo subdivi de-se em amostras 1J e 2J. O segundo grupo pode ainda ser
subdividido em dois outros; um com as amostras 3J e 4J, outro com 5aJ e 5bJ e outro com 6J. O
material do nvel 5, comercializada in natura pela empresa, como descorante para a indstria txtil.
Entre as amostras 5aJ e 5bJ no to ntida a diviso, o que j era esperado pelo controle geolgico
e de amostragem.
A anlise de agrupamentos no modo R, ou seja, entre variveis, revela uma distino entre
dois grandes grupos: um constitudo pelas variveis PF, AA, e PA, e o segundo com %Rq, %Rt e

36

ANLISE DE AGRUPAMENTOS

TRF. O primeiro parece estar relacionado com propriedades da distribuio granulomtrica e o


segundo diz respeito composio qumica do material (ligaes e valncia) (Figura 4.7.).

Figura 4.6.: Anlise de Agrupamentos entre as variveis (modo R)

Alm disso, pode-se observar que algumas variveis como retrao linear na queima parcial
(%Rq) e total (%Rt) encontram-se com alta correlao para mesmas temperaturas, bem como se
pode observar tambm um agrupamento para as variveis de tenso ruptura por flexo (TRF) para
as trs temperaturas de 1.020C, 1.070C e 1.120C. Isto se deve ao fato de ocorrer um
intercrescimento de fases neoformadas aps cada temperatura.
Para as propriedades de absoro de gua (AA), porosidade aparente (PA) e perda ao fogo
(%PF) possvel perceber um agrupamento bem evidente. A massa especfica aparente (MEA) e a
massa especfica aparente da parte slida (MEAS) no formam nenhum agrupamento evidente, por
serem caractersticas bastante peculiares do material.
A anlise de agrupamentos mostra que as amostras 5aJ e 5bJ possuem o mesmo
comportamento, o que esperado por serem retiradas do mesmo nvel. As amostras 3J e 4J
poderiam, em princpio serem tratadas da mesma forma, porm a anlise de correspondncias
mostra que a amostra 4J possui um comportamento diferente, por ser mais plstica e com menor
retrao linear na queima (parcial e total), sendo esta uma importante caracterstica do material,
muito semelhante s amostras 5aJ e 5bJ.
As amostras 1J e 2J, isto , os nveis mais superiores, so bem distintos dos outros. O
material dos dois primeiros nveis no deve ser tratado da mesma forma que o material do nvel 3
pela indstria ceramista, o que a prtica atual. Hoje a empresa faz a mistura usando os nveis 1, 2

37

ANLISE DE AGRUPAMENTOS

e 3 como material inerte (saibro), adicionado ao material dos nveis 4 e 6 da base. As propores na
mistura so distintas conforme os diferentes produtos finais aos quais se destinam. Varia de 4:5 para
a indstria de revestimento e de 3:7 para a cermica estrutural. A anlise estatstica multivariada
aplicada indicou, porem, que os nveis 1 e 2 so distintos do nvel 3, sob vrios aspectos que podem
ser verificados nas suas caractersticas fsicas e de comportamento cermico.

38

ANLISE DE AGRUPAMENTOS

BIBLIOGRAFIA
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2 nd. ed., John Wiley and Sons, Inc.
EVERITT, B. (1980) Cluster Analysis: 2 nd ed., Gower Publishing Co.
GORDON, A. D. (1981) Classification: Chapman and Hall
GREIGH-SMITH, P. (1983) Quantitative Plant Ecology: University of California Press, Berkeley
MONTEIRO, R. C.; BERNARDES, E.V.; MASSON, M.R. & LANDIM, P.M.B. (2000) Anlise estatstica
multivariada para materiais cermicos: VIII Simp.Quant.Geocincias, Bol.Res. Expandidos, 163-166
MVPS/Plus (1998) Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing Services
PIELOU, E.C. (1984) The Interpretation of Ecological Data: Wiley-Interscience
PRENTICE, I.C. (1980) Multidimensional scaling as a research tool in Quaternary palybology: A review of
theory and methods: Review of Paleobotany & Palynology, 31:71-104
SNEATH, D. H. & SOKAL, R. R. (1973) Numerical Taxonomy: W. H. Freeman & Co.

39

ANLISE DAS COMPONENTES PRINCIPAIS

5. ANLISE DAS COMPONENTES PRINCIPAIS


o mais antigo mtodo de ordenao, o mais conhecido e com mais exemplos de
aplicao em Geologia. A anlise das componentes principais nada mais que o clculo dos
autovalores e correspondentes autovetores de uma matriz de varincias-covarincias ou de uma
matriz de coeficientes de correlao entre variveis. Quando as variveis, devido a escalas diferentes
de mensuraes empregadas, no podem ser diretamente comparadas, torna-se necessrio
preliminarmente a padronizao, de modo que as variveis transformadas passem a ter mdia zero e
varincia unitria, o que conseguido pela transformao "z". Nesses casos, com variveis
padronizadas,

a matriz

de varincias-covarincias e a de coeficientes de correlao tornam-se

idnticas. Como tal padronizao acarreta uma forte influncia na estrutura da matriz de varinciascovarincias e, conseqentemente, nos resultados da anlise, a sua utilizao deve ser criteriosa
levando sempre em conta a natureza dos dados geolgicos em estudo e o enfoque que se pretende
dar.
A anlise das componentes principais no sinnimo de analise fatorial ou anlise dos
fatores e essa confuso terminolgica deve ser evitada. A primeira anlise

consiste numa

transformao linear de "m" variveis originais em "m" novas variveis, de tal modo que a primeira
nova varivel computada seja responsvel pela maior variao possvel existente no conjunto de
dados, a segunda pela maior variao possvel restante e assim por diante at que toda a variao
do conjunto tenha sido explicada. Na anlise fatorial supe-se que as relaes existentes dentro de
um conjunto de "m" variveis seja o reflexo das correlaes de cada uma dessas variveis com "p"
fatores, mutuamente no correlacionveis entre si, sendo "p" menor que "m". O extremo cuidado que
se deve ter com relao especificao do nmero e, principalmente, do significado dos "p"
fatores que emergem a partir dessa anlise. Ver a respeito Jreskog, Klovan e Reyment (1976) e
Reyment e Jreskog (1996)
A anlise das componentes principais , portanto, uma tcnica de transformao de
variveis. Se cada varivel medida pode ser considerada como um eixo de variabilidade, estando
usualmente correlacionada com outras variveis, esta anlise transforma os dados de tal modo a
descrever a mesma variabilidade total existente, com o mesmo nmero de eixos originais, porm no
mais correlacionados entre si. Graficamente pode ser descrita como a rotao de pontos existentes
num espao multidimensional originando eixos, ou componentes principais, que dispostos num
espao a duas dimenses representem variabilidade suficiente que possa indicar algum padro a ser
interpretado.
A anlise das componentes principais inicia-se com o clculo dos autovalores e
correspondentes autovetores de uma matriz de varincias-covarincias ou de correlaes entre
variveis e tal procedimento conhecido como modo R. O primeiro autovalor a ser determinado
corresponder maior porcentagem da variabilidade total presente e assim sucessivamente.
Geralmente os dois ou trs primeiros autovetores encontrados explicaro a maior parte da
variabilidade presente. Quando o primeiro autovetor j explica 90 a 95% da variabilidade isso
40

ANLISE DAS COMPONENTES PRINCIPAIS

deve ser encarado com cuidado e verificado se no esto presentes variveis com valores de
magnitudes muito maiores que as demais.
Os autovetores

correspondem s componentes principais e so o resultado do

carregamento das variveis originais em cada um deles. Tais carregamentos podem ser
considerados como uma medida da relativa importncia de cada varivel em relao s componentes
principais e os respectivos sinais, se positivos ou negativos, indicam relaes diretamente e
inversamente proporcionais.
A matriz de carregamentos de cada varivel nas componentes principais ao ser multiplicada
pela matriz original de dados fornecera a matriz de contagens (scores) de cada caso em relao s
componentes principais. Esses valores podero ento ser dispostos num diagrama de disperso, em
que os eixos so as duas componentes mais importantes, e mostrar o relacionamento entre os
casos condicionados pelas variveis medidas.
A primeira matriz obtida, resultado das interrelaes entre variveis pode ser interpretada
como

um

procedimento

estatstico

no qual os dados seriam amostras de populaes

multidimensionais. J a segunda matriz, que apresenta as interrelaes entre casos ou amostras, no


sentido geolgico, no so usualmente passveis de serem submetidas a testes estatsticos.

Seqncia de clculos
Se A for uma matriz simtrica de varincias e covarincias, de dimenses pxp, com termos

aij, de onde os autovalores e os autovetores sero extrados, Vi o isimo autovetor, cujos termos so
vij e i o isimo autovalor, tal relao pode ser expressa por

( A i I )V i = 0,

onde I a matriz de identidade.


Alternativamente a relao acima pode ser escrita por

AVi =Vi i , ou, [ A ][V ] = [V ][ ] , onde


[V] uma matriz , p x p, de todos os autovetores e
[] uma matriz, p x p, com os autovalores i na diagonas principal.
Multiplicando ambos os lados da equao pela transposta de V, V.

[ A ] = [V ][ ][V ]'
A soma dos autovalores igual soma dos termos da diagonal em [A], ou seja, a soma das
varincias

i = aii
e por definio 1 2 ... p
Resolvendo a equao acima para , as razes determinadas sero os autovalores.
Encontrados os autovalores, substituindo-os nas equaes simultneas e resolvendo-as, obtm-se
para cada autovalor autovetores correspondentes, ou seja, as componentes principais.

41

ANLISE DAS COMPONENTES PRINCIPAIS

Pode-se definir a varincia total existente em um conjunto de dados multivariados pela soma
das varincias de cada uma das variveis. Numa matriz de varincias-covarincias essas varincias
individuais constituem os elementos da diagonal principal. Basta som-los, portanto, encontrando o
trao da matriz para se obter a variabilidade total, e em seguida a contribuio de cada varivel. A
soma dos autovalores de uma matriz, igual ao trao dessa matriz, representa tambm a variabilidade
total da mesma e a contribuio de cada autovalor em termos de variabilidade determinada. Ao
primeiro corresponder a maior variabilidade possvel existente, ao segundo a maior variabilidade
possvel restante e assim por diante.
Em termos geomtricos, o primeiro autovalor representa o eixo principal de maior
comprimento; o segundo autovalor, um segundo vetor em comprimento, situado em posio
ortogonal em relao ao primeiro e assim sucessivamente.
Os elementos de cada um dos autovetores encontrados so simplesmente coeficientes de
equaes lineares que transformam os dados originais em contagens (scores) indicativas do
respectivo carregamento sobre os eixos correspondentes. Desse modo, utilizando-se da
multiplicao da matriz de dados originais pela matriz de autovetores, obtm-se uma matriz de
dados transformados que representam projees dos pontos, num espao multidimensional, sobre
as diversas componentes principais.

[ S R ] = [ X ][V ] , onde
[X] = matriz de dados originais [n x m]
[V] = matriz quadrada [m x m] contendo os autovetores
[SR] = matriz [n x m] das contagens sobre as componentes principais.

5.1. Anlise das Coordenadas Principais


A Anlise das Coordenadas Principais pode ser entendida como um caso mais geral da
Anlise das Componentes Principais. Enquanto esta utiliza matrizes de varincias-covarincias ou
de correlaes aquela pode usar uma variedade de diferentes medidas de distncia ou de
similaridade. Essas medidas so tomadas diretamente entre os espcimes, no chamado modo Q,
e no entre variveis. Neste caso os autovetores resultantes representam os scores para os
espcimes. Fornece, assim, uma ordenao direta entre casos e muito til nas situaes quando
se dispe de uma matriz de dados com mais variveis do que espcimes. Nessa anlise, porm, no
so fornecidos cargas ou pesos (loadings) para as variveis. Recomenda-se o trabalho de Gower
(1966) para o detalhamento desta anlise.
Como no uso da Anlise das Coordenadas Principais diversas categorias de medidas de
distncia ou de sililaridade podem ser usadas, se os dados a serem analisados forem uma mistura
de valores contnuos e medies binrias, o coeficiente geral de similaridade de Gower pode ser
aplicado, pois este um coeficiente de similaridade mtrico. Distncias alternativas, como a

42

ANLISE DAS COMPONENTES PRINCIPAIS

Manhattan mtrica podem tambm ser analisadas. A utilizao da distncia euclidiana para esta
anlise fornece o mesmo resultado que uma anlise das componentes principais no modo Q.

Coeficiente de similaridade geral de Gower

(w
n

GGScij =

k =1

w
k =1

onde:

ijk ijk

sijk = 1

ijk

xik x jk

range(k )

, para dados quantitativos

= 1 para comparao de dados binrios ou multiestados


= 0 para os demais casos
W ijk

= 0 para comparaes negativas de dados binrios


= 1 para todas as outras situaes

Distncia mtrica de Manhattan:

MMdij = |x ik x jk|,
onde i e j representam duas linhas (casos ou espcimes) de uma matriz de dados e k
representa as colunas (variveis) e n nmero total de variaveis:

A anlise das coordenadas principais , todavia, restrita para o caso em que as distncias
ou similaridades so mtricas. Para uma medida ser considerada mtrica tem que obedecer certos
pressupostos matemticos, como o poder ser visualizada de um modo grfico. Assim as distncias
entre trs pontos deve obedecer aos vrtices de um tringulo. Isso significa que a distncia entre
dois dos pontos, ou seja, um dos lados do tringulo, deve ser sempre menor que as outras duas
distncias. Isso nem sempre ocorre como, por exemplo, num conjunto de coeficientes de correlao
se os valores forem tratados como distncias no ser possvel escolher trs entre eles para traar
um tringulo.

5.2. Mtodos robustos para anlise das componentes principais

43

ANLISE DAS COMPONENTES PRINCIPAIS

O objetivo de qualquer anlise estatstica, inclusive a multidimensional, inferir propriedades


da populao a partir de amostras estudadas. Valores anmalos (outliers) presentes podem, porm,
levar concluses errneas e da o interesse em detect-los. A anlise das componentes principais,
por se basear em estimativas de disperso por quadrados mnimos, no capaz de faz-lo e por
isso a necessidade de mtodos robustos. Exemplo disso apresentado por Zhou (1989) que discute
a aplicao de trs opes de mtodos robustos, todas elas calcadas no uso da distncia de
Mahalanobis. Esse trabalho acompanhado por um programa, ROPCA, escrito em FORTRAN e
disponvel para acesso e carregamento.
Nesse trabalho apresentado como exemplo de matriz de dados a composio mineral de
uma rocha artificial, denominada hongito por Aitchison (1986), consituida por 25 espcimes e 5
variveis. A essa matriz foram adicionados dois vaores anmalos, com altos valores na 4a e 5a
variveis e baixos valores na 1a varivel.

n
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

V1
4880.0
4820.0
3700.0
5090.0
4420.0
5230.0
4460.0
3460.0
4120.0
4260.0
4990.0
4520.0
3270.0
4140.0
4620.0
3230.0
4320.0
4950.0
4230.0
4460.0
4580.0
4990.0
4860.0
4550.0
4590.0
3130.0
3012.0

V2
3170.0
2380.0
910.0
2380.0
3830.0
2620.0
3300.0
520.0
1170.0
4660.0
1950.0
3730.0
850.0
1290.0
1750.0
730.0
4430.0
3230.0
1580.0
1150.0
1660.0
2500.0
3400.0
1660.0
2490.0
2944.0
1200.0

V3
380.0
900.0
3420.0
720.0
290.0
420.0
460.0
4290.0
2670.0
70.0
1140.0
270.0
3890.0
2340.0
1580.0
4090.0
100.0
310.0
2040.0
2380.0
1680.0
680.0
250.0
1760.0
970.0
1068.0
1232.0

V4
640.0
920.0
950.0
1010.0
770.0
1250.0
1220.0
960.0
960.0
560.0
950.0
550.0
800.0
1580.0
830.0
1290.0
780.0
870.0
830.0
1160.0
1200.0
1090.0
940.0
960.0
980.0
1526.0
2051.0

V5
930.0
980.0
1020.0
800.0
690.0
480.0
560.0
770.0
1080.0
450.0
970.0
930.0
1190.0
650.0
1220.0
660.0
370.0
630.0
1320.0
850.0
880.0
740.0
550.0
1070.0
970.0
1332.0
2505.0

44

ANLISE DAS COMPONENTES PRINCIPAIS

Na Figura 5.1. esto dois diagramas de eixos ortogonais mostrando o resultado da anlise
das componentes principais aplicada amostra de hongito com 25 valores e tambem mesma
amostra acrescida de mais dois valores anmalos. Pode-se constatar que no h destaque para
esses espcimes, identificados como 26 e 27.

Figura 5.1.: Anlise das componentes principais

45

ANLISE DAS COMPONENTES PRINCIPAIS

A aplicao, porm, da anlise das coordenadas principais, que no um mtodo robusto,


mas usa o modo Q de anlise e a distncia euclidiana padronizada, revela a presena em destaque
dos espcimes 26 e 27 (Figura 5.2.).

StEdij =

Distncia euclidiana padronizada

xik x jk
sd k
k =1
n

onde sdk = desvio padro de todos os elementos de k

Figura 5.2. Anlise das coordenadas principais

46

ANLISE DAS COMPONENTES PRINCIPAIS

BIBLIOGRAFIA
AITCHISON, J. (1986) The statistical analysis of compositional data: Chapman & Hall
GOWER, J. C. (1966) Some distance properties of latent root and vector methods used in multivariate
methods: Biometrika, 55: 325-338
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
REYMENT, R. A. & JRESKOG, K. G. (1996) Applied Factor Analysis in the Natural Sciences: Cambridge
University Press, second printing
ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components Analysis: Computers
& Geosciences, 15:59-78

47

ANLISE FATORIAL

6. ANLISE FATORIAL
Diferentemente da anlise das componentes principais, que uma manipulao matemtica,
a anlise dos fatores pode ser considerada como uma tcnica estatstica. Importante salientar que
quando o mtodo foi estabelecido por psiclogos, interessados em testes de inteligncia, a condio
fundamental era que o nmero de fatores "p" a se determinar, deveria ser conhecido "a priori" antes
da anlise ser efetuada. Em Geologia dificilmente essa condio preenchida, pois geralmente os
"fatores geolgicos" acabam sendo estabelecidos em funo dos resultados obtidos, o que torna
algumas vezes os resultados questionveis. Desse modo, sempre que possvel, deve-se levar em
considerao o conhecimento geolgico a respeito do problema a ser analisado para o
estabelecimento de possveis fatores que tenham condicionado a distribuio de valores da matriz de
dados.
O modelo da anlise fatorial pode ser expresso por:
p

X j = a jr f r + e j , onde
r =1

X j = variveis originais, existindo "m" x j


p = nmero "pr-especificado" de fatores
a jr = coeficiente que representa o carregamento da j'sima varivel sobre o r'simo fator

f r = r'simo fator
e j = variao casual nica relativa as variveis originais X j
As variveis, expressas em termos de vetores num sistema de coordenadas ortogonais, em
que o comprimento representa a magnitude, agrupar-se-o conforme o relacionamento entre si. Por
esses agrupamentos de vetores podero passar eixos, denominados fatores, que acusaro, pelo
valor da projeo dos vetores sobre os eixos, a carga fatorial (factor loading) das variveis sobre si.
Esses fatores representam o nmero mnimo de causas que condicionam um mximo de
variabilidade existente. A comunalidade (communallity), h, isto , a soma dos quadrados das cargas
fatoriais das variveis sobre cada fator indica a eficincia dos mesmos na explicao da variabilidade
total.
Os fatores so encontrados fazendo com que o primeiro eixo esteja em tal posio que a
soma dos quadrados dos pesos fatoriais em relao a ele seja maximizada, o que equivale a coloclo paralelamente ao principal agrupamento de vetores. O segundo eixo colocado ortogonalmente,
de modo que tambm seja maximizada a soma de quadrados dos pesos fatoriais para este segundo
eixo, e assim por diante quanto aos demais fatores.
Uma das dificuldades resultantes deste procedimento que o padro de carregamento para
cada componente pode no fornecer dimenses facilmente interpretveis. Por exemplo, em uma
matriz de coeficientes de correlao em que nenhum dos coeficientes particularmente alto, o
padro de carregamento que pode ocorrer com respeito ao primeiro fator pode ser da mesma ordem
relativa de magnitude que o existente em relao ao segundo fator, ao terceiro fator etc. Haver
48

ANLISE FATORIAL

necessidade, ento, de uma rotao dos eixos fatoriais. A finalidade dessa rotao maximizar
colocando os eixos fatoriais numa nica posio tal que cada fator possa ser interpretado pelos
maiores carregamentos possveis relacionados com o menor nmero de variveis possvel.

6.1. Anlise fatorial pelo modo R

Quando se est interessado no relacionamento entre variveis, o clculo dos autovalores e


autovetores feito a partir de uma matriz padronizada de varincias-covarincias, isto , uma matriz
de coeficientes de correlao entre p variveis, tendo todas o mesmo peso.
Os autovetores so calculados de tal modo a definir m vetores com tamanho unitrio. Isso
conseguido multiplicando cada elemento do autovetor normalizado pela raiz quadrada do
correspondente autovalor. O resultado um fator, ou seja, um vetor constitudo por cargas fatoriais.
A matriz de varincias e covarincias observadas, [S2], igual ao produto da matriz de
carregamentos fatoriais (factor loading) [AR], de dimenses m x p, multiplicada pelo seu transposto
[AR], mais uma matriz diagonal de varincias nicas [var Ejj]

[ S 2 ] = [ A R ] .[ A R ]' + [var E ii ]
Como na anlise fatorial p < m, a varincia nas m variveis , portanto, derivada dos p
fatores, porm a contribuio feita por fontes nicas que afetam independentemente as m variveis
originais. Esses p fatores subjacentes so conhecidos como fatores comuns e resumem a
contribuio independente como um nico fator.
Deve ser notado que p dever ser conhecido previamente anlise e isso implica numa
restrio. Caso p no seja especificado a partio de variveis entre os fatores comuns e o fator
nico torna-se indeterminada.
Os autovalores e, conseqentemente, os fatores, representam a proporo da varincia total
explicada pelo respectivo autovetor e cada carga fatorial proporcional raiz quadrada da quantia de
varincia atribuda pela respectiva varivel ao fator.
2

As comunalidades ( h j ) indicam quanto da variabilidade total est sendo explicada pelo


conjunto de fatores.
Para que os "p" fatores ortogonais situados no espao "m" dimensional sejam mais
facilmente entendidos necessrio que estejam em tal posio, de modo que as projees de cada
varivel sobre o eixo fatorial, situem-se o melhor possvel, seja junto a extremidade, seja junto
origem. Em outras palavras, haver necessidade de um critrio de maximizao da varincia dos
carregamentos sobre os fatores, o que conseguido pela rotao dos eixos fatoriais. Existindo
diversos algortmos disposio, o mais comum o critrio varimax.
m

p
sk2

j =i

a 2jp

2
h 2j

a 2jp / h 2j
j =i

2
p

s k2 = varincia das cargas fatoriais


49

ANLISE FATORIAL

p = nmero de fatores
m = nmero de variveis originais

a jp = carregamento da varivel j no fator p

h 2j = comunidade da jsima varivel


A quantidade que se deseja maximizar :
p

k =1

sk2

Finalmente, aps encontrada a matriz fatorial rotacionada se a mesma for multiplicada pela
matriz inicial de dados obtm-se uma matriz dos "factor score". Esses factor score representam
estimativas das contribuies dos vrios fatores cada observao original e podem ser utilizados na
classificao de amostras. Maiores detalhes podem ser encontrados em Davis (1986) ou Reyment &
Jreskog (1993)

6.2. Anlise fatorial pelo modo Q

Quando se est interessado no relacionamento entre amostras, utiliza-se o modo Q de


anlise de fatores, a qual parte de uma matriz inicial de coeficientes de similaridade entre amostras.
O coeficiente de similaridade mais usado o coeficiente cosseno-teta.
m

Cos ij =

X ik jk

k =1
m

Xik2 X 2jk

k =1

k =1

Se as "m" variveis originais forem normalizadas, de modo a terem mdia zero e varincia
1,0, haver uma identidade entre valores do coeficiente cosseno-teta e do coeficiente de correlao.
O propsito classificatrio do modo Q o mesmo da anlise de agrupamentos, porm de
muito mais difcil manuseio e muito mais dispendioso quanto ao tempo de computao. Por isso se
o objeto de uma anlise a classificao de amostras em grupos, deve-se utilizar ou da anlise de
agrupamentos ou dos "factor score" obtidos pela anlise fatorial, segundo o modo R.
Um outro procedimento que procura tambem determinar se uma coleo de observaes
multivariadas representam uma amostra de uma nica populao ou uma mistura de diferentes
populaes a Anlise das Coordenadas Principais. Para tanto recomenda-se o trabalho de Gower
(1966) para o detalhamento desta anlise, alm de Jreskog, Klovan & Reyment (1976) e Reyment,
Blackith & Campbell (1984).

50

ANLISE FATORIAL

6.3. Exemplo numrico

1
4
matriz de dados = [ X ij ] =
7

2 4
2 3
3 2

5 1

0 ,820 0,980
1,000

matriz de coeficientes de correlao = [ R] = 0,820


1,000 0,913

0 ,980 0,913 1,000

[A][X] = [X]
([A] - [I]) [X] = 0

Clculo das razes da equao caracterstica (autovalores):

(1,000 - )(1,000 - )(1,000 - ) + (0,820)(- 0,913)(- 0,980) +


(- 0,980)(0,820)(- 0,913) - (- 0,980)(1,000 - )(- 0,980) (1,000 - )(- 0,913)(- 0,913) - (0,820)(0,820)(1,000 - ) =
( - 2,810)( - 0,188)( - 0,002)
autovalores: 1 = 2,810
2 = 0,188
3 = 0,002

Componentes do autovetor V1:

(1,000 - 2,810)X1 + 0,820X2 - 0,980X3 = 0


0,820 - (1,000 - 2,810)X2 - 0,913X3 = 0
-0,980X1 - 0,913X2 - (1,000 - 2,810)X3 = 0

X1 = 1,000 e X2 = 0,974; X3 = - 1,032

V1 =

1,000
0,974
- 1,032

51

ANLISE FATORIAL

Normalizao dos autovetores, Vi, para tamanho unitrio:

Clculo de Q: Q = 1 + (0,974)2 + (-1,032)2 = 3,012; Q = 1,735)


Vn1 = 1/ Q; 0,974/Q; - 1,032/Q = 0,576; 0,561; - 0,595
Vn2 = - 0,597; 0,785; 0,162

matriz fatorial inicial: autovetor normalisado x (autovalor correspondente)


Fatores
F1

F2

X1

0,966

- 0,259

X2

0,940

0,340

X3

- 0,997

0,070

rotao dos fatores (pelo critrio varimax):

ngulo de rotao = ?, para variavel j e fatores p e q

tan 4 =

4 2XjpXjq(X2jp - X2pq) - 4 (X2jp - X2jq) XjpXjq / n


( X2jp - X2jq)2 - (2XjpXpq)2 - [( 2XjpX2jq)2 - (2XjpXpq)2] / n

tan 4 = [D - 2AB /n]/[C-(A2 - B2)/n] = - 0,1592/- 0,6555 = 0,2429

Uj = X2jp - X2jq
A = Uj = 2,6222

Vj = 2XjpXjq

A2 = 6,8789

B = Vj = - 0,0001 B2 = 0,0000
C = (U2j - V2j) = 1,6365
D = 2UjVj = - 0,1594

arctan 0,2429 = -166 21 = 4;

= 41 17

sen = - 0,6598
cos = 0,7515

0,7515 0,6598
[T ] =

0,6598 0,7515
Xj1 = T11X11 + T12X12 = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894

matriz fatorial rotacionada:


Fatores
F1

F2

52

ANLISE FATORIAL

X1

0,894

0,447

X2

0,477

0,879

X3

- 0,792

- 0,609

Figura 6.1. Geometria da rotao da matriz fatorial inicial

Figura 6.2. Rotao varimax da matriz fatorial inicial

53

ANLISE FATORIAL

6.4. Anlise das correspondncias (Anlise das associaes)


Tanto a Anlise das Componentes Principais como a Anlise Fatorial exigem dados
mensurados em escala numrica contnua e no so, portanto, apropriadas para dados nominais,
tais como contagem de nmeros de diversos tipos de fsseis em um nvel estratigrficdo, nmero de
fraturas com diferentes orientaes num macio rochoso ou dados do tipo presente-ausente. Nesses
casos em que os dados podem ser agrupados em categorias, os autovalores so extrados a partir
de tabelas de contingncias e a tcnica conhecida como anlise das correspondncias, traduo
do francs Analyse des Correspondances (Benzcri et al., 1980). Talvez o termo que melhor
descreva o mtodo seria Anlise das Associaes entre variveis e espcimes. Na tabela de
contingncias os valores originais so transformados de modo a poder ser interpretados como
probabilidades condicionais. Por causa da natureza dessa transformao as relaes entre colunas
e linhas da tabela transformada so as mesmas que aquelas da matriz original da dados. Isso
significa que as solues para o modo Q e para o modo R so equivalentes e desse modo, o produto
final mostra num espao bidimensional, definido pelos dois mais importantes autovetores, a
distribuio simultnea tanto das amostras como das variveis.
Este mtodo, porm, bastante suceptvel presena de valores anmalos (outliers).
Quando presente valores muito diferentes dos demais, os primeiros eixos fatoriais apresentaro
esses valores acumulados em uma das extremidades do eixo e os demais agrupados na outra. Esse
problema pode ser contornado com a eliminao dos valores anmalos ou ento, se mantidos,
ignorar o primeiro eixo e verificar os eixos subsequentes.
Ver aplicaes dessa metodologia em Geologia em Teil (1975), Teil & Chemine (1975) e
David, Dagbert & Beaunchemin (1977). Em Carr (1990) apresentado um programa em
FORTRAN-77 para o clculo desta anlise.

6.4.1. Seqncia de clculos


Inicialmente os elementos da matriz [X] de dados originais, de dimenses n x m, so
convetertidos em probabilidades conjuntas didivindo cada elemento pelo total geral x ij

[B] =

1
[X]
xij

Em seguida definida uma matriz quadrada [M] com dimenso m x m, que contm os totais
das colunas de [B] arranjados em ordem ao longo da diagonal principal e com zeros em todas as
demais posies. Tambm definida uma matriz [N], com dimenses n x n que contm os totais
das linhas na diagonal principal e zeros nas demais posies. Essas duas matrizes contm as
probabilidades marginais das colunas e das linhas e so usadas para transformar [B].

[ W ] = [ N ] 1 / 2 [ B ] [ M ] 1 / 2

54

ANLISE FATORIAL

A matriz [W], com dimenses n x m, contm os elementos transformados wij que


correspondem a cada elemento original xij. A matriz de produtos-cruzados entre colunas

[ R ] = [W ]' [ W ]
E, de mesmo modo, a matriz de produtos-cruzados entre linhas

[ Q ] = [ W ] [W ]'
Os autovalores de [R] e de [Q] so idnticos, exceto que em [Q] tem (n-m) autovalores
adicionais, todos com o valor zero. Os autovetores de [R] podem ser convertidos nos fatores de
correspondncia (=associao) multiplicando cada vetor pelo seu valor singular correspondente, que
a raiz quadrada do autovalor correspondente
Carregamentos no modo R =

. autovetores de modo R

Em notao matricial os valores singulares podem ser pensados como presentes ao longo
da diagonal de uma matriz m x m, [], sendo zero os demais elementos. Os autovalores de [R]
formam as colunas de uma matriz m x m, [U]. A equao matricial para determinar os
carregamentos no modo R ento:

[ AR ] = [ U ] [ ]
Os scores de cada n observao sobre os m fatores de correspondncias so

[ S R ] = [W ] [ A R ]
Para o caso de autovalores de [Q], sendo [V], de dimenses n x n, a matriz que contm n
autovetores de [Q], de modo idntico obtm-se

[ A Q ] = [V ] [ ] e [ S Q ] = [ W ]' [ A R ]
H uma relao direta entre as solues para o modo R e para o modo Q:

[ A Q ] = [ W ] [ A R ] [ ] 1 = [ S R ] = [ ] 1
O carregamento nos fatores de correspondncias no modo Q igual aos scores de
correspondncias no modo R, dividido pelos valores singulares apropriados. Pode-se obter uma
soluo para o modo Q resolvendo-o no modo R, o que uma vantagem em termos computacionais,
pois normalmente [R] tem dimenses menores que [Q].
A conseqncia direta disso que se pode plotar tanto amostras como variveis no mesmo
espao, usando os mesmos eixos. A obteno de mesmas escalas tanto para R como para Q
obtida por

[ A$ R ] = [ M ]1 / 2 [ A R ]
[ A$ Q ] = [ N ]1 / 2 [ A Q ]

A apresentao de resultados simultneos, referentes variveis e amostras, num mesmo


diagrama de disperso bastante til e de fcil interpretao, como visto. Alm desta anlise das
associaes, pode tambem ser mencionado o mtodo proposto por Gabriel (1971) que aborda de

55

ANLISE FATORIAL

um modo mais geral o relacionamento entre linhas e colunas de uma tabela de contigncia. Detalhes
podem ser encontrados em Gordon (1981), Jackson (1991), Jolliffe (1986) e Gabriel (1995,a,b).

6.5. Anlise fatorial R-Q simultnea


Embora o teorema de Eckart-Young estabelea ser possvel extrair fatores simultneamente
pelos modos R e Q, na prtica os resultados podem no serem os mesmos devido a maneira como
os dados so transformados antes do processo fatorial. O escalonamento de valores condiciona as
medidas de similaridade e, desse modo, a natureza da soluo fatorial.
No modo R a soluo fatorial inicia-se pela matriz simtrica dos menores produtos [W][W],
enquanto no modo Q a soluo inicia-se pela matriz simtrica dos maiores produtos [W][W]. Isso
significa que os procedimentos de escalonamento de valores no so os mesmos para originar [W] a
partir dos dados originais [X]. Por exemplo, na anlise das componentes principais cada elemento de
[X] dividido pelo desvio padro das colunas para produzir [W]. Na anlise fatorial pelo modo Q
ocorre uma padronizao que inclui a diviso de cada elemento de [X] pela raiz quadrada da soma de
quadrados das linhas para originar [W]. Como a matriz [W] originada pelo modo R no idntida
matriz [W] originada pelo modo Q, tal diferena entre escalas no fornece os mesmos resultados
(Davis, 1986).
A anlise das associaes usa uma matriz simtrica com a mesma escala de valores para
linhas e colunas e procura medidas de similaridade proporcional entre objetos e variaveis. A
similaridade resultante a distncia 2 utilizvel apenas para tabelas de contingncia que estima
probabilidades. Uma tabela de medidas com valores contnuos, porem, tem diferentes propriedades e
necessidade metodologia prpria para tratar simultneamente os objetos e as variveis, como
apresentado por Zhou, Chang & Davis (1983).
Segundo esses Autores se os dados forem escalonados de modo que o produto menor
[W][W] seja

uma matriz de correlaes e o produto maior [W][W] uma matriz de distncias

euclideanas, o modo R ao ser executado por uma anlise das componentes principais e o modo Q
por uma anlise das coordenadas principais, os resultados apresentaro a mesma configurao
espacial.

6.6. Exemplo
No artigo de Zhou, Chang & Davis (1983) apresentado como exemplo para a aplicao da
anlise R-Q em contraposio anlise das correspondncias uma matriz de dados retirada de
Sherman, Bunker e Bush (1971). Esses dados provem da rea de Berea, Virginia/EUA, onde um
pequeno, mas altamente radioativo, pluton de quartzo-monzonito (Q) foi introduzido em cloritaactinolita-xistos (X) e, posteriormente, cobertos por areias e cascalhos (A). Um total de 22 amostras
foram coletadas e analisadas para U (partes por milho), Th (ppm) e K (porcentgem). Alem disso foi
realizado um levantamento aereo-radiomtrico (A), com valores medidos em contagem por segundo,
56

ANLISE FATORIAL

para verificar a relao entre essa coleta e os dados de campo. Os valores esto na Tabela 6.1. e
foram submetidos tanto a anlise R-Q como anlise das correspondncias.
A soluo pela analise R-Q mostrou correlaes positivas entre as quatro variaveis
consideradas e as amostras distriburam-se por reas distintas conforme a litologia, ao longo do
fator 1, que correspondeu a 85 da variabilidade presente. J a anlise das correspondncias revelou
um padro diferente de distribuio, onde a varivel radiomtrica aparece no centro do diagrama e as
amostras esto a agrupadas independentemente das diferena litolgicas. Esses resultados so
inconsistentes com a realidade geolgica e a razo para a no deteco est no fato que as variaveis
foram medidas segundo diferentes ordens de magnitude. A anlise das correspondncias foi
originalmente designada para analisar tablas de contigncias e quando aplicadas tablas de
valores numricos cuidados devem ser tomados para evitar problemas de escala de mensuraes.
Como apresentado no captulo anterior, Zhou (1989) discute a aplicao de metodos robustos para
a anlise R-Q, e nesse trabalho apresentado um programa, ROPCA, escrito em FORTRAN e
disponvel para acesso e carregamento.

N litologia
1 X
2 X
3 X
4 X
5 Q
6 Q
7 Q
8 Q
9 Q
10 Q
11 Q
12 Q
13 Q
14 Q
15 Q
16 Q
17 Q
18 A
19 A
20 A
21 A
22 Q

Aero
240
360
420
500
580
700
600
650
770
930
1020
1000
1000
1040
1150
1000
960
420
370
400
480
730

U
0.63
2.18
2.26
1.71
2.38
3.83
3.79
4.09
4.21
4.72
6.24
5.24
4.73
4.67
5.08
5.27
5.61
2.33
2.64
2.29
2.32
5.94

Th
2.05
5.31
5.61
6.44
7.99
8.32
9.46
14.71
12.00
12.78
16.31
14.51
15.79
10.30
13.11
13.40
10.31
6.83
9.88
6.02
6.14
12.86

K
0.13
0.31
0.34
0.7
1.73
4.26
1.53
3.11
1.90
2.92
2.29
1.88
4.64
4.17
3.97
4.36
2.05
0.47
0.58
0.34
0.32
1.35

Tabela 6.1.: Matriz de dados provenientes da regio de Berea-Virginia/EUA

Utilizando o pacote MVSP, verso 3.1., obtem-se, com a aplicao da Anlise das
Correspondncias, o diagrama exposto na Figura 6.3, o qual esta perfeitamente de acordo com o
exemplo acima citado.

57

ANLISE FATORIAL

Figura 6.3. Anlise das associaes entre as variveis U, Th , K e radiometria (A) e as litologias
xisto (X), quartzo-monzonito (Q) e areia e cascalho (A)

Bastando apenas padronizar as variveis na anlise das componentes principais, e utilizando


o mesmo pacote MVSP, o resultado apresentado semelhante ao encontrado pelos Autores acima
citados (Figura 6.4.).

Figura 6.4. Anlise das componentes principais entre as variveis, padronizadas,

U, Th, K e

radiometria(Aero) e as litologias xisto (X), quartzo-monzonito (Q) e areia e cascalho (A)

58

ANLISE FATORIAL

Bibliografia
BENZCRI, Jean-Paul, & others (1980) - LAnalyse des donnes. Vol. 2, LAnalyse des correspondances:
Dunod, Paris, 628p.
CARR, J.R. (1990) - CORSPOND: a portable FORTRAN-77 program for correspondence analysis:
Computers & Geosciences 16(3):289-307.
DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology: Correspondence
analysis method: Quart. Colorado Sch. Mines, 7:60p.
GABRIEL, K. R. (1971) The biplot display of matrices with application to principal cimponents analysis:
Biometrica, 58:453-467
GABRIEL, K. R. (1995,a) : Biplot displays of multivatiate categorical data, with comments on multiple
correspondence analysis: Recent Advances in Descriptive Multivariate Analysis (ed.: W. J. Krzanowski): 190226, Oxford Science Publ.
GABRIEL, K. R. (1995,B): MANOVA biplots for two-contingency tables: Ibid., 227-268
GORDON, A. D. (1981): Classification: Monographs on Applied Probability and Statistics, Chapman and Hall
GOWER, J. C. (1966) Some distance properties of latent root and vector methods used in multivariate
methods: Biometrika, 55:325-338
JACKSON, J. E. (1991) A Users Guide to Principal Components: Wiley
JOLLIFFE, I. T. (1986) Principal Components Analysis: Springer Verlag
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
REYMENT, R. A., BLACKITH, R. E. & CAMPBELL, N. A. (1984) Multivariate Morphometrics: 2d. edition,
Academic Press
SHERMAN, K. N., BUNKER, C.M. & BUSH, C. A. (1971) Correlation of uranium, thorium and potassium
with aeroradioactivity in the Berea area, Virginia: Econ. Geol., 66:302-308
TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Intl. Assoc. Mathematical
Geology, 7:3-12.
TEIL, J. & CHEMINE (1975) - Application of correspondence factor analysis to the study of major and trace
elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Intl. Assoc. Mathematical Geology, 7:13-30.
ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components Analysis: Computers &
Geosciences, 15:59-78
,
ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) Dual Extraction of R-Mode and Q-Mode Factor Solutions: Math.
Geology, 15: 581-606

59

ANLISE DISCRIMINANTE

7. ANLISE DISCRIMINANTE

A anlise estatstica multivariada utilizando funes discriminantes foi inicialmente aplicada


para decidir qual de dois grupos pertenceriam indivduos sobre os quais tinham sido feitas diversas
e idnticas mensuraes. Nessa anlise, hoje conhecida como anlise discriminante linear, a idia
bsica substituir o conjunto original das diversas mensuraes por um nico valor Di, definido como
uma combinao linear delas

= i xi + 2 x 2 +L+ p x p

Di

Para fornecer um nico valor os termos so adicionados nessa funo linear, e esta
transformao realizada de tal modo a fornecer a razo mnima entre a diferena entre pares de
mdias multivariadas e a varincia multivariada dentro dos dois grupos. Conhecido o valor Di , este
ser comparado com um certo Do , ou seja, o valor situado na linha expressa pela funo
discriminante a meio caminho entre os centros de dois grupos, com a finalidade de verificar a qual
deles o indivduo pertence. Tal processo exige, portanto, um conhecimento "a priori" das relaes
existentes entre os grupos estudados. Isso contrasta com mtodos classificatrios multivariados,
como por exemplo a anlise de agrupamentos ou das componentes principais, quando os grupos
constitudos por indiv duos similares entre si emergem atravs do esquema de classificao adotado.
Alm disso, para a aplicao de testes de significncia s funes discriminantes, os
seguintes pressupostos so necessrios:
a) que as observaes em cada grupo tenham sido escolhidas ao acaso;
b) que a probabilidade de um indivduo desconhecido pertencer a um dos grupos seja a mesma;
c) que as variveis tenham distribuio normal;
d) que as matrizes de varincia de grupos comparados sejam de mesmo tamanho;
e) que todas as observaes usadas para o clculo das funes discriminantes tenham sido
classificadas sem erro.
Nos casos em que as matrizes de varincias e covarincias so diferentes torna-se
necessrio escolher um outro mtodo que absorva tal diferena, como o procedimento da funo
discriminante quadrtica.
Um dos mtodos utilizados para o clculo das funes discriminantes lineares o da
regresso linear, onde a varivel dependente consiste na diferena entre as mdias multivariadas de
dois grupos e as variveis independentes as variveis e covarincias das varincias em estudo. Ver a
propsito Davis (1986).
A soluo do sistema de equaes lineares resultante pode ser resolvido, por clculo
matricial, a partir de:

[Vp ] [p]
2

[ Rp]

[Vp ] = matriz, pxp, das varincias e covarincias combinadas das p variveis;


2

[]

= vetor coluna, px1, representando os coeficientes desconhecidos;

60

ANLISE DISCRIMINANTE

[Rp] = vetor coluna, px1, das "p" diferenas entre as mdias das variveis de dois grupos A e B.

[ ]

Para a constituio de Vp 2 , determina-se:


a) inicialmente a matriz de soma de quadrados e produtos cruzados de todas as "p" variveis, do

[ ]

primeiro grupo Va

[Va ]

SQX1 2
SPX 1 X 2
M
SPX 1S P

SPX1 X 2
SQX 22
SPX 2 X P

L SPX 1 X P

L SPX 2 X P

2
L SPX P

onde:
2

1i
n
= x12i i =1
/ n 1
n
i =1

SQX12

SPX 1 X 2

n
n

x
x2 i

n
1i
= ( x1i . x2 i ) i =1 i =1 / n 1
n
i =1

b) de modo similar determina-se a matriz de somas de quadrados e produtos cruzados de todas as


"p" variveis do segundo grupo [ Vb ]

c) calcula-se, ento, a matriz combinada segundo:

[V ]
2
p

[Va ] + [Vb ]
na nb 2

Para o clculo de [Rp] encontram-se as diferenas segundo:

[ Rp ]

R1
R
2
M

Rp

X a1
X b1
X

a2 X b2

X ap
X bp

Para o clculo dos coeficientes p, que iro constituir a equao da funo discriminante,
determina-se o inverso da matriz da varincias e covarincias combinadas e em seguida multiplica
essa matriz pelo vetor de diferena entre mdias:

[ p]

[ ]

= Vp2

[ Rp ]

O valor central do grupo A determinado por


61

ANLISE DISCRIMINANTE

Da

= 1 x a 1 + x a 2 + L+ p xap

e do grupo B por

Db

= 1 x b 1 + x b 2 + L + p x bp

O ndice discriminante, Do , ou seja, o ponto na linha descrita pela funo discriminante


situado exatamente na metade da distncia entre os centros dos grupos A e B, encontrado
segundo:

Do

X a 1 + X b1
= 1

X a2 + X b2
+ 2

X ap + X bp
+L+ p

Para testar a significncia da funo encontrada, ou seja, verificar se os dois grupos


considerados pertencem a uma nica populao ou duas distintas populaes, calcula-se a
distncia entre as duas mdias multivariadas,

Da

Db . Esta medida de distncia conhecida

como distncia generalizada de Mehalanobis, ou D, e mede a separao entre as duas mdias


multivariadas expressa em unidades de varincias combinadas.
D usada na seguinte expresso para ser testada pela distribuio F:

n + n p 1
F = a b

(na + nb 2) p

na nb 2

D ,
na + nb

com "p" graus de liberdade para o numerador e " na + nb p 1 " para o denominador. A hiptese
nula a ser testada, estabelece que as duas mdias multivariadas so iguais, ou que a distncia
entre ambos os grupos igual a zero significando que se trata de um nico grupo.

Ho : [ Rp ] = 0 , ou a = b
H1 : [ Rp ] > 0
A contribuio relativa, em percentagem, de cada varivel para o distanciamento entre os
dois grupos fornecida pela expresso:
Cp

Rp

D2

* 100

Cp mede apenas a contribuio direta da varivel, sem levar em considerao o seu interrelacionamento com as demais existentes.

62

ANLISE DISCRIMINANTE

7.1. Funes discriminantes multigrupos

Quando se trata de discriminar entre mais de dois grupos torna-se necessrio uma
generalizao na metodologia. A anlise discriminante multigrupos, que utiliza procedimentos
combinados da anlise de varincia e da anlise fatorial, pode, ento, ser utilizada.
A analogia com a anlise de varincia que a matriz inicial de todas as varincias e
covarincias pode ser parcializada entre categorias ou grupos e verificada a soma total de quadrados,
a soma de quadrados entre grupos e a soma de quadrados dentro dos grupos. Como no caso da
anlise de varincia convencional a soma de quadrados entre grupos [E] mais a soma de quadrados
dentro dos grupos [D] igual soma total de quadrados [T]:
[T] = [E] + [D]
Quando a razo [E]/[D] apresentar um valor alto isto significar que as mdias dos grupos
so bem diferentes entre si e os valores dentro de cada grupo esto bem concentrados ao redor dos
respectivos centroides, ou seja, h uma discriminao significativa entre os grupos. O problema na
anlise discriminante , desse modo, encontrar um conjunto de pesos lineares para as variveis que
tornem essa razo mxima. Se esse conjunto de pesos for o vetor [A1], a anlise discriminante pode
ser efetuada ao encontrar os valores dos elementos de [A1] de modo que a expresso
{[A1][E] [A1]}/{[A1][D] [A1]}, seja maximizada.
Nessa anlise usualmente especificado a restrio que o denominador igual a 1
[A1][D] [A1] = 1.
Obedecida essa restrio a razo maximizada quando [A1] for o autovetor correspondente
ao maior autovalor de [D] -1 [E]. Pode-se em seguida, como na anlise fatorial, encontrar eixos
ortogonais [A2], [A3], etc., numa sucesso decrescente de funes discriminantes segundo as quais
os grupos podem ser distintos tanto quanto possvel.
As observaes usadas no clculo das funes discriminantes podem ser projetadas no
espao definido pelos eixos discriminantes. Isto feito segundo a multiplicao matricial
[Z] = [A][X],
onde [X] a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas t so os maiores
autovetores a serem usados nas funes discriminantes.
Os centroides dos g grupos podem ser projetados no espao discriminante por
[ZM] = [A1] [Xmk],
onde [Xmk] contem as mdias de todas as variveis para cada grupo.
Geralmente escolhe-se as duas funes discriminantes de maior peso para servir como
eixos ortogonais para uma distribuio das observaes dos diversos grupos e os respectivos
centrides. Uma observao multidimensional de origem desconhecida pode ser projetada nesse
diagrama pela sua multiplicao com o transposto de [A] e verificada a sua distncia aos diversos
centrides. Maiores detalhes podem ser vistos em Davis (1986).
63

ANLISE DISCRIMINANTE

7.2. Distncia Generalizada D de Mahalanobis

A distncia generalizada D de Mahalanobis tambm pode ser usada como uma tcnica de
comparao quanto separao entre diversos grupos permitindo avaliar a extenso e a direo dos
afastamentos entre os valores mdios das variveis usadas na discriminao. As diferenas entre
cada par de grupos que esto sendo comparados so assim examinados simultaneamente atravs
das diversas variveis, que podem ser correlacionadas, de modo que a informao fornecida por uma
delas pode no ser independente da fornecida pelas demais.
O valor numrico da maior separao possvel entre dois grupos quaisquer chamado
Distncia Generalizada entre os grupos e mede, em escala independente da originalmente utilizada
para as vrias variveis, a clareza das disjuno entre elas.
Assim, o valor da distncia generalizada D ligando dois grupos um nmero puro, com
propriedades da distncia comum, e mede a extenso com que diferem entre si em tamanho e
forma.
A Distncia Generalizada de Mahalanobis entre os grupos i e j usualmente estimada,
segundo Rao (1952) por:

Dij2
onde,

[ x x ] [ S] [ x x ]
1

x i o vetor de mdias do i'simo grupo


x j o vetor de mdias do j'simo grupo
[S] a estimativa combinada da matriz de disperso dentro dos grupos

Este mtodo de representao de diferenas

entre grupos leva em conta qualquer

correlao que exista entre as variveis usadas e tambm independente das unidades de medida
com que as variveis esto expressas.
Para o clculo da distncia generalizada, por exemplo, usando apenas duas variveis (V 1 e
V2), correlacionveis, utiliza-se da expresso:
D

onde

R '.V

.R

V12
V
R = 11

V21 V22
R' =

[V11

V12 , V21 V22 ]

64

ANLISE DISCRIMINANTE

Sv2

1
V =
rv v .s .s
1 2 v1 v2

rv v .s .s
1 2 v1 v2

Sv2

Os resultados dos clculos das distncias generalizadas podem ser expressos


aproximadamente por meio de grficos bidimensionais que representam a configurao dos grupos
considerados no espao multidimensional das mensuraes.

7.3. Exemplo: Distino entre areias elicas e praias pela anlise discriminante linear.
Em Sedimentologia ainda bastante comum a utilizao de ndices baseados em percentis
para descrever as caractersticas da distribuio granulomtrica, pela sua convenincia e
simplicidade de clculo. Diversas crticas tem sido formuladas ao emprego desses ndices pois a
sua eficcia praticamente nula quando da utilizao de modelos estatsticos formais em que
valores amostrais devam estimar parmetros da populao. Ver propsito Davis e Ehriich (1970).
Por outro lado quando colocados num sistema de coordenadas cartesianas, pares de ndices
fornecem separaes ou agrupamentos de amostras que so facil e empiricamente interpretados
como devido a um controle sedimentar, pois ambientes diversos de sedimentao conduziriam
distribuies granulomtricas diferentes cujos percentis obtidos forneceriam distintos ndices.
Existem diversos trabalhos sobre o assunto na tentativa de estabelecer um relacionamento entre
esses

ndices e as condies de sedimentao (Folk e Ward: 1957; Mason e Folk, 1958;

Friedman, 1961; Shepard e Young, 1961: Passega, 1962; Sahu, 1964; Folk, 1966; Moiola e
Weiser, 1968; Visher, 1969).
Entre os vrios ndices propostos os sedimentologistas usam com maior freqncia aqueles
devido Folk e Ward (op.cit). Segundo esse mtodo obtm-se inicialmente, a partir da curva de
freqncia granulomtrica acumulada, em que os intervalos de classes esto na escala phi
(Krumbein. 1934) ao longo do eixo y e os valores, ao longo do eixo x, correspondentes aos
percentis 5% (x 5), 16% (x 16), 25% (x 25), 50% (x 50), 75% (x 75), 84% (x 84) e 95% (x 95). A escala phi
uma transformao segundo a qual em vez de se usar os valores para tamanho dos gros em mm (x 1
), utiliza-se -log2x1.
Em seguida esses valores so combinados de forma a oferecer estimativas grficas da
mdia, desvio padro, assimtrica e curtose da distribuio de freqncia amostral.
Se esses quatro ndices so os mais aceitos, o mesmo no acontece sobre a escolha de
qual, ou quais, que so os melhores indicadores para especficos ambientes de sedimentao. Em
outras palavras, quais os que podem ser usados para separar amostras provenientes de diferentes
ambientes de deposio.
Neste caso a tentativa usual e comparar diversos grficos bivariados e subjetivamente
escolher aqueles dois ndices que melhor separem os conjuntos de amostras considerados.

65

ANLISE DISCRIMINANTE

O problema tanto da discriminao entre ambientes de sedimentao coma da importncia


de cada um dos ndices utilizados para tal discriminao pode, todavia, ser enfrentado com a
utilizao do mtodo multivariado das funes discriminantes.
Como exemplo disso Landim e Castro (1981) fizeram uma comparao entre amostras
provenientes de ambiente praial com amostras de ambiente elico utilizando as funes
discriminantes. Para a aplicao dessa anlise foram escolhidos dois trabalhos constantes da
literatura:
a) o de Martins (1967) sobre sedimentos no litoral sul riograndense e
b) o de Landim et alli (1977) sobre sedimentos da Ilha Comprida no litoral sul paulista.

a) Sedimentos praiais e elicos da plancie costeira do Rio Grande do Sul (Martins, op.cit).

Nesse trabalho foram coletados 70 amostras provenientes de praia e 100 de duna. Para cada
uma dessas amostras o Autor obteve, segundo a metodologia citada de Folk e Ward (op.cit), os
valores para a mdia, desvio padro, assimetria e curtose. A funo discriminante encontrada foi:

Di

= 0,79 M z + 013
, i 13,96 SK 2154
, Kg'

A partir dessa funo foram determinados os seguintes valores:

Dp

-10.90 (ambiente praial)

De

15.13 (ambiente elico)

Do

-13.02

D2

4.23

Isso significa que amostras que apresentaram um valor calculado Di maior que -13,02
indicaram ambiente praial e aqueles com Di menor indicaram ambiente elico. Neste caso a
probabilidade de erro foi da ordem de 0,18 para os dois grupos considerados, isto , entre as 70
amostras elicas estudadas 8 tinham uma maior probabilidade de associao com o ambiente praial
e entre as 109 praial 9 tinham uma maior probabilidade de associao com o ambiente elico.
F(calculado) = 44.28
Como F(0.05;

4,174)

= 2.45, a hiptese nula de que ambas as mdias multivariadas fossem

iguais, foi rejeitada.


A porcentagem de contribuio direta de cada varivel para a discriminao entre os dois
conjuntos de dados foi
Mz

= 1,88%

= 0,38%

Sk

= 78,13%

Kg

= 19,60%
66

ANLISE DISCRIMINANTE

significando que a varivel que mais contriburam para a discriminao entre as amostras dos dois
grupos foi a assimetria.

b) Sedimentos praiais e elicos da Ilha Comprida, no litoral sul do Estado de So Paulo (Landim, et
al, op.cit).
Nesse trabalho foram coletadas 120 amostras provenientes de dunas e 75 amostras ao
longo da linha da mar baixa. Para todas essas amostras foram tambm obtidos os valores para
mdia, desvio padro, assimetria e curtose normalizada pelo mtodo grfico de Folk e Ward
(op.cit.).
Existindo 3 grupos de amostras, os mesmos foram considerados dois a dois da seguinte
maneira:
a) amostras elicas e amostras de praia coletadas ao longo da linha da mar;
b) amostras elicas e amostras de praia coletadas ao longo da linha de mar baixa;
c) amostras de praia, mar alta e amostras de praia, mar baixa.
Os resultados foram os seguintes:

a) a funo discriminante encontrada para amostras elicas e amostras de praia (mar alta), foi

Di

= 7 .40 M z 7 .67 I + 113


. k + 6 .75 k'g

A partir dessa funo foram determinados os seguintes valores:


Do

= 24.565 (ambiente elico)

Dpb

= 21.0065 (ambiente praial, mar alta)

Do

= 22.815

= 3.500

A probabilidade de erro foi da ordem de

0.001, isto , entre as 120 amostras elicas

estudadas 3 apresentaram valores de Di inferiores a 22.815 e entre as 75 amostras praiais (mar


alta) estudadas 27 apresentaram valores de Doi superiores a 22.815 (Fig. 2)
F(calculado) = 39.76

Como F( 0 .05; 4 .190 )

= 2 .45 , a hiptese nula de que ambas as mdias multivariadas fossem

iguais, foi rejeitada.


A porcentagem de contribuio direta de cada varivel para a discriminao entre os dois
conjuntos de dados foi:
Mz

= 54.65%

= 20.77%

Sk

= 5.46%

67

ANLISE DISCRIMINANTE

Kg

= 19.12%

b) A funo discriminante encontrada para amostras elicas e amostras de praia (mar baixa), foi

Di = 668
. M z 4384
. I + 6.55S k + 12 .12 k'g
A partir dessa funo foram determinados os seguintes valores:
Dz

= 19.78 (ambiente elico)

Dpb

Do

= 13.61

D2

= 12.34

7.44 (ambiente praial, mar baixa)

A probabilidade de erro foi da ordem de 0.0003, isto , entre as 120 amostras elicas
estudadas 3 apresentaram valores de Di inferiores a 13.61 e entre as 75 amostras praiais (mar
baixa) estudadas 9 apresentaram valores Di superiores a 13.61 (Fig. 3).
F(calculado) = 140.17
Como F( 0 .05; 4 .190 )

= 2 .45 , a hiptese nula de que ambas as mdias multivariadas fossem

iguais, foi rejeitada.


A porcentagem de contribuio direta de cada varivel para a discriminao entre os dois
conjuntos de dados foi:
Mz

= 24.50%

= 59.33%

Sk

Kg

= 10.47%

5.70%

c) A funo discriminante encontrada para amostras de praia, mar alta e mar baixa, foi

Di = 138
. M z + 24 .12 I + 2 .07 K 1142
. K'g
A partir dessa funo foram determinados os seguintes valores:
Dpa

=- 17.27 (praial, mar baixa)-

Dpb

= 18,79 (praial, mar baixa)

Do

= 18.03

1.52

A probabilidade de erro foi da ordem de 1.19, isto , entre as 75 amostras de linha de mar
alta 16 apresentaram valores de Di inferiores a -18.03 e entre as 75 amostras da linha de mar baixa
33 apresentaram valores de Di superiores a -18.03 (Fig. 4).
F(calculado) = 13.94
Como F( 0 .05; 4 .145 )

= 2 .45 a hiptese nula de que ambas as mdias multivariadas fossem

iguais, foi rejeitada.


A porcentagem de contribuio direta de cada varivel para a discriminao entre os dois
conjuntos de dados foi:

68

ANLISE DISCRIMINANTE

Mz

= - 17.59%

= 114.93%

Sk

8.34%

Kg

5.67%

Como visto, as funes discriminantes podem ser utilizadas no apenas na distino entre
ambientes de sedimentao, como j verificado por Autores como Greenwood (1960), Middleton
(1962), Mellon (1964); Sahu (op.cit.), Landim e Frakes (1968), Moiola e Weiser ( 1969), entre
outros, mas tambm para fornecer informaes sobre quais as variveis mais importantes para essa
separao. Nesse sentido, verificou-se que as variveis que mais contribuem para a discriminao
entre os ambientes elico e praial nem sempre so as mesmas.
Isso uma constatao digna de meno, porque tinha sido atribuda uma importncia
muito grande ao ndice assimetria para a distino entre esses dois ambientes (Masson e Folk,
op.cit.; Friedman, 1961; Folk e Robles, 1964; Duane, 1964; Martins, 1965). Inclusive no primeiro
exemplo aqui estudado, isto , o referente ao litoral riograndense, tal hiptese foi confirmada, pois o
ndice assimetria o que mais contribui para a distino entre os ambientes. Para este caso, a
seguinte explicao apresentada: depsitos praiais ocorrem em ambientes de alta energia onde as
partculas esto continuamente submetidas aos processos de "swash" (saca) e "backwash"
(ressaca) das ondas. Desse modo os finos so removidos pelo "backwash" que no tem
competncia para remover o material mais grosseiro depositado pelo "wash", ocasionando uma
distribuio granulomtrica com assimetria negativa. A ao do vento carregando material para as
dunas capaz de transportar mais material fino que grosseiro resultando uma distribuio
granulomtrica com tendncia assimetria positiva.
Por outro lado no caso de Ilha Comprida a varivel mais importante para distinguir o ambiente
elico do ambiente praial ao longo da ilha da mar alta foi o ndice mdia, e para distinguir aquele
ambiente do praial ao longo da linha da mar baixa foi o ndice desvio padro. A distino entre os
dois sub-ambientes praiais baseia-se fundamentalmente ao ndice desvio padro.
A interpretao desses resultados esta ligada ao fato de que distribuio granulomtrica de
um sedimento controlada por:
a) material disposio;
b) processos sedimentares de eroso, transporte e deposio;
c) nvel energtico do ambiente de deposio.
Como esses fatores variam dentro de um mesmo ambiente de sedimentao, ocorre para
cada um dos ndices granulomtricos, geralmente utilizados em Sedimentologia, uma variabilidade
associada. No caso da plancie costeira gacha a fonte de material a existente principalmente
areias retrabalhadas dos cordes litorneos e das formaes pleistocnicas ocorrentes na regio, e
o processo sedimentar atuante deve ser aquele apresentado atrs. Nesse caso as areias elicas
apresentam um valor mdio para o ndice assimetria de 0,13 e as areias praiais de -0,11. Tambm
apresentam para o ambiente elico um valor mdio para o ndice desvio padro de 0,24, e para o
69

ANLISE DISCRIMINANTE

ambiente praial, respectivamente, os valores 2,41 e 0,37. Isso significa que as areias so, em mdia,
mais grosseiras e pior selecionadas no ambiente praial que no ambiente elico.
Na Ilha Comprida a principal fonte fornecedora de detritos para os diversos ambientes um
extenso depsito de sedimentos originados por regresso pr-atual, do tipo "blanket sand",
constitudo por areias muito finas, homogneas e bem selecionadas, a que Suguio e Petri (1973)
propuseram o termo Formao Canania. Os valores mdios para o ndice mdia, desvio padro e
assimetria para as areias elicas, praial (linha da mar alta) e praial (linha da mar baixa) so
respectivamente, 2.92, 0.21 e 0.27; 2.66, 0.30 e 0.10; 2.47; 0.37 e 0.16. Isso significa que o
ambiente elico apresenta, em mdia, areias mais finas e melhores selecionadas que os subambientais praiais e que todos esses ambientes mostram, em mdia, valores positivos para
assimetria.
Num estudo sedimentolgico sobre as areias praiais da Ilha Comprida, Barcelos (1975)
verificou que h diminuio dos valores do dimetro mdio de sul para norte da Ilha, predominando,
portanto, areias mais grosseiras na regio sul. Quanto ao grau de seleo, ocorre tambm uma
melhoria no sentido norte. claro que essa diferenciao mais marcante ao longo da linha da mar
baixa, pois a o nvel energtico maior.
Para explicar a importncia da varivel media no caso do ambiente elico e praial (linha de
mar alta) deve se ter em mente que a densidade, a viscosidade e a competncia do vento so
menores comparadas com a gua, o que acaba por refletir no tamanho dos gros que so maiores
neste ambiente do que naquele.
No caso dos ambientes elico e praial (linha da mar baixa) a varivel mais importante
revelada foi o ndice desvio padro, pois as flutuaes na velocidade do vento de menor magnitude,
em termos de valor hidrulico, que num ambiente praial, principalmente ao longo da linha da mar
baixa, e, portanto, sedimentos elicos so melhores selecionados.

70

ANLISE DISCRIMINANTE

Bibliografia
BARCELOS, J.H. (1975) - Sedimentao e subambientes deposicionais da Ilha Comprida, So Paulo:
Dissertao de Mestrado, Instituto de Geocincias, USP (indito).
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and Sons, Inc.
DUANE, D.B (1964) - Significance of skewness in Recent Sediments, Western Palmico Sound, North
Carolina: Jour. Sed. Petrology, 34:
FOLK, R. L. (1966) - A review of grain-size parameters: Sedimentology, 6:73-93.
FOLK, R.L. & ROBLES, R. (1964) - Carbonate sands of Isla Perez, Alacran Roef Complex, Ycatan: Jour,
Geology, 72:255-292.
FOLK, R.L. & WARD, W.C. (1957) - Brazos river bar: a study in the significance of grain size parameters:
Jour. Sed. Petrology, 27:3-26.
FRIEDMAN, G.M. (1961) - Distinction between dune, beach, and river sands from their textural
characteristics: Jour. Sed. Petrology, 31:514-529.
GREENWOOD, B. (1960) - Sediment parameters and evironment discrimination: an application of
multivariate statistics: Canad. Jour. Earth Sc., 6:1347-1358.
LANDIM, P.M.B. & CASTRO, P.R.M. (1981) - Distino entre areias elicas e praiais pela anlise
discriminante: Not. Geomorfol., 21:41-60.
LANDIM, P.M.B. & FRAKES, L.A. (1968) - Distinction between tills and other diamictions based on textural
characteristics: Jour. Sed. Petrology, 38:1213-1223.
LANDIM, P.M.B.; PISANI, J.F. & BSIO, N.J. (1977) - Aplicao do D2 de Mahalanobis na distino de
ambientes de sedimentao: An. Acad. Brasil. Cinc., 49:259-268.
MARTINS, L.R. (1965) - Significance of skewness and kurtosis in environmental interpretation: Jour. Sed.
Petrology, 35:768-770.
MARTINS, L.R. (1967) - Aspectos texturais e deposicionais dos sedimentos praiais e elicos da plancie
costeira do Rio Grande do Sul: Esc. Geol. Porto Alegre, Publ. EspEcial n 13:1-100.
MASON, C.C. & FOLK, R.L. (1958) - Differentiation of beach, dune, and aeolian flat environments by size
analysis, Mustang Island, Texas: Jour. Sed. Petrology, 28:211-226.
MELLON, G.B. (1964) - Discriminatory analysis of calcite and silicate cemented phases fo the Montain Park
sandstone: Jour. Geology, 72:786-809.
MIDDLETON, G.V. (1962) - A multivariate statistical technique applied to the study of sandstone
composition: Trans. Royal Soc. Canad, 56:119-126.
MOIOLA, R.J. & WEISER, D.C. (1968) - Textural parameters: and evaluation: Jour. Sed. Petrology, 38:45-53.
MOIOLA, R.J. & WEISER, D. (1969) - Environmental analysis of ancient sandstone bodies by discriminant
analysis: Bull. Amer. Ass. Petrol. Geol., 53:733.
PASSEGA, R. (1957) - Texture as characteristic of clastic deposition: Am. Assoc. Petroleum Geologists
Bull., 41:1952-1984.
RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley and Sons.

71

ANLISE DISCRIMINANTE

SAHU, ,K, (91964) - Depositional mechanisms from the size analysis of clastic sediments: Jour. Sed.
Petrology, 34:73-83.
SHEPARD, F.P. & YOUNG, R. (1961) - Distinguishing between beach and dune sands: Jour. Sed.
Petrology, 31:196-214.
SUGUIO, K. & PETRI, S. (1973) - Stratigraphy of the Iguape-Cananeia logoonal region sedimentary
deposits, So Paulo, Part 1: Field observations and grain-size analysis: Bol. I.G., Inst. Geocincias,
USP, 4:1-20.
VISHER, G. (1969) - Grain size distribuitions and depositional processes: Jour. Sed. Petrology: 39:10741106.

72

EXEMPLO

8. EXEMPLO DE ANLISE ESTATSTICA MULTIVARIADA INTEGRADA

Como exemplo de aplicao integrada dos mtodos estatsticos multivariados so utilizados os


dados obtidos por Arajo (1976), e j analisados por Landim e Perinotto (1981), para exemplares de
mesossaurdeos coletados em diversas localidades ao longo da faixa de afloramentos da Formao Irati
na borda leste da Bacia do Paran. Foram consideradas trs espcies: Stereosternum tumidum (Cope,
1886), Mesosaurus brasiliensis (MacGregor, 1908) e Brazilosaurus sampauloensis (Shikama e Ozaki,
1966). Os valores esto expostos na Tabela 8. 1.

Exemplar
M01
M02
M03
M04
M05
M06
M07
M08
M09
M10
M11
M12
M13
M14
M15
S16
S17
S18
S19
S20
S21
S22
S23
S24
S25
S26
S27
S28
B29
B30
B31
B32
Tabela

Crnio (cm)
7,1
6,7
6,7
8,9
7,1
7,2
7,6
7,9
7,8
9,2
7,1
9,6
5,1
7,9
7,2
6,0
5,8
5,8
6,6
4,7
6,4
5,8
6,2
6,5
5,2
6,2
6,5
5,5
5,3
4,9
5,0
5,2

Pescoo (cm)
6,0
4,8
5,3
5,6
5,2
4,9
4,9
5,8
5,1
6,8
6,0
8,3
4,2
6,2
4,3
5,5
4,6
5,1
5,3
4,6
5,8
4,7
6,0
7,1
5,6
6,6
5,8
5,6
7,2
7,6
7,3
7,7

Dentes (mm)
Comprimento
Largura
4,75
0,50
7,50
0,37
7,00
0,50
11,25
0,75
8,75
0,75
8,75
0,75
7,50
0,50
11,25
0,75
5,75
0,50
11,75
0,75
8,25
0,75
7,75
0,75
4,25
0,50
9,25
0,50
4,00
0,50
4,00
0,50
3,25
0,50
2,00
0,50
4,25
0,37
2,25
0,50
3,75
0,50
3,50
0,50
4,50
0,50
3,50
0,75
3,00
0,50
3,75
0,50
3,00
0,75
4,50
0,75
2,00
0,50
0,75
0,45
2,75
0,50
2,00
0,75

8.1. Medidas obtidas em Mesosaurus brasiliensis (M), Stereosternum tumidum (S), e


Brazilosaurus sampauloensis (B)

Para a anlise de agrupamentos, usando o modo Q com o coeficiente distncia euclidiana e


mtodo UPGM, obteve-se, utilisando o pacote MVSP, o dendrograma exibido na Figura 8.1. Verifica-se
que os exemplares M01, M15 e M13, tidos como Mesosaurus, esto localizados dentro de grupo do

73

EXEMPLO

Stereosternum. Alm disso os quatro exemplares B29, B32, B31 e B30, todos do genero Brazilosaurus,
formam um grupo integrado ao do Stereosternum. Tal constatao merece uma reflexo sobre a
validade ou no de atribuir os exemplares M01, M15 ao gnero Mesosaurus. Alerta tambm para a
possibilidade de questionar a validade do gnero Brazilosaurus.

Figura 8.1. Dendrograma, modo Q, para os mesossaurdeos da Formao Irati.

Os mesmos dados submetidos anlise das componentes principais, pelo mesmo pacote
MVSP, fornece os seguintes autovalores e autovetores:

eixos

autovalores

porcentgem

% acumulada

10,257

86,91

86,91

1,170

9,92

96,83

0,363

3,07

99,90

0,011

0,10

100,00

Variveis

autovetor 1

autovetor 2

autovetor 3

autovetor 4

Crnio

0,343

0,263

0,901

0,011

Pescoo

-0,022

0,961

-0,271

-0,047

Comp.dente

0,939

-0,075

-0,335

-0,025

Larg.dente

0,019

0,041

-0,031

0,999

74

EXEMPLO

Este resultado mostra que o maior peso para a constituio do autovetor 1, que responde por
86,91% da variabilidade presente, a varivel comprimento dos dentes e para o vetor 2, com 9,92% da
variabilidade, a varivel pescoo.
A multiplicao da matriz original de dados pela matriz de autovetores fornece os factor scores
dos espcimes. Escolhidos os dois principais eixos ou fatores, correspondendo a uma porcentagem
acumulada dos autovalores da ordem de 96,83%, obtm-se a distribuio espacial dos factor scores
(Figura 8.2.).

Figura 8.2. Distribuio conjunta dos factor scores e variveis, em relao aos dois principais fatores

Os resultados fornecidos pela anlise das componentes principais , so bastante semelhantes


aos obtidos pela anlise de agrupamentos e, portanto, merecem as mesmas consideraes
anteriormente apresentadas. Nesta anlise constata-se, novamente, que os espcimes 01, 13 e 15,
referidos a Mesosaurus, esto mais associados ao campo dos Stereosternum e a posio espacial de
Brazilosaurus mais prxima Stereosternum do que Mesosaurus. Tambm pode-se notar que as
variveis comprimento dos dentes e crnio
Aps aplicao dessas duas anlises resta a questo de decidir se ocorre uma separao
significante entre as populaes estudadas. Caso seja esse o caso escolher quais as variveis mais
importantes para a discriminao entre esses taxas. Para tanto utiliza-se da anlise discriminante linear
entre dois grupos, com a utilizao do pacote MVSP.
Os resultados, j apresentados por Landim e Perinotto (1976), so os seguintes:
a) Funo discriminante entre Mesosaurus brasiliensis e Stereosternum tumidum:

Di

2,66 Ccri 2,56 Cpi + 111


, Cd i 3,40 Ld i

DM = 12,46; DS = 3,55; Do = 8,00; D = 8,91


Teste F = 13,72 (F4/23 = 2,80)
De acordo com a funo discriminante entre os
designao (M01) e

exemplares utilizados para a anlise, os de

(M13), assinalveis a Mesosaurus brasiliensis, apresentam respectivamente os

valores Di = 7,087 e Di = 5,824, indicando que provavelmente esses espcimes estejam mal

75

EXEMPLO

classificados como Mesosaurus brasiliensis e que talvez, levando em considerao as quatro variveis
estudadas, pertenam espcie Stereosternum tumidum. Recomenda-se neste caso uma anlise
osteolgica mais detalhada ou mesmo verificao do nvel estratigrfico de onde provenham.
A porcentagem de contribuio direta de cada varivel para a discriminao entre os dois
conjuntos de dados : comprimento dos dentes =

54,46%;

comprimento

do

crnio

47,79%;

comprimento do pescoo = 0,04%; largura dos dentes = - 2,29%


Esses resultados indicam que as variveis mais importantes na distino entre as duas espcies
so o comprimento dos dentes e secundariamente, o comprimento do crnio; alm disso, demonstra a
validade das afirmaes de Arajo (op. cit.) quando conclui que o comprimento do pescoo no
demonstra diferena significativa e que a largura dos dentes entre as duas espcimes no se altera.
b) Funo discriminante entre Stereosternum tumidum e Brazilosaurus sanpauloensis:

= 7,82 Ccri 9 ,48 Cpi + 2,48 Cdi 16,78 Ldi

Di

DS = 11,55; DB = -16,86; Do = -2,65; D = 28,40


Teste F = 17,38 (F4/12 = 3,26)
Cada

varivel

considerada

na

discriminao

contribuiu

diretamente

com

seguinte

porcentagem: comprimento do pescoo = 63,03%; comprimento do crnio = 23,09%; comprimento dos


dentes = 14,00%; largura dos dentes = -0,14%
Com esses resultados, correto dizer que o comprimento do pescoo a varivel mais
significativa na distino entre essas espcies, o que vem corroborar com as concluses de Arajo (op.
cit.) ao testar as afirmativas de Shikama & Ozaki (op.cit.).
c) Funo discriminante entre Mesosaurus brasiliensis e Brazilosaurus sampauloensis

Di

= 8,35Ccri 9,27Cpi + 0,68 Cdi 4,01Ld i

DM = 14,30; DB = -27,43; Do = -6,56; D = 41,73


Teste F = 27,13 (F4/14 = 3,11)
As variveis mais importantes na distino entre as duas espcies so o comprimento do crnio
(48,80%) e o comprimento do pescoo (41,99%). A contribuio direta do comprimento dos dentes de
9,76%, enquanto que a largura dos dentes em nada contribuiu (-0,56%). Esses resultados quantificam e
demonstram a validade de deduo de Arajo (op. cit.) em relao separao entre essas duas
espcies.
A

anlise

multivariada

das

funes

discriminantes

mostra-se

eficaz,

comprovando

estatisticamente a existncia dos trs taxa, Sterreosternum tumidum, Mesosaurus brasiliensis e


Brazilosaurus sanpauloensis, trabalhando ao mesmo tempo com as quatro variveis consideradas para a
discriminao e fornecendo aquelas de maior importncia na distino entre esses taxa. Entre
Stereoternum tumidum e Mesosaurus brasiliensis, o comprimento dos dentes, entre Stereosternum
tumidum e Brazilosaurus sanpauloensis, o comprimento do pescoo e entre Mesosaurus brasiliensis e
Brazilosaurus sanpauloensis os comprimentos de crnio e escoo. Nas Figuras 8.3. e 8.4. acham-se
representado o relacionamento entre esses fsseis.

76

EXEMPLO

Figura 8.3. - Grficos mostrando os valores D i ao longo da linha discriminante

77

EXEMPLO

Figura 8.4. - Afastamento entre os grupos usando a distncia generalizada de Mahalanobis (D2)

Isso est de acordo com Bertini (informao verbal) quando afirma que o gnero Brazilosaurus
provavelmente a forma ancestral

dos outros dois gneros e o mais terrestre dos mesossauros, com

pescoo longo que favorece a predao, parecendo ter compartilhado seu nicho ecolgico com
Stereosternum. O gnero Stereosternum teria vivido em guas rasas perifricas com maior energia de
deposio e condies mais aerbicas. Quanto ao Mesosaurus teria habitado guas depocntricas e
seria o mais aqutico dos mesossaurdeos, providos de longos e finos dentes, muito provavelmente
filtrador suspensvoro, e com pescoo curto.
Finalmente foi feita uma anlise discriminante multigrupos, com o auxlio do pacote
STATISTICA, tendo sido obtido o mesmo resultado como apresentado na Figura 8.5.

78

EXEMPLO

Figura 8.5. Anlise discriminante entre os tres grupos de mesossaurdeos

BIBLIOGRAFIA

ARAUJO, D.C. (1976) - Taxonomia e Relaes dos Progranossauria da Bacia do Paran: An. Acad. Brasil. Cinc.,
48 (1):91-116
COPE, E.D.(1886) - A contribution to the vertebrate paleontology of Brazil: Proc. Amer, Phil. Soc., 23:7-15.
LANDIM. P.M.B. & PERINOTTO, J.A.J. (1981) - Taxonomia numrica dos messoraurdeos da Formao Irati (P,
Bacia do Paran): Soc. Bras. Geo., Ncleo de So Paulo, Atas do 3 Simp. Reg. Geologia, 2:201-212.
MACGREGOR (1908) - Mesosaurus brasiliensis nov. sp.: Rel. Final Comisso Est. Minas de Carvo de Pedra do
Brasil, Rio de Janeiro, 2:301-336.

MVSP Plus (1998) Kovach Computing Services, verso 3.0


SHIKAMA, I. & OZAKI (1966) - On a Reptilian Skeleton from the Paleozoic Formation of San Paulo, Brazil: Trans.
Proc. Paleont. Soc. Japn NS., 61:351-358.

STATISTICA for Windows (2000) StatSoft Inc.,, verso 5.5

79

ESTATSTICA ESPACIAL MULTIVARIADA

9. ANLISE ESTATSTICA ESPACIAL DE DADOS GEOLGICOS MULTIVARIADOS

Os mtodos clssicos da anlise estatstica multivariada, como vistos neste texto, no levam em
considerao a localizao das amostras, no sentido geolgico,

nem as suas relaes espaciais e

tambm no refletem as diferenas quanto o suporte das amostras ou com relao ao suporte da regio
onde o estudo esta sendo realizado. Por outro lado a metodologia geoestatstica univariada tem essas
propriedades, mas no capaz de tratar da correlao espacial entre diversas variveis. Ferramentas se
tornam, ento, necessrias para incorporar essas importantes feies e da a

necessidade de mtodos

estatsticos que enfoquem a anlise espacial de dados geolgicos multivariados.


Para tanto duas solues tem sido apresentadas: uma, adaptativa, procurando, a partir dos
resultados dos mtodos clssicos, verificar se os mesmos apresentam uma organizao espacial
significativa e outra, especfica, desenvolvendo metodologia prpria para esta problemtica.
Neste tipo de anlise a preocupao com:
Descrio dos dados: os dados precisam ser explorados, tanto espacial como cronologicamente,
em sua estrutura multidimensional para o seu entendimento e constatao de eventuais valores
anmalos que possam mascarar tal estrutura. Existem a disposio, graas moderna tecnologia
computacional, ferramentas grficas que permitem a visualizao simultnea de amostras no espao
e/ou no tempo e as primeiras idias a respeito da estrutura multidimensional podem comear a surgir a
partir dessas exibies grficas.
Interpretao: os produtos grficos obtidos a partir das informaes numricas so avaliados
levando em considerao tanto o conhecimento j adquirido com dados similares como fatos cientficos
relacionados s variveis sob estudo. A interpretao da estrutura espacial ou temporal, as associaes
e as relaes casuais entre variveis devem, ento, ser organizadas num modelo que se ajuste aos
dados.
Estimao: A modelagem, se correta,

no apenas descreve o fenmeno

nos locais

amostrados, mas pode se tornar vlida para interpolaes em locais ou intervalos de tempo adjacentes,
no amostrados,

representando um passo alem com relao s

informaes contidas nos dados

numricos. Na verdade este o grande desafio da anlise multivariada de dados espaciais, a estimao
de valores para situaes de previso quantitativa.

9.1. Adaptao de mtodos estatsticos multivariados


Caso as amostras, no sentido geolgico, sejam georreferenciadas os grupos resultantes da
anlise de agrupamentos/modo Q podero ser submetidos a uma verificao espacial para a
constatao de algum padro de distribuio espacial desses grupos. De modo idntico os scores,
calculados a partir da anlise das componentes principais ou da anlise de fatores, que tenham suas
coordenadas geogrficas conhecidas podero fornecer mapas de distribuio ou de tendncia espacial.
A anlise discriminante pode ser aplicada para avaliar e comparar alteraes ocorridas a intervalos de
tempo indicando que variveis mais contriburam para essas mudanas. So adaptaes de mtodos
estatsticos multivariados procurando modelar espacial ou cronologicamente fenmenos geolgicos.

80

ESTATSTICA ESPACIAL MULTIVARIADA

Isso, porm, somente possvel se as amostras da matriz de dados multidimensionais apresentarem


perfeitamente conhecidas as suas coordenadas geogrficas.
Um ilustrativo exemplo apresentado por Bernardi, Fowler e Landim (1997), onde aplicada a
anlise das componentes principais num estudo sobre impacto ambiental para verificar a importncia das
variveis coletadas num efluente de uma fbrica de papel e celulose ingressando num corpo receptor. As
amostras foram coletadas no rio Paraba do Sul, na fazenda Coruputuba, no municpio de
Pindamonhangaba, Estado de So Paulo, Brasil. A rea amostrada era da ordem de 2900 m de
2

comprimento por 100 m de largura, com um total de 290000 m . Foram amostrados 90 pontos numa
malha regular, na qual os pontos no sentido sul para norte foram eqidistantes em 100m, e no sentido
leste para oeste, ou seja para juzante, em 50m, sendo considerado o ponto 0m na margem direita, o
ponto 50m no meio do rio e 100m na margem esquerda. As variveis obtidas foram: riqueza de gneros
do plncton, pH, temperatura, oxignio dissolvido, transparncia da gua, cor e turbidez da gua. As
amostras de plncton foram coletadas com rede horizontal de malha de 50 m, durante 10 minutos. Com
exceo das anlises para cor , turbidez e DBO, as demais foram realizadas no campo para maior
confiabilidade dos resultados.
Pela aplicao da anlise das componentes principais os Autores verificaram que na primeira
componente, com uma porcentagem de explicao de 84,64%, as maiores cargas vetoriais, em mdulo,
ficaram com as variveis transparncia (0,975), OD (0,969),

cor (-0,969) e DBO (-0,984). Para a

segunda componente as responsveis pelas maiores cargas foram as variveis profundidade da luz
(0,145) e nmero de gneros do plncton (-0,780). Devido as maiores cargas na primeira componente
obtida serem provenientes das

variveis fsico-qumicas, esta componente foi interpretada como sendo

controlada por fatores abiticos. Como na segunda componente, com uma porcentagem de explicao
de 8,37%, a carga mais alta foi devido a varivel riqueza de gneros do plncton, ela foi considerada
como controlada por fatores biolgicos. (Tabela 9.1.).

Tabela 9.1. - Cargas das componentes principais sem rotao


Componentes

II

III

N Gneros

0.621

-0.780

0.066

pH

0.957

0.019

-0.033

Temperatura

-0.859

0.025

0.508

OD

0.969

0.031

0.130

Profundidade da luz

0.975

0.145

0.053

DBO5

-0.984

-0.064

-0.085

Cor

-0.969

-0.129

-0.015

Turbidez

-0.967

0.133

-0.156

% de variao

84.643

8.366

3.941

Na Tabela 9.2. esto os resultados aps a rotao fatorial. Como esperado, tal rotao das
componentes otimizou os valores das cargas das variveis nos respetivos eixos.

81

ESTATSTICA ESPACIAL MULTIVARIADA

Tabela II - Cargas das componentes principais rotacionados (Mtodo Quartimax)


Componentes

II

III

N Gneros

0.531

0.845

-0.020

pH

0.951

0.083

-0.073

Temperatura

-0.833

-0.077

0.546

OD

0.970

0.085

0.090

Profundidade da luz

0.987

-0.033

0.021

DBO5

-0.987

-0.051

-0.046

Cor

-0.997

0.021

0.018

Turbidez

-0.981

0.014

-0.124

% de variao

83.589

9.240

4.122

As Figuras 9.1. e 9.2. mostram a distribuio espacial dos escores das duas principais
componentes, aps rotao. Na Figura 9.1. os escores da primeira componente no variam nas
margens esquerda, meio e direita do rio antes da entrada do efluente, ou seja, a parte ainda no afetada.
Aps a entrada, a componente abitica comea a variar decaindo a partir da coordenada NS 1100m,
assumindo valores negativos e voltando a crescer a partir da coordenada NS 2000 m. Este
comportamento pode ser explicado pelo aumento de DBO5, cor e turbidez com a entrada do efluente e a
diminuio do OD e da transparncia. A segunda componente (Figura 9.2.) varia pouco na margem
esquerda decaindo na regio do meio do rio. A margem direita comea com cargas positivas, decaindo a
partir dos ponto de coordenada 1100m, voltando a crescer depois do ponto de coordenada 2000m.

82

ESTATSTICA ESPACIAL MULTIVARIADA

Figura 9.1.: Variao espacial da 1 componente

Figura 9.2.: Variao espacial da 2 componente

9.2. Metodologia especfica para anlise estatstica multivariada espacial


9.2.1. Cokrigagem

O termo Geoestatstica, com significado de estatstica de dados georreferenciados, foi cunhado


por Matheron (1962 e 1963) em seu trabalho metodolgico sobre o comportamento das chamadas
variveis regionalizadas, ou seja, com comportamento espacial.
A geoestatstica consiste na aplicao da teoria das variveis regionalizadas para

efetuar

estimativas dentro de um contexto regido por um fenmeno natural com distribuio no espao ou no
tempo e, desse modo, supe que os valores das variveis so correlacionados no espao ou no tempo.
Devido a essa caracterstica, a geoestatstica tem tido grande aplicao principalmente para efetuar
estimativas e/ou simulaes de variveis em locais no amostrados.
De uma forma geral, a metodologia geoestatstica procura extrair, de uma aparente
aleatoriedade dos dados coletados, as caractersticas estruturais do fenmeno regionalizante, ou seja,
uma funo da correlao ou da covarincia entre os valores situados numa determinada vizinhana e
83

ESTATSTICA ESPACIAL MULTIVARIADA

direo no espao amostrado. O mtodo de estimao utilizado o da

krigagem. Trata-se de um

processo de estimao por mdias mveis, de valores de variveis distribudas no espao a partir de
valores adjacentes, enquanto considerados como interdependentes por uma funo denominada de
semivariograma.
Se uma varivel regionalizada x(i) for coletada em diversos pontos i, o valor de cada ponto
estar relacionado

com valores obtidos a partir de pontos situados a uma certa distncia h e a

influncia ser tanto maior quanto menor for a distncia entre os pontos. O grau de relao entre pontos
numa certa direo pode ser expresso pela covarincia, sendo os pontos regularmente espaados por
mltiplos inteiros de h.
Para uma distncia h

infinitamente pequena a covarincia e a varincia

se tornam muito

prximas, porm para h maiores, a covarincia diminui enquanto a varincia aumenta, ou seja, ocorre
progressivamente maior independncia entre os valores obtidos a distncias cada vez maiores.
Sendo x(1), x(2), .... x(i), .... x(n), realizaes de uma varivel regionalizada,

a estimativa no

tendenciosa da semivarincia dada por


(h) = 1/2n {x(i+h) - x(i)}
Tais relaes so mostradas

quando a funo (h) colocada em grfico contra h para

originar o semivariograma. Este expressa o comportamento espacial da varivel regionalizada e mostra,


segundo o modelo variogrfico da Figura 9.1:

amplitude (a), que indica a distncia a partir da qual as amostras passam a no possuir correlao
espacial e a relao entre elas torna-se aleatria; toda amostra cuja distncia ao ponto a ser
estimado for menor ou igual amplitude fornece informaes sobre o ponto;

patamar (C + Co), que indica o valor segundo o qual a funo estabiliza-se no campo aleatrio,
correspondente distncia a; mostra a variabilidade mxima entre pares de valores, isto , a
varincia dos dados e, consequentemente, covarincia nula;

continuidade, pela forma do variograma, em

que para h=0 (h) j apresenta algum valor. Esta

situao conhecida como efeito pepita e representada por Co; o efeito pepita pode ser atribudo
a erros de medio ou ao fato de que os dados no foram coletados a intervalos suficientemente
pequenos, para mostrar o comportamento espacial subjacente do fenmeno em estudo.

anisotropia, quando os semivariogramas se mostram diferentes para diferentes direes de linhas


de amostragem;

Figura 9.1. Modelo variogrfico

84

ESTATSTICA ESPACIAL MULTIVARIADA

A krigagem usa informaes a partir do semi-variograma para encontrar os pesos timos a


serem associados s amostras com valores conhecidos que iro estimar pontos desconhecidos. Nessa
situao

o mtodo fornece, alm dos valores estimados, o erro associado tal estimao, o que o

distingue dos demais algoritmos disposio. entendida como uma srie de tcnicas de anlise de
regresso que procura minimizar a varincia estimada a partir de um modelo prvio, que leva em conta a
dependncia estocstica entre os dados distribudos no espao. Dentre os mtodos de estimativas,
comumente empregados, o mtodo geoestatstico da krigagem pode ser considerado como o melhor
estimador linear sem vis, cuja meta a minimizao da varincia da estimativa e com erro residual
mdio igual a zero.
As formas mais usuais so a krigagem simples e a krigagem ordinria e entre os mtodos no
lineares destaca-se a krigagem indicativa.
A krigagem simples utilizada quando a mdia assumida como estatisticamente constante
para toda a rea. A krigagem ordinria, por sua vez, considera a mdia flutuante ou mvel por toda a
rea.

Sendo necessrio a estimativa de valores em locais onde no foram feitos pontos de

amostragem, a fase de estimao torna-se um passo importante, visto que a malha de pontos estimada
ser responsvel pela qualidade dos mapas a serem gerados. Os pontos desta malha devem ser
estimados de modo a gerar mapas confiveis podendo, assim, auxiliar nos projetos que requerem
estimativas com determinada preciso.
O desenvolvimento terico dessa

metodologia encontra-se em diversos textos bsicos de

geoestatstica com destaque para Journel & Huijbregts (1978), Journel (1989) e Isaaks & Srivastava
(1989).
A

Cokrigagem

um

procedimento

geoestatstico segundo o qual diversas variveis

regionalizadas podem ser estimadas em conjunto, com base na correlao espacial entre si. , portanto,
uma extenso multivariada do mtodo da krigagem quando para cada local amostrado obtm-se um vetor
de valores em lugar de um nico valor.
A soluo, por clculo matricial, para a cokrigagem fornecida por:

C x ,x
11 1 '1

C 21 y 2 , x 1

1L1

0 L0

[ C12 ( x 1 ,y 2 ) ]

0
1

1
0
0

1
0

C 22 y 2 , y

'2 M

0 L0

0
0

1L1

[ A]

[ 1]

[ 2 ]

1
2

[
[

]
]

C11 ( x0 , y 1)

C12 ( x 0 , y 2 )

[X]

[B ]

onde = 1, ... , n ; = 1, ... , n ; = 1, ..., n ; = 1 , ... , n .


1
1 '1
1 2
2
'2
2
A matriz [A] composta por:

[ (

)]

sub-matriz C11 x1 ,x
, que descreve a distribuio espacial da primeira varivel
a '1
sub-matriz C

z1 ;

, que descreve a distribuio espacial da segunda varivel


y ,
22 2 '2

z2 ;

85

ESTATSTICA ESPACIAL MULTIVARIADA

, que descrevem a variabilidade cruzada das variveis


e C21 y2 , x
x ,y
1

12 1 2

sub-matrizes C

z1 e

z2 consideradas em conjunto;
os termos restantes 0 e 1 correspondem a condies de no envis
A matriz [A] no contm nenhuma informao sobre o ponto

xo para o qual necessria a

estimao. Toda a informao necessria est contida no vetor [B].


O vetor [B] composto por:

[ (

subvetor
pontos

)]

, que depende da configurao geomtrica relativa do ponto

C11 x0 , xa1

pontos y

em relao aos
o

x1

, onde

[ (

sub-vetor

z observada;

C12 x0 , ya 2

, onde

)] , que depende da configurao geomtrica relativa do ponto

x 0 em relao aos

z2 observada;

os termos vertentes 0 e 1 correspondem condies de no envis.


A soluo do sistema, ou seja, clculo dos n1 1 coeficientes e n2 2 coeficientes para diferentes
pontos

obtida pela inverso de [A] e subsequente multiplicao por [B];

1 e 2 so os

multiplicadores da Lagrange.
Uma das mais freqentes aplicaes da cokrigagem ocorre quando a amostragem insuficiente,
isto , quando uma ou mais variveis no so coletadas em todos os pontos de amostragem. O objetivo
ento melhorar a estimao das variveis sub-amostradas utilizando a correlao, por ventura
existente com variveis mais densamente amostradas. Trata-se de uma ferramenta geoestatstica que
vem sendo cada vez mais utilizada em diversas situaes de estimao ou de modelagem, existindo a
disposio diversos programas (Carr, Myers e Glass, 1985; Yates e Yates, 1990; Marcotte, 1991 e
Deutsch e Journel, 1992, entre outros)
Fundamental na utilizao da cokrigagem a verificao prvia da correlao existente entre as
variveis, a qual deve ser alta para que as estimativas sejam consistentes. Tambm deve ser notado que
a melhoria de interpretao somente significativa quando uma das variveis tem um nmero
extremamente reduzido de casos em relao outra e que o sistema de cokrigagem torna-se
extremamente complicado no caso de mais de duas variveis. Desse modo crticas a esse mtodo so
encontradas na literatura como, por exemplo, em Myers, 1992 e 1988, Davis e Greenes, 1983.

9.2.2. Krigagem indicativa


A krigagem indicativa consiste basicamente na aplicao da krigagem ordinria para a varivel
transformada, ou seja, a varivel resultante da aplicao da funo no linear f(z) = 0 ou 1.
No processo bsico da krigagem, a estimativa feita para um valor mdio em um determinado
local. Pode-se, porm, tambm fazer estimativas baseadas em valores que se situam abaixo ou acima
de um determinado nvel de corte (cutoff). Este procedimento, estabelecido para vrios nveis de corte
(percentis de uma curva de distribuio acumulada) de uma distribuio, conduzir a uma estimativa de
vrios valores da distribuio acumulada em um determinado local, cuja funo poder ser ajustada.
86

ESTATSTICA ESPACIAL MULTIVARIADA

Para se atingir estes objetivos, o primeiro passo, na krigagem indicativa, transformar os dados
originais em indicadores, isto , transformar os valores que esto acima de um determinado nvel de
corte em zero (0) e os que esto abaixo em um (1):

1 se v j v c
i j (v c ) =
0 se v j > v c
Desta forma, so calculados os semivariogramas experimentais indicativos para determinados
nveis de corte e estabelece-se os modelos variogrficos para os mesmos. Os semivariogramas
indicativos podem ser estimados pela funo:

i ( h , vc ) =

1
2 Nh

Nh

i= 1

i ( x + h , vc ) i ( x , vc )

Onde:

h = passo (lag) bsico


v c = nvel de corte
N = nmero de pares
Efetuando-se a krigagem ordinria pontual nos valores transformados, obtm-se a probabilidade
de

v i < v c . Desta forma, medida que se incrementa v c , obter-se- valores estimados da funo de

distribuio acumulada, assim expresso:

F ( v; v c /( n )) =

E{i ( v ; v c ) /( n )}

Definidas as funes de distribuio acumulada, pode-se, portanto, obter qualquer intervalo

F ( v j ) F (v i )
probabilstico da varivel, ou seja:

onde:

v j > vi

Como exemplo de aplicao da krigagem indicativa, com conotao multivariada, apresentado


o trabalho de Sturaro e Landim (1997). Nesse estudo foram analisadas duas variveis, a espessura do
solo e a profundidade do lenol fretico, obtidas a partir de sondagens de simples reconhecimento na
regio do stio urbano de Bauru (SP), regio central do Estado de So Paulo.
Na rea, predominam rochas pertencentes ao Grupo Bauru (Cretceo Superior), sobrepostas
s rochas gneas da Formao Serra Geral, que afloram em direo ao vale do Rio Tiet.

O Grupo

Bauru compreende uma seqncia basal lamtica, com cerca de 20 metros de espessura, de origem
lacustre, seguido por arenitos finos a grossos, pouco argilosos, avermelhados, com algumas
87

ESTATSTICA ESPACIAL MULTIVARIADA

intercalaes

de

lamitos tambm avermelhados. Sua espessura mxima preservada no deve

ultrapassar 190 metros nas cotas topogrficas mais elevadas.


Com relao ao solo, a rea pesquisada apresenta uma cobertura latosslica muito profunda e
homognea, onde os horizontes A e B (solo superficial) com espessura em torno de 15 metros, passam
gradualmente para horizonte C (solo de alterao), o qual pode atingir at 10 metros de espessura. Os
horizontes A e B apresentam-se constitudos predominantemente por areia fina a mdia, com teores que
variam de 75 a 85% e por argila do tipo caulinita. Os teores de silte nos horizontes superiores A e B so
praticamente desprezveis, prximos de 3%. O horizonte C apresenta variao textural e mineralgica
gradual com a profundidade, passando de um material com caractersticas semelhantes ao horizonte B
para um material com caractersticas residuais do substrato rochoso, sendo essencialmente arenoso
com nveis centimtricos argilo-siltosos. Prximo ao contato com a rocha s, observa-se a passagem
para um material argilo-siltoso com frequentes nveis centimtricos de concrees milimtricas e placas
ferruginosas.
Em termos geotcnicos, a rea estudada foi compartimentada em quatro unidades homogneas,
cuja disposio espacial serviu como base para a anlise geoestatstica dos dados de sondagens,
realizados no trabalho.
Tendo em vista que o aqfero Bauru livre na regio e, portanto, altamente vulnervel
contaminao, as duas variveis referidas, desempenham um papel importante na locao de reas
necessrias para disposio de lixo sanitrio.
Preliminarmente, verificou-se

as sondagens nas quais

havia informaes sobre as duas

variveis e, ento, calculado o coeficiente de correlao, da ordem de 0,424, entre as mesmas, num total
de 76 pares. A seguir, foram feitas regularizaes dos dados utilizando-se da krigagem ordinria, com
modelo linear simples e com um raio de busca relativamente pequeno, o que resultou em 529 dados
para a varivel lenol fretico e 623 para solo. Esta interpolao preliminar foi empregada, somente
para auxiliar na confeco dos modelos variogrficos indicativos. Desta forma, a partir da nova malha,
foram efetuadas as correspondentes anlises da variabilidade espacial, em separado, e estabelecidos
os modelos matemticos dos variogramas experimentais.
Para a escolha dos nveis de corte das duas distribuies, o critrio foi dividir os dados da malha
original em percentis representativos da distribuio de freqncia acumulada. Desta forma, os valores
de corte para a krigagem indicativa foram 14, 16, 18, 20 e 22 m para espessura de solo, e 5, 8, 10, 12,5
e 16 m para profundidade do lenol fretico.
Para todos os nveis de corte, de ambas as variveis, foram efetuadas anlises da variabilidade
espacial e obtidos os respectivos modelos matemticos variogrficos. Para os processos de estimativas,
considerou-se os variogramas indicativos prximos das medianas das variveis em anlise.
Os

parmetros

obtidos

partir

dos

modelos

ajustados

Subseqentemente os valores para a discretizao da funo

encontram-se na Tabela 1.

de distribuio acumulada, foram

estimados, por krigagem indicativa pontual, para um retculo de 200 x 180 m, distribudos por uma rea
2

de 90 km .

88

ESTATSTICA ESPACIAL MULTIVARIADA

Para a elaborao dos mapas probabilsticos, escolheu-se, como exemplo, valores medianos,
ou seja, 18 m de espessura de solo e 14m de profundidade do lenol fretico como limites para a anlise
de favorabilidade de reas para disposio de lixo sanitrio na rea de estudo.
Tabela 1. Valores obtidos a partir dos semivariogramas modelados
Varivel: espessura do solo (S)
Cuttof

Modelo

(14)

Esfrico

(16)

Co

0.015

0.16

2500

Esfrico

0.01

0.10

2600

(18)

Esfrico

0.015

0.21

2700

(20)

Esfrico

0.03

0.08

2000

(22)

Esfrico

0.02

0.05

2400

Varivel: profundidade do lenol fretico (L)


Cuttof

Model

Co

(5)

Esfrico

0.01

0.15

3000

(8)

Esfrico

0.01

0.18

2800

(10)

Esfrico

0.01

0.20

3000

(12.5)

Esfrico

0.02

0.19

2900

(16)

Esfrico

0.05

0.10

2800

Nas Figuras 9.2 e 9.3.

so apresentados os mapas referentes aos nveis maiores que 18 m de

espessura de solo e maior que 14 m de profundidade do lenol fretico.

Figura 9.2. Mapa da probabilidade de ocorrncia de solos com espessura maior que 18m .

89

ESTATSTICA ESPACIAL MULTIVARIADA

Figura 9.3. . Mapa da probabilidade de ocorrncia do lenol fretico com a profundidade maior que 14

Para escolher uma rea que apresentasse as duas condies em conjunto, para um
determinado fim geotcnico, e pressupondo que os dois eventos fossem independentes, foi elaborado
um mapa combinado resultante, que se constituiu no produto dos dois mapas probabilsticos, aplicandose a regra multiplicativa de probabilidades para eventos independentes, ou seja:

P( S v c ) P( L v c ) = valor combinado de probabilidades


onde

vc ,

representa o valor de corte (cuttof), de interesse da pesquisa para cada varivel. O mapa da

Figura 9.4 mostra o resultado desta operao.

90

ESTATSTICA ESPACIAL MULTIVARIADA

Figura 9.4.. Mapa com probabilidades combinadas de ocorrncia de espessura de solo com mais de 18m
e profundidade do lenol fretico com mais de 14m.

Para localizar reas onde a espessura do solo fosse maior que 18m e, ao mesmo tempo, a
profundidade do lenol fretico fosse maior que 14m, indicando favorabilidade para a localizao de um
aterro sanitrio, procurou-se no mapa resultante reas com a maior probabilidade combinada. Assim,
em termos probabilsticos, as reas mais recomendadas esto localizadas na parte central e a sudeste.
Como a parte central acha-se ocupada pelo stio urbano de Bauru, a poro sudeste torna-se a mais
indicada. Esta rea est contida na unidade geotcnica II.
No

estudo apenas duas variveis foram utilizadas, porm a metodologia pode ser aplicada a

diversas variveis combinadas. Tal emprego da krigagem indicativa, com enfoque multivariado, consiste
em uma alternativa para modelagem com propsitos ambientais, fornecendo um mtodo vivel para
estimar incertezas distribudas espacialmente.

9.2.3. Krigagem fatorial


A krigagem fatorial uma mtodo relativamente recente, desenvolvido por Matheron (1982) e
talvez o mais conhecido entre os espaciais multivariados. A teoria metodolgica pode ser encontrada em
Goovaerts, 1992;

Wackernagel, 1994; Goovaerts e Webster, 1994;

Castrignan et. al. 1995;

Castrignan et al., 2000).


Resumidamente os passos bsicos da krigagem fatorial so:
1.

modelagem

de

corregionalizao

das

variveis

usando

denominado

modelo

linear

de

corregionalizao: todos os p(p + 1)/2 variogramas diretos e cruzados das p variveis so


modelados por uma combinao linear dos Ns variogramas padronizados para um mesmo alcance
(sill); nesta modelagem supe-se que o comportamento espacial das variveis o resultado da
interao de diferentes processos atuando independentemente a diferentes escalas espaciais.

91

ESTATSTICA ESPACIAL MULTIVARIADA

2.

analise da estrutura de correlaes entre as variveis, levando em considerao as diferentes


escalas, com aplicao da anlise das componentes principais; um crculo de correlaes entre as
variveis originais e os dois mais importantes fatores regionalizados utilizado para resumir as
relaes entre as variveis a cada escala espacial.

3.

estimao das relaes entre os fatores regionalizados e variveis, como componentes espaciais, a
diferentes escalas por cokrigagem, para, finalmente, mape-los;

92

ESTATSTICA ESPACIAL MULTIVARIADA

BIBLIOGRAFIA
BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (1997) Aplicao da estatstica multivariada em estudos
de impacto ambiental: VII Simpsio de Quantificao em Geocincias, Bol Res. Expandidos, 12-16
CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program: Computers & Geociences,
11:111-127.
CASTRIGNAN, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) Studio delle relazioni tra le propriet
fisico-chimiche di un suolo argilloso del litorale ionico-lucano mediante la geostatistica multivariata: Proceedings of
the 13th Symposium of Italian Chemistry Society, Florence, pp. 61-70
CASTRIGNAN, A., GIUGLIARINI, L., RISALITI, R. & MARTINELLI, N. (2000) Study of spatial relationships
among some soil physico-chemical properties of a field in central Italy using multivariate geostatistics: Geoderma,
97:39-60
DAVIS, B. M. & GREENES, K. A (1983) Estimation Using Spatially Distributed Multivariate Data: Na Example with
Coal Quality: Math. Geology, 15:287-300
DEUTSCH, C.V. and JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and Users Guide. Oxford University
Press, 1992
GOOVAERTS, P. (1992) Factorial kriging analysis: a useful tool for exploring the structure of multivariate spatial
soil information: Jour. Soil Science, 43:597-619
GOOVAERTS, P. & WEBSTER, R. (1994) Scale-dependent correlation between topsoil copper and cobalt
concentrations in Scotland: Eur. Jour. Soil Science, 45:79-95
ISAAKS, E.H.; SRIVASTAVA, R.M. (1989) - Applied geostatistics. Oxford University Press,. 561p., New York.
HUIJBBREGTS, C.J. (1975) - Regionalized variables and quantitative analysis of spatial data . In: Davis, J.C. &
Mccullagh, M. J. (eds.) Display and analysis of spatial d ata, p.38 53, John Wiley
JOURNEL, A.G. (1983) Non-parametric estimation of spatial distribution. Math. Geology, 15:445-468
JOURNEL, A. (1989) Fundamentals of geostatistics in five lessons. Short course in Geology, American Geophysical
Union, Vol. 8, Washington.
JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) Mining geostatistics. Academic Press, 1978. 600p.
MARCOTTE, D. (1991) - Cokriging with Matlab: Computers & Geociences, 17:1265-1280
.
MATHERON, G. (1962-1963) - Traite de Geostatistique Appliquee: (vols. 1 e 2): Technip.
MATHERON, G. (1982) Pour une analyse Krigeante des donnes regionalises: Centre de Geostatistique,
Fontainebleau, Report 732
MYERS, D. E. (1982) Matrix formulation of co-kriging: Math. Geology, 14:249-258
MYERS, D. E. (1988) - Some Aspects of Multivariate Analysis: in F. Chung et al. (eds.) Quantiative Analysis of
Mineral and Energy Resources, p 669-687, D. Reidel Publishing Co
STURARO, J. R. & LANDIM, P.M.B. (1997) Indicator kriging for GISs maps integration: in V. Pawlowsky-Glahn
(ed.), Proceedings of IAMG97, CIMNE,Barcelona, 2:699-704
WACKERNAGEL, H. (1995) Multivariate Geostatistics: Na Introduction with Applications: Springer-Verlag, 256 pp.
YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Mangment: A Users Manual for the GEOPACK
(version 1.0) Geostatistical Software System: U.S. Environmental Protection Agency Report 600/8-90/004.

93

You might also like