Professional Documents
Culture Documents
multivariados
NDICE
1. INTRODUO
01
06
06
12
3. REGRESSO MLTIPLA
16
23
23
23
40
42
43
6. ANLISE FATORIAL
6.1. Anlise Fatorial pelo modo R
6.2. Anlise Fatorial pelo modo Q
6.3. Exemplo numrico
6.4. Anlise das Correspondncias (Anlise das Associaes)
6.5. Anlise Fatorial R-Q simultnea
6.6. Exemplo
48
49
50
51
54
56
56
7. ANLISE DISCRIMINANTE
7.1. Funes Discriminantes multigrupos
7.2.. Distncia Generalizada D2 de Mahalanobis
7.3. Exemplo
60
63
64
65
73
80
80
83
INTRODUO
1. INTRODUO
As primeiras aplicaes de mtodos quantitativos em Geologia coincidem com o seu
estabelecimento como cincia moderna, pois a subdiviso do Tercirio, por Charles Lyell em 1830, foi
baseada na classificao quantitativa de espcies recentes de moluscos presentes nos diversos estratos
da Bacia de Paris. A partir desse incio, porm, a Geologia permanece qualitativa e puramente descritiva e
apenas nos anos 20 que o enfoque quantitativo se estabelece. Assim, por exemplo, William C. Krumbein,
pioneiro no uso de computao em Geologia mais tarde em 1958, prope a amostragem geolgica em
bases probabilsticas e introduz os modelos processo-resposta. O entendimento das relaes de causae-efeito para a explicao dos processos geolgicos leva Andrei Vistelius, no incio dos anos 40, a iniciar a
formulao da chamada Geologia Matemtica. Nas ltimas dcadas, graas a avanos tecnolgicos tanto
em termos computacionais como em equipamentos de laboratrio e de campo mais refinados, tem sido
intensa a obteno de dados geolgicos quantitativos. A sua anlise, porem, esta muito aqum dessa
imensa quantidade de informaes coletadas. Basta ver os relatrios de pesquisa e mesmo os bancos de
dados com um grande nmero de matrizes de informaes no trabalhadas. H verbas e tempo gastos
com essa coleta que precisam ser acompanhados do devido manuseio. Para essa anlise dos dados
emprego de tcnicas estatsticas multidimensionais torna-se, ento, uma ferramenta fundamental. Constitui
uma fase intermediaria, as vezes at introdutria, porem necessria, para o entendimento dos fenmenos
geolgicos. A pura utilizao de tcnicas estatsticas, e hoje em dia bastante facilitada graas vasta
disposio de programas computacionais, no condio suficiente se o estudo no for embasado num
slido conhecimento geolgico. A sua aplicao, porem, de extrema valia metodolgica para auxiliar a
interpretao geolgica, segundo o enfoque da Geologia Quantitativa ou Numrica.
No caso de uma nica varivel ter sido medida em espcimes de uma amostra, no sentido
estatstico, a anlise de tais dados feita por intermdio da estatstica univariada. Se porm valores de
diversas variveis forem obtidos em cada um dos espcimes dessa mesma amostra, as tcnicas para a
anlise desses dados so fornecidas pela estatstica multivariada ou multidimensional. Tal anlise
estatstica de mensuraes mltiplas efetuadas sobre uma amostra fornece um melhor entendimento na
razo direta do nmero de variveis utilizadas e permite considerar simultaneamente a variabilidade
existente nas diversas propriedades medidas.
Pode-se afirmar que a anlise multivariada a rea da anlise estatstica que se preocupa com as
relaes entre variveis e como tal apresenta duas caractersticas principais: os valores das diferentes
variveis devem ser obtidos sobre os mesmos indivduos e as mesmas devem ser interdependentes e
consideradas simultaneamente (Kendal, 1963). Entre os mtodos mais utilizados em Geocincias
destacam-se a anlise de agrupamentos , a anlise fatorial e a anlise discriminante.
A anlise de agrupamentos utilizada quando se deseja explorar as similaridades entre indivduos
(modo Q) ou entre variveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro
caso, todas as variveis observadas em cada indivduo e, no segundo, todos os indivduos nos quais foram
feitas as mesmas medidas. Segundo esse mtodo, procura-se por agrupamentos homogneos de itens
INTRODUO
representados por pontos num espao n-dimensional em um nmero conveniente de grupos relacionandoos atravs de coeficientes de similaridade ou de distncia.
A anlise fatorial procura interpretar a estrutura de um conjunto de dados multivariados, tanto em
modo Q como em modo R, a partir da respectiva matriz de varincias-covarincias ou de
discriminante, a meio caminho entre os centros dos grupos, com a finalidade de verificar a qual deles os
indivduos pertencem.
Como salientado por Davis (1986), os mtodos multivariados so poderosos, permitindo o
pesquisador manipular diversas variveis simultaneamente. So, porm, bastante complexos, tanto na sua
estrutura terica como na metodologia operacional. Em alguns casos os testes estatsticos a serem
utilizados exigem requisitos muito rgidos e em outros, muitas vezes quando quer relacion-los com
problemas reais, no apresentam base estatstica terica e desse modo impossibilidade de testes de
significncia. De qualquer modo, so mtodos extremamente promissores para a anlise de dados
geolgicos tendo em vista que normalmente a maioria das situaes geolgica envolve um conjunto
complexo de fatores atuando no sistema, sendo impossvel isol-los e estud-los isoladamente.
Exemplos de situaes que apresentam dados multivariados so comuns em Geologia, como:
anlises geoqumicas de elementos maiores e/ou elementos traos; caracteres morfolgicos medidos em
fsseis; caractersticas fsicas de rochas sedimentares, como distribuio granulomtrica, porosidade,
permeabilidade; contedo mineralgico em rochas; variveis fluviais, como descarga, material em
suspenso, profundidade, slidos dissolvidos, pH e contedo em oxignio, etc.. Em alguns casos trata-se
de simples extenso de problemas ligados estatstica univariada e outros pertencem, todavia, a uma nova
classe de problemas. As principais questes a serem enfrentadas por esse tipo de anlise so as
seguintes, segundo Pisani (1969):
1. dependncia: quando so utilizados, por exemplo, anlise de regresso mltipla e correlao cannica;
2. inferncia: quando so utilizados extenses multivariadas de mtodos estatsticos univariados, como o
teste T de Hotelling ou a anlise generalizada de varincia;
INTRODUO
3. reduo e escala: quando so utilizadas anlise das componentes principais, anlise dos fatores,
distncia generalizada D de Mahalanobis, etc.;
4. discriminao e classificao: quando so utilizadas funes discriminantes e as diversas tcnicas de
anlise de agrupamentos.
A utilidade dos mtodos multivariados pode ser apresentada em termos geomtricos. Assim,
observaes univariadas podem ser assinaladas sobre uma linha reta e se essa linha for dividida em
intervalos de classes e contando o nmero de observaes em cada intervalo, um histograma poder ser
construdo. Esse histograma ir requerer duas dimenses para a sua representao. Observaes
bivariadas podem ser assinaladas em um sistema de disperso a duas dimenses. Se o diagrama for
dividido em celas, o nmero de observaes em cada cela pode ser contado e o respectivo histograma
construdo. Esse histograma requer trs dimenses e pode ser representado por um mapa de isovalores.
Observaes trivariadas podem ser assinaladas em um grfico de disperso a trs dimenses e a
configurao nos pontos no espao definir uma elipside. Se o espao tri-dimensional for dividido em
cubos os nmeros de observaes dentro de cada figura geomtrica podero ser contados e obtida a
distribuio de freqncias. Para a construo do respectivo histograma quatro dimenses sero
necessrias. Em observaes com quatro ou mais variveis no possvel a representao grfica segundo
os mtodos comuns, embora Mertie (1949) tenha proposto para tanto complicados hipertetraedros.
Utilizando, assim, a interpretao geomtrica em trs dimenses para observaes trivariadas, os
seguintes exemplos de procedimentos em estatstica multidimensional podem ser apresentados:
a) na regresso mltipla calcula-se um plano para uma regresso linear, ou superfcies curvas para
regresses de ordem maior, que so ajustados s observaes a fim de minimizar a soma das
distncias ao quadrado dos pontos no espao medidos perpendicularmente em relao a essas
superfcies;
b) na anlise de varincia generalizada verificado se dois ou mais elipsides tem o mesmo centro;
c)
na anlise discriminante localizam-se os centros dos elipsides e calcula-se a distncia entre pares de
centros de elipsides;
A pretenso deste texto, escrito por um Professor de Geologia, apresentar uma introduo aos
mtodos estatsticos multidimensionais que podem ser aplicados na anlise de dados geolgicos, sem
uma abordagem matemtica complexa. Existe disposio uma variedade muito grande de livros e
pacotes computacionais que tratam deste assunto e torna-se necessrio um texto simples que permita ao
usurio iniciar-se na Geologia Quantitativa. Entre os principais livros textos que tratam de mtodos
3
INTRODUO
quantitativos em Geologia podem ser citados: Miller & Kahn (1962), Sokal & Sneath (1963) Krumbein &
Graybill (1965), Koch & Link (1971), Davis (1973 e 1986), Joreskog, Klovan & Reyment (1976) , Le
Maitre (1982), Howarth & Siding-Larsen (1985), Griffith & Amrhein (1997) e Reyment & Savazzi
(1999).
Existem tambem diversos pacotes estatsticos de aplicao geral, bem elaborados e completos
como SAS, S-Plus, Statistica, Systat, todos em constante atualizao. Dois outros, no to conhecidos,
mas bastante fceis de serem utilizados e com boa saida grfica, so o MVSP e o Xlstat, este baseado
no aplicativo Excel. Um pacote dedicado anlise de dados geolgicos, desenvolvido no Brasil, o
Geoquant e um outro nacional voltado a aplicaes em Cincias Biolgicas e Mdicas o Bioestat.
Alem disso na revista Computers & Geosciences, editada pela International Association for
Mathematical Geology, freqentemente so apresentados programas listados e/ou executveis obtidos por
ftp (www.iamg.org/CGEditor/index.htm).
INTRODUO
BIBLIOGRAFIA
AYRES, M.; AYRES JR., M.; AYRES, D. L. & SANTOS, A. S. (2000) BioEstat 2.0: aplicaes estatsticas nas reas
das cincias biolgicas e mdicas: Sociedade Civil Mamirau, MCT-CNPq, mizayres@zaz.com.br
DAVIS, J.C. (1973) - Statistics and Data Analysis in Geology: John Wiley and Sons.
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd ed., John Wiley and Sons.
GEOQUANT (1990) Companhia de Pesquisa de Recursos Minerais, verso 3.0.
GRIFFITH, D.A. & AMRHEIN, C.G. (1997) Multivariate Statistical Analysis for Geographers Prentice Hall.
HARBAUGH, J.W. & MERRIAM, D.F. (1968) - Computer applications in Stratigraphic Analysis: John Wiley & Sons.
HOWARTH, R.J. & SINDING-LARSEN, R. (1985) - Multivariate analysis: in (G.J.S. Govett, ed.) Statistics and Data
Analysis in Geochemical Prospecting, vol. 2:207-289, Elsevier.
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
KENDALL, M.G. (1963) - Discrimination and Classification: C.E.I.R. Ltda.
KOCH JR, G.S. & LINK, .F. (1971) - Statistical analysis of geological data: vol. 2, John Wiley & Sons.
KRUMBEIN, W.C. & GRAYBILL, F.A. (1965) - An introduction to Statistical Model in Geology: McGraw Hill Book.
LE MAITRE, R.W. (1982) - Numerical Petrology. Statistical Interpretation of Geochemical Data: Elsevier.
MERTIE JR, J.B. (1949) - Charting five and six variables on the bounding tetrahedral of hyper tetrahedral: Am.
Mineralogist, 34:706-716.
MILLER, R.L. & KAHN, J.S. (1962) - Statistical analysis in the geological sciences: John Wiley and Sons.
MVSP Multi-Variate Statistical Package: Kovach Computing Services, http://www.kovcomp.co.uk
PISANI, J.F. (1969) - Anlise estatstica multidimensional em Biologia: Cincia e Cultura, 21(3):619-631.
REYMENT, R.A. & SAVAZZI, E. (1999) Aspects of Multivariate Statistical Analysis in Geology - Elsevier.
SAS SAS Institute, http://www.sas.com
SOKAL, R.R. & SNEATH, P.H.A. (1963) - Principles of numerical taxonomy: W.H. Freeman.
S-PLUS Mathsoft, http://www.mathsoft.com
STATISTICA StatSoft Inc., http://www.statsoft.com
SYSTAT SPSS Inc., http://www.spss.com
XLSTAT AddinSoft SARL, http://www.xlstat.com
t=
(x x ) n
sx2
a amostra tem tamanho n de onde x foi obtida; se t t (n - 1,), x ser considerado diferente de x ao nvel
de significncia .
Escolhido, por exemplo, = 0,05 isso significa que se a verdadeira mdia da populao de X's for
igual a x a chance de ocorrer t t (n - 1,), uma em 20. Aplicando o mesmo teste para a varivel Y, com o
mesmo risco de estar recusando a hiptese nula quando ela verdadeira, a probabilidade de ambas X e Y
no serem significantemente diferentes de x e y (0,95) = 0,9025. A probabilidade de ambas as mdias
serem significantemente diferentes de x e y (0,05) = 0,0025. A probabilidade de apenas uma das
mdias ser significantemente diferente (2).(0,95).(0,05) = 0,0950. Assim a probabilidade de que pelo
menos uma mdia ser considerada como significativamente diferente, quando na realidade no existe
diferena, de 0,0975. No caso de um problema a trs variveis, esta ltima probabilidade passa a ser 1(0,95) = 0,1426.
Esta situao, apresentada por Jackson (1959), mostra que o uso de testes univariados para
situaes multivariadas pode fornecer pelo menos uma diferena significante, apenas por chance, em 50%
ou mais de casos. H necessidade, portanto, de um teste generalizado que verifique simultaneamente se
dadas diversas amostras, qual a possibilidade delas serem significantemente
diferentes de mdias
[ x] [ x ] n
[x x ]
[s ]
[s ]
A soluo desta equao no fornece uma nica resposta e para tanto haver necessidade de
[ ] em valores singulares.
e a matriz s 2
multiplicao de
[ s ] por
2
[ A]
[ A] l
[ A]' [ x x ] n
[ A] [s2 ] [ A]'
([ A]' [x ] ) n
2
t2
[ A] [s 2 ] [ A]'
Todavia, com essa transformao, o que estava sendo testado foi modificado. A hiptese nula que
era
A hiptese original H o ser verdadeira somente se a nova hiptese H o se mantiver para todos os
possveis valores de
'
[ A] , a hiptese
teste, porque se
Para determinar esse valor mximo deve-se essencialmente notar que t no tem dimenso e no
afetado por mudanas de escala dos elementos de
determinao
[ A]i [s 2 ] [ A] = 1
A introduo da restrio pelo multiplicador de Lagrange e subseqente diferenciao com
[ ]
][
[ ] [ A] = 0
x x l n s2
x
x
([ A]' [x ])
[ A]' [ s2 ] [ A]
o que resulta: = t 2
Para a determinao de t, ou seja o mximo valor possvel, deve-se encontrar o determinante
[ ]
s2
[ x ][ x ]' n [ I ] = 0
[ ] [ x ][x ]' n
= tr s2
[ ]
T 2 = n [ x x ]' s 2
[x x ]
F* =
nm 2
T , apresenta uma distribuio F com graus de liberdade m e n - m, onde n o
m(n 1)
nmero de amostras e m o nmero de variveis.
Aceita-se H o : o , , quando
F *<.F( , m , n m )
Exemplo:
Os dados foram retirados do trabalho de Gomes et al. (1975) sobre a geoqumica de corpos
granticos da regio do Ribeira, utilizando-se apenas 40 anlises qumicas obtidas do macio de Itaca,
Vale do Ribeira (SP). Cada uma dessas anlises exibe valores percentuais de de SiO2, TiO2, Al2O3, Fe2O3,
FeO, MnO, MgO, CaO, Na2O, K2O e P205 (Tabela 2.1.) O macio de Itaoca, aflorando ao sul da cidade de
Apia, possui forma irregular, levemente ovalada, e contatos tanto concordantes como discordantes com a
estrutura regional, achando-se inteiramente encaixado em metassedimentos do Grupo Aungui. Do ponto
de vista textural, as amostras estudadas so
de feldspato alcalino em meio uma matriz fanertica granular de dimenses submilimtrica milimtrica.
Sua mineralogia marcada
pela
SiO2
TiO2
Al2O3
Fe 2O3
FeO
MnO
MgO
CaO
Na2O
K2O
P205
67.58
0.58
12.65
0.15
3.62
0.07
1.28
2.14
5.34
4.9 9
0.26
72.77
0.20
12.96
0.01
2.30
0.02
0.30
0.77
5.34
4.55
0.07
68.64
0.40
13.33
0.65
2.98
0.19
0.77
1.11
5.72
4.70
0.13
69.87
0.45
13.36
0.90
2.03
0.08
0.81
0.80
5.72
4.96
0.16
71.42
0.39
12.23
0.01
3.06
0.05
0.82
1.53
5.01
3.48
0.16
66.02
0.60
13.62
0.97
3.35
0.07
1.10
2.89
5.01
5.00
0.32
66.20
0.67
12.99
1.21
3.08
0.10
1.10
2.76
5.34
4.97
0.30
72.75
0.22
12.72
0.17
2.53
0.03
0.37
1.13
5.01
4.34
0.05
65.80
0.65
13.95
0.33
3.76
0.05
1.08
2.67
5.34
4.96
0.27
10
70.03
0.38
12.83
0.43
3.81
0.08
0.73
1.59
4.04
5.04
0.14
11
69.71
0.50
13.00
0.06
3.18
0.11
0.90
2.14
4.85
4.54
0.16
12
67.45
0.53
13.67
0.37
3.59
0.05
0.95
2.62
4.85
4.63
0.22
13
66.31
0.69
14.23
0.13
3.39
0.07
1.29
3.02
4.85
4.48
0.33
14
65.78
0.67
14.21
0.19
3.49
0.06
1.36
2.87
4.85
5.06
0.28
15
65.84
0.67
12.89
0.75
3.53
0.06
1.43
3.11
4.85
4.81
0.30
16
64.43
0.73
13.97
0.18
4.22
0.07
1.32
3.02
4.85
4.88
0.29
17
69.57
0.40
13.18
0.30
2.67
0.07
1.09
1.71
5.12
4.91
0.17
18
72.33
0.49
14.06
0.62
0.99
0.01
0.18
0.22
4.72
5.22
0.03
19
70.73
0.50
12.77
0.33
2.49
0.09
0.90
1.80
4.45
4.74
0.24
20
64.17
0.87
13.81
0.98
4.11
0.07
1.48
3.26
4.58
4.85
0.32
21
64.57
0.77
13.92
1.33
3.35
0.09
1.46
3.04
4.85
4.51
0.29
22
69.75
0.37
12.83
1.69
2.98
0.04
0.66
1.39
4.58
4.68
0.12
23
65.10
0.67
14.30
0.88
3.71
0.08
1.35
2.83
4.31
4.85
0.31
25
65.29
0.66
14.18
1.09
3.61
0.07
1.11
3.07
4.31
4.85
0.36
26
66.84
0.66
13.40
0.62
3.36
0.07
1.33
2.67
4.58
4.64
0.37
27
66.93
0.78
13.51
0.47
5.45
0.09
1.47
2.71
1.35
5.13
0.31
28
67.33
0.61
13.14
1.15
2.88
0.07
1.39
2.47
4.58
4.87
0.30
29
64.93
0.85
14.20
1.91
3.72
0.06
0.85
2.47
4.31
4.85
0.37
30
66.23
0.62
13.57
1.08
3.49
0.05
1.17
2.86
4.31
4.84
0.29
32
68.33
0.44
12.98
0.77
2.78
0.06
0.95
2.34
4.31
4.77
0.21
33
72.15
0.24
11.96
0.96
1.81
0.08
0.52
5.20
3.24
2.71
0.15
34
66.79
0.60
13.73
1.14
2.63
0.06
1.32
2.72
4.31
5.22
0.29
35
65.78
0.57
14.45
1.91
2.82
0.06
0.91
2.58
4.30
5.10
0.26
36
66.08
0.59
14.15
1.61
3.14
0.06
1.12
2.92
4.31
4.46
0.31
37
64.50
0.79
13.80
1.08
4.03
0.07
1.39
3.17
4.58
4.96
0.32
38
65.87
0.71
13.50
2.01
2.73
0.09
1.49
3.26
4.36
4.39
0.38
39
63.72
0.74
13.91
1.97
3.48
0.08
1.50
3.22
4.30
4.89
0.39
40
75.37
0.09
12.13
0.18
2.16
0.01
0.09
0.54
4.04
4.62
0.02
41
67.66
0.63
13.07
0.68
3.62
0.05
1.27
2.56
4.58
4.41
0.29
42
65.72
0.63
13.71
1.23
3.35
0.05
1.01
3.09
4.85
4.64
0.36
52
67.43
0.54
13.54
1.44
2.11
0.06
1.15
2.68
5.12
4.48
0.24
A anlise dos dados normativos indica uma composio grantica para o macio, conquanto a
totalidade das amostras esteja colocada prxima ao campo de transio granito-granodiorito. Comparando
qualitativamente os valores mdios dessas anlises com valores mdios obtidos por Nockolds (1954) para
rochas granticas adamelticas
composio prxima rochas adamelticas, com diferena em relao Na2O, ligeiramente superior
quela referida pelo citado Autor.
De um estudo feito por Landim et al. (1974), aplicando anlise de agrupamentos a essas 40
anlises qumicas, constatou-se a existncia de dois conjuntos diferenciados: um composto por 13
anlises
13, 14, 15, 16, 17, 19, e 32) e outro, com um total de 19 anlises distribudas pelo restante do corpo
(amostras de nmeros 6, 7, 20, 21, 23, 25, 26, 28, 29, 30, 34, 35, 36, 37, 38, 39, 41, 42 e 52). Quanto s
amostras de nmeros 2, 3, 5, 8, 18, 22, 27, 33 e 40 no se encaixam em nenhum desses dois grupos.
Tendo como hiptese que a populao multidimensional seria os valores mdios obtidos por
Nockolds (1954) para rochas adamelticas (Tabela 2.2.), procurou-se aplicar o teste T' para verificar se a
amostra multidimensional, constituda pelo conjunto de 13 anlises, pertenceria a essa populao. De
modo idntico testou-se a amostra composta pelas 19 anlises.
SiO2
TiO2
Al 2O3
Fe 2O3
FeO
MnO
MgO
CaO
Na 2O
K2O
P205
69,15
0,56
14,63
1,22
2,27
0,06
0,99
2,45
3,35
4,58
0,20
a ) F1 =
n m 2 13 12
T =
2772,5=19,254
m( n 1)
12(12)
F(0.05;12,1) = 243,91
Desse modo, como o valor de F1 calculado menor que o tabelado deve-se aceitar Ho ao nvel de
95%. Isso significa que essa amostra pode ser considerada como proveniente de uma populao com
composio adameltica.
b) Fo =93,065
F( 0 .05; 12.7 ) =3,5747
Como o valor de F2 calculado maior que o F tabelado, para graus de liberdade 12 e 17 e nvel de
significncia de 0.05, deve-se rejeitar Ho, o que significa que essa amostra no pode ser considerada como
proveniente de uma populao com composio adameltica.
10
Tendo sido visto o caso de uma nica amostra multidimensional comparada com um
especfico
vetor de mdias populacionais, uma outra situao seria a comparao entre duas mdias populacionais
multidimensionais. Presume-se que as duas amostras tenham sido retiradas de populaes multi-normais,
possuindo ambas a mesma matriz desconhecida de varincias-covarincias [2].
Deseja-se, portanto, testar a hiptese nula
Ho : [ 1 ] = [ 2 ]
Contra a alternativa
H1 : [ 1 ] [ 2 ]
Para o caso unidimensional usa-se o teste "t" para duas amostras:
t=
x1 x2
sp 1 / n1 ) + (1 / n 2 )
onde sp a estimativa dos desvios padres combinados de duas populaes, baseada em ambas as
amostras
Sp 2 =
( n1 1 )s12 + ( n 2 1 )s22
n1 + n2 2
[ ]
[ Sp ] = n + n1 2 ( [S ] + [S ] )
2
SQX 1
SPX X
1
2
S1 =
SPX 1 X m
SPX 1 X 1
SQX 22
SPX 2 X m
L SPX 1 X m
L SPX 1 X m
2
L SQX m
onde
SQX 12
na
i 1 1i
na 2
x1i
i
=1
n1
=
n 1
11
SPX 1 X 2
na
na
x1i x2 i
n
i 1
a ( x . x ) i 1
i =1 1i 2 i
n1
=
n1
T 2=
[ ] [x
n1 .n 2
[x1 x 2 ]'. Sp 2
n1 + n 2
x2 ]
F=
n1 + n 2 m 1 2
T , com m e (n1 + n2 m 1) graus de liberdade.
( n1 + n2 2 )m
Aceita-se H o : 1 = 2 se
T 2 F( ; m; n 1 +n 2 m 1)
Exemplo:
O teste T2 tambm pode ser aplicado quando se dispe de duas amostras casuais independentes,
retiradas, por suposio, de populaes normais multivariadas e tendo ambas a
mesma matriz
desconhecida de varincias e covarincias e se deseja testar a igualdade entre seus vetores de mdia.
H o : [1 ]=[2 ]
contra
H1 :[1 ][2 ]
Para este exemplo foram utilizadas as mesmas duas amostras provenientes do estudo
geoqumico do macio de Itaoca: a primeira, constituda por 13 anlises qumicas e a segunda, por 19
anlises qumicas. Em ambas as variveis so as mesmas, ou seja porcentagens de 11 xidos.
n1 + n2 m 1 2
T
( n1 + n2 2) m
13 + 19 12 1
1117389
.
= 58973
.
(13 + 10 2)12
(n n
1 2
m 1) , igual a 2.27. Desse modo como F calculado maior que F tabelado rejeita-se a hiptese
nula de que os dois vetores de mdias das duas amostras consideradas sejam iguais. Isso j era esperado
tendo em vista os resultados do exemplo 3.1.1. onde a primeira amostra revelou ter caractersticas de uma
rocha adamellitica e a segunda no.
utilizada
matrizes de covarincias, pode ser verificada pelo teste generalizado de varincias, que o equivalente
multivariado do teste F. Tendo "k" grupos de observaes e sendo medidas "m" variveis em cada
[ ] [ ]
[ ]
Ho : i2 = 22 = L = 2k
[ ] [ ]
H1 : 2i 2k
[ ]
contra a alternativa de que pelo menos duas so diferentes. Cada matriz amostral si2 uma estimativa da
matriz populacional 2i . Se as populaes a que pertencem os "k" grupos so idnticas, as estimativas
amostrais
podem ser combinadas para formar uma estimativa combinada da matriz de covarincia
populacional.
[ sp ] =
[ ]
( ni 1 ) si2
i =1
ni k
( i =1 )
onde ni o nmero de espcimes no i'simo grupo e n i o nmero total geral de todos os espcimes
em todos os grupos.
Para a estimao combinada da matriz populacional de covarincias, o teste estatstico M o
computado
] [ ]
[ ]]
2
m
+
3
m
1
1
1
C 1 = 1
k
6( m + 1)( k 1) i = 1 ni 1
ni k
i =1
13
MC
= 1
( 2 m2 + 3m 1) ( k + 1)
6( m + 1) k ( n 1)
O valor deve ser usado apenas quando k e m no excedem 5 e cada matriz estimada de
covarincias baseada em pelo menos 20 observaes.
Exemplo:
Para a aplicao do teste anterior, uma das suposies era a de que as amostras tivessem sido
retiradas de populaes com a mesma matriz de varincias e covarincias. Tal igualdade de matrizes de
varincias e covarincias pode ser verificadas pela aplicao do teste das varincias generalizadas, que o
teste multivariado equivalente ao teste F.
Usando as mesmas amostras do teste anterior o resultado passa a ser:
Teste M = 180,874847 ; Transformao C-1 = 0,437108
Critrio de Anderson corrigido: 101,812957%
Como esta estatstica tem distribuio prxima a do chi-quadrado (2), com 78 graus de liberdade,
comparou-se o valor calculado com valores crticos de uma tabela de .
Para altos valores de graus de liberdade a seguinte frmula aproximada para o clculo de pode
ser usada
= n(1 92n + z
2( 0 , 01 ) = 78 1
2
9 * 78
2 3
9n
+ 2 .326( 2 / 9 * 78 ) = 109,92
3
14
BIBLIOGRAFIA
GOMES, C.B; BERENHOLC, M.; HYPLITO, R. & ARRUDA, J.R. (1975) - Geoqumica de macios granticos da
Regio do Ribeira, Parte 1: elementos principais: An. Acad. Bra.s Cinc., 47:113-130.
JACKSON, J.E. (1959) - Some multivariate statistical tecniques used in color matching data: Jour. Opt. Soc.
America, 49:485-592.
LANDIM, P.M.B.; GOMES, C.B.; ARRUDA, J.R. & FULFARO, V.J. (1979) - Anlise de agrupamentos (cluster analysis)
aplicada ao estudo geoqumico do granito Itaca, regio da Ribeira: An. XXVIII Congr. Bras. Geologia, 7:161168.
MORRISON, D.F. (1967) - Multivariate statistical methods: McGraw-Hill.
NOCKOLDS, S.R. (1954) - Average chemical compositon of some igneous rocks: Geol. Soc. Am. Bull., 65:10071032.
15
REGRESSO MLTIPLA
3. REGRESSO MLTIPLA
= + xi + i ,
= a + bx
= o + 1 x 1i + L + m x mi + i
y = a o + a1 x 1 + e1 ,
onde xi a varivel independente, responsvel pela maior variabilidade, a o e a1 so os coeficientes e
e1 o erro, isto , a variabilidade em Y no explicada pela relao linear. A varivel que, em seguida,
= bo + b1 x 1 + b 2 x 2 + e 2 , sendo
b o , b1 e b2 calculados e e 2
16
REGRESSO MLTIPLA
A equao que representa a relao linear entre uma varivel dependente (y i) e uma nica
varivel independente (x i) :
Yi = a o + a 1 xi
As equaes normais que fornecem os valores de a o e a1 so:
Y1 = a o n + a1 x12
(1)
X i Yi = a o X i + a1 x 12 (2)
As equaes ( 1 ) e ( 2 ) constituem um par de equaes normais a duas incgnitas, as
quais podem ser resolvidas para a obteno dos coeficientes, por clculo matricial, segundo:
[ X ][ A]= [Y ]
XA = Y
1
.[ X ] .[ A]
Como [ X ]
=[
.[ X ]
X ]
= [ I ] (matriz de identidade)
e [ I ] .[ A ] = [ A]
[ A ].[ X ]
=[Y ]
Yi = a o + a 1 X 1i + a 2 X 2 i +L+ a m X mi ,
pode ser resolvida segundo:
n
x
1i
x2
M
xmi
x1i
x12i
x 2 x1
xmi x1
[X]
L xmi
L x1i xmi
L x2 xm
L xmi
ao
a
1
a2
a m
[ A]
yi
x y
1i i
x 2 i y i
xmi yi
[Y ]
e, portanto,
[ A ] = [ X ] 1 [ Y ] ,
onde [A] o vetor-coluna de incgnitas a ser determinado.
Uma das mais importantes aplicaes da anlise de regresso mltipla a escolha, entre
diversas variveis independentes, daquelas mais teis na previso de Y e, para tanto, o mtodo
passo a passo (stepwise multiple regression) o mais recomendado.
A varincia total de Y em parte "explicada" pelas diversas variveis X's e o restante pela
variabilidade devido ao erro (1 ). claro que o termo "explicada" tem apenas um significado numrico
17
REGRESSO MLTIPLA
s2
~
&
( varincia de Y explicada pela analise
de regressao)
y*
2
R =
=
$
(variancia total)
s2y
Valores de R2 iro dispor-se no intervalo [0-1], fornecendo uma medida dimensional de
quantidade do ajuste do modelo de regresso mltipla aos dados. Se o valor de R for prximo de 1
isso significa que as diversas variveis X's medidas so responsveis quase que totalmente pela
variabilidade de Y. Caso contrrio, R apresentar um valor prximo a zero. Como os coeficientes de
regresso so parciais devem ser obtidas as porcentagens explicadas da soma de quadrados de Y
segundo 2 1 combinaes, onde k o nmero de variveis independentes. Finalmente verifica-se
k
a contribuio pura de cada varivel independente por comparaes sucessivas entre os diversos
resultados.
Outra maneira para a ordenao das variveis pela sua importncia na previso da varivel
dependente a padronizao dos coeficientes de regresso parciais, convertendo-os em unidades
de desvio padro, ( B k ) (Li, 1964, p. 136):
Bk = bk
Sk
, onde bk = coeficiente de regresso parcial;
SY
Sk= desvio padro de Xk ; Sy= desvio padro de Y.
Exemplo:
18
REGRESSO MLTIPLA
Bacci (2000) procurou avaliar os impactos ambientais gerados pela explorao mineral em
uma pedreira de diabsio na regio de Campinas/SP. Os principais objetivos foram quantificar as
vibraes no terreno, considerando os parmetros fsicos da rea; avaliar os efeitos das vibraes
nas construes civis prximas cava e a sua possibilidade de danos; determinar o zoneamento
dinmico da rea e os limites de segurana para ocupao pela populao local; formular equaes
matemticas que representassem o fenmeno vibratrio na rea de estudo; conhecer a propagao
das ondas no terreno e sua atenuao, considerando os parmetros que interferem no seu
comportamento.
Foram coletados dados em diversos pontos nos arredores da cava e distribudos em relao
s vrias frentes de lavra, com o auxlio de ssmgrafos especficos, relacionando os registros das
velocidades de vibrao da partcula no terreno com sua freqncia de oscilao.
O monitoramento foi realizado numa rea de 1 km de raio ao redor da cava, com distribuio
dos pontos nas direes principais de propagao das ondas, medidos na parte posterior das
bancadas e consideradas quatro direes preferenciais de propagao das vibraes: N24, N84
N111, N20, respectivamente de acordo com as bancadas A, B, CD e E, e os pontos de registro
foram distribudos segundo uma malha homognea. No total foram monitoradas 28 detonaes, com
146 registros.
O levantamento dos dados consistiu na obteno dos valores de velocidade de vibrao da
partcula e sua freqncia de oscilao durante detonaes em rochas, com uso de explosivos.
Utilizando-se da anlise de regresso linear mltipla procurou determinar a importncia das
variveis relacionadas aos registros sismogrficos e ao plano de fogo (distncia linear do ponto de
registro frente de detonao (D), distncia reduzida (SD), freqncia de oscilao na componente
vertical (f) e carga explosiva mxima por espera (Q)) em conjunto com as variveis relacionadas ao
meio fsico (direo e densidade do fraturamento, profundidade do topo rochoso e espessura da
camada de solo residual) na variao da velocidade de vibrao da partcula, nas diferentes direes
preferenciais de propagao da onda ssmica.
As variveis definidas foram consideradas independentes, enquanto a velocidade de vibrao
da partcula (Vp) foi considerada dependente. Procurou, desse modo, determinar a influncia das
variveis independentes no comportamento da varivel dependente.
Admitiu para a rea que, quanto maior a espessura da camada de solo, menor seria o valor
de Vp e menor a freqncia de oscilao, sendo maior a atenuao da onda ssmica, pois a
velocidade de propagao das ondas no solo menor que na rocha, ocorrendo o mesmo com
relao freqncia de oscilao.
Para direes de propagao das vibraes paralelas famlia principal de fraturas, a
atenuao da onda seria menor e, consequentemente, os valores de Vp esperados seriam maiores,
pois a onda ssmica, encontrando um menor nmero de fraturas em sua trajetria, no sofre
reflexes ou refraes, diminuindo a disperso de energia e aumentando os efeitos de sua
propagao no terreno.
19
REGRESSO MLTIPLA
SOLO
FREQNCIA
------------------------------------------------------------------------------------------------------------6.59
-0.9613
0.9995
160
568
27
85
24.80
-0.5440
0.7738
180
300
27
43
16.90
-1.0000
0.9510
180
395
24
51
15.10
0.9129 -0.9938
80
364
22
37
14.90
0.1411
0.1673
80
444
27
51
9.79
0.9092 -0.7391
80
485
28
85
8.41
0.9906 -0.9851
80
574
31
43
9.78
-0.5440
0.7738
92
294
27
43
0.4121 -0.1147
92
500
28
39
4.25
-1.0000
0.9510
80
584
24
57
3.74
-0.7568
0.9200
80
616
21
73
8.99
0.4121 -0.1147
74
384
29
43
8.83
-0.5365
0.2538
74
480
27
64
2.16
0.4121 -0.1147
74
668
15
47
2.13
0.9893 -0.8979
74
718
10
64
10.10
_____________________________________________________________________
Tabela 3.1. Dados referentes frente B. Vp(velocidade resultante de vibrao da partcula, em
mm/s) a varivel dependente e as demais independentes
a anlise de
regresso passo-a-passo com remoo das variveis por ordem crescente de importncia (stepwise
backward).
20
REGRESSO MLTIPLA
R2 =0,842
Passo 1
Passo 2
Passo 3
Passo 4
Passo 5
Variveis independentes
% explicada de Vp
21
REGRESSO MLTIPLA
CD
Distncia
51,0
66,6
47,3
50,4
11,7
11,0
19,3
0,1
3,6
0,1
3,3
Freqncia de oscilao
1,2
6,0
5,3
9,2
Seno 1
0,2
0,2
Seno 2
0,1
6,0
0,1
8,6
68,7
84,5
72,0
71,8
Tabela 3.2.: Valores obtidos atravs da anlise de regresso mltipla para os dados de detonao
Por meio dessa anlise a Autora pode avaliar a interferncia das diversas variveis nas
vibraes geradas no terreno. Analisando o peso de cada varivel independente, observou que a
distncia linear entre o ponto de registro e a frente de detonao a que melhor explica a variao
de Vp, uma vez que a atenuao das vibraes no terreno proporcional ao aumento da distncia da
fonte de emisso de energia ssmica. Na figura 3.1. tal relao linear pode ser observada e tambm a
presena de alguns valores anmalos presentes, situados fora dos intervalos de confiana de 95%. A
segunda varivel que mais explicou a variao de Vp foi a carga mxima por espera, que a prpria
fonte geradora de energia e, est, portanto, diretamente relacionada s vibraes produzidas no
terreno. As demais variveis, segundo essa anlise, apresentaram pequena interferncia nos valores
de Vp, o que no era esperado. Os resultados obtidos mostraram que as variveis escolhidas
representaram bem a variao de Vp na rea estudada, explicando de 70 a 85 % o seu
comportamento.
DISTANC vs. VP
VP = 28.811 - .0387 * DISTANC
Correlation: r = -.8164
28
24
20
VP
16
12
8
4
0
250
350
450
550
650
750
Regression
95% confid.
DISTANC
22
REGRESSO MLTIPLA
BIBLIOGRAFIA
BACCI, D. L. C. (2000) Vibraes geradas pelo uso de explosivos no desmonte de rochas: avaliao dos
parmetros fsicos do terreno e dos efeitos ambientais: Tese de Doutorado, Programa em Geocincias e
Meio Ambiente, I.G.C.E., UNESP, Rio Claro
LI, C.C. (1964) - Introduction to Experimental Statistics: McGraw Hill, Inc.
23
ANLISE DE AGRUPAMENTOS
4. ANLISE DE AGRUPAMENTOS
4.1. Introduo
Anlise de agrupamentos (cluster analysis) um termo usado para descrever diversas
tcnicas numricas cujo propsito fundamental classificar os valores de uma matriz de dados sob
estudo em grupos discretos. A tcnica classificatria multivariada da anlise de agrupamentos pode
ser
utilizada quando se
Segundo Davis (1986) os diversos mtodos para a anlise de agrupamentos podem ser
enquadrados em quatro tipos gerais:
a) Mtodos de partio: procuram classificar regies no espao, definido em funo de variveis, que
sejam densamente ocupados em termos de observaes daqueles com ocupao mais esparsa.
b) Mtodos com origem arbitrria: procuram classificar as observaes segundo k conjuntos
previamente definidos; neste caso k pontos arbitrrios serviro como centrides iniciais e as
observaes iro se agrupando, por similaridade, em torno desses centrides para formar
agrupamentos.
c) Mtodos por similaridade mtua: procuram agrupar observaes que tenham uma similaridade
comum com outras observaes; inicialmente uma matriz n x n de similaridades entre todos os
pares da observao calculada; em seguida, as similaridades entre colunas so repetidamente
recalculadas; colunas representando membros de um nico agrupamento tendero apresentar
intercorrelaes prximas a 1 e valores menores com no membros.
d) Mtodos por agrupamentos hierrquicos: so as tcnicas mais comumente usadas em Geologia;
a partir da matriz inicial de dados obtm-se uma matriz simtrica de similaridades e incia-se a
deteco de pares de casos com a mais alta similaridade, ou a mais baixa distncia; para essa
combinao, segundo nveis hierrquicos de similaridade, escolhe-se entre os diversos
23
ANLISE DE AGRUPAMENTOS
procedimentos aglomerativo de tal modo que cada ciclo de agrupamento obedea a uma ordem
sucessiva no sentido do decrscimo de similaridade.
qualquer
entre colunas, obter-se- uma matriz inicial de coeficientes de similaridade inicial p * p , que ser
utilizada no modo R. Embora diversas medidas de similaridade tenham sido propostas, somente
duas so geralmente usadas: o coeficiente de correlao de Pearson e a medida de distncia
euclideana. Se as variveis forem padronizadas a partir da matriz inicial de dados, dando o mesmo
peso a cada uma delas, qualquer um desses coeficientes poder ser diretamente transformado no
outro.
Na matriz inicial de coeficientes de similaridade estes representam o grau de semelhana
entre pares de objetos e os mesmos devero ser arranjados de acordo com os respectivos graus de
similaridade de modo a ficarem agrupados segundo uma disposio hierrquica. Os resultados
quando organizados em grfico, do tipo dendrograma, mostraro as relaes das amostras
agrupadas.
Vrias tcnicas de agrupamentos tem sido propostas, e os mtodos mais comumente
usados so:
ou
coeficientes de associao mtua. Em seguida esses pares de casos fornecero valores mdios
originando um novo elemento singular. No "mtodo de agrupamento pareado igualmente ponderado"
para o clculo dos valores mdios atribui-se sempre o mesmo peso aos dois elementos que esto
sendo integrados. No mtodo de agrupamento pareado proporcionalmente ponderado para cada
24
ANLISE DE AGRUPAMENTOS
agrupamento dado um peso proporcional ao nmero de objetos que o constitui, de tal modo que a
incorporao e um novo elemento a um grupo baseia-se no nvel mdio de similaridade desse
elemento com todos os que fazem parte do grupo. Tanto num caso como no outro, alternativamente,
em vez de obter valores medios entre os casos podem ser utilizados centroides e verificados as
distncias entre os mesmos.
No mtodo de agrupamento pela varincia mnima o enfoque sobre a variabilidade que
existe dentro de cada caso e os agrupamentos so efetuados ao se determinar que pares de casos,
quando tomados em conjunto, apresentam o menor acrescimo de variabilidade.
No mtodo de ligaes singulares as ligaes tendem a ocorrer a nveis mais altos do que
nos mtodos de agrupamento pareado. No mtodo de agrupamento pareado igualmente ponderado
como cada membro adicionado ao agrupamento tem sempre o mesmo peso, isso traz como efeito
que os ltimos elementos a se integrarem tem maior influncia que os primeiros. No caso do mtodo
de agrupamento pareado proporcionalmente ponderado, tal no acontece.
Existindo disposio diversas tcnicas para a anlise de agrupamentos e no havendo
testes estatsticos vlidos para os resultados obtidos, o pesquisador geralmente fica em dvida
sobre qual mtodo aplicar. Entendendo que esta anlise sempre deve ser aplicada com carter
introdutrio, e nesse sentido tem o seu mrito, a considerao de ordem pragmtica a ser adotada
que o melhor mtodo aquele que fornece os resultados mais coerentes com a realidade geolgica
em estudo. Eventualmente, testes, como o de Hotteling ou a anlise generalizada de varincias,
podem ser aplicados aos agrupamentos encontrados para a verificao da sua validade estatstica.
Aplicaes desta metodologia tem mostrado que os mtodos pareados igualmente
ponderado so superiores aos demais e que o coeficiente distncia usualmente agrupa melhor
espcimes ou amostras, no sentido geolgico, enquanto o coeficiente de correlao recomentado
para o agrupamento entre variveis. Essas afirmaes so baseadas na correlao cofentica que ao
apresenrar valores abaixo de 0,8 indicam distores significativas no dendrograma obtido.
O mtodo hierrquico tem sido preferido em relao ao que utilisa centrides. Este porm
mostra-se, em termos computacionais, mais til quando se tem que manipular grandes matrizes de
dados, por exemplo com mais de 1.000 casos. Como k geralmente pequeno, da ordem de 5 por
exemplo, mais rpido o manuseio de uma matriz de similaridade k x n do que uma com
dimenses n x n.
4.2.2. Dendrograma
A forma grfica mais usada para representar o resultado final dos diversos agrupamentos
o dendrograma (Figura 4.1.) Nele esto dispostos linhas ligadas segundo os nveis de similaridade
que agruparam pares de espcimes ou de variveis. Como este grfico uma simplificao em duas
dimenses de uma relao n-dimensional inevitvel que algumas distores quanto similaridade
apaream. A medida de tal distoro pode ser obtida por um coeficiente de correlao, dito
"cofentico", entre os valores da matriz inicial de similaridade e aqueles derivados do dendrograma.
25
ANLISE DE AGRUPAMENTOS
Visualmente isso pode ser tambm verificado por meio da construo de um sistema de
eixos ortogonais. Nele os valores dos coeficientes de similaridade originais estaro na abcissa e
os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas as matrizes forem
idnticas os pontos cairo sobre uma linha reta que passa pela origem do sistema. Desvios dos
pontos em relao a essa reta indicaro as distores. Se situadas acima da reta indicaro
coeficientes de similaridade apontados pelo dendrograma mais altos que os originais e vice-versa.
Dendrograma
Mtodo: UPGM
Distncia euclidiana
250
200
150
100
50
C_9
C_6
C_13
C_8
C_5
C_4
C_12
C_2
C_3
C_14
C_15
C_10
C_11
C_1
C_7
Dendrograma
Mtodo: UPGM
Distncia euclidiana
250
200
150
100
50
C_9
C_6
C_13
C_8
C_5
C_4
C_12
C_2
C_3
C_14
C_15
C_10
C_11
C_1
C_7
26
ANLISE DE AGRUPAMENTOS
27
ANLISE DE AGRUPAMENTOS
D1 .2
( x1 x2 )2 + ( y1 y2 )2
Dij
( xik x jk )2 / n
k =1
Tendo todas as variveis o mesmo peso, consequentemente a funo distncia ser limitada
a valores entre 0 (maior similaridade) e 1.0 ( menor similaridade).
Pode, tambm, ser ulizado o coeficiente cosseno-teta, que uma medida de
proporcionalidade expressando o grau de similaridade em termos de separao angular:
Cos pq
xip xiq
2
2
xip xiq
1/ 2
p e q = valores comparados
SPXY
SQX . SQY
SPXY = xy -(x. y) / n
SQX
= x2 - (x)2 / n
28
ANLISE DE AGRUPAMENTOS
SQY
= y2 - (y)2 / n
seu clculo inicialmente xi e yi so ordenados segundo os seus valores de posto (x,i e y,i ) e em
seguida encontrados os valores d i = x , i y ,i .
Para que os valores negativos de di no cancelem os valores positivos de di determinado
para cada caso d i2 . Finalmente encontra-se a somatria dos d i2 .
O coeficiente de correlao ser fornecido pela frmula:
6 d i2
r = 1
s
n 3 n
, ,
n = nmero de pares de valores x , y
i i
Caso ocorram muitos casos com valores de posto empatados usa-se a frmula:
rs =
x ,e + y ,e d i2
,
2 xe
,
ye
onde
3
n 3 n
, n n
,
xe =
T x ; y =
T
e
y
12
12
T=
t3 t
; T = nmero de observaes repetidas em um determinado posto.
12
Como um exemplo numrico, seja uma matriz de dados composta por 7 amostras, no
sentido geolgico, e 6 variveis:
V01
V02
V03
V04
V05
V06
Am01 1.0
2.0
3.0
4.0
5.0
6.0
Am02 5.0
4.0
1.0
8.0
7.0
9.0
Am03 6.0
5.0
4.0
2.0
7.0
9.0
Am04 6.0
4.0
2.0
1.0
3.0
7.0
Am05 9.0
2.0
1.0
4.0
7.0
8.0
Am06 9.0
6.0
3.0
4.0
5.0
6.0
Am07 1.0
5.0
9.0
7.0
5.0
3.0
29
ANLISE DE AGRUPAMENTOS
Am01
Am02
Am03
Am04
Am05
Am06
Am07
7.3
7.2
6.6
8.7
8.9
7.9
Am01
.00
Am02
7.28
.0
6.9
8.4
6.1
7.3
11.0
Am03
7.21
6.9
.0
5.1
5.7
5.3
10.7
Am04
6.63
8.4
5.1
.0
6.3
5.3
11.4
Am05
8.72
6.1
5.7
6.3
.0
5.3
13.2
Am06
8.94
7.3
5.3
5.3
5.3
.0
10.9
Am07
7.94
11.0
10.7
11.4
13.2
10.9
.0
average).
Verificar que os dendrogramas resultantes mostram praticamente os mesmos resultados,
em que pese as diferenas mostradas em ambos os grficos com relao aos nveis para
agrupamentos.
Dendrograma
"Single Linkage"
Distncia euclidiana
AM01
AM02
AM03
AM04
AM06
AM05
AM07
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
30
ANLISE DE AGRUPAMENTOS
Dendrograma
"Unweighted pair-group average"
Distncia euclidiana
AM01
AM02
AM03
AM04
AM06
AM05
AM07
10
11
presena ou ausencia de 4 tipos de fsseis a seguinte matriz de dados binrios pode ser construida:
31
ANLISE DE AGRUPAMENTOS
presente
Ausente
Presente
Ausente
+ b + c)
Jaccard:
a / (a
Otsuka :
a/
( a + b) ( a + c)
Fager :
a/
( a + b ) ( a + c ) 1 / 2 { min( a + b ),( a + c ) }
bc )
Yule
( ad
Phi
( ad bc ) /
/ ( ad
+ bc )
( a + b )( a + c ) ( b + d ) ( c + d )
equiparaes desencontradas;
+d)
Simples :
(a
Hamann :
(a + d b c ) / n
Sackin :
a /n
/n
(b + c ) / n
Novamente, como exemplo numrico, seja uma matriz com dados binrios em que o valor
1 significa presente e o valor 0 ausente:
32
ANLISE DE AGRUPAMENTOS
V01
V02
V03
V04
V05
V06
Am01
Am02
Am03
Am04
Am05
Am06
Am07
1.000
Am03 0.250
0.333
1.000
Am04 0.333
0.400
0.400
1.000
Am05 0.167
0.500
0.200
0.500
1.000
Am06 1.000
0.000
0.250
0.333
0.167
1.000
Am07 0.167
0.500
0.200
0.500
1.000
0.167
1.000
Figura 4.4. Dendrograma resultante da aplicao do coeficiente binrio de Jaccard pelo mtodo de ligao
simples. Notar as relaes entre amostras 01 e 06 e entre amostras 05 e 07, todas ao nvel 1.0
33
ANLISE DE AGRUPAMENTOS
Exemplo
A indstria cermica existente na regio de Rio Claro (SP), incluindo o plo cermico de
Santa Gertrudes-Cordeirpolis, uma das maiores do mundo e necessita, portanto, de um
acompanhamento tecnolgico que a torne cada vez mais competitiva. A caracterizao da matriaprima para a indstria de necessidade premente para o controle da qualidade do produto final. Com
o conhecimento dessa matria-prima, de suas propriedades e comportamento fsico-qumico
possvel otimizar a blendagem do material e calibrar todo o processo de beneficiamento,
principalmente fornos, buscando uma maior homogeneidade nos produtos.
Com essa preocupao Monteiro et alii (2000) aplicaram a anlise de agrupamentos
material cermico, constituido principalmente de lamitos e folhelhos da Formao Itarar, de uma
cava da Cermica Montreal na Fazenda So Caetano, em Jundia/SP. Foram identificados 7 nveis
estratigrficos, dos quais foram selecionados 6 horizontes para amostragem. O perfil de
amostragem, da base para o topo, constitudo pelas seguintes litofcies (Figura 4.5.):
Nvel 6 - Folhelho cinza originados pela decantao de finos trazidos por correntes de
turbidez de baixa densidade, com montmorilonita, mica-ilita, interestratificados e caulinita entre os
minerais presentes na frao fina (< 2 micra);
Nvel 4 - Ritmitos resultantes de intercalaes mais freqentes de siltito e arenito (turbiditos
arenosos) nos folhelhos, e apresentam montmorilonita, mica-ilita e interestratificados na frao fina;
Nvel 5 - Lamitos castanhos que correspondem turbiditos proximais, formando estratos
mais espessos com gradao normal de silte a argila onde esto presentes interestratificados
(provavelmente ilita-montmorilonita), mica-ilita e caulinita;
Nvel 3 - Lamito vermelho macio resultante de processos de fluxo de lama contendo micailita e caulinita. A maturidade dos sedimentos sofre uma mudana brusca a partir desse nvel;
Nvel 2 - Lamito vermelho de fluxo de lama com estruturao, com mica-ilita e caulinita;
Nvel 1 - Lamito vermelho macio macio com clastos de argila indicando retrabalhamento e
fluxos de detritos, com mica-ilita e caulinita.
Originalmente esses 3 nveis de lamitos vermelhos foram tratados como um nico horizonte
cermico, interdigitado por uma lente de arenito. Os nveis 3 a 1 apresentam quantidades crescentes
de caulinita para o topo. A montmorilonita est restrita aos dois nveis estratigraficamente inferiores
(nveis 6 e 4).
34
ANLISE DE AGRUPAMENTOS
A amostragem foi executada nos 6 nveis descritos e identificadas como 6J, 4J, 5J, 3J, 2J e
1J, da base para o topo), sendo que no nvel 5 foi replicada a amostragem (5aJ e 5bJ). Foram
analisadas diversas propriedades desse material como: umidade de prensagem, absoro de gua,
porosidade aparente, densidade aparente, perda ao fogo, retrao linear na secagem, na queima
parcial e na queima total e tenso ruptura por flexo. Para as variveis absoro de gua (AA - em
%), porosidade aparente (PA - em %), massa especfica aparente (MEA - em g/cm3) e massa
especfica aparente da parte slida (MEAS - g/cm3), perda ao fogo (%PF), retrao linear na queima
35
ANLISE DE AGRUPAMENTOS
parcial (%Rq), retrao linear na queima total (%Rt) e tenso ruptura por flexo (TRF - em MPa)
foram feitas anlises para cinco partes de cada amostra nas temperaturas de queima de 1.020C,
1.070C e 1.120C.
O dendrograma resultante da aplicao da anlise de agrupamentos no modo Q, ou seja,
entre amostras, apresenta uma ntida distino entre o grupo de amostras 1J e 2J com o grupo 3J,
5aJ e 5bJ, 4J e 6J (Figura 4.6.). Essa distino pode estar condicionada pela presena de caulinita
nos materiais superiores, ou por fatores relacionados distribuio granulomtrica. De qualquer
modo essa diferena nas caractersticas tambm notvel nas propriedades cermicas daqueles
materiais.
O primeiro grupo subdivi de-se em amostras 1J e 2J. O segundo grupo pode ainda ser
subdividido em dois outros; um com as amostras 3J e 4J, outro com 5aJ e 5bJ e outro com 6J. O
material do nvel 5, comercializada in natura pela empresa, como descorante para a indstria txtil.
Entre as amostras 5aJ e 5bJ no to ntida a diviso, o que j era esperado pelo controle geolgico
e de amostragem.
A anlise de agrupamentos no modo R, ou seja, entre variveis, revela uma distino entre
dois grandes grupos: um constitudo pelas variveis PF, AA, e PA, e o segundo com %Rq, %Rt e
36
ANLISE DE AGRUPAMENTOS
Alm disso, pode-se observar que algumas variveis como retrao linear na queima parcial
(%Rq) e total (%Rt) encontram-se com alta correlao para mesmas temperaturas, bem como se
pode observar tambm um agrupamento para as variveis de tenso ruptura por flexo (TRF) para
as trs temperaturas de 1.020C, 1.070C e 1.120C. Isto se deve ao fato de ocorrer um
intercrescimento de fases neoformadas aps cada temperatura.
Para as propriedades de absoro de gua (AA), porosidade aparente (PA) e perda ao fogo
(%PF) possvel perceber um agrupamento bem evidente. A massa especfica aparente (MEA) e a
massa especfica aparente da parte slida (MEAS) no formam nenhum agrupamento evidente, por
serem caractersticas bastante peculiares do material.
A anlise de agrupamentos mostra que as amostras 5aJ e 5bJ possuem o mesmo
comportamento, o que esperado por serem retiradas do mesmo nvel. As amostras 3J e 4J
poderiam, em princpio serem tratadas da mesma forma, porm a anlise de correspondncias
mostra que a amostra 4J possui um comportamento diferente, por ser mais plstica e com menor
retrao linear na queima (parcial e total), sendo esta uma importante caracterstica do material,
muito semelhante s amostras 5aJ e 5bJ.
As amostras 1J e 2J, isto , os nveis mais superiores, so bem distintos dos outros. O
material dos dois primeiros nveis no deve ser tratado da mesma forma que o material do nvel 3
pela indstria ceramista, o que a prtica atual. Hoje a empresa faz a mistura usando os nveis 1, 2
37
ANLISE DE AGRUPAMENTOS
e 3 como material inerte (saibro), adicionado ao material dos nveis 4 e 6 da base. As propores na
mistura so distintas conforme os diferentes produtos finais aos quais se destinam. Varia de 4:5 para
a indstria de revestimento e de 3:7 para a cermica estrutural. A anlise estatstica multivariada
aplicada indicou, porem, que os nveis 1 e 2 so distintos do nvel 3, sob vrios aspectos que podem
ser verificados nas suas caractersticas fsicas e de comportamento cermico.
38
ANLISE DE AGRUPAMENTOS
BIBLIOGRAFIA
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2 nd. ed., John Wiley and Sons, Inc.
EVERITT, B. (1980) Cluster Analysis: 2 nd ed., Gower Publishing Co.
GORDON, A. D. (1981) Classification: Chapman and Hall
GREIGH-SMITH, P. (1983) Quantitative Plant Ecology: University of California Press, Berkeley
MONTEIRO, R. C.; BERNARDES, E.V.; MASSON, M.R. & LANDIM, P.M.B. (2000) Anlise estatstica
multivariada para materiais cermicos: VIII Simp.Quant.Geocincias, Bol.Res. Expandidos, 163-166
MVPS/Plus (1998) Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing Services
PIELOU, E.C. (1984) The Interpretation of Ecological Data: Wiley-Interscience
PRENTICE, I.C. (1980) Multidimensional scaling as a research tool in Quaternary palybology: A review of
theory and methods: Review of Paleobotany & Palynology, 31:71-104
SNEATH, D. H. & SOKAL, R. R. (1973) Numerical Taxonomy: W. H. Freeman & Co.
39
a matriz
idnticas. Como tal padronizao acarreta uma forte influncia na estrutura da matriz de varinciascovarincias e, conseqentemente, nos resultados da anlise, a sua utilizao deve ser criteriosa
levando sempre em conta a natureza dos dados geolgicos em estudo e o enfoque que se pretende
dar.
A anlise das componentes principais no sinnimo de analise fatorial ou anlise dos
fatores e essa confuso terminolgica deve ser evitada. A primeira anlise
consiste numa
transformao linear de "m" variveis originais em "m" novas variveis, de tal modo que a primeira
nova varivel computada seja responsvel pela maior variao possvel existente no conjunto de
dados, a segunda pela maior variao possvel restante e assim por diante at que toda a variao
do conjunto tenha sido explicada. Na anlise fatorial supe-se que as relaes existentes dentro de
um conjunto de "m" variveis seja o reflexo das correlaes de cada uma dessas variveis com "p"
fatores, mutuamente no correlacionveis entre si, sendo "p" menor que "m". O extremo cuidado que
se deve ter com relao especificao do nmero e, principalmente, do significado dos "p"
fatores que emergem a partir dessa anlise. Ver a respeito Jreskog, Klovan e Reyment (1976) e
Reyment e Jreskog (1996)
A anlise das componentes principais , portanto, uma tcnica de transformao de
variveis. Se cada varivel medida pode ser considerada como um eixo de variabilidade, estando
usualmente correlacionada com outras variveis, esta anlise transforma os dados de tal modo a
descrever a mesma variabilidade total existente, com o mesmo nmero de eixos originais, porm no
mais correlacionados entre si. Graficamente pode ser descrita como a rotao de pontos existentes
num espao multidimensional originando eixos, ou componentes principais, que dispostos num
espao a duas dimenses representem variabilidade suficiente que possa indicar algum padro a ser
interpretado.
A anlise das componentes principais inicia-se com o clculo dos autovalores e
correspondentes autovetores de uma matriz de varincias-covarincias ou de correlaes entre
variveis e tal procedimento conhecido como modo R. O primeiro autovalor a ser determinado
corresponder maior porcentagem da variabilidade total presente e assim sucessivamente.
Geralmente os dois ou trs primeiros autovetores encontrados explicaro a maior parte da
variabilidade presente. Quando o primeiro autovetor j explica 90 a 95% da variabilidade isso
40
deve ser encarado com cuidado e verificado se no esto presentes variveis com valores de
magnitudes muito maiores que as demais.
Os autovetores
carregamento das variveis originais em cada um deles. Tais carregamentos podem ser
considerados como uma medida da relativa importncia de cada varivel em relao s componentes
principais e os respectivos sinais, se positivos ou negativos, indicam relaes diretamente e
inversamente proporcionais.
A matriz de carregamentos de cada varivel nas componentes principais ao ser multiplicada
pela matriz original de dados fornecera a matriz de contagens (scores) de cada caso em relao s
componentes principais. Esses valores podero ento ser dispostos num diagrama de disperso, em
que os eixos so as duas componentes mais importantes, e mostrar o relacionamento entre os
casos condicionados pelas variveis medidas.
A primeira matriz obtida, resultado das interrelaes entre variveis pode ser interpretada
como
um
procedimento
estatstico
Seqncia de clculos
Se A for uma matriz simtrica de varincias e covarincias, de dimenses pxp, com termos
aij, de onde os autovalores e os autovetores sero extrados, Vi o isimo autovetor, cujos termos so
vij e i o isimo autovalor, tal relao pode ser expressa por
( A i I )V i = 0,
[ A ] = [V ][ ][V ]'
A soma dos autovalores igual soma dos termos da diagonal em [A], ou seja, a soma das
varincias
i = aii
e por definio 1 2 ... p
Resolvendo a equao acima para , as razes determinadas sero os autovalores.
Encontrados os autovalores, substituindo-os nas equaes simultneas e resolvendo-as, obtm-se
para cada autovalor autovetores correspondentes, ou seja, as componentes principais.
41
Pode-se definir a varincia total existente em um conjunto de dados multivariados pela soma
das varincias de cada uma das variveis. Numa matriz de varincias-covarincias essas varincias
individuais constituem os elementos da diagonal principal. Basta som-los, portanto, encontrando o
trao da matriz para se obter a variabilidade total, e em seguida a contribuio de cada varivel. A
soma dos autovalores de uma matriz, igual ao trao dessa matriz, representa tambm a variabilidade
total da mesma e a contribuio de cada autovalor em termos de variabilidade determinada. Ao
primeiro corresponder a maior variabilidade possvel existente, ao segundo a maior variabilidade
possvel restante e assim por diante.
Em termos geomtricos, o primeiro autovalor representa o eixo principal de maior
comprimento; o segundo autovalor, um segundo vetor em comprimento, situado em posio
ortogonal em relao ao primeiro e assim sucessivamente.
Os elementos de cada um dos autovetores encontrados so simplesmente coeficientes de
equaes lineares que transformam os dados originais em contagens (scores) indicativas do
respectivo carregamento sobre os eixos correspondentes. Desse modo, utilizando-se da
multiplicao da matriz de dados originais pela matriz de autovetores, obtm-se uma matriz de
dados transformados que representam projees dos pontos, num espao multidimensional, sobre
as diversas componentes principais.
[ S R ] = [ X ][V ] , onde
[X] = matriz de dados originais [n x m]
[V] = matriz quadrada [m x m] contendo os autovetores
[SR] = matriz [n x m] das contagens sobre as componentes principais.
42
Manhattan mtrica podem tambm ser analisadas. A utilizao da distncia euclidiana para esta
anlise fornece o mesmo resultado que uma anlise das componentes principais no modo Q.
(w
n
GGScij =
k =1
w
k =1
onde:
ijk ijk
sijk = 1
ijk
xik x jk
range(k )
MMdij = |x ik x jk|,
onde i e j representam duas linhas (casos ou espcimes) de uma matriz de dados e k
representa as colunas (variveis) e n nmero total de variaveis:
A anlise das coordenadas principais , todavia, restrita para o caso em que as distncias
ou similaridades so mtricas. Para uma medida ser considerada mtrica tem que obedecer certos
pressupostos matemticos, como o poder ser visualizada de um modo grfico. Assim as distncias
entre trs pontos deve obedecer aos vrtices de um tringulo. Isso significa que a distncia entre
dois dos pontos, ou seja, um dos lados do tringulo, deve ser sempre menor que as outras duas
distncias. Isso nem sempre ocorre como, por exemplo, num conjunto de coeficientes de correlao
se os valores forem tratados como distncias no ser possvel escolher trs entre eles para traar
um tringulo.
43
n
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
V1
4880.0
4820.0
3700.0
5090.0
4420.0
5230.0
4460.0
3460.0
4120.0
4260.0
4990.0
4520.0
3270.0
4140.0
4620.0
3230.0
4320.0
4950.0
4230.0
4460.0
4580.0
4990.0
4860.0
4550.0
4590.0
3130.0
3012.0
V2
3170.0
2380.0
910.0
2380.0
3830.0
2620.0
3300.0
520.0
1170.0
4660.0
1950.0
3730.0
850.0
1290.0
1750.0
730.0
4430.0
3230.0
1580.0
1150.0
1660.0
2500.0
3400.0
1660.0
2490.0
2944.0
1200.0
V3
380.0
900.0
3420.0
720.0
290.0
420.0
460.0
4290.0
2670.0
70.0
1140.0
270.0
3890.0
2340.0
1580.0
4090.0
100.0
310.0
2040.0
2380.0
1680.0
680.0
250.0
1760.0
970.0
1068.0
1232.0
V4
640.0
920.0
950.0
1010.0
770.0
1250.0
1220.0
960.0
960.0
560.0
950.0
550.0
800.0
1580.0
830.0
1290.0
780.0
870.0
830.0
1160.0
1200.0
1090.0
940.0
960.0
980.0
1526.0
2051.0
V5
930.0
980.0
1020.0
800.0
690.0
480.0
560.0
770.0
1080.0
450.0
970.0
930.0
1190.0
650.0
1220.0
660.0
370.0
630.0
1320.0
850.0
880.0
740.0
550.0
1070.0
970.0
1332.0
2505.0
44
Na Figura 5.1. esto dois diagramas de eixos ortogonais mostrando o resultado da anlise
das componentes principais aplicada amostra de hongito com 25 valores e tambem mesma
amostra acrescida de mais dois valores anmalos. Pode-se constatar que no h destaque para
esses espcimes, identificados como 26 e 27.
45
StEdij =
xik x jk
sd k
k =1
n
46
BIBLIOGRAFIA
AITCHISON, J. (1986) The statistical analysis of compositional data: Chapman & Hall
GOWER, J. C. (1966) Some distance properties of latent root and vector methods used in multivariate
methods: Biometrika, 55: 325-338
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
REYMENT, R. A. & JRESKOG, K. G. (1996) Applied Factor Analysis in the Natural Sciences: Cambridge
University Press, second printing
ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components Analysis: Computers
& Geosciences, 15:59-78
47
ANLISE FATORIAL
6. ANLISE FATORIAL
Diferentemente da anlise das componentes principais, que uma manipulao matemtica,
a anlise dos fatores pode ser considerada como uma tcnica estatstica. Importante salientar que
quando o mtodo foi estabelecido por psiclogos, interessados em testes de inteligncia, a condio
fundamental era que o nmero de fatores "p" a se determinar, deveria ser conhecido "a priori" antes
da anlise ser efetuada. Em Geologia dificilmente essa condio preenchida, pois geralmente os
"fatores geolgicos" acabam sendo estabelecidos em funo dos resultados obtidos, o que torna
algumas vezes os resultados questionveis. Desse modo, sempre que possvel, deve-se levar em
considerao o conhecimento geolgico a respeito do problema a ser analisado para o
estabelecimento de possveis fatores que tenham condicionado a distribuio de valores da matriz de
dados.
O modelo da anlise fatorial pode ser expresso por:
p
X j = a jr f r + e j , onde
r =1
f r = r'simo fator
e j = variao casual nica relativa as variveis originais X j
As variveis, expressas em termos de vetores num sistema de coordenadas ortogonais, em
que o comprimento representa a magnitude, agrupar-se-o conforme o relacionamento entre si. Por
esses agrupamentos de vetores podero passar eixos, denominados fatores, que acusaro, pelo
valor da projeo dos vetores sobre os eixos, a carga fatorial (factor loading) das variveis sobre si.
Esses fatores representam o nmero mnimo de causas que condicionam um mximo de
variabilidade existente. A comunalidade (communallity), h, isto , a soma dos quadrados das cargas
fatoriais das variveis sobre cada fator indica a eficincia dos mesmos na explicao da variabilidade
total.
Os fatores so encontrados fazendo com que o primeiro eixo esteja em tal posio que a
soma dos quadrados dos pesos fatoriais em relao a ele seja maximizada, o que equivale a coloclo paralelamente ao principal agrupamento de vetores. O segundo eixo colocado ortogonalmente,
de modo que tambm seja maximizada a soma de quadrados dos pesos fatoriais para este segundo
eixo, e assim por diante quanto aos demais fatores.
Uma das dificuldades resultantes deste procedimento que o padro de carregamento para
cada componente pode no fornecer dimenses facilmente interpretveis. Por exemplo, em uma
matriz de coeficientes de correlao em que nenhum dos coeficientes particularmente alto, o
padro de carregamento que pode ocorrer com respeito ao primeiro fator pode ser da mesma ordem
relativa de magnitude que o existente em relao ao segundo fator, ao terceiro fator etc. Haver
48
ANLISE FATORIAL
necessidade, ento, de uma rotao dos eixos fatoriais. A finalidade dessa rotao maximizar
colocando os eixos fatoriais numa nica posio tal que cada fator possa ser interpretado pelos
maiores carregamentos possveis relacionados com o menor nmero de variveis possvel.
[ S 2 ] = [ A R ] .[ A R ]' + [var E ii ]
Como na anlise fatorial p < m, a varincia nas m variveis , portanto, derivada dos p
fatores, porm a contribuio feita por fontes nicas que afetam independentemente as m variveis
originais. Esses p fatores subjacentes so conhecidos como fatores comuns e resumem a
contribuio independente como um nico fator.
Deve ser notado que p dever ser conhecido previamente anlise e isso implica numa
restrio. Caso p no seja especificado a partio de variveis entre os fatores comuns e o fator
nico torna-se indeterminada.
Os autovalores e, conseqentemente, os fatores, representam a proporo da varincia total
explicada pelo respectivo autovetor e cada carga fatorial proporcional raiz quadrada da quantia de
varincia atribuda pela respectiva varivel ao fator.
2
p
sk2
j =i
a 2jp
2
h 2j
a 2jp / h 2j
j =i
2
p
ANLISE FATORIAL
p = nmero de fatores
m = nmero de variveis originais
k =1
sk2
Finalmente, aps encontrada a matriz fatorial rotacionada se a mesma for multiplicada pela
matriz inicial de dados obtm-se uma matriz dos "factor score". Esses factor score representam
estimativas das contribuies dos vrios fatores cada observao original e podem ser utilizados na
classificao de amostras. Maiores detalhes podem ser encontrados em Davis (1986) ou Reyment &
Jreskog (1993)
Cos ij =
X ik jk
k =1
m
Xik2 X 2jk
k =1
k =1
Se as "m" variveis originais forem normalizadas, de modo a terem mdia zero e varincia
1,0, haver uma identidade entre valores do coeficiente cosseno-teta e do coeficiente de correlao.
O propsito classificatrio do modo Q o mesmo da anlise de agrupamentos, porm de
muito mais difcil manuseio e muito mais dispendioso quanto ao tempo de computao. Por isso se
o objeto de uma anlise a classificao de amostras em grupos, deve-se utilizar ou da anlise de
agrupamentos ou dos "factor score" obtidos pela anlise fatorial, segundo o modo R.
Um outro procedimento que procura tambem determinar se uma coleo de observaes
multivariadas representam uma amostra de uma nica populao ou uma mistura de diferentes
populaes a Anlise das Coordenadas Principais. Para tanto recomenda-se o trabalho de Gower
(1966) para o detalhamento desta anlise, alm de Jreskog, Klovan & Reyment (1976) e Reyment,
Blackith & Campbell (1984).
50
ANLISE FATORIAL
1
4
matriz de dados = [ X ij ] =
7
2 4
2 3
3 2
5 1
0 ,820 0,980
1,000
[A][X] = [X]
([A] - [I]) [X] = 0
V1 =
1,000
0,974
- 1,032
51
ANLISE FATORIAL
F2
X1
0,966
- 0,259
X2
0,940
0,340
X3
- 0,997
0,070
tan 4 =
Uj = X2jp - X2jq
A = Uj = 2,6222
Vj = 2XjpXjq
A2 = 6,8789
B = Vj = - 0,0001 B2 = 0,0000
C = (U2j - V2j) = 1,6365
D = 2UjVj = - 0,1594
= 41 17
sen = - 0,6598
cos = 0,7515
0,7515 0,6598
[T ] =
0,6598 0,7515
Xj1 = T11X11 + T12X12 = (0,9656)(0,715) + (- 0,2590)(- 0,6598) = 0,894
F2
52
ANLISE FATORIAL
X1
0,894
0,447
X2
0,477
0,879
X3
- 0,792
- 0,609
53
ANLISE FATORIAL
[B] =
1
[X]
xij
Em seguida definida uma matriz quadrada [M] com dimenso m x m, que contm os totais
das colunas de [B] arranjados em ordem ao longo da diagonal principal e com zeros em todas as
demais posies. Tambm definida uma matriz [N], com dimenses n x n que contm os totais
das linhas na diagonal principal e zeros nas demais posies. Essas duas matrizes contm as
probabilidades marginais das colunas e das linhas e so usadas para transformar [B].
[ W ] = [ N ] 1 / 2 [ B ] [ M ] 1 / 2
54
ANLISE FATORIAL
[ R ] = [W ]' [ W ]
E, de mesmo modo, a matriz de produtos-cruzados entre linhas
[ Q ] = [ W ] [W ]'
Os autovalores de [R] e de [Q] so idnticos, exceto que em [Q] tem (n-m) autovalores
adicionais, todos com o valor zero. Os autovetores de [R] podem ser convertidos nos fatores de
correspondncia (=associao) multiplicando cada vetor pelo seu valor singular correspondente, que
a raiz quadrada do autovalor correspondente
Carregamentos no modo R =
. autovetores de modo R
Em notao matricial os valores singulares podem ser pensados como presentes ao longo
da diagonal de uma matriz m x m, [], sendo zero os demais elementos. Os autovalores de [R]
formam as colunas de uma matriz m x m, [U]. A equao matricial para determinar os
carregamentos no modo R ento:
[ AR ] = [ U ] [ ]
Os scores de cada n observao sobre os m fatores de correspondncias so
[ S R ] = [W ] [ A R ]
Para o caso de autovalores de [Q], sendo [V], de dimenses n x n, a matriz que contm n
autovetores de [Q], de modo idntico obtm-se
[ A Q ] = [V ] [ ] e [ S Q ] = [ W ]' [ A R ]
H uma relao direta entre as solues para o modo R e para o modo Q:
[ A Q ] = [ W ] [ A R ] [ ] 1 = [ S R ] = [ ] 1
O carregamento nos fatores de correspondncias no modo Q igual aos scores de
correspondncias no modo R, dividido pelos valores singulares apropriados. Pode-se obter uma
soluo para o modo Q resolvendo-o no modo R, o que uma vantagem em termos computacionais,
pois normalmente [R] tem dimenses menores que [Q].
A conseqncia direta disso que se pode plotar tanto amostras como variveis no mesmo
espao, usando os mesmos eixos. A obteno de mesmas escalas tanto para R como para Q
obtida por
[ A$ R ] = [ M ]1 / 2 [ A R ]
[ A$ Q ] = [ N ]1 / 2 [ A Q ]
55
ANLISE FATORIAL
um modo mais geral o relacionamento entre linhas e colunas de uma tabela de contigncia. Detalhes
podem ser encontrados em Gordon (1981), Jackson (1991), Jolliffe (1986) e Gabriel (1995,a,b).
euclideanas, o modo R ao ser executado por uma anlise das componentes principais e o modo Q
por uma anlise das coordenadas principais, os resultados apresentaro a mesma configurao
espacial.
6.6. Exemplo
No artigo de Zhou, Chang & Davis (1983) apresentado como exemplo para a aplicao da
anlise R-Q em contraposio anlise das correspondncias uma matriz de dados retirada de
Sherman, Bunker e Bush (1971). Esses dados provem da rea de Berea, Virginia/EUA, onde um
pequeno, mas altamente radioativo, pluton de quartzo-monzonito (Q) foi introduzido em cloritaactinolita-xistos (X) e, posteriormente, cobertos por areias e cascalhos (A). Um total de 22 amostras
foram coletadas e analisadas para U (partes por milho), Th (ppm) e K (porcentgem). Alem disso foi
realizado um levantamento aereo-radiomtrico (A), com valores medidos em contagem por segundo,
56
ANLISE FATORIAL
para verificar a relao entre essa coleta e os dados de campo. Os valores esto na Tabela 6.1. e
foram submetidos tanto a anlise R-Q como anlise das correspondncias.
A soluo pela analise R-Q mostrou correlaes positivas entre as quatro variaveis
consideradas e as amostras distriburam-se por reas distintas conforme a litologia, ao longo do
fator 1, que correspondeu a 85 da variabilidade presente. J a anlise das correspondncias revelou
um padro diferente de distribuio, onde a varivel radiomtrica aparece no centro do diagrama e as
amostras esto a agrupadas independentemente das diferena litolgicas. Esses resultados so
inconsistentes com a realidade geolgica e a razo para a no deteco est no fato que as variaveis
foram medidas segundo diferentes ordens de magnitude. A anlise das correspondncias foi
originalmente designada para analisar tablas de contigncias e quando aplicadas tablas de
valores numricos cuidados devem ser tomados para evitar problemas de escala de mensuraes.
Como apresentado no captulo anterior, Zhou (1989) discute a aplicao de metodos robustos para
a anlise R-Q, e nesse trabalho apresentado um programa, ROPCA, escrito em FORTRAN e
disponvel para acesso e carregamento.
N litologia
1 X
2 X
3 X
4 X
5 Q
6 Q
7 Q
8 Q
9 Q
10 Q
11 Q
12 Q
13 Q
14 Q
15 Q
16 Q
17 Q
18 A
19 A
20 A
21 A
22 Q
Aero
240
360
420
500
580
700
600
650
770
930
1020
1000
1000
1040
1150
1000
960
420
370
400
480
730
U
0.63
2.18
2.26
1.71
2.38
3.83
3.79
4.09
4.21
4.72
6.24
5.24
4.73
4.67
5.08
5.27
5.61
2.33
2.64
2.29
2.32
5.94
Th
2.05
5.31
5.61
6.44
7.99
8.32
9.46
14.71
12.00
12.78
16.31
14.51
15.79
10.30
13.11
13.40
10.31
6.83
9.88
6.02
6.14
12.86
K
0.13
0.31
0.34
0.7
1.73
4.26
1.53
3.11
1.90
2.92
2.29
1.88
4.64
4.17
3.97
4.36
2.05
0.47
0.58
0.34
0.32
1.35
Utilizando o pacote MVSP, verso 3.1., obtem-se, com a aplicao da Anlise das
Correspondncias, o diagrama exposto na Figura 6.3, o qual esta perfeitamente de acordo com o
exemplo acima citado.
57
ANLISE FATORIAL
Figura 6.3. Anlise das associaes entre as variveis U, Th , K e radiometria (A) e as litologias
xisto (X), quartzo-monzonito (Q) e areia e cascalho (A)
U, Th, K e
58
ANLISE FATORIAL
Bibliografia
BENZCRI, Jean-Paul, & others (1980) - LAnalyse des donnes. Vol. 2, LAnalyse des correspondances:
Dunod, Paris, 628p.
CARR, J.R. (1990) - CORSPOND: a portable FORTRAN-77 program for correspondence analysis:
Computers & Geosciences 16(3):289-307.
DAVID, M.; M., DAGBERT & BEAUCHEMIN, Y. (1977) - Statistical analysis in geology: Correspondence
analysis method: Quart. Colorado Sch. Mines, 7:60p.
GABRIEL, K. R. (1971) The biplot display of matrices with application to principal cimponents analysis:
Biometrica, 58:453-467
GABRIEL, K. R. (1995,a) : Biplot displays of multivatiate categorical data, with comments on multiple
correspondence analysis: Recent Advances in Descriptive Multivariate Analysis (ed.: W. J. Krzanowski): 190226, Oxford Science Publ.
GABRIEL, K. R. (1995,B): MANOVA biplots for two-contingency tables: Ibid., 227-268
GORDON, A. D. (1981): Classification: Monographs on Applied Probability and Statistics, Chapman and Hall
GOWER, J. C. (1966) Some distance properties of latent root and vector methods used in multivariate
methods: Biometrika, 55:325-338
JACKSON, J. E. (1991) A Users Guide to Principal Components: Wiley
JOLLIFFE, I. T. (1986) Principal Components Analysis: Springer Verlag
JORESKOG, K.G., KLOVAN, J.E. & REYMENT, R.A. (1976) - Geological factor analysis: Elsevier.
REYMENT, R. A., BLACKITH, R. E. & CAMPBELL, N. A. (1984) Multivariate Morphometrics: 2d. edition,
Academic Press
SHERMAN, K. N., BUNKER, C.M. & BUSH, C. A. (1971) Correlation of uranium, thorium and potassium
with aeroradioactivity in the Berea area, Virginia: Econ. Geol., 66:302-308
TEIL, H. (1975) - Correspondence factor analysis: An outline of its method: Journ. Intl. Assoc. Mathematical
Geology, 7:3-12.
TEIL, J. & CHEMINE (1975) - Application of correspondence factor analysis to the study of major and trace
elements in the Erta Ale Chain (Afar, Ethiopia): Jour. Intl. Assoc. Mathematical Geology, 7:13-30.
ZHOU, D. (1989) ROPCA: A FORTRAN Program for Robust Principal Components Analysis: Computers &
Geosciences, 15:59-78
,
ZHOU, D., CHANG, T. & DAVIS, J. C. (1983) Dual Extraction of R-Mode and Q-Mode Factor Solutions: Math.
Geology, 15: 581-606
59
ANLISE DISCRIMINANTE
7. ANLISE DISCRIMINANTE
= i xi + 2 x 2 +L+ p x p
Di
Para fornecer um nico valor os termos so adicionados nessa funo linear, e esta
transformao realizada de tal modo a fornecer a razo mnima entre a diferena entre pares de
mdias multivariadas e a varincia multivariada dentro dos dois grupos. Conhecido o valor Di , este
ser comparado com um certo Do , ou seja, o valor situado na linha expressa pela funo
discriminante a meio caminho entre os centros de dois grupos, com a finalidade de verificar a qual
deles o indivduo pertence. Tal processo exige, portanto, um conhecimento "a priori" das relaes
existentes entre os grupos estudados. Isso contrasta com mtodos classificatrios multivariados,
como por exemplo a anlise de agrupamentos ou das componentes principais, quando os grupos
constitudos por indiv duos similares entre si emergem atravs do esquema de classificao adotado.
Alm disso, para a aplicao de testes de significncia s funes discriminantes, os
seguintes pressupostos so necessrios:
a) que as observaes em cada grupo tenham sido escolhidas ao acaso;
b) que a probabilidade de um indivduo desconhecido pertencer a um dos grupos seja a mesma;
c) que as variveis tenham distribuio normal;
d) que as matrizes de varincia de grupos comparados sejam de mesmo tamanho;
e) que todas as observaes usadas para o clculo das funes discriminantes tenham sido
classificadas sem erro.
Nos casos em que as matrizes de varincias e covarincias so diferentes torna-se
necessrio escolher um outro mtodo que absorva tal diferena, como o procedimento da funo
discriminante quadrtica.
Um dos mtodos utilizados para o clculo das funes discriminantes lineares o da
regresso linear, onde a varivel dependente consiste na diferena entre as mdias multivariadas de
dois grupos e as variveis independentes as variveis e covarincias das varincias em estudo. Ver a
propsito Davis (1986).
A soluo do sistema de equaes lineares resultante pode ser resolvido, por clculo
matricial, a partir de:
[Vp ] [p]
2
[ Rp]
[]
60
ANLISE DISCRIMINANTE
[Rp] = vetor coluna, px1, das "p" diferenas entre as mdias das variveis de dois grupos A e B.
[ ]
[ ]
primeiro grupo Va
[Va ]
SQX1 2
SPX 1 X 2
M
SPX 1S P
SPX1 X 2
SQX 22
SPX 2 X P
L SPX 1 X P
L SPX 2 X P
2
L SPX P
onde:
2
1i
n
= x12i i =1
/ n 1
n
i =1
SQX12
SPX 1 X 2
n
n
x
x2 i
n
1i
= ( x1i . x2 i ) i =1 i =1 / n 1
n
i =1
[V ]
2
p
[Va ] + [Vb ]
na nb 2
[ Rp ]
R1
R
2
M
Rp
X a1
X b1
X
a2 X b2
X ap
X bp
Para o clculo dos coeficientes p, que iro constituir a equao da funo discriminante,
determina-se o inverso da matriz da varincias e covarincias combinadas e em seguida multiplica
essa matriz pelo vetor de diferena entre mdias:
[ p]
[ ]
= Vp2
[ Rp ]
ANLISE DISCRIMINANTE
Da
= 1 x a 1 + x a 2 + L+ p xap
e do grupo B por
Db
= 1 x b 1 + x b 2 + L + p x bp
Do
X a 1 + X b1
= 1
X a2 + X b2
+ 2
X ap + X bp
+L+ p
Da
n + n p 1
F = a b
(na + nb 2) p
na nb 2
D ,
na + nb
com "p" graus de liberdade para o numerador e " na + nb p 1 " para o denominador. A hiptese
nula a ser testada, estabelece que as duas mdias multivariadas so iguais, ou que a distncia
entre ambos os grupos igual a zero significando que se trata de um nico grupo.
Ho : [ Rp ] = 0 , ou a = b
H1 : [ Rp ] > 0
A contribuio relativa, em percentagem, de cada varivel para o distanciamento entre os
dois grupos fornecida pela expresso:
Cp
Rp
D2
* 100
Cp mede apenas a contribuio direta da varivel, sem levar em considerao o seu interrelacionamento com as demais existentes.
62
ANLISE DISCRIMINANTE
Quando se trata de discriminar entre mais de dois grupos torna-se necessrio uma
generalizao na metodologia. A anlise discriminante multigrupos, que utiliza procedimentos
combinados da anlise de varincia e da anlise fatorial, pode, ento, ser utilizada.
A analogia com a anlise de varincia que a matriz inicial de todas as varincias e
covarincias pode ser parcializada entre categorias ou grupos e verificada a soma total de quadrados,
a soma de quadrados entre grupos e a soma de quadrados dentro dos grupos. Como no caso da
anlise de varincia convencional a soma de quadrados entre grupos [E] mais a soma de quadrados
dentro dos grupos [D] igual soma total de quadrados [T]:
[T] = [E] + [D]
Quando a razo [E]/[D] apresentar um valor alto isto significar que as mdias dos grupos
so bem diferentes entre si e os valores dentro de cada grupo esto bem concentrados ao redor dos
respectivos centroides, ou seja, h uma discriminao significativa entre os grupos. O problema na
anlise discriminante , desse modo, encontrar um conjunto de pesos lineares para as variveis que
tornem essa razo mxima. Se esse conjunto de pesos for o vetor [A1], a anlise discriminante pode
ser efetuada ao encontrar os valores dos elementos de [A1] de modo que a expresso
{[A1][E] [A1]}/{[A1][D] [A1]}, seja maximizada.
Nessa anlise usualmente especificado a restrio que o denominador igual a 1
[A1][D] [A1] = 1.
Obedecida essa restrio a razo maximizada quando [A1] for o autovetor correspondente
ao maior autovalor de [D] -1 [E]. Pode-se em seguida, como na anlise fatorial, encontrar eixos
ortogonais [A2], [A3], etc., numa sucesso decrescente de funes discriminantes segundo as quais
os grupos podem ser distintos tanto quanto possvel.
As observaes usadas no clculo das funes discriminantes podem ser projetadas no
espao definido pelos eixos discriminantes. Isto feito segundo a multiplicao matricial
[Z] = [A][X],
onde [X] a matriz inicial de dados [N x p] e [A] a matriz [p x t] cujas colunas t so os maiores
autovetores a serem usados nas funes discriminantes.
Os centroides dos g grupos podem ser projetados no espao discriminante por
[ZM] = [A1] [Xmk],
onde [Xmk] contem as mdias de todas as variveis para cada grupo.
Geralmente escolhe-se as duas funes discriminantes de maior peso para servir como
eixos ortogonais para uma distribuio das observaes dos diversos grupos e os respectivos
centrides. Uma observao multidimensional de origem desconhecida pode ser projetada nesse
diagrama pela sua multiplicao com o transposto de [A] e verificada a sua distncia aos diversos
centrides. Maiores detalhes podem ser vistos em Davis (1986).
63
ANLISE DISCRIMINANTE
A distncia generalizada D de Mahalanobis tambm pode ser usada como uma tcnica de
comparao quanto separao entre diversos grupos permitindo avaliar a extenso e a direo dos
afastamentos entre os valores mdios das variveis usadas na discriminao. As diferenas entre
cada par de grupos que esto sendo comparados so assim examinados simultaneamente atravs
das diversas variveis, que podem ser correlacionadas, de modo que a informao fornecida por uma
delas pode no ser independente da fornecida pelas demais.
O valor numrico da maior separao possvel entre dois grupos quaisquer chamado
Distncia Generalizada entre os grupos e mede, em escala independente da originalmente utilizada
para as vrias variveis, a clareza das disjuno entre elas.
Assim, o valor da distncia generalizada D ligando dois grupos um nmero puro, com
propriedades da distncia comum, e mede a extenso com que diferem entre si em tamanho e
forma.
A Distncia Generalizada de Mahalanobis entre os grupos i e j usualmente estimada,
segundo Rao (1952) por:
Dij2
onde,
[ x x ] [ S] [ x x ]
1
correlao que exista entre as variveis usadas e tambm independente das unidades de medida
com que as variveis esto expressas.
Para o clculo da distncia generalizada, por exemplo, usando apenas duas variveis (V 1 e
V2), correlacionveis, utiliza-se da expresso:
D
onde
R '.V
.R
V12
V
R = 11
V21 V22
R' =
[V11
64
ANLISE DISCRIMINANTE
Sv2
1
V =
rv v .s .s
1 2 v1 v2
rv v .s .s
1 2 v1 v2
Sv2
7.3. Exemplo: Distino entre areias elicas e praias pela anlise discriminante linear.
Em Sedimentologia ainda bastante comum a utilizao de ndices baseados em percentis
para descrever as caractersticas da distribuio granulomtrica, pela sua convenincia e
simplicidade de clculo. Diversas crticas tem sido formuladas ao emprego desses ndices pois a
sua eficcia praticamente nula quando da utilizao de modelos estatsticos formais em que
valores amostrais devam estimar parmetros da populao. Ver propsito Davis e Ehriich (1970).
Por outro lado quando colocados num sistema de coordenadas cartesianas, pares de ndices
fornecem separaes ou agrupamentos de amostras que so facil e empiricamente interpretados
como devido a um controle sedimentar, pois ambientes diversos de sedimentao conduziriam
distribuies granulomtricas diferentes cujos percentis obtidos forneceriam distintos ndices.
Existem diversos trabalhos sobre o assunto na tentativa de estabelecer um relacionamento entre
esses
Friedman, 1961; Shepard e Young, 1961: Passega, 1962; Sahu, 1964; Folk, 1966; Moiola e
Weiser, 1968; Visher, 1969).
Entre os vrios ndices propostos os sedimentologistas usam com maior freqncia aqueles
devido Folk e Ward (op.cit). Segundo esse mtodo obtm-se inicialmente, a partir da curva de
freqncia granulomtrica acumulada, em que os intervalos de classes esto na escala phi
(Krumbein. 1934) ao longo do eixo y e os valores, ao longo do eixo x, correspondentes aos
percentis 5% (x 5), 16% (x 16), 25% (x 25), 50% (x 50), 75% (x 75), 84% (x 84) e 95% (x 95). A escala phi
uma transformao segundo a qual em vez de se usar os valores para tamanho dos gros em mm (x 1
), utiliza-se -log2x1.
Em seguida esses valores so combinados de forma a oferecer estimativas grficas da
mdia, desvio padro, assimtrica e curtose da distribuio de freqncia amostral.
Se esses quatro ndices so os mais aceitos, o mesmo no acontece sobre a escolha de
qual, ou quais, que so os melhores indicadores para especficos ambientes de sedimentao. Em
outras palavras, quais os que podem ser usados para separar amostras provenientes de diferentes
ambientes de deposio.
Neste caso a tentativa usual e comparar diversos grficos bivariados e subjetivamente
escolher aqueles dois ndices que melhor separem os conjuntos de amostras considerados.
65
ANLISE DISCRIMINANTE
a) Sedimentos praiais e elicos da plancie costeira do Rio Grande do Sul (Martins, op.cit).
Nesse trabalho foram coletados 70 amostras provenientes de praia e 100 de duna. Para cada
uma dessas amostras o Autor obteve, segundo a metodologia citada de Folk e Ward (op.cit), os
valores para a mdia, desvio padro, assimetria e curtose. A funo discriminante encontrada foi:
Di
= 0,79 M z + 013
, i 13,96 SK 2154
, Kg'
Dp
De
Do
-13.02
D2
4.23
Isso significa que amostras que apresentaram um valor calculado Di maior que -13,02
indicaram ambiente praial e aqueles com Di menor indicaram ambiente elico. Neste caso a
probabilidade de erro foi da ordem de 0,18 para os dois grupos considerados, isto , entre as 70
amostras elicas estudadas 8 tinham uma maior probabilidade de associao com o ambiente praial
e entre as 109 praial 9 tinham uma maior probabilidade de associao com o ambiente elico.
F(calculado) = 44.28
Como F(0.05;
4,174)
= 1,88%
= 0,38%
Sk
= 78,13%
Kg
= 19,60%
66
ANLISE DISCRIMINANTE
significando que a varivel que mais contriburam para a discriminao entre as amostras dos dois
grupos foi a assimetria.
b) Sedimentos praiais e elicos da Ilha Comprida, no litoral sul do Estado de So Paulo (Landim, et
al, op.cit).
Nesse trabalho foram coletadas 120 amostras provenientes de dunas e 75 amostras ao
longo da linha da mar baixa. Para todas essas amostras foram tambm obtidos os valores para
mdia, desvio padro, assimetria e curtose normalizada pelo mtodo grfico de Folk e Ward
(op.cit.).
Existindo 3 grupos de amostras, os mesmos foram considerados dois a dois da seguinte
maneira:
a) amostras elicas e amostras de praia coletadas ao longo da linha da mar;
b) amostras elicas e amostras de praia coletadas ao longo da linha de mar baixa;
c) amostras de praia, mar alta e amostras de praia, mar baixa.
Os resultados foram os seguintes:
a) a funo discriminante encontrada para amostras elicas e amostras de praia (mar alta), foi
Di
Dpb
Do
= 22.815
= 3.500
= 54.65%
= 20.77%
Sk
= 5.46%
67
ANLISE DISCRIMINANTE
Kg
= 19.12%
b) A funo discriminante encontrada para amostras elicas e amostras de praia (mar baixa), foi
Di = 668
. M z 4384
. I + 6.55S k + 12 .12 k'g
A partir dessa funo foram determinados os seguintes valores:
Dz
Dpb
Do
= 13.61
D2
= 12.34
A probabilidade de erro foi da ordem de 0.0003, isto , entre as 120 amostras elicas
estudadas 3 apresentaram valores de Di inferiores a 13.61 e entre as 75 amostras praiais (mar
baixa) estudadas 9 apresentaram valores Di superiores a 13.61 (Fig. 3).
F(calculado) = 140.17
Como F( 0 .05; 4 .190 )
= 24.50%
= 59.33%
Sk
Kg
= 10.47%
5.70%
c) A funo discriminante encontrada para amostras de praia, mar alta e mar baixa, foi
Di = 138
. M z + 24 .12 I + 2 .07 K 1142
. K'g
A partir dessa funo foram determinados os seguintes valores:
Dpa
Dpb
Do
= 18.03
1.52
A probabilidade de erro foi da ordem de 1.19, isto , entre as 75 amostras de linha de mar
alta 16 apresentaram valores de Di inferiores a -18.03 e entre as 75 amostras da linha de mar baixa
33 apresentaram valores de Di superiores a -18.03 (Fig. 4).
F(calculado) = 13.94
Como F( 0 .05; 4 .145 )
68
ANLISE DISCRIMINANTE
Mz
= - 17.59%
= 114.93%
Sk
8.34%
Kg
5.67%
Como visto, as funes discriminantes podem ser utilizadas no apenas na distino entre
ambientes de sedimentao, como j verificado por Autores como Greenwood (1960), Middleton
(1962), Mellon (1964); Sahu (op.cit.), Landim e Frakes (1968), Moiola e Weiser ( 1969), entre
outros, mas tambm para fornecer informaes sobre quais as variveis mais importantes para essa
separao. Nesse sentido, verificou-se que as variveis que mais contribuem para a discriminao
entre os ambientes elico e praial nem sempre so as mesmas.
Isso uma constatao digna de meno, porque tinha sido atribuda uma importncia
muito grande ao ndice assimetria para a distino entre esses dois ambientes (Masson e Folk,
op.cit.; Friedman, 1961; Folk e Robles, 1964; Duane, 1964; Martins, 1965). Inclusive no primeiro
exemplo aqui estudado, isto , o referente ao litoral riograndense, tal hiptese foi confirmada, pois o
ndice assimetria o que mais contribui para a distino entre os ambientes. Para este caso, a
seguinte explicao apresentada: depsitos praiais ocorrem em ambientes de alta energia onde as
partculas esto continuamente submetidas aos processos de "swash" (saca) e "backwash"
(ressaca) das ondas. Desse modo os finos so removidos pelo "backwash" que no tem
competncia para remover o material mais grosseiro depositado pelo "wash", ocasionando uma
distribuio granulomtrica com assimetria negativa. A ao do vento carregando material para as
dunas capaz de transportar mais material fino que grosseiro resultando uma distribuio
granulomtrica com tendncia assimetria positiva.
Por outro lado no caso de Ilha Comprida a varivel mais importante para distinguir o ambiente
elico do ambiente praial ao longo da ilha da mar alta foi o ndice mdia, e para distinguir aquele
ambiente do praial ao longo da linha da mar baixa foi o ndice desvio padro. A distino entre os
dois sub-ambientes praiais baseia-se fundamentalmente ao ndice desvio padro.
A interpretao desses resultados esta ligada ao fato de que distribuio granulomtrica de
um sedimento controlada por:
a) material disposio;
b) processos sedimentares de eroso, transporte e deposio;
c) nvel energtico do ambiente de deposio.
Como esses fatores variam dentro de um mesmo ambiente de sedimentao, ocorre para
cada um dos ndices granulomtricos, geralmente utilizados em Sedimentologia, uma variabilidade
associada. No caso da plancie costeira gacha a fonte de material a existente principalmente
areias retrabalhadas dos cordes litorneos e das formaes pleistocnicas ocorrentes na regio, e
o processo sedimentar atuante deve ser aquele apresentado atrs. Nesse caso as areias elicas
apresentam um valor mdio para o ndice assimetria de 0,13 e as areias praiais de -0,11. Tambm
apresentam para o ambiente elico um valor mdio para o ndice desvio padro de 0,24, e para o
69
ANLISE DISCRIMINANTE
ambiente praial, respectivamente, os valores 2,41 e 0,37. Isso significa que as areias so, em mdia,
mais grosseiras e pior selecionadas no ambiente praial que no ambiente elico.
Na Ilha Comprida a principal fonte fornecedora de detritos para os diversos ambientes um
extenso depsito de sedimentos originados por regresso pr-atual, do tipo "blanket sand",
constitudo por areias muito finas, homogneas e bem selecionadas, a que Suguio e Petri (1973)
propuseram o termo Formao Canania. Os valores mdios para o ndice mdia, desvio padro e
assimetria para as areias elicas, praial (linha da mar alta) e praial (linha da mar baixa) so
respectivamente, 2.92, 0.21 e 0.27; 2.66, 0.30 e 0.10; 2.47; 0.37 e 0.16. Isso significa que o
ambiente elico apresenta, em mdia, areias mais finas e melhores selecionadas que os subambientais praiais e que todos esses ambientes mostram, em mdia, valores positivos para
assimetria.
Num estudo sedimentolgico sobre as areias praiais da Ilha Comprida, Barcelos (1975)
verificou que h diminuio dos valores do dimetro mdio de sul para norte da Ilha, predominando,
portanto, areias mais grosseiras na regio sul. Quanto ao grau de seleo, ocorre tambm uma
melhoria no sentido norte. claro que essa diferenciao mais marcante ao longo da linha da mar
baixa, pois a o nvel energtico maior.
Para explicar a importncia da varivel media no caso do ambiente elico e praial (linha de
mar alta) deve se ter em mente que a densidade, a viscosidade e a competncia do vento so
menores comparadas com a gua, o que acaba por refletir no tamanho dos gros que so maiores
neste ambiente do que naquele.
No caso dos ambientes elico e praial (linha da mar baixa) a varivel mais importante
revelada foi o ndice desvio padro, pois as flutuaes na velocidade do vento de menor magnitude,
em termos de valor hidrulico, que num ambiente praial, principalmente ao longo da linha da mar
baixa, e, portanto, sedimentos elicos so melhores selecionados.
70
ANLISE DISCRIMINANTE
Bibliografia
BARCELOS, J.H. (1975) - Sedimentao e subambientes deposicionais da Ilha Comprida, So Paulo:
Dissertao de Mestrado, Instituto de Geocincias, USP (indito).
DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2th ed., John Wiley and Sons, Inc.
DUANE, D.B (1964) - Significance of skewness in Recent Sediments, Western Palmico Sound, North
Carolina: Jour. Sed. Petrology, 34:
FOLK, R. L. (1966) - A review of grain-size parameters: Sedimentology, 6:73-93.
FOLK, R.L. & ROBLES, R. (1964) - Carbonate sands of Isla Perez, Alacran Roef Complex, Ycatan: Jour,
Geology, 72:255-292.
FOLK, R.L. & WARD, W.C. (1957) - Brazos river bar: a study in the significance of grain size parameters:
Jour. Sed. Petrology, 27:3-26.
FRIEDMAN, G.M. (1961) - Distinction between dune, beach, and river sands from their textural
characteristics: Jour. Sed. Petrology, 31:514-529.
GREENWOOD, B. (1960) - Sediment parameters and evironment discrimination: an application of
multivariate statistics: Canad. Jour. Earth Sc., 6:1347-1358.
LANDIM, P.M.B. & CASTRO, P.R.M. (1981) - Distino entre areias elicas e praiais pela anlise
discriminante: Not. Geomorfol., 21:41-60.
LANDIM, P.M.B. & FRAKES, L.A. (1968) - Distinction between tills and other diamictions based on textural
characteristics: Jour. Sed. Petrology, 38:1213-1223.
LANDIM, P.M.B.; PISANI, J.F. & BSIO, N.J. (1977) - Aplicao do D2 de Mahalanobis na distino de
ambientes de sedimentao: An. Acad. Brasil. Cinc., 49:259-268.
MARTINS, L.R. (1965) - Significance of skewness and kurtosis in environmental interpretation: Jour. Sed.
Petrology, 35:768-770.
MARTINS, L.R. (1967) - Aspectos texturais e deposicionais dos sedimentos praiais e elicos da plancie
costeira do Rio Grande do Sul: Esc. Geol. Porto Alegre, Publ. EspEcial n 13:1-100.
MASON, C.C. & FOLK, R.L. (1958) - Differentiation of beach, dune, and aeolian flat environments by size
analysis, Mustang Island, Texas: Jour. Sed. Petrology, 28:211-226.
MELLON, G.B. (1964) - Discriminatory analysis of calcite and silicate cemented phases fo the Montain Park
sandstone: Jour. Geology, 72:786-809.
MIDDLETON, G.V. (1962) - A multivariate statistical technique applied to the study of sandstone
composition: Trans. Royal Soc. Canad, 56:119-126.
MOIOLA, R.J. & WEISER, D.C. (1968) - Textural parameters: and evaluation: Jour. Sed. Petrology, 38:45-53.
MOIOLA, R.J. & WEISER, D. (1969) - Environmental analysis of ancient sandstone bodies by discriminant
analysis: Bull. Amer. Ass. Petrol. Geol., 53:733.
PASSEGA, R. (1957) - Texture as characteristic of clastic deposition: Am. Assoc. Petroleum Geologists
Bull., 41:1952-1984.
RAO, C.R. (1952) - Advanced statistical methods in biometric research: John Wiley and Sons.
71
ANLISE DISCRIMINANTE
SAHU, ,K, (91964) - Depositional mechanisms from the size analysis of clastic sediments: Jour. Sed.
Petrology, 34:73-83.
SHEPARD, F.P. & YOUNG, R. (1961) - Distinguishing between beach and dune sands: Jour. Sed.
Petrology, 31:196-214.
SUGUIO, K. & PETRI, S. (1973) - Stratigraphy of the Iguape-Cananeia logoonal region sedimentary
deposits, So Paulo, Part 1: Field observations and grain-size analysis: Bol. I.G., Inst. Geocincias,
USP, 4:1-20.
VISHER, G. (1969) - Grain size distribuitions and depositional processes: Jour. Sed. Petrology: 39:10741106.
72
EXEMPLO
Exemplar
M01
M02
M03
M04
M05
M06
M07
M08
M09
M10
M11
M12
M13
M14
M15
S16
S17
S18
S19
S20
S21
S22
S23
S24
S25
S26
S27
S28
B29
B30
B31
B32
Tabela
Crnio (cm)
7,1
6,7
6,7
8,9
7,1
7,2
7,6
7,9
7,8
9,2
7,1
9,6
5,1
7,9
7,2
6,0
5,8
5,8
6,6
4,7
6,4
5,8
6,2
6,5
5,2
6,2
6,5
5,5
5,3
4,9
5,0
5,2
Pescoo (cm)
6,0
4,8
5,3
5,6
5,2
4,9
4,9
5,8
5,1
6,8
6,0
8,3
4,2
6,2
4,3
5,5
4,6
5,1
5,3
4,6
5,8
4,7
6,0
7,1
5,6
6,6
5,8
5,6
7,2
7,6
7,3
7,7
Dentes (mm)
Comprimento
Largura
4,75
0,50
7,50
0,37
7,00
0,50
11,25
0,75
8,75
0,75
8,75
0,75
7,50
0,50
11,25
0,75
5,75
0,50
11,75
0,75
8,25
0,75
7,75
0,75
4,25
0,50
9,25
0,50
4,00
0,50
4,00
0,50
3,25
0,50
2,00
0,50
4,25
0,37
2,25
0,50
3,75
0,50
3,50
0,50
4,50
0,50
3,50
0,75
3,00
0,50
3,75
0,50
3,00
0,75
4,50
0,75
2,00
0,50
0,75
0,45
2,75
0,50
2,00
0,75
73
EXEMPLO
Stereosternum. Alm disso os quatro exemplares B29, B32, B31 e B30, todos do genero Brazilosaurus,
formam um grupo integrado ao do Stereosternum. Tal constatao merece uma reflexo sobre a
validade ou no de atribuir os exemplares M01, M15 ao gnero Mesosaurus. Alerta tambm para a
possibilidade de questionar a validade do gnero Brazilosaurus.
Os mesmos dados submetidos anlise das componentes principais, pelo mesmo pacote
MVSP, fornece os seguintes autovalores e autovetores:
eixos
autovalores
porcentgem
% acumulada
10,257
86,91
86,91
1,170
9,92
96,83
0,363
3,07
99,90
0,011
0,10
100,00
Variveis
autovetor 1
autovetor 2
autovetor 3
autovetor 4
Crnio
0,343
0,263
0,901
0,011
Pescoo
-0,022
0,961
-0,271
-0,047
Comp.dente
0,939
-0,075
-0,335
-0,025
Larg.dente
0,019
0,041
-0,031
0,999
74
EXEMPLO
Este resultado mostra que o maior peso para a constituio do autovetor 1, que responde por
86,91% da variabilidade presente, a varivel comprimento dos dentes e para o vetor 2, com 9,92% da
variabilidade, a varivel pescoo.
A multiplicao da matriz original de dados pela matriz de autovetores fornece os factor scores
dos espcimes. Escolhidos os dois principais eixos ou fatores, correspondendo a uma porcentagem
acumulada dos autovalores da ordem de 96,83%, obtm-se a distribuio espacial dos factor scores
(Figura 8.2.).
Figura 8.2. Distribuio conjunta dos factor scores e variveis, em relao aos dois principais fatores
Di
valores Di = 7,087 e Di = 5,824, indicando que provavelmente esses espcimes estejam mal
75
EXEMPLO
classificados como Mesosaurus brasiliensis e que talvez, levando em considerao as quatro variveis
estudadas, pertenam espcie Stereosternum tumidum. Recomenda-se neste caso uma anlise
osteolgica mais detalhada ou mesmo verificao do nvel estratigrfico de onde provenham.
A porcentagem de contribuio direta de cada varivel para a discriminao entre os dois
conjuntos de dados : comprimento dos dentes =
54,46%;
comprimento
do
crnio
47,79%;
Di
varivel
considerada
na
discriminao
contribuiu
diretamente
com
seguinte
Di
anlise
multivariada
das
funes
discriminantes
mostra-se
eficaz,
comprovando
76
EXEMPLO
77
EXEMPLO
Figura 8.4. - Afastamento entre os grupos usando a distncia generalizada de Mahalanobis (D2)
Isso est de acordo com Bertini (informao verbal) quando afirma que o gnero Brazilosaurus
provavelmente a forma ancestral
pescoo longo que favorece a predao, parecendo ter compartilhado seu nicho ecolgico com
Stereosternum. O gnero Stereosternum teria vivido em guas rasas perifricas com maior energia de
deposio e condies mais aerbicas. Quanto ao Mesosaurus teria habitado guas depocntricas e
seria o mais aqutico dos mesossaurdeos, providos de longos e finos dentes, muito provavelmente
filtrador suspensvoro, e com pescoo curto.
Finalmente foi feita uma anlise discriminante multigrupos, com o auxlio do pacote
STATISTICA, tendo sido obtido o mesmo resultado como apresentado na Figura 8.5.
78
EXEMPLO
BIBLIOGRAFIA
ARAUJO, D.C. (1976) - Taxonomia e Relaes dos Progranossauria da Bacia do Paran: An. Acad. Brasil. Cinc.,
48 (1):91-116
COPE, E.D.(1886) - A contribution to the vertebrate paleontology of Brazil: Proc. Amer, Phil. Soc., 23:7-15.
LANDIM. P.M.B. & PERINOTTO, J.A.J. (1981) - Taxonomia numrica dos messoraurdeos da Formao Irati (P,
Bacia do Paran): Soc. Bras. Geo., Ncleo de So Paulo, Atas do 3 Simp. Reg. Geologia, 2:201-212.
MACGREGOR (1908) - Mesosaurus brasiliensis nov. sp.: Rel. Final Comisso Est. Minas de Carvo de Pedra do
Brasil, Rio de Janeiro, 2:301-336.
79
Os mtodos clssicos da anlise estatstica multivariada, como vistos neste texto, no levam em
considerao a localizao das amostras, no sentido geolgico,
tambm no refletem as diferenas quanto o suporte das amostras ou com relao ao suporte da regio
onde o estudo esta sendo realizado. Por outro lado a metodologia geoestatstica univariada tem essas
propriedades, mas no capaz de tratar da correlao espacial entre diversas variveis. Ferramentas se
tornam, ento, necessrias para incorporar essas importantes feies e da a
necessidade de mtodos
nos locais
amostrados, mas pode se tornar vlida para interpolaes em locais ou intervalos de tempo adjacentes,
no amostrados,
numricos. Na verdade este o grande desafio da anlise multivariada de dados espaciais, a estimao
de valores para situaes de previso quantitativa.
80
comprimento por 100 m de largura, com um total de 290000 m . Foram amostrados 90 pontos numa
malha regular, na qual os pontos no sentido sul para norte foram eqidistantes em 100m, e no sentido
leste para oeste, ou seja para juzante, em 50m, sendo considerado o ponto 0m na margem direita, o
ponto 50m no meio do rio e 100m na margem esquerda. As variveis obtidas foram: riqueza de gneros
do plncton, pH, temperatura, oxignio dissolvido, transparncia da gua, cor e turbidez da gua. As
amostras de plncton foram coletadas com rede horizontal de malha de 50 m, durante 10 minutos. Com
exceo das anlises para cor , turbidez e DBO, as demais foram realizadas no campo para maior
confiabilidade dos resultados.
Pela aplicao da anlise das componentes principais os Autores verificaram que na primeira
componente, com uma porcentagem de explicao de 84,64%, as maiores cargas vetoriais, em mdulo,
ficaram com as variveis transparncia (0,975), OD (0,969),
segunda componente as responsveis pelas maiores cargas foram as variveis profundidade da luz
(0,145) e nmero de gneros do plncton (-0,780). Devido as maiores cargas na primeira componente
obtida serem provenientes das
controlada por fatores abiticos. Como na segunda componente, com uma porcentagem de explicao
de 8,37%, a carga mais alta foi devido a varivel riqueza de gneros do plncton, ela foi considerada
como controlada por fatores biolgicos. (Tabela 9.1.).
II
III
N Gneros
0.621
-0.780
0.066
pH
0.957
0.019
-0.033
Temperatura
-0.859
0.025
0.508
OD
0.969
0.031
0.130
Profundidade da luz
0.975
0.145
0.053
DBO5
-0.984
-0.064
-0.085
Cor
-0.969
-0.129
-0.015
Turbidez
-0.967
0.133
-0.156
% de variao
84.643
8.366
3.941
Na Tabela 9.2. esto os resultados aps a rotao fatorial. Como esperado, tal rotao das
componentes otimizou os valores das cargas das variveis nos respetivos eixos.
81
II
III
N Gneros
0.531
0.845
-0.020
pH
0.951
0.083
-0.073
Temperatura
-0.833
-0.077
0.546
OD
0.970
0.085
0.090
Profundidade da luz
0.987
-0.033
0.021
DBO5
-0.987
-0.051
-0.046
Cor
-0.997
0.021
0.018
Turbidez
-0.981
0.014
-0.124
% de variao
83.589
9.240
4.122
As Figuras 9.1. e 9.2. mostram a distribuio espacial dos escores das duas principais
componentes, aps rotao. Na Figura 9.1. os escores da primeira componente no variam nas
margens esquerda, meio e direita do rio antes da entrada do efluente, ou seja, a parte ainda no afetada.
Aps a entrada, a componente abitica comea a variar decaindo a partir da coordenada NS 1100m,
assumindo valores negativos e voltando a crescer a partir da coordenada NS 2000 m. Este
comportamento pode ser explicado pelo aumento de DBO5, cor e turbidez com a entrada do efluente e a
diminuio do OD e da transparncia. A segunda componente (Figura 9.2.) varia pouco na margem
esquerda decaindo na regio do meio do rio. A margem direita comea com cargas positivas, decaindo a
partir dos ponto de coordenada 1100m, voltando a crescer depois do ponto de coordenada 2000m.
82
efetuar
estimativas dentro de um contexto regido por um fenmeno natural com distribuio no espao ou no
tempo e, desse modo, supe que os valores das variveis so correlacionados no espao ou no tempo.
Devido a essa caracterstica, a geoestatstica tem tido grande aplicao principalmente para efetuar
estimativas e/ou simulaes de variveis em locais no amostrados.
De uma forma geral, a metodologia geoestatstica procura extrair, de uma aparente
aleatoriedade dos dados coletados, as caractersticas estruturais do fenmeno regionalizante, ou seja,
uma funo da correlao ou da covarincia entre os valores situados numa determinada vizinhana e
83
krigagem. Trata-se de um
processo de estimao por mdias mveis, de valores de variveis distribudas no espao a partir de
valores adjacentes, enquanto considerados como interdependentes por uma funo denominada de
semivariograma.
Se uma varivel regionalizada x(i) for coletada em diversos pontos i, o valor de cada ponto
estar relacionado
influncia ser tanto maior quanto menor for a distncia entre os pontos. O grau de relao entre pontos
numa certa direo pode ser expresso pela covarincia, sendo os pontos regularmente espaados por
mltiplos inteiros de h.
Para uma distncia h
se tornam muito
prximas, porm para h maiores, a covarincia diminui enquanto a varincia aumenta, ou seja, ocorre
progressivamente maior independncia entre os valores obtidos a distncias cada vez maiores.
Sendo x(1), x(2), .... x(i), .... x(n), realizaes de uma varivel regionalizada,
a estimativa no
amplitude (a), que indica a distncia a partir da qual as amostras passam a no possuir correlao
espacial e a relao entre elas torna-se aleatria; toda amostra cuja distncia ao ponto a ser
estimado for menor ou igual amplitude fornece informaes sobre o ponto;
patamar (C + Co), que indica o valor segundo o qual a funo estabiliza-se no campo aleatrio,
correspondente distncia a; mostra a variabilidade mxima entre pares de valores, isto , a
varincia dos dados e, consequentemente, covarincia nula;
situao conhecida como efeito pepita e representada por Co; o efeito pepita pode ser atribudo
a erros de medio ou ao fato de que os dados no foram coletados a intervalos suficientemente
pequenos, para mostrar o comportamento espacial subjacente do fenmeno em estudo.
84
o mtodo fornece, alm dos valores estimados, o erro associado tal estimao, o que o
distingue dos demais algoritmos disposio. entendida como uma srie de tcnicas de anlise de
regresso que procura minimizar a varincia estimada a partir de um modelo prvio, que leva em conta a
dependncia estocstica entre os dados distribudos no espao. Dentre os mtodos de estimativas,
comumente empregados, o mtodo geoestatstico da krigagem pode ser considerado como o melhor
estimador linear sem vis, cuja meta a minimizao da varincia da estimativa e com erro residual
mdio igual a zero.
As formas mais usuais so a krigagem simples e a krigagem ordinria e entre os mtodos no
lineares destaca-se a krigagem indicativa.
A krigagem simples utilizada quando a mdia assumida como estatisticamente constante
para toda a rea. A krigagem ordinria, por sua vez, considera a mdia flutuante ou mvel por toda a
rea.
amostragem, a fase de estimao torna-se um passo importante, visto que a malha de pontos estimada
ser responsvel pela qualidade dos mapas a serem gerados. Os pontos desta malha devem ser
estimados de modo a gerar mapas confiveis podendo, assim, auxiliar nos projetos que requerem
estimativas com determinada preciso.
O desenvolvimento terico dessa
geoestatstica com destaque para Journel & Huijbregts (1978), Journel (1989) e Isaaks & Srivastava
(1989).
A
Cokrigagem
um
procedimento
regionalizadas podem ser estimadas em conjunto, com base na correlao espacial entre si. , portanto,
uma extenso multivariada do mtodo da krigagem quando para cada local amostrado obtm-se um vetor
de valores em lugar de um nico valor.
A soluo, por clculo matricial, para a cokrigagem fornecida por:
C x ,x
11 1 '1
C 21 y 2 , x 1
1L1
0 L0
[ C12 ( x 1 ,y 2 ) ]
0
1
1
0
0
1
0
C 22 y 2 , y
'2 M
0 L0
0
0
1L1
[ A]
[ 1]
[ 2 ]
1
2
[
[
]
]
C11 ( x0 , y 1)
C12 ( x 0 , y 2 )
[X]
[B ]
[ (
)]
sub-matriz C11 x1 ,x
, que descreve a distribuio espacial da primeira varivel
a '1
sub-matriz C
z1 ;
z2 ;
85
12 1 2
sub-matrizes C
z1 e
z2 consideradas em conjunto;
os termos restantes 0 e 1 correspondem a condies de no envis
A matriz [A] no contm nenhuma informao sobre o ponto
[ (
subvetor
pontos
)]
C11 x0 , xa1
pontos y
em relao aos
o
x1
, onde
[ (
sub-vetor
z observada;
C12 x0 , ya 2
, onde
x 0 em relao aos
z2 observada;
1 e 2 so os
multiplicadores da Lagrange.
Uma das mais freqentes aplicaes da cokrigagem ocorre quando a amostragem insuficiente,
isto , quando uma ou mais variveis no so coletadas em todos os pontos de amostragem. O objetivo
ento melhorar a estimao das variveis sub-amostradas utilizando a correlao, por ventura
existente com variveis mais densamente amostradas. Trata-se de uma ferramenta geoestatstica que
vem sendo cada vez mais utilizada em diversas situaes de estimao ou de modelagem, existindo a
disposio diversos programas (Carr, Myers e Glass, 1985; Yates e Yates, 1990; Marcotte, 1991 e
Deutsch e Journel, 1992, entre outros)
Fundamental na utilizao da cokrigagem a verificao prvia da correlao existente entre as
variveis, a qual deve ser alta para que as estimativas sejam consistentes. Tambm deve ser notado que
a melhoria de interpretao somente significativa quando uma das variveis tem um nmero
extremamente reduzido de casos em relao outra e que o sistema de cokrigagem torna-se
extremamente complicado no caso de mais de duas variveis. Desse modo crticas a esse mtodo so
encontradas na literatura como, por exemplo, em Myers, 1992 e 1988, Davis e Greenes, 1983.
Para se atingir estes objetivos, o primeiro passo, na krigagem indicativa, transformar os dados
originais em indicadores, isto , transformar os valores que esto acima de um determinado nvel de
corte em zero (0) e os que esto abaixo em um (1):
1 se v j v c
i j (v c ) =
0 se v j > v c
Desta forma, so calculados os semivariogramas experimentais indicativos para determinados
nveis de corte e estabelece-se os modelos variogrficos para os mesmos. Os semivariogramas
indicativos podem ser estimados pela funo:
i ( h , vc ) =
1
2 Nh
Nh
i= 1
i ( x + h , vc ) i ( x , vc )
Onde:
v i < v c . Desta forma, medida que se incrementa v c , obter-se- valores estimados da funo de
F ( v; v c /( n )) =
E{i ( v ; v c ) /( n )}
F ( v j ) F (v i )
probabilstico da varivel, ou seja:
onde:
v j > vi
O Grupo
Bauru compreende uma seqncia basal lamtica, com cerca de 20 metros de espessura, de origem
lacustre, seguido por arenitos finos a grossos, pouco argilosos, avermelhados, com algumas
87
intercalaes
de
variveis e, ento, calculado o coeficiente de correlao, da ordem de 0,424, entre as mesmas, num total
de 76 pares. A seguir, foram feitas regularizaes dos dados utilizando-se da krigagem ordinria, com
modelo linear simples e com um raio de busca relativamente pequeno, o que resultou em 529 dados
para a varivel lenol fretico e 623 para solo. Esta interpolao preliminar foi empregada, somente
para auxiliar na confeco dos modelos variogrficos indicativos. Desta forma, a partir da nova malha,
foram efetuadas as correspondentes anlises da variabilidade espacial, em separado, e estabelecidos
os modelos matemticos dos variogramas experimentais.
Para a escolha dos nveis de corte das duas distribuies, o critrio foi dividir os dados da malha
original em percentis representativos da distribuio de freqncia acumulada. Desta forma, os valores
de corte para a krigagem indicativa foram 14, 16, 18, 20 e 22 m para espessura de solo, e 5, 8, 10, 12,5
e 16 m para profundidade do lenol fretico.
Para todos os nveis de corte, de ambas as variveis, foram efetuadas anlises da variabilidade
espacial e obtidos os respectivos modelos matemticos variogrficos. Para os processos de estimativas,
considerou-se os variogramas indicativos prximos das medianas das variveis em anlise.
Os
parmetros
obtidos
partir
dos
modelos
ajustados
encontram-se na Tabela 1.
estimados, por krigagem indicativa pontual, para um retculo de 200 x 180 m, distribudos por uma rea
2
de 90 km .
88
Para a elaborao dos mapas probabilsticos, escolheu-se, como exemplo, valores medianos,
ou seja, 18 m de espessura de solo e 14m de profundidade do lenol fretico como limites para a anlise
de favorabilidade de reas para disposio de lixo sanitrio na rea de estudo.
Tabela 1. Valores obtidos a partir dos semivariogramas modelados
Varivel: espessura do solo (S)
Cuttof
Modelo
(14)
Esfrico
(16)
Co
0.015
0.16
2500
Esfrico
0.01
0.10
2600
(18)
Esfrico
0.015
0.21
2700
(20)
Esfrico
0.03
0.08
2000
(22)
Esfrico
0.02
0.05
2400
Model
Co
(5)
Esfrico
0.01
0.15
3000
(8)
Esfrico
0.01
0.18
2800
(10)
Esfrico
0.01
0.20
3000
(12.5)
Esfrico
0.02
0.19
2900
(16)
Esfrico
0.05
0.10
2800
Figura 9.2. Mapa da probabilidade de ocorrncia de solos com espessura maior que 18m .
89
Figura 9.3. . Mapa da probabilidade de ocorrncia do lenol fretico com a profundidade maior que 14
Para escolher uma rea que apresentasse as duas condies em conjunto, para um
determinado fim geotcnico, e pressupondo que os dois eventos fossem independentes, foi elaborado
um mapa combinado resultante, que se constituiu no produto dos dois mapas probabilsticos, aplicandose a regra multiplicativa de probabilidades para eventos independentes, ou seja:
vc ,
representa o valor de corte (cuttof), de interesse da pesquisa para cada varivel. O mapa da
90
Figura 9.4.. Mapa com probabilidades combinadas de ocorrncia de espessura de solo com mais de 18m
e profundidade do lenol fretico com mais de 14m.
Para localizar reas onde a espessura do solo fosse maior que 18m e, ao mesmo tempo, a
profundidade do lenol fretico fosse maior que 14m, indicando favorabilidade para a localizao de um
aterro sanitrio, procurou-se no mapa resultante reas com a maior probabilidade combinada. Assim,
em termos probabilsticos, as reas mais recomendadas esto localizadas na parte central e a sudeste.
Como a parte central acha-se ocupada pelo stio urbano de Bauru, a poro sudeste torna-se a mais
indicada. Esta rea est contida na unidade geotcnica II.
No
estudo apenas duas variveis foram utilizadas, porm a metodologia pode ser aplicada a
diversas variveis combinadas. Tal emprego da krigagem indicativa, com enfoque multivariado, consiste
em uma alternativa para modelagem com propsitos ambientais, fornecendo um mtodo vivel para
estimar incertezas distribudas espacialmente.
modelagem
de
corregionalizao
das
variveis
usando
denominado
modelo
linear
de
91
2.
3.
estimao das relaes entre os fatores regionalizados e variveis, como componentes espaciais, a
diferentes escalas por cokrigagem, para, finalmente, mape-los;
92
BIBLIOGRAFIA
BERNARDI, J. V. E.; FOWLER, H. G. & LANDIM, P. M. B. (1997) Aplicao da estatstica multivariada em estudos
de impacto ambiental: VII Simpsio de Quantificao em Geocincias, Bol Res. Expandidos, 12-16
CARR, J., MYERS, D.E. & GLASS, C.H. (1985) - Co-Kriging: a Computer Program: Computers & Geociences,
11:111-127.
CASTRIGNAN, A., CONVERTINI, G., LOSAVIO, N. & HOXHA, I. (1995) Studio delle relazioni tra le propriet
fisico-chimiche di un suolo argilloso del litorale ionico-lucano mediante la geostatistica multivariata: Proceedings of
the 13th Symposium of Italian Chemistry Society, Florence, pp. 61-70
CASTRIGNAN, A., GIUGLIARINI, L., RISALITI, R. & MARTINELLI, N. (2000) Study of spatial relationships
among some soil physico-chemical properties of a field in central Italy using multivariate geostatistics: Geoderma,
97:39-60
DAVIS, B. M. & GREENES, K. A (1983) Estimation Using Spatially Distributed Multivariate Data: Na Example with
Coal Quality: Math. Geology, 15:287-300
DEUTSCH, C.V. and JOURNEL, A.G.- GSLIB-Geoestatistical Software Library and Users Guide. Oxford University
Press, 1992
GOOVAERTS, P. (1992) Factorial kriging analysis: a useful tool for exploring the structure of multivariate spatial
soil information: Jour. Soil Science, 43:597-619
GOOVAERTS, P. & WEBSTER, R. (1994) Scale-dependent correlation between topsoil copper and cobalt
concentrations in Scotland: Eur. Jour. Soil Science, 45:79-95
ISAAKS, E.H.; SRIVASTAVA, R.M. (1989) - Applied geostatistics. Oxford University Press,. 561p., New York.
HUIJBBREGTS, C.J. (1975) - Regionalized variables and quantitative analysis of spatial data . In: Davis, J.C. &
Mccullagh, M. J. (eds.) Display and analysis of spatial d ata, p.38 53, John Wiley
JOURNEL, A.G. (1983) Non-parametric estimation of spatial distribution. Math. Geology, 15:445-468
JOURNEL, A. (1989) Fundamentals of geostatistics in five lessons. Short course in Geology, American Geophysical
Union, Vol. 8, Washington.
JOURNEL, A.G. & HUIJBREGTS, J.C.H. (1978) Mining geostatistics. Academic Press, 1978. 600p.
MARCOTTE, D. (1991) - Cokriging with Matlab: Computers & Geociences, 17:1265-1280
.
MATHERON, G. (1962-1963) - Traite de Geostatistique Appliquee: (vols. 1 e 2): Technip.
MATHERON, G. (1982) Pour une analyse Krigeante des donnes regionalises: Centre de Geostatistique,
Fontainebleau, Report 732
MYERS, D. E. (1982) Matrix formulation of co-kriging: Math. Geology, 14:249-258
MYERS, D. E. (1988) - Some Aspects of Multivariate Analysis: in F. Chung et al. (eds.) Quantiative Analysis of
Mineral and Energy Resources, p 669-687, D. Reidel Publishing Co
STURARO, J. R. & LANDIM, P.M.B. (1997) Indicator kriging for GISs maps integration: in V. Pawlowsky-Glahn
(ed.), Proceedings of IAMG97, CIMNE,Barcelona, 2:699-704
WACKERNAGEL, H. (1995) Multivariate Geostatistics: Na Introduction with Applications: Springer-Verlag, 256 pp.
YATES, S.R. & YATES, M.V. (1990) - Geostatistics for Waste Mangment: A Users Manual for the GEOPACK
(version 1.0) Geostatistical Software System: U.S. Environmental Protection Agency Report 600/8-90/004.
93