Professional Documents
Culture Documents
ANALYSE
MULTIDIMENSIONNELLE 2
Groupements
1
Une partition est une division de l'ensemble en sousensembles, telle que chaque objet (ou descripteur)
appartienne une et une seule sous-collection
Grandes familles de
mthodes de groupement
1. Algorithmes squentiels ou simultans
2. Agglomration ou division
3. Mthodes monothtiques ou polythtiques
4. Mthodes hirarchiques ou non
5. Mthodes probabilistes ou non
Exemple
On
obtiendrait
exactement
la
mme
chose
avec
S
17
0.1
0.2
0.3
0.4
0.5
D14
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,60
0,70
0,80
Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
D14
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,60
0,70
0,80
Paires formes
1-2
1-3
3-4
2-4
2-3
1-4
2-5
3-5
4-5
1-5
0.1
0.2
0.3
0.4
0.5
0.0
0.1
0.2
0.3
0.4
0.5
1
2
3
4
5
1
2
3
4
5
0.6
0.7
0.8
Connexit = 0,5
0.0
1
2
3
4
5
0.1
0.2
0.3
0.4
0.5
Objets
0,20
0,25
0,45
0,80
0,40
0,35
0,50
0,30
0,60
0,70
2
1
3
4
5
0,65
0,30
0,60
0,70
1-2
3
0,325
0,3625 0,65
3-4
0,65
5
4
0.0
0,40
1-2
2
1-2-3-4
5
0,65
-
0.1
0.2
0.3
0.4
0.5
0.6
WPGMA
Idem UPGMA mais avec pondration selon le
nombre dlments dans le groupe
Groupement centrode
UPGMC et WPGMC
Comme UPGMA et WPGMA mais en utilisant une
moyenne gomtrique plutt quarithmtique :
centrode (= barycentre, point de coordonnes
moyennes)
Interprtation : polytomie
0.0
1
2
3
4
5
0.1
0.2
0.3
0.4
0.5
UPGMC
10
4
A
B
8
6,32
6
4
9,40
2
0
D
Mthode de Ward
Hirarchique
Sur donnes brutes ou matrices de distance
Minimise la somme des carrs des distances au centrode
de chaque groupe (variance l'intrieur de chaque
groupe) si applique aux donnes brutes, ou la somme
des carrs des distances entre paires si applique
une matrice de distance
K-means
Non hirarchique
Mthode divisive
Nombre de groupes dfini par l'utilisateur
Minimise la variance intragroupe des
donnes brutes
La matrice cophntique
1
1
r et le coefficient de
La corrlation cophntique
2
dtermination r
Exemple
Corrlation cophntique r : 0.89
2
2
Coefficient de dtermination r : (0.89) = 0.79,
Le nuage de points
r = -0,3
r=0
r=1
Axes principaux
Masse
Axe Principal 1
Axe Principal 2
Longueur
Ha
ut
eu
r
Axe Principal 1
1 = 50 %
u2
u1
Axe Principal 2
2 = 30 %
Nombre de composantes
interprtables
>
Bton bris
Diagramme de Shepard
moyen
35
30
Alatoire
Observ
25
20
15
10
5
0
1
Valeurs propres
10
Diagramme de Shepard
Axe 2
+++
+
Axe 1
Axe 1
+
++ +
+
Analyse en composantes
principales (ACP)
espace multidimensionnel complexe, dans un sousespace plus simple, pour observer graphiquement les
relations entre les objets
Reprsentation graphique
Objets
Cercle de rayon 1
Entre une variable i et un axe descripteur k, labscisse
V1
rV1,I
Rsum
Variables
Individus
II
u norms :
angles
=
corrlations
u norms 1 :
proximits
=
distances
Biplot
Variables
= descripteurs
Individus
= objets
II
Exemple
Analyse factorielle de
correspondances (AFC)
Stations
Trucus
S1
Frquence 1,1
S2
Frquence 2,1
Machinus
Bidulus
...
Exempla
S3
...
S4
Frquence i,j
Frquence n,p
Non affecte par le problme du double-zro
Suppose une relation unimodale avec les variables
2
Prserve la distance du entre les points
environnementales
= f.j
= fi.
= f..
Frquences absolues
qij
Q
Frquences relatives centres
fij
pij
pi.
= fij/f..
= fi./f..
p.j
= f.j/f..
=1
Frquences relatives
Inertie totale = I =
On peut effectuer un test dindpendance des
deux variables
2
= npI avec np = effectif total
H
:
quelle
que
soit
la
station,
la
distribution
des
0
2
Test du , avec (n-1)(p-1) degrs de libert
Frquence relative du
site 8 pour lespce 11 :
raret ce site
Espce 4
Frquence relative de
lespce 3 au site 5 :
occurrence forte
Espce 2
Site 5
Espce 11
Espce 9
Site 8
Espce 3
Site
12
Site 9
Site 2
Espce 19
Type I
Type II
Exemple
Descripteurs
= espces
II
Sites
Espces
Objets =
stations
Test de Mantel
Statistique Z de Mantel
A
A
xij
yij
xij
.....
+X
+
yij
Test
1. Permutation alatoire des objets (A-D)
2. Calcul dun nouveau Z : Zp
3. Rptition n fois (ex : 999) des tapes 1 et 2
4. Ajout de la valeur observe Z aux 999 valeurs de
Zp
5. Trac de la distribution : histogramme de
frquences
6. H0 est rejete si Z fait partie des valeurs
extrmes (ex : 5%)
r = [ 1/(n-1)]
[ (x
i
ij -
x)/s x] (y i j - y)/s y
Exemple
Deux
matrices
de
distances
entre
4
sites
(S
-S
)
1 4
Distances
en
terme
dabondances
despces
(D
)
14
Distances
environnementales
(D
),
sur
la
base
de
1
S3
Matrice de distances D1
S2
S4
S3
S4
S2
0.17 0.39
S2
0.22 0.60
S3
0.66
S3
0.71
Calcul du Z de Mantel
Z = (0.25 x 0.43) + (0.43 x 0.41) + (0.55 x 0.47) +
Permutations (Zp)
Observ
Proba (z)
Zobs
< Zobs
= Zobs
> Zobs
1.2823
95
0.05
Permutations
Proba (r)
robs
< robs
= robs
> robs
0.7982
95
0.05
2
Le pourcentage de variance explique (R ), ainsi que la