Professional Documents
Culture Documents
EN COMPOSANTES
PRINCIPALES
A.C.P.
Pierre-Louis Gonzalez
INTRODUCTION
Résultats :
2
INTERPRÉTATION DES RÉSULTATS
z critère global
z critères individuels
3
I. L’ANALYSE EN COMPOSANTES PRINCIPALES
LE PROBLÈME
1. LES DONNÉES
X1 X2 Xj Xp
x11 x1j x1p
x12 x 2j x 2p
x1n x nj x pn
Variable Xj
p
INDIVIDU = Élément de Rp
VARIABLE = Élément de Rn
4
On cherche à représenter le nuage des individus.
X3
x 3i
ei
x1i
1
X
x 2i
X2
5
2. PRINCIPE DE L’A.C.P.
6
« Perdre le moins
d’information possible »
7
ei
ej
Δ2 fi
βi
βj fj
αi αj Δ1
8
3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS
yB B
Dans le plan :
A
yA d 2 (A, B) = (x B − x A ) + (y B − y A )
2 2
xA xB
(
e i = x1i x 2i ... x ip )
ej = (x 1
j x 2j ... x ) p
j
( ) ( ) ( ) ( )
2 2 2
d 2 e i , e j = x1i − x1j + x 2i − x 2j + . .. x ip − x pj
(e , e ) = ∑ (x )
p
2
d 2
i j
k
i − x kj
k =1
9
Pour résoudre ce problème, on choisit de transformer les données
en données centrées-réduites.
x ik x k
UNITÉS D’ÉCART TYPE :
sk
où : x k = moyenne de la variable X k
Δ k = écart-type de la variable X k
Exemple :
10
4. INERTIE TOTALE
n
d (e i , g)
1 2
Ig = ∑
i n
= somme pondérée des carrés des distances des individus au
centre de gravité g .
⎜ ⎟
............
...........
V= ⎜ 2
s2 ⎟
⎜ 2
⎟
⎝ p1
s s p ⎠
p
I g = ∑ si2
i =1
I g = Tr ( V)
Remarque 1 :
Dans le cas où les variables sont centrées réduites, la variance de
chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).
11
Remarque 2 : Equivalence des deux critères concernant la « perte
d’information »
Projection orthogonale du nuage sur un sous-espace
ei
fi
F g
Soit F un sous-ensemble de Rp
f i la projection orthogonale de e i sur F
On va chercher F tel que :
∑ ei − f i
2
c pi soit minimal , ce qui revient d’après le
=
i 1
∑ pi f i − g
2
d i =1
, car on a :
2 2
ei − g = ei − f i + f i − g ∀i = 1 . .. n
2
n n n
∑ ∑ ∑
2 2
p i ei − g − pi ei − f i pi f i − g
2
Donc : =
i =1
i =1
i =1
12
II. LA SOLUTION DU PROBLÈME POSÉ
13
1. SOLUTION
Axes principaux
On le note u1 .
Le deuxième axe est celui associé à la deuxième valeur propre λ 2 .
On le note u 2 .
Composantes principales
14
2. PROPRIÉTÉS DES COMPOSANTES PRINCIPALES
15
3. REPRÉSENTATION DES INDIVIDUS
⎛ c1j ⎞
⎜ j⎟
⎜ c2 ⎟
c =⎜ ⎟
j
........
ei
c2i
g c1i 1
ej
16
4. REPRÉSENTATION DES VARIABLES
( )
r c j , x i est le coefficient de corrélation linéaire entre c j et x i .
c2
xi
(
r c ,x2 i
)
(
r c1 , x i ) 1
c
17
5. INTERPRETATION DES « PROXIMITÉS » ENTRE
VARIABLES
( )
n
1
x ,x =
i j
n ∑x
k =1
i
k x kj
z (x , x ) = Cov (x , x )
i j i j
( ) ∑ (x )
n
i 2 1 i 2
= x ,x =
i j
zz x k
n k =1
2
xi = s2i = variance de x i
2
Î zzz xi = écart-type de x i
Cos ( X , X ) =
(X , X ) = Cov (X , X ) = r i j i j
Î
i j
X i
X j si s j (X , X )
i j
18
3
X
1
X
X2
19
III. VALIDITÉ DES REPRÉSENTATIONS
1. CRITÈRE GLOBAL
λi
mesure la part d’inertie expliquée par l’axe i.
λ 1 + λ 2 + ... λ p
∑λ
i =1
i premier plan principal.
20
Combien d’axes ?
Différentes procédures :
e Histogramme
4
.. λ 1 = 4,5
3
2
. λ 2 = 3,8
λ 3 = 2,9
1 ....
λ1 λ 2 λ3 λ4 λ5 λ6 λ7
cassure
21
2. CRITÈRES INDIVIDUELS
axe 2
θ2 θ1 fi
θ
y axe 1
22
CONTRIBUTIONS
( )
n
1 k
∑
2
c = λk
i =1 n i
1 k
( )
2
c
n i
λk
Remarque :
23
3. REPRÉSENTATION DES VARIABLES
corrélation = cosinus
c2
c1
Les variables bien représentées sont celles qui sont proches du cercle :
celles qui sont proches de l’origine sont mal représentées.
24
4. INTERPRÉTATION EXTERNE : VARIABLES
ET INDIVIDUS SUPPLÉMENTAIRES
(ILLUSTRATIFS)
Variables
zz Variable qualitative :
25
 Représentation de chaque catégorie par son centre de gravité.
?
?
Individus
26