You are on page 1of 31

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

Introduction aux analyses multidimensionnelles

1 Prsentation de l'enseignement
EC PSR83B : Introduction aux analyses multidimensionnelles EC PSR83C : Informatique. Applications Horaires : mardi 8h15-10h15 - Salle A204 Contrle des connaissances : (contrle continu) PSR83B : Examen crit (3 heures) PSR83C : Evaluation de TD

1.1 Bibliographie
Cibois P. : L'analyse factorielle, 2000, PUF, Coll. Que sais-je N 2095 Escoffier B., Pags J.C. : Analyses factorielles simples et multiples, 1988, Dunod Bry, X. : Analyses factorielles simples, 1995, Ed. Economica Lebart L., Morineau A., Piron M. : Statistique exploratoire multidimensionnelle, 2000, Dunod Crucianu M., Asselin de Beauville J-P., Bon R. : Mthodes factorielles pour l'analyse de donnes Doise W., Clmence A., Lorenzi-Cioldi F. : Reprsentations sociales et analyses de donnes, 1992, PUG, Grenoble

1.2 Autres sources de documentation


Sites internet de ce cours : http://infolettres.univ-brest.fr/~carpenti/ http://geai.univ-brest.fr/~carpenti/ Autres sites visiter : Le site de l'enseignement de Statistiques de l'Universit de Paris 5 http://piaget.psycho.univ-paris5.fr/Statistiques/ Documents rdigs par R. Palm (au format Postscript) : http://www.fsagx.ac.be/si/NotesdeStatetInfo.htm

1.3 Programmes
Analyse d'un protocole multinumrique. Nuage euclidien. Inertie et variance d'un nuage. Directions principales d'un nuage. Analyse en composantes principales.
F.-G. Carpentier - 2006 1

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

Description d'un tableau de contingence : effectifs, frquences, taux de liaison. Coefficient de contingence. Analyse factorielle des correspondances. Analyse des correspondances multiples. Tableau disjonctif de Burt. Nuage des modalits. Nuage des individus, des patrons. Prsentation de la classification ascendante hirarchique.

2 Analyse en composantes principales ou ACP


2.1 Introduction
On a observ p variables sur n individus. On dit qu'il s'agit d'un protocole multivari. On cherche remplacer ces p variables par q nouvelles variables rsumant au mieux le protocole, avec q p et si possible q=2. L'ACP a l'avantage de rsumer un ensemble de variables corrles en un nombre rduit de facteurs non corrls.

2.2 Mini-exemple
Ci-dessous, un tableau de notes attribues 9 sujets dans 5 matires. Sujet Jean Aline Annie Monique Didier Andr Pierre Brigitte Evelyne Math 6 8 6 14,5 14 11 5,5 13 9 Sciences 6 8 7 14,5 14 10 7 12,5 9,5 Franais 5 8 11 15,5 12 5,5 14 8,5 12,5 Latin 5,5 8 9,5 15 12 7 11,5 9,5 12 Musique 8 9 11 8 10 13 10 12 18

Donnes centres rduites :


Sujet Jean Aline Annie Monique Didier Andr Pierre Brigitte Evelyne Math -1,0865 -0,4939 -1,0865 1,4322 1,2840 0,3951 -1,2347 0,9877 -0,1975 Sciences -1,2817 -0,6130 -0,9474 1,5604 1,3932 0,0557 -0,9474 0,8916 -0,1115 Franais -1,5037 -0,6399 0,2239 1,5197 0,5119 -1,3597 1,0878 -0,4959 0,6559 Latin -1,6252 -0,7223 -0,1806 1,8058 0,7223 -1,0835 0,5417 -0,1806 0,7223 Musique -1,0190 -0,6794 0,0000 -1,0190 -0,3397 0,6794 -0,3397 0,3397 2,3778

On dfinit ainsi p variables Z1, Z 2 ,..., Z p .

F.-G. Carpentier - 2006

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

La somme des valeurs de chaque colonne est nulle (donnes centres, moyenne nulle pour chaque variable). La somme des carrs des valeurs de chaque colonne est 9 (donnes rduites, donc d'cart type gal 1)

Nuage des individus - Inertie du nuage


Le nuage des individus est l'ensemble des 9 points correspondant aux 9 sujets, pris dans un espace de dimension 5 (le nombre de variables). 2 = n p = 9 5 = 45 . L'inertie totale du nuage est OM i2 = x ij Inertie (absolue) de l'individu i : OM i2 . OM i2 Inertie relative de l'individu i : Inri = OM 2j

Nuage des variables


De faon duale, on peut considrer les 5 points correspondant aux 5 variables, dans un espace de dimension 9 (le nombre des individus). 1 L'inertie absolue de chaque variable est n, son inertie relative est . p

Corrlations des variables prises deux deux :


Math Sciences Franais Latin Musique Math 1,0000 0,9825 0,2267 0,4905 0,0112 Sciences 0,9825 1,0000 0,3967 0,6340 0,0063 Franais 0,2267 0,3967 1,0000 0,9561 0,0380 Latin 0,4905 0,6340 0,9561 1,0000 0,0886 Musique 0,0112 0,0063 0,0380 0,0886 1,0000

Comme les variables sont centres rduites, la corrlation entre la variable Z k et la variable Z l est 1 simplement zik z il . n i Dans notre exemple, toutes les variables sont corrles positivement. La corrlation est forte entre les 2 premires, et entre la 3 et la 4. La cinquime est faiblement corrle aux autres variables.

2.2.1 Analyse en composantes principales (norme)

2.2.1.1 Valeurs propres et vecteurs propres. Composantes principales


Les composantes principales CP1, CP2, ..., CPp sont des variables obtenues comme combinaisons linaires des variables de dpart, et qui vrifient les proprits suivantes : - CP1 reprsente la direction de plus grande dispersion du nuage de points. - CP2 reprsente la direction de plus grande dispersion des rsidus, une fois l'effet de CP1 pris en compte - mme chose pour CP3, CP4, etc - Les variables CPk sont indpendantes : si k l , alors Cov (CPk , CPl ) = 0 - Les variables CPk ne sont en gnral pas rduites : la variance de la composante principale CPk est gale la k-ime valeur propre. Le terme de "valeur propre" (en anglais : eigenvalue) appartient au domaine de l'algbre linaire. Il s'agit en fait des valeurs propres de la matrice des corrlations. Mathmatiquement, on dit que la matrice des
F.-G. Carpentier - 2006 3

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

corrlations et la matrice diagonale des valeurs propres sont semblables : elles reprsentent la mme information (l'inertie du nuage de points) dans deux systmes d'axes orthonorms diffrents. Val. propr 1 2 3 4 5 2,8618 1,1507 0,9831 0,0039 0,0004 % Total variance 57,24 23,01 19,66 0,08 0,01 Cumul Val. propr 2,86 4,01 5,00 5,00 5,00 Cumul % 57,24 80,25 99,91 99,99 100,00

Val. Propres (matrice de corrl.) Variables actives seules 3,5

3,0

57,24%

2,5 Valeur propre

2,0

1,5 23,01% 1,0 19,66%

0,5 ,08% ,01%

0,0

-0,5 0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

5,0

5,5

6,0

Numro de valeur propre

La variation totale (100%) est rpartie selon 5 valeurs propres. D'o l'ide de ne garder que les valeurs propres (et directions propres) qui reprsentent au moins 20% de variation. Variante : on observe une brusque dcroissance des valeurs propres entre la 3 et la 4 valeur propre. Au final, on dcide de ne garder que trois valeurs propres.

2.2.1.2 Rsultats relatifs aux individus


Scores des individus
Les scores des individus sont les valeurs des composantes principales sur les individus. Coordonnes factorielles des ind., bases sur les corrlations (crucianu-1-1.sta) Var. illustrative : Sujet Fact. 1 Fact. 2 Fact. 3 1 -2,7857 0,6765 0,7368 2 -1,2625 0,3303 0,5549 3 -1,0167 -1,0198 0,2881 4 3,1222 0,1659 1,1442 5 1,9551 0,7879 0,1892 6 -0,9477 1,2014 -1,1401
F.-G. Carpentier - 2006 4

Sujet Jean Aline Annie Monique Didier Andr

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

7 8 9

-0,3250 0,6374 0,6231

-1,7548 1,1298 -1,5173

0,9095 -0,6919 -1,9909

Pierre Brigitte Evelyne

Contributions des individus


La contribution relative d'un individu i la formation de la composante principale k est dfinie par : ( Score de Si selon CPk ) 2 ( Score de Si selon CPk ) 2 CTR( Si , CPk ) = = n k (Score de S j selon CPk )2
j

(2,7857) 2 (2,7857) 2 Par exemple : CTR( S1, CP1 ) = = = 0,3013 2,7857 2 + 1,2625 2 + ... + 0,62312 9 2,8618

Contributions des ind., bases sur les corrlations (crucianu-1-1.sta) Var. illustrative : Sujet Fact. 1 Fact. 2 Fact. 3 Sujet 1 30,13 4,42 6,14 Jean 2 6,19 1,05 3,48 Aline 3 4,01 10,04 0,94 Annie 4 37,85 0,27 14,80 Monique 5 14,84 5,99 0,40 Didier 6 3,49 13,94 14,69 Andr 7 0,41 29,73 9,35 Pierre 8 1,58 12,33 5,41 Brigitte 9 1,51 22,23 44,79 Evelyne

Qualits de la reprsentation des individus


La qualit de la reprsentation d'un individu i par la composante principale k est dfinie par : ( Score de Si selon CPk ) 2 ( Score de Si selon CPk ) 2 QLT ( Si , CPk ) = = Inertie( Si ) (Score de Si selon CPl )2 Par exemple :
l

(2,7857) 2 (2,7857) 2 QLT ( S1, CP1 ) = = = 0,8855 2,7857 2 + 0,6765 2 + ... + 0,0332 2 1,0865 2 + 1,2817 2 + 1,5037 2 + 1,6252 2 + 1,0190 2 Gomtriquement, la qualit de la reprsentation d'un individu i par la composante principale k est gale cos2 , o est l'angle (OM i , CP k ).

Cosinus carrs, bases sur les corrlations (crucianu-1-1.sta) Var. illustrative : Sujet Fact. 1 Fact. 2 Fact. 3 1 0,8855 0,0522 0,0619 2 0,7920 0,0542 0,1530 3 0,4784 0,4813 0,0384 4 0,8786 0,0025 0,1180 5 0,8515 0,1383 0,0080 6 0,2465 0,3962 0,3568 7 0,0263 0,7671 0,2061 8 0,1877 0,5898 0,2211 9 0,0583 0,3458 0,5954
F.-G. Carpentier - 2006 5

Sujet Jean Aline Annie Monique Didier Andr Pierre Brigitte Evelyne

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

Les qualits de reprsentation sont additives. Par exemple, la qualit de reprsentation d'un individu i par le plan (CP1, CP2) est donne par : ( Score de Si selon CP1 ) 2 + ( Score de Si selon CP2 ) 2 QLT ( Si , CP1;CP2 ) = (Score de Si selon CPl )2 Pour le sujet 1 (Jean), la qualit de reprsentation par le plan factoriel 1x2 est : 0,8855+0,0522=0,9377. Cette valeur reprsente le carr du cosinus de l'angle que fait OM 1 avec le plan (CP1, CP2).
Projection des ind. sur le plan factoriel ( 1 x 2) Observations avec la somme des cosinus carrs >= 0,00 Var. illustrative : Sujet 2,0 1,5 Andr 1,0 Jean Fact. 2 : 23,01% 0,5 0,0 Aline Brigitte Didier
l

Monique

-0,5 Annie -1,0 Evelyne -1,5 -2,0 -2,5 -5 -4 -3 -2 -1 0 1 2 3 4 5 Active Fact. 1 : 57,24% Pierre

Projection des ind. sur le plan factoriel ( 1 x 3) Observations avec la somme des cosinus carrs >= 0,00 Var. illustrative : Sujet 2,0 1,5 Monique 1,0 0,5 Fact. 3 : 19,66% 0,0 Brigitte Andr Jean Pierre Aline Annie

Didier

-0,5 -1,0 -1,5

Evelyne -2,0 -2,5 -3,0 -5 -4 -3 -2 -1 0 1 2 3 4 5 Active Fact. 1 : 57,24%

2.2.1.3 Rsultats relatifs aux variables


Saturations des variables
Les saturations des variables sont les coefficients de corrlation entre les variables (centres rduites) de dpart et les variables factorielles.
F.-G. Carpentier - 2006 6

SAT ( Z j , CPk ) = ( Z j , CPk ) N.B. Les variables de dpart sont centres rduites, les variables principales sont centres, et de variances gales aux valeurs propres correspondantes. On peut donc retrouver les saturations l'aide d'un calcul tel que : (1,0865)(2,7857) + (0,4939)(1,2625) + (1,0865)(1,0168) + (1,4322)(3,1222) SAT ( Z1, CP1) = + 9 2,8618 (1,2840)(1,9551) + (0,3951)(0,9478) + (1,2347)(0,3250) + (0,9877)(0,6373) + (0,1975)(0,6231) 9 2,8618

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

Coord. factorielles des var., bases sur les corrlations (crucianu-1-1.sta) Fact. 1 Fact. 2 Fact. 3 Math 0,8059 0,5714 -0,1534 Sciences 0,8970 0,4308 -0,0929 Franais 0,7581 -0,6110 0,2257 Latin 0,9103 -0,3975 0,1084 Musique 0,0667 -0,3275 -0,9425

Contributions des variables


Les contributions des variables la formation des composantes principales sont dfinies de la mme faon que celles des individus : ( Saturation de Z i selon CPk ) 2 ( Saturation de Z i selon CPk ) 2 CTR( Z i , CPk ) = = k (Saturation de Z j selon CPk )2
j

Par exemple : CTR( Z1, CP1 ) =

0,8059 2 = 0,2269 2,8618

Contributions des var., bases sur les corrlations (crucianu-1-1.sta) Fact. 1 Fact. 2 Math 0,2269 0,2837 Sciences 0,2812 0,1613 Franais 0,2008 0,3245 Latin 0,2895 0,1373 Musique 0,0016 0,0932

Fact. 3 0,0239 0,0088 0,0518 0,0120 0,9035

Qualits de la reprsentation des variables


La qualit de la reprsentation d'une variable par une composante principale est dfinie de la mme faon que pour les individus : ( Saturation de Z i selon CPk ) 2 QLT ( Z i , CPk ) = = ( Saturation de Z i selon CPk ) 2 2 (Saturation de Z i selon CPl ) Mais, comme les variables Zi sont normes, la qualit est simplement le carr de la saturation de la variable par rapport la composante principale. Comme dans le cas des individus, les qualits des reprsentations d'une variable selon les composantes principales s'additionnent. Le tableau ci-dessous donne les qualits de reprsentation selon la premire
F.-G. Carpentier - 2006 7
l

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

composante principale, selon le plan des deux premires composantes, dans l'espace dfini par les trois premires composantes. Communauts, bases sur les corrlations (crucianu-1-1.sta) Avec 1 Avec 2 facteur facteurs Math 0,6495 0,9759 Sciences 0,8046 0,9902 Franais 0,5747 0,9481 Latin 0,8286 0,9866 Musique 0,0044 0,1117 Avec 3 facteurs 0,9995 0,9988 0,9990 0,9983 1,0000

Graphiquement, la qualit de la reprsentation d'une variable dans le plan (CP1, CP2) est le carr de la norme (longueur) du vecteur reprsentant cette variable (projection de cette variable dans le plan).

Reprsentation des variables :


Projection des variables sur le plan factoriel ( 1 x 2) 1,0

Math 0,5 Fact. 2 : 23,01% Sciences

0,0 Musique Latin

-0,5

Franais

-1,0 -1,0 -0,5 0,0 Fact. 1 : 57,24% 0,5 1,0 Active

F.-G. Carpentier - 2006

PSR83B - Introduction aux analyses multidimensionnelles


Projection des variables sur le plan factoriel ( 1 x 3) 1,0

2005/2006

0,5 Fact. 3 : 19,66% Franais Latin 0,0 Sciences Math

-0,5

Musique -1,0 -1,0 -0,5 0,0 Fact. 1 : 57,24% 0,5 1,0 Active

2.2.1.4 Rsultats relatifs l'analyse elle-mme :


Coefficients des variables :
Le tableau des coefficients des variables ("loadings" en anglais) peut tre lu de deux faons : - il permet de calculer les valeurs des composantes principales partir des variables centres rduites de dpart - il permet de retrouver les valeurs des variables centres rduites de dpart partir des valeurs des composantes principales. Vecteurs propres de la matrice de corrlation (crucianu-1-1.sta) Variables actives seules Fact. 1 Fact. 2 Fact. 3 Math 0,4764 0,5326 -0,1548 Sciences 0,5302 0,4016 -0,0936 Franais 0,4481 -0,5696 0,2276 Latin 0,5381 -0,3706 0,1093 Musique 0,0394 -0,3053 -0,9505

Fact. 4 -0,3030 0,5168 0,4775 -0,6416 0,0390

Fact. 5 0,6112 -0,5308 0,4414 -0,3868 0,0140

Mathmatiquement, ce tableau est la matrice de "changement de base orthonorme" permettant de passer des variables Zi aux composantes principales CPk ou vice-versa. On observera que : - chaque ligne reprsente un vecteur de norme 1 - chaque colonne reprsente un vecteur de norme 1 - deux "vecteurs ligne" quelconques sont orthogonaux - deux "vecteurs colonne" quelconques sont orthogonaux Pour l'individu 1, les variables de dpart ont pour valeurs : Math -1,0865
F.-G. Carpentier - 2006

Sciences -1,2817

Franais -1,5037
9

Latin -1,6252

Musique -1,0190

On retrouve ainsi le score de cet individu sur la premire composante principale :

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

CP1,1 = (1,0865)(0,4764) + (1,2817)(0,5302) + (1,5037)(0,4481) + (1,6252)(0,5381) + (1,0190)(0,0394) = 2,7857

Pour l'individu 1, les scores sur les 5 composantes principales sont : Fact. 1 -2,7857 Fact. 2 0,6764 Fact. 3 0,7368 Fact. 4 -0,0482 Fact. 5 -0,0332

On retrouve ainsi la valeur de la premire composante principale sur cet individu :


CP1,1 = (2,7857)(0,4764) + (0,6764)(0,5326) + (0,7368)(0,1548) + (0,0482)(0,3030) + (0,0332)(0,6112) = 1,0865

Les valeurs propres pourraient galement tre calcules partir du tableau, comme variances des composantes principales. Autrement dit, on pourrait l'aide du tableau des coefficients, retrouver tous les rsultats indiqus ci-dessus. Ce tableau permet galement de retrouver les saturations des variables, en multipliant les coefficients correspondant chaque facteur par la racine carre de la valeur propre correspondante. Par exemple, pour la premire variable et la premire composante principale :
SAT ( Z1, CP1) = 0,4764 2,8618 = 0,8059

F.-G. Carpentier - 2006

10

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

2.3 Analyse en composantes principales avec Statistica


2.3.1 Prsentation des donnes tudies
Rfrences Il s'agit d'une enqute (ONU 1967) sur les budgets-temps (temps pass dans diffrentes activits au cours de la journe). Le tableau suivant comprend 10 variables numriques et 4 variables catgorises. Les 10 variables numriques sont: le temps pass en: Profession, Transport, Mnage, Enfants, Courses, Toilette, Repas, Sommeil, Tl, Loisirs. Les 4 variables catgorises sont: Le sexe (1=Hommes 2=Femmes), lactivit (1=Actifs 2=Non Act. 9=Non prcis), ltat civil (1=Clibataires 2=Maris 9=Non prcis), le Pays (1=USA 2=Pays de l'Ouest 3=Pays de l'Est 4=Yougoslavie). Le code suivant est utilis pour identifier les lignes: H: Hommes, F: Femmes, A: Actifs, N: Non Actifs(ves), M: Maris, C: Clibataires, U: USA, W: Pays de l'Ouest sauf USA, E : Est sauf Yougoslavie, Y: Yougoslavie Les temps sont nots en centimes d'heures. La premire case en haut gauche du tableau (HAU) indique que les Hommes Actifs des USA passent en moyenne 6 heures et 6 minutes (6 heures + 10/100 d'heure, soit 6 heures et 6mn) en activit PROFessionnelle. Le total d'une ligne (sur ces 10 variables numriques) est 2400 (24 heures).

2.3.2 Traitement des donnes avec Statistica


Ouvrez le classeur Budget-temps-ONU.stw et observez les donnes saisies. Pour effectuer l'ACP, nous utilisons le menu Statistiques - Techniques exploratoires multivaries - ACP " la franaise".

La fentre de dialogue permet de spcifier les variables qui participeront l'analyse. Elle permet galement d'indiquer les diffrentes options choisies pour le traitement. Utilisez l'onglet "Avanc" de cette fentre. - Comment seront traites les valeurs manquantes ? Ici, les donnes ne comportent pas de valeur manquante. - L'analyse sera-t-elle base sur les covariances ou sur les corrlations ? Sur l'exemple trait ici, la question mrite d'tre pose, car toutes les donnes sont exprimes avec la mme unit. Cependant, l'tude mene partir des covariances ferait surtout apparatre les variables qui combinent valeurs leves et fortes variations, telles que PROF par exemple. Le paragraphe prcdent concernait l'ACP norme, c'est--dire l'ACP base sur les corrlations. Nous dirons ultrieurement quelques mots sur l'ACP non norme.
F.-G. Carpentier - 2006 11

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

- Utilise-t-on les variances et covariances non corriges (SC/N) ou les variances et covariances corriges (SC/(N-1)). Dans le cas d'une ACP norme, les deux mthodes fournissent des rsultats presque identiques : seuls les scores des individus sont lgrement modifis. En fait, l'ACP est une mthode descriptive et non une mthode infrentielle. Elle est effectue dans un but exploratoire : on tudie les donnes pour elles-mmes, et non en vue d'une gnralisation une population. C'est pourquoi l'utilisation des variances non corriges est gnralement justifie. Cliquez ensuite sur le bouton OK. N.B. Ne fermez pas l'analyse en cours pendant la suite des manipulations. Ainsi, vous n'aurez pas indiquer de nouveau les options ci-dessus, vos rsultats seront cohrents entre eux et se rassembleront dans un mme classeur.

2.3.2.1 Statistiques descriptives - Matrice des corrlations


Ces rsultats peuvent tre obtenus l'aide de l'onglet "Descriptives". Par exemple, la matrice des corrlations est ici :
Corrlations (Budget-temps-ONU dans Budget-temps-ONU.stw) Variable PROF TRAN MENA ENFA COUR TOIL REPA SOMM TELE PROF 1,00 0,93 -0,91 -0,87 -0,66 -0,11 -0,45 -0,54 -0,06 TRAN 0,93 1,00 -0,87 -0,81 -0,50 -0,08 -0,61 -0,70 -0,04 -0,91 -0,87 MENA 1,00 0,86 0,50 -0,04 0,36 0,43 -0,21 ENFA -0,81 0,86 1,00 0,54 0,12 0,37 0,28 0,12 -0,87 -0,66 -0,50 0,50 0,54 1,00 0,59 -0,18 COUR -0,03 0,22 TOIL -0,04 0,12 0,59 1,00 -0,36 -0,22 0,32 -0,11 -0,08 -0,45 REPA -0,61 0,36 0,37 -0,18 -0,36 1,00 0,82 0,32 SOMM -0,54 -0,70 0,43 0,28 -0,03 -0,22 0,82 1,00 0,02 -0,06 -0,04 -0,21 0,12 0,22 0,32 0,32 0,02 1,00 TELE LOIS -0,19 -0,11 -0,11 -0,11 0,24 0,07 -0,04 0,21 -0,10

LOIS -0,19 -0,11 -0,11 -0,11 0,24 0,07 -0,04 0,21 -0,10 1,00

2.3.2.2 Choix des valeurs propres


Affichez d'abord le tableau des valeurs propres et le diagramme correspondant.
Val. Propres (m atrice de corrl.) Variables actives s eules 5,5 5,0 4,5 4,0 3,5 Valeur propre 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -0,5 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 Nom bre de valeurs propres 4,68% 1,99% ,47% ,37% ,24% 13,21% 11,95% 21,20% 45,89%

Pour cela, cliquez sur les boutons "Valeurs propres" et "Trac des valeurs propres" de l'onglet "Base". Dans notre cas, on peut choisir de retenir 4 composantes principales. Dans les manipulations qui suivent, on indiquera donc 4 dans la zone d'dition "nombre de facteurs". On remarque galement que la dernire valeur propre est 0. Cette proprit est due une particularit de nos donnes : la somme des variables de dpart est une constante, gale 2400 sur chaque individu.

F.-G. Carpentier - 2006

12

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

Pour les rsultats relatifs aux individus et aux variables, on utilisera de prfrence les onglets correspondants.

2.3.2.3 Rsultats relatifs aux individus


On pourra obtenir successivement les scores des individus, leurs contributions la formation des composantes principales et leurs qualits de reprsentation en utilisant les boutons "Coordonnes des individus", "Contributions des individus", "Cosinus2".

On peut ensuite obtenir les projections du nuage des individus selon les premiers axes factoriels l'aide du bouton "Projection de individus, 2D". Lorsque les individus ne sont pas anonymes (c'est le cas ici), il est utile d'tiqueter chaque point. Plusieurs mthodes sont possibles : - Utiliser les identifiants d'individus figurant dans la premire colonne du tableau de donnes - Utiliser les numros des observations - Utiliser les tiquettes indiques dans la variable "illustrative" : ces tiquettes peuvent tre des identifiants des individus, mais peuvent galement reprsenter un groupe d'appartenance, etc.
Projec tio n des ind. s ur l e plan factor iel ( 1 x 2) Obs ervations avec la s om m e des cos inus carrs >= 0,00 3
FCU FAU FM U FNU

HCU

Fact. 2 : 21,20%

1
HCE

HAU HCY HM U

FCE FAE FAY FCY FM E FM Y FNY FNE

HAE HM HM YE HAY

-1
FAW FCW FM W FNW

-2

HAW HM W HCW

-3 -3 -2 -1 0 1 Fact. 1 : 45,89% 2 3 4 5 Active

2.3.2.4 Rsultats relatifs aux variables


Activons ensuite l'onglet "Variables".
F.-G. Carpentier - 2006 13

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

On obtient les saturations des variables en cliquant sur le bouton "Coordonnes des variables" ou le bouton "Corrlation facteurs et variables" : dans le cas d'une ACP norme, ces deux traitements fournissent le mme rsultat. On obtient leurs contributions la formation des composantes principales en utilisant le bouton "Contributions des variables". Les qualits de reprsentation sont calcules, de faon cumulative (qualit de la projection selon CP1, puis selon le plan (CP1,CP2), puis selon l'espace (CP1,CP2,CP3) en utilisant le bouton "Communauts (Cosinus2)".

Reprsentation des variables


Le bouton "Projection des variables, 2D" permet d'obtenir les diagrammes reprsentant les projections des variables selon les plans dfinis par deux axes principaux.
P rojec tio n des variab les s ur le plan factor ie l ( 1 x 2 ) 1,0 TOIL COUR 1,0 P rojec tio n des variab les s ur le plan factor ie l ( 2 x 3 )

0,5 Fact. 2 : 21,20% E NFA MENA Fact. 3 : 13,21% TELE LOIS

0,5

MENA

TRAN 0,0 PROF

0,0 SOMM

ENFA LOIS TRAN PROF

COUR

TOIL REPA -0,5

-0,5

SOMM REPA

TELE -1,0 -1,0 -0,5 0,0 Fact. 1 : 45,89% 0,5 1,0 Active -1,0 -1,0 -0,5 0,0 Fact. 2 : 21,20% 0,5 1,0 Active

F.-G. Carpentier - 2006

14

PSR83B - Introduction aux analyses multidimensionnelles


P rojec tio n des variab les s ur le plan factor ie l ( 3 x 4 ) 1,0

2005/2006

0,5 ENFA Fact. 4 : 11,95% TELE 0,0 REPA TOIL PROF TRAN COUR MENA

SOMM -0,5

LOIS -1,0 -1,0 -0,5 0,0 Fact. 3 : 13,21% 0,5 1,0 Active

2.3.2.5 Coefficients des variables


Les coefficients des variables (c'est--dire la matrice permettant de passer des variables centres rduites aux variables principales et vice-versa) seront obtenus l'aide du bouton "Vecteurs propres" de l'onglet "Variables".

2.3.3 Variables supplmentaires et individus inactifs avec Statistica


Plusieurs motifs peuvent nous pousser dclarer certaines variables comme supplmentaires et/ou certains individus comme inactifs. Par exemple, lorsque des individus ou des variables ont une influence trop importante sur les rsultats d'une ACP, on peut essayer de recommencer les calculs en les dclarant comme individus inactifs ou variables supplmentaires. Les donnes correspondantes n'interviennent plus dans le calcul de dtermination des composantes principales. En revanche, on leur applique les mmes transformations qu'aux autres donnes afin de les r-introduire dans les tableaux et graphiques de rsultats. Avec Statistica, il est simple de dclarer une variable comme variable supplmentaire : le premier dialogue de l'ACP prvoit une zone d'dition pour cela. Pour dclarer des individus comme "inactifs", il est ncessaire de construire une variable supplmentaire, qui ne contiendra que deux modalits, et d'utiliser les zones d'dition "Variable avec individus actifs" et "Code des individus actifs". Dans une tude de psychologie sociale, il arrive frquemment que l'intrt du chercheur se porte sur les variations et les oppositions entre groupes de sujets plutt que sur les variations individuelles. Pour obtenir des rsultats concernant ces groupes, on peut ajouter au tableau les individus inactifs, avec comme valeurs des variables, les moyennes observs sur les groupes. Dans l'exemple que nous traitons, nous disposons d'une variable catgorise "sexe" et d'une variable "zone gographique". Il serait intressant de faire apparatre sur les graphiques des points reprsentant les moyennes observes sur les deux sexes, ou les moyennes correspondant chacune des 4 zones gographiques tudies.

2.3.3.1 Calcul des moyennes par sexe, par zone gographique


Faire une copie de la feuille de donnes Budget-Temps-ONU

F.-G. Carpentier - 2006

15

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

Veillez ce que la feuille de donnes Budget-Temps-ONU soit un lment terminal de la hirarchie des objets du classeur. A l'aide du bouton droit de la souris, pointez l'icne de la feuille dans le volet gauche du classeur et utilisez le menu Extraire dans une fentre indpendante - Copie. Insrez ensuite cette fentre comme objet du classeur, et renommez-la Budget-avec-Moyennes. Insrez cette feuille six lignes supplmentaires, qui serviront accuillir les moyennes par sexe et par zone gographique.

Calcul des moyennes d'une variable, selon les groupes dfinis par la variable catgorise SEX
Utilisez le menu Statistiques Elmentaires - Dcompositions ; tableau non factoriel. Sous l'onglet "Base", indiquez les 10 premires variables comme variables dpendantes, et SEX variable de classement :

Sous l'onglet "Statistiques descriptives", d-selectionnez l'ensemble des botes cocher :

Copiez ensuite les deux lignes de moyennes obtenues et collez-les dans la feuille Budget-avec-moyennes, comme observations 29 et 30. Attribuez ces deux lignes les noms d'observations : Hommes et Femmes. Procdez de mme pour les moyennes par zone gographique. On obtient, dans l'ordre, les USA, l'Ouest, la Yougoslavie et l'Est.

2.3.3.2 ACP avec les moyennes par sexe et par zone gographique comme individus supplmentaires
Introduisez dans la feuille de donnes "Budget-avec-moyennes" une variable supplmentaire : "Individus actifs", valant 1 sur les 28 premires observations, et 0 sur les 6 moyennes qui suivent.
F.-G. Carpentier - 2006 16

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

Rendez active cette feuille de donnes et refaites une ACP en dclarant en remplissant le premier dialogue comme suit :

Vous pouvez ainsi obtenir des rsultats tels que le suivant :


Proj ec tio n des ind. s ur le plan factoriel ( 1 x 2) Obs ervations avec la s om m e des cos inus carrs >= 0,00 Var . ob s . a cti ves : Individu Actif 3
FCU FAU FM U FNU

HCU

USA

Fact. 2 : 21,20%

1
HCE

HCY HAU HM U

FCE FCY FAY Est Yougoslavie FAE FM E Fem m es FNE FM Y FNY

HAE HM HM YE HAY Hom m es

-1
FAW FCW FM W FNW Ouest HAW HM W HCW

-2

-3 -3 -2 -1 0 1 Fact. 1 : 45,89% 2 3 4 5

Active Suppl.

2.3.4 Calculer les donnes centres rduites


On sait que l'ACP norme travaille sur les donnes centres rduites drives des donnes de base. Les dialogues du module "Techniques Exploratoires Multivaries" ne fournissent pas ces donnes. On peut cependant les obtenir de la faon suivante : Faites une nouvelle copie de la feuille de donnes "Budget-temps-ONU" et rinsrez-la dans le classeur. Renommez-la Budget-centre-reduit Affichez cette feuille et utilisez le menu Donnes - Centrer-rduire... pour remplacer les 10 premires variables par les variables centres rduites associes.

F.-G. Carpentier - 2006

17

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

2.4 Interprter les rsultats d'une ACP


2.4.1 Examen des valeurs propres. Choix du nombre d'axes
On examine les rsultats relatifs aux valeurs propres. Plusieurs critres peuvent nous guider : - "mthode du coude" on examine la courbe de dcroissance des valeurs propres pour dterminer les points o la pente diminue de faon brutale ; seuls les axes qui prcdent ce changement de pente seront retenus. - si l'analyse porte sur p variables et n > p individus, la variation totale est rpartie sur p axes. On peut alors choisir de conserver les axes dont la contribution relative est suprieure 100% , ce qui revient, pour une ACP norme, conserver les valeurs propres suprieures 1. p

2.4.2 Interprter les rsultats relatifs aux individus


Trs souvent, les individus pris en compte pour une ACP sont en nombre trs lev et sont considrs comme anonymes. Les lments qui suivent concernent videmment les cas o ils ne le sont pas.

2.4.2.1 Contributions des individus la formation d'un axe


On relve, pour chaque axe, quels sont les individus qui ont la plus forte contribution la formation de l'axe. Par exemple, on retient (pour l'analyse) les individus dont la contribution relative est suprieure 100% . On note galement si cette contribution intervient dans la partie positive ou dans la partie ngative n de l'axe. Ainsi, pour l'exemple Budget-temps, on s'intresse aux contributions relatives suprieures 100% = 3,57% . On pourra s'aider du tableau suivant pour interprter la premire variable factorielle : 28
HCE (4,98%) HMY (3,84%) HAY (3,64%) HAE (3,59%) + FNW (14,5%) FNU (12,8%) FNE (11,95%) FNY (9,73%) FMW (7,63%) FMU (5,31%)

On peut ainsi caractriser l'axe en termes d'opposition entre individus : ici, femmes autres que "femmes actives" v/s hommes actifs ou non prcis. Il peut galement tre intressant d'tudier comment l'axe classe les individus. Si un individu a une contribution trs forte la formation d'un axe, on peut choisir de recommencer l'analyse en retirant cet individu, puis de l'introduire en tant qu'individu supplmentaire.

2.4.2.2 Projections des individus dans un plan factoriel


Mme s'il s'agit du plan (CP1, CP2), les proximits entre individus doivent tre interprtes avec prudence : deux points proches l'un de l'autre sur le graphique peuvent correspondrent des individus loigns l'un de l'autre. Pour interprter ces proximits, il est ncessaire de tenir compte des qualits de reprsentation des individus. Se mfier galement des individus proches de l'origine : mal reprsents, ou proches de la moyenne, ils ont, de toutes faons, peu contribu la formation des axes tudis.
F.-G. Carpentier - 2006 18

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

2.4.3 Interprter les rsultats relatifs aux variables

2.4.3.1 Contributions des variables


L'examen du tableau des contributions des variables peut permettre d'identifier des variables qui ont un rle dominant dans la formation d'un axe factoriel. Pour l'exemple "Budget-Temps-ONU", on voit ainsi que les variables PROF, TRAN, MENA, ENFA jouent un rle prpondrant dans la formation du premier axe. En revanche, les axes factoriels N3 et 4 reprsentent essentiellement les variables TELE et LOIS.

2.4.3.2 Analyse des projections des variables sur les plans factoriels
Les diagrammes reprsentant les projections des variables sur les axes factoriels nous fournissent plusieurs types d'informations : - La longueur du vecteur reprsentant la variable est lie la qualit de la reprsentation de la variable par sa projection dans ce plan factoriel : le carr de la longueur est la qualit de la reprsentation. - Pour les variables bien reprsentes, l'angle entre deux variables est li au coefficient de corrlation entre ces variables (si la reprsentation est exacte, le coefficient de corrlation est le cosinus de cet angle). Ceci permet de dgager des "groupes de variables" de significations voisines, des groupes de variables qui "s'opposent", des groupes de variables relativement indpendantes entre eux. - De mme, pour les variables bien reprsentes, l'angle que fait la projection de la variable avec un axe factoriel est li au coefficient de corrlation de cette variable et de l'axe factoriel. - L'exemple des notes est un cas (frquent en pratique) o toutes les variables sont corrles positivement entre elles. Le premier axe factoriel correspond alors une synthse de l'effet commun ces variables. Dans notre exemple, cela correspondrait au "niveau scolaire gnral" des sujets. Ce facteur a souvent une interprtation vidente et l'tude doit s'attacher analyser les facteurs suivants. Ce phnomne est connu sous le nom d'"effet taille".

F.-G. Carpentier - 2006

19

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

2.4.4 Quelques rgles d'interprtation plus gnrales


Les commentaires qui suivent proviennent, pour l'essentiel, de l'ouvrage de W. Doise et al. cit en bibliographie. La technique en composantes principales reproduit avec parcimonie la variation totale d'un grand nombre de variables (pour fixer les ides, dans les cas les plus courants: de 10 40) en un nombre sensiblement plus restreint de dimensions (gnralement: de 2 6). L'chantillon des individus doit tre au moins aussi important que le nombre de variables, mais si possible de quatre cinq fois plus important. L'analyse implique ncessairement une certaine perte d'informations par rapport aux rponses des individus. Elle fournit en contrepartie une vision bien structure et immdiatement accessible de la manire dont les variables covarient, s'opposent, ou sont entre elles indpendantes. La saturation de chaque variable sur chaque dimension indique la contribution de la variable la dimension en question. Les saturations sont d'autant plus leves que les variables correspondantes contribuent donner un sens la dimension. Le carr d'une saturation fournit la proportion de variance commune de la variable correspondante qui est explique par la dimension (ainsi, une saturation de 0.80 indique que 64 % de la variation de la variable est explique par la dimension). On ne considre gnralement, aux fins de l'interprtation des dimensions, que les saturations atteignant la valeur de 10.30 (ce qui correspond approximativement 10 % de variance explique). Le signe de la saturation est un lment important, tout comme il l'est dans l'examen des corrlations entre deux variables. Deux variables ayant des saturations de mme signe (positif ou ngatif) sur une dimension, covarient sur cette dimension. Si les saturations ont des signes opposs, elle contribuent de manire oppose la signification de la dimension. On distingue habituellement trois types de dimensions (ou facteurs, ceci s'appliquant aussi bien la technique en facteurs communs). La premire dimension dcrit la direction principale du faisceau de corrlations. Cette dimension est le plus souvent un facteur gnral, sur lequel toutes les variables ont des saturations positives et relativement leves. Elle dcrit donc une source de variation traversant l'ensemble de la population analyse: la dimension est prsente chez tous les individus mais, fait important, des degrs diffrents. Les dimensions successives seront soit des dimensions de groupes, soit spcifiques. Les dimensions de groupes sont constitues par deux ou plus de deux variables qui covarient sur une dimension. Lorsque des signes positifs et ngatifs sont prsents sur la mme dimension, on parle de facteurs de groupe bipolaires (par opposition unipolaires). Enfin, les facteurs spcifiques sont ceux qui ne comportent que des saturations leves pour une variable la fois. Habituellement, l'utilisateur arrte l'analyse avant l'apparition de telles dimensions.

2.5 Exemples et exercices


2.5.1 Le cas "Basket"
On s'intresse au profil de 18 basketteurs de 14 ans. Ils ont pass un certain nombre de tests relatifs aux qualits physiques requises pour la pratique de cette discipline. TAI : taille en cm VIT : vitesse sur 30 m (en secondes) DET : dtente verticale en cm : sauter le plus haut possible, le bras tendu PAS : passe en mtres : lancer un ballon de basket le plus loin possible LEG : endurance, en litres/mn/kg : test Le Luc Lger
F.-G. Carpentier - 2006 20

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

STA : adresse statique, en nombre de paniers. La variable VIT est code systmatiquement avec un signe "-" afin que, comme pour les autres variables, une valeur leve traduise une bonne performance. Source : Institut National du Sport et de l'Education Physique (I.N.S.E.P.) - Extrait d'un fichier trait par Marion Wolf pour la Fdration Franaise de Basket-Ball
SUJET I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 TAI 170 181 192 173 170 175 170 168 166 181 186 180 185 192 191 192 192 195 VIT -4 -5 -5,1 -4,1 -4 -4,3 -4,4 -4 -4 -5,3 -4,7 -4,6 -4,8 -5 -4,9 -4,9 -5,1 -5,3 DET 77 49 50 70 70 72 70 76 76 48 55 50 50 48 45 43 50 50 PAS 15 15 16,1 15,5 12,5 12,4 12 11 10 15,2 15,5 12 12,8 11,5 11,3 10,5 10,5 15,1 LEG 63,7 45,1 46,2 63,5 64,3 61,6 65,6 64 64 50,2 51 51,7 49,7 45,6 45,9 48,9 45 47,1 STA 17 11 15 17 19 18 10 7 8 10 14 16 19 17 16 18 16 19

On ralise une ACP norme sur ces donnes. Les rsultats fournis par Statistica (ou Excel) sont les suivants : Donnes centres rduites et inerties relatives des individus (Excel)
SUJET I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 TAI -1,1447 -0,0058 1,1332 -0,8341 -1,1447 -0,6270 -1,1447 -1,3518 -1,5589 -0,0058 0,5120 -0,1093 0,4084 1,1332 1,0297 1,1332 1,1332 1,4438 VIT 1,3863 -0,7836 -1,0006 1,1694 1,3863 0,7354 0,5184 1,3863 1,3863 -1,4346 -0,1326 0,0844 -0,3496 -0,7836 -0,5666 -0,5666 -1,0006 -1,4346 DET 1,5461 -0,7661 -0,6836 0,9680 0,9680 1,1332 0,9680 1,4635 1,4635 -0,8487 -0,2707 -0,6836 -0,6836 -0,8487 -1,0965 -1,2616 -0,6836 -0,6836 PAS 0,9983 0,9983 1,5458 1,2472 -0,2461 -0,2959 -0,4950 -0,9928 -1,4905 1,0978 1,2472 -0,4950 -0,0968 -0,7439 -0,8434 -1,2416 -1,2416 1,0481 LEG 1,2003 -1,1159 -0,9789 1,1754 1,2750 0,9388 1,4369 1,2377 1,2377 -0,4808 -0,3812 -0,2940 -0,5431 -1,0536 -1,0163 -0,6427 -1,1284 -0,8669 STA 0,5695 -1,0076 0,0438 0,5695 1,0953 0,8324 -1,2705 -2,0591 -1,7962 -1,2705 -0,2191 0,3067 1,0953 0,5695 0,3067 0,8324 0,3067 1,0953 Inertie 7,76% 4,13% 5,65% 5,80% 6,53% 3,59% 5,96% 11,71% 12,48% 5,40% 1,95% 0,84% 2,09% 4,27% 4,09% 5,41% 5,24% 7,09%

Corrlations (Basket.sta)
TAI VIT DET F.-G. Carpentier - 2006 TAI 1,0000 -0,8833 -0,8974 VIT -0,8833 1,0000 0,9108 21 DET -0,8974 0,9108 1,0000 PAS 0,1054 -0,2217 -0,0760 LEG -0,9241 0,9206 0,9498 STA 0,4630 -0,1748 -0,2969

PSR83B - Introduction aux analyses multidimensionnelles PAS 0,1054 -0,2217 -0,0760 LEG -0,9241 0,9206 0,9498 STA 0,4630 -0,1748 -0,2969

1,0000 -0,1230 0,1278

-0,1230 1,0000 -0,2621

2005/2006 0,1278 -0,2621 1,0000

Val. Propres (matrice de corrl.) & stat. associes (Basket.sta) Variables actives seules
Val. propr 1 2 3 4 5 6 3,8960 1,0174 0,8992 0,0877 0,0678 0,0319 % Total variance 64,9331 16,9573 14,9862 1,4613 1,1304 0,5318
Val. Propres (matrice de corrl.) Variables actives seules 4,5 4,0 3,5 3,0 2,5 2,0 Valeur propre 1,5 16,96% 1,0 0,5 1,46% 0,0 -0,5 -1 0 1 2 3 4 5 6 7 8 Numro de valeur propre 1,13% ,53% 14,99% 64,93%

Cumul Val. propr 3,8960 4,9134 5,8126 5,9003 5,9681 6,0000

Cumul % 64,9331 81,8904 96,8766 98,3378 99,4682 100,0000

Coordonnes factorielles des ind., bases sur les corrlations (Basket.sta)


I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 Fact. 1 -2,3534 1,1832 2,0077 -1,7791 -2,1211 -1,5300 -2,2965 -3,1679 -3,2637 1,1787 0,7097 0,3985 1,1835 1,9067 1,7906 1,8079 1,8643 2,4808 Fact. 2 -1,6298 -0,0810 -1,0247 -1,7315 -0,7309 -0,4875 0,6306 1,3129 1,6115 -0,0647 -0,8580 0,4097 -0,2256 0,7151 0,9374 1,0146 1,2658 -1,0639 Fact. 3 0,3578 -1,6450 -0,9373 0,1988 1,3785 1,0646 -0,6465 -0,8662 -0,4352 -2,0121 -0,7993 0,4446 0,8347 0,6446 0,5114 1,1800 0,6147 0,1118

Contributions des ind., bases sur les corrlations (Basket.sta)


F.-G. Carpentier - 2006 22

PSR83B - Introduction aux analyses multidimensionnelles Fact. 1 7,90 2,00 5,75 4,51 6,42 3,34 7,52 14,31 15,19 1,98 0,72 0,23 2,00 5,18 4,57 4,66 4,96 8,78 Fact. 2 14,50 0,04 5,73 16,37 2,92 1,30 2,17 9,41 14,18 0,02 4,02 0,92 0,28 2,79 4,80 5,62 8,75 6,18 Fact. 3 0,79 16,72 5,43 0,24 11,74 7,00 2,58 4,64 1,17 25,01 3,95 1,22 4,30 2,57 1,62 8,60 2,33 0,08

2005/2006

I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18

Cosinus carrs, bases sur les corrlations (Basket.sta)


I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 Fact. 1 0,6606 0,3140 0,6605 0,5055 0,6377 0,6033 0,8189 0,7934 0,7905 0,2384 0,2396 0,1742 0,6197 0,7892 0,7251 0,5592 0,6139 0,8035 Fact. 2 0,3168 0,0015 0,1721 0,4788 0,0757 0,0613 0,0618 0,1363 0,1927 0,0007 0,3503 0,1841 0,0225 0,1110 0,1987 0,1761 0,2830 0,1478 Fact. 3 0,0153 0,6070 0,1440 0,0063 0,2693 0,2922 0,0649 0,0593 0,0141 0,6945 0,3040 0,2167 0,3083 0,0902 0,0591 0,2383 0,0667 0,0016

F.-G. Carpentier - 2006

23

PSR83B - Introduction aux analyses multidimensionnelles


Projection des ind. sur le plan factoriel ( 1 x 2) Observations avec la somme des cosinus carrs >= 0,00 2,5 2,0 I9 1,5 1,0 I7 0,5 0,0 I6 -0,5 Fact. 2 : 16,96% Fact. 3 : 14,99% -1,0 -1,5 -2,0 -2,5 -3,0 -5 -4 -3 -2 -1 0 1 2 3 4 5 Active I1 I4 I5 I11 I3 I18 I12 I10 I2 I13 I8 I17 I16 I15 I14

2005/2006

Fact. 1 : 64,93%

Projection des ind. sur le plan factoriel ( 2 x 3) Observations avec la somme des cosinus carrs >= 0,00 2,5 2,0 1,5 1,0 0,5 0,0 I9 -0,5 I3 -1,0 -1,5 -2,0 -2,5 -3,0 -3,0 I2 I10 I11 I7 I8 I1 I4 I5 I6 I13 I14 I12 I18 I15 I17 I16

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

Active

Fact. 2 : 16,96%

Corrl. facteur-var. (poids fact.), bases sur corrlations (Basket.sta)


TAI VIT DET PAS LEG STA Fact. 1 0,9676 -0,9450 -0,9617 0,1919 -0,9695 0,4065 Fact. 2 0,0292 -0,0701 -0,1484 -0,8667 -0,1248 -0,4721 Fact. 3 0,1209 0,2349 0,0359 -0,4593 0,0922 0,7801

Contributions des var., bases sur les corrlations (Basket.sta)


TAI VIT DET PAS LEG STA F.-G. Carpentier - 2006 Fact. 1 0,2403 0,2292 0,2374 0,0094 0,2412 0,0424 Fact. 2 0,0008 0,0048 0,0216 0,7383 0,0153 0,2191 24 Fact. 3 0,0162 0,0614 0,0014 0,2347 0,0095 0,6768

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006 Avec 3 facteurs 0,9516 0,9531 0,9482 0,9990 0,9640 0,9968

Communauts, bases sur les corrlations (Basket.sta)


TAI VIT DET PAS LEG STA Avec 1 facteur 0,9362 0,8930 0,9249 0,0368 0,9399 0,1652 Avec 2 facteurs 0,9370 0,8979 0,9469 0,7880 0,9555 0,3882

Projection des variables sur le plan factoriel ( 1 x 2) 1,0

0,5

TAI 0,0 VIT LEG DET

Vecteurs propres de la matrice de corrlation (Basket.sta) Variables actives seules


TAI VIT DET PAS LEG STA F.-G. Carpentier - 2006 Fact. 1 0,4902 -0,4788 -0,4872 0,0972 -0,4912 0,2059 Fact. 2 0,0290 -0,0695 -0,1471 -0,8592 -0,1237 -0,4681 25 Fact. 3 0,1275 0,2477 0,0379 -0,4844 0,0972 0,8227 Fact. 4 0,5993 -0,3305 0,6993 -0,0556 0,1821 -0,0798 Fact. 5 -0,3593 -0,7150 -0,1617 -0,0922 0,5473 0,1594 Fact. 6 0,5044 0,2900 -0,4737 0,0776 0,6335 -0,1728

Fact. 2 : 16,96% Fact. 3 : 14,99%

STA -0,5

PAS -1,0 -1,0 -0,5 0,0 Fact. 1 : 64,93% 0,5 1,0

Active

Projection des variables sur le plan factoriel ( 2 x 3) 1,0 STA

0,5 VIT LEG TAI DET 0,0

PAS -0,5

-1,0 -1,0 -0,5 0,0 Fact. 2 : 16,96% 0,5 1,0

Active

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

1) Examiner la matrice des corrlations entre les variables. Faites un commentaire. 2) Examen du nuage de points : quels sont les sujets dont l'inertie est la plus forte ? Quels sont ceux dont l'inertie est la plus faible ? On choisit de ne conserver que 3 composantes principales. Justifier ce choix. 2) a) Quels sont les sujets qui contribuent le plus fortement la formation du premier axe principal ? Indiquez galement si leur contribution intervient dans la partie positive ou dans la partie ngative de l'axe. b) Citez deux sujets qui sont bien reprsents par leur premire composante principale. Quels sont les deux sujets les plus mal reprsents par cette composante ? 3) Analysez, de la mme faon, le deuxime, puis le troisime axe principal. 4) a) Quelles sont les variables les plus fortement corrles avec la premire composante principale. Interprtez cette composante l'aide de ces variables. b) De mme, donnez une interprtation des deuxime et troisime composantes principales.

2.5.2 Le cas Psychomtrie


Pour 20 lves (sujets s1 s20), on a relev les notes obtenues cinq preuves individuelles : Combinatoire (Comb), Probabilits (Prob), Logique (Logi), notes de 0 10, QI verbal (QI, notes de 85 125) et Mathmatiques (Math), note de 0 20. Pour chaque sujet, on dispose de deux informations : Pdagogie avec deux modalits p1 (moderne) et p2 (traditionnelle), Milieu avec deux modalits m1 (favoris) et m2 (dfavoris). s1 s2 s3 s4 s5 s6 s7 s8 s9 s10 s11 s12 s13 s14 s15 s16 s17 s18 s19 s20 Comb 3,9 5 5,3 8,3 5,5 6,6 5,5 2,2 5,3 5,3 4,6 3,7 4,1 2,7 6,8 2,7 5,4 6,2 2,5 2,4 Prob 4,1 5 8,5 6,2 6 7,7 3 4,5 4,5 6,4 4,6 4,1 6,7 4,5 4,5 3,7 8,9 4,7 4,7 4,4 Logi 6 5,2 8,6 7,2 6,9 5,8 5,8 3,3 8,3 6,5 5,2 7,2 7,1 3 7,1 6,9 7,3 4,4 7,2 5,2 QI 99 122 108 125 108 113 94 85 112 125 108 91 91 109 125 94 120 112 106 91 Math 8 10 14 18 5 7 10 9 10 12 14 15 6 9 12 13 15 7 11 12 Peda p1 p1 p1 p1 p1 p1 p1 p1 p1 p1 p1 p1 p2 p2 p2 p2 p2 p2 p2 p2 Milieu m1 m1 m1 m1 m2 m2 m2 m2 m2 m2 m2 m2 m1 m1 m1 m1 m1 m2 m2 m2

F.-G. Carpentier - 2006

26

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

1) Saisir les donnes dans Statistica sous une forme convenant la ralisation d'une analyse en composantes principales.. 2) Ralisez une analyse en composantes principales norme, sur les 4 variables Comb, Prob, Logi et Math. Dterminez notamment la matrice des corrlations, les valeurs propres, les scores, contributions et qualits des individus sur les deux premires composantes, les coefficients des variables et les saturations, contributions et qualit des variables (2 premires composantes). Ralisez le graphique des individus et celui des variables par rapport aux deux premiers axes principaux. 3) Examiner et commenter le tableau des corrlations. 4) Les variables Comb et Proba apparaissent proches sur le graphique. Quel est pourtant leur coefficient de corrlation ? Comment peut-on l'expliquer ? 5) Les points s8 et s14 apparaissent trs proches sur le graphique. Est-ce le cas dans la ralit ? Mme question pour s9 et s15. 6) Comment les variables contribuent-elles la formation de l'axe CP1 ? Comment cet axe classe-t-il les individus ? 7) Comment les variables contribuent-elles la formation de l'axe CP2 ? Dcrire cet axe en termes d'oppositions entre variables, en termes d'oppositions entre individus. 8) a) Ralisez le graphique des individus en tiquetant les points l'aide des modalits de la variable Pdagogie, puis en tiquetant les points l'aide des modalits de la variable Milieu. Interprtez les graphiques obtenus. b) Calculez les moyennes des variables observes dans les 4 groupes dfinis par les combinaisons de modalits des variables Pdagogie et Milieu. Ajoutez ces moyennes comme observations supplmentaires dans la feuille de donnes Statistica, puis reprenez l'ACP en dclarant ces valeurs comme individus supplmentaires. Ralisez un graphique des individus affichant ces individus supplmentaires. 9) L'tude limite aux deux premires composantes vous parat-elle suffisante ? Comment souhaiteriezvous poursuivre cette tude ?

2.5.3 Le cas "Budget-temps Multimdia"


Le CESP (Centre d'tude des Supports de Publicit) a relev, dans son Enqute Budget-temps Multimdia de 1991/1992 auprs de 17 665 personnes, des descripteurs de frquentation de divers mdias (radio, tlvision, presse) et des temps d'activits quotidiennes (cf. Boeswillwald, 1992). Ont t galement releves de nombreuses caractristiques socioconomiques, parmi lesquelles l'ge, le sexe, l'activit, le niveau d'ducation, et le lieu de rsidence de ces personnes, ce qui a conduit crer 96 catgories en croisant ces divers critres. Nous nous intressons seulement ici la sous-population des hommes actifs, soit 27 groupes qui seront, pour cet exemple, les "individus". On cherche connatre les associations entre les temps consacrs diffrentes activits par les "individus" observs et tudier les liens entre ces familles d'activits et les caractristiques de base des individus. L'tude originale se proposait d'tudier le lien entre les activits quotidiennes et la frquentation de divers mdias (presse, radio, tlvision, cinma). Pour ce faire, elle faisait intervenir les caractristiques socioF.-G. Carpentier - 2006 27

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

conomiques (variables nominales) et les habitudes de frquentation des mdias (variables numriques continues) en tant que variables supplmentaires. Mais ces donnes ne sont pas prsentes ici. L'ensemble des donnes se trouve dans la feuille de donnes Statistica Budget-temps-multimedia.sta du serveur de TD. Ci-dessous figurent quelques indications pour la lecture de ce tableau : Les 27 "individus" (qui sont en ralit dans le cadre de cet exemple des groupes d'individus) sont reprs par un identificateur en 4 caractres: - le 1er caractre est l'ge du groupe (1=jeune, 2=moyen, 3=g) - le 2me caractre est ici toujours gal 1 (car il s'agit ici d'une slection d'hommes actifs) - le 3me est le niveau d'ducation (1=primaire, 2=secondaire, 3=suprieur) - le 4me est le type d'agglomration ( 1=communes rurales; 2=villes moyennes; 3=villes importantes; 4=agglomration parisienne; 5,6,7 = groupes mixtes). La signification des 16 variables actives est la suivante : Somm.......... Sommeil Repo ........... Repos Reps ........... Repas chez soi Repr ........... Repas restaurant Trar ............ Travail rmunr Mna .......... Mnage Visi ............ Visite amis Jard ............ Jardinage, Bricolage Lois ............ Loisirs extrieur Disq ............ Disque cassette Lect ............ Lecture livre Cour ........... Courses dmarches Prom .......... Promenade A pi ............ Dplacement pied Voit ............ Dplacement en Voiture Frq ............ Frquentation Mdia On lit par exemple sur la premire ligne du tableau que le groupe '1111' (jeunes, actifs, peu instruits, ruraux) consacre en moyenne par jour 463,8 minutes au "sommeil", 23,8 minutes des activits regroupes sous la rubrique "repos", 107,3 minutes pour les "repas chez soi", etc. Analysez ces donnes l'aide d'une ACP, en suivant la mthode d'interprtation qui a t indique en cours. N.B. Bien que la dcroissance des valeurs propres soit relativement progressive, on tudiera essentiellement les deux premires composantes principales. Crez des variables nominales supplmentaires Age, Niveau d'ducation, Catgorie d'agglomration et, pour chacune d'elle, ralisez un graphe de projection des individus en utilisant comme tiquettes les modalits de la variable. Essayez d'interprtez les graphes ainsi obtenus.

2.5.4 Le cas Sleep


Rfrences . [Crucianu] p. 19, qui fait lui-mme rfrence un article publi dans Science en 1976 par T. Allison et D. Ciccheti et des donnes accessibles l'adresse http://www.stat.ucl.ac.be/ISdidactique/Rhelp/library/psy/html/sleep.html. L'exemple qui suit est extrait d'une tude sur les relations qu'entretient le sommeil des mammifres avec diffrents facteurs morphologiques et cologiques.
F.-G. Carpentier - 2006 28

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

L'ensemble tudi est constitu des reprsentants typiques de 62 espces de mammifres varis, de la taupe l'lphant, dcrits par 10 variables numriques. Chaque individu est d'abord caractris par des mesures concernant le poids du corps en kilogrammes, le poids du cerveau en grammes, le nombre d'heures de sommeil sans rve par jour, le nombre d'heures de sommeil avec rves, la somme des deux types de sommeil, la dure de vie maximale en annes, et la dure de la priode de gestation en jours. Trois indices ont t calcul : - Un indice de prdation : 1= faible risque d'tre chass par un prdateur 5 = fort risque. - Un indice d'exposition pendant le sommeil : 1= animal dormant dans une tanire trs protge, 5 = animal trs expos aux prdateurs pendant son sommeil - Un indice de dangerosit, obtenu partir des indices prcdents et d'autres informations, dcrivant dans quelle mesure le mammifre peut tre mis en danger par d'autres animaux. Ouvrez la feuille de donnes sleep.sta et observez les donnes saisies. Traitez ces donnes l'aide d'une ACP norme et interprtez les rsultats, en utilisant essentiellement les rsultats relatifs aux variables, et les deux premires dimensions factorielles. Vous devriez parvenir aux rsultats suivants : On observe que toutes les variables sont relativement bien reprsentes par les 2 premiers axes factoriels. On observe galement qu'aucune variable n'a un rle dominant dans l'orientation des axes factoriels. Trois groupes de variables apparaissent : un premier groupe concernant directement le sommeil, un deuxime groupe de variables lies l'valuation du danger et un troisime groupe relatif aux caractristiques physiques. Le premier axe factoriel oppose le groupe "sommeil" aux deux autres groupes : les temps de sommeil les plus longs sont observs chez les mammifres qui sont le moins en danger. Le deuxime axe factoriel montre une autre opposition, moins forte, entre le groupe "danger" et le groupe "caractristiques physiques" : il existe, globalement, une corrlation ngative entre la taille du mammifre et le danger encouru. L'lment le plus vident dans le diagramme de projection des individus est la position excentre des individus 1 et 5 (lphants d'Afrique et d'Asie). Pour l'essentiel, l'examen du diagramme des individus confirme l'analyse propose partir de l'examen des variables. Reprenez alors l'tude en plaant dclarant ces deux individus comme individus inactifs.

2.5.5 Travail rendre par mail


On a demand 11 tudiants ce qu'ils pensaient de 15 disciplines scientifiques au moyen de 6 paires d'adjectifs antonymes. Les 11 tudiants appartiennent au DEA de didactique des disciplines scientifiques et sont ou seront des enseignants scientifiques. Les 15 disciplines sont : 1-algbre 6-thologie 11-physique nuclaire 2-astrologie 7-informatique 12-psychologie 3-biologie molculaire 8-linguistique 13-science 4-didactique 9-mdecine 14-sociologie 5-cologie 10-neurologie 15-technologie Les 6 paires d'adjectifs utiliss sont appeles des diffrentiateurs smantiques d'Osgood. Ce sont : I prcis (1)-imprcis (5) II dur (1)-mou (5)
F.-G. Carpentier - 2006 29

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

III subjectif (1)-objectif (5) IV faux (1)-vrai (5) V faible (1)-fort (5) VI fantaisiste (1)-srieux (5) Pour un tudiant donn, une discipline donne et une paire d'adjectifs donne l'opinion exprime sur la discipline par l'tudiant au moyen du diffrentiateur est une note qui peut prendre 5 valeurs : 1 association forte avec le premier terme du diffrentiateur 2 prfrence pour le premier terme du diffrentiateur 3 absence d'opinion 4 prfrence pour le second terme du diffrentiateur 5 association forte avec le second terme du diffrentiateur Le tableau de donnes du fichier Disciplines-Differentiateurs.stw indique le score moyen obtenu par chaque discipline sur chaque paire d'adjectifs. N.B. L'tiquette retenue pour dsigner chaque couple est le second terme du diffrentiateur. 1) Traitez ces donnes par une analyse en composantes principales norme, en plaant l'astrologie comme individu supplmentaire. Calculez notamment l'aide de Statistica le tableau des corrlations, celui des valeurs propres, les scores, contributions et qualits de reprsentation des individus et les saturations, contributions et qualits de reprsentation des variables. Ralisez la reprsentation des individus et celle des variables dans le premier plan factoriel. 2) Etude du tableau des valeurs propres a) A quoi correspond la somme des valeurs propres ? b) On choisit de n'tudier que les deux premires composantes principales. Justifier ce choix en analysant le tableau des valeurs propres. 3) Etude du tableau des corrlations. Quelles sont les variables le plus fortement corrles entre elles ? Y a-t-il des variables pratiquement non corrles ? 4) Etude des qualits de reprsentation dans le premier plan principal. Quel est l'individu le moins bien reprsent par le premier plan principal ? Quel est l'individu le mieux reprsent ? 5) Etude du nuage des individus. a) Quels sont les individus dont la contribution la formation de la premire composante principale est suprieure la moyenne ? Pour chacun d'eux, prciser le signe de la coordonne correspondante. Caractriser cet axe en termes d'opposition entre individus. b) Mme question pour la deuxime composante principale. 6) Etude du nuage des variables a) La reprsentation graphique des variables montre qu'elles sont toutes trs bien reprsentes dans le plan (CP1, CP2). Justifier cette affirmation. b) Quelles sont les deux variables qui sont le plus fortement corrles la premire variable principale ? c) Mme question pour la deuxime variable principale. d) Deux variables sont pratiquement indpendantes de la 2 variable principale. Lesquelles ? e) A propos de cet exemple, peut-on parler "d'effet de taille" ? 7) L'individu "Astrologie" a t plac en individu supplmentaire dans l'analyse. a) Quel rle joue un tel individu dans le droulement des calculs ncessaires l'excution de l'ACP ?
F.-G. Carpentier - 2006 30

PSR83B - Introduction aux analyses multidimensionnelles

2005/2006

b) Pour quelles raisons a-t-on choisi de placer en individu supplmentaire ? c) Commenter les valeurs numriques obtenues et la position de cet individu sur le graphique. N.B. Les rsultats fournis par cette ACP ne constituent videmment en aucune faon un jugement de valeur sur les disciplines cites. Les conclusions ventuelles peuvent tout au plus porter sur les opinions des 11 sujets interrogs... Travail rendre par mail votre enseignant (Francois.Carpentier@univ-brest.fr) : - Un classeur Statistica contenant les rsultats numriques de l'ACP et les graphiques. - Un fichier Word contenant votre interprtation des rsultats, avec notamment des rponses aux questions 2 7.

2.6 Variantes et extensions de la mthode


2.6.1 ACP pondre, ACP non norme
Dans certains cas, il peut tre pertinent de pondrer les individus. Par exemple, il peut s'agir de regrouper les observations identiques. Ou encore, dans une ACP relative des donnes socio-conomiques sur des entits gographiques telles que des rgions ou des dpartements, il peut tre pertinent de pondrer chaque observation par une donne dmographique (nombre d'habitants). Il est galement possible de raliser l'ACP sur les covariances des variables de dpart, au lieu d'utiliser les corrlations. Le poids d'une variable dpend alors de son cart type, alors que dans l'ACP norme, toutes les variables ont le mme poids.

2.6.2 ACP avec rotation


Par construction, les composantes principales sont des abstractions mathmatiques et ne possdent pas ncessairement de signification intuitive. Aprs avoir ralis l'ACP, il peut parfois tre intressant de dfinir d'autres variables en effectuant une combinaison linaire des composantes principales retenues, l'aide d'une "rotation". L'objectif est gnralement d'augmenter les saturations, c'est--dire les corrlations entre ces nouveaux "facteurs" et certaines variables de dpart. Les nouveaux "facteurs" ainsi obtenus perdent les proprits des facteurs principaux. Par exemple, le premier d'entre eux ne correspond plus la direction de plus grande dispersion du nuage des individus. En revanche, la part de variance explique par les facteurs retenus reste identique. Il existe diffrents critres (varimax, quartimax, equamax, etc) permettant d'obtenir une rotation conduisant des saturations proches de 1 ou -1, ou au contraire proches de 0. Cette possibilit n'est pas disponible dans la mthode "ACP la franaise" de Statistica. En revanche, on peut l'utiliser en utilisant le module "Analyse factorielle" convenablement paramtr.

F.-G. Carpentier - 2006

31

You might also like